1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu sử dụng thuật toán phân lớp naïve bayes Để chuẩn Đoán bệnh viêm gan

24 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Sử Dụng Thuật Toán Phân Lớp Naive Bayes Để Chuẩn Đoán Bệnh Viêm Gan
Tác giả Nguyễn Mạnh Tuấn, Nguyễn Hồng Sơn, Nguyễn Tiến Mùi
Người hướng dẫn Vũ Văn Định
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo chuyên đề
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 24
Dung lượng 2,26 MB

Nội dung

Lời Cảm ƠnNhóm chúng em xin gửi lời tri ân sâu sắc đến các thầy, cô giáo trong KhoaCông nghệ thông tin, trường Đại học Điện Lực, đã tạo điều kiện thuận lợi chochúng em thực hiện đề tài "

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN

Hà Nội, tháng 06 năm 2024

Trang 3

MỤC LỤC

LỜI CẢM ƠN 6

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, TIỀN XỬ LÝ DỮ LIỆU 7

1.1 Đặt vấn đề 7

1.2 Tổng quan về khai phá dữ liệu 7

1.2.1 Khái niệm 7

1.2.2 Quy trình khai phá tri thức 7

1.2.3 Lợi ích của khai phá dữ liệu 9

1.2.4 Ứng dụng của khai phá dữ liệu 9

1.3 Tiền xử lý dữ liệu 10

1.3.1 Khái niệm 10

1.3.2 Làm sạch dữ liệu 10

1.3.3 Tích hợp dữ liệu 10

1.3.4 Biến đổi dữ liệu 10

1.3.5 Thu giảm dữ liệu 11

CHƯƠNG 2: KHÁI QUÁT CÁC THUẬT TỐN ĐƯỢC SỬ DỤNG ĐỂ KHAI PHÁ DỮ LIỆU 12

2.1 Phân lớp dữ liệu 12

2.1.1 Khái niệm 12

2.1.1 Các thuật tốn phân lớp dữ liệu 12

2.2 Khai phá, kết hợp 12

2.3 Phân cụm 13

2.3.1 Khái niệm 13

2.3.2 Các thuật tốn phân cụm 13

2.4 Sử dụng thuật tốn phân lớp Nạve Bayes để dự đốn bệnh viêm gan và nhận biết nấm ăn được hay khơng 13

2.4.1 Khái niệm thuật tốn phân lớp Nạve Bayes 13

2.4.2 Ưu điểm của thuật tốn Nạve Bayes 14

2.4.3 Nhược điểm của thuật tốn Nạve Bayes 15

Trang 4

CHƯƠNG 3: CI ĐẶT V THỬ NGHIỆM KẾT QUẢ 16

3.1 Cài đặt phần mềm Weka 16

3.2 Thử nghiệm và kết quả cùng Weka 18

3.2.1 File dữ liệu thử nghiệm 18

3.2.2 Thử nghiệm dữ liệu với Weka 19

3.2.3 Kết quả với Weka 21

KẾT LUẬN 23

TÀI LIỆU THAM KHẢO 24

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1: 8

Hình 2 16

Hình 3 16

Hình 4 17

Hình 5 17

Hình 6 18

Hình 7 19

Hình 8 20

Hình 9 21

Hình 10 22

Hình 11 23

Hình 12 24

Hình 13 25

Trang 6

Lời Cảm Ơn

Nhóm chúng em xin gửi lời tri ân sâu sắc đến các thầy, cô giáo trong KhoaCông nghệ thông tin, trường Đại học Điện Lực, đã tạo điều kiện thuận lợi chochúng em thực hiện đề tài "Khai phá dữ liệu sử dụng thuật toán phân lớp nhị phân

để dự đoán bệnh viêm gan và nhận biết nấm ăn được hay không"

Thành công của đề tài này không thể thiếu sự hướng dẫn tận tình và nhữnggóp ý quý báu của thầy Vũ Văn Định Thầy đã truyền đạt cho chúng em nhữngkiến thức chuyên môn, kỹ năng nghiên cứu và phương pháp khoa học để hoànthành đề tài một cách hiệu quả

Bên cạnh đó, nhóm em cũng xin gửi lời cảm ơn chân thành đến các bạn bè

đã đồng hành, hỗ trợ và đóng góp ý kiến trong suốt quá trình thực hiện Nhờ sựgiúp đỡ của các bạn, đề tài của chúng em được hoàn thiện và nâng cao chất lượng.Tuy nhiên, do thời gian và trình độ còn hạn chế, đề tài không tránh khỏinhững thiếu sót Nhóm em mong nhận được những góp ý và phê bình từ các thầy,

cô giáo và các bạn để đề tài được hoàn thiện hơn nữa

Cuối cùng, nhóm em xin chúc các thầy, cô giáo và các bạn sức khỏe, hạnhphúc và thành công trong cuộc sống

Trang 7

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU,

TIỀN XỬ LÝ DỮ LIỆU 1.1 Đặt vấn đề

Ứng dụng cơng nghệ thơng tin trong việc lưu trữ và xử lý thơng tin ngày nay

đã tạo ra một lượng lớn dữ liệu được lưu trữ với kích thước khơng ngừng tăng lên.Điều này tạo điều kiện thuận lợi cho việc khai thác kho dữ liệu để đem lại tri thức

cĩ ích với các cơng cụ truy vấn, lập bảng biểu và khai phá dữ liệu

Khai phá dữ liệu là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết như xácsuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩn trong các kho dữ liệu

cĩ kích thước lớn mà người dùng khĩ cĩ thể nhận biết bằng những kỹ thuật thơngthường Trong lĩnh vực y tế, nguồn dữ liệu rất lớn và việc áp dụng khai phá dữ liệu

cĩ thể mang lại nhiều ý nghĩa Nĩ cĩ thể cung cấp thơng tin quý giá nhằm hỗ trợtrong việc chuẩn đốn và điều trị sớm, giúp bệnh nhân thốt khỏi nhiều căn bệnhnguy hiểm

Trong dự án của nhĩm, chúng tơi quyết định áp dụng thuật tốn phân lớpNạve Bayes vào thực tiễn Chúng tơi sẽ sử dụng thuật tốn này để dự đốn bệnhviêm gan và nhận biết khả năng nấm ăn được hay khơng từ dữ liệu y tế

1.2 Tổng quan về khai phá dữ liệu

1.2.1 Khái niệm

Khai phá dữ liệu (Data Mining) là quy trình mà các doanh nghiệp sử dụng

để biến những dữ liệu thơ thành thơng tin hữu ích Bằng cách dùng phần mềm đểtìm mẫu hình trong các tập dữ liệu, doanh nghiệp cĩ thể hiểu hơn về khách hàngcủa họ và phát triển được những chiến lược marketing hiệu quả, giúp tăng doanhthu và giảm chi phí

1.2.2 Quy trình khai phá tri thức

 Tìm hiểu lĩnh vực của bài tốn: Bước này bao gồm việc xác định mụctiêu của bài tốn, cũng như thu thập và hiểu rõ dữ liệu liên quan đếnlĩnh vực

 Thu thập dữ liệu phù hợp: Tập trung vào việc thu thập dữ liệu từ cácnguồn phù hợp với mục tiêu của bài tốn

 Làm sạch và tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu, điền giá trị cịnthiếu, chuẩn hĩa dữ liệu và xác định các thuộc tính quan trọng

Trang 8

 Lựa chọn chức năng khai phá dữ liệu: Dựa trên mục tiêu của bài toán,chọn các kỹ thuật phù hợp như phân loại, gom cụm, dự báo, hoặc sinh

 Đánh giá mẫu thu được và biểu diễn tri thức: Đánh giá hiệu suất của

mô hình hoặc tri thức thu được và biểu diễn chúng một cách hợp lý,

có thể là thông qua biểu đồ, bảng biểu, hoặc các phương tiện trựcquan khác

 Sử dụng tri thức được khai phá: Áp dụng tri thức đã thu được vàothực tiễn, có thể là để đưa ra quyết định, cải thiện quy trình, hoặc tối

ưu hóa kết quả

Hình 1: Quá trình khám phá tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước

 Data cleaning (làm sạch dữ liệu)

 Data integration (tích hợp dữ liệu)

 Data selection (chọn lựa dữ liệu)

Trang 9

 Data transformation (biến đổi dữ liệu)

 Data mining (khai phá dữ liệu)

 Pattern evaluation (đánh giá mẫu)

 Knowledge presentation (biểu diễn tri thức)

1.2.3 Lợi ích của khai phá dữ liệu

Lợi ích trong quá trình phân tích dữ liệu

 Chọn lọc, loại bỏ tất cả các dữ liệu không liên quan và dữ liệu bị trùng

 Xác định các mẫu dữ liệu, dữ liệu có liên quan và dữ liệu trùng lặp trong tập

 Hỗ trợ giảm thiểu chi phí

 Hỗ trợ khả năng thấu hiểu khách hàng

1.2.4 Ứng dụng của khai phá dữ liệu

 Thương mại điện tử và bán lẻ: Các doanh nghiệp sử dụng khai phá dữ liệu

để phân tích hành vi mua hàng của khách hàng, dự đoán xu hướng mua sắm,

cá nhân hóa trải nghiệm mua sắm, và tối ưu hóa quy trình cung ứng và lưu

trữ

 Ngân hàng và tài chính: Các tổ chức tài chính sử dụng khai phá dữ liệu để

phát hiện gian lận, dự đoán rủi ro tín dụng, quản lý danh mục đầu tư, và cá nhân hóa dịch vụ tài chính

 Y tế và dược phẩm: Trong lĩnh vực y tế, khai phá dữ liệu được sử dụng để

phát hiện các xu hướng bệnh tật, dự đoán bệnh lý, phân loại bệnh, và tìm kiếm các phương pháp điều trị hiệu quả

 Marketing và quảng cáo: Các doanh nghiệp sử dụng khai phá dữ liệu để

phân tích hành vi tiêu dùng, dự đoán kết quả chiến dịch quảng cáo, và tối ưu hóa chiến lược marketing

Trang 10

1.3 Tiền xử lý dữ liệu

1.3.1 Khái niệm

Quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng

dữ liệu (quality of the data) và từ đó cải thiện chất lượng của kết quả khai phá

Chất lượng dữ liệu (data quality)

 Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực

 Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị lỗi thời

 Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biến/thuộc tínhđều được ghi nhận

 Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn nhưnhau trong tất cả các trường hợp

Các kỹ thuật tiền xử lý dữ liệu

 Làm sạch dữ liệu (data cleaning/cleansing)

 Tích hợp dữ liệu (data integration)

 Biến đổi dữ liệu (data transformation)

 Thu giảm dữ liệu (data reduction)

1.3.3 Tích hợp dữ liệu

Là quá trình trộn dữ liệu từ các nguồn khác nhau vào một kho dữ liệu sẵnsàng cho quá trình khai phá dữ liệu

1.3.4 Biến đổi dữ liệu

Là quá trình biến đổi hay kết hợp dữ liệu vào những dạng thích hợp cho quátrình khai phá dữ liệu

 Làm trơn dữ liệu (smoothing)

 Kết hợp dữ liệu (aggregation)

 Tổng quát hoá (generalization)

 Xây dựng thuộc tính/đặc tính (attribute/feature construction)

 Chuẩn hoá (normalization)

Trang 11

1.3.5 Thu giảm dữ liệu

Tập dữ liệu được biến đổi đảm bảo các toàn vẹn, nhưng nhỏ/ít hơn nhiều về sốlượng so với ban đầu

Các chiến lược thu giảm:

 Kết hợp khối dữ liệu (data cube aggregation)

 Chọn một số thuộc tính (attribute subset selection)

 Thu giảm chiều (dimensionality reduction)

 Thu giảm lượng (numerosity reduction)

 Rời rạc hóa (discretization)

 Tạo phân cấp ý niệm (concept hierarchy generation)

Trang 12

CHƯƠNG 2: KHÁI QUÁT CÁC THUẬT TOÁN ĐƯỢC SỬ

Quá trình gồm hai bước:

Bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp (classifier) bằngviệc phân tích/học tập huấn luyện

Bước phân lớp (classification): phân lớp dữ liệu/đối tượng mới nếu độ chínhxác của bộ phân lớp được đánh giá là có thể chấp nhận được (acceptable)

2.1.1 Các thuật toán phân lớp dữ liệu

 Phân lớp với cây quyết định (decision tree)

 Phân lớp với Naive Bayesian

 Phân lớp với k phần tử gần nhất (k-nearest neighbor)

 Phân loại dữ liệu với mạng neurale)

 Phân loại dữ liệu với SVM…

2.2 Khai phá, kết hợp

Là quá trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong cácđối tượng dữ liệu Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các giá trịthuộc tính trong tập các đối tượng

Trang 13

2.3 Phân cụm

2.3.1 Khái niệm

Phân cụm dữ liệu là bài tốn gom nhĩm các đối tượng dữ liệu vào thánh từngcụm (cluster) sao cho các đối tượng trong cùng một cụm cĩ sự tương đồng theomột tiêu chí nào đĩ

2.3.2 Các thuật tốn phân cụm

- Phân hoạch(partitioning): các phân hoạch được tạo ra và đánh giá theo mộttiêu chí nào đĩ

- Phân cấp(hierarchical): phân rã tập dữ liệu/đối tượng cĩ thứ tự phân cấp theomột tiêu chí nào đĩ

- Dựa trên cấp độ (density-based): dựa trên connectivity and density functions

- Dựa trên lưới (grid-based): dựa trên multiple-level granularity structuree)

- Dựa trên mơ hình (model-based): một mơ hình giả thuyết được tạo ra chomỗi cụm; sau đĩ hiệu chỉnh các thơng số để mơ hình phù hợp với cụmdữliệu/đối tượng nhất……

2.4 Sử dụng thuật tốn phân lớp Nạve Bayes để dự đốn bệnh viêm gan và nhận biết nấm ăn được hay khơng

2.4.1 Khái niệm thuật tốn phân lớp Nạve Bayes

Naive Bayes là một thuật tốn phân lớp được mơ hình hố dựa trên định lý Bayes trong xác suất thống kê:

trong đĩ:

P(y|X) gọi là posterior probability: xác suất của mục tiêu y với điều kiện cĩ đặc trưng X

P(X|y) gọi là likelihood: xác suất của đặc trưng X khi đã biết mục tiêu y

P(y) gọi là prior probability của mục tiêu y

P(X) gọi là prior probability của đặc trưng X

Trang 14

X là vector các đặc trưng, cĩ thể viết dưới dạng:

Khi đĩ, đẳng thức Bayes trở thành:

Trong mơ hình Naive Bayes, cĩ hai giả thiết được đặt ra:

1 Các đặc trưng đưa vào mơ hình là độc lập với nhau Tức là sự thay đổi giátrị của một đặc trưng khơng ảnh hưởng đến các đặc trưng cịn lại

2 Các đặc trưng đưa vào mơ hình cĩ ảnh hưởng ngang nhau đối với đầu ramục tiêu

Khi đĩ, kết quả mục tiêu y để P(y|X) đạt cực đại trở thành:

2.4.2 Ưu điểm của thuật tốn Nạve Bayes

 Giả định độc lập: hoạt động tốt cho nhiều bài tốn/miền sữ liệu và ứng dụng

 Đơn giản nhưng đủ tốt để giải quyết nhiều bài tốn như phân lớp văn bản,lọc spam, …

 Cho phép kết hợp tri thức tiền nghiệm (prior knowledge) và dữ liệu quan sátđược (obserwed data)

 Tốt khi cĩ sự chệnh lệch số lượng giữa các lớp phân loại

 Huấn luyện mơ hình (ước lượng tham số) dễ và nhanh

Trang 15

2.4.3 Nhược điểm của thuật tốn Nạve Bayes

 Giả định độc lập (ưu điểm cũng chính là nhược điểm) hầu hết các trường hợpthực tế trong đĩ cĩ các thuộc tính trong các đối tượng thường phụ thuộc lẫnnhau

 Vấn đề zero (đã nêu cách giải quyết ở phía trên)

 Mơ hình khơng được huẩn luyện bằng phượng pháp tối ưu mạnh và chặt chẽ

 Tham số mủa mơ hình là các ước lượng xác suất điều kiện đơn lẻ

 Khơng tính đến sự tương tác giữa các ước lượng này

Trang 16

Chương 3: CI ĐẶT V THỬ NGHIỆM HIỆU QUẢ 3.1 Cài đặt phần mềm Weka

Hình 2 : Cài đặt phần mềm

Hình 3 : Xác nhận chạy phần mềm

Trang 17

Hình 4 : Nơi lưu trữ phần mềm

Hình 5 : Trang chủ phấn mềm

Trang 18

3.2 Thử nghiệm và kết quả cùng Weka

3.2.1 File dữ liệu thử nghiệm

Dữ liệu bệnh viêm gan

Hình 6 : Dữ liệu bệnh viêm gan

Trang 19

3.2.2 Thử nghiệm dữ liệu với Weka

B1: Mở Weka và tìm đến file dữ liệu cần thử nghiệm

Hình 7 : Mở Weka và tìm đến file dữ liệu cần thử nghiệm

B2: Sau khi mở file chọn mục classity và chọn thuật toán để thử nghiệm

Hình 8 : Chọn thuật toán để thử nghiệm

Trang 20

B4 Ấn chọn start để chạy file

Hình 9 : Chạy file

Trang 21

3.2.3 Kết quả với Weka

Thông tin

Hình 10 : Thông tin về bệnh

Phân loại lớp

Hình 11 : Phân loại các lớp

Trang 22

Hình 12 : Phân loại lớp

Kết quả

Hình 13 : Kết quả

Trang 23

KẾT LUẬN

Trong đồ án này, chúng tơi đã nghiên cứu và áp dụng thuật tốn phân lớp NạveBayes để khai phá dữ liệu và chuẩn đốn bệnh viêm gan Qua quá trình nghiên cứu,chúng tơi đã đạt được những kết quả đáng khích lệ, cho thấy tiềm năng của việc sửdụng các phương pháp học máy trong lĩnh vực y tế, đặc biệt là trong việc hỗ trợchẩn đốn bệnh

Kết quả thử nghiệm trên bộ dữ liệu viêm gan đã chỉ ra rằng thuật tốn Nạve Bayes

cĩ khả năng phân loại chính xác các trường hợp bệnh viêm gan với độ chính xáccao Cụ thể, các chỉ số đánh giá như độ chính xác (accuracy), độ nhạy (sensitivity),

và độ đặc hiệu (specificity) đều cho thấy phương pháp này cĩ hiệu quả trong việcnhận diện các mẫu bệnh và khơng bệnh

Một trong những ưu điểm nổi bật của thuật tốn Nạve Bayes là khả năng xử lý tốtvới các bộ dữ liệu cĩ kích thước lớn và tính tốn nhanh chĩng, điều này rất quantrọng trong bối cảnh y tế khi mà thời gian và độ chính xác là những yếu tố thenchốt Hơn nữa, thuật tốn này cũng dễ dàng triển khai và cĩ thể được kết hợp vớicác phương pháp khai phá dữ liệu khác để cải thiện hiệu suất

Tuy nhiên, cũng cần lưu ý rằng thuật tốn Nạve Bayes cĩ những hạn chế nhấtđịnh, đặc biệt là giả định về tính độc lập giữa các biến đầu vào Trong thực tế, cácyếu tố gây ra bệnh viêm gan cĩ thể cĩ mối liên hệ phức tạp với nhau, điều này cĩthể ảnh hưởng đến độ chính xác của mơ hình Do đĩ, việc cải tiến thuật tốn hoặckết hợp với các phương pháp khác như hồi quy logistic, cây quyết định hoặc mạngnơ-ron nhân tạo cĩ thể sẽ đem lại kết quả tốt hơn

Tĩm lại, đồ án này đã chứng minh rằng việc áp dụng thuật tốn phân lớp NạveBayes trong chuẩn đốn bệnh viêm gan là khả thi và cĩ hiệu quả cao Những kếtquả đạt được khơng chỉ gĩp phần vào việc nâng cao chất lượng chẩn đốn bệnh màcịn mở ra nhiều hướng nghiên cứu mới trong việc ứng dụng học máy vào y tế.Chúng tơi hy vọng rằng các nghiên cứu tiếp theo sẽ tiếp tục phát triển và hồn thiệncác phương pháp này, gĩp phần vào sự phát triển của y học hiện đại

Trang 24

TI LIỆU THAM KHẢO

[1] Tài liệu của thầy Định gửi

[2][Online]

https://tailieuhust.com/nhap-mon-hoc-may-va-khai-pha-du-lieu/[3][Online]

Ngày đăng: 22/01/2025, 15:13

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN