Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,03 MB
File đính kèm
123.rar
(9 MB)
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA VÕ VĂN VINH HỆ HỖ TRỢ CHẨN ĐOÁN BỆNH BẰNG HỌC MÁY Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG TP.HCM Cán hướng dẫn khoa học: Giáo sư - Tiến sĩ Cao Hoàng Trụ Cán chấm nhận xét 1: Tiến sĩ Võ Thị Ngọc Châu Cán chấm nhận xét 2: Phó giáo sư - Tiến sĩ Hồ Bảo Quốc Luận văn thạc sĩ bảo vệ trường Đại học Bách Khoa - ĐHQG Tp.HCM vào ngày 17 tháng 07 năm 2017 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch hội đồng: Phó giáo sư - Tiến sĩ Dương Tuấn Anh Thư ký hội đồng: Tiến sĩ Nguyễn Anh Khương Phản biện 1: Tiến sĩ Võ Thị Ngọc Châu Phản biện 2: Phó giáo sư - Tiến sĩ Hồ Bảo Quốc ủy viên hội đồng: Phó giáo sư - Tiến sĩ Quản Thành Thơ Xác nhận Chủ tịch Hội đồng đánh giá luận văn Trưởng khoa quản lý chuyên nghành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập –Tự- -Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: VÕ VÀN VINH MSHV: Ngày, tháng, năm sinh: 30/12/1976 Nơi 7140843 sinh: Tỉnh QUẢNG NAM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 604801 I TÊN ĐỀ TÀI: HỆ HỖ TRỢ CHẨN ĐOÁN BỆNH BẢNG HỌC MÁY NHỆM VỤ VÀ NỘI DUNG: Nghiên cứu áp dụng phương pháp chẩn đoán phương pháp cải tiến nâng cao hiệu chẩn đoán bệnh học máy II NGÀY GIAO NHIỆM VỤ: 15/08/2016 III NGÀY HOÀN THÀNH NHỆM VỤ: 19/06/2017 IV CÁN BỘ HƯỚNG DÃN: GS.TS CAO HOÀNG TRỤ TP HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KHOA HỌC MÁY TÍNH (Họ tên chữ ký) (Họ tên chữ ký) GS.TS CAO HỒNG TRỤ LỜI CẢM ƠN Trước hết, tơi bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn: GS.TS Cao Hồng Trụ ln tận tình bảo trình thực luận văn Nhờ gợi mở, nhận xét góp ý thầy mà tơi có định hướng q trình tìm kiếm tài liệu thực nghiên cứu thông qua buổi hướng dẫn thường xuyên thầy văn phòng khoa Khoa Học Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa TP Hồ Chí Minh Tơi xin chân thành cảm ơn đến q thầy, khoa Khoa Học Máy Tính Đại Học Bách Khoa TP Hồ Chí Minh, đặc biệt thầy, cô truyền dạy kiến thức liên quan đến học máy, lĩnh vực mà nghe nói, hồn tồn khơng có hiểu biết trước theo học chương trình cao học Những kiến thức thật giúp trình tìm hiểu, nghiên cứu thực thí nghiệm luận văn Tơi xin cảm ơn phòng Đào tạo Sau đại học, ban chủ nhiệm khoa Khoa học Máy tính tạo điều kiện thuận lợi cho thực nghiên cứu luận văn trình học tập trường Sau xin cảm ơn đến gia đình, bạn bè người ln bên tơi động viên khuyến khích tơi trình thực đề tài nghiên cứu Xin chân thành cảm ơn ! TÓM TẮT Các hệ chuyên gia y khoa truyền thống hệ hỗ trợ định lâm sàng gần ứng dụng tin học ngành y giúp chuyên gia y tế định công việc chăm sóc sức khỏe Qua giai đoạn phát triển nghành khoa học máy tính, hệ thống có phát triển khác khơng ngừng có cải tiến nhằm nâng cao chất lượng Gần đây, với phát triển ngành học máy, nhiều ứng dụng hỗ trợ chẩn đoán bệnh học máy đời Mục tiêu luận văn tìm hiểu áp dụng phương pháp học máy khác tập liệu chuẩn để chẩn đoán bệnh Bên cạnh tìm hiểu việc áp dụng giải thuật liệu khác từ nghiên cứu, chúng tơi tiến hành thí nghiệm đối chiếu kết Đồng thời thay đổi số giải thuật liệu để tiến hành chạy thử nghiệm Ngồi ra, chúng tơi tìm hiểu, nghiên cứu phương pháp để cải tiến nâng cao chất lượng trình chẩn đốn bệnh học máy ABSTRACT Traditional medical expert systems and recent clinical decision support systems(CDSS) are IT applications that have helped medical experts make decisions in health care Due to computer science’s development, these systems have been changing continuously to improve their quality, especially changes in accuracy Recently, when the machine learning is more and more developped, there have been more supported applications systems based on machine learning created The objective of this thesis is to apply the various machine learning methods to some standard datasets about disease diagnosis A part of this research is about applying some machine learning algorithms for the various standard dataset from scientific articles We did some experiments to compare our experiments’ results to the ones of the articles We also replaced some algorithms and datasets to create some diverse results and compared the diverse performance of the algorithms Furthermore, we researched some data methods to improve the quatily of the diagnosis and the performance of these experiments as well LỜI CAM ĐOAN Tôi Võ Văn Vinh học viên cao học khoa Khoa Học Kỹ Thuật Máy Tính, Đại học Bách Khoa TP.HCM, MSHV 7140843 Tôi xin cam đoan luận văn "Hệ Hỗ Trợ Chẩn Đoán Bệnh Bằng Học Máy" kết trình tìm hiểu nghiên cứu ghi chép lại với cam kết sau: - Luận văn thực cho mục đích tìm hiểu nghiên cứu bậc cao học - Các cơng trình, báo tham khảo để xây dựng nên luận văn trích dẫn, tham khảo - Tất tài liệu trích dẫn có tính kế thừa từ tạp chí cơng trình nghiên cứu cơng bố - Những cơng cụ, phần mềm cho q trình thực luận văn phần mềm mã nguồn mở - Hình ảnh số liệu trích dẫn nguồn tham khảo rõ ràng - Kết nghiên cứu trình bày trung thực dựa số liệu thực tế chạy chương trình TP.HCM, ngày 19 tháng 06 năm 2017 Võ Văn Vinh MỤC LỤC MỤC LỤC i DANH MỤC HÌNH ii DANH MỤC BẢNG iii CHƯƠNG TÔNG QUAN I I Giới thiệu 1.2 Động thực đề tài 1.3 Mô tả liệu 1.4 Cấu trúc luận án 10 CHƯƠNG CÁC CƠNG TRÌNH LIÊN QUAN 11 2.1 Hệ chuyên gia y khoa truyền thống 11 2.2 Các cách tiếp cận phân loại hệ hỗ định lâm sàng 21 2.3 Hệ hỗ trợ chẩn đoán bệnh học máy 23 CHƯƠNG CƠ SỞ LÝ THUYẾT 31 3.1 Học máy 31 3.2 Tiền xử lý liệu học máy 34 CHƯƠNG 4PHƯƠNG PHÁP THỰC HIỆN 38 4.1 Áp dụng giải thuật học máy trền liệu chuẩn 38 4.2 Cải tiến hiệu chẩn đoán phương pháp tiền xử lý liệu 39 CHƯƠNG KẾT QUẢ NGHIÊN CỨU 44 I Môi trường thực thi nghiên cứu 44 Áp dụng giải thuật học máy ttên liệu chuẩn 44 L Nâng cao hiệu chẩn đoán tiền xử lý liệu 48 CHƯƠNG TÔNG KẾT 56 6.1 Kết luận 56 6.2 Hướng phát triển 56 DANH MỤC HÌNH Hình 1.1: Mơ hình hoạt động hệ chuyên gia y khoa Hình 2.1: Kiến trúc hệ hỗ trợ chẩn đoán bệnh truyền thống 12 Hình 2.2: Hàm mức độ thành viên biểu diễn tập mờ Negative 14 Hình 2.3: Hàm mức độ thành viên biểu diễn tập mờ Positive 14 Hình 2.4: cấu trúc hệ hỗ trợ định dùng fuzzy logic 14 Hình 2.5: Kiến trúc hệ hỗ trị chẩn đoán bệnh dùng ontology 16 Hình 2.6: Cây định phân loại bệnh tiểu đường 18 Hình 2.7: Rule chun gia chẩn đốn bệnh tiền tiều đường 19 Hình 2.8: Rule chuyển mã sang phép tính vị từ 20 Hình 2.9: SWRL Rule cho trường hợp Tiền Tiểu Đường 20 Hình 2.10: Phân loại hệ hỗ trợ định lâm sàng theo chức 21 Hình 2.11: Phân loại hệ hỗ trợ định lâm sàng theo việc học 22 Hình 2.12: Quy trình kỹ thuật định chần đốn bệnh tim mạch 28 Hình 3.1: Confusion Matrix đánh giá hiệu suất phân lớp 32 Hình 3.2: Phân tích giỏ hàng siêu thị 35 Hình 4.1: Luật dùng để loại bỏ thuộc tính V2 39 Hình 4.2: Luật dùng để loại bỏ thuộc tính V9 40 Hình 4.3: Luật dùng để giữ lại thuộc tính V2,V8, V6 V9 42 Hình 4.4: cấu trúc hệ thống dùng luật kết hợp mạng nơron nhân tạo 43 Hình 4.5: cấu trúc hệ thống dùng AP mạng nơron nhân tạo (MLP) 43 ii DANH MỤC BẢNG Bảng 1.1: Mơ tả thuộc tính bệnh ung thư ngực ố Bảng 1.2: Mơ tả thuộc tính bệnh tim mạch Bảng 1.3: Mô tả thuộc tính bệnh tiểu đường Bảng 2.1: Mô tả mức độ xét nghiêm Her2 bệnh ung thư ngực 14 Bảng 2.2: Mô tả số lớp domain ontology 17 Bảng 2.3: Mơ tả thuộc tính phạm vi domain 17 Bảng 2.4: Mô tả bệnh tim mạch 27 Bảng 2.5: Ket chẩn đốn với liệu rời rạc khơng dùng kỹ thuật voting 29 Bảng 2.6: Kết chẩn đoán với liệu rời rạc dùng kỹ thuật voting .30 Bảng 4.1: Một số mẫu liệu bệnh nhân ung thư ngực ứng với Luật 40 Bảng 4.2: Một số mẫu liệu bệnh nhân ung thư ngực ứng với Luật .41 Bảng 4.3: Một số mẫu liệu bệnh nhân ung thư ngực ứng với Luật .42 Bảng 5.1: Môi trường thực thi nghiên cứu 44 Bảng 5.2: Kết giải thuật học máy bệnh ung thư ngực 45 Bảng 5.3: Kết giải thuật học máy bệnh tim mạch 45 Bảng 5.4: Kết giải thuật học máy bệnh tiểu đường 46 Bảng 5.5: Kết giải thuật học máy bệnh ung thư ngực 47 Bảng 5.6: Kết giải thuật học máy bệnh tim mạch 47 Bảng 5.7: Kết giải thuật học máy bệnh tiểu đường 48 Bảng 5.8: Kết thí nghiệm dùng AR MLP bệnh ung thư ngực 49 Bảng 5.9: Kết thí nghiệm dùng AP MLP bệnh ung thư ngực 50 Bảng 5.10: Các luật sinh chạy giải thuật apriori ttên bệnh ung thư ngực 51 Bảng 5.11: Một số mẫu liệu bệnh ung thư ngực loại bỏ thuộc tính V2 52 Bảng 5.12: Các mẫu liệu bảng 5.11 biến đổi số chiều PCA 52 Bảng 5.13: Một số mẫu liệu bệnh ung thư ngực loại bỏ thuộc tính V9 53 Bảng 5.14: Dữ liệu bảng 4.9 biến đổi số chiều dùng kỹ thuật PCA .53 Bảng 5.15: Tập luật sinh chạy giải thuật apriori ttên bệnh tuyến giáp 54 Bảng 5.16: Kết thí nghiệm dùng AR MLP ttên bệnh tuyến giáp 55 CHƯƠNG TỔNG QUAN Giới thiệu Một hệ chuyên gia (Expert System) chương trình máy tính hoạt động giống chun gia lĩnh vực chun mơn đó, chương trình máy tính hoạt động nhờ có sử dụng tri thức chuyên môn chuyên gia Một hệ chuyên gia y khoa trước thường có mơ hình hoạt động Hình Hình 1.1: Mơ hình hoạt động hệ chuyên gia y khoa Hệ hỗ trợ định chẩn đoán bệnh ngày hệ thống thuộc hệ hỗ trợ định lâm sàng (CDSS-Clinical Decision Support System) biết đến ứng dụng chương trình máy tính hỗ trợ nhà cung cấp dịch vụ chăm sóc sức khỏe (healthcare providers) để định chẩn đoán điều trị từ liệu thu thập bệnh nhân Với hệ hỗ trợ chẩn đoán bệnh theo kiểu truyền thống trước đây, bắt buộc phải Bảng 4.1 : Một số mẫu liệu bệnh nhân ung thư ngực ứng với Luật ID VI V2 V3 V4 V5 V6 V7 V8 V9 class 1000025 1 1 benign 1002945 4 10 benign 1015425 1 2 1 benign 1016277 8 benign 1017023 1 3 1 benign 1017122 10 10 10 malignant 1018099 1 1 10 1 benign 1018561 2 1 benign 1033078 1 1 benign 10 1033078 1 2 1 benign 11 1035283 12 1036172 1 1 1 Benign 1 2 1 Benign 13 1041801 3 3 4 Malignant 14 1043999 1 1 3 1 Benign Theo kỹ thuật Luật kết hợp giá trị tham số VI, V3, V8, V9 giá trị tham số V2 Do tham số đầu vào V2 phụ thuộc vào tham số đầu vào VI, V3, V8, V9 Vì loại bỏ tham số đầu vào V2 chạy mạng nơron nhân tạo để tìm bệnh nhân ung thư tập liệu Xét Luật Hình 4.3 Một số mẫu liệu bệnh ung thư ngực tạo nên Luật in đậm Bảng 4.2 Input: V1-V2-V3-V7 => V9 Value: - - 1-3 => Độ tin cậy 100% Hình 4.2: Luật dùng để loại bỏ thuộc tính V9 38 Bảng 4.2: Một sổ mẫu liệu bệnh nhân ung thư ngực ứng với Luật ID VI V2 V3 V4 V5 V6 V7 V8 V9 class 1000025 1 1 benign 1002945 4 10 benign 1015425 1016277 1 3 benign benign 1 10 10 10 7 1017023 1017122 1018099 1 benign malignant 1 10 1 benign 1018561 2 1 benign 1033078 10 1033078 11 1035283 1 1 1 benign 1 1 benign 1 1 1 benign 12 1036172 1 2 1 benign 13 1041801 3 3 4 malignant 14 1043999 1 1 3 1 benign Luật kết họp (AR2): Dùng tất tham số tất mẫu, tìm tập phần tử lớn (large itemsets) cho ỉớp Tất phần tử tập phần lón phần tử quan trọng cho việc phân lóp Do đố sử dụng phần tử để phân lớp cho tất liệu Nếu phần tử tập phần tử lốn lớn lớp khác nố cố giá trị khác phần tử phải dùng đầu vào mạng nơron nhân tạo [5] Tập liệu bệnh ung thư ngực có lớp, lành tính (benign) ác tính (malignant) Sử dụng Luật kết họp tìm tập phần tử lón (large itemset) Hình 4.4 Bảng 4.3 mơ tả mẫu liệu tương ứng Luật áp dụng Luật kết họp 2, mẫu liệu in đậm đại diện cho lớp lành tính, mẫu liệu in đậm nghiên đại diện cho lớp ác tính 39 Input (V2-V8-V9) Value (1 - 1-1) (Tập phần tử lớn cho lớp lành tính) Input V6 Value 10 (Tập phàn tử lớn cho lớp ác tính) Hình 4.3: Luật dùng để giữ lại thuộc tính V2,V8, V6 V9 Bảng 4.3: Một số mẫu liệu bệnh nhân ung thư ngực úng với Luật ID VI V2 V3 V4 V5 V6 V7 V8 V9 Class 327 328 752904 10 756136 1 1 10 malignant 1 2 1 benign 329 330 760001 760239 10 10 10 10 1 malignant malignant 331 76389 2 1 malignant 332 764974 1 benign 333 334 770066 785208 2 10 benign malignant 335 10 malignant 336 785615 792744 6 10 797327 337 benign malignant 338 798429 1 1 1 benign 339 340 704097 806423 5 1 10 2 benign malignant 341 809912 10 3 10 malignant 342 343 1 1 benign 1 1 1 benign 344 810104 814265 814911 1 345 822829 10 10 benign malignant 346 826923 1 1 1 1 benign 10 40 Hình 4.5 mơ tả kiến trúc hệ chẩn đoán bệnh dùng luật kết hợp làm đầu vào cho mạng nơron nhân tạo nhiều tầng (MultiLayer Perceptrons-MLP) Class of Input data k Hình 4.4: cấu trúc hệ thống dùng luật kết hợp mạng nơron nhân tạo Kỹ thuật dùng luật kết họp thu giảm số chiều(AP) Kỹ thuật AP nghiên cứu phương pháp dùng luật kết hợp để lựa chọn thuộc tính liệu phương pháp phân tích thành phần (Principal Component Analysis) nhằm biến đổi thuộc tính liệu đầu vào mạng nơron nhân tạo để tiến hành phân lớp Phương pháp dùng Luật kết hợp phân tích thành phần (AP) có kiến trúc Hình 4.6 Input data Hình 4.5: cấu trúc hệ thống dùng AP mạng nơron nhân tạo (MLP) CHƯƠNG KẾT QUẢ 41 NGHIÊN CỨU 5.1 Môi trường thực thỉ nghiên cứu Môi trường thực thi nghiên cứu mô tả bảng 5.1 Bảng 5.1 : Môi trường thực thi nghiên cứu Mô tả Tên Phần mềm Weka 3.8 Hệ điều hành Windows 8.1 CPU Core Ĩ7 RAM 8GB Ô cứng TB 5.2 Áp dụng giải thuật học máy liệu chuẩn Thí nghiệm Thí nghiệm chúng tơi cho chạy lại tập liệu giải thuật học máy theo tài liệu tham khảo [14], Kết chạy thí nghiệm đối chiếu hồn tồn giống với kết thí nghiệm tác giả Bệnh ung thư ngực có 286 trường hợp với 10 thuộc tính4, kết thí nghiệm mơ tả Bảng 5.1 4https://archive.ics.uci.edu/ml/datasets/breast+cancer 42 Bệnh tim mạch có 303 trường hợp với 14 thuộc tính mơ tả Bảng 3.2 kết thí nghiệm mơ tả Bảng 5.2 Bệnh tiều đường cố 786 trường hợp với 14 thuộc tính mơ tả Bảng 3.3 kết thí nghiệm mơ tả Bảng 5.3 Bảng 5.2: Kết giải thuật học máy bệnh ung thư ngực Correct Incorrect Accuracy Classified Classified rate Naive Bayes Bayes Net 206 205 80 72.028 % 71.6783 % MLP 185 64.6853 % RBF 203 101 83 Decision Tree (J48) 216 70 75.5245 % Algorithms 81 70.9790 % Bảng 5.3: Kết giải thuật học máy bệnh tỉm mạch Correct Incorrect Accuracy Algorithms Classified Classified rate Naive Bayes 253 50 83.4983 % Bayes Net 253 50 83.4983 % MLP 245 58 80.8581 % RBF 254 49 83.8284 % Decision Tree (J48) 235 68 77.5578 % 43 Bảng 5.4: Kết giải thuật học máy bệnh tiểu đường Algorithms Correct Incorrect Classified Classified Accuracy rate Naive Bayes 571 197 74.349 % Bayes Net 586 76.3021 % MLP 579 182 189 RBF 579 189 75.3906 % Decision Tree (J48) 567 201 73.8281 % 75.3906 % Thí nghiệm Chúng tơi thay đổi tập liệu ung thư ngực thí nghiệm tập liệu ung thư ngực mô tả Bảng 3.1 vào thay đổi giải thuật RBF SVM để thử nghiệm - Bệnh ung thư ngực: 683 trường hợp (Loại bỏ 16 trường hợp missing values từ 699 trường hợp), 10 thuộc tính, 444 ca khơng bị bệnh, 239 ca bị bệnh Tập huấn luyện 446 bệnh nhân (80%) Tập test 137 bệnh nhân (102 ca không bị bệnh, 35 ca bị bệnh) Kết thí nghiệm mơ tả Bảng 5.4 - Bệnh tỉm mạch: 303 trường hợp, 14 thuộc tính mơ tả Bảng 3.2.165 ca bị bệnh, 168 ca không bị bệnh Tập huấn luyện 242 bệnh nhân (80%) Tập test 61 bệnh nhân (32 ca không bị bệnh, 29 ca bị bệnh) Kết thí nghiệm mơ tả Bảng 5.5 - Bệnh tiểu đường: 768 trường hợp, thuộc tính mơ tả Bảng 3.3.500 ca không bị bệnh, 268 ca bị bệnh Tập huấn luyện 242 bệnh nhân (80%) Tập test 61 bệnh nhân (32 ca không bị bệnh, 29 ca bị bệnh) Kết thí nghiệm mơ tả Bảng 5.5 44 Bảng 5.5: Kết giải thuật học máy bệnh ung thư ngực Algorithms Correctly Incorrectly TP FP Precis Recall F_M classified classified Rate Rate ion easur e Instances Instances 130 = 98 + 32 = 4+3 0.949 0.074 0.949 0.949 0.949 (94.8905 %) (5.1095%) 131 = 98 + 33 6=4+2 0.956 0.053 0.957 0.956 0.957 (94.8905 %) (4.3796 %) 133 = 99 + 34 4=3+1 0.971 0.029 0.972 0.971 0.971 (97.08%) (2.92%) 132 = 99 + 33 9=3+2 0.964 0.050 0.964 0.964 0.964 (96.3504%) (3.6496%) Decision 127 = 94 + 33 10 = + 0.927 0.063 0.935 0.927 0.929 Tree(J48) (92.70%) (7.30%) NaìveBayes BayesNet MLP SVM Algorithms Bảng 5.6: Kết gỉảỉ thuật học máỵ bệnh tim mạch Correctly Incorrectly TP FP Precisio Recall F_Mea classified classified Instances Instances 53 = 30 + 23 = 2+6 (86.8852 %) (13.1148%) 50 = 25 + 25 11=7 + (81.9672 %) (18.0328 %) 52 = 28 + 24 = 4+5 (85.2459%) (14.7541%) 50 = 29 + 21 11=3 + (81.9672 %) (18.0328 %) Decision 52 = 27 + 25 9=5+4 Tree(J48) (85.2459%) (14.7541%) Naive Bayes Bayes Net MLP SVM Rate Rate n 0.869 0.138 0.875 0.869 0.868 0.820 0.176 0.824 0.820 0.820 0.852 0.150 0.853 0.852 0.852 0.820 0.189 0.827 0.820 0.818 0.852 0.147 0.853 0.852 0.853 45 sure Bảng 5.7: Kết giải thuật học máy bệnh tiểu đường Algorithms Correctly Incorrectly TP FP Precisio classified classified Rate Rate n Instances Instances 119 = 89 + 30 35 = 16+ 19 (77.2727 %) (22.7273 %) 127 = 91+36 30 =16 + 24 (74.026 %) (25.974 %) 114 = 89 + 25 16 + 24 (77.0833 %) (22.9167 %) 123 = 96 + 27 31 = + 22 (79.8701%) (20.1299%) Decision 117 = 86 + 31 37 = 19+ 18 Tree(J48) (75.974 %) (24.026%) NaiveBayes BayesNet MLP SVM Recall F_M easu re 0.773 0.313 0.769 0.773 0.771 0.825 0.223 0.826 0.825 0.825 0.740 0.382 0.731 0.740 0.733 0.799 0.333 0.793 0.799 0.789 0.760 0.308 0.761 0.760 0.760 Một vài đánh giá Sau số nhận xét rút trình thử nghiêm giải thuật học máy liệu: - Các giải thuật NaiveBayes BayesNet cho kết tốt với số lượng mẫu thử nhiều - Giải thuật MLP s VM cho kết tốt với tập liệu có nhiều thuộc tính - Giải thuật định cho kết tốt liệu rời rạc số mẫu thử 5.3 Nâng cao hiệu chẩn đoán tiền xử lý liệu Thí nghiệm - Bệnh ung thư ngực: 683 trường hợp (Loại bỏ 16 trường hợp missing values từ 699 trường hợp), 10 thuộc tính, 444 ca không bị bệnh, 239 ca bị bệnh Tập huấn luyện 446 bệnh nhân (66.7%) Tập test 137 bệnh nhân (102 ca không bị bệnh, 35 ca bị bệnh) Kết thí nghiệm mơ tả Bảng 5.8 46 Bảng 4.4 kết thử nghiệm đối chiếu dùng luật kết hợp để giảm số thuộc tính đầu vào cho mạng nơron nhân tạo bệnh ung thư ngực Bảng 5.8: Kết thí nghiêm dùng AR MLP bệnh ung thư ngực Mạng Độ xác Độ xác N class=benign 355 lift:(1.52) lev:(0.17) [121] conv:(61.37) V2=l V8=l V9=l 350 => class=benign 349 lift:(1.52) lev:(0.17) [119] conv:(60.34) V3=l 353 => class=benign 351 lift:(1.52) lev:(0.17) [119] conv:(40.57) V2=l V9=l 377 ==> class=benign 374 lift:(1.51) lev:(0.18) [126] conv:(32.5) V6=l V8=l 355 ==> class=benign 352 lift:(1.51) lev:(0.17) [119] conv:(30.6) V2=l 384 => class=benign 380 lift:(1.51) lev:(0.18) [128] conv:(26.48) V2=l class=benign 380 ==> V9=l 374 lift:(l 19) lev:(0.08) [59] conv:(9.32) V4=l class=benign 375 ==> V9=l 369 lift:(1.19) lev:(0.08) [58] conv:(9.2) V2=l V8=l 356 => V9=l 350 lift:(1.19) lev:(0.08) [55] conv:(8.73) 10 V2=l V8=l class=benign 355 ==> V9=l 349 lift:(1.19) lev:(0.08) [54] conv:(8.71) 11 V6=l class=benign 387 ==> V9=l 380 lift:(1.19)lev:(0.09) [59] conv:(8.3) 12 V2=l 384 ==> V9=l 377 lift: V9=l class=benign 349 lift:(1.54) lev:(0.18) [122] conv:(16.17) 14 V8=l class=benign 402 ==> V9=l 394 lift:(1.18) lev:(0.09) [61] conv:(7.67) 15 V6=l V9=l 389 ==> class=benign 380 lift:(1.49) lev:(0.18) [125] conv:(13.41) 16 V5=2 class=benign 363 ==> V9=l 354 lift:(1.18) lev:(0.08) [53] conv:(6.23) lift:(1.53) lev:(0.19) [129] 17 V2=l 384 => V9=l class=benign 374 conv:(12.69) 18 class=benign 458 => V9=l 445 lift: V9=l 389 liữ:(1.17) lev:(0.08) [56] conv:(4.93) 20 V5=2 386 ==> V9=l 372 liữ:(1.16) lev:(0.07) [52] conv:(4.42)lift:(1.52) lev:(0.17) [119] conv:(60.34):(0.07) [52] conv:(4.42) 49 Bảng 5.11 mô tả sổ mẫu liệu loại bỏ thuộc tính V2 áp dụng Luật Bảng 5.11: Một số mẫu liệu bệnh ung thư ngực loại bỏ thuộc tính V2 ID VI V3 V4 V5 V6 V7 1000025 1002945 1015425 1016277 1017023 5 4 10 1 1017122 1018099 1018561 1033078 10 1033078 11 1035283 12 1036172 13 1041801 10 2 1 14 1043999 15 1044572 16 1047630 10 10 1 2 1 1 1 2 3 10 V8 3 3 3 V9 class benign benign benign benign benign 7 malignant benign benign benign benign 1 1 1 1 2 4 benign benign malignant 5 benign malignant malignant Bảng 5.12: Các mẫu liệu bảng 5.11 biến đổi số chiều PCA -1-0.492VÉ -0.728V 0.841V -1-0.617V4' -10.554V5 -10.523V7 class -3.89856 -0.08918 1.733519 0.528521 0.817293 4.969847 -4.45248 -1.58534 0.275434 -2.46635 0.355003 benign -4.06151 -0.58938 -0.11246 -0.3526 0.120627 -0.2808 benign 3.449231 2.358602 2.485855 -3.13389 -0.25932 -3.50151 0.059753 -0.09785 1.49595 1.375443 13.41595 -0.68407 -0.83574 0.008628 0.909957 -2.86018 malignant -0.77833 -6.18294 -3.10383 -3.67927 -1.90007 1.067917 benign -4.46193 0.395062 -0.70399 -0.22073 -0.16327 -1.11929 benign -4.98297 0.983605 -0.57955 0.941266 -2.51871 2.293751 benign -4.54456 -0.01918 1.001281 0.326248 0.295514 0.187368 benign -5.47707 0.145988 -1.61245 -0.7038 0.355902 -0.58081 benign -5.19982 0.208236 -0.68107 -0.20551 -0.21201 -0.11481 benign 0.58219 0.388507 -0.59757 1.743211 0.13746 -4.22446 -1.08958 -1.95843 -1.23372 -0.57604 9.899133 -1.37163 -1.60174 3.545419 -0.03556 2.111193 2.5485 2.116351 2.634552 -0.05842 50 -0.18499 -0.89826 benign benign 0.073807 benign 0.19827 malignant -0.37662 benign 2.558691 malignant -2.33329 malignant Bảng 5.12 kết liệu Bảng 5.11 biến đổi sổ chiều dùng kỹ thuật PCA từ chiều thành chiều Bảng 5.14 ỉà kết biến đổi từ 5.13 Bảng 5.13: Một số mẫu liệu bệnh ung thư ngực loại bỏ thuộc tính V9 Bảng 5.14: Dữ liệu bảng 4.9 biến đỏi số chiều dùng kỹ thuật PCA 51 Thí nghiệm Đây thử nghiệm chứng tiến hành áp dụng việc giảm số thuộc tính luật kết hợp cho đầu vào mạng neuron nhân tạo tập liệu bệnh tuyến giáp nhằm kiểm việc tăng độ xác phương pháp - Bệnh tuyến giáp gồm: 7200 trường hợp (3772 mẫu cho liệu huấn luyện 3428 mẫu cho liệu kiềm thử) 21 thuộc tính (15 thuộc tính kiểu nhị phân, thuộc tính kiểu hên tục) Bộ liệu có lớp Trên tập test lớp có bệnh(Cường giáp ttạng) 83 trường hợp, lớp tuyến giáp mức bình thường(Suy giáp trạng) 184 trường hợp, lớp tuyến giáp bình thường 3333 trường hợp Chạy giải thuật mạng neuron tập kiểm thử [83; 184;3333] với K-fold cross validation, k=10 Kết thí nghiệm trình bày Bảng 4.12 độ xác tăng lên từ 95.5951 % lên 95.741% Sau khỉ chạy gỉảỉ thuật Aprỉori tập huấn luyện cố luật sinh bảng 4.11 Theo luật kết hợp AR1 ta loại bỏ f 15 - Bảng 4.11 mô tả tập luật sinh từ giải thuật Apriorỉ với độ hỗ trợ tối thiểu 0.5, độ tin cậy tối thiểu 0.9 chạy weka:weka.associations.Apriori -N 10 -T -c 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1 Bảng 5.15: Tập luật sinh chạy giải thuật aprỉori bệnh tuyến giáp f4=0 3723 ==> fl5=0 3723 lift(l) lev:(0) [0] conv:(0.99) f4=0 fl2=0 3704 => fl5=0 3704 lift:(l) lev:(0) [0] conv:(0.98) f4=0 fl3=0 3691 => fl5=0 3691 lift:(l) lev:(0) [0] conv:(0.98) f4=0 f5=0 3680 ==> fl5=0 3680 lift:(l) lev:(0) [0] conv:(0.98) f4=0 Í7=o 3673 ==> fl5=0 3673 lift:(l) lev:(0) [0] conv:(0.97) f4=0 fl2=0 fl3=0 3672 => fl5=0 3672 lift:(l) lev:(0) [0] conv:(0.97) f4=0 Í8=o 3670 ==> fl5=0 3670 lift:(l) lev:(0) [0] conv:(0.97) f4=0 Í9=o 3666 ==> fl5=0 3666 lift:(l) lev:(0) [0] conv:(0.97) f4=0 f5=0 fl2=0 3661 => fl5=0 3661 lift: (1) lev:(0) [0] conv:(0.97) 10 f4=0 f7=0 fl2=0 3654 ==> fl5=0 3654 lift:(l) lev:(0) [0] conv:(0.97) 52 ... giải thuật học máy giúp máy tính thay dần vai trò người cơng việc hỗ trợ chẩn đốn bệnh ] ,2 Động thực đề tài Thời gian gần với phát triển ngành học máy, hệ hỗ trợ chẩn đoán bệnh học máy đời Vai... gian bệnh nhân điều ttị nội trú ngày bệnh viện Tóm lại hệ hỗ trợ chẩn đốn bệnh học máy thường có giải thuật hay mơ hình học máy kết hợp với tập liệu loại bệnh Xét nghiên cứu hỗ trợ chẩn đoán bệnh. .. mà nghiên cứu hệ hỗ trợ chẩn đoán bệnh nhân (Patients Diagnoses support systems) dựa việc học theo kinh nghiệm(experiential bases), hệ hỗ trợ gọi hệ hỗ trợ chẩn đoán bệnh học máy Hai yếu tố quan