Benign Malignant class
J48 82 8 Benign 2 48 Malignant SVM 87 3 Benign 2 48 Malignant NB 86 4 Benign 2 48 Malignant K-NN 87 3 Benign 3 47 Malignant Hình 3.24 : Biểu đồ so sánh Ma trận nhầm lẫn
3.6 Thảo luận
Em cĩ thể cho thấy từ Bảng 3.38 rằng SVM mất khoảng 0,02 giây để xây dựng mơ hình của nĩ, khơng giống như J48 chỉ mất 0,01 giây. Nĩ cĩ thể giải thích rằng J48 là một người lười học và khơng làm được gì nhiều trong quá trình đào tạo khơng giống như những người khác bộ phân loại xây dựng các mơ hình. Mặt khác, độ chính xác thu được bởi SVM (96,42%) tốt hơn độ chính xác thu được bởi J48, Nạve Bayes và k-NN cĩ độ chính xác thay đổi từ 92,85% đến 95,71%. Nĩ cĩ thể cũng cĩ thể dễ dàng nhận thấy rằng SVM cĩ giá trị cao nhất trong số các trường hợp được phân loại chính xác và giá trị thấp hơn của các trường hợp được phân loại khơng chính xác so với các bộ phân loại khác (xem Hình 3.22).
Từ Bảng 3.39, em cĩ thể thấy rõ hơn rằng cơ hội cĩ một phân loại tốt nhất (0,92%) với ít cảnh báo nhất tỷ lệ lỗi (0,03) được tạo ra bởi SVM. Em cũng cĩ thể nhận thấy rằng SVM cĩ khả năng tương thích tốt nhất giữa độ tin cậy của dữ liệu được thu thập và tính hợp lệ của chúng. J48 và k-NN cĩ giá trị tỷ lệ lỗi cao nhất; như trong Hình 3.23, giải thích số lượng lớn các trường hợp được phân loại khơng chính xác cho mỗi thuật tốn (10 trường hợp khơng chính xác cho J48 và 6 trường hợp khơng chính xác cho k-NN).
Sau khi tạo mơ hình dự đốn, bây giờ em cĩ thể phân tích kết quả thu được trong việc đánh giá hiệu quả của các thuật tốn. Trên thực tế, Bảng 3.40 cho thấy SVM và K- NN cĩ giá trị TP cao nhất (0.96%) đối với loại lành tính nhưng k-NN dự đốn chính xác 0.96% trường hợp thuộc loại ác tính. Tỷ lệ FP thấp hơn khi sử dụng bộ phân loại SVM (0,04 cho lớp lành tính và 0,03 cho lớp ác tính), và sau đĩ các thuật tốn khác tuân theo: k-NN, J48 và NB. Từ những kết quả này, chúng ta cĩ thể hiểu tại sao SVM lại hoạt động tốt hơn các bộ phân loại khác.
Bây giờ em đã so sánh lớp thực tế và kết quả dự đốn thu được bằng cách sử dụng ma trận nhầm lẫn như được hiển thị trong Bảng 3.41. SVM dự đốn chính xác 135 trường hợp trong số 140 trường hợp (458 trường hợp lành tính cĩ hiệu quả lành tính và 241 trường hợp trường hợp ác tính thực sự là ác tính) và 5 trường hợp dự đốn sai (3 trường hợp thuộc loại lành tính được dự đốn là ác tính và 2 trường hợp của lớp ác tính được dự đốn là lành tính). Đĩ là lý do tại sao độ chính xác của SVM là tốt hơn các kỹ thuật phân loại khác được sử dụng với giá trị tỷ lệ lỗi thấp hơn.
Tĩm lại, SVM đã cĩ thể thể hiện sức mạnh của mình về hiệu lực và hiệu quả dựa trên độ chính xác và Gợi lại. So với một lượng nghiên cứu tốt về ung thư vú- Wisconsin
được tìm thấy trong các tài liệu so sánh độ chính xác phân loại của các thuật tốn khai thác dữ liệu, kết quả thử nghiệm của em tạo ra giá trị chính xác cao nhất (96,42%) trong phân loại tập dữ liệu ung thư vú. Cĩ thể nhận thấy rằng SVM vượt trội hơn so với các bộ phân loại khác với tơn trọng độ chính xác, độ nhạy, độ đặc hiệu và độ chính xác; trong phân loại tập dữ liệu ung thư vú.
3.7 Tổng kết Chương 3
Chương này đã trình bày các vấn để chính về bài tốn phân lớp / dự đốn tính chất ( cĩ no-recurrence-events hoặc recurrence-events ) của bệnh ung thư vú thơng qua việc áp dụng một số phương pháp/kỹ thuật phân lớp dữ liệu. Đặc biệt, chương này trình đã xây dựng trình bày mơ hình tổng thể bài tốn phân lớp dự đốn bệnh ung thư vú trên cơ sở áp dụng các thuật tốn phân lớp và phần mềm hỗ trợ trực quan Weka. Kết quả thực nghiệm của bài tốn được trình bày khá chi tiết trên cơ sở áp dụng phần mềm Weka và các phương pháp phổ biến như: thuật tốn Nạve Bayes, thuật tốn K- Nerrest neighbor, thuật tốn Support Vector Machines, thuật tốn Decision tree (J48).
KẾT LUẬN
Các phương pháp khai phá dữ liệu nĩi chung, phương pháp học máy cĩ giám sát nĩi riêng, đã và đang cho thấy vai trị to lớn trong việc phát hiện tri thức để ứng dụng vào các bài tốn trong thực tế.
Ung thư vú đang là một trong những căn bệnh nhức nhối mà con người (đặc biệt là phụ nữ) phải đối mặt, việc hỗ trợ chẩn đốn và phát hiện sớm ở giai đoạn đầu của bệnh sẽ đĩng vai trị to lớn trong việc ngăn ngừa và điều trị sau này. Chính vì vậy, đề tài “Nghiên cứu một số phương pháp học máy cĩ giám sát và ứng dụng trong hỗ trợ
chẩn đốn bệnh ung thư vú (breast cancer)” cĩ ý nghĩa khoa học và mang tính ứng
dụng thực tiễn cao.
Qua kết quả thực hiện ở trên, em thấy ngồi mơ hình SVM cho kết quả dự đốn tốt nhất. Thơng qua mơ hình SVM, em cĩ thể dự đốn được tình trạng ung thư vú của bệnh nhân với độ chính xác, tin cậy khá cao. Điều này cĩ giá trị rất hữu ích về mặt thời gian, kinh tế và ý nghĩa y học; được kỳ vọng sẽ giúp cải thiện chất lượng của cơng tác ngăn ngừa và điều trị một trong những căn bệnh rất được quan tâm hiện nay, đặc biệt là đối với phụ nữ.
Thơng qua kết quả thực nghiệm của 4 phương pháp học máy cĩ giám sát ở trên, đặc biệt là cây quyết định, ta cĩ thể phán đốn được tế bào ác tính thường cĩ một số đặc trưng cơ bản như:
- Tính đồng nhất của kích thước tế bào (Uniformity of Cell Size) ≤ 2 và hạt nhân trần (Bare Nuclei) ≤ 3;
- Tính đồng nhất của kích thước tế bào (Uniformity of Cell Size) ≤ 2, hạt nhân trần (Bare Nuclei) ≥3 và chất nhiễm sắc hạt (Bland Chromatin) ≤ 2;…
Từ những kết quả thu được của đề tài này, tác giả kỳ vọng đây sẽ là một trong những gợi ý khá hữu ích giúp hỗ trợ các nhà y học và sinh học trong việc ra quyết định liên quan đến nghiệp vụ ngăn ngừa, chữa trị bệnh ung thư vú.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1]. Đỗ Phúc (2017), Giáo trình khai phá dữ liệu, NXB ĐHQG TPHCM.
[2]. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình
khai phá dữ liệu, NXB Đại học Quốc gia Hà Nội.
[3]. Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu – Đồn Sơn – Nguyễn Trí Thành, Nguyễn Thu Trang – Nguyễn Cẩm Tú (2009), Giáo trình khai
phá dữ liệu, NXB .Giáo dục Việt Nam.
[4]. Website: https://ndhcuong.wordpress.com/hoc-phan/khai-pha-du-lieu/ [5]. Website:https://ongxuanhong.wordpress.com/2015/08/25/ap-dung-cac-
phuong -phap- phan-lop-classification-tren-tap-du-lieu-mushroom/
[6]. Hồng Kiếm; Giáo trình nhập mơn trí tuệ nhân tạo; NXB ĐHQG TPHCM 2000.
Tiếng anh
[7]. Jiawei Hanand Micheline Kambel (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers.
[8]. Mehmed Kantardzic; Data mininng concepts, models, methods, and algorithms; John Wiley & Sĩn, 2003.
[9]. Anil K. Jain and Richard C. Dubes (1988), Algorithms for clustering data, Prentice Hall, Inc., USA.
[10]. Ho Tu Bao (1998), Introduction to knowledge discovery and data mining. [11]. Mercer (2003), Clustering large datasets, Linacre College.
[12]. Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009.
[13]. Usama Fayyad, Gregory Piatesky-Shapiro, and Padhraic Smyth; From data mining to knowledge discovery in databases.
[14]. V. Chaurasia and S. Pal, “Data Mining Techniques: To Predict and Resolve Breast Cancer Survivability,” vol. 3, no. 1, pp. 10– 22, 2014
[15]. S. Aruna and L. V Nandakishore, “Knowledge B Ased A Nalysis Of V Arious S Tatistical T Ools In D Etecting B Reast,” Pp. 37–45, 2011
[16]. A. C. Y, “An Empirical Comparison of Data Mining Classification Methods,” vol. 3, no. 2, pp. 24–28, 2011
[17]. A. Pradesh, “Analysis of Feature Selection with Classification : Breast Cancer Datasets,” Indian J. Comput. Sci. Eng., vol. 2, no. 5, pp. 756–763, 2011.
[18]. Thorsten J. Transductive Inference for Text Classification Using Support Vector Machines. Icml. 1999;99:200-209. doi:10.4218/etrij.10.0109.0425. [19]. L. Ya-qin, W. Cheng, and Z. Lu, “Decision tree based predictive models for
breast cancer survivability on imbalanced data,” pp. 1–4, 2009.
[20]. D. Delen, G. Walker, and A. Kadam, “Predicting breast cancer survivability: a comparison of three data mining methods,” Artif. Intell. Med., vol. 34, pp. 113–127, 2005.