Chương này đã trình bày các vấn để chính về bài tốn phân lớp / dự đốn tính chất ( cĩ no-recurrence-events hoặc recurrence-events ) của bệnh ung thư vú thơng qua việc áp dụng một số phương pháp/kỹ thuật phân lớp dữ liệu. Đặc biệt, chương này trình đã xây dựng trình bày mơ hình tổng thể bài tốn phân lớp dự đốn bệnh ung thư vú trên cơ sở áp dụng các thuật tốn phân lớp và phần mềm hỗ trợ trực quan Weka. Kết quả thực nghiệm của bài tốn được trình bày khá chi tiết trên cơ sở áp dụng phần mềm Weka và các phương pháp phổ biến như: thuật tốn Nạve Bayes, thuật tốn K- Nerrest neighbor, thuật tốn Support Vector Machines, thuật tốn Decision tree (J48).
KẾT LUẬN
Các phương pháp khai phá dữ liệu nĩi chung, phương pháp học máy cĩ giám sát nĩi riêng, đã và đang cho thấy vai trị to lớn trong việc phát hiện tri thức để ứng dụng vào các bài tốn trong thực tế.
Ung thư vú đang là một trong những căn bệnh nhức nhối mà con người (đặc biệt là phụ nữ) phải đối mặt, việc hỗ trợ chẩn đốn và phát hiện sớm ở giai đoạn đầu của bệnh sẽ đĩng vai trị to lớn trong việc ngăn ngừa và điều trị sau này. Chính vì vậy, đề tài “Nghiên cứu một số phương pháp học máy cĩ giám sát và ứng dụng trong hỗ trợ
chẩn đốn bệnh ung thư vú (breast cancer)” cĩ ý nghĩa khoa học và mang tính ứng
dụng thực tiễn cao.
Qua kết quả thực hiện ở trên, em thấy ngồi mơ hình SVM cho kết quả dự đốn tốt nhất. Thơng qua mơ hình SVM, em cĩ thể dự đốn được tình trạng ung thư vú của bệnh nhân với độ chính xác, tin cậy khá cao. Điều này cĩ giá trị rất hữu ích về mặt thời gian, kinh tế và ý nghĩa y học; được kỳ vọng sẽ giúp cải thiện chất lượng của cơng tác ngăn ngừa và điều trị một trong những căn bệnh rất được quan tâm hiện nay, đặc biệt là đối với phụ nữ.
Thơng qua kết quả thực nghiệm của 4 phương pháp học máy cĩ giám sát ở trên, đặc biệt là cây quyết định, ta cĩ thể phán đốn được tế bào ác tính thường cĩ một số đặc trưng cơ bản như:
- Tính đồng nhất của kích thước tế bào (Uniformity of Cell Size) ≤ 2 và hạt nhân trần (Bare Nuclei) ≤ 3;
- Tính đồng nhất của kích thước tế bào (Uniformity of Cell Size) ≤ 2, hạt nhân trần (Bare Nuclei) ≥3 và chất nhiễm sắc hạt (Bland Chromatin) ≤ 2;…
Từ những kết quả thu được của đề tài này, tác giả kỳ vọng đây sẽ là một trong những gợi ý khá hữu ích giúp hỗ trợ các nhà y học và sinh học trong việc ra quyết định liên quan đến nghiệp vụ ngăn ngừa, chữa trị bệnh ung thư vú.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1]. Đỗ Phúc (2017), Giáo trình khai phá dữ liệu, NXB ĐHQG TPHCM.
[2]. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình
khai phá dữ liệu, NXB Đại học Quốc gia Hà Nội.
[3]. Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu – Đồn Sơn – Nguyễn Trí Thành, Nguyễn Thu Trang – Nguyễn Cẩm Tú (2009), Giáo trình khai
phá dữ liệu, NXB .Giáo dục Việt Nam.
[4]. Website: https://ndhcuong.wordpress.com/hoc-phan/khai-pha-du-lieu/
[5]. Website:https://ongxuanhong.wordpress.com/2015/08/25/ap-dung-cac- phuong -phap- phan-lop-classification-tren-tap-du-lieu-mushroom/
[6]. Hồng Kiếm; Giáo trình nhập mơn trí tuệ nhân tạo; NXB ĐHQG TPHCM 2000.
Tiếng anh
[7]. Jiawei Hanand Micheline Kambel (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers.
[8]. Mehmed Kantardzic; Data mininng concepts, models, methods, and algorithms; John Wiley & Sĩn, 2003.
[9]. Anil K. Jain and Richard C. Dubes (1988), Algorithms for clustering data, Prentice Hall, Inc., USA.
[10]. Ho Tu Bao (1998), Introduction to knowledge discovery and data mining. [11]. Mercer (2003), Clustering large datasets, Linacre College.
[12]. Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009.
[13]. Usama Fayyad, Gregory Piatesky-Shapiro, and Padhraic Smyth; From data mining to knowledge discovery in databases.
[14]. V. Chaurasia and S. Pal, “Data Mining Techniques: To Predict and Resolve Breast Cancer Survivability,” vol. 3, no. 1, pp. 10– 22, 2014
[15]. S. Aruna and L. V Nandakishore, “Knowledge B Ased A Nalysis Of V Arious S Tatistical T Ools In D Etecting B Reast,” Pp. 37–45, 2011
[16]. A. C. Y, “An Empirical Comparison of Data Mining Classification Methods,” vol. 3, no. 2, pp. 24–28, 2011
[17]. A. Pradesh, “Analysis of Feature Selection with Classification : Breast Cancer Datasets,” Indian J. Comput. Sci. Eng., vol. 2, no. 5, pp. 756–763, 2011.
[18]. Thorsten J. Transductive Inference for Text Classification Using Support Vector Machines. Icml. 1999;99:200-209. doi:10.4218/etrij.10.0109.0425. [19]. L. Ya-qin, W. Cheng, and Z. Lu, “Decision tree based predictive models for
breast cancer survivability on imbalanced data,” pp. 1–4, 2009.
[20]. D. Delen, G. Walker, and A. Kadam, “Predicting breast cancer survivability: a comparison of three data mining methods,” Artif. Intell. Med., vol. 34, pp. 113–127, 2005.