:Biểu đồ so sánh của các bộ phân loại khác nhau- 123docz.net

Để đo lường tốt hơn hiệu suất của bộ phân loại, lỗi mơ phỏng cũng được xem xét trong nghiên cứu này. Làm như vậy, em đánh giá hiệu quả của trình phân loại của em về:

● Thống kê Kappa (KS) như một thước đo được điều chỉnh ngẫu nhiên về sự thống nhất giữa các phân loại và sự thật các lớp học,

● Sai số tuyệt đối trung bình (MAE) là mức độ gần của dự báo hoặc dự đốn với kết quả cuối cùng,

● Lỗi bình phương trung bình gốc (RMSE) ● Lỗi tuyệt đối tương đối (RAE)

● Lỗi bình phương tương đối gốc (RRSE).

KS, MAE và RMSE ở dạng số. RAE và RRSE tính theo phần trăm. Kết quả được thể hiện trong Bảng 3.39 và Hình 3.23.

Bảng 3.39 : Huấn luyện và lỗi mơ phỏng.

Tiêu chí đánh giá Bộ phân loại

J48 SVM NB K-NN KS 0.8485 0.9226 0.9075 0.9067 MAE 0.092 0.0357 0.0434 0.0445 RMSE 0.2429 0.189 0.2067 0.2067 RAE% 20.2164 7.8505 9.5354 9.7789 RRSE (%) 50.6609 39.4215 43.1196 43.1068

Hình 3.23: Sơ đồ so sánh các thuật tốn học máy liên quan đến các tiêu chí đánh giá: KS, MAE, RMSE, RAE và RRSE.

Khi mơ hình dự đốn được xây dựng, em cĩ thể kiểm tra mức độ hiệu quả của nĩ. Đối với điều đĩ, em so sánh các thước đo độ chính xác dựa trên các giá trị độ chính xác, thu hồi, tỷ lệ TP và tỷ lệ FP cho J48, SVM, NB và k-NN như được thể hiện trong Bảng 3.40.

Bảng 3.40: So sánh các phép đo độ chính xác cho J48, SVM, NB và k-NN.

TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Ảea Class J48 0.911 0.04 0.976 0.911 0.943 0.852 0.955 0.962 2 0.96 0.089 0.857 0.96 0.906 0.852 0.955 0.893 4 SVM 0.967 0.04 0.978 0.967 0.972 0.923 0.963 0.966 2 0.96 0.033 0.941 0.96 0.975 0.923 0.963 0.918 4 NB 0.956 0.04 0.977 0.956 0.966 0.908 0.944 0.997 2 0.96 0.044 0.923 0.96 0.941 0.908 0.99 0.971 4 K-NN 0.967 0.06 0.967 0.967 0.94 0.907 0.953 0.956 2 0.94 0.033 0.94 0.94 0.94 0.907 0.953 0.905 4

Bảng 3.41 : Ma trận nhầm lẫn của 4 thuật tốn

Benign Malignant class

J48 82 8 Benign 2 48 Malignant SVM 87 3 Benign 2 48 Malignant NB 86 4 Benign 2 48 Malignant K-NN 87 3 Benign 3 47 Malignant Hình 3.24 : Biểu đồ so sánh Ma trận nhầm lẫn

3.6 Thảo luận

Em cĩ thể cho thấy từ Bảng 3.38 rằng SVM mất khoảng 0,02 giây để xây dựng mơ hình của nĩ, khơng giống như J48 chỉ mất 0,01 giây. Nĩ cĩ thể giải thích rằng J48 là một người lười học và khơng làm được gì nhiều trong quá trình đào tạo khơng giống như những người khác bộ phân loại xây dựng các mơ hình. Mặt khác, độ chính xác thu được bởi SVM (96,42%) tốt hơn độ chính xác thu được bởi J48, Nạve Bayes và k-NN cĩ độ chính xác thay đổi từ 92,85% đến 95,71%. Nĩ cĩ thể cũng cĩ thể dễ dàng nhận thấy rằng SVM cĩ giá trị cao nhất trong số các trường hợp được phân loại chính xác và giá trị thấp hơn của các trường hợp được phân loại khơng chính xác so với các bộ phân loại khác (xem Hình 3.22).

Từ Bảng 3.39, em cĩ thể thấy rõ hơn rằng cơ hội cĩ một phân loại tốt nhất (0,92%) với ít cảnh báo nhất tỷ lệ lỗi (0,03) được tạo ra bởi SVM. Em cũng cĩ thể nhận thấy rằng SVM cĩ khả năng tương thích tốt nhất giữa độ tin cậy của dữ liệu được thu thập và tính hợp lệ của chúng. J48 và k-NN cĩ giá trị tỷ lệ lỗi cao nhất; như trong Hình 3.23, giải thích số lượng lớn các trường hợp được phân loại khơng chính xác cho mỗi thuật tốn (10 trường hợp khơng chính xác cho J48 và 6 trường hợp khơng chính xác cho k-NN).

Sau khi tạo mơ hình dự đốn, bây giờ em cĩ thể phân tích kết quả thu được trong việc đánh giá hiệu quả của các thuật tốn. Trên thực tế, Bảng 3.40 cho thấy SVM và K- NN cĩ giá trị TP cao nhất (0.96%) đối với loại lành tính nhưng k-NN dự đốn chính xác 0.96% trường hợp thuộc loại ác tính. Tỷ lệ FP thấp hơn khi sử dụng bộ phân loại SVM (0,04 cho lớp lành tính và 0,03 cho lớp ác tính), và sau đĩ các thuật tốn khác tuân theo: k-NN, J48 và NB. Từ những kết quả này, chúng ta cĩ thể hiểu tại sao SVM lại hoạt động tốt hơn các bộ phân loại khác.

Bây giờ em đã so sánh lớp thực tế và kết quả dự đốn thu được bằng cách sử dụng ma trận nhầm lẫn như được hiển thị trong Bảng 3.41. SVM dự đốn chính xác 135 trường hợp trong số 140 trường hợp (458 trường hợp lành tính cĩ hiệu quả lành tính và 241 trường hợp trường hợp ác tính thực sự là ác tính) và 5 trường hợp dự đốn sai (3 trường hợp thuộc loại lành tính được dự đốn là ác tính và 2 trường hợp của lớp ác tính được dự đốn là lành tính). Đĩ là lý do tại sao độ chính xác của SVM là tốt hơn các kỹ thuật phân loại khác được sử dụng với giá trị tỷ lệ lỗi thấp hơn.

Tĩm lại, SVM đã cĩ thể thể hiện sức mạnh của mình về hiệu lực và hiệu quả dựa trên độ chính xác và Gợi lại. So với một lượng nghiên cứu tốt về ung thư vú-Wisconsin

chất ( cĩ no-recurrence-events hoặc recurrence-events ) của bệnh ung thư vú thơng qua việc áp dụng một số phương pháp/kỹ thuật phân lớp dữ liệu. Đặc biệt, chương này trình đã xây dựng trình bày mơ hình tổng thể bài tốn phân lớp dự đốn bệnh ung thư vú trên cơ sở áp dụng các thuật tốn phân lớp và phần mềm hỗ trợ trực quan Weka. Kết quả thực nghiệm của bài tốn được trình bày khá chi tiết trên cơ sở áp dụng phần mềm Weka và các phương pháp phổ biến như: thuật tốn Nạve Bayes, thuật tốn K-Nerrest neighbor, thuật tốn Support Vector Machines, thuật tốn Decision tree (J48).

KẾT LUẬN

Các phương pháp khai phá dữ liệu nĩi chung, phương pháp học máy cĩ giám sát nĩi riêng, đã và đang cho thấy vai trị to lớn trong việc phát hiện tri thức để ứng dụng vào các bài tốn trong thực tế.

Ung thư vú đang là một trong những căn bệnh nhức nhối mà con người (đặc biệt là phụ nữ) phải đối mặt, việc hỗ trợ chẩn đốn và phát hiện sớm ở giai đoạn đầu của bệnh sẽ đĩng vai trị to lớn trong việc ngăn ngừa và điều trị sau này. Chính vì vậy, đề tài “Nghiên cứu một số phương pháp học máy cĩ giám sát và ứng dụng trong hỗ trợ

chẩn đốn bệnh ung thư vú (breast cancer)” cĩ ý nghĩa khoa học và mang tính ứng dụng

thực tiễn cao.

Qua kết quả thực hiện ở trên, em thấy ngồi mơ hình SVM cho kết quả dự đốn tốt nhất. Thơng qua mơ hình SVM, em cĩ thể dự đốn được tình trạng ung thư vú của bệnh nhân với độ chính xác, tin cậy khá cao. Điều này cĩ giá trị rất hữu ích về mặt thời gian, kinh tế và ý nghĩa y học; được kỳ vọng sẽ giúp cải thiện chất lượng của cơng tác ngăn ngừa và điều trị một trong những căn bệnh rất được quan tâm hiện nay, đặc biệt là đối với phụ nữ.

Thơng qua kết quả thực nghiệm của 4 phương pháp học máy cĩ giám sát ở trên, đặc biệt là cây quyết định, ta cĩ thể phán đốn được tế bào ác tính thường cĩ một số đặc trưng cơ bản như:

- Tính đồng nhất của kích thước tế bào (Uniformity of Cell Size) ≤ 2 và hạt nhân trần (Bare Nuclei) ≤ 3;

- Tính đồng nhất của kích thước tế bào (Uniformity of Cell Size) ≤ 2, hạt nhân trần (Bare Nuclei) ≥3 và chất nhiễm sắc hạt (Bland Chromatin) ≤ 2;…

Từ những kết quả thu được của đề tài này, tác giả kỳ vọng đây sẽ là một trong những gợi ý khá hữu ích giúp hỗ trợ các nhà y học và sinh học trong việc ra quyết định liên quan đến nghiệp vụ ngăn ngừa, chữa trị bệnh ung thư vú.

phá dữ liệu, NXB .Giáo dục Việt Nam.

[4]. Website: https://ndhcuong.wordpress.com/hoc-phan/khai-pha-du-lieu/ [5]. Website:https://ongxuanhong.wordpress.com/2015/08/25/ap-dung-cac-

phuong -phap- phan-lop-classification-tren-tap-du-lieu-mushroom/ [6]. Hồng Kiếm; Giáo trình nhập mơn trí tuệ nhân tạo; NXB ĐHQG TPHCM

2000.

Tiếng anh

[7]. Jiawei Hanand Micheline Kambel (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers.

[8]. Mehmed Kantardzic; Data mininng concepts, models, methods, and algorithms; John Wiley & Sĩn, 2003.

[9]. Anil K. Jain and Richard C. Dubes (1988), Algorithms for clustering data, Prentice Hall, Inc., USA.

[10]. Ho Tu Bao (1998), Introduction to knowledge discovery and data mining. [11]. Mercer (2003), Clustering large datasets, Linacre College.

[12]. Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009.

[13]. Usama Fayyad, Gregory Piatesky-Shapiro, and Padhraic Smyth; From data mining to knowledge discovery in databases.

[14]. V. Chaurasia and S. Pal, “Data Mining Techniques: To Predict and Resolve Breast Cancer Survivability,” vol. 3, no. 1, pp. 10– 22, 2014

[15]. S. Aruna and L. V Nandakishore, “Knowledge B Ased A Nalysis Of V Arious S Tatistical T Ools In D Etecting B Reast,” Pp. 37–45, 2011

[16]. A. C. Y, “An Empirical Comparison of Data Mining Classification Methods,” vol. 3, no. 2, pp. 24–28, 2011

[17]. A. Pradesh, “Analysis of Feature Selection with Classification : Breast Cancer Datasets,” Indian J. Comput. Sci. Eng., vol. 2, no. 5, pp. 756–763, 2011.

[18]. Thorsten J. Transductive Inference for Text Classification Using Support Vector Machines. Icml. 1999;99:200-209. doi:10.4218/etrij.10.0109.0425. [19]. L. Ya-qin, W. Cheng, and Z. Lu, “Decision tree based predictive models for

breast cancer survivability on imbalanced data,” pp. 1–4, 2009.

[20]. D. Delen, G. Walker, and A. Kadam, “Predicting breast cancer survivability: a comparison of three data mining methods,” Artif. Intell. Med., vol. 34, pp. 113–127, 2005.

:Biểu đồ so sánh của các bộ phân loại khác nhau

Giới thiệu về ung thư vú

Kiến trúc thư viện Weka