3.1 Tổng quan bài tốn học cĩ giám sát, hỗ trợ chẩn đốn bệnh ung thư vú
3.1.3 Cơng việc liên quan
Phân loại là một trong những nhiệm vụ quan trọng và thiết yếu nhất trong học máy và khai thác dữ liệu. Về rất nhiều nghiên cứu đã được thực hiện để áp dụng khai thác dữ liệu và học máy trên các bộ dữ liệu y tế khác nhau để phân loại Ung thư vú. Nhiều người trong số họ cho thấy độ chính xác phân loại tốt. Vikas Chaurasia và Saurabh Pal [14] so sánh tiêu chí hoạt động của bộ phân loại học tập cĩ giám sát; như Nạve Bayes, hạt nhân SVM-RBF, mạng nơ-ron RBF, cây Quyết định (J48) và CART đơn giản; để tìm bộ phân loại tốt nhất trong bộ dữ liệu ung thư vú. Kết quả thử nghiệm cho thấy hạt nhân SVM-RBF chính xác hơn các bộ phân loại khác; nĩ đạt độ chính xác 96,84% trong bộ dữ liệu Ung thư vú Wisconsin (gốc). Djebbari etal. xem xét tác động của tập hợp các kỹ thuật máy học để dự đốn thời gian sống sĩt trong bệnh ung thư vú. Kỹ thuật của họ cho thấy độ chính xác tốt hơn trên tập dữ liệu ung thư vú của họ so với các kết quả trước đĩ. S. Aruna và L.V Nandakishore [15], so sánh hiệu suất của C4.5, Nạve Bayes, Hỗ trợ Vector Machine (SVM) và K- Nearest Neighbor (K- NN) để tìm bộ phân loại tốt nhất trong WBC. SVM được chứng minh là bộ phân loại chính xác nhất 96,99%. Angeline Christobel. Y và Tiến sĩ Sivaprakasam[16], đạt độ chính xác 69,23% bằng cách sử dụng bộ phân loại cây quyết định (CART) trong bộ dữ liệu ung thư vú.
Độ chính xác của thuật tốn khai thác dữ liệu SVM, IBK, BF Tree được so sánh bởi A. Pradesh[17]. Hiệu suất của SMO cho thấy giá trị cao hơn so với các bộ phân loại khác. T.Joachims[18]. đạt độ chính xác 95,06% với kỹ thuật làm mờ nơ-ron khi sử dụng bộ dữ liệu Ung thư vú Wisconsin (gốc). Trong nghiên cứu này, một phương pháp lai được đề xuất để nâng cao độ chính xác phân loại của bộ dữ liệu Ung thư vú Wisconsin (gốc) (95,96) với 10 lần chéo Thẩm định. Liu Ya-Qin’s, W. Cheng và Z. Lu[19] đã thử nghiệm trên dữ liệu ung thư vú bằng thuật tốn C5 với đĩng bao; bằng cách tạo dữ liệu bổ sung để đào tạo từ tập hợp ban đầu bằng cách sử dụng các kết hợp cĩ lặp lại để tạo ra nhiều tập hợp cĩ cùng kích thước với dữ liệu ban đầu của bạn; để dự đốn khả năng sống sĩt của ung thư vú. Delen et al. Lu[20] lấy 202.932 hồ sơ bệnh nhân ung thư vú, sau đĩ được phân loại trước thành hai nhĩm “sống sĩt” (93.273) và “khơng sống sĩt” (109,659). Kết quả dự đốn khả năng sống sĩt nằm trong khoảng 93% sự chính xác.
Trong nghiên cứu này, trên cơ sở dữ liệu bệnh ung thư vú Wisconsin (gốc) đã thu thập, tác giả đã nghiên cứu và tiến hành thực nghiệm với các thuật tốn phổ biến gồm:
SVM, NB, K-NN và J48. Kết quả cho thấy SVM đạt độ chính xác cao nhất (96.42%) với tỷ lệ sai số thấp nhất (0,03%) khơng giống như J48 cĩ độ chính xác thay đổi từ 92,85% sai số tỷ lệ thay đổi trong khoảng 0,09, cịn Nạve Bayes và k-NN cĩ độ chính xác thay đổi từ 95,71% và sai số tỷ lệ thay đổi trong khoảng 0,04.