Untitled i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG DOUANGBOUDY Noysinakhone NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT VÀ ỨNG DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH UNG[.]
i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG DOUANGBOUDY Noysinakhone NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT VÀ ỨNG DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH UNG THƯ VÚ (BREAST CANCER Chuyên ngành : Khoa học máy tính Mã số : 848 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2021 ii LỜI CẢM ƠN Sau thời gian tiến hành triển khai nghiên cứu, em hoàn thành nội dung luận văn “ Nghiên cứu số phương pháp học máy có giám sát ứng dụng hỗ trợ chẩn đoán bệnh bệnh ung thư vú” Luận văn hoàn thành không công sức thân tác giả mà cịn có giúp đỡ, hỗ trợ tích cực nhiều cá nhân tập thể Em xin gửi lời cảm ơn chân thành sâu sắc đến thầy giáo, TS Nguyễn Văn Núi, người trực tiếp hướng dẫn luận văn cho em Thầy dành cho em nhiều thời gian, tâm sức, cho em nhiều ý kiến, nhận xét quý báu, chỉnh sửa cho em chi tiết nhỏ luận văn, giúp luận văn em hồn thiện mặt nội dung hình thức Thầy quan tâm, động viên, nhắc nhở kịp thời để em hồn thành luận văn tiến độ Em xin gửi lời cảm ơn tới thầy cô Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên, người tận tình giúp đỡ, hướng dẫn trình em học tập trường Em xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, anh/chị lớp cao học K18A ln động viên, quan tâm giúp đỡ em trình học tập thực luận văn Em xin trân trọng cảm ơn ! Thái Nguyên, tháng 11 năm 2021 Học viên thực Douangboudy Noysinakhone iii LỜI CAM ĐOAN Họ tên học viên: Douangboudy Noysinakhone Lớp cao học: CK18A Trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên Chuyên ngành: Khoa học máy tính Tên đề tài luận văn: “Nghiên cứu số phương pháp học máy có giám sát ứng dụng hỗ trợ chẩn đoán bệnh bệnh ung thư vú “ Em xin cam đoan luận văn “Nghiên cứu số phương pháp học máy có giám sát ứng dụng hỗ trợ chẩn đoán bệnh bệnh ung thư vú” cơng trình nghiên cứu cá nhân em thời gian qua Mọi số liệu sử dụng phân tích luận văn kết nghiên cứu em tự tìm hiểu, phân tích cách khách quan, trung thực, có nguồn gốc rõ ràng chưa cơng bố hình thức Em xin chịu hồn tồn trách nhiệm có không trung thực thông tin sử dụng cơng trình nghiên cứu Thái Ngun, tháng 11 năm 2021 Học viên thực Douangboudy Noysinakhone iv MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH SÁCH BẢNG vii DANH SÁCH HÌNH VẼ ix DANH SÁCH CÁC TÙ VIẾT TẮT xi MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 1.1 Giới thiệu tổng quan .3 1.1.1 Khái niệm khai phá liệu 1.1.2 Một số ứng dụng khai phá liệu 1.1.3 Quá trình phát tri thức khai phá liệu 1.1.4 Các bước trình KPDL 1.2 Một số kỹ thuật khai phá liệu 1.2.1 Khai phá liệu dự đoán 1.2.2 Khai phá liệu mô tả .6 1.3 Tổng quan phương pháp học máy 1.3.1 Học có giám sát (supervised learning) 1.3.2 Học bán giám sát (Semi-supervised learning) 1.3.3 Học khơng có giám sát (Unsupervised learning) 1.3.4 Học tăng cường (Reinforcement learning) 1.4 Tổng kết Chương 10 CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT 11 2.1 Tổng quan học máy có giám sát 11 2.1.1 Phân loại 12 2.1.2 Hồi quy 12 2.2 Phương pháp định (decision tree) 12 2.2.1 Giới thiệu chung 12 2.2.2 Các kiểu định 12 v 2.2.3 Ưu điểm định 13 2.2.4 Các thuật toán xây dựng định 13 2.3 Phương pháp Bayesian 17 2.3.1 Giới thiệu Bayesian 17 2.3.2 Định lý Bayes 18 2.4 Phương pháp rừng ngẫu nhiên (Random Forest) 21 2.4.1 Định nghĩa 21 2.4.2 Mơ hình phân lớp với Random Forest 23 2.4.3 Ứng dụng thuật toán Random Forest .23 2.5 Phương pháp máy hỗ trợ vector (support vector machine) 23 2.5.1 Tổng quan Máy vectơ hỗ trợ .23 2.5.2 Nhận dạng mẫu phân lớp siêu phẳng 24 2.5.3 Siêu phẳng tối ưu 25 2.5.4 Phân lớp lề mềm 28 2.6 Tổng kết Chương 29 CHƯƠNG III ỨNG DỤNG MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CĨ GIÁM SÁT TRONG HỖ TRỢ CHẨN ĐỐN BỆNH UNG THƯ VÚ 30 3.1 Tổng quan tốn học có giám sát, hỗ trợ chẩn đốn bệnh ung thư vú 30 3.1.1 Học có giám sát ứng dụng hỗ trợ chẩn đoán bệnh ung thư vú 31 3.1.2 Giới thiệu ung thư vú 33 3.1.3 Công việc liên quan .34 3.1.4 Thu thập, tiền xử lý mã hóa liệu 35 3.1.5 Mô tả sơ lược liệu .36 3.2 Giới thiệu cơng cụ Weka, cấu hình ứng dụng hỗ trợ chẩn đoán bệnh ung thư vú 37 3.2.1 Khái niệm công cụ Weka 37 3.2.2 Ưu điểm Weka 38 3.2.3 Kiến trúc thư viện Weka 39 3.2.4 Các mơi trường 40 3.2.5 Định dạng liệu Weka 40 3.2.6 Các bước chức phân lớp (Classify) .41 vi 3.2.7 Mô tả chức phân lớp (Classify) 45 3.3 Phân tích, đánh giá kết thực nghiệm .46 3.3.1 Thực nghiệm 47 3.3.2 Thực phân lớp thuật toán Naïve Bayes 48 3.3.3 Thực phân lớp thuật toán K-Nerrest neighbor 50 3.3.4 Thực phân lớp thuật toán Support Vector Machines 53 3.3.5 Thực phân lớp thuật toán Decision tree (J48) .55 3.4 Đánh giá mơ hình phân lớp liệu Breast cancer .58 3.4.1 Đánh giá mơ hình phương pháp Hold-out 58 3.4.2 Đánh giá mơ hình phương pháp k-fold Cross validation 59 3.5 Kết luận thực nghiệm phân lớp liệu Breast cancer 59 3.6 Thảo luận 63 3.7 Tổng kết Chương 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO .66 vii DANH SÁCH BẢNG Bảng 2.1 : xây dựng định cho tập liệu huấn luyện 14 Bảng 2.2 : Ví dụ thơng tin áp dụng cho toán 20 Bảng 3.1 : Tổng hợp liệu thu thập 35 Bảng 3.2 : Các tính dành cho liệu bệnh ung thư vú 35 Bảng 3.3 : Dữ liệu ung thư vú Wisconsin 48 Bảng 3.4: Độ xác thuật tốn Naïve Bayes (kịch 1) 48 Bảng 3.5: Tóm tắt cho Nạve Bayes (Kịch 1) .49 Bảng 3.6: Các thước đo độ xác thuật tốn Nạve Bayes (kịch 1) 49 Bảng 3.7: Ma trận nhầm lẫn (kịch 1) 49 Bảng 3.8: Độ xác thuật tốn Nạve Bayes (kịch 2) 49 Bảng 3.9: Tóm tắt cho Nạve Bayes (Kịch 2) .50 Bảng 3.10: Các thước đo độ xác thuật tốn Nạve Bayes (kịch 2) 50 Bảng 3.11: Ma trận nhầm lẫn NB (kịch 2) .50 Bảng 3.12: Độ xác thuật toán k-NN (kịch 1) 51 Bảng 3.13: Tóm tắt cho k-NN (kịch 1) 51 Bảng 3.14: Các thước đo độ xác thuật toán k-NN (kịch 1) 51 Bảng 3.15: Ma trận nhầm lẫn k-NN (kịch 1) 52 Bảng 3.16: Độ xác thuật toán k-NN (kịch 2) 52 Bảng 3.17: Tóm tắt cho k-NN (kịch 2) 52 Bảng 3.18: Các thước đo độ xác thuật toán k-NN (kịch 2) 52 Bảng 3.19: Ma trận nhầm lẫn (kịch 2) .53 Bảng 3.20: Độ xác thuật tốn SVM (kịch 1) 53 Bảng 3.21: Tóm tắt cho SVM (kịch 1) 53 Bảng 3.22: Các thước đo độ xác thuật tốn SVM (kịch 1) 54 Bảng 3.23: Ma trận nhầm lẫn (kịch 1) .54 Bảng 3.24: Độ xác thuật tốn SVM (kịch 2) 54 Bảng 3.25: Tóm tắt cho SVM (kịch 2) 54 Bảng 3.26: Các thước đo độ xác thuật tốn SVM (kịch 2) 55 Bảng 3.27: Ma trận nhầm lẫn (kịch 2) .55 viii Bảng 3.28: Độ xác thuật toán J48 (kịch 1) .55 Bảng 3.29: Tóm tắt cho J48 (kịch 1) 55 Bảng 3.30: Các thước đo độ xác thuật tốn J48 (kịch 1) .55 Bảng 3.31: Ma trận nhầm lẫn (kịch 1) .56 Bảng 3.32: Độ xác thuật toán J48 (kịch 2) .56 Bảng 3.33: Tóm tắt cho J48 (kịch 2) 56 Bảng 3.34: Các thước đo độ xác thuật toán J48 (kịch 2) .57 Bảng 3.35: Ma trận nhầm lẫn (kịch 2) .57 Bảng 3.36: Hiệu mơ hình dự đốn, đánh giá kiểm tra 80% 58 Bảng 3.37: Hiệu mơ hình dự đốn, đánh giá kiểm tra chéo mặt (10-fold cross-validation) 59 Bảng 3.38: Hiệu suất phân loại 60 Bảng 3.39: Huấn luyện lỗi mô 61 Bảng 3.40: So sánh phép đo độ xác cho J48, SVM, NB k-NN 61 Bảng 3.41 : Ma trận nhầm lẫn thuật toán .62 ix DANH SÁCH HÌNH VẼ Hình 1.1 : Q trình phát tri thức Hình 1.2: Mối quan hệ thông tin, liệu tri thức .5 Hình 1.3 : Quá trình KPDL .5 Hình 1.4 : Thuật tốn hồi quy Hình 1.5 : Thuật tốn phân cụm Hình 1.6 : Thuật toán học quy tắc kết hợp Hình 1.7 : Thuật tốn học có giám sát .8 Hình 1.8: Ảnh minh hoạ cho tập liệu chữ số viết tay – MNIST Hình 1.9: Thuật tốn học khơng giám sát Hình 1.10: Minh hoạ cho học tăng cường áp dụng lý thuyết trò chơi 10 Hinh 2.1: Mơ hình học có giám sát 11 Hình 2.2: Cây định sau chọn nút gốc 16 Hình 2.3: Cây định sau chọn nút cho nhánh trái 17 Hình 2.4: Cây định hoàn chỉnh 17 Hình 2.5: Định lý Bayes 18 Hình 2.6 : Mơ hình Rừng ngẫu nhiên 22 Hình 2.7: Mơ hình phân lớp với Random Forest 23 Hình 2.8 : Ví dụ siêu phẳng với lề cực đại không gian R2 24 Hình 2.9 : Một phân chia siêu phẳng (w, b) cho tập liệu huấn luyện hai chiều [4] 25 Hình 2.10: Cực đại lề siêu phẳng với vector hỗ trợ [4] 25 Hình 2.11: Đồ thị biểu diễn giá trị α [4] 27 Hình 2.12: Phân lớp lề mềm [4] 28 Hình 3.1: Học có giám sát 30 Hình 3.2 : Ánh mịnh hoạ (1) 31 Hình 3.3: Ảnh minh hoạ (2) 32 Hình 3.4: Sơ đồ phương pháp phân lớp bệnh ung thư vú (Breast cancer) 36 Hình 3.5: Load breast cancer data 37 Hình 3.6: Giao diên ban đầu phần mền WEKA 38 Hình 3.7: Biểu diễn đọc liệu vào chương trình Weka .41 x Hình 3.8: Biểu diễn chọn tap Classify để phân loại .42 Hình 3.9 : Biểu diễn chọn thuật toán phân loại xác định tham số 42 Hình 3.10: Biểu diễn chọn kiểu test 43 Hình 3.11: Chạy thuật tốn phân loại 43 Hình 3.12: Bảng lưu thơng tin .44 Hình 3.13: Bảng kết sau chạy thuật toán phân loại 44 Hình 3.14 : Giải thích Running Information 45 Hình 3.15: Giải thích Classifier model (full training set) 45 Hình 3.16 : Giải thích xem xét tổng kết số liệu thống kê tập liệu 46 Hình 3.17: Độ xác chi tiết cho phân lớp 46 Hình 3.18: Confusion matrix phân loại liệu BreastCancer 46 Hình 3.19: Sơ đồ tổng thể mơ hình phân lớp dự đốn bệnh ung thư (breast cancer) 47 Hình 3.20: Mơ hình định hiển thị Hold-out J48 .58 Hình 3.21 : Cây định Visualization .58 Hình 3.22 :Biểu đồ so sánh phân loại khác 60 Hình 3.23: Sơ đồ so sánh thuật toán học máy liên quan đến tiêu chí đánh giá: KS, MAE, RMSE, RAE RRSE 61 Hình 3.24 : Biểu đồ so sánh Ma trận nhầm lẫn .62 53 ● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.19: Ma trận nhầm lẫn (kịch 2) K-NN Phân loại Lành tính Ác tính Phiên họp1 433 15 Phiên họp2 19 22 3.3.4 Thực phân lớp thuật toán Support Vector Machines Tham số C, gọi tham số độ phức tạp Weka kiểm sốt mức độ linh hoạt quy trình vẽ đường phân tách lớp Giá trị cho phép không vi phạm ký quỹ, mặc định Một tham số SVM loại Kernel sử dụng Hạt nhân đơn giản hạt nhân tuyến tính phân tách liệu đường thẳng siêu phẳng Mặc định Weka hạt nhân đa thức phân tích lớp cách sử dụng đường cong uốn lượn, đa thức cao, lung lay (giá trị số mũ) Một hạt nhân phổ biến mạnh mẽ kernel RBF Radial Basis Function kernel có khả học đa giác khép kín hình dạng phức tạp để phân tách lớp Đó ý tưởng tốt để thử giá trị hạt nhân C (Độ phức tạp) khác vấn đề bạn xem hoạt động tốt Kịch 1: Thực huấn luyện chế độ phân lớp Percentage split đề xác định tỉ lệ phân chia, thực nghiệm em xác định tỉ lệ 80%, có nghĩa chia 80% tập huấn luyện (tập trian), 20% tập kiểm tra (tập test) Đề đạt hiệu phân lớp sau: Bảng 3.20: Độ xác thuật tốn SVM (kịch 1) SVM phân loại xác phân loại khơng xác 135 (96.4286 %) (3.5714 %) ● Đánh giá phần tách thử nghiệm cho SVM Bảng 3.21: Tóm tắt cho SVM (kịch 1) SVM Thống kê Kappa 0.9226 Sai số trung bình tuyệt đối 0.0357 Lỗi bình phương trung bình gốc 0.189 Sai số tuyệt đối tương đối 7.8505 % 54 Lỗi bình phương tương đối gốc 39.4215 % Tổng số phiên 140 ● Độ xác chi tiết theo lớp cho SVM Bảng 3.22: Các thước đo độ xác thuật tốn SVM (kịch 1) TP FP Precision Recall FMeasure MCC ROC PRC Class 0.967 0.040 0.978 0.967 0.972 0.923 0.963 0.966 Lành tính 0.960 0.33 0.941 0.960 0.950 0.923 0.963 0.918 Ác tính 0.964 0.038 0.965 0.964 0.964 0.923 0.963 0.949 SVM Weighted Avg ● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.23: Ma trận nhầm lẫn (kịch 1) SVM Phân loại Lành tính Ác tính Phiên họp1 87 Phiên họp2 48 Kịch 2: Thực nghiệm huấn luyện chế độ phân Cross-validation Tập liệu chia k tập (folds) có kích thước xấp xỉ phân loại học đánh giá phương pháp Cross-validation Trong thực nghiệm em xác định chọn fold = 10, để đạt hiệu phân lớp sau: Bảng 3.24: Độ xác thuật toán SVM (kịch 2) SVM phân loại xác 676 ( 96.7096 %) phân loại khơng xác 23 ( 3.2904 %) ● Đánh giá phần tách thử nghiệm cho SVM Bảng 3.25: Tóm tắt cho SVM (kịch 2) SVM Thống kê Kappa 0.9274 Sai số trung bình tuyệt đối 0.0329 Lỗi bình phương trung bình gốc 0.1814 Sai số tuyệt đối tương đối 7.2803 % Lỗi bình phương tương đối gốc 38,1642 % Tổng số phiên 699 55 ● Độ xác chi tiết theo lớp cho SVM Bảng 3.26: Các thước đo độ xác thuật tốn SVM (kịch 2) TP FP Precision Recall 0.972 F-Measure MCC ROC PRC 0.041 0.978 0.972 0.975 0.927 0.965 0.969 Lành tính 0.959 0.028 0.947 0.959 0.953 0.927 0.965 0.922 Ác tính 0.967 0.037 0.967 0.967 0.967 0.927 0.965 0.953 SVM Weighted Avg Class Ma trận nhầm lẫn (Confusion matrix) Bảng 3.27: Ma trận nhầm lẫn (kịch 2) SVM Phân loại Lành tính Ác tính Phiên họp1 445 13 Phiên họp2 10 231 3.3.5 Thực phân lớp thuật toán Decision tree (J48) Kịch 1: Thực huấn luyện chế độ phân lớp Percentage split đề xác định tỉ lệ phân chia, thực nghiệm em xác định tỉ lệ 80%, có nghĩa chia 80% tập huấn luyện (tập trian), 20% tập kiểm tra (tập test) Đề đạt hiệu phân lớp sau: Bảng 3.28: Độ xác thuật tốn J48 (kịch 1) J48 phân loại xác 130 (92.8571 %) 10 (7.1429 %) phân loại khơng xác ● Đánh giá phần tách thử nghiệm cho J48 Bảng 3.29: Tóm tắt cho J48 (kịch 1) J48 Thống kê Kappa 0.8485 Sai số trung bình tuyệt đối 0.092 Lỗi bình phương trung bình gốc 0.2429 Sai số tuyệt đối tương đối 20.2164 % Lỗi bình phương tương đối gốc 50.6609 % Tổng số phiên 140 Độ xác chi tiết theo lớp cho J48 Bảng 3.30: Các thước đo độ xác thuật tốn J48 (kịch 1) 56 TP J48 Weighted Avg FP Precision Recall F-Measure MCC ROC PRC Class 0.911 0.04 0.976 0.911 0.943 0.852 0.955 0.962 Lành tính 0.960 0.089 0.857 0.960 0.906 0.852 0.955 0.893 Ác tính 0.967 0.057 0.934 0.929 0.929 0.852 0.955 0.937 ● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.31: Ma trận nhầm lẫn (kịch 1) J48 Phân loại Lành tính Ác tính Phiên họp1 82 Phiên họp2 48 Kịch 2: Thực nghiệm huấn luyện chế độ phân Cross-validation Tập liệu chia k tập (folds) có kích thước xấp xỉ phân loại học đánh giá phương pháp Cross-validation Trong thực nghiệm em xác định chọn fold = 10, để đạt hiệu phân lớp sau: Bảng 3.32: Độ xác thuật tốn J48 (kịch 2) J48 phân loại xác 661 phân loại khơng xác 38 ( 94.5637 % ) ( 5.4363 % ) ● Đánh giá phần tách thử nghiệm cho J48 Bảng 3.33: Tóm tắt cho J48 (kịch 2) J48 Thống kê Kappa 0.8799 Sai số trung bình tuyệt đối 0.0691 Lỗi bình phương trung bình gốc 0.2228 Sai số tuyệt đối tương đối 15.2992 % Lỗi bình phương tương đối gốc 46.8739 % Tổng số phiên 699 57 ● Độ xác chi tiết theo lớp cho J48 Bảng 3.34: Các thước đo độ xác thuật tốn J48 (kịch 2) TP J48 Weighted Avg FP Precision Recall FMeasure MCC ROC PRC Class 0.956 0.075 0.961 0.956 0.958 0.880 0.955 0.955 Lành tính 0.925 0.044 0.918 0.925 0.921 0.880 0.955 0.903 Ác tính 0.946 0.064 0.946 0.946 0.946 0.880 0.955 0.937 ● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.35: Ma trận nhầm lẫn (kịch 2) J48 Phân loại Lành tính Ác tính Phiên họp1 438 20 Phiên họp2 18 223 Riêng thuật tốn J48, em sử dụng chức Visualize tree để xem hình ảnh định 58 Hình 3.20: Mơ hình định hiển thị Hold-out J48 Hình 3.21 : Cây định Visualization 3.4 Đánh giá mơ hình phân lớp liệu Breast cancer 3.4.1 Đánh giá mơ hình phương pháp Hold-out Em chia liệu thành phần: 80 % để xây dựng mơ hình phân lớp (tập train), 20% để kiểm tra (tập test) Bảng 3.36 : Hiệu mơ hình dự đốn, đánh giá kiểm tra 80% Classifier Precision Recall F-measure MCC Time Confusion matrix Naïve Bayes 0.958 0.957 0.957 0.908 0.01 a b classified as 86 | a = 2 48 | b = KNN(k=1 0.957 0.957 0.957 0.907 0.02 a b classified as 87 | a = 47 | b = SVM 0.956 0.964 0.964 0.923 0.20 a b classified as 87 | a = 2 48 | b = J48 0.934 0.929 0.929 0.852 0.01 a b classified as 82 | a = 2 48 | b = 59 3.4.2 Đánh giá mơ hình phương pháp k-fold Cross validation Em chọn k = 10, nghĩa chia tập liệu thành 10 phần, phần dùng làm tập kiểm tra (test set), phần dùng để huấn luyện (train set) Bảng 3.37: Hiệu mơ hình dự đốn, đánh giá kiểm tra chéo mặt (10fold cross-validation) Classifier Precision Recall F-measure MCC Time Naïve Bayes 0.962 0.960 0.960 0.914 Confusion matrix a b classified as 436 22 | a = 2 235 | b = KNN(k=1 0.951 0.951 0.951 0.892 a b classified as 443 15 | a = 2 SVM 0.967 0.967 0.967 0.927 0.04 a b classified as 445 13 | a = 2 J48 0.946 0.946 0.946 0.880 0.01 222 | b = 231 | b = a b classified as 438 20 | a = 2 223 | b = 3.5 Kết luận thực nghiệm phân lớp liệu Breast cancer Qua kết phân lớp để xây dựng mơ hình phân tích liệu bệnh ung thư vú tảng máy học cơng cụ Weka thuật tốn Nạve Bayes, thuật tốn K-Nerrest neighbor, thuật tốn Support Vector Machines, thuật toán Decision tree (J48) để tận dụng hiệu tối ưu chạy giải thuật phân lớp tảng Kết thực cho thấy sử dụng cơng cụ Weka để phân tích liệu bệnh ung thư vú đạt hiệu suất cao có kết tốt tập liệu bệnh ung thư vú Em tin tưởng với số lượng mẫu lớn liệu lớn mơ hình phân tích tối ưu mặt thời gian xử lý giải thuật Trong tương lai em nghiên xây dựng công cụ weka để giả lập liệu với số lượng liệu lớn để đánh giá mặt hiệu suất thời gian xử lý tiếp tục nghiên cứu song song hóa giải thuật để thực nghiệm cluster Hiệu Trong phần này, em đánh giá hiệu tất phân loại thời gian xây dựng mô hình, cách xác trường hợp phân loại, trường hợp 60 phân loại khơng xác độ xác Kết thể Bảng 3.38 Hình 3.22 Bảng 3.38: Hiệu suất phân loại Tiêu chí đánh giá Bộ phân loại J48 SVM NB K-NN Thời gian xây dựng 0.01 0.02 0.02 0.02 Độ xác 130 135 134 134 Khơng xác 10 6 92.8571 96.4286 95.7143 95.7143 Sự xác Hình 3.22 :Biểu đồ so sánh phân loại khác Để đo lường tốt hiệu suất phân loại, lỗi mô xem xét nghiên cứu Làm vậy, em đánh giá hiệu trình phân loại em về: ● Thống kê Kappa (KS) thước đo điều chỉnh ngẫu nhiên thống phân loại thật lớp học, ● Sai số tuyệt đối trung bình (MAE) mức độ gần dự báo dự đoán với kết cuối cùng, ● Lỗi bình phương trung bình gốc (RMSE) ● Lỗi tuyệt đối tương đối (RAE) ● Lỗi bình phương tương đối gốc (RRSE) KS, MAE RMSE dạng số RAE RRSE tính theo phần trăm Kết thể Bảng 3.39 Hình 3.23 61 Bảng 3.39 : Huấn luyện lỗi mơ Tiêu chí đánh giá Bộ phân loại J48 SVM NB K-NN KS 0.8485 0.9226 0.9075 0.9067 MAE 0.092 0.0357 0.0434 0.0445 RMSE 0.2429 0.189 0.2067 0.2067 RAE% 20.2164 7.8505 9.5354 9.7789 RRSE (%) 50.6609 39.4215 43.1196 43.1068 Hình 3.23: Sơ đồ so sánh thuật tốn học máy liên quan đến tiêu chí đánh giá: KS, MAE, RMSE, RAE RRSE Khi mơ hình dự đốn xây dựng, em kiểm tra mức độ hiệu Đối với điều đó, em so sánh thước đo độ xác dựa giá trị độ xác, thu hồi, tỷ lệ TP tỷ lệ FP cho J48, SVM, NB k-NN thể Bảng 3.40 Bảng 3.40: So sánh phép đo độ xác cho J48, SVM, NB k-NN PRC Ảea Class 0.955 0.962 0.852 0.955 0.893 0.972 0.923 0.963 0.966 0.96 0.975 0.923 0.963 0.918 0.977 0.956 0.966 0.908 0.944 0.997 0.044 0.923 0.96 0.941 0.908 0.99 0.971 0.967 0.06 0.967 0.967 0.94 0.907 0.953 0.956 0.94 0.033 0.94 0.94 0.94 0.907 0.953 0.905 TP Rate FP Rate Precision Recall F-Measure MCC ROC 0.911 0.04 0.976 0.911 0.943 0.852 0.96 0.089 0.857 0.96 0.906 0.967 0.04 0.978 0.967 0.96 0.033 0.941 0.956 0.04 0.96 Area J48 SVM NB K-NN 62 Để hiểu rõ hiệu quả, Hình 3.24 trình bày đường chart phân loại em để minh họa rõ độ xác phân loại Đường cong ROC cung cấp đồ thị minh họa hiệu suất phân loại khác Từ cốt truyện, em dễ dàng chọn mơ hình tối ưu loại bỏ mơ hình khác để phân loại tốt Kể từ ma trận nhầm lẫn đại diện cho cách hữu ích để đánh giá trình phân loại, hàng Bảng 3.41 đại diện cho tỷ lệ lớp thực tế cột hiển thị dự đoán Bảng 3.41 : Ma trận nhầm lẫn thuật toán J48 SVM NB K-NN Benign Malignant class 82 Benign 48 Malignant 87 Benign 48 Malignant 86 Benign 48 Malignant 87 Benign 47 Malignant Hình 3.24 : Biểu đồ so sánh Ma trận nhầm lẫn 63 3.6 Thảo luận Em cho thấy từ Bảng 3.38 SVM khoảng 0,02 giây để xây dựng mơ hình nó, khơng giống J48 0,01 giây Nó giải thích J48 người lười học khơng làm nhiều q trình đào tạo khơng giống người khác phân loại xây dựng mơ hình Mặt khác, độ xác thu SVM (96,42%) tốt độ xác thu J48, Nạve Bayes k-NN có độ xác thay đổi từ 92,85% đến 95,71% Nó dễ dàng nhận thấy SVM có giá trị cao số trường hợp phân loại xác giá trị thấp trường hợp phân loại khơng xác so với phân loại khác (xem Hình 3.22) Từ Bảng 3.39, em thấy rõ hội có phân loại tốt (0,92%) với cảnh báo tỷ lệ lỗi (0,03) tạo SVM Em nhận thấy SVM có khả tương thích tốt độ tin cậy liệu thu thập tính hợp lệ chúng J48 k-NN có giá trị tỷ lệ lỗi cao nhất; Hình 3.23, giải thích số lượng lớn trường hợp phân loại khơng xác cho thuật tốn (10 trường hợp khơng xác cho J48 trường hợp khơng xác cho k-NN) Sau tạo mơ hình dự đốn, em phân tích kết thu việc đánh giá hiệu thuật toán Trên thực tế, Bảng 3.40 cho thấy SVM KNN có giá trị TP cao (0.96%) loại lành tính k-NN dự đốn xác 0.96% trường hợp thuộc loại ác tính Tỷ lệ FP thấp sử dụng phân loại SVM (0,04 cho lớp lành tính 0,03 cho lớp ác tính), sau thuật tốn khác tuân theo: k-NN, J48 NB Từ kết này, hiểu SVM lại hoạt động tốt phân loại khác Bây em so sánh lớp thực tế kết dự đoán thu cách sử dụng ma trận nhầm lẫn hiển thị Bảng 3.41 SVM dự đốn xác 135 trường hợp số 140 trường hợp (458 trường hợp lành tính có hiệu lành tính 241 trường hợp trường hợp ác tính thực ác tính) trường hợp dự đoán sai (3 trường hợp thuộc loại lành tính dự đốn ác tính trường hợp lớp ác tính dự đốn lành tính) Đó lý độ xác SVM tốt kỹ thuật phân loại khác sử dụng với giá trị tỷ lệ lỗi thấp Tóm lại, SVM thể sức mạnh hiệu lực hiệu dựa độ xác Gợi lại So với lượng nghiên cứu tốt ung thư vú-Wisconsin 64 tìm thấy tài liệu so sánh độ xác phân loại thuật tốn khai thác liệu, kết thử nghiệm em tạo giá trị xác cao (96,42%) phân loại tập liệu ung thư vú Có thể nhận thấy SVM vượt trội so với phân loại khác với tơn trọng độ xác, độ nhạy, độ đặc hiệu độ xác; phân loại tập liệu ung thư vú 3.7 Tổng kết Chương Chương trình bày vấn để tốn phân lớp / dự đốn tính chất ( có no-recurrence-events recurrence-events ) bệnh ung thư vú thông qua việc áp dụng số phương pháp/kỹ thuật phân lớp liệu Đặc biệt, chương trình xây dựng trình bày mơ hình tổng thể toán phân lớp dự đoán bệnh ung thư vú sở áp dụng thuật toán phân lớp phần mềm hỗ trợ trực quan Weka Kết thực nghiệm tốn trình bày chi tiết sở áp dụng phần mềm Weka phương pháp phổ biến như: thuật tốn Nạve Bayes, thuật toán K-Nerrest neighbor, thuật toán Support Vector Machines, thuật toán Decision tree (J48) 65 KẾT LUẬN Các phương pháp khai phá liệu nói chung, phương pháp học máy có giám sát nói riêng, cho thấy vai trò to lớn việc phát tri thức để ứng dụng vào toán thực tế Ung thư vú bệnh nhức nhối mà người (đặc biệt phụ nữ) phải đối mặt, việc hỗ trợ chẩn đoán phát sớm giai đoạn đầu bệnh đóng vai trò to lớn việc ngăn ngừa điều trị sau Chính vậy, đề tài “Nghiên cứu số phương pháp học máy có giám sát ứng dụng hỗ trợ chẩn đoán bệnh ung thư vú (breast cancer)” có ý nghĩa khoa học mang tính ứng dụng thực tiễn cao Qua kết thực trên, em thấy ngồi mơ hình SVM cho kết dự đốn tốt Thơng qua mơ hình SVM, em dự đốn tình trạng ung thư vú bệnh nhân với độ xác, tin cậy cao Điều có giá trị hữu ích mặt thời gian, kinh tế ý nghĩa y học; kỳ vọng giúp cải thiện chất lượng công tác ngăn ngừa điều trị bệnh quan tâm nay, đặc biệt phụ nữ Thông qua kết thực nghiệm phương pháp học máy có giám sát trên, đặc biệt định, ta phán đốn tế bào ác tính thường có số đặc trưng như: - Tính đồng kích thước tế bào (Uniformity of Cell Size) ≤ hạt nhân trần (Bare Nuclei) ≤ 3; - Tính đồng kích thước tế bào (Uniformity of Cell Size) ≤ 2, hạt nhân trần (Bare Nuclei) ≥3 chất nhiễm sắc hạt (Bland Chromatin) ≤ 2;… Từ kết thu đề tài này, tác giả kỳ vọng gợi ý hữu ích giúp hỗ trợ nhà y học sinh học việc định liên quan đến nghiệp vụ ngăn ngừa, chữa trị bệnh ung thư vú 66 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc (2017), Giáo trình khai phá liệu, NXB ĐHQG TPHCM [2] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2013), Giáo trình khai phá liệu, NXB Đại học Quốc gia Hà Nội [3] Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu – Đồn Sơn – Nguyễn Trí Thành, Nguyễn Thu Trang – Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu, NXB Giáo dục Việt Nam [4] Website: https://ndhcuong.wordpress.com/hoc-phan/khai-pha-du-lieu/ [5] Website:https://ongxuanhong.wordpress.com/2015/08/25/ap-dung-cacphuong -phap- phan-lop-classification-tren-tap-du-lieu-mushroom/ [6] Hồng Kiếm; Giáo trình nhập mơn trí tuệ nhân tạo; NXB ĐHQG TPHCM 2000 Tiếng anh [7] Jiawei Hanand Micheline Kambel (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers [8] Mehmed Kantardzic; Data mininng concepts, models, methods, and algorithms; John Wiley & Són, 2003 [9] Anil K Jain and Richard C Dubes (1988), Algorithms for clustering data, Prentice Hall, Inc., USA [10] Ho Tu Bao (1998), Introduction to knowledge discovery and data mining [11] Mercer (2003), Clustering large datasets, Linacre College [12] Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, 2009 [13] Usama Fayyad, Gregory Piatesky-Shapiro, and Padhraic Smyth; From data mining to knowledge discovery in databases [14] V Chaurasia and S Pal, “Data Mining Techniques: To Predict and Resolve Breast Cancer Survivability,” vol 3, no 1, pp 10– 22, 2014 [15] S Aruna and L V Nandakishore, “Knowledge B Ased A Nalysis Of V Arious S Tatistical T Ools In D Etecting B Reast,” Pp 37–45, 2011 [16] A C Y, “An Empirical Comparison of Data Mining Classification Methods,” vol 3, no 2, pp 24–28, 2011 67 [17] A Pradesh, “Analysis of Feature Selection with Classification : Breast Cancer Datasets,” Indian J Comput Sci Eng., vol 2, no 5, pp 756–763, 2011 [18] Thorsten J Transductive Inference for Text Classification Using Support Vector Machines Icml 1999;99:200-209 doi:10.4218/etrij.10.0109.0425 [19] L Ya-qin, W Cheng, and Z Lu, “Decision tree based predictive models for breast cancer survivability on imbalanced data,” pp 1–4, 2009 [20] D Delen, G Walker, and A Kadam, “Predicting breast cancer survivability: a comparison of three data mining methods,” Artif Intell Med., vol 34, pp 113–127, 2005