ỨNG DỤNG học máy để PHÂN LOẠI UNG THƯ vú

60 11 0
ỨNG DỤNG học máy để PHÂN LOẠI UNG THƯ vú

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT TRƯỜNG ĐẠI HỌC THỦY LỢI VŨ HUY HOÀNG ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ ĐỒ ÁN TỐT NGHIỆP HÀ NỘI, NĂM 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT TRƯỜNG ĐẠI HỌC THỦY LỢI VŨ HUY HOÀNG ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ Ngành : Công nghệ thông tin Mã số: NGƯỜI HƯỚNG DẪN PGS TS.Lê Đức Hậu HÀ NỘI, NĂM 2022 GÁY BÌA ĐỒ ÁN TỐT NGHIỆP, KHĨA LUẬN TỐT NGHIỆP VŨ HUY HỒ NG ĐỒ ÁN/K L TỐT NGHI ỆP HÀ NỘI, NĂM 2022 • • CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM • Độc lập - Tự - Hạnh phúc •  -• NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP • Họ tên sinh viên: Vũ Huy Hồng • Lớp: 59TH1 Hệ đào tạo : Đại học quy Ngành: Cơng nghệ thơng tin • Khoa: Công nghệ thông tin 1- TÊN ĐỀ TÀI: ” Ứng dụng học máy để phân loại ung thư vú ” 2- NỘI DUNG CÁC PHẦN THUYẾT MINH VÀ TÍNH TỐN: Phần Chương 1: Giới thiệu Chương 2: Cơ sở lý thuyết Chương 3: Phân tích giải toán Chương 4: Kết thực nghiệm Tỷ lệ 10% 40% 40% 10% 3- GIÁO VIÊN HƯỚNG DẪN TỪNG PHẦN Phần Chương 1: Giới thiệu Chương 2: Cơ sở lý thuyết Chương 3: Phân tích giải toán Chương 4: Kết thực nghiệm Giáo viên hướng dẫn PGS TS.Lê Đức Hậu 4- NGÀY GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Hà Nội, ngày tháng năm 2022 Trưởng Bộ mơn Giáo viên hướng dẫn (Ký ghi rõ Họ tên) (Ký ghi rõ Họ tên) Nhiệm vụ Đồ án tốt nghiệp Hội đồng thi tốt nghiệp Khoa thông qua Hà Nội,ngày tháng năm 2022 Chủ tịch Hội đồng (Ký ghi rõ Họ tên) Sinh viên hoàn thành nộp Đồ án tốt nghiệp cho Hội đồng thi ngày tháng năm 2021 Sinh viên làm Đồ án tốt nghiệp (KÝ VÀ GHI RÕ HỌ TÊN) Hoàng Vũ Huy Hồng TRƯỜNG ĐẠI HỌC THUỶ LỢI KHOA CƠNG NGHỆ THƠNG TIN BẢN TĨM TẮT ĐỀ CƯƠNG ĐỒ ÁN TỐT NGHIỆP TÊN ĐỀ TÀI: Ứng dụng học máy để phân loại ung thư vú Sinh viên thực hiện: Vũ Huy Hoàng Lớp: 59TH1 Giáo viên hướng dẫn: PGS TS Lê Đức Hậu TÓM TẮT ĐỀ TÀI Trong năm gần đây, với phát triển ngành khoa học kỹ thuật cơng nghệ việc phát bệnh ung thư ngày xác Việc phát sớm giúp cho bác sĩ biết có phương pháp điều trị để giảm thiểu khả tử vong cho người bệnh Ung thư vú bệnh ung thư thứ hai số bệnh ung thư chẩn đoán nhiều Ung thư vú loại ung thư phổ biến phụ nữ Nó ảnh hưởng đến 10% tất phụ nữ số giai đoạn sống họ Ung thư vú bắt đầu khối u ác tính ung thư bắt đầu phát triển từ tế bào vú Ung thư vú xảy chủ yếu phụ nữ từ 40 tuổi trở lên xảy tế bào tuyến sản xuất sữa (được gọi thùy) bất thường phân chia mạnh mẽ Cần có hệ thống phát hỗ trợ máy tính (CAD) sử dụng phương pháp học máy để cung cấp chẩn đốn xác ung thư vú Các hệ thống CAD hỗ trợ phát ung thư vú giai đoạn đầu Khi ung thư vú phát đủ sớm, tỷ lệ sống sót tăng lên điều trị tốt Trong thời gian làm đồ án tốt nghiệp, em chọn đề tài “Ứng dụng học máy để phân loại ung thư vú” Đề tài nhằm đưa chẩn đoán bệnh ung thư vú dựa liệu thu thập CÁC MỤC TIÊU CHÍNH • Tìm hiểu kiến thức liên quan học máy, công cụ xử lý liệu xây dựng ứng dụng • Nghiên cứu thuật tốn: Thuật tốn Nạve Bayes, Thuật tốn SVM (Support Vector Machine) • Đánh giá xác định thuật tốn tốt KẾT QUẢ DỰ KIẾN • Nắm vững kiến thức liên quan • Dự đốn ung thư thực liệu thu thập • Tổng hợp kiến thức viết báo cáo LỜI CAM ĐOAN Tác giả xin cam đoan Đồ án tốt nghiệp/ Khóa luận tốt nghiệp thân tác giả Các kết Đồ án tốt nghiệp/Khóa luận tốt nghiệp trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả ĐATN Hoàng Vũ Huy Hoàng LỜI CÁM ƠN Đồ án “Ứng dụng học máy để phân loại ung thư vú” kết nghiên cứu đồ án tốt nghiệp thân em giúp đỡ thầy cô bạn bè Sau thời gian học tập rèn luyện thân trường Đại học Thủy Lợi, em giao thực học phần tốt nghiệp Nhân dịp hoàn thành đồ án tốt nghiệp, em xin gửi lời cảm ơn sâu sắc tới quý thầy cô trường tạo điều kiện giúp đỡ để em hồn thành tốt khóa học Đặc biệt, em gửi lời cảm ơn chân thành đến thầy giáo PGS TS Lê Đức Hậu, thời gian thực đồ án tốt nghiệp trực tiếp hướng dẫn bảo tận tình để em hồn thành cơng việc Cuối cùng, em xin chân thành cảm ơn gia đình, bạn học trường động lực cho em phấn đấu, ln bên động viên, khích lệ giúp đỡ em nhiều lúc khó khăn Do thân cịn nhiều hạn chế nên q trình thực đồ án khơng tránh khỏi sai sót, em mong nhận góp ý quý thầy bạn 10 • Tập liệu kiểm chứng (Vadidation Set) Với toán em, sau thử nghiệm tỷ lệ chia liệu khác mang lại kết khác nhau, em chia liệu thành tập với tỷ lệ tập huấn luyện 70% tập thử nghiệm 30% 3.2.3 Tìm tham số tối ưu Với tập huấn luyện mà có bước trước, trích phần đế tìm tham số tối ưu cho hai thuật tốn SVM Nạve Bayes Ở phần nay, em sử dụng phương pháp đánh giá hiệu Repeated Stratified KFold với 30% tập huấn luyện Sau đó, với thuật tốn, đánh giá hiệu với tưng tham số • Với SVM tìm tham số tối ưu cho tham số gamma C - C: Tham số điều chỉnh (Regularization parameter) em thử nghiệm với với giá trị 0.1, 1.0, 10, 100 - Gamma: Hệ số nhân cho ‘rbf’, ‘poly’ ‘sigmoid’ Với tam số này, em thử nghiệm với với giá trị 0.1, 1.0, 10, 100 Kết cho thấy, với tham số C, gamma với giá trị 1.0 0.1 cho kết tốt • Với Naïve Bayes em tối ưu tham số var-smothing Trong đồ án này, em thử nghiệm với tham số là: 1.e+00, 1.e-01, 1.e-02, 1.e-03, 1.e-04, 1.e-05, 1.e-06, 1.e-07, 1.e-08, 1.e-09 Và kết em chọn giá trị băng 0.1 cho kết tốt 46 3.2.4 Huấn luyện Sau liệu tiền xử lý liệu ta bắt đầu quy trình huấn luyện với thuật tốn Nạve Bayes SVM Q trình huấn luyện chia thành bước chính: • Xử lý liệu Bước phần xử lý liệu, đọc liệu từ nguồn liệu, nguồn liệu tệp có định dạng csv lưu nhớ máy tính Bộ liệu liệu chẩn đoán ung thư vú Wisconsin (WDBC) tặng vào ngày tháng 11 năm 1995 bao gồm 569 trường hợp 357 trường hợp lành tính 212 trường hợp trường hợp ác tính Sau đó, với liệu chia thành hai tập tập huấn luyện tập kiểm thử Tập huấn luyện sử dụng bước huấn luyện mơ hình, tập kiểm thử sử dụng bước kiểm thử • Huấn luyện mơ hình Sau xử lý liệu xong, bắt đầu trình huấn luyện Với tập liệu huấn luyện, đưa vào để huấn luyện Dữ liệu huấn luyện liệu xây dựng thuật tốn Nạve Bayes thuật tốn SVM (Support Vector Machine) • Kiểm thử mơ hình Ở phần này, làm việc với tập liệu kiểm thử Tập liệu kiểm thử đưa vào mơ hình huấn luyện từ bước trước Các trọng số hay thơng tin mơ hình tải từ thư mục mà lưu trữ bước huấn luyện mô hình Sau đưa qua mơ hình đó, mơ hình cho kết đầu khác Và với kết đầu ra, tiến hành tính tốn đánh giá hiệu mơ hình huấn luyện 47 Hình 3.7 Mơ hình huấn luyện tổng qt 10 Huấn luyện với mơ hình Nạve Bayes Trong phần trên, tìm hiểu cách hoạt động huấn luyện tổng quan Như nói trên, thành phần mơ hình thuật tốn Nạve Bayes thuật toán SVM (Support Vector Machine) Trong phần này, tìm hiểu sử dụng thuật tốn Nạve Bayes Và huấn luyện với tham số var_smoothing = 0.1 tìm bước trước Cách hoạt động huấn luyện sử dụng thuật tốn Nạve Bayes hoàn toàn tương tự với cách hoạt động huấn luyện tổng quát Với liệu huấn luyện đưa vào thuật tốn Nạve Bayes, sau kết mơ hình đánh giá thơng qua thuật tốn đánh giá với tập huấn luyện Chi tiết cách hoạt động huấn luyện sử dụng thuật tốn Nạve Bayes mơ tả hình 48 Hình 3.8 Mơ hình huấn luyện với thuật tốn Naive Bayes 11 Huấn luyện với mơ hình SVM (Support Vector Machine) Trong phần bên trên, tìm hiểu cách hoạt động huấn luyện sử dụng thuật tốn Nạve Bayes Cũng tương tự vậy, phần tìm hiểu cách hoạt động huấn luyện sử dụng thuật toán SVM (Support Vector Machine) Với tham số C=1.0 gamma = 0.1 tìm bước trước Với liệu huấn luyện đưa vào thuật tốn SVM, sau kết mơ hình đánh giá thơng qua thuật tốn đánh giá với tập huấn luyện Chi tiết cách hoạt động huấn luyện sử dụng thuật toán SVM (Support Vector Machine) mơ tả chi tiết hình sau 49 Hình 3.9 Mơ hình huấn luyện với thuật tốn SVM 50 CHƯƠNG Kết thực nghiệm Như nói phần trước liệu chia thành hai tập tập huấn luyện tập thử nghiệm Với 569 ghi liệu chia thành 398 ghi để huấn luyện 171 bạn ghi để thực nghiệm Chi tiết mơ tả hình 13 Hình 4.10 Chia liệu Sau huấn luyện mơ hình huấn luyện thử nghiệm với tập huấn luyện Kết huấn luyện mô tả ma trận nhầm lẫn đây: +) Ma trận nhầm lẫn với thuật tốn Nạve Bayes +) Ma trận nhầm lẫn với thuật tốn SVM Nhìn vào ma trận nhầm lẫn với thuật tốn Nạve Bayes có 99 ghi dự đốn dương tính Trong có 57 ghi dự đốn âm tính Cịn lại có ghi dự đốn dương tính sai có ghi dự đốn âm tính sai Cịn ma trận nhầm lẫn với thuật tốn SVM có 107 ghi dự đốn dương tính 60 ghi dự đốn âm tính Cịn lại có ghi dự đốn dương tính sai ba ghi dự đốn tâm tính sai Như nhờ hai ma trận nhầm lẫn kết luận với thuật tốn Naive Bayes có 156 ghi dự đoán cho vào lớp mong muốn 15 ghi dự đoán vào lớp sai với mong muốn 51 Cịn với thuật tốn SVM cho 167 ghi dự đoán vào lớp mong muốn ghi dự đoán vào lớp sai mong muốn Và dễ thấy thuật toán SVM cho kết dự đoán tốt thuật toán Naive Bayes Tương tự đánh giá hai thuật toán với Precision Recall cho lớp dự đoán Đầu tiên kết chẩn đoán u lành tính B dựa theo việc đánh giá Precision Recall dựa hai thuật tốn Nạve Bayes SVM +) Thuật tốn Nạve Bayes: +) Thuật tốn SVM : Bảng 4.3 Bảng kết chẩn đoán u lành tính B dựa theo việc đánh giá Precision Recall Thuật tốn Precision Recall Nạve Bayes 0.94 0.92 SVM 0.97 0.99 Kết cho thấy với thuật toán SVM cho kết Precision Recall với lớp chẩn đoán u lành tính B cao thuật tốn Nạve Bayes (0.97 so với 0.94 0.99 so với 0.92) Bảng kết chẩn đốn u ác tính M dựa theo việc đánh giá Precision Recall dựa hai thuật tốn Nạve Bayes SVM Bảng 4.4 Bảng kết chẩn đốn u ác tính M dựa theo việc đánh giá Precision Recall 52 Thuật tốn Precision Recall Nạve Bayes 0.86 0.90 SVM 0.98 0.95 Kết cho thấy với thuật toán SVM cho kết Precision Recall với lớp chẩn đốn ác tính B cao thuật tốn Nạve Bayes (0.98 so với 0.86 0.95 so với 0.90) +) Độ xác: - Thuật tốn Nạve Bayes: -Thuật tốn SVM : Kết đánh giá dựa độ xác với hai mơ hình Nạve Bayes SVM cho độ xác 912 0.977 Kết ghi chi tiết bảng Bảng 4.5 Bảng kết đánh giá dựa theo độ xác Thuật tốn Accuracy Nạve Bayes 0.906 SVM 0.977 Từ bảng 4.3 cho thấy kết huấn luyện với thuật toán SVM cho độ xác cao huấn luyện với thuật toán Naive Bayes (0.977 so với 0.912) Sau đánh giá với Precision Recall độ xác tất cho ta thấy thuật toán SVM cho kết thực nghiệm cao thuật tốn Nạve Bayes Do kết mơ hình huấn luyện thuật tốn SVM chọn mơ hình để dự đốn 53 KẾT LUẬN Đề tài đề tài lĩnh vực tin sinh học Một lĩnh vực có vai trị lớn nhằm phục vụ cho lĩnh vực y khoa – lĩnh vực cấp thiết sống Bài toán đưa sử dụng hai thuật tốn thuật tốn Nạve Bayes thuật tốn SVM (Support Vector Machine) nhằm phân loại ung thư vú Đây tốn có ứng dụng cao sống Kết huấn luyện thực nghiệm với Support Vector Machine cho độ xác lên tới 0.977 Do mơ hình đề xuất đề tài có tính khả thi cao ứng dụng cho tốn thực tế Ngồi ra, thực đề tài này, em học cách ứng dụng triển khai thuật toán Machine Learning vào tốn thực tế Đồng thời có hiểu biết sâu sắc thuật toán nghiên cứu thuật toán Nạve Bayes thuật tốn SVM (Support Vector Machine) Tuy nhiên, đề tài tồn nhiều hạn chế Dữ liệu sử dụng đề tài lấy từ liệu từ Wisconsin (WDBC) để huấn luyện Bộ liệu có trường liệu lớn, yêu cầu đưa vào thực tế khó đáp ứng đầy đủ Ngồi ra, tốn chưa ứng dụng cho dự liệu thực tế nhóm bệnh nhân khác Mơ hình huấn luyện đề tài chưa ứng dụng để giải toán bệnh viện sở y tế Trong tương lai, em hi vọng đề tài đề tài lĩnh vực tin sinh học khác đưa vào thực tế để giải toán sở y tế bệnh viện Để toán tốt có tính ứng dụng cần bổ sung thêm liệu Cũng cần bổ sung thêm kiến thức y học để hiểu biết thuộc tính liên quan đến vấn đề ung thư vú từ thêm giảm bớt trường liệu để phục vụ huấn luyện nhằm có kết huấn luyện tốt có tính thực tiễn Ngoài cần bổ sung thêm kiến thức thuật toán học máy khác để ứng dụng cho toán 54 55 TÀI LIỆU THAM KHẢO [1] "Wikipedia", [Online], Available: https://vi.wikipedia.org/wiki/H%E1%BB %8Dc_m%C3%A1y [2] "m2tech", [Online], Available : https://m2tech.buyit.vn/hoc-may-machinelearning-la-gi-ung-dung-cua-hoc-may/ [3] N.T.HOP, [Online], Available : https://viblo.asia/p/thuat-toan-phan-lop-naivebayes-924lJWPm5PM [4] "Wordpress", [Online], Available : https://neralnetwork.wordpress.com/2018/05/11/thuat-toan-support-vectormachine-svm/ [5] "Viblo", [Online], Available : https://viblo.asia/p/support-vector-machine-tronghoc-may-mot-cai-nhin-don-gian-hon-XQZkxoQmewA [6] "vimentor.com", [Online], Available : https://www.vimentor.com/vi/lesson/tienxu-ly-du-lieu-trong-linh-vuc-hoc-may-phan-3 [7] "Viblo", [Online], Available : https://viblo.asia/p/confusion-matrix-ma-trannham-lan-ma-tran-loi-V3m5WQB7ZO7 [8] "hoctructuyen123", [Online], Available : http://hoctructuyen123.net/cac-phuongphap-danh-gia-mot-mo-hinh-phan-lop-du-lieu [9] "Openplanning.net", [Online], Available : https://openplanning.net/11385/gioithieu-ve-python [10] tecktrending.com, [Online], Available : https://tecktrending.com/thu-vien-pythoncho-khoa-hoc-du-lieu/ [11] Benhvien103, [Online], Available : http://www.benhvien103.vn/thuc-trang-vacap-nhat-ung-thu-tai-viet-nam/ [12] "ichi.pro", [Online], Available : https://ichi.pro/vi/tien-xu-ly-du-lieu-voi-python62761617448240 [13] "tek4.vn", [Online], Available : https://tek4.vn/khoa-hoc/machine-learning-coban/training-set-va-testing-set [14] D Graffox, "IEEE Citation Reference," Sep 2009 [Online] Available: http://www.ieee.org/documents/ieeecitationref.pdf [15] Apr 2011 [Online] Available: http://libinfo.uark.edu/reference/citingyoursources.asp [16] [Online] Available: http://www.ijssst.info/info/IEEE-Citation-StyleGuide.pdf [Accessed 2011] [17] J Barzun and H Graff, The Modern Researcher, 5th ed ed., New York: Harcourt Brace Jovanovich Inc., 1992 56 [18] N Wells, 2007 [Online] Available: http://www.nissawells.com/samples/wmanual.pdf [19] P J Denning, "Editorial: Plagiarism in the Web," Communications of the ACM, vol 98, no 12, p 29, Dec 1995 [20] B Martin, "Plagiarism: a misplaced emphasis," Journal of Information Ethics, vol 3, no 2, pp 36-47, 1994 [21] B Belkhouche et al, "Plagiarism detection in software designs," in Proc of the 42nd Ann Southeast Regional Conf., 2004 [22] T Doe, Dec 2011 [Online] Available: http://grad.uark.edu/dean/thesisguide.php [23] Cornell University Library PSEC Documentation Committee, Feb 2010 [Online] Available: http://www.library.cornell.edu/resrch/citmanage/apa [24] "Wordpress", [Online], Available : 57 PHỤ LỤC 58 ... tới núm vú Loại phổ biến ung thư vú ung thư ống dẫn, gọi ung thư biểu mô ống động mạch, chiếm 80% tất bệnh ung thư vú Ung thư biểu mô tiểu thùy, chiếm 10% trường hợp Phần lại bệnh ung thư vú có... giới, có Việt Nam Một loại ung thư phổ biến ung thư vú Ung thư vú loại u phổ biến phụ nữ Việt Nam hầu giới, chiếm khoảng 1/3 ung thư chẩn đoán Tỷ lệ mắc ung thư vú giới nói chung Việt Nam nói riêng... loại ung thư thường gặp nguyên nhân phổ biến thứ hai gây tử vong ung thư phụ nữ Ung thư vú xảy nam giới Ung thư vú bắt đầu khối u ác tính ung thư bắt đầu phát triển từ tế bào vú Ung thư vú xảy

Ngày đăng: 14/10/2022, 22:16

Tài liệu cùng người dùng

Tài liệu liên quan