(TIỂU LUẬN) ỨNG DỤNG học máy để PHÂN LOẠI UNG THƯ vú

65 44 0
(TIỂU LUẬN) ỨNG DỤNG học máy để PHÂN LOẠI UNG THƯ vú

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT TRƯỜNG ĐẠI HỌC THỦY LỢI VŨ HUY HOÀNG ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ ĐỒ ÁN TỐT NGHIỆP HÀ NỘI, NĂM 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ NÔNG NGHIỆP VÀ PTNT TRƯỜNG ĐẠI HỌC THỦY LỢI VŨ HUY HOÀNG ỨNG DỤNG HỌC MÁY ĐỂ PHÂN LOẠI UNG THƯ VÚ Ngành : Công nghệ thông tin Mã số: NGƯỜI HƯỚNG DẪN PGS TS.Lê Đức Hậu HÀ NỘI, NĂM 2022 GÁY BÌA ĐỒ ÁN TỐT NGHIỆP, KHĨA LUẬN TỐT NGHIỆP VŨ HUY HỒNG ĐỒ ÁN/KL TỐT NGHIỆP HÀ NỘI, NĂM 2022 CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc  NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Họ tên sinh viên: Vũ Huy Hoàng Hệ đào tạo : Đại học quy Lớp: 59TH1 Ngành: Cơng nghệ thông tin Khoa: Công nghệ thông tin 1- TÊN ĐỀ TÀI: ” Ứng dụng học máy để phân loại ung thư vú ” 2- NỘI DUNG CÁC PHẦN THUYẾT MINH VÀ TÍNH TỐN: Phần Chương 1: Giới thiệu Chương 2: Cơ sở lý thuyết Chương 3: Phân tích giải toán Chương 4: Kết thực nghiệm 3- GIÁO VIÊN HƯỚNG DẪN TỪNG PHẦN Phần Chương 1: Giới thiệu Chương 2: Cơ sở lý thuyết Chương 3: Phân tích giải tốn Chương 4: Kết thực nghiệm 4- NGÀY GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Hà Nội, ngày tháng năm 2022 Trưởng Bộ môn (Ký ghi rõ Họ tên) Giáo viên hướng dẫn (Ký ghi rõ Họ tên) Nhiệm vụ Đồ án tốt nghiệp Hội đồng thi tốt nghiệp Khoa thông qua Hà Nội,ngày tháng năm 2022 Chủ tịch H (Ký ghi rõ Họ tên) Sinh viên hoàn thành nộp Đồ án tốt nghiệp cho Hội đồng thi ngày tháng năm 2021 Sinh viên làm Đồ án tốt nghiệp (KÝ VÀ GH RÕ HỌ TÊ Hoàn Vũ Huy H TRƯỜNG ĐẠI HỌC THUỶ LỢI KHOA CÔNG NGHỆ THÔNG TIN BẢN TÓM TẮT ĐỀ CƯƠNG ĐỒ ÁN TỐT NGHIỆP TÊN ĐỀ TÀI: Ứng dụng học máy để phân loại ung thư vú Sinh viên thực hiện: Vũ Huy Hoàng Lớp: 59TH1 Giáo viên hướng dẫn: PGS TS Lê Đức Hậu TÓM TẮT ĐỀ TÀI Trong năm gần đây, với phát triển ngành khoa học kỹ thuật công nghệ việc phát bệnh ung thư ngày xác Việc phát sớm giúp cho bác sĩ biết có phương pháp điều trị để giảm thiểu khả tử vong cho người bệnh Ung thư vú bệnh ung thư thứ hai số bệnh ung thư chẩn đoán nhiều Ung thư vú loại ung thư phổ biến phụ nữ Nó ảnh hưởng đến 10% tất phụ nữ số giai đoạn sống họ Ung thư vú bắt đầu khối u ác tính ung thư bắt đầu phát triển từ tế bào vú Ung thư vú xảy chủ yếu phụ nữ từ 40 tuổi trở lên xảy tế bào tuyến sản xuất sữa (được gọi thùy) bất thường phân chia mạnh mẽ Cần có hệ thống phát hỗ trợ máy tính (CAD) sử dụng phương pháp học máy để cung cấp chẩn đốn xác ung thư vú Các hệ thống CAD hỗ trợ phát ung thư vú giai đoạn đầu Khi ung thư vú phát đủ sớm, tỷ lệ sống sót tăng lên điều trị tốt Trong thời gian làm đồ án tốt nghiệp, em chọn đề tài “Ứng dụng học máy để phân loại ung thư vú” Đề tài nhằm đưa chẩn đoán bệnh ung thư vú dựa liệu thu thập CÁC MỤC TIÊU CHÍNH Tìm hiểu kiến thức liên quan học máy, công cụ xử lý liệu xây dựng ứng dụng Nghiên cứu thuật toán: Thuật toán Nạve Bayes, Thuật tốn SVM (Support Vector Machine) Đánh giá xác định thuật toán tốt KẾT QUẢ DỰ KIẾN Nắm vững kiến thức liên quan Dự đoán ung thư thực liệu thu thập Tổng hợp kiến thức viết báo cáo LỜI CAM ĐOAN Tác giả xin cam đoan Đồ án tốt nghiệp/ Khóa luận tốt nghiệp thân tác giả Các kết Đồ án tốt nghiệp/Khóa luận tốt nghiệp trung thực, khơng chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả ĐATN Hoàng Vũ Huy Hoàng i Tiếp theo, bạn biết cách để thực phép toán để làm liệu bạn, ví dụ liệu nan (not a number), xóa liệu dư thừa điền vào liệu bị khuyết Các đầu việc nằm bước tinh chỉnh liệu q trình phân tích liệu Cuối cùng, bạn biết cách mã hóa đặc trưng liệu cách đắn khía cạnh phù hợp với học máy Đơi bạn muốn tiền xử lý liệu suốt trình thu thập, điều thực tế rơi vào bước biến đổi liệu (transforming data) Nhưng khơng thành vấn đề, khơng có luồng xử lý cứng nhắc cho việc chuẩn bị liệu trước đưa vào huấn luyện 3.2.2 Chia liệu Trong machine learning vậy, cần kiểm thử để dự đốn khả hoạt động hiệu mơ hình thực tế Có nhiều cách để kiểm thử đánh giá hiệu mơ hình Một cách hợp lý sử dụng tập liệu kiểm thử (testing set) độc lập tập liệu huấn luyện (training set) để đánh giá ước lượng hiệu mơ hình Thông thường training set testing set tách từ liệu quan sát cung cấp (chẳng hạn lấy 80% liệu quan sát cung cấp để huấn luyện 20% liệu quan sát lại không liên quan đến 80% trước để đánh giá) [13] Training Set (Tập huấn luyện) Tập huấn luyện (training set) tập liệu sử dụng để huấn luyện mơ hình Các thuật tốn học máy học mơ hình từ tập huấn luyện Việc học khác tùy thuộc vào thuật tốn mơ hình sử dụng Các thuật tốn nói chung tìm cách tối ưu sai số dự đoán tập huấn luyện đến mức đủ tốt Trong trường hợp overfitting sai số dự đốn mơ hình tập huấn luyện thấp, chí = 0% Testing Set (Tập kiểm thử) 33 Mục tiêu machine learning tạo mơ hình có khả tổng qt hóa để dự đốn tốt liệu chưa thấy (nằm tập huấn luyện), đó, để biết thuật tốn hay mơ hình có tốt hay khơng sau huấn luyện, mơ hình cần đánh giá hiệu thơng qua liệu kiểm thử (testing set) Bộ liệu sử dụng để tính độ xác sai số mơ hình dự đốn huấn luyện Chúng ta biết nhãn thực điểm tập hợp liệu kiểm thử này, tạm thời giả vờ đưa giá trị đầu vào tập vào mơ hình dự đoán để nhận kết dự đoán đầu Sau nhìn vào nhãn thực so sánh với kết dự đốn đầu vào tương ứng xem liệu mô hình có dự đốn hay khơng Việc tính tổng trung bình tồn lỗi tính tốn lỗi dự đốn tập kiểm thử Tập liệu kiểm chứng (Vadidation Set) Với toán em, sau thử nghiệm tỷ lệ chia liệu khác mang lại kết khác nhau, em chia liệu thành tập với tỷ lệ tập huấn luyện 70% tập thử nghiệm 30% 3.2.3 Tìm tham số tối ưu Hình 3.1 TÌm tham số tốt cho học máy 34 Với tập huấn luyện mà có bước trước, trích phần đế tìm tham số tối ưu cho hai thuật tốn SVM Nạve Bayes Ở phần nay, em sử dụng phương pháp đánh giá hiệu Repeated Stratified KFold với 30% tập huấn luyện Sau đó, với thuật toán, đánh giá hiệu với tưng tham số Với SVM tìm tham số tối ưu cho tham số gamma C - C: Tham số điều chỉnh (Regularization parameter) em thử nghiệm với với giá trị 0.1, 1.0, 10, 100 - Gamma: Hệ số nhân cho ‘rbf’, ‘poly’ ‘sigmoid’ Với tam số này, em thử nghiệm với với giá trị 0.1, 1.0, 10, 100 Kết cho thấy, với tham số C, gamma với giá trị 1.0 0.1 cho kết tốt Với Naïve Bayes em tối ưu tham số var-smothing Trong đồ án này, em thử nghiệm với tham số là: 1.e+00, 1.e-01, 1.e-02, 1.e-03, 1.e-04, 1.e-05, 1.e-06, 1.e-07, 1.e-08, 1.e-09 Và kết em chọn giá trị băng 0.1 cho kết tốt 3.2.4 Huấn luyện Sau liệu tiền xử lý liệu ta bắt đầu quy trình huấn luyện với thuật tốn Nạve Bayes SVM Quá trình huấn luyện chia thành bước chính: Xử lý liệu Bước phần xử lý liệu, đọc liệu từ nguồn liệu, nguồn liệu tệp có định dạng csv lưu nhớ máy tính Bộ liệu liệu chẩn đoán ung thư vú Wisconsin (WDBC) tặng vào ngày tháng 11 năm 1995 bao gồm 569 trường hợp 357 trường hợp lành tính 212 trường hợp trường hợp ác tính Sau đó, với liệu chia thành hai tập tập huấn luyện tập kiểm thử Tập huấn luyện sử dụng bước huấn luyện mơ hình, cịn tập kiểm thử sử dụng bước kiểm thử Huấn luyện mơ hình Sau xử lý liệu xong, bắt đầu trình huấn luyện Với tập liệu huấn luyện, đưa vào để huấn luyện Dữ liệu huấn luyện lần 35 lượt liệu xây dựng thuật tốn Nạve Bayes thuật tốn SVM (Support Vector Machine) Kiểm thử mơ hình Ở phần này, làm việc với tập liệu kiểm thử Tập liệu kiểm thử đưa vào mơ hình huấn luyện từ bước trước Các trọng số hay thơng tin mơ hình tải từ thư mục mà lưu trữ bước huấn luyện mơ hình Sau đưa qua mơ hình đó, mơ hình cho kết đầu khác Và với kết đầu ra, tiến hành tính tốn đánh giá hiệu mơ hình huấn luyện Hình 3.7 Mơ hình huấn luyện tổng qt 3.2.4.1 Huấn luyện với mơ hình Nạve Bayes Trong phần trên, tìm hiểu cách hoạt động huấn luyện tổng quan Như nói trên, thành phần mơ hình thuật tốn Nạve Bayes thuật toán SVM (Support Vector Machine) Trong phần này, tìm hiểu sử dụng thuật tốn Naïve Bayes 36 Và huấn luyện với tham số var_smoothing = 0.1 tìm bước trước Cách hoạt động huấn luyện sử dụng thuật tốn Nạve Bayes hồn tồn tương tự với cách hoạt động huấn luyện tổng quát Với liệu huấn luyện đưa vào thuật tốn Nạve Bayes, sau kết mơ hình đánh giá thơng qua thuật tốn đánh giá với tập huấn luyện Chi tiết cách hoạt động huấn luyện sử dụng thuật tốn Nạve Bayes mơ tả hình Hình 3.8 Mơ hình huấn luyện với thuật tốn Naive Bayes 3.2.4.2 Huấn luyện với mơ hình SVM (Support Vector Machine) Trong phần bên trên, tìm hiểu cách hoạt động huấn luyện sử dụng thuật tốn Nạve Bayes Cũng tương tự vậy, phần tìm hiểu cách hoạt động huấn luyện sử dụng thuật toán SVM (Support Vector Machine) Với tham số C=1.0 gamma = 0.1 tìm bước trước Với liệu huấn luyện đưa vào thuật toán SVM, sau kết mơ hình đánh giá thơng qua thuật tốn đánh giá với tập huấn luyện Chi tiết cách hoạt động huấn luyện 37 sử dụng thuật toán SVM (Support Vector Machine) mơ tả chi tiết hình sau Hình 3.9 Mơ hình huấn luyện với thuật tốn SVM 38 CHƯƠNG Kết thực nghiệm Như nói phần trước liệu chia thành hai tập tập huấn luyện tập thử nghiệm Với 569 ghi liệu chia thành 398 ghi để huấn luyện 171 bạn ghi để thực nghiệm Chi tiết mơ tả hình 13 Hình 4.10 Chia liệu Sau huấn luyện mơ hình huấn luyện thử nghiệm với tập huấn luyện Kết huấn luyện mô tả ma trận nhầm lẫn đây: +) Ma trận nhầm lẫn với thuật tốn Nạve Bayes [ 101 547] +) Ma trận nhầm lẫn với thuật toán SVM [104 61 39 ] Nhìn vào ma trận nhầm lẫn với thuật tốn Nạve Bayes có 99 ghi dự đốn dương tính Trong có 57 ghi dự đốn âm tính Cịn lại có ghi dự đốn dương tính sai có ghi dự đốn âm tính sai Cịn ma trận nhầm lẫn với thuật tốn SVM có 107 ghi dự đốn dương tính 60 ghi dự đốn âm tính Cịn lại có ghi dự đốn dương tính sai ba ghi dự đốn tâm tính sai Như nhờ hai ma trận nhầm lẫn kết luận với thuật tốn Naive Bayes có 156 ghi dự đoán cho vào lớp mong muốn 15 ghi dự đoán vào lớp sai với mong muốn Cịn với thuật tốn SVM cho 167 ghi dự đoán vào lớp mong muốn ghi dự đoán vào lớp sai mong muốn Và dễ thấy thuật toán SVM cho kết dự đoán tốt thuật toán Naive Bayes Tương tự đánh giá hai thuật toán với Precision Recall cho lớp dự đoán Đầu tiên kết chẩn đoán u lành tính B dựa theo việc đánh giá Precision Recall dựa hai thuật tốn Nạve Bayes SVM +) Thuật tốn Nạve Bayes: Recall= Precision= TP = 99 =0.94 TP+FN 99+6 TP 99 = =0.92 TP+FP 99+9 +) Thuật toán SVM : Recall= Precision= TP = 107 TP+FN 107 +1 TP 107 = TP+FP 107+3 40 =0.99 =0.97 Bảng 4.3 Bảng kết chẩn đoán u lành tính B dựa theo việc đánh giá Precision Recall Thuật tốn Nạve Bayes SVM Kết cho thấy với thuật toán SVM cho kết Precision Recall với lớp chẩn đốn u lành tính B cao thuật tốn Nạve Bayes (0.97 so với 0.94 0.99 so với 0.92) Bảng kết chẩn đoán u ác tính M dựa theo việc đánh giá Precision Recall dựa hai thuật tốn Nạve Bayes SVM Bảng 4.4 Bảng kết chẩn đoán u ác tính M dựa theo việc đánh giá Precision Recall Thuật tốn Nạve Bayes SVM Kết cho thấy với thuật toán SVM cho kết Precision Recall với lớp chẩn đốn ác tính B cao thuật tốn Nạve Bayes (0.98 so với 0.86 0.95 so với 0.90) +) Độ xác: - Thuật tốn Nạve Bayes: 41 Độ xác= -Thuật tốn SVM : Độ xác= Kết đánh giá dựa độ xác với hai mơ hình Nạve Bayes SVM cho độ xác 912 0.977 Kết ghi chi tiết bảng Bảng 4.5 Bảng kết đánh giá dựa theo độ xác Accuracy Thuật tốn Nạve Bayes 0.906 SVM 0.977 Từ bảng 4.3 cho thấy kết huấn luyện với thuật tốn SVM cho độ xác cao huấn luyện với thuật toán Naive Bayes (0.977 so với 0.912) Sau đánh giá với Precision Recall độ xác tất cho ta thấy thuật toán SVM cho kết thực nghiệm cao thuật tốn Nạve Bayes Do kết mơ hình huấn luyện thuật tốn SVM chọn mơ hình để dự đốn 42 KẾT LUẬN Đề tài đề tài lĩnh vực tin sinh học Một lĩnh vực có vai trị lớn nhằm phục vụ cho lĩnh vực y khoa – lĩnh vực cấp thiết sống Bài toán đưa sử dụng hai thuật tốn thuật tốn Nạve Bayes thuật toán SVM (Support Vector Machine) nhằm phân loại ung thư vú Đây tốn có ứng dụng cao sống Kết huấn luyện thực nghiệm với Support Vector Machine cho độ xác lên tới 0.977 Do mơ hình đề xuất đề tài có tính khả thi cao ứng dụng cho tốn thực tế Ngồi ra, thực đề tài này, em học cách ứng dụng triển khai thuật toán Machine Learning vào tốn thực tế Đồng thời có hiểu biết sâu sắc thuật toán nghiên cứu thuật tốn Nạve Bayes thuật tốn SVM (Support Vector Machine) Tuy nhiên, đề tài tồn nhiều hạn chế Dữ liệu sử dụng đề tài lấy từ liệu từ Wisconsin (WDBC) để huấn luyện Bộ liệu có trường liệu lớn, yêu cầu đưa vào thực tế khó đáp ứng đầy đủ Ngồi ra, toán chưa ứng dụng cho dự liệu thực tế nhóm bệnh nhân khác Mơ hình huấn luyện đề tài chưa ứng dụng để giải toán bệnh viện sở y tế Trong tương lai, em hi vọng đề tài đề tài lĩnh vực tin sinh học khác đưa vào thực tế để giải toán sở y tế bệnh viện Để tốn tốt có tính ứng dụng cần bổ sung thêm liệu Cũng cần bổ sung thêm kiến thức y học để hiểu biết thuộc tính liên quan đến vấn đề ung thư vú từ thêm giảm bớt trường liệu để phục vụ huấn luyện nhằm có kết huấn luyện tốt có tính thực tiễn Ngồi cần bổ sung thêm kiến thức thuật toán học máy khác để ứng dụng cho toán 43 44 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] "Wikipedia", [Online], Available: https://vi.wikipedia.org/wiki/H%E1%BB %8Dc_m%C3%A1y "m2tech", [Online], Available : https://m2tech.buyit.vn/hoc-may-machinelearning-la-gi-ung-dung-cua-hoc-may/ N.T.HOP, [Online], Available : https://viblo.asia/p/thuat-toan-phan-lop-naivebayes-924lJWPm5PM "Wordpress", [Online], Available : https://neralnetwork.wordpress.com/2018/05/11/thuat-toan-support-vectormachine-svm/ "Viblo", [Online], Available : https://viblo.asia/p/support-vector-machine-tronghoc-may-mot-cai-nhin-don-gian-hon-XQZkxoQmewA "vimentor.com", [Online], Available : https://www.vimentor.com/vi/lesson/tien-xuly-du-lieu-trong-linh-vuc-hoc-may-phan-3 "Viblo", [Online], Available : https://viblo.asia/p/confusion-matrix-ma-trannham-lan-ma-tran-loi-V3m5WQB7ZO7 "hoctructuyen123", [Online], Available : http://hoctructuyen123.net/cac-phuongphap-danh-gia-mot-mo-hinh-phan-lop-du-lieu "Openplanning.net", [Online], Available : https://openplanning.net/11385/gioithieu-ve-python tecktrending.com, [Online], Available : https://tecktrending.com/thu-vien-pythoncho-khoa-hoc-du-lieu/ Benhvien103, [Online], Available : http://www.benhvien103.vn/thuc-trang-vacap-nhat-ung-thu-tai-viet-nam/ "ichi.pro", [Online], Available : https://ichi.pro/vi/tien-xu-ly-du-lieu-voi-python62761617448240 "tek4.vn", [Online], Available : https://tek4.vn/khoa-hoc/machine-learning-coban/training-set-va-testing-set D Graffox, "IEEE Citation Reference," Sep 2009 [Online] Available: http://www.ieee.org/documents/ieeecitationref.pdf Apr 2011 [Online] Available: http://libinfo.uark.edu/reference/citingyoursources.asp [Online] Available: http://www.ijssst.info/info/IEEE-Citation-StyleGuide.pdf [Accessed 2011] 45 [17] J Barzun and H Graff, The Modern Researcher, 5th ed ed., New York: Harcourt [18] [19] [20] [21] [22] [23] [24] Brace Jovanovich Inc., 1992 N Wells, 2007 [Online] Available: http://www.nissawells.com/samples/wmanual.pdf P J Denning, "Editorial: Plagiarism in the Web," Communications of the ACM, vol 98, no 12, p 29, Dec 1995 B Martin, "Plagiarism: a misplaced emphasis," Journal of Information Ethics, vol 3, no 2, pp 36-47, 1994 B Belkhouche et al, "Plagiarism detection in software designs," in Proc of the 42nd Ann Southeast Regional Conf., 2004 T Doe, Dec 2011 [Online] Available: http://grad.uark.edu/dean/thesisguide.php Cornell University Library PSEC Documentation Committee, Feb 2010 [Online] Available: http://www.library.cornell.edu/resrch/citmanage/apa "Wordpress", [Online], Available : 46 PHỤ LỤC 47 ... trị để giảm thiểu khả tử vong cho người bệnh Ung thư vú bệnh ung thư thứ hai số bệnh ung thư chẩn đoán nhiều Ung thư vú loại ung thư thường gặp nguyên nhân phổ biến thứ hai gây tử vong ung thư. .. núm vú Loại phổ biến ung thư vú ung thư ống dẫn, gọi ung thư biểu mô ống động mạch, chiếm 80% tất bệnh ung thư vú Ung thư biểu mô tiểu thùy, chiếm 10% trường hợp Phần cịn lại bệnh ung thư vú có... mắc ung thư cao giới (thuộc nhóm 2) Việc tìm hiểu tình hình ung thư, thực trạng chẩn đoán điều trị, nguyên nhân gây ung thư để tìm giải pháp hạn chế ung thư Việt nam Ung thư vú loại ung thư thường

Ngày đăng: 17/12/2022, 05:02

Tài liệu cùng người dùng

Tài liệu liên quan