Ứng dụng thuật toán xgboost vào dự đoán tế bào bất thường ở cổ tử cung

75 2 0
Ứng dụng thuật toán xgboost vào dự đoán tế bào bất thường ở cổ tử cung

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGỤY VŨ PHƯƠNG MAI ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định – Năm 2022 Tai ngay!!! Ban co the xoa dong chu nay!!! BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGỤY VŨ PHƯƠNG MAI ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG Ngành : Khoa học liệu ứng dụng Mã số : 8904648 Người hướng dẫn: GS NGUYỄN THANH THỦY LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thực luận văn thực riêng tôi, hướng dẫn GS Nguyễn Thanh Thủy Mọi tham khảo từ nguồn tài liệu, cơng trình nghiên cứu liên quan nước quốc tế trích dẫn cách rõ ràng luận văn Mọi chép không hợp lệ hay vi phạm quy chế xin hoàn toàn chịu trách nhiệm chịu kỷ luật trường Đại học Quy Nhơn Bình Định, ngày tháng năm 2022 Học viên Ngụy Vũ Phương Mai LỜI CẢM ƠN Trong q trình thực hồn thiện luận văn này, xin gửi lời cảm ơn chân thành đến thầy Khoa Tốn Khoa Công nghệ Thông tin Trường Đại học Quy Nhơn thầy thính giảng trường, viện Thành phố Hồ Chính Minh cung cấp cho kiến thức quý báu suốt năm học vừa qua Đặc biệt, xin gửi lời cảm ơn sâu sắc tới GS Nguyễn Thanh Thủy dành nhiều thời gian vô quý báu để định hướng hướng dẫn tơi tận tình tạo điều kiện thuận lợi để tơi hồn thành tốt luận văn Tơi xin chân thành cảm ơn! Học viên thực Ngụy Vũ Phương Mai MỤC LỤC TRANG PHỤ BÌA LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Đặt vấn đề 1.2 Một số kết nghiên cứu nước 1.2.1 Kết nghiên cứu giới 1.2.2 Kết nghiên cứu nước 1.3 Mục tiêu luận văn 1.4 Đối tượng phương pháp nghiên cứu 1.5 Ý nghĩa đề tài 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn 1.6 Bố cục luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan phân tích liệu 2.1.1 Phân tích liệu gì? 2.1.2 Tại phải phân tích liệu? 2.1.3 Quy trình phân tích liệu 2.1.4 Các loại hình phân tích 11 2.2 Ứng dụng học máy phân tích liệu 14 2.2.1 Khái niệm học máy (Machine Learning) 14 2.2.2 Các loại thuật toán học máy 14 2.2.3 Ứng dụng 15 2.3 Phân tích liệu y khoa 15 2.3.1 Phân tích hình ảnh y khoa 15 2.3.2 Nghiên cứu di truyền học 16 2.3.3 Điều chế thuốc 16 2.3.4 Phân tích chẩn đốn bệnh 16 2.3.5 Trợ lý sức khỏe ứng dụng chăm sóc sức khỏe 17 2.4 Thuật toán XGBoost 17 2.4.1 Cơ sở hình thành 17 2.4.2 Ưu điểm thuật toán 19 2.4.3 Ứng dụng thuật toán lĩnh vực 20 2.5 Đánh giá mơ hình 20 2.5.1 Độ đo dùng phân loại 20 2.5.2 ROC (Receiver Operating Characteristic) AUC (Area Under The Curve) 22 2.5.3 Đánh giá mơ hình kiểm tra chéo 23 2.6 Cơ sở liệu y khoa 25 2.6.1 Mối liên quan tế bào bất thường bệnh ung thư cổ tử cung 25 2.6.2 Đặc điểm lâm sàng cận lâm sàng cổ tử cung 25 CHƯƠNG 3: MƠ HÌNH DỰ BÁO TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG 27 3.1 Phát biểu toán 27 3.2 Ứng dụng học máy phân tích liệu tốn tế bào bất thường 28 3.2.1 Hiểu toán 28 3.2.2 Hiểu liệu 29 3.2.3 Chuẩn bị liệu 37 3.2.4 Mơ hình hóa 42 3.2.5 Đánh giá mơ hình 43 3.3 Thực nghiệm mô hình 50 3.3.1 Tập liệu toàn 50 3.3.2 Tập thử nghiệm với liệu hoàn toàn 52 KẾT LUẬN VÀ KIẾN NGHỊ 57 DANH MỤC TÀI LIỆU THAM KHẢO 59 PHỤ LỤC QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) DANH MỤC BẢNG BIỂU Bảng 3.1 Kiểu liệu thuộc tính……………………………………39 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Mơ tả quy trình phân tích liệu 11 Hình 2.2 Ví dụ phân tích mô tả 12 Hình 2.3 Ví dụ phân tích dự đoán 13 Hình 2.4 Ví dụ phân tích đề xuất 14 Hình 2.5 Tổng quan XGBoost 17 Hình 2.6 Các tính XGBoost 18 Hình 2.7 Mơ hình dự đốn sử dụng Gradient Boosting 19 Hình 2.8 Bảng mơ tả ma trận nhầm lẫn 21 Hình 2.9 Ví dụ đường cong ROC AUC 23 Hình 3.1 Mơ hình xây dựng giải pháp hỗ trợ chẩn đốn bệnh 28 Hình 3.2 Tập liệu thu thập 29 Hình 3.3 Đặc điểm nơi cư trú 30 Hình 3.4 Dân tộc 30 Hình 3.5 Trình độ học vấn 31 Hình 3.6 Kinh tế gia đình 31 Hình 3.7 Triệu chứng 32 Hình 3.8 Triệu chứng thực thể 32 Hình 3.9 Tình trạng kinh nguyệt 33 Hình 3.10 Tuổi giao hợp lần đầu 34 Hình 3.11 Tiền sử bệnh viêm nhiễm phụ khoa 35 Hình 3.12 Phân tích mối tương quan tập liệu 36 Hình 3.13 Tập liệu đủ tiêu chuẩn cuối 39 Hình 3.14 Mức độ quan trọng thuộc tính ảnh hưởng đến kết 44 Hình 3.15 Biểu đồ mát đường cong học tập XGBoost 46 Hình 3.16 Biểu đồ lỗi phân loại đường cong học tập XGBoost 46 Hình 3.17 Ma trận nhầm lẫn 47 Hình 3.18 Đường cong Precision – Recall 48 Hình 3.19 Biểu đồ ROC-AUC mơ hình 49 Hình 3.20 Ma trận nhầm lẫn tập liệu toàn 50 Hình 3.21 Biểu đồ đường cong Precision – Recall tập liệu tồn 51 Hình 3.22 Đường cong ROC tập liệu tồn 52 Hình 3.23 Ma trận nhầm lẫn tập thử nghiệm hồn tồn 53 Hình 3.24 Biểu đồ đường cong Precision – Recall tập liệu thực nghiệm hoàn toàn 54 Hình 3.25 Đường cong ROC tập liệu thực nghiệm hoàn toàn 55 51 Độ xác = 𝐷ự đ𝑜á𝑛 𝑐ℎí𝑛ℎ 𝑥á𝑐 𝑇ổ𝑛𝑔 𝑑ự đ𝑜á𝑛 = 98% Độ xác (Precision) - Đường cong Recall Hình 3.21 Biểu đồ đường cong Precision – Recall tập liệu toàn + Độ xác (Precision) Độ xác (Khơng bất thường) = 99 % Độ xác (Có bất thường) = 94 % + Recall Recall (Không bất thường) = 100 % Recall (Có bất thường) = 83 % Đường cong ROC – AUC (ROC-AUC Curves) 52 Hình 3.22 Đường cong ROC tập liệu toàn Kết đường cong ROC-AUC trình bày độ xác mơ hình ROC cho "Khơng bất thường" "Có bất thường" đạt ngưỡng 1.00 3.3.2 Tập thử nghiệm với liệu hoàn toàn Ma trận nhầm lẫn Với tập liệu hồn tồn, tổng số dự đốn mơ hình 76 trường hợp, 75 ca dự đốn “Khơng bất thường” ca dự đốn “Có 53 bất thường” khớp với kết thực tế Dự đoán sai trường hợp thực tế “Có bất thường” máy dự đốn “Khơng bất thường” Hình 3.23 Ma trận nhầm lẫn tập thử nghiệm hồn tồn Độ xác = 𝐷ự đ𝑜á𝑛 𝑐ℎí𝑛ℎ 𝑥á𝑐 𝑇ổ𝑛𝑔 𝑑ự đ𝑜á𝑛 = 95% Độ xác (Precision) - Đường cong Recall 54 Hình 3.24 Biểu đồ đường cong Precision – Recall tập liệu thực nghiệm hồn tồn + Độ xác (Precision) Độ xác (Khơng bất thường) = 95 % Độ xác (Có bất thường) = 99 % + Recall Recall (Khơng bất thường) = 100 % 55 Recall (Có bất thường) = 20 % cho thấy tỉ lệ dự đoán dương tính so với số dương tính thực tế thấp Với ca dương tính thực tế mơ hình đốn trường hợp Đường cong ROC – AUC (ROC-AUC Curves) Hình 3.25 Đường cong ROC tập liệu thực nghiệm hoàn toàn Kết đường cong ROC-AUC trình bày độ xác mơ hình ROC cho "Khơng bất thường" "Có bất thường" đạt ngưỡng 0.96 56 Nhận xét: Như vậy, dựa vào kết thực nghiệm hai tập liệu, thấy độ xác mơ hình áp dụng cho tập liệu tồn cao độ xác mơ hình áp dụng tập liệu hoàn toàn Tuy nhiên độ chênh lệch khơng nhiều Điều cho thấy mơ hình học máy xây dựng có hiệu tốt 57 KẾT LUẬN VÀ KIẾN NGHỊ Mặc dù kết đề tài khơng phải thật hồn hảo, kết dự đốn cịn nhiều trường hợp chưa đúng, luận văn đưa cách nhìn khách quan kết hợp Công nghệ thông tin Y tế Đề tài hỗ trợ chẩn đoán đem đến ý nghĩa mang tính chất cộng đồng, hướng đến việc phát triển thành ứng dụng giúp ích phần với bệnh nhân khơng đủ điều kiện đến sở y tế thường xuyên, giúp họ có cơng cụ để an tâm theo dõi sức khỏe Ngồi ra, giúp ích nhiều mặt chuyên môn tuyến y tế vùng sâu vùng xa đội ngũ bác sĩ, nơi thiếu trang thiết bị y tế Bên cạnh đó, đề tài phát triển để chẩn đốn nhanh xác ứng dụng mơ hình kết nối trực tiếp với hệ thống thông tin quản lý bệnh án sở y tế từ nhiều vùng miền khác Hơn cịn áp dụng tương tự mơ hình cho nhiều loại bệnh khác Về mặt cơng nghệ, đề tài sử dụng thuật tốn XGBOOST – thuật tốn có nhiều ưu điểm Tuy nhiên số hạn chế xử lý liệu Trong trường hợp có nhiều liệu, thời gian huấn luyện lâu Về vấn đề thực tiễn, liệu bệnh nhân đề tài thu thập thời điểm cắt ngang khơng thấy rõ diễn tiến bệnh bệnh nhân Để đạt kết dự đoán tốt hơn, cần thu thập liệu triệu chứng bệnh nhân nhiều thời điểm Ứng dụng thuật toán học máy vào phân tích liệu tốn nhiều nhà nghiên cứu quan tâm ứng dụng rộng rãi lĩnh vực có nhiều hướng phát triển, mở rộng khác Tuy nhiên, để ứng dụng mở rộng đưa vào thực tiễn cần phải hoàn thiện yếu tố sau: + Số lượng bệnh nhân phải thu thập nhiều + Thu thập thêm số liệu diễn biến bệnh lâm sàng cận lâm sàng 58 + Xử lý số liệu tốt để tăng hiệu thực thi chương trình + Tìm hiểu thuật tốn khác áp dụng kết mong đợi tốt + Cần hợp tác mặt chuyên môn chuyên gia y tế công nghệ thông tin 59 DANH MỤC TÀI LIỆU THAM KHẢO Trần Hoàng Anh (2010), Nghiên đặc điểm lâm sàng cận lâm sàng tổn thương cổ tử cung bệnh nhân soi cổ tử cung bệnh viện phụ sản trung ương, luận văn thạc sĩ y học, tr 1-71 Bệnh Viện Bạch Mai (2013), Chẩn đoán tế bào bệnh học bản, Tế bào học cổ tử cung-âm đạo, Nhà xuất Y Hà Nội, 71-153 Huỳnh Xuân Nghiêm (2017), "Vai trò phết tế bào âm đạo tầm soát ung thư cổ tử cung", http://tytphuong3qtb.medinet.gov.vn Đỗ Văn Thành, Một cách tiếp cận định chẩn đốn lâm sàng, Tạp chí Tin học điều khiển, Viện công nghệ thông tin, 16(1),(2000), 52-58 Nguyễn Thanh Thủy, Hệ thống trợ giúp kiểm tra đơn thuốc chữa bệnh tăng huyết áp ES-TENSION, Tạp chí tin học điều khiển tin học, Viện công nghệ thông tin, 12(3), (1996), 10-18 Nguyễn Sào Trung (2007), "Hpv tổn thương cổ tử cung ", Y Học TP Hồ Chí Minh 11(3), tr 1-4 Nơng Quỳnh Vân - Trần Đình Hùng, Hồi quy lasso ứng dụng phân tích liệu ung thư vú, Tạp chí khoa học công nghệ Đại học Thái Nguyên, T 227, S 08 (2022) Bộ y tế (2016), Quy trình kỹ thuật chuyên ngành giải phẫu bệnh, tế bào học Kỹ thuật lấy bệnh phẩm làm phiến đồ cổ tử cung - âm đạo , Nhà xuất y học, tr 401-403 Fred A., Filipe J., Partinen M., Paiva T (2000), “PSG-Expert: An Expert System for the Diagnosis of Sleepc Disorders”, IOS Press 78, pp 127147 10 Arteaga de Castro C S cộng (2019), "Proton MRS of cervical cancer at T", NMR Biomed 32(1), tr e4015 60 11 Tianqi Chen, Carlos Guestrin, “XGBoost : A scalable tree boosting system”, March 9, 2016, arXiv:1603.02754 [cs.LG] 12 Brenda E, Sirovich and Gilbert Welch (2004), "The Frequency of Pap Smear Screening in the United States", JGIM 19, p 243-250 13 Jerome H Friedman (2001), “Greedy function approximation: a gradient boosting machin”", Annals of statistics, Pages 1189-1232 14 Jerome H Friedman (2002), “Stochastic gradient boosting”, Computational Statistics & Data Analysis Volume 38(4), Pages 367378 15 Buchanan B.G (1984), Shortliffe E.H, Rule Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project, Addison-Wesley, pp 209-232 16 Balaha M H and et al (2011), "Cytological pattern of cervical Papanicolaou smear in eastern region of Saudi Arabia", J Cytol 28(4), p 173-7 17 Ngah U K., Aziz S A (2007), “A BI-RADS Based Expert Systems for the Diagnoses of Breast Diseases”, American Journal of Applied Sciences (11), pp 867-875 33 18 Kuhn, Max; Johnson, Kjell (2013), Appliied Predictive Modeling, NY: Springer, New York 19 Mandakini M P, Amrish N P Jigna M (2011), "Cervical pap smear study and its utility in cancer screening, to specify the strategy for cervical cancer control ", National journal of community medicine 2(1), tr 49-51 20 Arbyn M cộng (2011), "Trends in cervical cancer incidence and mortality in the Baltic countries, Bulgaria and Romania", Int J Cancer 128(8), tr 1899-1907 61 21 Hoang Nguyen et al (2019), “Developing an XGBoost model to predict blast-induced peak particle velocity in an open-pit mine: a case study”, Acta Gepphysica Volume 67(2), Pages 477-490 22 Naser S.S.S, Akkila A.N (2008), “A Proposed Expert System for Skin Diseases Diagnosis”, Journal of Appied Sciences Research 4(12): pp 1682-1693 23 Aikins J S., Kunz J C., Shortliffc E H., and Fallat K J (1983), “PUFF: An Expert System for Interpretation of Pulmonary Function Data”, Comput Biomed 16, pp 199-208 24 TOP (2016), Cervical cancer screening , Clinical Practice Guideline 25.] Antill Y C and et al (2015), "Lynch syndrome and cervical cancer", Int J Cancer 137(11), p 2757-61 26 http://en.diagnosispro.com/ , truy cập ngày 10/06/2022 27 http://en.wikipedia.org/wiki/Clinical_decision_support_system/ , truy cập ngày 10/06/2022 PHỤ LỤC Phiếu điều tra nghiên cứu TT CÂU HỎI A THÔNG TIN CHUNG A1 Họ tên bệnh nhân A2 Tuổi A3 Địa A4 Chẩn đoán TRẢ LỜI Kinh A5 Dân tộc Dân tộc thiểu số Khác (ghi rõ)………… A6 Vùng sống Thành thị Nông thôn Nội trợ Buôn bán Nông dân (làm ruộng, làm rẫy, chăn A7 Nghề nghiệp ni) Cơng chức, viên chức Khác………………… Độc thân (có quan hệ tình dục) Có gia đình A8 Tình trạng nhân Số lần kết Lập gia đình lần đầu Lập gia đình ≥ lần, Mù chữ Trình độ học vấn Tiểu học Trung học sở A9 Trung học phổ thông Đại học sau đại học Hộ nghèo (700 – 900/ tháng) Hộ cận nghèo (1000.000 – A10 Kinh tế gia đình 1.300.000/ tháng) Hộ có mức sống trung bình (1000.000 – 1.500.000/ tháng) B ĐẶC ĐIỂM LÂM SÀNG Ngứa âm hộ - âm đạo Dịch tiết âm đạo nhiều Rong kinh – Rong huyết Đau bụng B1 Triệu chứng Đau giao hợp Chảy máu sau giao hợp Chảy máu kỳ kinh Đau thắt lưng Không triệu chứng CTC trơn láng Viêm lộ tuyến Cổ tử cung phì đại Nang Naboth B2 Triệu chứng thực thể Polype CTC dễ chảy máu giao hợp/chạm CTC sần sùi Khác………………… C ĐẶC ĐIỂM CẬN LÂM SÀNG Bình thường C1 Kết soi khí hư Nấm Trichomonas Viêm ÂĐ khơng đặc hiệu Bình thường ASC- US AGC C2 Kết TBH ASC-H LSIL HSIL Ung thư biểu mô vảy CÁC YẾU TỐ LIÊN QUAN D ĐẾN TẾ BÀO CTC BẤT THƯỜNG ≤ 13 tuổi D1 Tuổi có kinh lần đầu 14 – 17 tuổi ≥ 18 D2 Tình trạng kinh nguyệt D3 Tuổi giao hợp lần đầu D4 Số lần mang thai D5 Tuổi sinh đẻ Đều Không < 18 tuổi >18 tuổi - lần > lần < 19 tuổi >19 tuổi lần lần D6 Số lần sinh đẻ lần lần ≥3 lần lần D7 Nạo- hút/ sảy thai lần lần ≥3 D8 D9 Tiền sử bệnh viêm nhiễm phụ Có viêm khoa Khơng viêm Tiền làm PAP Có Khơng Nước giếng D10 Nguồn nước sinh hoạt hàng ngày Nước sông, bao, hồ Nước máy Thuốc ngừa thai (uống) Thuốc ngừa thai (tiêm, cấy) D11 Sử dụng biện pháp tránh thai Đặt vòng Bao cao su Khác D12 Tiền sử hút thuốc Có Khơng

Ngày đăng: 02/11/2023, 12:19

Tài liệu cùng người dùng

Tài liệu liên quan