Ứng dụng thuật toán học máy xgboost vào dự đoán nguy cơ bị bệnh nám má

91 17 0
Ứng dụng thuật toán học máy xgboost vào dự đoán nguy cơ bị bệnh nám má

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TAO TRƯỜNG ĐẠI HỌC QUY NHƠN TRẦN XUÂN VIỆT ỨNG DỤNG THUẬT TOÁN HỌC MÁY XGBOOST VÀO DỰ ĐOÁN NGUY CƠ BỊ BỆNH NÁM MÁ LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định – Năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TAO TRƯỜNG ĐẠI HỌC QUY NHƠN TRẦN XUÂN VIỆT ỨNG DỤNG THUẬT TOÁN HỌC MÁY XGBOOST VÀO DỰ ĐOÁN NGUY CƠ BỊ BỆNH NÁM MÁ Chuyên ngành: Khoa học liệu ứng dụng Mã số: 8904648 Người hướng dẫn: TS HỒ VĂN LÂM LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thực luận văn thực riêng tôi, hướng dẫn TS Hồ Văn Lâm Mọi tham khảo từ nguồn tài liệu, cơng trình nghiên cứu liên quan nước quốc tế trích dẫn cách rõ ràng luận văn Mọi chép không hợp lệ hay vi phạm quy chế tơi xin hồn tồn chịu trách nhiệm chịu kỷ luật trường Đại học Quy Nhơn Bình Định, ngày tháng năm 2022 Học viên Trần Xuân Việt LỜI CẢM ƠN Trong trình thực hồn thiện luận văn này, tơi xin gửi lời cảm ơn chân thành đến thầy Khoa Tốn – Thống kê Khoa công nghệ thông tin trường Đại học Quy Nhơn thầy thính giảng trường, viện Thành phố Hồ Chính Minh cung cấp cho kiến thức quý báu suốt năm học vừa qua Đặc biệt, xin gửi lời cảm ơn sâu sắc tới TS Hồ Văn Lâm dành nhiều thời gian vô quý báu để định hướng hướng dẫn tơi tận tình tạo điều kiện thuận lợi để tơi hồn thành tốt luận văn Tơi xin chân thành cảm ơn! Học viên thực Trần Xuân Việt DANH MỤC MỘT SỐ TỪ VIẾT TẮT AI: Artificial Intelligence AUC: Area Under The Curve ECG: Điện tâm đồ GBM: Gradient Boosting Machine ML: Machine Learning RF: Ramdon forest ROC: Receiver Operating Characteristics XGBoost: Extreme Gradient Boost MỤC LỤC TRANG PHỤ BÌA LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼi MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN TÀI LIỆU 1.1 Tổng quan AI 1.1.1 Giới thiệu AI, học máy, học sâu 1.1.2 Ứng dụng trí tuệ nhân tạo y khoa 1.1.3 Ứng dụng AI chẩn đoán nám má tổn thương da lành tính 1.1.4 Một số nghiên cứu khác 1.2 Ensemble learning (học tập theo nhóm) 1.3 Khái niệm định (decision tree) 11 1.3.1 Cây định 11 1.3.2 Thuật toán định 11 1.3.3 Ưu điểm định 12 1.3.4 Một số thuật toán định 13 1.4 Thuật toán xgboost 14 1.4.1 Giới thiệu XGBoost 15 1.4.2 Phương pháp XGBoost tối ưu hóa hệ thống 16 1.4.3 Các đặc trưng XGBoost 19 1.4.4 Tốc độ thực thi XGBoost 20 1.4.5 Hiệu suất mơ hình XGBoost 20 1.4.6 Thuật toán XGBoost 22 1.4.7 Ưu điểm thuật toán 22 1.4.8 Ứng dụng thuật toán lĩnh vực 23 1.5 Đánh giá mơ hình 23 1.5.1 Độ đo dùng phân loại 23 1.5.2 Đường cong ROC AUC 25 1.5.3 Đánh giá mơ hình kiểm tra chéo 26 1.6 Tổng quan bệnh nám má 28 1.6.1 Giới thiệu: 28 1.6.2 Dịch tễ học: 28 1.6.3 Sinh bệnh học 29 1.6.4 Triệu chứng lâm sàng 29 1.6.5 Phân loại nám má 29 CHƯƠNG 2: BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH NÁM MÁ VÀ GIẢI PHÁP THỰC HIỆN .31 2.1 Phát biểu toán 31 2.2 Các bước phân tích liệu ứng dụng 31 2.3 Hiểu toán (business understanding) 32 2.3.1 Đặt vấn đề: 32 2.3.2 Mục tiêu: 32 2.3.3 Giải pháp thực hiện: 32 2.4 Hiểu liệu (data understanding) 33 2.5 Chuẩn bị liệu 43 CHƯƠNG 3: TÌM HIỂU THUẬT TỐN XGBOOST VÀ XÂY DỰNG MƠ HÌNH HỌC MÁY DỰ BÁO CHO BÀI TỐN DỰ ĐOÁN NGUY CƠ BỆNH NÁM MÁ 49 3.1 Tìm hiểu thuật tốn xgboost 49 3.1.1 Thuật toán XGBOOST 49 3.1.2 Cài đặt thư viện XGBoost 49 3.1.3 Chuẩn bị liệu 49 3.1.4 Huấn luyện XGBoost model đơn giản 50 3.1.5 Các phương pháp đánh giá XGBoost model 50 3.1.6 Trực quan hóa Xgboost model 52 3.1.7 Lưu sử dụng XGBoost model thư viện pickle 54 3.1.8 Lựa chọn features cho XGBoost model 55 3.1.9 Cấu hình Early_Stopping cho XGBoost model 58 3.1.10Cấu hình Multithreading cho XGBoost model 61 3.1.11Điều chỉnh tham số thuật toán XGBoost 62 3.1.12 Triển khai thực sử dụng Grid Search để tối ưu hóa thông số XGBoost 65 3.2 Thực nghiệm mô hình 65 3.3 Đánh giá mơ hình 66 3.4 Phát triển ứng dụng dự đoán nguy bệnh nám má 72 KẾT LUẬN VÀ KIẾN NGHỊ 76 MỘT SỐ HẠN CHẾ CỦA ĐỀ TÀI NGHIÊN CỨU 78 DANH MỤC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ 79 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) DANH MỤC BẢNG, BIỂU Bảng 2.1 Bảng kiểu liệu thuộc tính 43 DANH MỤC BIỂU ĐỒ Biểu đồ 2.1 Tỷ lệ nám má 37 Biểu đồ 2.2 Phân bố nám má theo tuổi 37 Biểu đồ 2.3 Phân bố theo độ tuổi 38 Biểu đồ 2.4 Phân bổ nghề nghiệp với nám má 38 Biểu đồ 2.5 Liên quan tiền sử bệnh mạn tính đối tượng với tỷ lệ nám má 39 Biểu đồ 2.6 Phân bố theo thành phần kinh tế gia đình 39 Biểu đồ 2.7 Tiền sử mang thai với nám má 40 Biểu đồ 2.8 Tỷ lệ nám má với tiền sử dụng mỹ phẩm 40 Biểu đồ 2.9 Biểu đồ tương quan biến số 41 Biểu đồ 2.10 Phân bố nám má không nám má 47 Biểu đồ 2.11 Biểu đồ phân bổ tần số biến 47 Biểu đồ 2.12 Ma Trận tương quan biến số 48 Biểu đồ 3.1 Trực quan mô hình XGBoost theo chiều dọc 53 Biểu đồ 3.2 Biểu đồ trực quan mơ hình XGBoost 54 Biểu đồ 3.3 Thứ tự tầm quan trọng biến 56 Biểu đồ 3.4 Sắp thứ tự importance scores 57 Biểu đồ 3.5 Biểu đồ ROC-AUC mơ hình 66 Biểu đồ 3.6 Biểu đồ Precission-Recall 67 Biểu đồ 3.7 Xếp hạng biến số ảnh hưởng 68 Biểu đồ 3.8 Xếp hạng biến quan trọng 70 DANH MỤC HÌNH VẼ Hình 1.1 Bức tranh tổng thể Ensemble Learning 10 Hình 1.2 Sự phát triển thuật tốn XGBoost từ định 15 Hình 1.3 Phương pháp XGBoost tối ưu hóa thuật tốn GBM tiêu chuẩn 16 Hình 1.4 XGBoost so với Các thuật toán ML khác sử dụng Bộ liệu Make_Classification SKLearn (20 thuộc tính, triệu dịng) 18 Hình 1.5 Kết so sánh hiệu suất XGBoost so với thuật toán định khác 20 Hình 1.6 Mơ hình dự đoán sử dụng Gradient Boosting 21 Hình 1.7 Bảng mơ tả ma trận nhầm lẫn 24 Hình 1.8 Ví dụ đường cong ROC AUC 26 Hình 3.1 Cấu hình Early_stopping 58 Hình 3.2 Đồ thị thể Logloss error epoch 60 Hình 3.3 Ma trận nhầm lẫn liệu test 67 Hình 3.4 Sơ đồ định XGboost 69 Hình 3.5 Nhập thơng tin bệnh nhân 73 Hình 3.6 Nhập thơng tin chẩn đoán 73 Hình 3.7 Kết dự đốn mơ hình 74 Hình 3.8 Thông tin bệnh nhân để truy vấn cập nhập chẩn đốn thực tế 74 Hình 3.9 Cập nhập kết chẩn đoán cho bệnh nhân 75 67 Hình 3.3 Ma trận nhầm lẫn liệu test Trong 236 mẫu test có 183 (160+23) ca máy dự báo đúng, 80 ca máy dự báo sai đối tượng có nám má mà mơ hình báo khơng có nám má ngược lại Biểu đồ 3.6 Biểu đồ Precission-Recall Recall: Thể khả phát tất postivie, tỷ lệ cao cho thấy khả bỏ sót điểm Positive thấp 68 Precision: Thể chuẩn xác việc phát điểm Không bất thường Số cao model nhận điểm Positive chuẩn Qua biểu đồ ta thấy hệ số Precision-Recall thể khả phát tất nám má 0.848 điểm không không nám má 0.474 Các biến (trường) quan trọng (ảnh hưởng) kết (có nám má hay khơng): - Tiền sử gia đình nám má (15,7%), khu vực (10.3%), tháng mang thai (8.9%), dùng thuốc tránh thai (8,4%), có bệnh lý kèm theo (7,9%), Kinh tế gia đình (7,7%), Số lần mang thai (7,5%), Tuổi người bệnh (5,3%), nghề nghiệp (3,8%), tuổi sử dụng mỹ phẩm ( 3,7%), buổi trưa (2,6%), buổi chiều (2,6%), Rám má mang thai (2,3%), Tôn giáo (1,9%) số lần sinh con, hôn nhân, dân tộc tiếp xúc hóa chất khơng có ảnh hưởng đến kết nám má Biểu đồ 3.7 Xếp hạng biến số ảnh hưởng 69 Hình 3.4 Sơ đồ định XGboost Đánh giá ảnh hưởng biến thông qua tham số F (F score) 70 Biểu đồ 3.8 Xếp hạng biến quan trọng Chúng ta thấy rõ biến tuổi biến quan trọng góp phần vào việc dự đốn người có khả bị nám má hay khơng Tiếp theo biến Tuổi sử dụng mỹ phẩm biến số tiếp xúc với ánh nắng Bên cạnh đó, biến quan trọng biến số lần sinh con, nhân Thực nghiệm mơ hình: Trên tập liệu 100 ghi ngẫu nhiên từ liệu Thì độ xác mơ hình 79% Hệ số Kappa: 0.58 Nhìn hình bên ta thấy tính xác mơ hình thơng qua biểu dổ ROC-AUC Với đường ROC cho không rám mà 0.94 cho nhóm nám má 0.94 71 Mơ hình phân loại xác 79 trường hợp 100 trường hợp 72 Và số Precision-recall nhóm khơng nám má 0.95 nhóm bị nám má 0.94 3.4 PHÁT TRIỂN ỨNG DỤNG DỰ ĐỐN NGUY CƠ BỆNH NÁM MÁ Mơ hình học máy dự đốn nguy bị bệnh nám má đóng gói nhúng vào ứng dụng web https://ramma.bvquyhoa.vn hỗ trợ cho người dùng nhận biết khả bị nám má phần trăm hướng dẫn số kiến thức cho người bệnh biết thói quen gây bệnh nám má, để người bệnh phòng tránh Bác sĩ sử dụng ứng dụng liên hệ với bệnh nhân đánh giá hỗ trợ nâng cấp mơ hình thơng qua kiến thức chun mơn kết thực tế Ứng dụng cập nhật liệu đến lúc đủ thông tin (tại ứng dụng chúng tơi cài đặt có thêm thơng tin 100 người mơ hình huấn luyện lại với liệu mới) mơ hình huấn luyện lại với liệu để tăng độ xác 73 Hình 3.5 Nhập thơng tin bệnh nhân Hình 3.6 Nhập thơng tin chẩn đốn 74 Hình 3.7 Kết dự đốn mơ hình Hình 3.8 Thông tin bệnh nhân để truy vấn cập nhập chẩn đốn thực tế 75 Hình 3.9 Cập nhập kết chẩn đoán cho bệnh nhân 76 III KẾT LUẬN VÀ KIẾN NGHỊ Trong luận văn này, trình bày bước quy trình phân tích liệu thực tế, xây dựng mơ hình học máy sử dụng thuật tốn XGBOOTS ứng dụng vào toán dự đoán bệnh Nám má Với cách tiếp cận phương pháp đưa khai thác liệu cộng đồng có, đồng thời thu thập thêm liệu qua lần khảo sát giúp mơ hình học máy có kết dự đốn cao 79% nay, hỗ trợ việc dự phịng, chẩn đốn điều trị bệnh, giúp làm giảm chi phí điều trị bệnh người dân Đề tài hỗ trợ chẩn đoán đem đến ý nghĩa mang tính chất cộng đồng, hướng đến việc phát triển thành ứng dụng giúp ích phần với bệnh nhân không đủ điều kiện đến sở y tế thường xun, giúp họ có cơng cụ để an tâm theo dõi sức khỏe Tuy nhiên, để có độ xác mơ hình học máy chúng tơi cần phải thu thập liệu công đồng nhiều cá nhân từ nhiều vùng miền khác công việc tốn nhiều công sức, thời gian kinh phí KIẾN NGHỊ HIỆU QUẢ KHI ỨNG DỤNG VÀO THỰC TẾ Hiệu quả: - Sử dụng mơ hình học máy, trí tuệ nhân tạo để giúp máy nhận diện nguy bệnh nám má người dân thông qua thiết bị di động - Từ kết nghiên cứu này, người dân tồn tỉnh Bình Định khu vực áp dụng phần mềm dự đốn nguy nám má Bệnh viện Phong – Da liễu trung ương Quy Hịa bệnh viện có chun khoa da liễu tiếp nhận điều trị bệnh nhân nám má qua thông tin sàng lọc từ phần mềm dự đoán nguy chẩn đoán nám má 77 - Phần mềm dự đoán nguy nám má giúp giảm thời gian chi phí lại khám tư vấn - Phần mềm dự đoán nguy nám má giúp tư vấn dự phòng nám má, tránh thơng tin điều trị khơng an tồn giúp giảm gánh nặng bệnh tật, phòng tránh biến chứng điều trị khơng an tồn - Phần mềm chẩn đốn nám má giúp giảm chi phí điều trị: trường hợp nhẹ chưa cần điều trị điều trị sớm; trường hợp nặng điều trị an toàn, hiệu quả, chuyên khoa - Tạo uy tín cho y tế Bình Định, tăng số hấp dẫn cho bệnh viện tỉnh, trung tâm da liễu, trung tâm y tế dự phòng Tạo niềm tin cho bệnh nhân 78 MỘT SỐ HẠN CHẾ CỦA ĐỀ TÀI NGHIÊN CỨU Đề tài hỗ trợ chẩn đoán đem đến ý nghĩa mang tính chất cộng đồng, hướng đến việc phát triển thành ứng dụng giúp ích phần với bệnh nhân khơng đủ điều kiện đến sở y tế thường xuyên, giúp họ có cơng cụ để an tâm theo dõi sức khỏe Tuy nhiên, để có độ xác mơ hình học máy chúng tơi cần phải thu thập liệu công đồng nhiều cá nhân từ nhiều vùng miền khác công việc tốn nhiều công sức, thời gian kinh phí 79 DANH MỤC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ CỦA TÁC GIẢ Ho Van Lam, Vu Tuan Anh, Pham Thi Hoang Bich Diu, Tran Xuan Viet (2021) "APPLING MACHINE LEARNING TO PREDICT MELASMA" International Journal of Computer Science and Information Security (IJCSIS), 19 (11) TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Nguyễn Quỳnh Chi (2020) "Dự Đoán Mức Độ Bụi PM2 Bằng Phương Pháp Khai Phá Dữ Liệu" Journal of Science and Technology on Information and Communications, (4A), 99-105 [2] Lê Dân (2018) "Ứng dụng qui trình CRISP-DM phân tích liệu hài lịng bệnh nhân chất lượng dịch vụ khám chữa bệnh bệnh viện công địa bàn tỉnh Quảng Ngãi" [3] Phạm Thị Hồng Bích Dịu (2017) "Nghiên cứu đặc điểm lâm sàng số yếu tố liên quan đến nám má phụ nữ năm 2016" Bệnh viện Phong – Da liễu Trung ương Quy Hòa, [4] Trương Việt Hùng (2020) "Ước lượng khả chịu tải giàn thép sử dụng phân tích trực tiếp thuật tốn XGBoost" [5] Nguyễn Quốc Minh, Nguyễn Trần Minh Trang, Nguyễn Tiến Thành, Đàm Tá Hải (2021) "Phát trạng thái hệ thống điện bị công an ninh mạng dựa máy học" Tạp chí Khoa học Cơng nghệ-Đại học Đà Nẵng, 43-48 [6] Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Hà Quang Thái, Bùi Trung Anh, Phan Công Mạnh (2018) "PHÂN LOẠI BỆNH RUNG NHĨ DÙNG XGBOOST VÀ HỌC SÂU" TNU Journal of Science and Technology, 189 (13), 85-91 [7] Nguyễn Văn Thường (2019) Hình ảnh lâm sàng Bệnh học chuyên ngành da liễu, NXB Y học, Hà Nội, 219 - 228 [8] Minh Việt (2019) Lễ mắt ứng dụng chẩn đoán bệnh da liễu trí tuệ nhân tạo Việt Nam - DeepClinics, Tuổi trẻ thủ đô, https://tuoitrethudo.com.vn/le-ra-mat-ung-dung-chan-doan-benh-dalieu-bang-tri-tue-nhan-tao-dau-tien-tai-viet-nam-deepclinics63084.html, TIẾNG ANH [9] Balkrishnan R, Mcmichael A.J, F.T.Camacho, F.Saltzberg, T.S.Housman, S.Grummer, et al (2003) "Development and validation of a healthrelated quality of life instrument for women with melasma" British Journal of Dermatology, 149, 572-577 [10] Camille Fitoussi (2013) "Facial Hyperpigmentation: A Practical Approach to Diagnosis and Management" Ethnic Dermatology, 199-211 [11] Davinder Parsad, S Prasad W Kumarasinge (2006) "Psycho-social Implications of Pigmentary Disorders in Asia" PASPCR Commentary, 1-8 [12] Hilde Lapeere, Barbara Boone, Sofie De Schepper, Mireille Van Gele Evelien Verhaeghe, Katia Ongenae, Nanja Van Geel, Jo Lambert, & Lieve Brochez S11 (2012) Hypomelanoses and Hypermelanoses” Fitzpatricks Dermatology in General Medicine 8th ed., 804-819 [13] Hoang Nguyen, Xuan-Nam Bui, Hoang-Bac Bui, Dao Trong Cuong (2019) "Developing an XGBoost model to predict blast-induced peak particle velocity in an open-pit mine: a case study" Acta Geophysica, 67 (2), 477-490 [14] Jason Brownlee (2016) "XGBoost With python: Gradient boosted trees with XGBoost and scikit-learn" [15] Jason Brownlee (2016) "Avoid Overfitting By Early Stopping With XGBoost In Python" Machine Learning Mastery, [16] Max Kuhn, Kjell Johnson (2013) "Applied predictive modeling" 26 [17] T Menzies, Y Hu (2003) "Data Mining For Very Busy People" IEEE Computer, 18-25 [18] Michael Copeland (20216) "What’s the Difference Between Artificial Intelligence, Machine Learning and Deep Learning?" 2021 (24/4/2021) [19] Oluwatopi A Ogebechie-Godec, Nada Elbuluk (2017) "Melasma: an Upto-Date Comprehensive Review" Dermatol Ther, 7, 305-318 [20] S Ramraj, Nishant Uzir, R Sunil, Shatadeep Banerjee (2016) "Experimenting XGBoost algorithm for prediction and classification of different datasets" International Journal of Control Theory and Applications, 9, 651-662 [21] Ratna Rajaratnam Asad Salim, Eva Soos Domanne (2014) "Melasma" Evidence-based Dermatology, Third Edition [22] Tianqi Chen, Carlos Guestrin (2016) "Xgboost: A scalable tree boosting system" Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 785-794 [23] The Society for the study of Artificial Intelligence and Simulation of Behaviour (2014) What is AI?, The Society for the study of Artificial Intelligence and Simulation of Behaviour, https://aisb.org.uk/what-is-ai/, 24/04/2021 [24] Vasant Dhar (2013) "Data science and prediction" Communications of the ACM, 56 (12), 64-73 [25] Yin Yang, Yiping Ge et al (2020) "Development and validation of two artificial intelligence models for diagnosing benign, pigmented facial skin lesions" Skin Res Technol, 27, 74-79 [26] Yin Yang, Yiping Ge, Lifang Guo, Qiuju Wu, Lin Peng, Erjia Zhang, et al (2021) "Development and validation of two artificial intelligence models for diagnosing benign, pigmented facial skin lesions" Skin Research and Technology, 27 (1), 74-79

Ngày đăng: 28/06/2023, 08:21

Tài liệu cùng người dùng

Tài liệu liên quan