Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
2,17 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐẶNG THẾ HỒI NAM XÂY DỰNG MƠ HÌNH DỰ ĐỐN THỜI GIAN NẰM VIỆN BẰNG HỌC MÁY Chuyên ngành: Khoa học máy tính Mã số: 60480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2021 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - TPHCM Cán hướng dẫn khoa học: TS Nguyễn An Khương Cán chấm nhận xét 1: PGS TS Nguyễn Thanh Hiên Cán chấm nhận xét 2: TS Võ Thị Ngọc Châu Luận văn thạc sĩ bảo vệ Trường Đại Học Bách Khoa, TPHCM ngày 22 tháng năm 2021 Thành phần hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Quản Thành Thơ TS Nguyễn Tiến Thịnh PGS TS Nguyễn Thanh Hiên TS Võ Thị Ngọc Châu TS Lê Văn Quốc Anh Xác nhận Chủ tịch Hội đồng đánh giá luận văn Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRƯỞNG KHOA ……… CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Đặng Thế Hoài Nam Ngày, tháng, năm sinh: 18/10/1990 Chuyên ngành: Khoa học máy tính MSHV: 1670694 Nơi sinh: TPHCM Mã số: 8480101 I TÊN ĐỀ TÀI XÂY DỰNG MƠ HÌNH DỰ ĐỐN THỜI GIAN NẰM VIỆN BẰNG HỌC MÁY II NHIỆM VỤ VÀ NỘI DUNG Xây dựng mơ hình dự đốn thời gian nằm viện học máy với với hai liệu MIMIC-III bệnh viện Thống Nhất III NGÀY GIAO NHIỆM VỤ : 21/09/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ : 22/1/2021 V CÁN BỘ HƯỚNG DẪN: TIẾN SĨ NGUYỄN AN KHƯƠNG C ÁN BỘ HƯỚNG DẪN ( Họ tên chữ ký) TPHCM, ngày … tháng … năm 2020 C HỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA ……… (Họ tên chữ ký) LỜI CÁM ƠN Tôi nhận nhiều chia sẻ, giúp đỡ từ nhiều tổ chức cá nhân để hoàn thành luận văn Trước hết, xin gửi lời cảm ơn chân thành biết ơn sâu sắc đến Thầy Tiến sĩ Nguyễn An Khương, người nhiệt tình hướng dẫn, bảo giúp đỡ tơi suốt q trình nghiên cứu để thực luận văn Tôi xin cảm ơn thầy Tiến sĩ Nguyễn Tiến Thịnh góp ý cho tơi để hồn thiện luận văn Tơi chân thành cảm ơn đồng nghiệp, bạn bè đóng góp ý kiến trình nghiên cứu đề tài Đặc biệt, chân thành cảm ơn đến bạn Nguyễn Tấn Đức, Trần Trung Hiếu, Nguyễn Thị Ngọc Mai Đào Nguyễn Quốc Vinh nhiệt tình hỗ trợ tơi q trình tinh chỉnh mơ hình dự đốn luận văn Tôi trân trọng ghi nhận cảm ơn kiến thức mà thầy cô tham gia giảng dạy chương trình đào tạo sau đại học ngành Khoa học máy tính, Đại học Bách Khoa Thành phố Hồ Chí Minh cung cấp trình giảng dạy Cuối cùng, tơi xin gửi lời cảm ơn đến gia đình, người thân, bạn bè đồng nghiệp động viên, chia sẻ, hỗ trợ cảm thông suốt trình học tập thực luận văn Đặng Thế Hồi Nam TĨM TẮT LUẬN VĂN THẠC SĨ Dự đoán thời gian nằm viện giúp cho bệnh nhân chuẩn bị trước thời gian, tiền bạc, tâm lý bệnh viện giúp cho sở bệnh viện, đội ngũ bác sĩ chuẩn bị, cắt giảm chi phí, quy hoạch trước giường bệnh, đội ngũ, thuốc men, tài nguyên để hỗ trợ bệnh nhân công tác điều trị Trong nghiên cứu này, chúng tơi áp dụng ba mơ hình học máy: Gradient Boosting, Extreme Gradient Boosting, Random Forest để đưa mơ hình dự đốn số ngày nằm viện Tập liệu để chạy ba mơ hình tập liệu thu từ liệu MIMIC-III Sau đó, chúng tơi áp dụng số mơ hình vào liệu y tế bệnh viện Thống Nhất Dựa vào kết thu từ nghiên cứu, chúng tơi chọn sử dụng mơ hình học máy sử dụng giải thuật Extreme Gradient Boosting mơ hình cho kết đủ tốt ABSTRACT Predicting the length of hospital stay can help patients be prepared time in advance, money, and psychology when going to the hospital as well as helping hospital facilities and doctors' staff to prepare and cut expenses, charges, advance planning on hospital beds, staff, medicines, resources to support patients in treatment In this study, we applied three machine learning models: Gradient Boosting, Extreme Gradient Boosting, Random Forest to make a model to predict the length of stay in hospital The data set to run the three models above is the one obtained from the MIMIC-III dataset and Thong Nhat hospital dataset Based on the results obtained from the study, we chose to use the model using Extreme Gradient Boosting learning algorithm because this model gives good results LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn cơng trình nghiên cứu thân Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình nghiên cứu khác Tơi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thông tin trích dẫn luận văn rõ nguồn gốc Đặng Thế Hoài Nam MỤC LỤC CHƯƠNG I TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU CHƯƠNG II CÁC CƠNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYẾT CHƯƠNG III XÂY DỰNG MƠ HÌNH DỰ ĐỐN VÀ PHÂN TÍCH ĐÁNH GIÁ CHO MIMIC-III 21 CHƯƠNG IV XÂY DỰNG MƠ HÌNH DỰ ĐỐN VÀ PHÂN TÍCH ĐÁNH GIÁ CHO BỘ DỮ LIỆU BỆNH VIỆN THỐNG NHẤT 43 KẾT LUẬN 50 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 54 DANH SÁCH TỪ VIẾT TẮT Từ viết tắt Mô tả tiếng Anh Mô tả tiếng Việt LOS Length of stay Số ngày nằm viện ICU Intensive Care Unit Đơn vị chăm sóc đặc biệt MSE Mean Square Error Sai số tồn phương trung bình R2 R square R bình phương XGBoosting Extreme Gradient Boosting Extreme Gradient Boosting GBR Gradient Boosting Regressor Gradient Boosting Regressor GBC Gradient Boosting Classifier Gradient Boosting Classifier Multilayer Perceptron MLPClassifier Classifier Bộ phân lớp mạng thần kinh nhiều tầng SMOTE Synthetic minority oversampling technique Kỹ thuật lấy mẫu thừa thiểu số tổng hợp PR Curve Precision Recall Curve Đường cong Precision Recall CART Classification and Regression Tree Cây hồi quy phân loại DANH SÁCH HÌNH Hình 1. Mười thuộc tính có tầm quan trọng cao cho việc dự đốn LOS với mơ hình GradientBoosingRegressor 60 Hình 2. Tính LOS kết mẫu 62 Hình 3. So sánh kết số R2 mơ hình học máy 74 Hình 4. Nhóm chẩn đoán bệnh ICD9 trước cải tiến tiền xử lý liệu 29 Hình 5. Nhóm chẩn đốn bệnh ICD9 sau cải tiến tiền xử lý liệu 30 Hình 6. Thống kê mật độ liệu LOS MIMIC-III 32 Hình Tổng quan liệu MIMIC-III Hình 8. Thống kê mật độ liệu LOS bệnh viện Thống Nhất 46 Hình 9. Chứng hồn thành khóa học hướng dẫn sử dụng liệu MIMIC-III 76 Hình 10. Bảng điểm hồn thành khóa học hướng dẫn sử dụng liệu MIMIC-III 77 Hình 11. Bảng điểm hồn thành khóa học hướng dẫn sử dụng liệu MIMIC-III 78 WHITE 41268 OTHER/UNKNOWN 7700 BLACK/AFRICAN AMERICAN 5779 HISPANICLATINO 2125 ASIAN 2006 Bảng 8. Danh số lượng bệnh nhân gom nhóm theo cột ETHNICITY sau thu gọn 65 F Rút gọn tập giá trị cột RELIGION, Bảng ADMISSIONS CATHOLIC 20580 NOT SPECIFIED 11738 UNOBTAINABLE 8242 PROTESTANT QUAKER 7121 JEWISH 5307 OTHER 2695 EPISCOPALIAN 771 GREEK ORTHODOX 459 CHRISTIAN SCIENTIST 429 BUDDHIST 267 MUSLIM 225 JEHOVAH'S WITNESS 139 UNITARIAN-UNIVERSALIST 124 HINDU 113 ROMANIAN EAST ORTH 83 7TH DAY ADVENTIST 81 BAPTIST 28 HEBREW 16 METHODIST LUTHERAN Bảng 9. Danh số lượng bệnh nhân gom nhóm theo cột RELIGION trước thu gọn 66 RELIGIOUS 38898 NOT SPECIFIED 11738 UNOBTAINABLE 8242 B ảng 10. Danh số lượng bệnh nhân gom nhóm theo cột RELIGION sau thu gọn 67 G Dữ liệu trước sau thu gọn cột MARITAL_STATUS, Bảng ADMISSIONS MARRIED 24199 SINGLE 13238 NaN 10097 WIDOWED 7204 DIVORCED 3211 SEPARATED 571 UNKNOWN (DEFAULT) 343 LIFE PARTNER 15 Bảng 11. Danh số lượng bệnh nhân gom nhóm theo cột MARITAL_STATUS trước thu gọn 68 MARRIED 24199 SINGLE 13238 UNKNOWN (DEFAULT) 10440 WIDOWED 7204 DIVORCED 3211 SEPARATED LIFE PARTNER 571 15 Bảng 12. Danh số lượng bệnh nhân gom nhóm theo cột MARITAL_STATUS sau thu gọn 69 H Bảng ADMISSIONS với liệu mẫu sau xử lý Bảng 13 Dữ liệu mẫu Bảng ADMISSIONS sau xử lý 70 I Thống kê số bệnh nhân dựa nhóm tuổi senior 33785 middle_adult 12732 newborn 8101 young_adult 4260 Bảng 14. Danh số lượng bệnh nhân gom nhóm theo nhóm tuổi J Tính giá trị trung vị LOS nhóm theo cột FIRST_CAREUNIT với giá trị CCU, CSRU, MICU, NICU, SICU, TSICU Bảng 15 Danh sách giá trị trung vị LOS nhóm theo cột FIRST_CAREUNIT 71 K Các cột cịn lại Bảng ADMISSIONS ADMISSION_TYPE loại nhập viện mental thần kinh INSURANCE bảo hiểm misc bệnh khác RELIGION tín ngưỡng muscular bắp neoplasms tân sinh MARITAL_STATU S hôn nhân ETHNICITY dân tộc nervous lo lắng LOS số ngày nằm viện pregnancy thai kỳ blood máu prenatal trước sinh circulatory tuần hồn respiratory hơ hấp congenital bẩm sinh skin da liễu digestive tiêu hố GENDER giới tính endocrine nội tiết age tuổi ICU phịng chăm sóc đặc biệt NICU phịng chăm sóc đặc biệt cho trẻ sinh genitourinary bệnh sinh dục infectious truyền nhiễm injury chấn thương Bảng 16 Danh sách cột lại Bảng ADMISSIONS sau tiền xử lý 72 L Lược đồ bảng Data dùng để chạy học máy: LOS số ngày nằm viện blood máu neoplasms tân sinh circulatory tuần hoàn nervous lo lắng congenital bẩm sinh pregnancy thai kỳ digestive tiêu hóa prenatal trước sinh endocrine Nội tiết respiratory hơ hấp phận sinh dục skin da truyền nhiễm AGE_middle tuổi trung niên _adult injury thương tật AGE_newbo tuổi sinh rn mental tâm thần AGE_senior tuổi cao niên bệnh khác AGE_young tuổi trẻ _adult genitourinary infectious misc muscular bắp Bảng 17 Lược đồ bảng Data dùng để chạy học máy 73 M So sánh kết số R2 mơ hình học máy tác giả Danniel Cummings Hình 3. K ết so sánh số R2 cho năm mơ hình học máy [15] N Bảng DIAGNOSES_ICD sau thêm cột recode cat Bảng 18. Dữ liệu mẫu Bảng DIAGNOSES_ICD sau thêm cột recode cat Giải thích: dịng đầu có ICD9_CODE 40301, thu gọn thành 403 (bệnh hệ thống tuần hồn), nằm nhóm 390-459 chúng tơi đưa vào nhóm recode với cat=circulatory 74 O Lỗi mã nguồn không chạy với liệu MIMIC-III Mã nguồn tác giả thời điểm luận văn không chạy với MIMIC-III báo lỗi bước tính tuổi bệnh nhân Rất thời điểm tác giả viết mã nguồn, liệu chưa có mẫu liệu bệnh nhân 89 tuổi Các mẫu có ngày sinh 300 năm trước ngày nhập viện (tham khảo https://mimic.physionet.org/mimictables/patients/), gây lỗi tính tốn: OverflowError: Overflow in int64 addition chạy dịng sau: Chúng tơi sửa lỗi dịng cách thay dòng code bằng: (tham khảo thêm https://stackoverflow.com/a/60382132) 75 P Chứng hồn thành khóa học hướng dẫn sử dụng liệu MIMIC-III Hình 9. C hứng hồn thành khóa học hướng dẫn sử dụng liệu MIMIC-III 76 Hình 10. B ảng điểm hồn thành khóa học hướng dẫn sử dụng liệu MIMIC-III 77 Hình 11. Bảng điểm hồn thành khóa học hướng dẫn sử dụng liệu MIMIC-III 78 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Đặng Thế Hoài Nam Ngày, tháng, năm sinh: 18/10/1990 Nơi sinh: TPHCM Địa liên lạc: 880 Lạc Long Qn, phường 8, Quận Tân Bình, TPHCM Q TRÌNH ĐÀO TẠO RMIT - Cử nhân công nghệ thông tin HUTECH - Lincoln University - Thạc sĩ quản trị kinh doanh HCMUT - Thạc sĩ Khoa học máy tính Q TRÌNH CƠNG TÁC / 2013: ORO - Trưởng nhóm phát triển ứng dụng Android / 2014: CODEBOX - Lập trình viên web / 2015: FAME & PARTNERS - Lập trình viên web / 2020: KOIDRA - Lập trình viên 79 ... cho toán dự đoán số ngày nằm viện? ?? tác giả Nguyễn Huỳnh Huy ([16]), “Ứng dụng học máy việc dự đoán thời gian nằm viện? ?? tác giả Nguyễn Thị Ngọc Mai ([26]) ? ?Dự đoán thời gian nằm viện học máy? ?? tác... DỰNG MƠ HÌNH DỰ ĐỐN THỜI GIAN NẰM VIỆN BẰNG HỌC MÁY II NHIỆM VỤ VÀ NỘI DUNG Xây dựng mơ hình dự đốn thời gian nằm viện học máy với với hai liệu MIMIC-III bệnh viện Thống Nhất III NGÀY GIAO NHIỆM... quả, sai sót thời gian nằm viện lâu sau phẫu thuật có liên hệ với tỉ lệ tử vong bệnh nhân Cuối cùng, dự đốn tương đối xác thời gian nằm viện dựa vào công cụ hỗ trợ xây dựng tảng khoa học liệu giúp