DEALING WITH NOISE IN CLINICAL TEXT OF ELECTRONIC MEDICAL RECORDS

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN NAM PHONG LỌC NHIỄU TRONG CÁC VĂN BẢN LÂM SÀNG CỦA BỆNH ÁN ĐIỆN TỬ DEALING WITH NOISE IN CLINICAL TEXT OF ELECTRONIC MEDICAL RECORDS Ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2018 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN NAM PHONG LỌC NHIỄU TRONG CÁC VĂN BẢN LÂM SÀNG CỦA BỆNH ÁN ĐIỆN TỬ DEALING WITH NOISE IN CLINICAL TEXT OF ELECTRONIC MEDICAL RECORDS Ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán TS.Võ VõThị ThịNgọc NgọcChâu Châu Cán bộ hướng hướng dẫn dẫn khoa khoa học học::TS Cán chấm nhận xét 1: TS Lê Thanh Vân Cán chấm nhận xét 2: PGS.TS Hồ Bảo Quốc Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 17 tháng 07 năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Chủ tịch hội đồng: PGS.TS Quản Thành Thơ Thư kí: TS Nguyễn Hồ Mẫn Rạng GV phản biện 1: TS Lê Thanh Vân GV phản biện 2: PGS.TS Hồ Bảo Quốc Ủy viên: TS Nguyễn Đức Dũng Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT chuyên ngành sau luận văn sửa chữa (nếu có) ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc TRƯỜNG ĐẠI HỌC BÁCH KHOA NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Trần Nam Phong MSHV: 7141248 Ngày, tháng, năm sinh: 10/06/1985 Nơi sinh: TP.Hồ Chí Minh Ngành: Khoa Học Máy Tính Mã số: 60.48.01 I TÊN ĐỀ TÀI: Tên tiếng Việt: “Lọc nhiễu văn lâm sàng bệnh án điện tử” Tên tiếng Anh: “Dealing with noise in clinical text of electronic medical records” II NHIỆM VỤ VÀ NỘI DUNG: − Tìm hiểu lý thuyết cơng trình liên quan tốn lọc nhiễu bệnh án điện tử − Tìm hiểu thực mơ hình tiền xử lý (xác định dấu kết thúc câu) văn bản, áp dụng cho văn lâm sàng bệnh án điện tử dựa tập liệu 2010 I2B2 − Phát triển phương pháp kết hợp học máy phương pháp học chủ động cho tốn trích xuất thơng tin bệnh triệu chứng bệnh (problem) , phương pháp kiểm tra (test) , phương pháp điều trị (treatment) văn lâm sàng bệnh án điện tử dựa tập liệu 2010 I2B2 − Xác định tên định danh chuẩn để làm tham chiếu triệu chứng bệnh thông qua hệ sở liệu y khoa UMLS Hoa Kỳ − Thực đề xuất phương pháp đánh giá độ xác tương quan phương pháp học máy áp dụng phương pháp học chủ động vào mơ hình III NGÀY GIAO NHIỆM VỤ: 15/01/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018 V CÁN BỘ HƯỚNG DẪN: TS Võ Thị Ngọc Châu CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) Tp HCM, ngày tháng năm 20 TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) LỜI CÁM ƠN Tôi xin gửi lời cám ơn chân thành đến sâu sắc đến TS Võ Thị Ngọc Châu – khoa Khoa học máy tính – Trường ĐH Bách Khoa Tp.HCM Trong suốt trình thực đề tài, Cơ bỏ nhiều cơng sức thời gian tận tình hướng dẫn tạo điều kiện để tơi hồn thành tốt luận văn Tôi gửi lời cám ơn chân thành đến Thầy Cô khoa Khoa học máy tính Các Thầy Cơ tận tình dạy trang bị kiến thức, tạo điều kiện để tơi hồn thành luận văn Tơi xin gửi lời cám ơn đến gia đình, đồng nghiệp, bạn bè tạo điều kiện giúp đỡ thời gian tinh thần thời gian tơi hồn thành luận văn Trong thời gian thực luận văn, hỗ trợ giúp đỡ Thầy Cơ, gia đình, bạn bè đồng nghiệp Tơi cố gắng hồn thành luận văn với hết khả thân Tuy nhiên không tránh khỏi thiếu sót Kính mong q Thầy Cơ bạn tận tình bảo góp ý để luận văn hồn thiện Tp Hồ Chí Minh, ngày tháng Học viên Trần Nam Phong năm 2018 TÓM TẮT LUẬN VĂN Bệnh án điện tử (Electronic Medical Records - EMRs) phiên kỹ thuật số hồ sơ giấy có chứa tất lịch sử y tế bệnh nhân trình khám lâm sàng Bệnh án điện tử sử dụng cho việc chẩn đốn điều trị bệnh Trong năm gần đây, bệnh án điện tử (BAĐT) trở nên phổ biến quan trọng ngành y tế nghiên cứu y học Điều dẫn đến nhu cầu chia sẻ BAĐT cho tổ chức nghiên cứu liên quan để phục vụ việc nghiên cứu thống kê bệnh Tuy nhiên, BAĐT xây dựng tùy theo vùng miền trình độ chun mơn người lập nên BAĐT có chứa nhiều loại nhiễu bao gồm nhiễu tường minh (ví dụ: dấu câu, từ viết tắt, từ địa phương) nhiễu ẩn (ví dụ: thơng tin liên quan bệnh) làm ảnh hưởng chất lượng BAĐT Vì vậy, trước thực vấn đề chia sẻ BAĐT phục vụ nghiên cứu, cần phương pháp chuẩn hóa xử lí loại nhiễu BAĐT Trong luận văn này, đề tài đề xuất phương pháp thực việc xử lý loại nhiễu bao gồm nhiễu tường minh (thiếu dấu chấm kết thúc câu, dùng từ địa phương) nhiễu ẩn (thông tin liên quan đến bệnh) cho BAĐT với mơ hình kết hợp phương pháp học máy sở phương pháp học chủ động thông qua giao diện chuyên gia Đề tài thực hỗ trợ chuẩn hóa câu (bổ sung dấu chấm kết thúc câu) hỗ trợ giải nghĩa từ y khoa địa phương xuất văn thông qua việc tham chiếu đến thông tin bệnh chuẩn từ UMLS Đề tài thành cơng việc phân lớp trích xuất thành công thông tin y khoa triệu chứng bệnh, phương pháp kiểm tra, phương pháp điều trị từ văn lâm sàng BAĐT bệnh nhân với độ xác tương đối cao (>80%) Với kết hợp phương pháp học máy sở (dùng mơ hình phân lớp CRF) với phương pháp học máy chủ động thông qua việc xây dựng cơng cụ hỗ trợ phân tích gán nhãn cho BAĐT thơng qua giao diện chun gia, từ làm tăng thêm nguồn tri thức cho lần huấn luyện sau để việc dự đốn trích xuất thơng tin bệnh trở nên xác Độ đo F cải thiện khoảng 8% tăng số lượng khoảng 1/3 so với tập BAĐT huấn luyện ban đầu Kết trình xử lý nhiễu tạo tập bệnh án điện tử với tập file xml tương ứng chứa thông tin bệnh hỗ trợ việc tra cứu cập nhật sau Các BAĐT đồng thời chuẩn hóa dấu kết thúc câu so với BAĐT gốc Việc chuẩn hóa xử lý nhiễu cho BAĐT hỗ trợ tích cực cho chuyên gia quan nghiên cứu đầu ngành việc tổng hợp , tra cứu phân tích thơng tin bệnh; hỗ trợ cơng tác dự báo bệnh từ xa ; công tác điều trị lâm sàng bệnh viện ABSTRACT Electric Medical Records (EMRs) are digital versions of paper records They contain all of patient’s medical history during a clinical examination, which contains the patient’s historry of treatment EMRs are used for diagnosis and treatment of diseases In recent years, EMRs have become popular and important in the medical and biomedical research This leads to the need for information sharing among the research institutions for relevant research and statistics organizations However, based on each area and doctors who make EMRs, there are many types of noise including explicit (eg: punctuation of sentence, acronyms) and implicit noise (information related to the disease) So, before sharing EMRs, we need a solution to standardize and deal with these noises in the EMRs In this thesis, we propose a method of dealing with types of noise including explicit noise (Punctuation of sentence, Acronyms) and implicit noise (information related disease) contained in EMRs with a hybrid model combining supervised learning and active learning with a GUI This thesis has supported normalization of sentences (Punctuation of sentence) and supported the appearance of local medical terms in the text by refering to a standard disease information from the UMLS to retrieve CUIs This thesis has succeeded in classifying and extracting medical information such as disease symptoms as problem, test methods, and treatments from a clinical text in EMRs with high rate (> 80%) With a combination of basic machine learning (using the CRF model) and the active learning method, a built-in diagnostic and labeling tool for electronic medical records This will increase the knowledge base for the training sessions later so that prediction and extraction of disease information will be more accurate Measurement of F is improved by about 8% as the initial training set has an increase of about 1/3 in its quantity The result of this work can create a set of original EMRs along with corresponding set of XML files that contain information related to disease in EMRs that will support future researching and analyzing The sentences of these EMRs are also normalized The normalization and dealing with noise in EMRs will actively support experts and research institutions for systhesis, investigating and analysis of disease information The results also support remote disease diagnosis and clinical treatment in hospitals LỜI CAM ĐOAN Tôi xin cam đoan ngồi kết quả, thơng tin tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc, kết trình bày luận văn tơi thực chưa sử dụng để lấy chứng chỉ, cấp khác Tp HCM, ngày tháng năm 2018 Học viên Trần Nam Phong Mục lục NHIỆM VỤ LUẬN VĂN THẠC SĨ I II III TÊN ĐỀ TÀI: NHIỆM VỤ VÀ NỘI DUNG: NGÀY GIAO NHIỆM VỤ: LỜI CÁM ƠN TÓM TẮT LUẬN VĂN ABSTRACT LỜI CAM ĐOAN DANH MỤC BẢNG BIỂU DANH MỤC HÌNH ẢNH DANH MỤC VIẾT TẮT Chương 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu đề tài 1.2 Mục tiêu đề tài 1.3 Ý nghĩa khoa học 1.4 Ý nghĩa thực tiễn 1.5 Giới hạn đề tài 1.6 Đối tượng nghiên cứu đề tài: Chương 2: KIẾN THỨC NỀN TẢNG VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các nghiên cứu liên quan 2.2 Cơ sở lý thuyết 2.3 Phương pháp đánh giá 25 Chương 3: CÁC PHƯƠNG PHÁP XỬ LÝ NHIỄU 28 3.1 Mơ tả tốn 28 3.2 Phương pháp thực đề tài 29 3.3 Kết mơ hình dự đốn 36 3.4 So sánh đề xuất luận văn với cơng trình liên quan 40 Chương 4: ĐÁNH GIÁ BẰNG THỰC NGHIỆM 41 4.1 Môi trường thực nghiệm 41 4.2 Mô tả liệu 41 4.3 Kết thực nghiệm 41 Chương 5: KẾT LUẬN 49 Chương 4: ĐÁNH GIÁ BẰNG THỰC NGHIỆM Môi trường thực nghiệm Đề tài áp dụng phương pháp phân tích cú pháp, ngữ nghĩa câu, kết hợp với việc tham chiếu tiêu chuẩn tên định danh y sinh hệ thống UMLS sử dụng phương pháp phân loại từ văn sử dụng kết hợp phương pháp học máy truyền thống phương pháp học máy chủ động để xây dựng cơng cụ có khả tự động chuẩn hóa thơng tin, gán nhãn, định danh thông tin tiền sử bệnh , triệu chứng lâm sàng, phương pháp điều trị thuốc người bệnh văn bảng lâm sàng BAĐT Do đó, đề tài có ý nghĩa việc hỗ trợ chuẩn hóa liệu bệnh án điện tử 4.1 Đề tài thực nghiệm máy cá nhân, với môi trường thực nghiệm cài đặt sau: − Hệ điều hành: Windows − Cấu hình: Dịng máy Dell Inspirion, nhân Intel(R) Core(TM) i7-4500U CPU 1.8GHz, RAM 16Gb − Ngôn ngữ: Python 3.5 Đề tài thực dựa vào số thư viện sau: − − − − Natural Language Tool Kit: sử dụng để tiền xử lí liệu văn wx: Thư viện xây dựng giao diện người dùng Tensorflow : Thư hiện thực mơ hình LSTM sử dụng Tensorflow Sklearn: thư viện mã nguồn mở Scikit-learn chứa hầu hết thuật toán machine learning đại − Xml.etree.ElementTree: Thư viện dùng để xử lí tập tin định dạng xml Mô tả liệu Đề tài sử dụng tập liệu huấn luyện y khoa dạng text văn lâm sàng BAĐT I2B2 năm 2010 Tập liệu chuẩn bao gồm gần 400 tập tin văn kèm theo tập liệu tập tin trích xuất thơng tin gán nhãn tập tin văn theo tiêu chí (Problem: Triệu chứng bệnh , Test: phương pháp kiểm tra, Treatment:phương pháp điều trị) 4.2 4.3 Kết thực nghiệm i Học giám sát sở 41 Bảng tóm tắt thể giá trị độ đo precision (P) , recall(R) độ đo F-measure (F) kết tập dự đốn mơ hình phân lớp khác so với tập liệu Ground Truth (hay tạm gọi tập gold) sử dụng đề tài này: Bảng 4: Kết trích xuất thơng tin bệnh mơ hình phân lớp Tập gold Tổng số thành phần thơng tin bệnh tìm 12086.0 Tập kết mơ hình CRF 10945.0 Tập kết mơ hình SVM 10631.0 Tập kết mơ hình LSTM 10683.0 Dựa vào kết bảng , ta nhận thấy mơ hình CRF cho kết trích xuất thơng tin tốt với 10945 thơng tin bệnh tìm thấy từ 100 BAĐT ngẫu nhiên đưa vào mơ hình Tuy nhiên ta phải xem xét thêm chi tiết thơng tin trích xuất phân lớp để kiểm tra độ xác phân lớp toán phân loại từ văn 42 Bảng 5: Kết so sánh độ đo việc trích xuất thành phần tổng hợp xác so với tập gold mơ hình giải thuật CRF (I) Model SVM(II) LSTM (III) TP FN FP R P F TP FN FP R P F TP FN FP R P F Concept Exact Span 9316 1629 2770 0.851 0.771 0.809 8940 1691 3146 0.840 0.739 0.787 9004 1679 3082 0.843 0.745 0.791 Class Exact Span 8910 2035 3176 0.814 0.737 0.773 8546 2085 3540 0.803 0.707 0.752 8607 2076 3479 0.806 0.712 0.756 Class Bảng 6: Kết so sánh độ đo việc trích xuất thành phần chi tiết xác so với tập gold mơ hình giải thuật CRF (I) Model SVM(II) LSTM (III) TP FN FP R P F TP FN FP R P F TP FN FP R P F Exact Span for Problem 3855 832 1148 0.822 0.771 0.796 3700 889 1268 0.806 0.745 0.774 3749 841 1217 0.817 0.755 0.785 Exact Span for Treatment 2623 390 865 0.871 0.752 0.807 2488 403 963 0.861 0.721 0.785 2545 425 964 0.857 0.725 0.786 Exact Span for Test 2838 407 757 0.875 0.789 0.830 2752 399 915 0.873 0.750 0.807 2710 413 901 0.868 0.750 0.805 Exact Span With Matching Class for Problem 3643 1044 1234 0.777 0.747 0.762 3506 1083 1371 0.764 0.719 0.741 3559 1031 1318 0.775 0.730 0.752 Exact Span With Matching Class for Treatment 2508 505 1029 0.832 0.709 0.766 2385 506 1152 0.825 0.674 0.742 2417 553 1120 0.814 0.683 0.743 Exact Span With Matching Class for Test 2759 486 913 0.850 0.751 0.798 2655 496 1017 0.843 0.723 0.778 2631 492 1041 0.842 0.717 0.774 Case Ghi chú: − Concept exact span: Số lượng mẫu tìm − Class exact span: Số lượng lớp thơng tin bệnh tìm − Exact span for Problem/Treatment/Test : Số lượng từ xác tìm lớp thơng tin triệu chứng bệnh/điều trị/kiểm tra − Exact span with matching class for Problem/Treatment/Test: Số lượng từ tìm xác trùng khớp hồn tồn so với tập Ground Truth lớp thơng tin triệu chứng bệnh/điều trị/kiểm tra 43 44 Dựa vào kết so sánh mơ hình phân lớp ta nhận thấy : - Mơ hình phân lớp CRF cho kết trích xuất thơng tin tốt tìm 9316 thơng tin bệnh gần 8910 thơng tin bệnh xác Tỷ lệ phần trăm độ xác 77% độ phủ tập 85% Tốt so với tỷ lệ phần trăm phân lớp lại SVM ( 73% - 84%) LSTM ( 74 % - 84 %) Do ta lựa chọn mô hình phân lớp CRF để kết hợp với phương pháp học chủ động kết mong muốn tốt cho đề tài ii Học giám sát kết hợp với học chủ động với phản hồi chuyên gia Tuy nhiên , để cải tiến kết phân lớp CRF Ta áp dụng thêm mơ hình học máy chủ động (active learning) kết hợp với mơ hình học lặp phát triển Vì CRF cho kết trích xuất phân lớp thơng tin bệnh tốt phân tích nên ta chọn kết hợp mơ hình CRF với mơ hình học chủ động để tối ưu hóa khả tìm kiếm phân lớp thơng tin bệnh hệ thống Trong trường hợp sử dụng phản hồi chuyên gia, hệ thống kết hợp thuật toán học giám sát với học chủ động Phương pháp học giám sát huấn luyện dựa học sở trình bày phần Mơ hình học giám sát kết hợp với học chủ động trình bày hình 17 bước học chủ động bước dấu (*) Trong bước khởi tạo tập huấn luyện, hệ thống nhận vào tập 150 BAĐT dạng tập tin văn tập file gán nhãn tương ứng Dữ liệu dùng để tạo tập huấn luyện ban đầu để huấn luyện cho phân lớp (ở CRF) Sau ta chọn 100 tập BAĐT khác để làm input đầu vào cho hệ thống dự đoán phân lớp Kết đầu 100 file dự đoán gán nhãn kèm 100 file xml chứa thông tin bệnh từ mô hình phân lớp hệ thống Để tiến hành kiểm tra độ xác ta lấy ngẫu nhiên từ kết dự đoán ban đầu số lượng file với : V0 =0, V1=10, V2=20, V3=30, V4=40 để kiểm chứng gán nhãn đưa vào tập huấn luyện ban đầu Kiểm tra kết độ đo lần huấn luyện dự đoán với số lượng file tập huấn luyện T trường hợp T=150, T=160, T=170, T=180, T=190 Từ kết ta thấy: − Sau lần chuyên gia kiểm chứng kết đưa thêm kết gán nhãn vào huấn luyện lại tập training , độ xác kết dự đốn mơ hình tăng lên Từ tập huấn luyện T ban đầu với 150 file có số lượng thơng tin bệnh dự đoán 10945 mẫu tăng lên khoảng 11194 mẫu trường hợp T = 160 file (số lượng mẫu file gán nhãn thêm vào tập training 10 file) Ta có kết sau : T=150 (10945 mẫu) < T=160 (11194 mẫu) < T=170 (11258 mẫu) < T=180 (11297 mẫu) < T=190 (11392 mẫu) 45 − Giá trị đo R,P,F tăng lên tương ứng: Bảng 7: Kết so sánh độ đo việc trích xuất thành phần tổng hợp xác so với tập gold lần học chủ động Case Concept Exact Span Class Exact Span Training set TP 9316 8910 FN 1629 2035 FP 2770 3176 R 0.851 0.814 P 0.771 0.737 F 0.809 0.774 TP 9677 9324 FN 1517 1870 150 FP 2409 2762 R 0.864 0.833 P 0.800 0.771 F 0.831 0.801 TP 9935 9640 FN 1323 1618 FP 2151 2446 R 0.883 0.856 P 0.822 0.798 F 0.851 0.826 TP 10157 9869 FN 1140 1428 FP 1929 2217 R 0.899 0.874 P 0.840 0.817 F 0.869 0.844 TP 10400 10172 FN 992 1220 FP 1686 1914 R 0.913 0.893 P 0.861 0.842 F 0.886 0.867 160 170 180 190 46 Bảng 8: Kết so sánh độ đo việc trích xuất thành phần chi tiết xác so với tập gold lần học chủ động Case Training set TP Exact Span for Problem Exact Span for Treatment Exact Span for Test Exact Span With Matching Class for Problem 3855 2623 2838 3643 FN 832 390 407 FP 1148 865 757 R 0.823 0.871 P 0.771 F Exact Span With Matching Class for Treatment Exact Span With Matching Class for Test 2508 2579 1044 505 486 1234 1029 913 0.875 0.777 0.832 0.850 0.752 0.789 0.747 0.709 0.751 0.796 0.807 0.829 0.762 0.766 0.798 TP 4021 2756 2900 3830 2668 2826 FN 789 349 379 980 437 453 FP 973 726 710 1047 869 846 R 0.836 0.888 0.884 0.796 0.859 0.862 P 0.805 0.791 0.803 0.785 0.754 0.769 F 0.820 0.837 0.842 0.791 0.803 0.813 TP 4131 2781 3023 3982 2700 2958 FN 652 321 350 801 402 415 FP 822 706 623 895 837 714 R 0.863 0.897 0.896 0.833 0.870 0.877 P 0.834 0.798 0.829 0.817 0.763 0.806 150 160 170 F 0.849 0.844 0.861 0.824 0.813 0.839 TP 4173 2883 3101 4029 2810 3030 FN 586 273 281 730 346 352 FP 786 598 545 848 727 642 R 0.877 0.914 0.917 0.847 0.890 0.896 P 0.842 0.829 0.850 0.826 0.795 0.825 F 0.859 0.869 0.882 0.836 0.839 0.859 TP 4278 2954 3168 4172 2888 3112 FN 486 254 252 592 320 308 FP 653 543 490 705 649 560 R 0.898 0.921 0.926 0.876 0.900 0.909 P 0.868 0.845 0.866 0.855 0.817 0.848 F 0.883 0.881 0.895 0.866 0.856 0.878 180 190 47 − Mơ hình học giám sát CRF kết hợp với việc học chủ động thông qua giao diện giúp chuyên gia kiểm chứng chỉnh sửa kết dự đoán sau lần học để tạo thêm tri thức đưa vào hệ thống cho lần huấn luyện tỏ hiệu việc tăng khả trích xuất thơng tin bệnh hệ thống tăng tỷ lệ xác qua lần học 48 Chương 5: KẾT LUẬN 5.1 Kết luận 5.1.1 Các nội dung thực Đề tài thực với nội dung sau: − Tìm hiểu lý thuyết cơng trình liên quan toán xử lý nhiễu BAĐT − Xử lý phục hồi dấu chấm kết thúc câu BAĐT , làm rõ nghĩa từ y khoa địa phương triệu chứng bệnh cách truy vấn ánh xạ với CUI tên định danh chuẩn hệ CSDL trực tuyến UMLS Hoa Kỳ − Áp dụng phương pháp học máy cụ thể : mơ hình trường ngẫu nhiên có điều kiện CRF , mơ hình máy hỗ trợ vectơ (SVM) , mơ hình nhớ ngắn hạn dài (LSTM) để phân lớp triệu chứng bệnh ( problem) , phương pháp kiểm tra (test) , phương pháp điều trị (treatment) − Kết hợp phương pháp học chủ động (Active learning) vào hệ thống giao diện người dùng giúp chuyên gia xem kiểm chứng kết dự đoán nhằm làm tăng thêm khả trích xuất thơng tin bệnh hệ thống − Thực đánh giá kết trích xuất thơng tin dựa tập liệu BAĐT chuẩn năm 2010 I2B2 5.1.2 Mức độ đạt đề tài Đề tài áp dụng phương pháp phân tích cú pháp, ngữ nghĩa câu, kết hợp với việc tham chiếu tiêu chuẩn tên định danh hệ thống UMLS sử dụng phương pháp phân loại từ văn sử dụng kết hợp phương pháp học máy truyền thống phương pháp học máy chủ động để xây dựng cơng cụ có khả tự động chuẩn hóa thơng tin, gán nhãn, định danh thơng tin tiền sử bệnh , triệu chứng lâm sàng, phương pháp điều trị thuốc người bệnh văn bảng lâm sàng BAĐT Do đó, đề tài có ý nghĩa việc hỗ trợ chuẩn hóa liệu bệnh án điện tử Các kiểm chứng thực nghiệm dựa tập hợp mẫu độc lập với mẫu dùng để xây dựng máy học cho thấy hiệu học máy chủ động toán phân loại từ văn ổn định Kết kiểm chứng thực nghiệm cho thấy Độ đo F cải thiện khoảng 8% (Từ 0.798 lên 0.879) tăng số lượng khoảng 1/3 (Từ 150 lên 190) so với tập BAĐT huấn luyện ban đầu cách sử dụng phương pháp học giám sát kết hợp phương pháp học chủ động cho đề tài Tuy đề tài áp dụng cho ngôn ngữ tiếng Anh Nhưng kết đề tài đạt sở để mở rộng để áp dụng vào việc xây dựng cơng cụ hỗ trợ chuẩn hóa ngơn ngữ tiếng Việt văn lâm sàng bệnh án điện tử nhằm hỗ trợ cho hệ thống khám chữa bệnh Việt Nam Đó hướng mở rộng cho đề tài sau 49 5.2 Hướng phát triển Một số hướng cải tiến cho đề tài: − Đề tài hướng đến việc mở rộng trích xuất thơng tin y khoa BAĐT tiếng Việt hỗ trợ cho việc nghiên cứu, thống kê và khai thác liệu sau Tuy nhiên cần chuẩn bị CSDL y khoa tiếng Việt chuẩn để làm sở tham chiếu cho đề tài − Đề tài mở rộng việc dự đốn thêm nhiều yếu tố y khoa khác (ví dụ: loại bệnh, diễn biến bệnh thuốc điều trị, ) để làm phong phú thêm kết dự đốn từ mơ hình phân lớp − Có thể kết hợp đưa vào số tiền xử lý văn khác trước trích lọc thông tin y khoa xử lý phục hồi từ viết tắt, xử lý phục hồi dấu câu khác (ví dụ: dấu phẩy, ) trước đưa vào mơ hình phân lớp để làm tăng thêm độ xác kết dự đốn mơ hình phân lớp − Xây dựng hệ thống tri thức chuyên gia để hỗ trợ tham mưu tự động cho việc học chủ động hệ thống để làm giảm thời gian xử lý hệ thống 50 TÀI LIỆU THAM KHẢO [1] Chen, Stanley F & Joshua Goodman An empirical study of smoothing techniques for language modeling Computer Speech and Language 13 359–394 – 1999 [2] Pradeep Chowriappa, Sumeet Dua, Yavor Todorov, “Introduction to Machine Learning in Healthcare Informatics” Volume 56 of the series Intelligent Systems Reference Library pp 1-23 – 2013 [3] Hoang Nguyen, Jon Patrick “Text Mining in Clinical Domain: Dealing with Noise” Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Pages 549-558 – 2016 [4] L Cheng, J Zheng, G Savova, and B Erickson “Discerning tumor status from unstructured mri reports-completeness of information in existing reports and utility of automated natural language processing Journal of Digital Imaging” – 2010 [5] Mi-Young Kim, Ying Xu, Osmar R Zaiane, and Randy Goebel “Recognition of patient-related named entities in noisy tele-health texts” ACM Trans Intell Syst Technol 6, 4, Article 59 – 2015 [6] Ronald J Brachman and Thomas G Dietterich Active Learning (Synthesis Lectures on Artificial Intelligence Machine Learning) Morgan & Claypool Publishers, 2012 [7] C E Shannon, (1948) ‘A mathematical theory of communication’ Bell System Technical Journal, 27:379-423,623-656 [8] V.Vapnik The Nature of Statistical Learning Theory Springer, NewYork – 1995 [9] O Uzuner, X Zhang, and T Sibanda “Machine learning and rule-based approaches to assertion classification Journal of the American Medical Informatics Association” – 2009 [10] Kiss, T and Strunk, J (2006).”Unsupervised multilingual sentence boundary detection” Computational Linguistics - 2006 [11] Palmer, D D and Hearst, M A Adaptive multilingual sentence boundary disambiguation Computational Linguistics, 23(2):242 – 267 – 1997 [12] C Friedman, P Alderson, J Austin, J Cimino, and S Johnson A general natural-language text processor for clinical radiology Journal of the American Medical Informatics Association, 1(2):161–174, 1994 [13] P Haug, S Koehler, L Lau, P Wang, R Rocha, and S Huff Experience with a mixed semantic/syntactic parser page 284, 1995 51 [14] W Chapman, W Bridewell, P Hanbury, G Cooper, and B Buchanan A simple algorithm for identifying negated findings and diseases in discharge summaries Journal of Biomedical Informatics, 34(5):301–310, 2001 [15] B Thomas, H Ouellette, E Halpern, and D Rosenthal Automated computer-assisted categorization of radiology reports American Journal of Roentgenology, 184(2):687–690, 2005 [16] TF-IDF, https://en.wikipedia.org/wiki/Tf%E2%80%93idf ,16.06.2018 [17] SVM, https://vi.wikipedia.org/wiki/Máy_vectơ_hỗ_trợ ,16.06.2018 [18] EMR, https://en.wikipedia.org/wiki/Electronic_health_record ,16.06.2018 [19] I2B2, https://www.i2b2.org/about/index.html ,16.06.2018 [20]UMLS, https://www.nlm.nih.gov/research/umls/meta2.html#s2_0 ,16.06.2018 [21] Daelemans W., Zavrel J., Berck P and Gillis S.,“MBT: A Memory-Based Part of Speech , 1996 [22] Brill, E., “Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, MIT Press Cambridge, MA, USA,1995 [23] H Schmid Part-of-Speech Tagging with neural networks Proceedings of the International Conference on Computational Linguistics – COLING, 1994 [24] F.Sha and F.Pereira.Shallow parsing with conditional random fields In Proc Human Language Technology/ the Association for Computational Linguistics North American Chapter, 2003 [25] RNN, https://dominhhai.github.io/vi/2017/10/what-is-rnn/, 16/06/18 [26] LSTM, https://dominhhai.github.io/vi/2017/10/what-is-lstm/ , 16/06/18 [27] POS Tagger, https://en.wikipedia.org/wiki/Part-of-speech_tagging , 16/06/18 [28] A.Ratnaparkhi “A maximum entropy model for part-of-speech tagging” In Proc Emparical Methods for Natural Language Processing, 1996 [29] Lafferty, J., McCallum, A., Pereira, F “Conditional random fields: Probabilistic models for segmenting and labeling sequence data” Proc 18th International Conf on Machine Learning Morgan Kaufmann pp 282–289, 2001 [30] Dan Cong Conditional Random Fields and Its Applications Feb 1, 2006 [31] David M W Powers “Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation”.Technical Report SIE-07001,2007 52 PHỤ LỤC – CÔNG CỤ HỖ TRỢ CHÚ GIẢI BAĐT (ACTIVE CLINICAL TEXT TOOL) (ACT TOOL) Giới Thiệu Đây công cụ xây dựng từ đề tài nhằm hỗ trợ chuyên gia việc kiểm chứng phản hồi số lượng ngẫu nhiên tập tin kết gán nhãn Các tập tin sau gán nhãn lại chuyên gia cập nhật vào tập huấn luyện ban đầu để thực việc huấn luyện lại nhằm làm tăng độ xác cho q trình dự đốn sau Cơng cụ hỗ trợ xem thông tin chi tiết tập tin dạng xml chứa thông tin lớp triệu chứng bệnh , phương pháp kiểm tra, phương pháp điều trị Hình 24: Giao diện ACT Tool Công cụ hỗ trợ việc thêm , xóa , sửa node , properties node Sau lưu lại file để tự động cập nhật file vào tập huấn luyện ban đầu 53 Công cụ hỗ trợ số thuật toán phân lớp văn lâm sàng đề xuất (ví dụ: CRF, SVM, LSTM, ) cho phép huấn luyện , dự đốn đánh giá độ xác thuật tốn so với tập Ground Truth Cơng cụ hỗ trợ xem kết tập tin gán nhãn dạng web Các thông tin triệu chứng bệnh , phương pháp kiểm tra, phương pháp điều trị tô màu thị Hình 25: Giao diện web thể kết BAĐT gán nhãn đánh thị màu 54 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Trần Nam Phong Ngày tháng năm sinh: 10/06/1985 Nơi sinh: Ninh Bình Địa liên lạc: 54/17 đường Bạch Đằng, P.2, Quận Tân Bình, TP Hồ Chí Minh Địa Email: namphongit@yahoo.com Q TRÌNH ĐÀO TẠO THỜI GIAN 2004 - 2008 TRƯỜNG ĐÀO TẠO Trường Đại Học Khoa Học Tự Nhiên – ĐHQG Tp HCM CHUN NGÀNH TRÌNH ĐỘ Cơng nghệ phần mềm Cử nhân 2014 - 2018 Trường Đại Học Bách Khoa – ĐHQG Tp.HCM Khoa Học Máy Tính Thạc sĩ QÚA TRÌNH CƠNG TÁC THỜI GIAN 2009 - 2013 ĐƠN VỊ CÔNG TÁC Cơng ty phần mềm Fsoft VỊ TRÍ CƠNG TÁC Chun viên 2014 - 2018 NH Sacombank Chuyên viên 55 ... and deal with these noises in the EMRs In this thesis, we propose a method of dealing with types of noise including explicit noise (Punctuation of sentence, Acronyms) and implicit noise (information... a clinical text in EMRs with high rate (> 80%) With a combination of basic machine learning (using the CRF model) and the active learning method, a built -in diagnostic and labeling tool for electronic. .. as the initial training set has an increase of about 1/3 in its quantity The result of this work can create a set of original EMRs along with corresponding set of XML files that contain information

Định dạng
Số trang	69
Dung lượng	1,95 MB