ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HUỲNH HỮU NGHĨA MƠ HÌNH KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ TRONG VĂN BẢN LÂM SÀNG Chuyên ngành : HỆ THỐNG THÔNG TIN Mã số : 62.48.05.01 TĨM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Tp Hồ Chí Minh – Năm 2017 Cơng trình hồn thành tại: ĐẠI HỌC QUỐC GIA TP-HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Người hướng dẫn khoa học: PGS TS HỒ BẢO QUỐC TS NGUYỄN AN TẾ Phản biện : PGS.TS Lê Anh Cường Phản biện : TS Võ Thị Ngọc Châu Phản biện : TS Nguyễn Tuấn Đăng Phản biện độc lập : TS Võ Thị Ngọc Châu Phản biện độc lập : TS Nguyễn Tuấn Đăng Luận án bảo vệ trước Hội đồng chấm luận án họp ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN vào lúc ngày tháng năm Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Tp.HCM - Thư viện Trường Đại học Khoa học Tự Nhiên MỞ ĐẦU Dẫn nhập Trong lĩnh vực y tế, khái niệm thường đề cập đến đối tượng như: bệnh, rối loạn, thuốc (tên thuốc, liều lượng, phương thức quản lý, tần xuất quản lý …), điều trị (thủ tục, biện pháp điều trị, thuốc điều trị …), vấn đề y tế, xét nghiệm, protein, di truyền (gien)… mối quan hệ cho biết mối liên quan khái niệm như: điều trị giải vấn đề y tế, điều trị làm xấu vấn đề y tế, xét nghiệm phát vấn đề y tế… việc nhận diện khái niệm tiền đề để xác định mối quan hệ chúng, khái niệm mối quan hệ có ý nghĩa quan trọng người dùng như: bác sĩ, nhà nghiên cứu, sinh viên y khoa, nhân viên y tế, bệnh nhân thân nhân… Một số trường hợp cụ thể cho thấy ý nghĩa khái niệm mối quan hệ người dùng sau: bác sĩ muốn biết mối quan hệ khái niệm điều trị vấn đề y tế để giúp họ đưa định điều trị hiệu hạn chế sai sót, nhà nghiên cứu muốn tìm hiểu mối quan hệ khái niệm di truyền (gien) bệnh nhằm giải thích bệnh liên quan đến yếu tố di truyền, nhiều trường hợp khác Những khái niệm mối quan hệ nằm ẩn tài liệu y tế như: tóm tắt xuất viện, kết xét nghiệm, cơng trình nghiên cứu khoa học… Những tài liệu tạo liên tục, người dùng đọc khối lượng lớn tài liệu để cập nhật thơng tin hữu ích (khái niệm mối quan hệ) hàng ngày Vì vậy, mà họ cần hệ thống máy tính rút trích thơng tin hữu ích từ nguồn tài liệu y tế để cung cấp cho họ Thời gian qua, số công trình nghiên cứu đề xuất số giải pháp cơng cụ hỗ trợ việc rút trích thơng tin hữu ích từ tài liệu y tế để đáp ứng nhu cầu thông tin người dùng như: phân loại hồ sơ y tế bệnh nhân [55], rút trích thơng tin liên quan đến bệnh [56] rút trích thơng tin liên quan đến thuốc [63] Tuy nhiên, kết chưa đạt mong muốn, chứng số diễn đàn nghiên cứu quốc tế tiếp tục mời gọi cộng đồng nghiên cứu đề xuất giải pháp nhằm khai thác thông tin từ tài liệu y tế thơng qua hình thức như: “Bài toán chia sẻ” (Shared tasks) “Các thách thức” (Chellenges), cụ thể số diễn đàn như: I2B2, BioNLP, CLEF eHealth SemEval Sở dĩ kết hạn chế việc khai thác thơng tin y tế có nhiều thách thức, số thách thức kể đến sau: liệu văn khơng có cấu trúc bán cấu trúc, tính đồng nghĩa từ cụm từ, cụm từ thường không ngữ pháp, nhiều ký tự/chữ viết tắt, lỗi tả, đa dạng mặt từ vựng, hình thức thể khái niệm, chuẩn hố khái niệm mối quan hệ phức tạp Với mong muốn tham gia đóng góp với cộng động nghiên cứu, chúng tơi định hướng nghiên cứu mơ hình khai thác thông tin y tế dựa khái niệm (xem hình 1) Trong mơ hình khai thác thơng tin y tế bao gồm nhiều tốn bên nó, chẳng hạn như: nhận diện khái niệm, rút trích mối quan hệ khái niệm, quản lý tri thức chương trình ứng dụng khác, nhận diện khái niệm rút trích Hình Mơ hình khai thác thông tin y tế mối quan hệ hai tốn cốt lõi mơ hình khai thác thơng tin y tế, thành phần rút trích thơng tin hữu ích từ tài liệu, nguồn cung cấp thông tin để xây dựng sở tri thức từ phát triển chương trình ứng dụng (hệ thống hỗ trợ định) Những nghiên cứu liên quan đến hai toán chưa đạt kết mong muốn, mục tiêu luận án tập trung nghiên cứu đề xuất số giải pháp liên quan đến hai tốn nhận diện khái niệm rút trích mối quan hệ khái niệm trước, sau chúng tơi mở rộng nghiên cứu cho tốn lại để hồn thiện mơ hình khai thác thơng tin y tế Mục tiêu đề tài Trong phạm vi luận án, từ mục tiêu định hướng nêu trên, xác định mục tiêu mà luận án nghiên cứu giải gồm: (1) Nghiên cứu phương pháp rút trích khái niệm đề xuất hướng tiếp cận rút trích khái niệm nhằm giải thách thức liên quan đến thể khái niệm tài liệu, khái niệm gồm token liên tục, không liên tục, lồng thách thức chuẩn hoá khái niệm (2) Nghiên cứu phương pháp rút trích mối quan hệ đề xuất hướng tiếp cận rút trích mối quan hệ tốn cụ thể rút trích giá trị cho thuộc tính khái niệm (còn gọi tốn điền mẫu) (3) Nghiên cứu đề xuất mơ hình (khung kiến trúc) khai thác khái niệm mối quan hệ văn lâm sàng định hướng phát triển khung kiến trúc chung khai thác thông tin văn lĩnh vực y tế Những đóng góp luận án Đối với tốn rút trích khái niệm, luận án đề xuất nhãn BIEO (Begin, Inside, End Outside) dùng để phân lớp cho token tập đặc trưng phân lớp nhằm rút trích khái niệm chuẩn hoá khái niệm dựa phương pháp máy học từ điển Kết công bố cơng trình ([CT5], [CT10]) Trong tốn rút trích mối quan hệ, đóng góp luận án đề xuất gồm: tập luật xác định mối quan hệ khái niệm dựa phân tích cú pháp phụ thuộc; tập đặc trưng phân lớp mối quan hệ thời gian khái niệm thời điểm viết tài liệu; hướng tiếp cận kết hợp phương pháp dựa luật, từ điển máy học để xác định giá trị cho thuộc tính khái niệm y tế số cải tiến hiệu cho hệ thống cơng bố cơng trình ([CT2], [CT3], [CT4], [CT7], [CT8], [CT9]) Bên cạnh đó, luận án đưa hướng tiếp cận lai ghép máy học luật để rút trích kiện y sinh, phương pháp máy học áp dụng để phân lớp kiện dựa luật để xác định tham số liên quan đến kiện, tập luật hệ thống học tự động từ tập liệu huấn luyện Kết thể cơng trình ([CT1]) Đóng góp cuối luận án sử dụng kết để xây dựng mẫu ban đầu (prototype) cho hệ thống khai thác thông tin y tế dựa khái niệm Kết trình bày cơng trình ([CT6]) Chương GIỚI THIỆU 1.1 Dữ liệu y tế Luận án trình bày loại liệu sử dụng cho trình nghiên cứu liên quan đến tài liệu lâm sàng tài liệu báo nghiên cứu khoa học lĩnh vực y tế (xem phần phụ lục A) 1.2 Khai thác văn tổng qt Luận án tìm hiểu tốn rút trích thực thể mối quan hệ văn tổng quát phương pháp đánh giá hiệu hệ thống rút trích thực thể mối quan hệ 1.3 Khai thác văn y tế Luận án khảo sát trạng khai thác văn y tế gồm xử lý ngôn ngữ tự nhiên lĩnh vực y tế, thách thức toán rút trích khái niệm mối quan hệ khái niệm phương pháp rút trích, nguồn tài nguyên hỗ trợ khai thác văn y tế Từ làm sở cho luận án nghiên cứu giải ba mục tiêu nghiên cứu đề Chương RÚT TRÍCH KHÁI NIỆM Y TẾ 2.1 Giới thiệu Bài tốn rút trích khái niệm có nhiều thách thức, nhiên luận án tập trung nghiên cứu giải thách thức thể khái niệm văn lâm sàng (các khái niệm thể gồm token liên tục, không liên tục, lồng nhau) Thể khái niệm văn đa dạng, khái niệm thể gồm token liên tục, không liên tục lồng Cụ thể, xét câu văn “The rhythm appears to be atrial fibrillation.” (Nhịp tim chứng tỏ rung tâm nhĩ.), có khái niệm gồm token liên tục “atrial fibrillation”; xét câu văn “The left atrium is moderately dilated.” (Tâm nhĩ trái bị giãn.), có khái niệm xuất văn “left atrium … dilated” (giãn tâm nhĩ trái) gồm cụm token không liên tục; xét câu văn “Abdomen: Soft, nontender, nondistended, normal active bowel sounds.”, có hai khái niệm lồng cần rút trích “Abdomen … nontender” (bụng cứng) “Abdomen … nondistended” (bụng không bị sưng to) hai khái niệm có chung token “Abdomen” Như vậy, việc rút trích xác khái niệm xuất văn ngôn ngữ tự nhiên khơng có cấu trúc thách thức phương pháp tiếp cận 2.2 Những đề xuất liên quan Trong chương khảo sát trạng cho thấy việc rút trích thực thể dựa phương pháp như: từ điển, luật, máy học lai ghép, xu hướng dùng phương pháp máy học thuật toán máy học sử dụng phổ biến thuật toán gán nhãn chuỗi CRFs với nhãn BIO, luận án áp dụng phương pháp máy học sử dụng thuật toán CRFs để rút trích khái niệm y tế Tuy nhiên, áp dụng phát sinh số vấn đề như: nhãn BIO không phù hợp với thể thực tế khái niệm tập đặc trưng phân lớp khác nhau, chúng tơi nghiên cứu đề xuất nhãn, tập đặc trưng thiết kế hệ thống phù hợp với toán trình bày phần 2.2.1 Bộ nhãn phân lớp Token Các khái niệm cần rút trích có nhiều thể khác tài liệu y tế, khái niệm gồm nhiều token liên tục, không liên tục lồng nhau, nhãn BIO phù hợp cho khái niệm gồm token liên tục trường hợp khác khơng phù hợp, đề xuất nhãn BIEO sử dụng sau: nhãn B (Begin) gán cho token bắt đầu khái niệm, nhãn I (Inside) gán cho token bên khái niệm, nhãn E (End) gán cho token cuối khái niệm nhãn O (Outside) gán cho token không thuộc khái niệm Với nhãn mà luận án đề xuất dùng để gán nhãn token phủ hết dạng thể khái niệm tài liệu 2.2.2 Tập đặc trưng phân lớp Token Trong phương pháp máy học, tập đặc trưng có vai trò quan trọng ảnh hưởng đến hiệu phương pháp, đặc trưng đặc điểm để nhận diện phân lớp, tốn chúng tơi nghiên cứu đặc điểm liệu y tế đề xuất tập đặc trưng phù hợp dùng để phân lớp nhãn token cho tốn rút trích khái niệm sau: Đặc trưng ngữ cảnh: token xét hai token liền trước liền sau token xét Các token xung quanh token xét đóng vai trò thơng tin ngữ cảnh Đặc trưng mặt chữ (Orthographic): token xét chữ thường, in hoa, hoa ký tự đầu chữ có số Đặc trưng từ loại (Part of Speech): từ loại token xét, từ loại bao gồm danh từ, động từ, tính từ, giới từ, trạng từ, cụm danh từ, cụm động từ cụm giới từ Đặc trưng thứ tự nhãn (label sequences): thứ tự nhãn gán cho token Ý nghĩa đặc trưng giá trị nhãn phân lớp token thứ i phụ thuộc vào giá trị nhãn phân lớp token thứ i – 2.2.3 Hệ thống rút trích chuẩn hố khái niệm Tiếp theo, luận án kết hợp đề xuất nêu để thiết kế hệ thống rút trích chuẩn hố khái niệm (xem hình 2.1), hệ thống thiết kế gồm hai bước: (1) xây dựng mô hình tập từ vựng từ liệu huấn luyện (2) áp dụng kết (1) để rút trích chuẩn hố khái niệm 2.3 Áp dụng đề xuất Luận án sử dụng hệ thống tham gia giải tốn “Rút trích chuẩn hố khái niệm liên quan đến bệnh/rối loạn xuất tài liệu lâm sàng” tổ chức diễn đàn nghiên cứu SemEval 2015 Bộ liệu sử dụng thực nghiệm SemEval cung cấp thông qua kho ngữ liệu ShARe, gồm 431 tài liệu sử dụng liệu huấn luyện 100 Hình 2.1 Hệ thống rút trích chuẩn hố khái niệm tài liệu dùng để đánh giá hiệu hệ thống, việc đánh giá công bố kết SemEval thực 2.4 Đánh giá hiệu đề xuất Dựa kết hệ thống tham gia SemEval cơng bố chúng tơi có số bàn luận sau: nhìn chung hướng tiếp cận luận án (HCMUS) tương đồng với hướng tiếp cận nhóm tham gia, nhiên đối chiếu chi tiết hệ thống có khác biệt, khác biệt nhãn sử dụng cụ thể: nhóm LIST-LUX dùng nhãn BIESTO, nhóm HCMUS dùng nhãn BIEO nhóm HITACHI dùng nhãn BIO; khác biệt tập đặc trưng phân lớp: hai nhóm LIST-LUX HCMUS dùng thuật tốn CRFs, tập đặc trưng gần giống hệ thống chạy lần để rút trích khái niệm hiệu HCMUS cao LIST-LUX dựa độ đo F-score (xem bảng 2.5), số đặc trưng nhóm ezDl sử dụng nhiều hệ thống phức tạp lần đầu họ dùng thuật tốn CRFs để rút trích khái niệm thể token liên tục lần hai họ dùng thuật toán SVM để phân lớp mối quan hệ khái niệm nhằm xác định khái niệm thể token không liên tục lồng hệ thống họ có kết cao tất nhóm tham gia độ đo F-score (xem bảng 2.5) Như vậy, thấy đề xuất luận án mang lại hiệu định, nhiên cần có nghiên cứu cải tiến lai Chương RÚT TRÍCH MỐI QUAN HỆ GIỮA CÁC KHÁI NIỆM 3.1 Giới thiệu Mối quan hệ y tế rộng, có nhiều loại khác khơng thể rút trích hết tất mối quan hệ, mà tập trung rút trích số mối quan hệ xác định chuyên gia Ngay việc rút trích số mối quan hệ cụ thể khơng dễ dàng mối quan hệ thể nhiều câu khác Vì vậy, luận án chúng tơi tập trung nghiên cứu xử lý rút trích mối quan hệ câu Để có khung nhìn tổng qt tốn rút trích mối quan hệ, phần chúng tơi trình bày số tốn liên quan đến rút trích mối quan hệ lĩnh vực y tế 3.2 Các toán rút trích mối quan hệ lĩnh vực y tế Thời gian qua, cộng đồng tham gia nghiên cứu giải số tốn liên quan đến rút trích mối quan hệ lĩnh vực y tế gồm phân lớp mối quan hệ khái niệm, đồng tham chiếu, phân lớp mối quan hệ thời gian, xác định giá trị cho thuộc tính liên quan khái niệm y tế (còn gọi tốn điền mẫu) rút trích kiện y sinh Trong atelectatic, lung bases) minh họa hình 3.7 Tập luật mở rộng để xác định mối quan hệ hai khái niệm thông qua nhiều nút trung gian, kho ngữ liệu khảo sát số nút Hình 3.7 Biểu diễn luật thơng qua nút trung gian tối đa 3, nhiên số nút trung trung gian gian phụ thuộc vào kho ngữ liệu gán nhãn, tập luật dùng kiến trúc hệ thống điền mẫu trình bày phần sau 3.3.2 Tập đặc trưng phân lớp mối quan hệ thời gian Tập đặc trưng phân lớp mối quan hệ thời gian luận án nghiên cứu đề xuất nhằm giải cho vấn đề phân lớp mối quan hệ thời gian khái niệm thời điểm tài liệu lâm sàng tạo ra, việc phân lớp không hiệu tiếp cận phương pháp dựa luật, khó dùng tri thức chun gia để xây dựng tập luật phân lớp, luận án tiếp cận dựa phương pháp máy học tốt Đối với phương pháp máy học, vấn đề quan trọng xác định tập đặc trưng phân lớp, mà luận án nghiên cứu đề xuất tập đặc trưng phân lớp sau: loại tài liệu, phân mục, – thể động từ, mối quan hệ với mốc thời gian lâm sàng, phân đoạn đặc biệt, động từ dấu hiệu cụm từ đặc biệt (cue phrase) Tập đặc trưng áp dụng kiến trúc hệ thống điền mẫu trình bày phần 3.3.3 Hệ thống điền mẫu Bài toán điền mẫu đánh giá phức tạp, mẫu bao gồm nhiều thuộc tính, mà thuộc tính có u cầu khác nhau, đòi hỏi phải áp dụng nhiều kỹ thuật phương pháp để giải quyết, lý mà chúng tơi chọn nghiên cứu toán điền mẫu với mục tiêu nghiên cứu phương pháp giải toán 12 Bài toán yêu cầu dựa danh sách khái niệm cho trước xác định giá trị cho thuộc tính khái niệm Mỗi khái niệm (bệnh/ rối loạn) định nghĩa gồm 10 thuộc tính sau: định âm tính (Negation Indicator), chủ thể (Subject Class), định không chắn (Uncertainty Indicator), q trình diễn biến (Course Class), tính nghiêm trọng (Severity Class), điều kiện lâm sàng (Conditional Class), đặc điểm chung (Generic Class), vị trí thể (Body Location), thời gian tài liệu (DocTime Class) biểu thức thời gian (Temporal Expression) Sau phân tích yêu cầu thuộc tính, luận án đề xuất hướng tiếp cận sau: sử dụng tập luật đề xuất (phần 3.3.1.1.) để rút trích giá trị cho thuộc tính đầu tiên; thuộc tính thứ sử dụng phương pháp lai ghép dùng thuật Hình 3.10 Kiến trúc hệ thống điền mẫu toán máy học để phân lớp mối quan hệ bệnh/rối loạn thời điểm viết tài liệu dựa tập đặc trưng đề xuất (phần 3.3.1.2); sang bước hai, luận án đề xuất tập luật (khác với tập luật đề xuất phần 3.3.1.1) để cải tiến kết máy học; thuộc tính thứ 10, luận án xây dựng luật theo dạng biểu thức quy để rút trích giá trị cho thuộc tính Tiếp theo đề xuất kiến trúc cho hệ thống xử lý xác định giá trị cho thuộc tính khái niệm tương ứng (xem hình 3.7) 3.3.4 Đánh giá tính hiệu đề xuất Hệ thống điền mẫu sử dụng tham gia thi diễn đàn nghiên cứu ShARe/CLF eHealth Lab 2014 với mục đích đánh giá 13 hiệu đề xuất liên quan Dữ liệu (huấn luyện đánh giá), đánh giá công bố kết diễn đàn thực hiện, hệ thống (HCMUS) xếp thứ hai mười nhóm tham gia dựa độ đo xác (accuracy) (xem bảng 3.5), nhìn chung thấy đề xuất luận án có hiệu tốt Tiếp theo chúng tơi trích kết đánh giá thuộc tính ba nhóm có kết tốt (xem bảng 3.6) có số bàn luận phương pháp sử dụng sau: nhóm RelAgent áp dụng phương pháp dựa luật tập luật xuất phát từ sản phẩm thương mại xây dựng trước nhiều năm áp dụng để rút trích kiện y sinh, độ xác hầu hết thuộc tính cao, nhiên riêng thuộc tính DocTime Class cho kết thấp; nhóm HITACHI lai ghép phương pháp máy học luật hầu hết thuộc tính, riêng thuộc tính DocTime Class (thuộc tính thứ chín) dùng phương pháp máy học; nhóm HCMUS lai ghép phương pháp máy học luật cho thuộc tính DocTime Class, thuộc tính lại dùng luật Như vậy, thấy hướng tiếp cận Bảng 3.5 Kết đánh giá hệ thống Bảng 3.6Kết thuộc tính nhóm đầu lai ghép cho kết tốt hơn; xét thuộc tính DocTime Class, hướng tiếp cận lai ghép cho kết tốt (0.519) nhóm HCMUS, hướng tiếp cận máy học cho kết thấp (0.328), dựa luật cho 14 kết thấp (0.024) Điều phù hợp với nhận định ban đầu đề xuất tập đặc trưng phân lớp mối quan hệ thời gian Như kết trình bày bảng 3.6 cho thấy, tập luật mà luận án đề xuất kết tốt so với nhóm tham gia thuộc tính Subject Class, tập đặc trưng phân lớp mối quan hệ thời gian khác niệm thời điểm viết tài liệu luận án đề xuất có hiệu cho kết tốt so với nhóm thuộc tính DocTime Class, hiệu thuộc tính lại chênh lệch đơi chút so với nhóm đứng đầu 3.4 Đề xuất liên quan đến tốn rút trích kiện y sinh Bài toán đề cập Bảng 3.9 Các loại kiện tham số kiện đến việc rút trích loại kiện liên quan đến thực thể sinh học protein từ tài liệu y sinh MedLine Một kiện mô tả “dấu hiệu” (thường động từ) tham số (thường danh từ), tham số gán nhãn vai trò ngữ nghĩa thể nguyên nhân (cause) kết (theme) kiện Các loại kiện cần rút trích trình bày bảng 3.9, ba loại kiện liên quan đến chuyển hóa protein (nghĩa việc sản xuất phân hủy protein), loại kiện Phosphorylation miêu tả kiện biến đổi protein, loại kiện Localization Binding miêu tả kiện thuộc phân tử bản, loại kiện Regulation (bao gồm Positive Negative regulation) biểu diễn kiện kiểm soát mối quan hệ nguyên nhân, tham số kết (theme) tất kiện xem tham số (đây tham số quan trọng để xác định kiện), thực thể hay kiện nguyên nhân 15 (cause) kiện Regulation xem tham số chính, với số loại kiện có thêm tham số tham số phụ Đối với tốn rút trích kiện y sinh luận án đề xuất hướng tiếp cận lai ghép luật máy học, phương pháp máy học áp dụng cho phân lớp kiện phương pháp luật dùng để xác định tham số cho kiện Trong phần này, luận án có đề xuất như: tập đặc trưng phân lớp kiện, tập luật xác định tham số cho kiện kiến trúc hệ thống rút trích kiện lần lược trình bày phần 3.4.1 Đặc trưng phân lớp kiện Sau nghiên cứu kho ngữ liệu gán nhãn kiện y sinh số cơng trình nghiên cứu liên quan luận án đề xuất tập đặc trưng dùng để phân lớp kiện sau: mặt chữ, nhãn từ loại, từ phụ thuộc cú pháp, loại phụ thuộc, từ đơn có chứa Protein, từ đơn có chứa kí tự đặc biệt từ đơn có chứa kí tự số.Tập đặc trưng sử dụng kiến trúc hệ thống rút trích kiện y sinh 3.4.2 Rút trích luật Luận án xây dựng chương trình rút trích luật tự động từ kho ngữ liệu gán nhãn kiện y sinh, tập luật chia làm loại: (1) dùng cho kiện có tham số (2) dùng cho kiện có tham số biểu diễn hình thức sau: Loại (1): themeOf Loại (2): themeOf causeOf Tập luật xác định tham số cho kiện, sau rút trích tập luật áp dụng cho kiến trúc hệ thống rút trích kiện mơ tả phần 3.4.3 Hệ thống rút trích kiện y sinh 16 Hệ thống thiết kế dựa yêu cầu toán thực gồm hai giai đoạn: (1) tự động rút trích tập luật theo mơ tả phần 3.3.2.2., loại bỏ luật trùng rút trích tập đặc trung mô tả phần 3.3.2.1 từ tập liệu huấn luyện (2) áp dụng kết (1) để thực rút trích kiện y sinh từ tài liệu y sinh Hình 3.20 Hệ thống rút trích kiện y sinh 3.4.4 Đánh giá hiệu đề xuất Luận án sử dụng liệu thực nghiệm diễn đàn nghiên cứu BioNLP 2013 cung cấp gồm liệu huấn luyện liệu đánh giá (dữ liệu phát triển), liệu báo hoàn chỉnh chia thành nhiều phần khác theo mục: Title–Abstract, Introducction, Material and method, Result, Discussion Conclusion, mục xem tài liệu kho ngữ liệu Chúng sử dụng công cụ đánh giá trực tuyến diễn đàn cung cấp để đánh giá hiệu hệ thống, kết đánh giá thể bảng 3.10 3.11 Dựa kết chúng tơi có vài bàn luận sau: kết phân lớp kiện (xem bảng 3.10) cho thấy nhóm năm kiện có độ đo F-score trung bình 78.54 nhóm kiện đơn giản nên tập đặc trưng luận án đề xuất đạt kết tương đối tốt, nhóm kiện phức tạp Binding có F-score 30.53 cho thấy tập đặc trưng đề xuất chưa nhận diện tốt nhóm này, nhóm ba kiện cuối phức tạp nên độ đo F-score trung bình đạt 19.96 cho thấy tập đặc trưng sử dụng thật không tốt Xét kết xác định tham số kết (Theme) kiện (xem bảng 3.11), nhóm năm kiện có kết trung bình độ đo F-score 79.40 cho thấy tập luật mà luận án 17 đề xuất cho kết tương đối tốt nhóm kiện mà tham số có tham số, bên cạnh tập luật cho kết tương đối tốt kiện Binding với F-score 71.09 kiện mà tham số có nhiều tham số nhóm ba kiện cuối với độ đo trung bình F-score 21.13 cho thấy tập luật chưa tốt nhóm Xét tham số nguyên nhân (causeOf) ba kiện cuối tập luật không phát trường hợp Như vậy, thấy rút trích kiện y sinh thách thức đặc biệt kiện phức tạp, tập đặc trưng tập luật mà luận án đề xuất chưa đạt kết tốt hai nhóm kiện cuối, cần phải có nghiên cứu sâu để đề xuất cải tiến tốt tương lai Bảng 3.10 Kết phân lớp kiện liệu phát triển Bảng 3.11 Kết gán nhãn tham số kiện liệu phát triển Chương KIẾN TRÚC KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ 4.1 Giới thiệu Hiện nay, hệ thống rút trích khái niệm, rút trích mối quan hệ, rút trích kiện, … phát triển riêng biệt để đáp ứng nhu cầu thực tế cần phải có gắn kết hệ thống lại với thành thể thống Ví dụ, bệnh nhân thân nhân gặp khó khăn việc đọc hiểu nội dung hồ sơ bệnh án, hồ sơ bệnh án có nhiều ký tự/chữ viết tắt thuật ngữ chuyên ngành, việc bệnh nhân thân hiểu biết bệnh án giúp cho trình điều trị tốt Như 18 vậy, hệ thống hỗ bệnh nhân thân nhân việc dễ dàng đọc hiểu hồ sơ bệnh án cần có chức như: nhận diện khái niệm (thuật ngữ), rút trích mối quan hệ khái niệm, liên kết khái niệm mối quan hệ đến nguồn tài nguyên thân thiện (phổ biến) với người dùng nhằm giải thích ý nghĩa chúng, mở rộng ký tự/chữ viết tắt, … chương nghiên cứu đề xuất mẫu ban đầu (prototype) cho hệ thống khai thác thông tin y tế dựa khái niệm nhằm thực ý tưởng kết nối thành phần riêng biệt lại với 4.2 Mẫu hệ thống khai thác thông tin y tế dựa khái niệm Chúng dựa kết đề xuất chương (rút trích khái niệm) chương (rút trích mối quan hệ) để tổng hợp đề xuất mẫu ban đầu cho hệ thống khai thác thông tin y tế dựa khái niệm (xem hình 4.2) Hai thành phần cốt lõi hệ thống rút trích khái Hình 4.2 Mẫu hệ thống khai thác thơng tin y tế dựa khái niệm mẫu niệm mối quan hệ; thành phần giúp cho trình xử lý tự động hệ thống dễ dàng xử lý ngôn ngữ tự nhiên; hỗ trợ cho hai thành phần rút trích khái niệm mối quan hệ thành phần nguồn tài nguyên, kết q trình rút trích khái niệm mối quan hệ tổ chức lưu trữ thành phần kho tri thức phục vụ để phát triển chương trình ứng dụng; cuối thành phần chương trình ứng dụng 4.3 Hệ thống thực nghiệm 19 Luận án dựa mẫu ban đầu hệ thống khai thác thông tin y tế dựa đề xuất nêu để phát triển hệ thống thực nghiệm với mục đích hỗ trợ bệnh nhân thân nhân dễ dàng đọc hiểu nội dung tài liệu hồ sơ bệnh án Hệ thống tự động phân tích nội dung tài liệu, nhận diện khái niệm y tế, xác định giá trị chuẩn hoá cho thuộc tính liên quan đến khái niệm liên kết khái niệm xuất tài liệu đến nguồn tri Hình 4.3 Hệ thống khai thác khái niệm mối quan hệ thức mở liên quan Internet như: MedLine, Wikipedia trang web y tế (xem hình 4.3) 4.4 Định hướng khung kiến trúc chung khai thác tài liệu y tế Chúng định hướng mở rộng mẫu ban đầu hệ thống khai thác thông tin y tế dựa khái niệm (xem mục 4.11) thành khung kiến trúc chung khai thác tài liệu y tế dựa khái niệm Mục đích tham số hóa chương trình, tận Hình 4.11 Khung phần mềm thống khai thác thông tin y tế 20 dụng cơng cụ có sẵn, kết nối nguồn tài nguyên liên kết tự động toán rời rạc lại với theo trình tự phù hợp tổng thể hoàn chỉnh dễ dàng Điều phục vụ cho việc phát triển, tích hợp thay mà đảm bảo tiến hóa hệ thống khai thác thông tin y tế Mỗi thành phần thiết kế gồm chương trình liên quan gắn vào hay rút thơng qua khe cắm (slots) (hình 4.11) Đây ý tưởng định hướng phát triển tương lai Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Sự phát triển liệu văn y tế tăng nhanh Người dùng sử dụng cơng cụ tìm kiếm tài liệu y tế liên quan đến nhu cầu thông tin họ Đặc điểm chung cơng cụ tìm kiếm trả kết xếp hạng mức độ liên quan nội dung tài liệu (dựa từ khóa) câu hỏi người dùng, người dùng phải dành thời gian đọc nội dung tài liệu để nắm bắt thông tin cần thiết Việc nắm bắt thông tin từ tài liệu trở thành nhu cầu thường xuyên người dùng ngành y tế, cụ thể bác sĩ người chăm sóc y tế cần nắm bắt thông tin ca điều trị cho trường hợp tương tự giúp họ định điều trị hiệu lập kế hoạch chăm sóc bệnh nhân tốt Tuy nhiên, số khó khăn chưa có cơng cụ cung cấp thơng tin họ cần thời gian nhanh có thể, họ khơng có đủ thời gian đọc hết tài liệu để tự tìm kiếm thơng tin cho điều kiện bùng nỗ liệu y tế Như vậy, hệ thống khai thác thông tin y tế từ liệu văn y tế vô cần thiết Dựa định hướng nghiên cứu “khung kiến trúc chung khai thác tài liệu y tế dựa khái niệm”, bước nghiên cứu giải số toán liên quan đạt số kết đóng góp sau: 21 Đối với tốn rút trích khái niệm y tế, luận án đề xuất hướng tiếp cận dựa máy học để rút trích khái niệm y tế xuất tài liệu y tế Cụ thể, đề xuất nhãn phân lớp token để xác định khái niệm y tế đề xuất tập đặc trưng dùng để huấn luyện mô hình máy học nhằm dự đốn khái niệm y tế, khái niệm sau dự đoán ánh xạ đến thuật ngữ định nghĩa từ vựng ontology thuộc lĩnh vực y tế để chuẩn hóa khái niệm Việc chuẩn hóa khái niệm có ý nghĩa tìm khái niệm xuất tài liệu y tế Kết đề xuất cơng bố cơng trình ([CT5], [CT10]) Tiếp theo tốn rút trích mối quan hệ, luận án nghiên cứu đề xuất giải pháp thực toán cụ thể rút trích giá trị cho thuộc tính khái niệm y tế (điền mẫu) rút trích kiện y sinh Đối với tốn rút trích kiện, luận án phát triển hệ thống tự động rút trích tập luật xác định tham số cho kiện y sinh, sau tập luật kết hợp với phương pháp máy học thực rút trích kiện tham số kiện, kết công bố cơng trình ([CT1]) Trong tốn điền mẫu, luận án có đề xuất sau: tập luật xác định mối quan hệ khái niệm, xây dựng thủ cơng dựa phân tích cú pháp phụ thuộc; tập đặc trưng phân lớp mối quan hệ khái niệm thời điểm viết tài liệu; hướng tiếp cận lai ghép để giải toán; số cải tiến hiệu cho tốn Những đóng góp cho tốn cơng bố công ([CT2], [CT3], [CT4], [CT7], [CT8], [CT9]) Một đóng góp luận án đề xuất hướng tiếp cận tìm kiếm tài liệu (truy hồi thông tin) dựa khái niệm cho tài liệu web y tế, cơng trình cơng bố ([CT6]) Cơng trình hệ thống tìm kiếm tài liệu web liên quan đến khái niệm y tế, hệ thống vận dụng hệ thống rút trích khái niệm (chương 2) thực rút trích khái niệm y tế xuất tài liệu web, sau lập mục tài liệu dựa khái niệm Điều giúp việc so khớp khái niệm tìm kiếm tốt 22 Chương trình bày đề xuất kiến trúc khai thác khái niệm mối quan lĩnh vực lâm sàng Đề xuất liên kết thành phần đề xuất chương trước, gồm rút trích khái niệm mối quan hệ khái niệm Dựa kiến trúc đề xuất, luận án phát triển hệ thống hỗ trợ người dùng đọc tài liệu lâm sàng nhanh chóng hiểu nội dung tài liệu dễ dàng Hệ thống có chức nhận diện khái niệm xuất tài liệu, chuẩn hoá khái niệm đến thuật ngữ định nghĩa ontology thuộc lĩnh vực y tế, rút trích giá trị cho thuộc tính liên quan đến khái niệm tài liệu, liên kết khái niệm đến nguồn tài nguyên mở internet như: Wikipedia, MedLine, … để giải thích ý nghĩa khái niệm tìm kiếm tài liệu liên quan đến khái niệm Mặc dù chức ứng dụng đơn giản thể ý nghĩa mặt ứng dụng cần nghiên cứu phát triển tương lai Cũng chương này, luận án trình bày ý tưởng định hướng nghiên cứu phát triển khung kiến trúc chung khai thác thông tin y tế nhằm hỗ trợ người phát triễn hệ thống sử dụng để xây dựng hệ thống hỗ trợ định lĩnh vực y tế 5.2 Hướng phát triển Đề xuất giải pháp nâng cao hiệu cho tốn rút trích khái niệm y tế Nghiên cứu phân tích đặc điểm liệu y tế để tìm đặc trưng nhận diện khái niệm y tế tốt hơn, đồng thời thực chức xác định mở rộng chữ viết tắt xuất văn y tế Bên cạnh đó, tốn chuẩn hóa khái niệm quan tâm để cải thiện hiệu Rút trích mối quan hệ y tế khái niệm nhiều vấn đề cần giải kết nghiên cứu cộng đồng chưa đáp ứng hết nhu cầu thông tin người dùng tính phức tạp tốn Cho nên, cần có nghiên cứu sâu tương lai 23 để tìm hướng tiếp cận tốt hơn, đồng thời mở rộng toán theo nhu cầu người dùng Dựa kiến trúc khai thác khái niệm mối quan hệ lĩnh vực lâm sàng mà luận án đề xuất, hướng đến phát triển thành khung kiến trúc chung khai thác thông tin văn y tế dựa khái niệm Mục tiêu khung kiến trúc chung cho phép tham số hóa chương trình, tận dụng cơng cụ có sẵn, kết nối nguồn tài nguyên thuộc lĩnh vực y tế liên kết tự động toán rời rạc lại với theo trình tự phù hợp tổng thể hoàn chỉnh dễ dàng Điều phục vụ cho việc phát triển, tích hợp tiến hóa hệ thống khai thác thông tin văn y tế Khung kiến trúc phần mềm chung chắn hỗ trợ việc phát triển hệ thống khai thác thông tin văn y tế, hệ thống rút trích tri thức từ liệu văn y tế cung cấp tri thức cho hệ thống hỗ trợ định hệ thống tư vấn… Đối với nhóm toán ứng dụng, việc sử dụng kết rút trích thơng tin để phát triển ứng dụng chẳng hạn như: tóm tắt tài liệu y tế, hệ thống hỏi đáp, giao diện tương tác người dùng, tìm kiếm dựa khái niệm… cần nghiên cứu phát triển Việc xây dựng khung kiến trúc chung khai thác văn y tế mục tiêu phát triển tương lai với mong muốn đóng góp nhiều cho cộng đồng nghiên cứu 24 DANH MỤC CÔNG TRÌNH KHOA HỌC Các báo khoa học cơng bố Hội nghị - Tạp chí nước quốc tế: [CT1] Huỳnh Hữu Nghĩa, Hồ Bảo Quốc Hệ Thống Rút Trích Sự Kiện Trên Văn Bản Sinh Học Kỷ yếu Hội nghị Quốc gia lần thứ VII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), pages 160-166, Thái Nguyên, ngày 19–20/06/2014, ISBN: 978-604-913-300-8 DOI 10.15625/FAIR VII.2014-0337 [CT2] Huu Nghia Huynh, Son Lam Vu and Bao Quoc Ho ShARe/CLEFeHealth: A Hybrid Approach for Task Working Notes for CLEF 2014 Conference, pages 103 – 110, Sheffield, UK, September 15-18, 2014 ISSN 1613-0073, Vol-1180 [CT3] Huỳnh Hữu Nghĩa, Vũ Sơn Lâm, Hồ Bảo Quốc Một Hướng Tiếp Cận Xác Định Mối Quan Hệ Bệnh Thời Gian Viết Tài Liệu Lâm Sàng Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông, pages 155 – 160, Đắk Lắk, 3031/10/2014 [CT4] Huu Nghia Huynh and Bao Quoc Ho A Rule-based Approach for Relation Extraction from Clinical Documents Proceedings of Asian Conference on Information Systems 2014, pages 314–317, Nha Trang, Vietnam, December 1-3, 2014, ISBN: 978-4-88686-089-7 [CT5] Nghia Huynh, Quoc Ho TeamHCMUS: Analysis fo Clinical Text Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), pages 370–374, Denver, Colorado, June 4-5, 2015 ISBN 978-1-941643-24-2 [CT6] Nghia Huynh, Thanh Tuan Nguyen and Quoc Ho TeamHCMUS: A Concept-based Information Retrieval Approach for Web Medical Documents Working Notes of CLEF 2015 – Conference and Labs of the Evaluation forum Toulouse, France, September 8-11, 2015 CEUR Workshop Proceedings ISSN 1613-0073, Vol-1391 [CT7] Nghia Huynh, Quoc Ho A Combined Approach for Disease/Disorder Template Filling Proceedings: 2015 Seventh International Conference on Knowledge and Systems Engineering, pages 328–331 Ho Chi Minh City, Vietnam, October 2015 ISBN 978-1-4673-8013-3/15 $31.00 © 2015 IEEE DOI 10.1109/KSE.2015.62 [CT8] Nghia Huynh, Lam Vu and Quoc Ho A Hybrid Approach for DocTime Classification Proceedings: 2016 Eighth International Conference on Knowledge and Systems Engineering, pages 199–204 Ha Noi, Vietnam, October 2016 ISBN: 978-1-4673-8929-7/16/$31.00 ©2016 IEEE [CT9] Huỳnh Hữu Nghĩa, Hồ Bảo Quốc, Nguyễn An Tế Một Hướng Tiếp Cận Rút Trích Mối Quan Hệ Y Tế (tạp chí Phát triển Khoa học Cơng nghệ Đại học Quốc gia Tp.HCM chấp nhận đăng) [CT10] Huỳnh Hữu Nghĩa, Hồ Bảo Quốc Rút trích chuẩn hóa khái niệm y tế tài liệu lâm sàng Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR’10), trang 832-840, Đà Nẵng, ngày 17–18/08/2017 ISBN: 978-604-913-614-6 ... mối quan hệ hai khái niệm Tri thức chuyên gia thể tập liệu gán nhãn khái niệm mối quan hệ khái niệm 300 tài liệu lâm sàng, sở để xây dựng tập luật dựa mối quan hệ phụ thuộc từ câu văn chứa hai khái. .. mối quan hệ phụ thuộc cặp khái niệm (mitral regurgitation, not seen), từ xây dựng hai luật xác định mối quan hệ hai khái niệm minh họa hình 3.4 Hình 3.4 Luật xác định mối quan hệ cặp khái niệm. .. sát trạng khai thác văn y tế gồm xử lý ngôn ngữ tự nhiên lĩnh vực y tế, thách thức toán rút trích khái niệm mối quan hệ khái niệm phương pháp rút trích, nguồn tài nguyên hỗ trợ khai thác văn y tế