Một hướng tiếp cận rút trích mối quan hệ y tế

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	13
Dung lượng	754,86 KB

Nội dung

Bài viết Một hướng tiếp cận rút trích mối quan hệ y tế trình bày: Các phương pháp rút trích mối quan hệ trên văn bản y tế và trình bày một hướng tiếp cận bách khoa toàn thư mở Wikipedia chia sẻ thông được đề xuất để rút trích mối quan hệ trên một loại tin và hình ảnh y khoa. Càng ngày càng có nhiều mối quan hệ(template filling) cụ thể,... Mời các bạn cùng tham khảo bài viết.

TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q3 - 2017 51 Một hƣớng tiếp cận rút trích mối quan hệ y tế Huỳnh Hữu Nghĩa, Hồ Bảo Quốc, Nguyễn An Tế  Tóm tắt—Rút trích mối quan hệ khái niệm y tế có ý nghĩa quan trọng lĩnh vực y tế Các mối liên hệ biểu thị kiện, quan hệ có khái niệm Thơng tin mối quan hệ giúp cho người dùng (bác sĩ, bệnh nhân, nhà nghiên cứu y tế, người chăm sóc bệnh nhân, … ) có nhìn đầy đủ vấn đề y tế Điều hỗ trợ cho bác sĩ người chăm sóc bệnh nhân đưa định hiệu hạn chế sai sót q trình điều trị Bài báo tổng hợp phương pháp rút trích mối quan hệ văn y tế trình bày hướng tiếp cận đề xuất để rút trích mối quan hệ loại mối quan hệ (template filling) cụ thể Hướng tiếp cận kết hợp phương pháp gồm dựa tự điển, luật máy học Phương pháp dựa luật sử dụng mối quan hệ ngữ nghĩa phụ thuộc khái niệm để rút trích luật Phương pháp máy học sử dụng thuật toán SVM (Support Vector Machine) tập đặc trưng Kết hướng tiếp cận đánh giá hiệu dựa độ đo tính (accuracy) 0.849 Từ khóa—Rút trích mối quan hệ, rút trích thơng tin, khai thác thơng tin lâm sàng, khai thác văn GIỚI THIỆU IN học y tế (medical informatics) lĩnh vực ứng dụng công nghệ thông tin vào y khoa chăm sóc sức khỏe Mục đích tin học y tế nghiên cứu tìm kiếm phƣơng pháp tối ƣu hóa việc sử dụng thơng tin nhằm cải thiện chất lƣợng chăm sóc y tế, giảm chi phí, cung cấp cho giáo dục nghiên cứu y khoa hiệu Thời gian qua, lĩnh vực tin học y tế có tiến phát triển Những tiến tin học y tế nhƣ hồ sơ bệnh án điện tử (EHR - Electronic Health T Bài nhận ngày 04 tháng 04 năm 2017, hoàn chỉnh sửa chữa ngày 02 tháng 06 năm 2017 Tác giả Huỳnh Hữu Nghĩa công tác Trƣờng Đại học Lao động – Xã hội (CSII) (email: huynhnghiavn@gmail.com) Tác giả Hồ Bảo Quốc công tác Trƣờng Đại học Khoa học Tự nhiên, ĐHQGHCM (email: hbquoc@fit.hcmus.edu.vn) Tác giả Nguyễn An Tế công tác Trƣờng Đại học Kinh tế TP HCM (email: tena@ueh.edu.vn) Record), hệ thống chăm sóc y tế ứng dụng y sinh học (biomedical) sinh khối lƣợng liệu lớn đƣợc lƣu trữ hàng trăm sở liệu Ngồi ra, việc số hóa liệu y tế quan trọng nhƣ báo cáo phòng thí nghiệm, tài liệu nghiên cứu hình ảnh giải phẫu tạo liệu chăm sóc bệnh nhân khổng lồ đƣợc lƣu trữ máy tính Sự phát triển Internet làm xuất nhiều trang web tƣ vấn cách chăm sóc sức khỏe đặc biệt phát triển bách khoa toàn thƣ mở Wikipedia chia sẻ thơng tin hình ảnh y khoa Càng ngày có nhiều tạp chí y tế điện tử đăng tải thành tựu khoa học kỹ thuật y khoa Đây nguồn liệu lớn cung cấp thơng tin bổ ích cho ngƣời dùng lĩnh vực y tế Nhu cầu thông tin ngƣời dùng lĩnh vực y tế đa dạng Bác sĩ cần thông tin hỗ trợ q trình chẩn đốn điều trị Sinh viên nhà nghiên cứu cần tài liệu huấn luyện, trƣờng hợp điều trị cụ thể thực hiện, kết xét nghiệm chẩn đốn, tạp chí, báo sách có liên quan hay tóm tắt thơng tin quan trọng Bệnh nhân cần hiểu biết nguyên nhân bệnh, điều kiện điều trị y khoa, hợp tác hỗ trợ việc điều trị, theo dõi trình điều trị Một khả ứng dụng khác nhƣ công ty bảo hiểm cần giám sát việc sử dụng điều kiện điều trị với chi phí thấp, kiểm sốt rủi ro hỗ trợ mức dịch vụ tốt, xác minh thủ tục chẩn đoán theo dõi kết điều trị Với lƣợng liệu lớn nhu cầu thông tin ngƣời dùng mang đến cho lĩnh vực tin học y tế nhiều thách thức Các nhà quản lý tìm kiếm giải pháp quản lý liệu phù hợp hiệu để phục vụ điều trị Các tổ chức chăm sóc y tế gặp khó khăn đọc-hiểu thuật ngữ hồ sơ bệnh nhân liên quan đến bệnh, triệu chứng nguyên nhân để điều trị hiệu Dữ liệu y tế có nhiều thách thức hầu hết liệu văn khơng có cấu trúc Các văn đƣợc định dạng khác liên quan đến loại báo cáo, số báo cáo chứa bảng biểu với hình thức khác xuất 52 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q3 - 2017 nhiều ký tự/chữ viết tắt Các ký tự/chữ viết tắt nguyên nhân lớn dẫn đến nhập nhằng tính mơ hồ việc hiểu nội dung văn Để hiểu rõ nội dung tài liệu ngƣời dùng phải tìm đọc nhiều tài liệu khác có liên quan Hiện nay, ngƣời dùng tìm kiếm thông tin thông qua số nguồn trực tuyến phổ biến nhƣ cơng cụ tìm kiếm thơng thƣờng (Google, Bing Yahoo!), sở liệu nghiên cứu y tế (PubMed) Wikipedia Kết tìm kiếm tài liệu liên quan đến nội dung tìm kiếm, ngƣời dùng phải tự đọc tất tài liệu có để nắm bắt thơng tin cần thiết phục vụ cho nhu cầu nên ngƣời dùng nhiều thời gian để đọc nghiên cứu tài liệu Để nắm bắt tri thức lĩnh vực y tế ngƣời dùng thật khó khăn điều kiện khối lƣợng lớn liệu phát sinh hàng ngày Vấn đề đƣợc đặt “Làm để đáp ứng nhu cầu thông tin y tế cho ngƣời dùng trƣờng hợp bùng nổ liệu?” Để giải vấn đề này, mơ hình khai thác thơng tin y tế mức khái niệm cần thiết Những u cầu mơ hình bao gồm: (1) Phân tích tự động nội dung tài liệu để nhận diện, gán nhãn rút trích thơng tin quan trọng xuất tài liệu sau chuẩn hóa thơng tin đƣợc rút trích đến khái niệm định nghĩa ontology lĩnh vực y tế; (2) Xác định rút trích mối quan hệ khái niệm xuất tài liệu, nhằm tạo liên kết ngữ nghĩa khái niệm xuất hay nhiều tài liệu; (3) Tổ chức lƣu trữ khái niệm mối quan hệ thành kho tri thức phục vụ nhu cầu khai thác thông tin ngƣời dùng; (4) Hệ thống hỏi – đáp ngƣời dùng Kho trí thức nguồn sở cung cấp tri thức để phát triển hệ thống hỗ trợ định lĩnh vực y tế Một trƣờng cụ thể nhu cầu ngƣời dùng đƣợc minh họa ý nghĩa mơ hình nhƣ sau: Bệnh nhân ngƣời thân gặp khó khăn việc hiểu thuật ngữ/khái niệm xuất tóm tắt xuất viện Ví dụ: tài liệu xuất viện có nội dung “AP: 72 yo f w/ ESRD on HD, CAD, HTN, asthma p/w significant hyperkalemia & associated arrythmias.” xuất nhiều ký tự/chữ viết tắt khái niệm mà ngƣời dùng không hiểu đƣợc Việc hiểu biết khái niệm giúp q trình tự chăm sóc điều trị đƣợc tốt Nhƣ vậy, hệ thống làm bật lên khái niệm tóm tắt xuất viện, liên kết đến nguồn tri thức để giải thích ý khái niệm mà ngƣời dùng quan tâm, mở rộng giải thích mối quan hệ liên quan khái niệm từ nguồn tri thức nhƣ: UMLS1, Wikipedia, v.v… liên kết đến trang web hay tài liệu liên quan Bài tốn rút trích thơng tin đƣợc xem tốn mơ hình khai thác thơng tin y tế Rút trích thơng tin đề cập đến q trình xử lý tự động trích xuất thơng tin từ văn phi cấu trúc bán cấu trúc để xây dựng kiện có cấu trúc Trong lĩnh vực tin học y tế, văn phi cấu trúc phổ biến gồm báo khoa học, tài liệu văn hồ sơ bệnh án điện tử hệ thống thông tin lâm sàng Rút trích thơng tin có tốn liên quan đến q trình xử lý văn y tế Thứ nhất, nhận diện khái niệm toán xác định phân lớp khái niệm y tế vào loại đƣợc định nghĩa trƣớc chẳng hạn nhƣ: tên Protein, Genes, Bệnh, v.v… (Bài toán đƣợc trình bày báo khác) Sau đó, khái niệm đƣợc chuẩn hóa biểu diễn rõ ràng thơng qua nguồn tài nguyên ontology phân lớp khái niệm vào loại ngữ nghĩa Bài tốn thứ hai rút trích mối quan hệ nhằm mục đích phát mối quan hệ khái niệm Ví dụ: mối quan hệ Gene-Bệnh, tƣơng tác Protein-Protein mối quan hệ Điều trị Vấn đề y tế Mục tiêu báo hệ thống hƣớng tiếp cận cho tốn rút trích mối quan hệ tài liệu y tế trình bày thực nghiệm xác định mối quan hệ cụ thể Bố cục phần lại báo gồm: mơ tả tốn rút trích mối quan hệ y tế, phƣơng pháp rút trích mối quan hệ đƣợc đề xuất, kết thực nghiệm kết luận CÁC BÀI TỐN Bài tốn rút trích mối quan hệ xác định rút mối quan hệ ngữ nghĩa khái niệm đƣợc thể văn Các quan hệ mối quan hệ xã hội nhƣ quan hệ ngƣời với ngƣời, ngƣời với tổ chức, tổ chức, v.v… Trong lĩnh vực y tế, mối quan hệ tƣơng tác protein-protein, mối quan hệ vấn đề y tế điều trị, … Một số toán liên quan đến rút trích mối quan hệ bao gồm: xác định mối quan hệ hai khái niệm (mối quan hệ nhị phân), kiện (mối quan hệ phức tạp), xác định giá trị cho thuộc tính khái niệm (điền mẫu), đồng tham chiếu, mối quan hệ thời gian, … Một vài trƣờng hợp cụ https://www.nlm.nih.gov/research/umls/ TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q3 - 2017 thể lĩnh vực y tế đƣợc trình bày nhƣ sau: Trong i2b2 năm 2010 định nghĩa mối quan hệ nhị phân gồm mối quan hệ vấn đề y tế - điều trị (ví dụ: điều trị làm cải thiện vấn đề y tế, điều trị làm xấu vấn đề y tế, điều trị giải vấn đề y tế điều trị không giải vấn đề y tế), mối quan hệ vấn đề y tế - xét nghiệm (ví dụ: xét nghiệm để phát vấn đề y tế, xét nghiệm đƣợc thực để điều tra vấn đề y tế) mối quan hệ vấn đề y tế - vấn đề y tế (ví dụ: vấn đề y tế vấn đề y tế) Năm 2011, i2b2 xác định mối quan hệ đồng tham chiếu khái niệm (treatment, problem, test, person pronoun) Các đồng tham chiếu yêu cầu xác định gồm coref_person, coref_problem, coref_treatment coreftest Các cặp đồng tham chiếu đƣợc liên kết tạo thành chuỗi khái niệm liên quan đến bệnh nhân, từ tạo cách nhìn đầy đủ tình trạng lâm sàng Phần chúng tơi trình bày khái quát phƣơng pháp rút trích mối quan hệ CÁC ĐẶC ĐIỂM DỰ ĐOÁN MỐI QUAN HỆ Việc rút trích mối quan hệ khơng đơn giản nhƣ rút trích trích khái niệm, để rút trích mối quan hệ hai khái niệm câu yêu cầu kết hợp khéo léo từ cấu trúc cú pháp ngữ nghĩa đa dạng câu Một số đặc điểm sử dụng để dự đốn mối quan hệ nhƣ sau: Mặt chữ (surface tokens): Các từ (token) xung quanh bên hai khái niệm đầu mối để xác định mối quan hệ Ví dụ: Sự diện từ đơn epidemic hai khái niệm Disease Location thể khả dự đoán mối quan hệ “outbreak” câu nhƣ sau: The Centers for Disease Control and Prevention, which is in the front line of the world’s response to the deadly Ebola epidemic in Zaire Nhãn từ loại (part-of-speech tags): Nhãn từ loại đóng vai trò quan trọng rút trích mối quan hệ Các động từ câu từ khóa để xác định mối quan hệ khái niệm Ví dụ: Từ hosts xuất hai khái niệm Conferences Location đƣợc gán nhãn động từ (VBZ), từ rút trích mối quan hệ “held in” câu sau đây: The/DT University/NNP of/IN Helsinki/NNP hosts/VBZ ICML/NNP this/DT year/NN Cấu trúc phân tích cú pháp (systactic parse tree structure): Cây phân tích cú pháp nhóm 53 từ câu thành cụm từ nhƣ: Các cụm danh từ, cụm giới từ cụm động từ Nó có giá trị việc hiểu mối quan hệ khái niệm câu nhãn từ loại Ví dụ: Xét câu “ Haifa located 53 miles from Tel Aviv will host ICML in 2010” Dựa mối quan hệ gần cặp (Tel Aviv, ICML) thể mối quan hệ “held in” phù hợp cặp (Haifa, ICML) Nhƣng xét phân tích cú pháp (hình 1) ICML gần Haifa Tel Aviv Haifa đứng đầu cụm danh từ “Haifa located 53 miles from Tel Aviv” tạo thành chủ ngữ cụm động từ “will host ICML in 2010” Hình Biểu diễn phân tích cú pháp cho câu “ Haifa located 53 miles from Tel Aviv will host ICML in 2010” Đồ thị phụ thuộc (dependency graph): Đồ thị phụ thuộc biểu diễn mối liên kết từ đến từ mà phụ thuộc vào Ví dụ: Xem đồ thị phụ thuộc hình Trên đồ thị rõ ràng động từ host đƣợc liên kết trực tiếp đến hai khái niệm Haifa ICML Điều tạo nên mối liên kết chặt chẽ khái niệm Ngƣợc lại đƣờng dẫn ICML Tel Aviv phải qua Haifa – located – miles Hình Biểu diễn đồ thị phụ thuộc cho câu “ Haifa located 53 miles from Tel Aviv will host ICML in 2010” CÁC PHƢƠNG PHÁP Nhiều thập kỷ qua, có nhiều hƣớng tiếp cận đề xuất cho tốn rút trích mối quan hệ tài liệu y khoa Các hƣớng tiếp cận gồm dựa luật, dựa máy học giám sát bán giám sát Các hƣớng tiếp cận lần lƣợt đƣợc trình bày chi tiếp phần sau 54 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q3 - 2017 4.1 Hướng tiếp cận dựa luật Các hƣớng tiếp cận dựa luật áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên mẫu đƣợc xây dựng thủ công lĩnh vực cụ thể để nắm bắt kiểu mối quan hệ khác xuất văn Khi xây dựng tập luật tốn nhân cơng chi phí cao nhƣ u cầu phải có chun mơn sâu Ví dụ: chƣơng trình rút trích mối quan hệ mã nguồn mở RelEx [6] RelEx dựa trúc phụ thuộc để xây dựng tập luật rút trích mối quan hệ Hệ thống RelEx sau đƣợc sử dụng rút trích mối quan hệ tƣơng tác gene protein tập liệu triệu tóm tắt MedLine Kết rút trích đƣợc 150 ngàn mối quan hệ với hiệu đánh giá 80% Một số nhóm nghiên cứu đề xuất hƣớng tiếp cận khác dựa luật nhằm xác định mối quan hệ thực thể y sinh học nhƣ [3, 9] Gần đây, cơng trình [2] đề xuất hệ thống dựa luật gọi MeTAE (Medical Texts Annotation and Exploration) cho phép rút trích gán nhãn thực thể mối quan hệ văn y tế Hƣớng tiếp cận hệ thống dựa qui tắc ngôn ngữ để rút trích mối quan hệ triệu chứng vấn đề y tế 4.2 Hướng tiếp cận máy học Hƣớng tiếp cận máy học dựa thuật tốn học có giám sát để huấn luyện xác định mối quan hệ văn Tuy nhiên, hƣớng tiếp cận máy học yêu cầu liệu huấn luyện đƣợc gán nhãn để xây dựng phân lớp tin cậy Hƣớng tiếp cận máy học rút trích mối quan hệ chia làm hai hƣớng tiếp cận dựa đặc trƣng dựa Kernel Các kỹ thuật dựa đặc trƣng rút trích đặc trƣng văn từ tài liệu đầu vào (ví dụ: từ xuất thực thể) sử dụng thuật tốn học có giám sát để huấn luyện Phƣơng pháp dựa Kernel mã hóa cấu trúc biểu diễn văn (ví dụ: chuỗi từ liên tục (word sequence) hàm kernel) đƣợc thiết kế để nắm bắt phân biệt cấu trúc có nghĩa Phân lớp dựa đặc trưng Hƣớng tiếp cận rút trích mối quan hệ xem tốn nhƣ vấn đề phân lớp Cụ thể, cặp khái niệm đồng xuất câu đƣợc xem thể mối quan hệ ứng viên Mục tiêu gán nhãn phân lớp cho thể nhãn phân lớp kiểu quan hệ đƣợc định nghĩa trƣớc nil (không) cho cặp khái niệm không liên quan Quá trình xử lý đƣợc thực qua hai giai đoạn, giai đoạn xác định hai khái niệm (cho dù có liên quan hay khơng) giai đoạn thứ hai xác định loại quan hệ cho cặp khái niệm liên quan Hƣớng tiếp cận phân lớp giả định kho ngữ liệu huấn luyện có sẵn, tất mối quan hệ cho kiểu quan hệ đƣợc định nghĩa trƣớc đƣợc gán nhãn thủ công Những mối quan hệ đƣợc sử dụng nhƣ mẫu huấn luyện đáng tin cậy Từng thể mối quan hệ ứng viên đƣợc biểu diễn tập đặc trƣng đƣợc chọn lựa cách cẩn thận Các thuật toán học chuẩn nhƣ SVM hồi qui lơgíc (logistic regression) đƣợc sử dụng để huấn luyện phân lớp mối quan hệ Xác định đặc trƣng bƣớc quan trọng cho hƣớng tiếp cập phân lớp Những ngƣời nghiên cứu phải khảo sát hàng loạt đặc trƣng từ vựng, cú pháp ngữ nghĩa Các đặc trƣng đƣợc sử dụng phổ biến đƣợc giới thiệu nhƣ sau: Đặc trưng khái niệm: Thƣờng hai khái niệm có tƣơng quan với loại mối quan hệ gồm từ bên khái niệm loại khái niệm Ví dụ: tập liệu ACE, khái niệm nhƣ: father, mother, brother sister loại khái niệm person định tốt cho loại quan hệ family Đặc trưng ngữ cảnh từ vựng: Ngữ cảnh trực tiếp xung quanh hai khái niệm quan trọng Cách đơn giản để kết hợp dấu hiệu (bằng chứng) từ ngữ cảnh sử dụng đặc trƣng từ vựng Ví dụ: từ founded xuất hai khái niệm, chúng có nhiều khả có mối quan hệ FounderOf Đặc trưng ngữ cảnh cú pháp: Các mối quan hệ cú pháp hai khái niệm khái niệm từ khác có Ví dụ: thực thể chủ ngữ động từ founded thực thể thứ hai túc từ động từ founded khẳng định tồn mối quan hệ FounderOf hai kh Các đặc trƣng cú pháp có đƣợc phải dựa phân tích cú pháp câu chứa thể mối quaái niệm hệ Tri thức sở (Background knowledge): Cơng trình [20] nghiên cứu sử dụng tri thức sở cho tốn rút trích mối quan hệ Phương pháp Kernel Một phƣơng pháp quan trọng rút trích mối quan hệ phân lớp dựa kernel Kernel đƣợc xem nhƣ độ đo tƣơng đồng quan sát Hiện có ba kiểu kernel phổ biến gồm kernel dựa chuỗi tuần tự, kernel dựa kernel ghép Kernel dựa chuỗi Tác giả cơng trình [16] định nghĩa kernel đơn giản dựa TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q3 - 2017 hƣớng phụ thuộc ngắn hai khái niệm Hai hƣớng phụ thuộc tƣơng đồng chúng có chiều dài chia nhiều nút (node) chung Ở đây, nút đƣợc biểu diễn từ đó, nhãn từ loại kiểu khái niệm Do hai hƣớng phụ thuộc “protestors  seized  stations” “troops  raided  churches” có giá trị tƣơng đồng khác hai đƣợc biễu diễn nhƣ “Person  VBD  Facility” mặc dùng chúng không chia từ chung Một hạn chế kernel hai hƣớng phụ thuộc với chiều dài khác có độ tƣơng tự Cơng trình [17] giới thiệu kernel chuỗi (subsequence) tƣơng đồng hai chuỗi đƣợc định nghĩa chuỗi tƣơng đồng chúng Tác giả thử nghiệm kernel chuỗi cho việc phát tƣơng tác protein-protein Kernel dựa Sử dụng cấu trúc chung để đo độ tƣơng đồng Tác giả cơng trình [4] định nghĩa kernel dựa cú pháp thể mối quan hệ Ý tƣởng hai phân tích cú pháp chia nhiều cấu trúc chung hai thể mối quan hệ tƣơng đồng Sau đó, cơng trình [1] mở rộng ý tƣởng phân tích cú pháp phụ thuộc Bên cạnh đó, cơng trình [10] áp dụng kernel tích chập đƣợc đề xuất lần đầu [11] nhằm rút trích mối quan hệ Phƣơng pháp dựa kernel tích chập sau đƣợc [8] cải tiến đạt đƣợc hiệu với độ đo F-1 gần 77% tập liệu chuẩn ACE 2004 Kernel ghép Là kết hợp nhiều kernel khác hình thành nên kernel ghép Điều đƣợc thực mà khơng thể tìm tất đặc trƣng cần thiết để hình thành kernel Cơng trình [18] định nghĩa số kernel cú pháp nhƣ kernel tham số kernel đƣờng dẫn phụ thuộc sau kết hợp thành kernel ghép Các tác giả [12] kết hợp kernel khái niệm với kernel tích chập hình thành nên kernel ghép 4.3 Hướng tiếp cận học bán giám sát Cả hai phƣơng pháp phân lớp dựa đặc trƣng dựa kernel cho tốn rút trích mối quan hệ dựa số lƣợng lớn liệu huấn luyện, tốn nhiều công sức thời gian Một giải pháp cho vấn đề phƣơng pháp học bán giám sát làm việc với liệu huấn luyện nhiều Phƣơng pháp học bán giám sát đáng ý cho việc rút trích mối quan hệ hạt giống (bootstrapping), tập nhỏ thể mối quan hệ ban đầu gọi hạt giống lặp 55 lặp lại để học nhiều thể mối quan hệ mẫu rút trích Nó đƣợc nghiên cứu mở rộng hai cơng trình [5, 19] Sau đó, mơ hình khác đƣợc gọi giám sát từ xa (distant supervision), phƣơng pháp đƣợc đề xuất để thực sử dụng số lƣợng lớn thể mối quan hệ biết sở tri thức lớn có sẵn để tạo liệu huấn luyện [13] Cả hai phƣơng pháp hạt giống giám sát từ xa có khuyết điểm tự động tạo liệu huấn luyện nhiễu Vì vậy, cần phải có giải pháp chọn đặc trƣng lọc mẫu Phần báo trình bày đề xuất hƣớng tiếp cận rút trích mối quan hệ cho tốn cụ thể xác định giá trị cho thuộc tính liên quan đến khái niệm (hay gọi toán điền mẫu) HƢỚNG TIẾP CẬN RÚT TRÍCH MỐI QUAN HỆ Y TẾ Bài toán xác định giá trị cho thuộc tính khái niệm y tế đƣợc đề xuất ShARe/ CLEFe Health 20142 Mỗi tài liệu y tế có danh sách khái niệm y tế gồm bệnh/rối loạn xuất tài liệu tƣơng ứng Mỗi bệnh/rối loạn đƣợc định nghĩa 10 thuộc tính Ý nghĩa thuộc tính giá trị chuẩn hóa cho thuộc đƣợc trình bày bảng nhƣ sau: BẢNG Ý NGHĨA CỦA TỪNG THUỘC TÍNH VÀ GIÁ TRỊ CHUẨN HÓA http://clefehealth2014.dcu.ie/ 56 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q3 - 2017 Mỗi thuộc tính đƣợc yêu cầu xác định giá trị gồm giá trị chuẩn hóa cho thuộc tính dấu hiệu nhận biết (trigger) giá trị chuẩn hóa thuộc tính, xem bảng BẢNG CÁC CÂU VÍ DỤ VÀ GIÁ TRỊ CHUẨN HĨA VÀ VỊ TRÍ DẤU HIỆU NHẬN BIẾT GIÁ TRỊ THUỘC TÍNH 5.1 Kiến trúc hệ thống Mỗi bệnh/rối loạn gồm 10 thuộc tính (đƣợc nêu trên), thuộc tính có u cầu khác nhau, hệ thống có kiết hợp phƣơng pháp bao gồm dựa từ điển, dựa luật máy học để giải tốn Cụ thể, thuộc tính từ đến áp dụng luật từ điển, thuộc tính áp dụng máy học luật, thuộc tính 10 áp dụng luật (biểu thức qui) Kiến trúc tổng quát hệ thống đƣợc trình bày hình Hình Kiến trúc hệ thống Tiền xử lý Trong trình tạo tài liệu lâm sàng, bác sĩ ngƣời chăm sóc y tế thƣờng hay sử dụng số ký hiệu thể ý nghĩa ngữ dụng nhƣ: dấu “–” “+” đứng trƣớc bệnh/rối loạn có ý nghĩa âm tính dƣơng tính (ví dụ: – lymphadenopathy +thyromegaly), dấu “?” đứng bên trái phải bệnh/rối loạn có ý nghĩa nghi ngờ (ví dụ: duplex?thrombus/clot) Xét mặt ngữ dụng dấu dấu hiệu để nhận biết giá trị cho thuộc tính Trong thành phần xử lý ngôn ngữ tự nhiên, hệ thống có sử dụng số thƣ viện xử lý ngơn ngữ tự nhiên có sẵn (xem thành phần xử lý ngôn ngữ tự nhiên) Đối với thƣ viện xem dấu nêu dấu câu nên chúng bị bỏ qua phân tích cú pháp phân tích phụ thuộc, điều làm dấu hiệu để xác định giá trị cho thuộc tính Cho nên, bƣớc tiền xử lý hệ thống thay dấu nêu thành ký tự khác để chúng xuất cú pháp đồ thị phụ thuộc Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên đƣợc thực nhằm mục đích chuyển tài liệu dạng khơng có cấu trúc bán cấu trúc dạng có cấu trúc để xử lý đƣợc máy tính Hệ thống sử dụng thƣ viện xử lý ngôn ngữ tự nhiên có sẵn Stanford NLP3 để thực việc nhƣ: tách câu từ tài liệu, câu tách thành token, xử lý cú pháp đồ thị phụ thuộc câu văn Stanford NLP thiết kế biểu diễn phụ thuộc (đồ thị phụ thuộc) để mô tả mối quan hệ ngữ pháp từ câu nhằm giúp cho ngƣời chun mơn ngơn ngữ học dễ dàng hiểu sử dụng để trích xuất mối quan hệ văn Hiện việc biểu diễn bao gồm xấp xỉ 50 mối quan hệ ngữ pháp Những phụ thuộc mối quan hệ nhị phân, nhƣ ba gồm mối quan hệ ngữ pháp chứa từ (governor/head) từ phụ thuộc (dependent) Ví dụ: xét câu “Her sternal wound developed purulent draiange, and the wound was opened and a vac dressing was applied there as well.”, kết biểu diễn phụ thuộc là: nmod:poss(wound-3, Her-1) amod(wound-3, sternal-2) nsubj(developed-4, wound-3) root(ROOT-0, developed-4) amod(draiange-6, purulent-5) dobj(developed-4, draiange-6) cc(developed-4, and-8) det(wound-10, the-9) http://stanfordnlp.github.io/CoreNLP/ TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q3 - 2017 nsubjpass(opened-12, wound-10) auxpass(opened-12, was-11) conj:and(developed-4, opened-12) cc(opened-12, and-13) det(dressing-16, a-14) compound(dressing-16, vac-15) nsubjpass(applied-18, dressing-16) auxpass(applied-18, was-17) conj:and(developed-4, applied-18) conj:and(opened-12, applied-18) advmod(well-21, there-19) advmod(well-21, as-20) advmod(applied-18, well-21) Để dễ dàng hiểu mối quan hệ ngữ pháp câu, phụ thuộc đƣợc ánh xạ đồ thị có hƣớng, từ câu nút đồ thị mối quan hệ ngữ pháp nhãn cạnh, hình biểu diễn đồ thị phụ thuộc cho câu ví dụ Các mối quan hệ đƣợc định nghĩa [14], định nghĩa sử dụng nhãn từ loại (POS) nhãn cụm từ Penn Treebank4 Hình Biểu diễn đồ thị phụ thuộc Rút trích trigger Các thuộc tính liên quan đến bệnh/rối loạn thuộc tính có ý nghĩa khác nên dấu hiệu nhận biết (trigger) giá trị chuẩn hóa cho thuộc tính khác Để thuận lợi cho trình xử lý thuộc tính đƣợc xây dựng danh sách dấu hiệu nhận biết giá trị chuẩn hóa riêng biệt đƣợc trích xuất từ liệu huấn luyện Cấu trúc danh sách gồm hai cột: cột chứa dấu hiệu nhận biết cột thứ hai chứa giá trị chuẩn hóa tƣơng ứng Ví dụ: bảng minh họa cho danh sách dấu hiệu nhận biết giá trị chuẩn hóa cho thuộc tính Course Class Sau có đƣợc danh sách dấu hiệu nhận biết thuộc tính, hệ thống tiếp tục làm giàu danh sách trigger từ nguồn tài nguyên nhƣ: https://www.cis.upenn.edu/~treebank/ 57 NegEx, WordNet, UMLS, … thơng qua nhóm từ đồng nghĩa tƣơng ứng Ví dụ: hệ thống sử dụng nguồn tài nguyên NegEx5 để bổ sung nhóm từ mang nghĩa phủ định cho thuộc tính Negation Indicator Việc làm giàu danh sách trigger, với mong muốn xác định đƣợc nhiều trƣờng hợp mà luyện huấn luyện khơng có nhằm nâng cao hiệu cho hệ thống BẢNG DANH SÁCH DẤU HIỆU NHẬN BIẾT GIÁ TRỊ THUỘC TÍNH THỨ (COURSE CLASS) Dấu hiệu nhận biết rapidly responded poorly controlled getting better fluctuating up trending down slow resolution … Giá trị chuẩn hóa improved worsened improved increased decreased improved … Rút trích luật Cơ sở để xây dựng tập luật dựa mối quan hệ ngữ pháp từ câu Bài toán xác định giá trị cho thuộc tính đƣợc chuyển tốn xác định mối quan hệ dấu hiệu bệnh/rối loạn sau có đƣợc danh sách dấu hiệu cho thuộc tính Dựa đặc trƣng thể nút trung gian từ thuộc dấu hiệu bệnh/rối loạn đồ thị phụ thuộc để xây dựng luật thể mối quan hệ, đặc trƣng đƣợc sử dụng bao gồm từ (governor), từ phụ thuộc (dependent) mối quan hệ ngữ pháp (nhãn cạnh – rel_label) (xem hình 5) Các luật xây dựng dựa mối quan hệ ngữ pháp từ câu đƣợc chia hai trƣờng hợp: trƣờng hợp luật xác định mối quan hệ dấu hiệu bệnh/rối loạn trƣờng hợp luật xác định mối quan hệ bệnh/rối loạn bệnh/rối loạn Ví dụ: xét câu “Extremities: No clubbing, cyanosis, or edema.”, câu có bệnh/rối loạn (clubbing, cyanosis edema) có dấu hiệu nhận biết No cho thuộc tính Negation Indicator Dựa kết đầu biểu diễn mối quan hệ ngữ pháp phụ thuộc hình cho thấy bệnh/rối loạn clubbing có quan hệ trực tiếp với dấu hiệu nhận biết No dòng (2), hai bệnh/rối loạn cyanosis edema có mối quan hệ với bệnh/rối loạn clubbing dòng (5) (7) https://healthinformatics.wikispaces.com/NegEx+Algorithm 58 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q3 - 2017 Hình Kết đầu phân tích phụ thuộc cho câu văn “Extremities: No clubbing, cyanosis, or edema.” Tập luật đƣợc hình thức hóa nhƣ sau: Case 1: If rel_label = “neg” and dependent  {list of disorder} and governor  {list of trigger} then else Case 2: If rel_label = “conj_or” and dependent  {list of disorder} and governor  {list of disorder} then else Từ liệu huấn luyện gồm 298 tài liệu (discharge summary, radiology report, ECHO report ECG report) rút trích đƣợc 773 luật (xem bảng 4) BẢNG KẾT QUẢ TẬP LUẬT ĐƢỢC RÚT TRÍCH TỪ TẬP DỮ LIỆU HUẤN LUYỆN TT Thuộc tính Số luật/thuộc tính Negation Indicator 131 Subject Class 16 Uncertainty Indicator 113 Course Class 120 Severity Class 84 Condition Class 108 Generic Class 21 Body Location 180 Tổng số luật Xác định giá trị thuộc tính Đối với thuộc tính Negation Indicator, Subject Class, Uncertainty Indication, Course Class, Condition Class, Generic Class Temporal Expression có cách thức xử lý hệ thống tiến hành xử lý lần lƣợt thuộc tính Đầu vào thành phần gồm Tập luật, danh sách dấu hiệu nhận biết (Trigger lists) tài liệu đánh giá qua bƣớc tiền xử lý xử lý ngôn ngữ tự nhiên (xem hình 6) Hình Thành phần xác định giá trị cho thuộc tính Đối với thuộc tính Body Location Ngồi phần xử lý giống nhƣ thuộc tính trên, hệ thống có sử dụng thêm nguồn tài nguyên UMLS để trƣờng hợp Trigger list khơng có chứa trigger cần tìm hệ thống tìm UMLS (xem hình 7) 773 Rút trích đặc trưng Đối với thuộc tính DocTime Class, hệ thống sử dụng hƣớng tiếp cận lai ghép kết hợp máy học luật đƣợc chia làm hai giai đoạn Giai đoạn 1: sử dụng phƣơng pháp máy học để phân lớp giá trị cho thuộc tính Giai đoạn 2: sử dụng phƣơng pháp dựa luật để điều chỉnh lại kết giai đoạn máy học Đối với phƣơng pháp máy học, vấn đề quan trọng chọn tập đặc trƣng để sử dụng huấn luyện mơ hình phân lớp Hệ thống sử dụng thuật toán SVM (Support vector machine) dựa tập đặc trƣng mà đề xuất [15] để tạo mô hình phân lớp Hình Thành phần xác định giá trị thuộc tính Body Location Đối với thuộc tính DocTime Class Để xác định giá trị cho thuộc tính DocTime Class, hệ thống sử dụng hƣớng tiếp cận lai ghép máy học luật, xem hình Trong thành phần Phân lớp, hệ thống sử dụng mơ hình đƣợc huấn luyện để phân lớp giá trị cho thuộc tính tập tài liệu đánh giá Sau đó, phân tích kết đầu bƣớc phân lớp máy học để tìm đặc trƣng xây dựng luật nhằm cải hiệu TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q3 - 2017 Hình Thành phần xác định giá trị thuộc tính DocTime Class Ở bƣớc xây dựng luật, tập luật đƣợc xây dựng dựa việc phân tích đặc điểm cụm động từ đặc điểm từ câu có chứa bệnh/rối loạn Đặc điểm cụm động từ Đặc điểm cụm động từ đƣợc xây dựng dựa nhận định sau: “Mỗi lớp có tập cụm động từ phổ biến thƣờng xuyên kèm với nó.” Ví dụ: lớp AFTER thƣờng có cụm động từ phổ biến kèm nhƣ: be evaluated, please, recommended, to evaluate, to be removed, to follow, to arrange, to check, may want, to prevent, prescribed, should return, v.v… Lớp BEFORE thƣờng có cụm động từ kèm nhƣ: reported, was treated, had been removed, had reported, … Những cụm động từ phổ biến đƣợc xác định cách tính trọng số (tf-idf) cụm động từ Các cụm động từ đại diện cho lớp xuất nhiều lớp này, nhƣng xuất lớp khác động từ theo lớp (BEFORE, OVERLAP, BEFORE_OVERLAP AFTER) Hệ thống tích hợp thƣ viện mở Lucene6 để tính trọng số tfidf, lập mục quản lý tập cụm động từ phổ biến Nhƣ vậy, sau giai đoạn này, có bốn tập cụm động từ đại diện cho bốn phân lớp nêu (xem hình 9) Đối với liệu đánh giá, hệ thống rút trích cụm động từ liên quan đến bệnh/rối loạn, cụm động từ đƣợc so khớp với bốn tập phân lớp (BEFORE, OVERLAP, BEFORE_OVERLAP AFTER) để tìm phân lớp mà có trọng số cụm động từ cao Đầu bƣớc cụm động từ với phân lớp tƣơng ứng Đặc điểm n-grams Đặc điểm n-grams đƣợc xây dựng dựa ý tƣởng nhƣ sau: “Nếu phân đoạn văn (paragraph) chứa phần lớn bệnh/rối loạn thuộc lớp, vài bệnh/rối loạn thuộc lớp khác, câu chứa vài bệnh/rối loạn thuộc lớp khác có khả chứa từ đặc biệt để phân lớp” Ví dụ: Phân đoạn văn với phần lớn bệnh/rối loạn thuộc phân lớp BEFORE_OVERLAP, có vài bệnh/rối loạn thuộc BEFORE, câu chứa bệnh/rối loạn chứa đựng từ mang dấu hiệu đặc biệt cho lớp BEFORE Từ liệu huấn luyện, tài liệu đƣợc tách thành phân đoạn Trong phân đoạn, thống kê số lƣợng bệnh/rối loạn theo lớp xác định đƣợc câu chứa bệnh/rối loạn thuộc lớp chiếm thiểu số phân đoạn văn Trên câu rút trích uni-gram bi-gram, sau gom thành nhóm tính tần số theo lớp tƣơng ứng Kết túi từ (bag-of-words) đại diện cho lớp Sau bƣớc này, có bốn túi từ uni-gram cho bốn lớp bốn túi từ bi-gram cho bốn lớp tƣơng ứng (BEFORE, OVERLAP, BEFORE_OVERLAP AFTER) (xem hình 10) Hình Xử lý cụm động từ tập liệu huấn luyện Q trình thực tính trọng số cho cụm động từ nhƣ sau: Từ liệu huấn luyện, sử dụng Processing Resource ANNIE VP Chunker GATE để rút trích cụm động từ câu chứa bệnh/rối loạn Sau đó, gom nhóm cụm 59 Hình 10 Xử lý n-gram liệu huấn luyện https://lucene.apache.org/ 60 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q3 - 2017 Đối với liệu đánh giá, ứng với rối loạn, trích uni-gram bi-gram câu chứa rối loạn Tiếp theo tính tốn xem uni-gram bi-gram thuộc túi từ lớp nhiều Sau trình này, tìm đƣợc lớp khớp theo uni-gram bi-gram Rules Luật đƣợc xây dựng dựa kết hợp hai đặc điểm cụm động từ n-gram Gọi v lớp có điểm số cao theo đặc điểm cụm động từ; u b lớp có điểm số cao theo đặc điểm unigram bi-grams Luật đƣợc phát biểu nhƣ sau: Nếu v BEFORE (u b) BEFORE kết luận BEFORE Nếu v BEFORE_OVERLAPS (u b) BEFORE_OVERLAPS kết luận BEFORE_OVERLAPS Nếu v OVERLAP (u b) OVERLAP kết luận OVERLAP Nếu v AFTER (u b) AFTER kết luận AFTER 5.2 Phương pháp đánh giá kết Hiệu hƣớng tiếp cận đƣợc đánh giá dựa độ xác (accuracy) độ hài hòa (F1-measure) nhƣ sau: Dự đốn giá trị chuẩn hóa cho thuộc tính: Phƣơng pháp đánh giá: Accuracy (tổng thể thuộc tính) Accuracy (Acc) = Correct/Total Correct: Số lƣợng giá trị chuẩn hóa Total: Tổng số giá trị Dự đốn dấu hiệu nhận diện giá trị thuộc tính: Phƣơng pháp đánh giá: F1-score (tổng thể thuộc tính) F1-score (F1) = (2 * R * P) / (R + P) Recall (R) = TP / (TP + FN) Precision (P) = TP / (TP + FP) TP: Số lƣợng hệ thống dự đoán FP: Số lƣợng hệ thống dự đoán sai FN: Số lƣợng mà hệ thống khơng dự đốn đƣợc 5.3 Kết đánh giá Tập liệu ShARe/CLEF eHealth 2014 cung cấp Dữ liệu đánh giá gồm 133 tài liệu (discharge summary) Kết hệ thống đƣợc đánh giá thuộc tính tổng thể bảng Trong liệu đánh giá, riêng thuộc tính thứ (GC) khơng có liệu đánh giá nên độ xác 100% độ đo lại BẢNG KẾT QUẢ CỦA HƢỚNG TIẾP CẬN Thuộc tính NI SC UI CC SV CO GC BL DT TE Tất Acc 0.910 0.995 0.877 0.937 0.961 0.899 1.000 0.551 0.519 0.830 0.849 F1 0.803 0.736 0.385 0.410 0.662 0.441 0.000 0.330 0.519 0.313 0.461 P 0.735 0.760 0.274 0.317 0.626 0.340 0.000 0.309 0.519 0.337 0.422 R 0.885 0.713 0.646 0.577 0.702 0.625 0.000 0.354 0.519 0.292 0.532 Kết hƣớng tiếp cận đề xuất (TeamHCMUS) đƣợc xếp thứ hai theo đánh giá hệ số tính (accuracy) nhóm tham gia, xem bảng BẢNG KẾT QUẢ CỦA 10 NHÓM THAM GIA SHARE/CLEF EHEALTH 2014 Các nhóm tham gia TeamHITACHI TeamHCMUS RelAgent DFKI-Medical LIMSI TeamUEvora ASNLP CLEFeHealth2014 Text_result TeamCORAL TeamGRIUM HPI_2a clefehealth2014 submission_29 Acc 0.868 0.849 0.843 0.822 0.804 0.802 0.793 0.790 0.780 0.769 Một số nhận xét phƣơng pháp mà nhóm sử dụng Nhóm HITACHI sử dụng hƣớng tiếp dựa máy học luật cho chín thuộc tính, riêng thuộc tính DocTime dựa máy học, bƣớc tác giả dùng phƣơng pháp máy học bƣớc thứ hai họ sử dụng phƣơng pháp luật để tinh chỉnh kết bƣớc máy học hệ thống họ đạt kết cao (Accuracy 0.868) Trong đó, nhóm HCMUS áp dụng phƣơng pháp máy học luật thuộc tính DocTime Class, thuộc tính lại sử dụng phƣơng pháp luật, kết accuracy thuộc tính DocTime 0.519 cao tất nhóm Còn nhóm RelAgent sử dụng hƣớng tiếp cận hồn tồn dựa luật đạt kết thấp hai nhóm (xem bảng 6) Nhƣ xét mặt phƣơng pháp hƣớng tiếp cận lai ghép cho kết tốt KẾT LUẬN Trong báo trình bày hƣớng tiếp cận cho tốn rút trích mối quan hệ khái TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q3 - 2017 niệm y tế từ tài liệu lâm sàng lĩnh vực y tế đề xuất hƣớng tiếp cận rút trích mối quan hệ y tế tốn cụ thể xác định giá trị cho thuộc liên quan đến khái niệm y tế (điền mẫu) Đây tốn phức tạp đòi hỏi phải kết hợp nhiều kỹ thuật nhằm giải toán Hƣớng tiếp cận kết hợp phƣơng pháp dựa từ điển, dựa luật, biểu thức qui máy học Tập luật đƣợc xây dựng dựa mối quan hệ ngữ nghĩa phụ thuộc khái niệm dấu hiệu nhận biết giá trị, biểu thức thời gian 61 Hiệu hƣớng tiếp cận đƣợc nêu nguồn động viên khích lệ cho chúng tơi tham gia với cộng đồng quốc tế giải tốn có ý nghĩa thực tế cao Đây lĩnh vực nghiên cứu mẽ Việt Nam Tuy nhiên, hƣớng tiếp cận cần tập trung nghiên cứu cải tiến hiệu cho thuộc tính thấp nhƣ thuộc tính thứ tám (BL) thứ chín (DT) Đây hai thuộc tính phức tập trình xác định giá trị cho thuộc tính 62 SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q3 - 2017 An approach in health relation extraction Huynh Huu Nghia, Ho Bao Quoc, Nguyen An Te Abstract—Extracting relations among medical concepts is very important in the medical field The relations denote the events or the possible relations between the concepts Information about these relations provides users with a full view of medical problems This helps physicians and health-care practitioners make effective decisions and minimize errors in the treatment process This paper collects methods for relations extraction in health texts and presents an approach on one type of specific relation (i.e template filling) The approach combines methods including rule-based and machine learning- based The rule-based method uses the relation of semantic dependencies among the concepts to extract the rule set The machine learning-based method uses the SVM (Support Vector Machine) algorithm and a feature set proposed The results of the approach were estimated on an accuracy of 0.849 Keywords—Relation extraction, information extraction, clinical information extraction, text mining TÀI LIỆU THAM KHẢO [1] Aron Culotta and Jeffrey Sorensen (2004) Dependency tree kernels for relation extraction In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, pages 423–429 [2] Ben Abacha, Asma; Zweigenbaum, Pierre (2011) Automatic extraction of semantic relations between medical entities: a rule based approach In: J Biomed Semantics Suppl 5, pp S4 – URL http://dx.doi.org/10.1186/2041-1480-2-S5-S4 [3] Corney, David P A.; Buxton, Bernard F.; Langdon, William B.; Jones, David T.: BioRAT: extracting biological information from full-length papers In: Bioinformatics 20 (2004), Nov, No 17, pp 3206–3213 – URL http://dx.doi.org/10.1093/bioinformatics/bth386 [4] Dmitry Zelenko, Chinatsu Aone, and Anthony Richardella (February 2003) Kernel methods for relation extraction Journal of Machine Learning Research, 3:1083–1106, February 2003 [5] Eugene Agichtein and Luis Gravano Snowball: Extracting relations from large plain-text collections In Proceedings of the 5th ACM Conference on Digital Libraries, pages 85–94, 2000 [6] Fundel, Katrin; Küffner, Robert; Zimmer, Ralf (2007) RelEx–relation extraction using dependency parse trees In: Bioinformatics 23, Feb, No 3, pp 365–371 – URL http://dx.doi.org/10.1093/bioinformatics/btl616 [7] Kurt Bollacker, Colin Evans, Praveen Paritosh, Tim Sturge, and Jamie Taylor (2008) Freebase: a collaboratively created graph database for structuring human knowledge In Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, pages 1247–1250 [8] Longhua Qian, Guodong Zhou, Fang Kong, Qiaoming Zhu, and Peide Qian (2008) Exploiting constituent dependencies for tree kernelbased semantic relation extraction In Proceedings of the 22nd International Conference on Computational Linguistics, pages 697– 704 [9] Morante, R.; Daelemans, W (2009) Learning the scope of hedge cues in biomedical texts In: Workshop on BioNLP, pp 28–36 [10] Min Zhang, Jie Zhang, and Jian Su (2006) Exploring syntactic features for relation extraction using a convolution tree kernel In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, pages 288–295 [11] Michael Collins and Nigel Duffy (2001) Convolution kernels for natural language In Advances in Neural Information Processing Systems 13 [12] Min Zhang, Jie Zhang, Jian Su, and GuoDong Zhou (2006) A composite kernel to extract relations between entities with both flat and structured features In Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics, pages 825–832 [13] Mike Mintz, Steven Bills, Rion Snow, and Daniel Jurafsky (2009) Distant supervision for relation extraction without labeled data In Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pages 1003–1011 [14] Marie-Catherine de Marneffe and Christopher D Manning (2013) Stanford typed dependencies manual, September 2008, revised for the Stanford Parser v 3.3 in December 2013 [15] Nghia Huynh and Quoc Ho (2015) A Combined Approach for Disease/Disorder Template Filling Proceedings: 2015 IEEE International Conference on Knowledge and Systems Engineering, pages 328– 331 Ho Chi Minh City, Vietnam, October 2015 ISBN 978-1-4673-8013-3/15 $31.00 © 2015 IEEE DOI 10.1109/KSE.2015.62 TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q3 - 2017 [16] Razvan Bunescu and Raymond Mooney (2005) A shortest path dependency kernel for relation extraction In Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing, pages 724–731 [17] Razvan Bunescu and Raymond Mooney (2006) Subsequence kernels for relation extraction In Advances in Neural Information Processing Systems 18, pages 171–178 [18] Shubin Zhao and Ralph Grishman (2005) Extracting relations with integrated information using kernel 63 methods In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, pages 419–426 [19] Sergey Brin (1998) Extracting patterns and relations from the World Wide Web In Proceedings of the 1998 International Workshop on the Web and Databases [20] Yee Seng Chan and Dan Roth (2010) Exploiting background knowledge for relation extraction In Proceedings of the 23rd International Conference on Computational Linguistics, pages 152–160 ... phép rút trích gán nhãn thực thể mối quan hệ văn y tế Hƣớng tiếp cận hệ thống dựa qui tắc ngôn ngữ để rút trích mối quan hệ triệu chứng vấn đề y tế 4.2 Hướng tiếp cận m y học Hƣớng tiếp cận m y. .. vực y tế, mối quan hệ tƣơng tác protein-protein, mối quan hệ vấn đề y tế điều trị, … Một số tốn liên quan đến rút trích mối quan hệ bao gồm: xác định mối quan hệ hai khái niệm (mối quan hệ nhị phân),... mối quan hệ khái niệm Ví dụ: mối quan hệ Gene-Bệnh, tƣơng tác Protein-Protein mối quan hệ Điều trị Vấn đề y tế Mục tiêu báo hệ thống hƣớng tiếp cận cho toán rút trích mối quan hệ tài liệu y tế

Ngày đăng: 20/01/2020, 03:06