Chƣơng 4– MỘT MƠ HÌNHNÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC
4.1. Mơ hình nâng cấp nhận dạngthực thể biểu hiệnvà cácthực thể liên quan
nghiệm cũng nhƣ kết quả đánh giá hiệu quả của mơ hình đƣợc đề xuất.
4.1. Mơ hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên quan quan
Mơ hình mà luận án đề xuất để nâng cấp kết quả thực nghiệm trong chƣơng 3, là tiếp cận sử dụng phƣơng pháp lai ghép cácmơ hình học máy và các nguồn tài nguyên tri thức theo nhiều cách khác nhau. Mơ hình hệ thống NER này đƣợc mơ tả trực quan trong Hình 4.1.
103
Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh
Hệ thống đƣợc chia làm bốn pha chính nhƣ sau:
(1) Tiền xử lý: Pha này đƣợc thực hiện tƣơng tự nhƣ pha tiền xử lý đƣợc mô tả trong phần 3.2.3 tại chƣơng 3.
(2) Trích chọn đặc trƣng là pha xử lý cần phải có trƣớc khi huấn luyện hay gán nhãn dữ liệu. Nhiệm vụ của pha này là trích xuất ra các đặc trƣng đã xác định trƣớc của từng từ vựng trong câu. Các đặc trƣng tƣơng ứng với từng bộ nhận dạng sẽ đƣợc mô tả trong bƣớc sau.
(3) Gán nhãn dữ liệu theo từng câu: Các bộ gán nhãn sẽ sử dụng những đặc trƣng đã đƣợc trích chọn ở bƣớc trên để gán nhãn cho từng câu trong dữ liệu. Ở đây có 7 bộ gán nhãn thuộc về ba loại hoạt động tách biệt (1 bộ gán nhãn dựa trên luật, 5 bộ gán nhãn dựa trên từ điển, 1 bộ gán nhãn dựa trên học máy) và đƣa ra 7 kết quả đầu ra tƣơng ứng. Ba loại bộ gán nhãn này gồm có:
Bộ gán nhãn dựa trên luật sẽ đối sánh dữ liệu với các luật đã đƣợc định
nghĩa trƣớc để gán nhãn những dữ liệu phù hợp với luật. Các tài nguyên và công cụ sử dụng trong bộ gán nhãn này gồm có MetaMap, ontology PATO cùng danh sách bổ ngữ, ontology về các bộ phận cơ thể (FMA), và từ điển Gene của NCBI (GG). Dƣới đây là một ví dụ về luật đƣợc xây dựng và sử dụng.Trong luật này, vế trái là một mẫu phù hợp với bất kỳ chuỗi nào có chứa một từ nằm trong PATO và theo sau đó là một từ nằm trong FMA, vế phải là hành động nếu chuỗi từ vựng phù hợp với điều kiện ở vế trái thì nó phải đƣợc gán nhãn PH (thực thể biểu hiện).
(sequence = [term in PATO]+ [term in FMA]) → PH
Các bộ gán nhãn dựa trên từ điển, sử dụng kỹ thuật đối sánh dài nhất
(longest matching) để nhận dạng các thực thể có xuất hiện trong một ontology nào đó khơng. Có 5 nhóm ontology thuộc về 5 loại thực thể (FMA và BTO cho thực thể AN, Jochem cho thực thể CD, GD cho thực thể GG, HPO và MP cho thực thể PH và UMLS cho thực thể DS). Tƣơng ứng với đó, có 5 bộ gán nhãn dựa trên từ điển đem lại 5 kết quả đầu ra
104
khác nhau.Hình 5.1 dƣới đây đƣa ra ví dụ gán nhãn các đặc trƣng trong
câu “one has required dioxin for heart failure” sử dụng các tài nguyên
nói trên bằng cách chỉ ra vị trí (ID) của từ vựng trong tài ngun đó.
Hình 4.2. Một ví dụ gán nhãn các đặc trưng dựa trên tài nguyên trong câu
(4) Quyết định kết quả: Nhƣ vậy, trong pha gán nhãn dữ liệu nói trên, hệ thống sử dụng 7 bộ gán nhãn (thuộc về 3 loại), tƣơng ứng với đó là 7 kết quả đầu ra khác nhau, và trong nhiều trƣờng hợp sẽ có sự xung đột giữa các kết quả này. Việc lựa chọn một kết quả duy nhất cho hệ thống không phải là điều đơn giản, nó quyết định trực tiếp đến chất lƣợng của hệ thống. Pha quyết định kết quả của hệ thống sử dụng một trong ba phƣơng pháp sau để lựa chọn ra một kết quả cuối cùng: học xếp hạng sử dụng SVM, học máy MEM+BS hoặc sử dụng danh sách ƣu tiên đƣợc xây dựng dựa trên kinh nghiệm. Các mô tả chi tiết về những phƣơng pháp này sẽ đƣợc nêu trong phần thực nghiệm.