Chƣơng 4– MỘT MƠ HÌNHNÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC
4.3.4 Thảo luận và phân tích lỗ
Thực nghiệm đƣợc tiến hành trong luận án đã xây dựng thành công hệ thống NER y sinh dựa trên phƣơng pháp lai ghép kết hợp nhiều nguồn tài nguyên và gán nhãn học máy. Các thực nghiệm loại bỏ học máy hoặc từng loại tài nguyên chứng minh rằng sự kết hợp của nhiều phƣơng pháp sẽ đem lại kết quả tốt nhất cho hệ thống. Điều này hoàn tồn có thể đƣợc giải thích bởi mỗi phƣơng pháp sẽ có ƣu điểm riêng của mình, nhƣng đồng thời cũng có nhƣợc điểm cần sử dụng phƣơng pháp khác để bù vào. Phƣơng pháp học máy giúp hệ thống tận dụng đƣợc các đặc trƣng của ngữ cảnh, vì vậy nó có tác dụng tốt với các thực thể có cấu trúc nội tại phức tạp hoặc có thể đƣợc nhận dạng dựa vào ngữ cảnh chứa nó, ví dụ, áp dụng học máy giúp tăng kết quả nhận dạng thực thể PH lên đến 13.8%. Tƣơng tự nhƣ vậy, từng tài ngun đều có vị trí hợp lý để phát huy thế mạnh của mình, ví dụ thực thể sinh vật OR trong y sinh chấp nhận gán nhãn rất nhiều danh từ chung (nhƣ "family",
"case", "cohort", v.v.. ) các danh từ này gần nhƣ khơng thể đƣợc trích xuất bằng bộ
gán nhãn học máy, nhƣng sử dụng Linnaeus lại khiến việc này trở nên tƣơng đối dễ dàng, chính vì thế mà áp dụng Linnaeus khiến kết quả nhận dạng thực thể OR tăng lên đến 25.5%. Đôi khi hiệu quả đóng góp của một tài nguyên đối với hệ thống khơng hồn tồn là do tính chất phù hợp của nó về mặt phƣơng pháp luận, mà cịn vì kích thƣớc đồ sộ và độ phủ của chúng, ví dụ nhƣ từ điển Jochems là một nguồn tài nguyên tồn diện kết hợp thơng tin từ UMLS, MeSH, Chebi, DrugBank,
115
KEGG,HMDB, và ChemIDplus, nên việc sử dụng nó để nhận dạng thực thể CD cải thiện kết quả lên đến 38.8%.
Tuy nhiên, việc sử dụng các tài nguyên tri thức vào mơ hình vẫn cịn nhiều hạn chế, đặc biệt là với phƣơng pháp đối sánh chuỗi nhƣ đang sử dụng. Nhận định này đặc biệt quan trọng khi xử lý những thực thể có cấu trúc phức tạp, ví dụ nhƣ thực thể biểu hiện PH. Cụ thể, giả sử ta có thực thể "serum total immunoglobin"trong dữ liệu, theo lý thuyết thì nó phải đƣợc ánh xạ vào thuật ngữ "abnormal serum level of immunoglobin/increased serum level of immunoglobin G"của HPO. Tuy nhiên kỹ thuật đối sánh chuỗi thông thƣờng không thể làm đƣợc
việc này mà địi hỏi một vài phân tích sâu hơn về mặt ngữ nghĩa.
Bảng 4.5. Các lỗi của mô đun quyết định kết quả sử dụng danh sách ưu tiên (PL) và học xếp hạng sử dụng SVM (LTR)
(NC: Gán nhãn chuẩn của dữ liệu, HM: Bộ gán nhãn học máy, RU: bộ gán nhãn dựa trên luật, TD: Bộ gán nhãn dựa trên từ điển, QD: Quyết định kết quả. DS: Danh sách ưu tiên, LTR: SVM-LTR. Tài nguyên được sử dụng trong bộ gán nhãn dựa trên từ điển tương ứng như sau: aUMLS C0004364, bHP 0002099, cUMLS
C0004096, dMP 0002492 và HP 0003212,eNCBI Gene dictionary)
Thực thể NC HM RU TD QD PH GG DS CD AN PL LTR 1 susceptibilities to auto immune disease PH PH ─ ─ ─ DSa ─ ─ DS PH 2 asthma and atopy phenotypes PH PH ─ PHb ─ DSc ─ ─ DS PH 3 IgE levels PH GG ─ PHd ─ ─ ─ ─ PH GG 4 Toll-like receptor IL-1R PH GG ─ ─ GG e ─ ─ ─ GG GG
116 pathways 5 MyD88- deficiency PH GG ─ ─ ─ ─ ─ ─ GG GG 6 allergen- induced bronchial inflammation PH DS ─ ─ ─ ─ ─ ─ DS DS
Việc sử dụng nhiều phƣơng pháp có ƣu điểm tận dụng nhiều nguồn tài nguyên, và các đặc trƣng quý giá từ dữ liệu, tuy nhiên việc lựa chọn một kết quả cuối cùng lại đem đến một thách thức không dễ giải quyết. Các thực nghiệm chỉ ra rằng học xếp hạng sử dụng máy vector hỗ trợ để lựa chọn nhãn cuối cùng đem lại kết quả tốt nhất. Tuy nhiên, kết quả khi sử dụng SVM-LTRkhông vƣợt trội nhiều so với danh sách ƣu tiên (0,7%). Bảng 4.5 chỉ ra một số ví dụ về các lỗi của danh sách ƣu tiên cũng nhƣ SVM-LTR. Trong bảng này các ví dụ hàng 1 và 2 là khi danh sách ƣu tiên đƣa ra kết quả sai trong khi SVM-LTRđƣa ra lựa chọn đúng. Ngƣợc lại, ví dụ hàng 3 là một trƣờng hợp khi danh sách ƣu tiên trả về kết quả chính xác nhƣng SVM-LTR lại sai. Các ví dụ hàng 4-5 là trƣờng hợp khi cả hai phƣơng pháp đều trả về kết quả sai.
Sử dụng danh sách ƣu tiên là một phƣơng pháp dựa trên luật mang tính kinh nghiệm quá chặt chẽ, vì vậy trong các trƣờng hợp hay xảy ra nhập nhằng, phƣơng pháp này có thể sẽ đƣa ra lựa chọn sai. Các trƣờng hợp nhập nhằng về mặt ngữ nghĩa bao gồm nhập nhằng giữa DS và PH, OR và DS, PH và OR, v.v.. Ví dụ, trong danh sách ƣu tiên, DS có độ ƣu tiên cao hơn PH. Luật này đúng trong trƣờng hợp các tên bệnh nhƣng lại đƣợc đƣa vào trong HPO, dẫn đến việc bộ gán nhãn dựa trên HPO sẽ gán nhãn nhầm, ví dụ nhƣ ―asthma‖, ―allergy”. Tuy nhiên luật này lại sai trong trƣờng hợp thực thể có ý nghĩalà biểu hiện của bệnh, tức là thực thể này phải đƣợc gán nhãn PH, ví dụ “asthma-related phenotypes”, “pathogenesis of early- onset persistent asthma”. Đối với những trƣờng hợp nhập nhằng này, học xếp hạng
117
sử dụngthể hiện ƣu điểm ở tính mềm dẻo của nó so với danh sách ƣu tiên, hệ thống sẽ chọn nhãn hợp lý nhất dựa vào nhiều yếu tố khác nhau.
Tuy nhiên, trong nhiều trƣờng hợp danh sách ƣu tiên vẫn là một sự lựa chọn tốt để quyết định kết quả. Cụ thể, dựa trên phân tích bản thể học của PH và GG, thƣờng có nhiều trƣờng hợp mà GG là một phần tạo thành PH, trƣờng hợp ngƣợc lại có vẻ là rất hiếm. Nhƣ vậy, luật ƣu tiên PH hơn so với GG sẽ đem lại kết quả chính xác trong đa số trƣờng hợp, sử dụng học xếp hạng một cách linh hoạt là không cần thiết.