Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH
3.2.1. Cơ sở lý thuyết
So với các thực thể y sinh khác, tính đến nay, có rất ít nghiên cứu tập trung vào việc nhận dạng các thực thể biểu hiện [CF04, KMR11, GHZ12]. Chen và
76
Friedman [CF04] xây dựng hệ thốngBioMedLEE dựa trên các luật đƣợc biểu diễnbằng các quy tắc ngữ pháp (grammar rule) và sử dụng tập từ vựng từ hệ thống Unified Medical Language System và Mammalian Ontology [SGE04]. Năm 2011, Khordad và cộng sự [KMR11] xây dựng một hệ thống nhận dạng thực thể biểu hiệndựa trên MetaMap, UMLS Metathesaurus và Human Phenotype Ontology cùng năm luật đƣợc xây dựng thủ công nhằm nắm bắt các đặc điểmngơn ngữ và hình thái của biểu hiệntrong miền dữ liệu thực nghiệm. Hình 3.4 mơ tả mơ hình của hệ thống này. Một đóng góp khác trong nghiên cứu [KMR11] là bộ dữ liệu gán nhãn thủ công đƣợc xây dựng trong nghiên cứu, mặc dù là một bộ dữ liệu nhỏ, nhƣng cũng có giá trị cho mục đích so sánh; mơ tả kỹ hơn về dữ liệu này sẽ đƣợc nêu trong phần tài nguyên ở mục (c) thuộc phần 3.2.2.
Hình 3.4. Mơ hình nhận dạng thực thể biểu hiện của Khordad và cộng sự [KMR11]
Gần đây hơn, Groza và cộng sự [GZH12] đƣa ra mơ hình thực thể-chất lƣợng (Entity-Quality; EQ), đây là một cách tiếp cận khác bằng cách cố gắng nghiên cứu chi tiết mơ hình cấu trúc nội bộ của từ dựa trên những giá trị chất/lƣợng và bộ phận cơ thể gắn với thực thể đó. Điều này nhằm mục đích giảm các cụm từ nhiễukhơng liên quan nhiều đến nội dung của thực thể, nhƣ trong câu "irregular flared metaphyses ... with streaky sclerosis"đƣợc chuẩn hóa thành "irregular flared streaky sclerosis metaphyses". Các tác giả kiểm thử kỹ thuật của họ bằng một bộ dữ
77
liệu các thuật ngữ đƣợc trích ra từ nhánh “Abnormality of the skeletal system”(HP:000924) thuộc Human Phenotype Ontology.
Từ việc khảo sát những nghiên cứu nói trên đem lại một số kết luận sau đây:(1) Cảm nhận về thực thể biểu hiện là rất khác nhau giữa các chuyên gia, vì vậy cần thiết phải có một hƣớng dẫn chú thích đầy đủ và thống nhất [CF04]. (2) Các cách tiếp cận dựa trên hệ luật, ontology và các công cụ nhƣ UMLS, HPO và MetaMap đều đem lại kết quả có giá trị [CF04, KMR11], tuy nhiên sự kết hợp của phƣơng pháp này với các phƣơng pháp dựa trên học máy có thể giúp cải thiện kết quả. (3) Hiệu suất của mơ hình nhận dạngthực thể biểu hiện phụ thuộc khá nhiều vào việc thực thể có bao gồm cả đối tƣợng và các q trình của cơ thể hay không [CF04]. (4) Sự nhập nhằng về mặt từ vựng giữa thực thể biểu hiện và các thực thể liên quan là một vấn đề quan trọng [GHZ12].