Chƣơng 3– NHẬN DẠNGTHỰC THỂ BIỂU HIỆNTRONG VĂN BẢN Y SINH TIẾNG ANH
3.2.4. Tập đặc trưng và đánh giá đặc trưng
Tập đặc trƣng (Bảng 3.3) đƣợc sử dụng trong mô hình nhận dạng thực thể gồm hai nhóm chính:
- Nhóm đặc trƣng cơ bản gồm các đặc trƣng thƣờng sử dụng trong các bài tốn nhận dạng thực thể thơng thƣờng nhƣ từ đang xét, từ gốc (dạng chuẩn trong tiếng Anh sau khi đã loại bỏ số nhiều, thì, loại từ…), từ loại, cụm từ (phrase), hình thái từ (viết hoa, viết thƣờng, dấu, số…), đặc trƣng ngữ cảnh xung quanh.
- Nhóm đặc trƣng liên quan tri thức miền gồm các đặc trƣng đƣợc sinh ra nếu từ vựng đang xét thuộc một từ điển hay ontology liên quan đến một loại thực thể đang đƣợc xem xét trong mơ hình. Ở đây mơ hình nhận dạng thực thể biểu hiện và các thực thể liên quan sử dụng 9 từ điển, ontology và cơ sở dữ liệu về các thuật ngữ y sinh, cụ thể:
o Các tài nguyên về thực thể biểu hiện của ngƣời và chuột Human
phenotype ontology (HPO)16 bao gồm 9.500 thuật ngữ gốc (tƣơng ứng
với hơn 15.800 từ đồng nghĩa) mô tả các đặc trƣng biểu hiện của con
16Human Phenotype Ontology http://www.human-phenotype-ontology.org
84
ngƣời (thống kê năm 2012), Mammalian phenotype ontology (MP)
[SGE04] có 9.162 thuật ngữ gốc (tƣơng ứng 23.712 từ đồng nghĩa) về các mô tả bất thƣờng trong biểu hiện của chuột (thống kê năm 2013).
Bảng 3.3. Các đặc trưng sử dụng trong thực nghiệm
STT Đặc trƣng IG(A; Fi) GR(A; Fi) IG(B; Fi) GR(B; Fi)
1 Từ 1,17 0,13 1,20 0,13 2 Từ gốc 1,15 0,13 1,18 0,13 3 Đặc trƣng ngữ cảnh 1,05 0,12 1,11 0,11 4 Nhãn từ loại 0,36 0,09 1,18 0,13 5 Nhãn cụm từ 0,22 0,12 0,26 0,10 6 Hình thái từ 0,15 0,08 0,16 0,08 7 Tiền tố miền 0,11 0,11 0,11 0,10 8 Hậu tố miền 0,08 0,11 0,08 0,11 9 Độ dài từ 0,13 0,05 0,16 0,06 10 Dấu ngoặc 0,04 0,20 0,04 0,23 11 Viết tắt 0,08 0,22 0,06 0,24 12 HPO 0,07 0,41 0,09 0,33 13 MP 0,03 0,33 0,06 0,33 14 PATO 0,01 0,03 0,02 0,04 15 BTO 0,03 0,32 0,03 0,29 16 FMA 0,05 0,28 0,05 0,23 17 JOCHEM 0,01 0,15 0,01 0,14 18 GD 0,02 0,18 0,02 0,19
85
19 UMLS 0,48 0,12 0,52 0,11
20 Lineaus 0,50 0,10 0,47 0,10
o Các tài nguyên hỗ trợ trong việc phân tích cấu trúc nội tại của thực thể biểu hiện gồm có Phenotypic Quality Ontology (PATO)17là một ontology về các thuộc tính chất/lƣợng của biểu hiện (theo thống kê năm 2012 gồm 1.400 từ với 2.200 từ đồng nghĩa)và một danh sách gồm 85 bổ ngữcó tần số xuất hiện cao trong các thực thể biểu hiện của HPO đƣợc xây dựng trong luận án.
o Các tài nguyên về bộ phận cơ thể con ngƣời nhƣ Foundational Model
of Anatomy ontology (FMA)18 chứa khoảng 120.000 từ trong 75.000 lớp về các bộ phận cơ thể (phiên bản năm 2012), Brenda tissue ontology (BTO) [GCS11]chứa 5.500 từ, liên kết đến 9.600 từ đồng nghĩa và 4.500 định nghĩa (thống kê tháng 8/2013).
o Các tài nguyên liên quan đến GG gồm có Gene dictionary do NCBI
(GD)19cung cấp gồm khoảng hơn 9 triệu gen (số liệu năm 2013) và bộ gán nhãn gen Genia tagger [TTK05] đƣợc Tsuruoka và cộng sựxây dựng.
o Công cụ Lineaus [GNB10] nhận dạng các tên loài sinh vật.
o Từ điển the joint chemical dictionary (Jochem) về hóa chất và thuốc
[HSS09] chứa khoảng 320.000 từ (số liệu cập nhật năm 2012).
o Unified medical language system (UMLS) là một tập hợp các dữ liệu
và phần mềm trong lĩnh vực y sinh và sức khỏe. Trong luận án, UMLS đƣợc sử dụng bằng hai cách. Thứ nhất, công cụ MetaMap của UMLS đƣợc sử dụng để gán nhãn dữ liệu về 133 nhóm ngữ nghĩa
17Phenotypic Quality Ontology. http://bioportal.bioontology.org/ontologies/PATO 18Foundational Model of Anatomy ontology. http://sig.biostr.washington.edu/projects/fm/ 18Foundational Model of Anatomy ontology. http://sig.biostr.washington.edu/projects/fm/ 19NCBI Gene dictionary. http://www.ncbi.nlm.nih.gov/gene
86
UMLS, các nhãn này sẽ đƣợc sử dụng nhƣ một đặc trƣng trong các bộ gán nhãn học máy. Thứ hai, các từ vựng thuộc về 6 nhóm ngữ nghĩa sau đây của UMLS đƣợc thu thập và xây dựng thành một từ điển các bệnh (tƣơng ứng với thực thể bệnh): Disease or Syndrome, Neoplastic
Process, Congenital Abnormality, Mental or Behavioral Dysfunction, Experimental Model of Disease và Acquired Abnormality, danh sách
này bao gồm 275.000 từ.
Để mơ tả sự đóng góp của mỗi đặc trƣng, luận án cung cấp một độ đo sự tƣơng tự giữa đặc trƣng và phân bố xác suất nhãn lớp. Ở đây sử dụng Gain Ratio (GR) để ƣớc lƣợng hiệu suất dự đoán lớp nội dữ liệu bởi từng kiểu đặc trƣng. GR đã đƣợc sử dụng nhƣ một hàm tách trong thuật tốn C4.5 [QU93] và đƣợc định nghĩa theo cơng thức (3.2).
𝐺𝑅 𝐶, 𝐹 =𝐼𝐺 𝐶, 𝐹
𝐻 𝐹 (3.2)
trong đó C biểu diễn nhãn lớp và F biểu diễn kiểu đặc trƣng. IG là viết tắt của
Information Gain (độ lợi thông tin), định nghĩa theo công thức (3.3).
𝐼𝐺 𝐶, 𝐹 = 𝐻 𝐶 − 𝐻 𝐶 𝑋 (3.3)
H là entropy và đƣợc định nghĩa cho kiểu đặc trƣng theo:
𝐻 𝐹 = − 𝑝 𝑓𝑖 𝑙𝑜𝑔2 𝑝 𝑓𝑖
𝑛
𝑖=1
(3.4)
với n là số đặc trƣng 𝑓𝑖 ∈ 𝐹
GR đƣợc sử dụng trong C4.5 thay thế cho IG bởi khả năng chuẩn hóa cho sự lệch trong IG. Nói chung kết quả theo GR có độ chính xác dự đốn lớn hơn IR vì nó tính đến số lƣợng các giá trị đặc trƣng. Lƣu ý rằng GR là không xác định nếu mẫu số bằng 0.
Có một số điểm đáng chú ý khi quan sát giá trị GR và IG trong Bảng 3.3: Phenominer A (tự miễn dịch) và Phenominer B (tim mạch) gần nhƣ có IG
đóng góp của các đặc trƣng là nhƣ nhau tuy nhiên IG của đặc trƣng ngữ cảnh tại Phenominer B dƣờng nhƣ có đóng góp tốt hơn so với Phenominer A.
87
Các nhãn từ loại dƣờng nhƣ đem đến GR trong Phenominer B cao hơn một chút so với trong Phenominer B.
Tuy có kích thƣớc lớn, nhƣng UMLS lại có GR nhỏ hơn trên cả hai tập dữ liệu so sánh với một số tài nguyên khác nhƣ HPO, GD (mặc dù giá trị IG của nó là cao).