Các ontology
Trong thực nghiệm để đánh giá mô hình đề xuất luận văn sử dụng miền dữ liệu là các ontology về thực thể kiểu hình, cụ thể là ontology HPO (Human phenotype ontology) và MP (Mammalian phenotype). Dưới đây là một số kết quả thống kê trên 2 ontology trên.
HPO MP
Số lượng thuật ngữ về kiểu hình 9 900 8 800
Số lượng các thuật ngữ đồng nghĩa 15.800 23.700
Độ sâu nhất của cây 15 15
Số con lớn nhất của một nút cha 34 9
Số nút con trung bình 3 3
Bảng 4.4. Thống kê số lượng thuật ngữ HPO và MP
Qua các số liệu thống kê ta có thể thấy 2 ontology này tương quan nhau về mặt cấu trúc. Các thuật ngữ lưu dưới dạng file obo được biểu hiện theo các thuật ngữ [Term] cùng với các thông tin liên quan được lưu trữ dưới các “tag” như id, name (tên đầy đủ), is_a (trỏ đến mức cha của thuật ngữ),… Để truy xuất và xử lý các file ontology luận văn sử dụng công cụ Obo Edit (http://oboedit.org/) được phát triển bởi nhóm nghiên cứu y sinh của đại học Berkeley, Mỹ.
[Term]
id: HP:0000188
name: Short upper lip alt_id: HP:0200087
def: "`Decreased width` (PATO:0000599) of the `upper lip` (FMA:59817)." [HPO:probinson]
xref: UMLS:C1848977 "Short upper lip" is_a: HP:0000177 ! Abnormality of upper lip
Dữ liệu các cặp thuật ngữ đồng nghĩa (dữ liệu dương)
Để xây dựng tập dữ liệu huấn luyện, luận văn sử dụng tập các cặp thuật ngữ đồng nghĩa giữa 2 ontology HPO và MP được cung cấp bởi chính những người phát triển ontology HPO tạo ra. Tập dữ liệu này gồm 2511 cặp thuật ngữ đồng nghĩa (08/10/2014) được cung cấp tại địa chỉ:
http://compbio.charite.de/hudson/job/hpheo/ws/hp-mp/mp_hp-align-equiv.obo. File này cũng được lưu trữ dưới định dạng Obo và có cấu trúc như sau:
Hình 4.2. Định dạng file Obo chứa các cặp thuật ngữ đồng nghĩa HPO
Dữ liệu các cặp thuật ngữ không đồng nghĩa (dữ liệu âm)
Để đánh giá chính xác hiệu quả của mô hình được đề xuất, luận văn sử dụng thêm các dữ liệu là các cặp thuật ngữ không đồng nghĩa. Tập các cặp dữ liệu không đồng nghĩa được cung cấp bởi nhóm sinh viên NCKH phát triển [1]. Tập dữ liệu này được sinh tự động dựa trên một số luật heuristic (dựa trên kinh nghiệm) gồm 17000 cặp thuật ngữ được xem là không đồng nghĩa (Tập dữ liệu TBQ 2014)[1].
Dữ liệu chưa được gán nhãn
Mô hình đề xuất thực hiện việc tìm các cặp thuật ngữ không đồng nghĩa tự động từ các cặp thuật ngữ chưa có nhãn (chưa biết là đồng nghĩa hay không). Để xây dựng tập dữ liệu chưa có nhãn luận văn tiến hành ghép cặp các thuật ngữ của 2 ontology với nhau (hơn 87 triệu cặp) và lấy ngẫu nhiên 100.000 cặp chưa được gán nhãn, các cặp này không trùng với hai tập dữ liệu dương và âm ở trên.