Qua các số liệu thống kê ta có thể thấy 2 ontology này tương quan nhau về mặt cấu trúc. Các thuật ngữ lưu dưới dạng file obo được biểu hiện theo các thuật ngữ [Term] cùng với các thông tin liên quan được lưu trữ dưới các “tag” như id, name (tên đầy đủ), is_a (trỏ đến mức cha của thuật ngữ),… Để truy xuất và xử lý các file ontology luận văn sử dụng công cụ Obo Edit (http://oboedit.org/) được phát triển bởi nhóm nghiên cứu y sinh của đại học Berkeley, Mỹ.
[Term]
id: HP:0000188
name: Short upper lip alt_id: HP:0200087
def: "`Decreased width` (PATO:0000599) of the `upper lip` (FMA:59817)." [HPO:probinson]
xref: UMLS:C1848977 "Short upper lip" is_a: HP:0000177 ! Abnormality of upper lip
Dữ liệu các cặp thuật ngữ đồng nghĩa (dữ liệu dương)
Để xây dựng tập dữ liệu huấn luyện, luận văn sử dụng tập các cặp thuật ngữ đồng nghĩa giữa 2 ontology HPO và MP được cung cấp bởi chính những người phát triển ontology HPO tạo ra. Tập dữ liệu này gồm 2511 cặp thuật ngữ đồng nghĩa (08/10/2014) được cung cấp tại địa chỉ:
http://compbio.charite.de/hudson/job/hpheo/ws/hp-mp/mp_hp-align-equiv.obo. File này cũng được lưu trữ dưới định dạng Obo và có cấu trúc như sau:
Hình 4.2. Định dạng file Obo chứa các cặp thuật ngữ đồng nghĩa HPO
Dữ liệu các cặp thuật ngữ không đồng nghĩa (dữ liệu âm)
Để đánh giá chính xác hiệu quả của mô hình được đề xuất, luận văn sử dụng thêm các dữ liệu là các cặp thuật ngữ không đồng nghĩa. Tập các cặp dữ liệu không đồng nghĩa được cung cấp bởi nhóm sinh viên NCKH phát triển [1]. Tập dữ liệu này được sinh tự động dựa trên một số luật heuristic (dựa trên kinh nghiệm) gồm 17000 cặp thuật ngữ được xem là không đồng nghĩa (Tập dữ liệu TBQ 2014)[1].
Dữ liệu chưa được gán nhãn
Mô hình đề xuất thực hiện việc tìm các cặp thuật ngữ không đồng nghĩa tự động từ các cặp thuật ngữ chưa có nhãn (chưa biết là đồng nghĩa hay không). Để xây dựng tập dữ liệu chưa có nhãn luận văn tiến hành ghép cặp các thuật ngữ của 2 ontology với nhau (hơn 87 triệu cặp) và lấy ngẫu nhiên 100.000 cặp chưa được gán nhãn, các cặp này không trùng với hai tập dữ liệu dương và âm ở trên.
4.3. Tập đặc trưng và phương pháp đánh giá mô hình đề xuất
4.3.1. Tập đặc trưng
Sử dụng một số đặc trưng để mô tả tốt nhất đặc điểm của một cặp chuỗi. Các đặc trưng có thể nắm bắt được sự tương tự giữa nhiều biến thể (ví dụ chữ viết, cú pháp và từ bổ nghĩa) được trích trong giai đoạn học mô hình. Các đặc trưng được sử dụng trong mô hình phân lớp dựa trên các đặc trưng đã khảo sát được trong tài liệu [1] gồm có:
Tên rút gọn (Acronym): Xác điịnh một đặc trưng mà có thể suy luận một chuỗi này là tên rút gọn của một chuỗi khác. Đầu tiên tách các thuật ngữ và lấy ra các chữ cái đầu của từng từ trong thuật ngữ đó sau đó so sánh tên rút gọn của 2 thuật ngữ với nhau, ví dụ tên rút gọn của thuật ngữ “Interleukin-2” là “IL-2”. Nếu tên rút gọn của 2 thuật ngữ mà giống nhau thì giá trị của đặc trưng sẽ là đúng “acronym:true”, ngược lại là sai “acronym:false”.
Độ dài chuỗi (Length): Độ dài chuỗi ảnh hưởng tới việc đối sánh các chuỗi ký tự. Chuỗi càng dài thì độ so khớp càng nhiều nhiễu. Có hai đặc trưng với độ dài chuỗi: “length:long” với các chuỗi có độ dài lớn hơn 4 (tokens), “length:short” với các chuỗi còn lại.
Cụm từ đồng nghĩa (Synonym phrases): Mỗi thuật ngữ thường có một số các cụm từ đồng nghĩa được liệt kê thông qua tag “synonym”. So sánh các cặp từ đồng nghĩa của hai thuật ngữ giúp nâng cao các đặc trưng ngữ nghĩa. Giá trị của đặc trưng này lần lượt là nhiều (lớn hơn 2) “syns:high”, bình thường “syns:medium”, và không có “syns:none”.
Xâu con chung (CommonToken): Ngoài các đặc trưng đã miêu tả ở trên chúng ta sử dụng đặc trưng xâu con chung. Đầu tiên tách các thuật ngữ bằng kí tự trắng và một vài kí tự được xác định trước (‘,’, ’/’, ‘-‘…). Duyệt qua cặp thuật ngữ, đưa những từ giống nhau trong thuật ngữ vào tập các token phổ biến, ví dụ như ta có các token phổ biến “GATA”, “binding” , “5” từ cặp thuật ngữ “GATA binding protein 5” và “GATA binding factor 5”.
Xâu con khác (DifferenceToken): Tương tự với Xâu con chung chúng ta sử dụng sự khác nhau đối xứng của hai biểu hiện thể hiện đặc trưng, ta sẽ đưa ra những từ khác nhau trong cặp thuật ngữ và đưa vào tập các token khác biệt, ví dụ “protein” và “factor” là những token khác biệt của “GATA binding protein 5” và “GATA binding factor 5”.
SoftTFIDF[21]: Mộttrong những lợi ích của sử dụng học máy là chúng ta có thể kết hợp thông tin từ các độ đo tương tự khác nhau. Độ đo được định nghĩa trong với TF (term frequency) chỉ tần suất xuất hiện của từ trong tập thuật ngữ và IDF(inverse document frequency) chỉ tần suất xuất hiện của các thuật ngữ có chứa từ đó. Nếu giá
trị softTFIDF lớn hơn ngưỡng đưa ra thì giá trị đặc trưng sẽ là cao “high” và ngược lại là thấp “low”.
4.3.2. Phương pháp đánh giá mô hình đề xuất
Các thực nghiệm để đánh giá mô hình đề xuất đều được đánh giá thông qua phương pháp kiểm thử chéo 10 folds (10 folds cross validation). Phương pháp này là một phương pháp thường được sử dụng trong việc kiểm thử các mô hình thống kê, cách thức thực hiện đối với việc đánh giá các thực nghiệm của mô hình đề xuất như sau:
Dữ liệu như được mô tả ở mục 4.2:
o Dữ liệu các cặp đồng nghĩa (dữ liệu dương): 2511 cặp (ĐN)
o Dữ liệu các không đồng nghĩa (dữ liệu âm): 17.000 cặp (KĐN)
o Dữ liệu các cặp chưa được gán nhãn: 100.000 cặp (CGN)
Cách thực hiện: Chia dữ liệu dương thành 10 phần, thực hiện 10 lần mỗi lần lấy 9 phần (2250 ĐN – 15.300 KĐN) làm dữ liệu huấn luyện và kiểm tra với 1 phần còn lại (251 ĐN – 1.700 KĐN).
o Bước 1: Ghép 15300 KĐN vào 100.000 dữ liệu CGN = 115.300 dữ liệu CGN
o Bước 2: Sử dụng 2250 ĐN để tìm tự động dữ liệu KĐN từ 115.300 CGN
o Bước 3: Dùng 2250 ĐN và dữ liệu KĐN mới tìm được làm tập học
o Bước 4: Sinh mô hình phân lớp từ dữ liệu học và kiểm tra với 1 phần dữ liệu còn lại (sử dụng P, R, F làm độ đo đánh giá)
4.4. Thực nghiệm đánh giá hiệu quả khi thay đổi các tham số thành phần tìm dữ liệu âm tự động liệu âm tự động
Như đã mô tả trong chương 3 mục tiêu của mô hình đề xuất là tìm các cặp thuật ngữ không đồng nghĩa (dữ liệu âm) một cách tự động để đưa vào tập dữ liệu huấn luyện mô hình phân lớp. Trong mô hình đề xuất xuất hiện một số tham số được đưa và quá trình thực nghiệm, để tìm được bộ tham số tối ưu cần thực hiện các thử nghiệm thay đổi thử giá trị các tham số.
Các tham số được mô tả như dưới đây:
T ngưỡng khoảng cách giữa các Lớp: T sẽ được thử nghiệm với các giá trị [0.2, 0.3, 0.4]. Khoảng cách sử dụng độ đo Euclidean.
Ngưỡng D xác định từ Lớp nào dữ liệu là âm: Ngưỡng D sẽ được thử nghiệm với các giá trị 5, 10, 15.
Để đánh giá được kết quả khi thay đổi tham số trong từng thực nghiệm luận văn sử dụng kiểm thử chéo 10 folds (10 folds cross validation) và đánh giá thông qua các độ đo P (chính xác), R (hồi tưởng), F như đã mô tả ở mục 3.5. Phương pháp phân lớp ở đây sử dụng là kNN với k=3.
Kết quả của thực nghiệm được thể hiện trong bảng dưới đây.
ĐỒNG NGHĨA T D P R F 0.2 5 68.15% 58.14% 62.75% 0.3 5 73.24% 63.15% 67.82% 0.4 5 73.59% 61.27% 66.87% 0.2 10 82.13% 68.24% 74.54% 0.3 10 85.06% 71.39% 77.63% 0.4 10 84.89% 70.17% 76.83% 0.2 15 87.68% 52.88% 65.97% 0.3 15 87.14% 54.24% 66.86% 0.4 15 89.35% 49.16% 63.42%