Thu thập dữ liệu
Dữ liệu download bao gồm các thuật ngữ về kiểu hình của 2 ontology HPO (Human Phenotype) khoảng 10.000 thuật ngữ và MP (Mammalian Phenotype) khoảng 15.000 thuật ngữ được lưu dưới dạng file obo, và file nối những thuật ngữ đồng nghĩa giữa 2 ontology chứa khoảng gần 2511 cặp.
Chuẩn bị dữ liệu gán nhãn
Thực nghiệm sử dụng mô hình phân lớp nhị phân. Một phân lớp có thể cho ra một giá trị tin cậy cho mỗi sự dự đoán và nó có thể sử dụng luôn giá trị này như là giá trị tương tự cho mỗi cặp chuỗi. Vì vậy cần đưa vào mô hình học một tập dữ liệu đã gán nhãn gồm cả từ đồng nghĩa và không đồng nghĩa.
Dữ liệu các cặp đồng nghĩa:
Việc chuẩn bị dữ liệu các cặp đồng nghĩa tương đối đơn giản vì đã có sẵn file mapping giữa 2 ontology. Do đó, chỉ cần duyệt qua file đã chuyển đổi sang obo ở trên, với mỗi thuật ngữ [Term] sẽ trích ra giá trị của tag “id” và tag “equivalent_to” rồi khởi tạo thành 1 cặp (pair) với nhãn là từ đồng nghĩa (được biểu diễn với giá trị thực là 1.0). Sau đó lưu tất cả các cặp vào một danh sách.
Dữ liệu các cặp không đồng nghĩa:
Các cặp “không đồng nghĩa” cần được hiểu rõ ràng rằng nó không có nghĩa là “trái nghĩa” và gần nghĩa cũng có thể coi là không đồng nghĩa. Do việc không có sẵn
file ánh xạ mapping giữa 2 ontology nên việc chuẩn bị dữ liệu không đồng nghĩa sẽ được thực hiện như sau:
Hình 3.3. Phương pháp sinh cặp không đồng nghĩa
Sử dụng phương pháp xây dựng đồ thị khoảng cách các điểm dữ liệu theo độ sâu
Bước 1: Các dữ liệu dương (các cặp đồng nghĩa) gán cho Lớp 0 (Layer 0)
Bước 2: Tìm các dữ liệu thuộc tập chưa có nhãn có khoảng cách đến các phần tử Lớp 0 nhỏ hơn ngưỡng T cho trước, gán các phần tử tìm được thuộc Lớp 1 (Layer 1)
Bước 3: Tìm phần tử Lớp 2 tương tự bước 2 bằng việc đo khoảng cách các dữ liệu chưa có nhãn đến dữ liệu Lớp 1
Lặp cho đến khi không còn dữ liệu có nhãn hoặc số lượng Lớp đạt đến một ngưỡng xác định
Dữ liệu âm sẽ được xác định dựa vào độ sâu và quyết định bởi việc thực nghiệm thay đổi tham số