1. 3 Định nghĩa về bài toán đối sánh
3.1. Mô hình giải quyết bài toán
Để giải quyết bài toán đối sánh ontology có khá nhiều hướng tiếp cận như đã được giới thiệu trong chương 2. Các hướng tiếp cận trong chương 2 chủ yếu sử dụng việc so sánh xâu hoặc sử dụng một số luật để tìm sự tương tự giữa các khái niệm trong hai ontology. Các cách tiếp cận này phụ thuộc khá nhiều vào việc xây dựng các luật và thiết kế độ đo tương tự. Trong các nghiên cứu gần đây, các phương pháp giải quyết bài toán đối sánh ontology sử dụng các phương pháp học máy nhận được nhiều sự quan tâm của cộng đồng nghiên cứu cũng như đạt một số kết quả khả quan. Trong luận văn này để giải quyết bài toán đối sánh ontology, chúng tôi sử dụng một hướng tiếp cận giải quyết trên học máy bằng việc áp dụng bài toán phân lớp trong việc tìm các cặp thuật ngữ đồng nghĩa giữa hai ontology. Ý tưởng dựa trên việc khảo sát và nghiên cứu một số các phương pháp đã được nêu ra [26]:
Karuthammer và cộng sự (2000) sử dụng thuật toán BLAST (Basic Local
Alignment Search Tool) để nhận dạng tên gene/protein trong các bài báo hàng ngày1. Thuật toán BLAST dùng để so sánh các dãy thông tin về y sinh. Họ đã biến đổi các ký tự trong chuỗi thành một dãy amino-acid, do đó thuật toán BLAST có thể tìm các chuỗi tương ứng trong một câu sử dụng độ đo tương tự đã được phát triển trước đó cho chuỗi gene có liên kết.
Smith và cộng sự (2003) sử dụng mô hình xác suất dựa trên mô hình Markov ẩn
Hidden Markov Model – HMM cho việc liên kết các chuỗi và mô tả một thuật toán huấn luyện dựa trên thuật toán tiến – lùi (forwark-backwark) mà có thể ước lượng tham số của HMM sử dụng các cặp của các dãy thích hợp như tập dữ liệu huấn luyện2.
Yeganova và cộng sự (2004) ứng dụng mô hình Markov ẩn HMM để nhận ra
các tên gene/protein có quan hệ sử dụng dữ liệu huấn luyện được giám sát bằng tay và những lợi thế của họ đã vượt lên trên phương pháp dựa trên BLAST đã được nói đến ở trên3. Hệ thống được miêu tả, đưa ra một truy vấn tên gene hoặc tên protein, xác định các tên gen hoặc protein trong một danh sách lớn.
1 http://compbio.ucdenver.edu/Hunter_lab/Cohen/usingBLASTforIdentifyingGeneAndProteinNames.pdf 2 http://www.researchgate.net/publication/262249997_Brief_communication_Hidden_Markov_models_an d_optimized_sequence_alignments 3 http://www.researchgate.net/publication/8574277_Identification_of_related_geneprotein_names_based_ onan_HMM_of_name_variations
Vấn đề đặt ra của việc áp dụng bài toán phân lớp để tìm các cặp đồng nghĩa là việc xây dựng tập dữ liệu huấn luyện, ở đây dữ liệu huấn luyện cần bao gồm các cặp dữ liệu đồng nghĩa (dữ liệu dương) và dữ liệu không đồng nghĩa (dữ liệu âm), thông thường ta có thể dễ dàng tìm thấy các cặp dữ liệu đồng nghĩa giữa các ontology do các chuyên gia làm ontology xây dựng. Tuy nhiên các cặp thuật ngữ không đồng nghĩa thường không có và vấn đề đặt ra là tìm kiếm các cặp thuật ngữ không đồng nghĩa để đưa vào dữ liệu huấn luyện. Để giải quyết bài toán này luận văn đề xuất một phương pháp tìm cặp không đồng nghĩa tự động sẽ được đề xuất trong mục 3.1.2. Bài toán đối sánh được thực hiện trong luận văn sẽ được áp dụng trên miền dữ liệu ontology về thực thể kiểu hình với hai ontology là HPO (Human Phenotype Ontology) và MP (Mammalian phenotype) về động vật có vú (Nghiên cứu tập trung chủ yếu trên chuột), Các nhà nghiên cứu sử dụng các nghiên cứu trên chuột để hiểu rõ hơn về các bệnh xuất hiện ở người. Trong những năm gần đây những nhiên cứu quy mô lớn về kiểu hình (phenotype) như Phenoscape và EuroPhenome đã xác định ra những nguyên nhân di truyền của bệnh trên một tính trạng (phenome) của một loài cụ thể, nhưng ontology về kiểu hình cụ thể trên từng loại được đưa ra nhằm nhận biết và báo cáo lại về tất cả các phát hiện và giúp đỡ cho việc xác định các kết luận liên quan đến bệnh trên cơ thể người. Việc tích hợp kiểu hình khác nhau thành một nền tảng chung là một việc làm cần thiết để giúp đỡ cho việc nghiên cứu các đặc tính của bệnh giữa các loài với nhau vấn đề là nhiều nghiên cứu về các loài khác nhau để phân tích bệnh và nghiên cứu bệnh được tốt hơn. Sau đây là mô hình: