Thực nghiệm đánh giá hiệu quả của mô hình bằng các- 123docz.net

1. 3 Định nghĩa về bài toán đối sánh

4.5. Thực nghiệm đánh giá hiệu quả của mô hình bằng các phương pháp khác

Trong thực nghiệm này chúng tôi tiến hành đánh giá việc tìm dữ liệu âm (các cặp không đồng nghĩa) tự động thông qua mô hình được đề xuất và việc tìm các cặp dữ liệu âm bằng một số luật heuristic (luật kinh nghiệm) của nhóm sinh viên NCKH [1] (Tập TBQ). Bên cạnh đó chúng tôi cũng tiến hành so sánh kết quả thông qua việc sử dụng các phương pháp phân lớp khác nhau.

Cách thức thực hiện thực nghiệm đối với tập dữ liệu TBQ tương tự như cách đã mô tả trong mục 4.3.2, chỉ khác tại bước 3 thay vì dùng dữ liệu âm mới tìm được để đưa vào dữ liệu học thì sử dụng chính 15.300 cặp KĐN làm dữ liệu âm.

Đồng nghĩa

Thứ tự Tập dữ liệu âm Giải thuật P R F

1 TBQ 2014 KNN 81.16% 68.13% 74.08% 2 TBQ 2014 SVM 81.07% 68.72% 74.40% 3 TBQ 2014 LR 83.74% 70.25% 76.41% 4 Tìm tự động (T=0.3;D=10) KNN 85.06% 71.39% 77.63% 5 Tìm tự động (T=0.3;D=10) SVM 84.36% 71.84% 77.60% 6 Tìm tự động (T=0.3;D=10) LR 87.29% 71.65% 78.70%

Bảng 4.6. Kết quả thực nghiệm so sánh tìm dữ liệu tự động và thủ công

Nhận xét:

 Phương pháp tìm tự động dữ liệu âm dựa trên mô hình đề xuất cho kết quả tốt hơn phương pháp tìm bằng luật kinh nghiệm trên cả 3 độ đo P, R, F.

 Mô hình học sử dụng phương pháp phân lớp cho kết quả tốt nhất đối với cả 2 cách thức tìm kiếm dữ liệu âm.

KẾT LUẬN

Các kết quả chính

Trong quá trình tìm hiểu và thực hiện đề tài, luận văn đã đạt một số kết quả sau:

 Tìm hiểu về bài toán Đối sánh ontology (Ontology Matching) và đưa ra được giải pháp giải quyết bài toán đối sánh sử dụng hướng tiếp cận dựa trên học máy bằng việc áp dụng bài toán phân lớp trong việc tìm cặp đồng nghĩa giữa hai Ontology.

 Trong bài toán phân lớp áp dụng miền thực thể kiểu hình ở người HPO và MPO động vật có vú tuy nhiên do việc thiếu dữ liệu các cặp không đồng nghĩa luận văn đưa ra mô hình tìm dữ liệu không đồng nghĩa tự động sử dụng phương pháp xây dựng đồ thị khoảng cách theo độ sâu giúp giảm chi phí và công sức.

 Qua trình thực hiện thực nghiệm cho kết quả khả quan đối với phương pháp đề xuất đạt kết quả cao nhất tại 78.7% đối với độ đo F.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Trần Thắng Bình, Ngô Mạnh Quyền, Chu Thị Phương Thảo (2014), Tích hợp Ontology y sinh sử dụng phương pháp học sự tương tự giữa hai chuỗi, Công trình dự thi giải thưởng “ Sinh viên nghiên cứu khoa học năm 2014”, ĐHCN – ĐHQGHN.

[2] Phan Xuân Hiếu, Hà Quang Thuy, Doan S., Giáo trình khai phá dữ liệu web (2009).

[3] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012), Giáo trình Khai

Phá Dữ Liệu Web, Nhà Xuất bản Đại Học Quốc Gia Hà Nội, Tr 227- 266.

[4] Nguyễn Minh Tuấn (2012), Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt trong lĩnh vực y tế, Khóa luận tốt nghiệp đại học chính qui, ĐHCN- ĐHQGHN.

Tiếng Anh

[5] Castano, S., Ferrara, A., Montanelli, S., (2005), Dynamic knowledge discovery in open, distributed and multi-ontology systems: techniques and applications. In: Taniar, D., Rahayu, J. (eds.) Web Se-mantics and Ontology, pp. 226–258. Idea Group, Hershey, Chap. 8 page 207.

[6] Castano S., Ferrara A., Montanelli S., (2006), Matching ontologies in open networked systems: tech-niques and applications. J. Data Semant.V , 25–63, (page 207).

[7] Cohen W., Ravikumar, P., Fienberg, S., (2003b), A comparison of string metrics for matching names and records. In: Proc. International Workshop on Data Cleaning and Object Consolidation at the 9th International Conference on Knowledge Discovery and Data Mining (KDD), Washington, DC, USA, (pp. 88, 96).

[8] Collier N, Tran MV, Ha QT, Oellrich A, Dietrich RS, Learing to Recognize

Phenotype Candidates in the auto Immune Literature Using SVM Re-ranking.

[9] Cortes C., Vapnik V., “ Support vector networks”. Machine Learning, Volume 20(3), pages 273-297.

[10] Do, Hong-Hai and Rahm, Erhard, (2002). COMA - a system for flexible combination of schema matching approaches. In Bernstein et al. (2002), pages 610-621.

[11] Giunchiglia F., Shvaiko P., Yatskevich M., (2004), S-Match: an algorithm and an implementation of semantic matching. In: Proc. 1st European Semantic Web Symposium (ESWS), Hersounisous,Greece. Lecture Notes in Computer Science, vol. 3053, pages 61- 75,101,214.

[12] Giunchiglia F., Shvaiko P., (2003), Semantic matching. Knowl. Eng. Rev. 18 (3), 265–280, (pages 75,145,213).

[13] Jerome Euzenat and Pavel Shavaik (2007), Ontology Matching, Springer 2007. [14] Kincho H. Law, “Ontology (2007), Basic Definitions and a Brief Introduction”,

TN-2007-03. NEESit – Workshops 2007.

[15] Klein, Michel, (2001). Combining and relating ontologies an analysis of prob- lems and solutions. In Gomez-Perez, Asuncion, Gruninger, Michael, Stuck- enschmidt, Heiner, and Uschold, Michael, editors. Proceedings of Workshop on Ontologies and Information Sharing at IJCAI-01, Seattle, WA, USA.

[16] Madhavan J., Bernstein P., Rahm E. (2001): Generic schema matching with Cupid. In: Proc. 27th In-ternational Conference on Very Large Data Bases (VLDB), Rome, Italy, pp. 48–58, (pages 128, 210)

[17] Marc Ehrig. (2007) Ontology Alignment Bridging the Semantic Gap, Springer. [18] Mungall CJ., Gkoutos GV., Smith CL., Haendel MA., Lewis SE., Ashburner M.

(2010) Integrating phenotype ontologies across multiple species.

[19] Oellrich A., Gkoutos GV., Hoehndorf R., Dietrich RS., (2011) Quantitative comparison of mapping methods between Human and Mammalian Phenotype Ontology.

[20] Porter MF., (1997). An algorithm for suffix stripping. In Readings in information retrieval, Karen Sparck Jones and Peter Willett (Eds.). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, pages 313-316.

[21] Rahm, Erhard and Bernstein, Philip A., (2001), A survey of approaches to automatic schema matching. VLDB Journal: Very Large Data Bases, 10(4) pages 334-350.

[22] Robinson PN,. and Kohler S., Bauer S., Seelow D., Horn D., Mundlos S. The Human Phenotype Ontology: A Tool for Annotating and Analyzing Human Hereditary Disease. The American Journal of Human Genetics 83 pages 610– 615.

[23] Shvaiko P., Giunchiglia F., Yatskevich M.,(2009): Semantic matching with S- Match. In: De Virgilio, R., Giunchiglia, F., Tanca, L. (eds.) Semantic Web Information Management, pp. 183–202. Springer, Berlin pages 214.

[24] Smith CL. and Goldsmith CAW and Eppig, JT. (2004) “The Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing phenotypic information” Genome Biology, 6: R7.

[25] Smith TF. And Waterman MS. (1981). “Identification of common molecular subsequences” J Mol Biol, 147(1), pages 195-197.

[26] Tsuruoka Y., et al (2007), “Learning string similarity measures for gene/protein name dictionary look – up using logistic regression”. Bioinformatics 23(20), pages 2768 – 2774.

Thực nghiệm đánh giá hiệu quả của mô hình bằng các phương pháp khác

Mô hình giải quyết bài toán

Phương pháp hồi qui logistic