Phương pháp tìm cặp khơng đồng nghĩa tự động áp dụng cho toán đối sánh ontology Đặng Thị Thường Trường Đại học Công nghệ Luận văn ThS Chuyên ngành: Hệ thống thông tin; Mã số 60 48 01 04 Người hướng dẫn: TS Phạm Hồng Thái Năm bảo vệ: 2014 Keywords Hệ thống thông tin; Cặp không đồng nghĩa; Bài toán đối sánh ontology; Phương pháp phân lớp 8 MỞ ĐẦU Đối sánh ontology (Ontology matching) tốn quan trọng lĩnh vực khai phá web nói chung lĩnh vực web ngữ nghĩa nói riêng Kết khả quan việc giải toán hỗ trợ tốt cho việc mở rộng hệ thống ontology sẵn có Bài tốn nhận nhiều quan tâm cộng đồng nghiên cứu, hội nghị lớn Web ngữ nghĩa như: WWW, ISWC, SemWeb.Pro,… xuất phiên trình bày tốn đối sánh ontology Bên cạnh đấy, có nhiều ứng dụng hay kho liệu lớn áp dụng toán như: Freebase, Yago, SMatch, H-Match, Cupid … Mặc dù nhận nhiều quan tâm cộng đồng nghiên cứu ứng dụng, toán đối sánh ontology toán mở với nhiều thách thức đặt Một thách thức lớn việc áp dụng phương pháp tự động để giảm chi phí trình đối sánh Từ vấn đề nêu trên, cho thấy việc tìm phương pháp tìm cặp đồng nghĩa áp dụng cho tốn đối sánh ontology có đầy đủ sở khoa học thực tiễn Nội dung đề tài tập trung vào phương pháp đối sánh ontology dựa vào độ tương tự hai xâu nói chung phương pháp đối sánh ontology sử dụng phương pháp học máy nói riêng Bên cạnh đấy, luận văn lựa chọn miền liệu cụ thể đưa tìm hiểu, đánh giá đặc trưng miền liệu lựa chọn Dựa phương pháp đặc trưng tìm hiểu được, luận văn xây dựng mơ hình giải tốn áp dụng cho miền liệu Phần cuối đề tài kết thực nghiệm mơ hình ý kiến đánh giá Nội dung luận văn gồm chương: Chương 1: Giới thiệu Ontology toán đối sánh Chương 2: Một số hướng tiếp cận giải tốn đối sánh ontology Chương 3: Mơ hình giải toán đối sánh onology dựa toán phân lớp thống kê Chương 4: Thực nghiệm đánh giá 47 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Trần Thắng Bình, Ngơ Mạnh Quyền, Chu Thị Phương Thảo (2014), Tích hợp Ontology y sinh sử dụng phương pháp học tương tự hai chuỗi, Cơng [2] trình dự thi giải thưởng “ Sinh viên nghiên cứu khoa học năm 2014”, ĐHCN – ĐHQGHN Phan Xuân Hiếu, Hà Quang Thuy, Doan S., Giáo trình khai phá liệu web [3] (2009) Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012), Giáo trình Khai [4] Phá Dữ Liệu Web, Nhà Xuất Đại Học Quốc Gia Hà Nội, Tr 227- 266 Nguyễn Minh Tuấn (2012), Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt lĩnh vực y tế, Khóa luận tốt nghiệp đại học qui, ĐHCNĐHQGHN Tiếng Anh [5] Castano, S., Ferrara, A., Montanelli, S., (2005), Dynamic knowledge discovery in open, distributed and multi-ontology systems: techniques and applications In: Taniar, D., Rahayu, J (eds.) Web Se-mantics and Ontology, pp 226–258 Idea Group, Hershey, Chap page 207 [6] Castano S., Ferrara A., Montanelli S., (2006), Matching ontologies in open networked systems: tech-niques and applications J Data Semant.V , 25–63, (page 207) [7] Cohen W., Ravikumar, P., Fienberg, S., (2003b), A comparison of string metrics for matching names and records In: Proc International Workshop on Data Cleaning and Object Consolidation at the 9th International Conference on Knowledge Discovery and Data Mining (KDD), Washington, DC, USA, (pp 88, 96) [8] Collier N, Tran MV, Ha QT, Oellrich A, Dietrich RS, Learing to Recognize Phenotype Candidates in the auto Immune Literature Using SVM Re-ranking [9] Cortes C., Vapnik V., “ Support vector networks” Machine Learning, Volume 20(3), pages 273-297 [10] Do, Hong-Hai and Rahm, Erhard, (2002) COMA - a system for flexible combination of schema matching approaches In Bernstein et al (2002), pages 610-621 48 [11] Giunchiglia F., Shvaiko P., Yatskevich M., (2004), S-Match: an algorithm and an implementation of semantic matching In: Proc 1st European Semantic Web Symposium (ESWS), Hersounisous,Greece Lecture Notes in Computer Science, vol 3053, pages 61- 75,101,214 [12] Giunchiglia F., Shvaiko P., (2003), Semantic matching Knowl Eng Rev 18 (3), 265–280, (pages 75,145,213) [13] Jerome Euzenat and Pavel Shavaik (2007), Ontology Matching, Springer 2007 [14] Kincho H Law, “Ontology (2007), Basic Definitions and a Brief Introduction”, TN-2007-03 NEESit – Workshops 2007 [15] Klein, Michel, (2001) Combining and relating ontologies an analysis of problems and solutions In Gomez-Perez, Asuncion, Gruninger, Michael, Stuckenschmidt, Heiner, and Uschold, Michael, editors Proceedings of Workshop on [16] [17] [18] [19] [20] [21] [22] [23] Ontologies and Information Sharing at IJCAI-01, Seattle, WA, USA Madhavan J., Bernstein P., Rahm E (2001): Generic schema matching with Cupid In: Proc 27th In-ternational Conference on Very Large Data Bases (VLDB), Rome, Italy, pp 48–58, (pages 128, 210) Marc Ehrig (2007) Ontology Alignment Bridging the Semantic Gap, Springer Mungall CJ., Gkoutos GV., Smith CL., Haendel MA., Lewis SE., Ashburner M (2010) Integrating phenotype ontologies across multiple species Oellrich A., Gkoutos GV., Hoehndorf R., Dietrich RS., (2011) Quantitative comparison of mapping methods between Human and Mammalian Phenotype Ontology Porter MF., (1997) An algorithm for suffix stripping In Readings in information retrieval, Karen Sparck Jones and Peter Willett (Eds.) Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, pages 313-316 Rahm, Erhard and Bernstein, Philip A., (2001), A survey of approaches to automatic schema matching VLDB Journal: Very Large Data Bases, 10(4) pages 334-350 Robinson PN, and Kohler S., Bauer S., Seelow D., Horn D., Mundlos S The Human Phenotype Ontology: A Tool for Annotating and Analyzing Human Hereditary Disease The American Journal of Human Genetics 83 pages 610– 615 Shvaiko P., Giunchiglia F., Yatskevich M.,(2009): Semantic matching with SMatch In: De Virgilio, R., Giunchiglia, F., Tanca, L (eds.) Semantic Web Information Management, pp 183–202 Springer, Berlin pages 214 49 [24] Smith CL and Goldsmith CAW and Eppig, JT (2004) “The Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing phenotypic information” Genome Biology, 6: R7 [25] Smith TF And Waterman MS (1981) “Identification of common molecular subsequences” J Mol Biol, 147(1), pages 195-197 [26] Tsuruoka Y., et al (2007), “Learning string similarity measures for gene/protein name dictionary look – up using logistic regression” Bioinformatics 23(20), pages 2768 – 2774 ... thách thức lớn việc áp dụng phương pháp tự động để giảm chi phí trình đối sánh Từ vấn đề nêu trên, cho thấy việc tìm phương pháp tìm cặp đồng nghĩa áp dụng cho toán đối sánh ontology có đầy đủ... vào phương pháp đối sánh ontology dựa vào độ tương tự hai xâu nói chung phương pháp đối sánh ontology sử dụng phương pháp học máy nói riêng Bên cạnh đấy, luận văn lựa chọn miền liệu cụ thể đưa tìm. .. ứng dụng hay kho liệu lớn áp dụng toán như: Freebase, Yago, SMatch, H-Match, Cupid … Mặc dù nhận nhiều quan tâm cộng đồng nghiên cứu ứng dụng, toán đối sánh ontology toán mở với nhiều thách thức