XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

22 289 0
XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH NGUYỄN CHÁNH THÀNH XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN Chuyên ngành: Khoa học Máy tính Mã số: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH – 2010 -1- MỞ ĐẦU Chương 11.1 Động nghiên cứu Để phục vụ cho nhu cầu tìm kiếm thông tin người sử dụng, hệ thống truy xuất thông tin (IR) ñã ñược nghiên cứu phát triển, ñó thành công số ñộng tìm kiếm (search engine) tiếng Google–Yahoo–Alta Vista Bing thời gian gần ñây Tuy nhiên, thông qua hệ thống ñó, việc tìm kiếm thông tin thường không nhận ñược ñầy ñủ kết cần thiết mong muốn hiệu suất chúng có số giới hạn ñịnh Từ phân tích trên, nhận thấy nguyên nhân hệ thống tìm kiếm thông tin chưa ñủ mạnh nên kết ñưa hỗ trợ người dùng mong ñợi Truy vấn người dùng chưa phản ánh ñầy ñủ ngữ nghĩa ñể hỗ trợ cho trình tìm kiếm truy xuất thông tin ñược tốt Vì vậy, việc bổ sung ngữ nghĩa vào truy vấn ban ñầu người dùng yêu cầu cần thiết Từ tầm quan trọng tính hiệu trình truy xuất thông tin tiếng Anh (trên môi trường Web), với hướng giải ñể hệ thống IR hiểu nhiều thông minh xử lý truy vấn ban ñầu người dùng, yêu cầu hệ thống truy xuất thông tin có khả tạo truy vấn ñồng nghĩa mục tiêu toán quan trọng Do ñó, vấn ñề mở rộng truy vấn toán quan trọng mà luận án nghiên cứu ñề xuất phương pháp giải 1.2 Mục tiêu phạm vi nghiên cứu Từ ñộng nghiên cứu nêu trên, luận án ñề xuất số phương pháp mở rộng truy vấn ban ñầu người dùng Đây vấn ñề cốt lõi ñồng thời mục tiêu nghiên cứu luận án Như ñịnh hướng nêu trên, phạm vi nghiên cứu luận án ñược thể hình 1.1 (trong khung ñường gạch ñứt nét) -1- (A) (B) Nhập: Câu truy vấn dạng cụm danh từ Xuất: Bộ xử lý mở rộng truy vấn sở kết hợp với ontology Các câu truy vấn: - dạng cụm danh từ, - ñã ñược mở rộng có dạng truy vấn hoàn chỉnh Động tìm kiếm thông tin Kết trả (tập tài liệu) (C) Hình 1.1 Mối quan hệ mô hình luận án hệ thống truy xuất thông tin(c) (A) Mô hình xử lý luận án (phạm vi nghiên cứu luận án) (B) Động tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin) (C) Kết tìm kiếm thông tin từ yêu cầu câu truy vấn ñã mở rộng Với mô hình ñược mô tả hình 1.1, mục (A), câu truy vấn nhập (dạng cụm danh từ bao gồm thành phần tính từ hay có danh từ ñơn) ñược xử lý ñể trả tập câu truy vấn ñã ñược mở rộng (cụm danh từ có dạng truy vấn hoàn chỉnhd) Trong phạm vi luận án, dựa giải pháp rút trích từ ñặc trưng cốt lõi cho câu ([8] [39]), câu truy vấn ban ñầu người dùng ñược tiền xử lý ñể loại bỏ thành phần không quan trọng nhằm giữ lại thành phần thỏa ñiều kiện truy vấn hoàn chỉnh Điều ñó giúp giảm ñược ñộ phức tạp hay dạng biểu diễn phức hợp truy vấn, ñồng thời giúp ñảm bảo tính thành phần truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh Mục (B) hình gồm ñộng tìm kiếm thông tin (search engine) Đây phận quan trọng hệ thống Truy xuất Thông tin (Information Retrieval) Động tìm kiếm thông tin giải c Trong tài liệu này, số hình, bảng biểu tài liệu tham khảo ñược giữ ñúng theo luận văn chính, không ñánh số lại d Tham khảo ñịnh nghĩa 3.10-Truy vấn hoàn chỉnh, mục 3.2.6, chương -2- ba vấn ñề cốt lõi mô hình biểu diễn văn bản, thuật toán tìm kiếm so trùng từ khóa - ñối sánh ngữ nghĩa tương ứng với truy vấn chế lọc kết truy xuất Hiện giới có ñộng tìm kiếm thông tin tiếng Google, Yahoo, Microsoft Bing … Tuy nhiên, nghiên cứu luận án sử dụng ñộng công cụ hỗ trợ việc tìm kiếm thông tin cho truy vấn ñã mở rộng phương pháp xử lý luận án không ñặt mục tiêu nghiên cứu ba vấn ñề nêu Vì luận án ñã không trình bày ba vấn ñề Mô hình xử lý luận án (trong mục (A)) thực việc mở rộng nội dung truy vấn nhập nên hoàn toàn không làm ảnh hưởng ñến ba khía cạnh nêu trình vận hành ñộng tìm kiếm mục (B) Điều cho thấy phạm vi nghiên cứu luận án hướng ñến toán mở rộng truy vấn dựa ontology hoàn toàn khác biệt so với ba khía cạnh ñã nêu Từ trình bày trên, toán cần giải phạm vi luận án bao gồm: Bài toán - Xây dựng ontology OOMP Nghiên cứu phát triển cấu trúc ontology OOMP (Ontology of Object-Member-Property) chế huấn luyện liệu Từ ñó tạo liệu ban ñầu dựa tập tài liệu tiếng Anh từ nguồn TREC khai thác liệu từ WordNet ñể cung cấp ontology OOMP nhằm phục vụ yêu cầu toán Bài toán - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn Dựa ontology toán 1, nghiên cứu xây dựng phương pháp tiếp cận cho việc mở rộng truy vấn nhằm tạo truy vấn kết có dạng truy vấn hoàn chỉnh (biểu diễn dạng cụm danh từ mặt ngôn ngữ học) xây dựng giải thuật hỗ trợ phạm vi toán Conference on Principles and Practice of Knowledge Discovery in Databases Dubrovnik, Croatia 22 September 2003 [35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar Using Domain Ontologies for Efficient Information Retrieval 13th International Conference on Management of Data (COMAD 2006), IIT, Delhi, India, 2006 [36] Tru H Cao, Khanh C Le, Vuong M Ngo Exploring Combinations of Ontological Features and Keywords for Text Retrieval Lecture Notes In Artificial Intelligence; Vol 5351 The 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence, pp.603-613 Hanoi, Vietnam 2008 ISBN: 978-3-540-891963 [37] Tru H Cao, Truong D Cao, Thang L Tran A Robust OntologyBased Method for Translating Natural Language Queries to Conceptual Graphs Lecture Notes In Computer Science; Vol 5367 The 3rd Asian Semantic Web Conference on The Semantic Web, pp.479 - 492 Bangkok, Thailand 2008 ISBN: 978-3-540-89703-3 [38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong English-Vietnamese Cross-Language Information Retrieval: An Experimental Study IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp.107-113 July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8 Trang web [39] KEA, http://www.kea.org [40] Lucene, http://apache.lucene.org [41] TREC, http://trec.nist.gov/data.html -3- 40 - - in Computing and Communications Technologies (RIVF'2008), pp.247254 July 13-17, 2008 HCM City, Vietnam [26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran Indexing with WordNet synsets can improve text retrieval Proceedings of the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal [27] Khanh Tran Dang Ensuring Correctness, Completeness and Freshness for Outsourced Tree-Indexed Data Information Resources Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol 21, Issue 1, pp.59-76 Jan-Mar 2008 [28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, Eytan Ruppin Placing search in context: the concept revisited ACM Transactions on Information Systems, volume 20, issue (January 2002), pp.116–131 2002 ISSN: 1046-8188 [29] Marti A Hearst Automatic acquisition of hyponyms from large text corpora International Conference On Computational Linguistics Proceedings of the 14th conference on Computational linguistics, Volume 2, pp.539–545.France 1992 [30] Phuc Do, Hung Xuan Mai Using SOM based graph clustering for extracting main ideas from documents IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp 209-214 July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8 [31] Phuc Do, Phung Nguyen Using Naïve Bayes Model and Natural Language Processing for Classifying Messages on Online Forum IEEE International Conference on Research, Innovation and Vision for the Future, pp.247-252 March 5-9, 2007 Hanoi, Vietnam ISBN: 1-42440694-3 [32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in Bacteriology In Semantic Web Applications and Tools for Life Sciences, SWAT4LS 2008 [33] Robert Krovetz, W Bruce Croft Lexical ambiguity and information retrieval ACM Transactions on Information Systems (TOIS), Volume 10, Issue (April 1992), pp.115–141 1992 ISSN: 1046-8188 [34] Roberto Navigli, Paola Velardi An analysis of ontology-based query expansion strategies Proceedings of the International Workshop on Adaptive Text Extraction and Mining held in conjunction with the 14th European Conference on Machine Learning and the 7th European - 39 - 1.3 Đóng góp luận án Các vấn ñề nghiên cứu luận án ñã có số ñóng góp mặt khoa học từ phương pháp luận ñến giải pháp thực hiện: * Đóng góp thứ nhất: ñề xuất phương pháp xác ñịnh quan hệ khái niệm bao gồm: − Quan hệ R m xác ñịnh thành phần ñặc trưng (member) ñối tượng (object) − Quan hệ R p tính chất ñặc trưng (property) thành phần − Các quan hệ xác ñịnh tính chất trội Rfm Rfp liên quan Các phương pháp mà luận án ñề xuất áp dụng phạm vi luận án ñể giải Bài toán Bài toán nêu mà áp dụng số lĩnh vực khác ñể tạo ontology cho miền khái niệm (trong lĩnh vực xử lý ngôn ngữ tự nhiên) Ngoài ra, từ góc ñộ toán học, việc xây dựng lớp ñồng dạng (liên quan ñến nhóm ñối tượng, nhóm thành phần ñặc trưng nhóm tính chất ñặc trưnge) từ quan hệ nêu giúp cho việc phân loại ñối tượng hiệu Công trình [ii], [iv], [v] [ix]f ñã giới thiệu phương pháp xác ñịnh quan hệ ñịnh nghĩa khái niệm Phần ñóng góp không thực ñầy ñủ ñịnh OB OB + P OB OB + P nghĩa MQE −+IR , MQE −+IR , MQE ++IR , MQE ++IR khái niệm truy vấn hoàn chỉnh, phân tích dạng ñồ thị ngữ nghĩa tác giả ñề xuất, liên quan ñến việc mô hình hóa toán mở rộng truy vấn * Đóng góp thứ hai: ñề xuất mô hình ontology OOMP phương pháp huấn luyện liệu: − Phương pháp huấn luyện dựa kho ngữ liệu sẵn có (Corpus-Based Knowledge Base Training, CB-KBT) e f Tham khảo thêm hình 3.3, trang 64 lớp Tham khảo thêm phần Các công trình khoa học -4- − Phương pháp huấn luyện dựa ontology WordNet sẵn có (WordNet-Based Knowledge Base Training, WB-KBT) − Phương pháp tự huấn luyện dựa nội dung sẵn có ontology từ hai phương pháp CB-KBT WB-KBT WordNet (Auto Knowledge Base Training, A-KBT) Ontology OOMP ñược dùng ñể phục vụ toán mở rộng truy vấn mà ñược sử dụng cho toán khác theo hướng khai thác quan hệ khái niệm Ngoài ra, từ góc ñộ ngôn ngữ học, thành phần ontology OOMP ñược phân lớp dựa số dạng từ loại (như danh từ, tính từ) nên cấu trúc chúng phụ thuộc vào khác ngôn ngữ tự nhiên Do ñó, việc phát triển ontology ngôn ngữ tự nhiên khác (như tiếng Việt hay Pháp …) tương ñối thuận lợi Nội dung liên quan ñến ñóng góp ñược công bố [iv], [v] [ix] * Đóng góp thứ ba: ñề xuất mô hình xử lý truy vấn (truy vấn tiếng Anh, dạng cụm danh từ) ontology OOMP, gồm giải thuật: − Kiểm tra tính hoàn chỉnh cụm danh từ (Complete Noun Phrase Verification, CNPV) − Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC) − Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE) Mô hình phương pháp xử lý truy vấn áp dụng Bài toán 2, toán khác như: − Kiểm tra tính hoàn chỉnh cụm danh từ tiếng Anh theo quan ñiểm ngôn ngữ học tính toán (ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản) − Hoàn chỉnh mở rộng cụm danh từ tương ñương (ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản) … Các phương pháp giải thuật liên quan ñến ñóng góp ñược giới thiệu [ii], [v] [ix] -5- Intelligence - ICAI'09, vol 1, pp 137-141, Las Vegas, USA, July 13-16, 2009 ISBN: 1-60132-107-4, 1-60132-108-2 CSREA Press [18] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan Natural Language Interaction-Based Document Retrieval Proceedings of the 2nd IEEE International Conference on Computer Science and Information Technology 2009 (ICCSIT 2009), vol 4, pp 544-548 Beijing, China, August 8-11, 2009 ISBN: 978-1-4244-4520-2 [19] Dang Tuan Nguyen, Chinh Trong Nguyen Cross-lingual Information Retrieval Model for Vietnamese-English Web Sites Accepted paper, The 2nd International Conference on Computer Modeling and Simulation (ICCMS 2010), Sanya, China, January 22-24, 2010 Editions IEEE [20] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan A Semantic Model for Building the Vietnamese Language Query Processing Framework in e-Library Searching Application Accepted paper, The 2nd International Conference on Machine Learning and Computing (ICMLC 2010), Bangalore, India, February 9-11, 2010 Editions IEEE [21] Dat T Huynh, Tru H Cao, Hung Q Ta, Le H Nguyen VN-KIM KBM: A Distributed and Collective Tool for Managing Semantic Web Knowledge Bases The 1st Workshop on Human Factors and the Semantic Web (SWAHA'2008, December 08, Bangkok, Thailand, in conjunction with ASWC'2008), pp.153-158 Thailand 2008 [22] Ellen M Voorhees Using Wordnet to disambiguate word senses for text retrieval Annual ACM Conference on Research and Development in Information Retrieval Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pp.171–180 Pennsylvania, United States 1993 ISBN: 0-89791-605-0 [23] Ellen M Voorhees Query expansion using lexical-semantic relations Annual ACM Conference on Research and Development in Information Retrieval Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pp.61 - 69 Dublin, Ireland 1994 ISBN: 0-387-19889-X [24] Franc A Grootjen, Theo P Van Der Weide Conceptual query expansion Data & Knowledge Engineering, Vvolume 56, Iissue (February 2006), pp.174–193 2006 ISSN: 0169-023X [25] Hien T Nguyen, Tru H Cao Named Entity Disambiguation on an Ontology Enriched by Wikipedia In Proceedings of the 6th IEEE International Conference on Research, Innovation and Vision for the Future - 38 - [10] Chinh Trong Nguyen, Dang Tuan Nguyen A New Model of English-Vietnamese Bilingual Information Retrieval System International Conference on Information Technology (ICIT 2009), Venice, Italy, October 28-30, 2009 [11] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do Building a Vietnamese language query processing framework for e-library searching systems International Journal of Computer Science and Information Security (IJCSIS), pp 092-096, Vol 6, No 1, October 2009 ISSN: 1947-5500 [12] Dang Tuan Nguyen, Ha Quy-Tinh Luong Document searching System based on natural language query processing for Vietnam Open Courseware library International Journal of Computer Science Issues (IJCSI), pp.7-13,Vol 6, No 2, November 2009 ISSN (online): 1694-0784, ISSN (print): 1694-0814 [13] Dang Tuan Nguyen, Tuyen Thi-Thanh Do e-Document Retrieval by Question Answering System International Conference on Communication Technology, February 25-27, 2009, Penang, Malaysia Proceedings of World Academy of Science, Engineering and Technology, vol 38, 2009, pp.395-398, ISBN: 2070-3740 [14] Dang Tuan Nguyen, Tuyen Thi-Thanh Do Natural Language Question Answering Model Applied To Document Retrieval System International Conference on Computer Science and Technology, Hongkong, March 23-25, 2009 Proceedings of World Academy of Science, Engineering and Technology, vol 39, 2009, pp 36-39, ISBN: 2070-3740 [15] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan A Document Retrieval Model Based-on Natural Language Queries Processing Proceedings of the International Conference on Artificial Intelligence and Pattern Recognition (AIPR), pp 216-220, Orlando, USA, July 13-16, 2009 ISBN: 978-1-60651-007-0 Editions ISRST [16] Dang Tuan Nguyen Interactive Document Retrieval System Based-on Natural Language Query Processing Proceedings of the Eighth International Conference on Machine Learning and Cybernetics, pp 22332237, Baoding, Hebei, China, July 12-15, 2009 ISBN: 978-1-4244-3703-0 Editions IEEE [17] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan Integrating Natural Language Query Processing and Database Search Engine Proceedings of the 2009 International Conference on Artificialal * Đóng góp thứ tư: Phương pháp xây dựng mục hướng ngữ nghĩa (Semantic Index Creation, SIC) thông qua việc mở rộng cấu trúc mục ñể lưu trữ thêm thông tin liên quan ngữ nghĩa ñến ontology xác ñịnh Đây cầu nối giúp triển khai nghiên cứu lý thuyết vào ứng dụng thực tiễn lĩnh vực truy xuất thông tin Kết thu ñược từ phương pháp tạo tiền ñề cho nhiều nghiên cứu ứng dụng liên quan ñến truy xuất thông tin Phương pháp ñược trình công trình [iv] ñược phát triển [iii] [viii] Những kết ñạt ñược ñồng thời ñược áp dụng cho công trình [xii] dự ñịnh áp dụng cho công trình [xiii] -6- 37 - Tóm tắt nội dung luận án: TÀI LIỆU THAM KHẢO (LƯỢC TRÍCH TỪ LUẬN ÁN) Tiếng Việt [1] Nguyễn Chí Hiếu Mô hình khai thác ñặc tính ngôn ngữ ñích nhằm xác ñịnh cụm danh từ sở tương ứng Anh-Việt Luận án tiến sĩ Đại học Quốc gia Tp.Hồ Chí Minh 2007 [2] Nguyễn Chí Hiếu, Phan Thị Tươi, Nguyễn Xuân Dũng, Nguyễn Quang Châu Sử dụng kỹ thuật Pruning vào toán xác ñịnh từ loại Tạp chí Phát triển Khoa học & Công nghệ, tập 8, số 11, 14-23, 2005 [3] Nguyễn Quang Châu, Phan Thị Tươi Nhận diện cụm từ ñặc trưng ngữ nghĩa tiếng Việt Tạp chí Bưu Viễn thông Công nghệ thông tin, số 19, 2/2008 [4] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ Tự ñộng rút trích cụm danh từ Anh - Việt từ kho ngữ liệu song ngữ Kỹ yếu hội thảo khoa học Quốc gia lần II “Nghiên cứu Ứng dụng công nghệ thông tin”, Đại học Bách khoa Tp.HCM, Việt nam, 23-24/9/2005 Tiếng Anh Hình 1.2 Tóm tắt nội dung vấn ñề trình bày luận án -7- [5] Abraham Bernstein, Esther Kaufmann, Christian Kaiser, Christoph Kiefer Ginseng, A Guided Input Natural Language Search Engine, for Querying Ontologies Jena User Conference Bristol UK 2005 [6] Bao Tu Ho, Thang Truong Nguyen, Chien Phu Nguyen, Mai Chi Luong Towards a practical Framework for Vietnamese Natural Language Processing Proceeding of Second Vietnam-Japan Symposium on Fuzzy Systems and Applications, 12/2001, pp297-304 [7] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie Conceptual indexing based on document content representation information context: nature, impact, and role In 5th International Conference on Conceptions of Library and Information Sciences No5, Glasgow, Volume 3507, pp.171-186, UK (04/06/2005) [8] Chau Q Nguyen, Tuoi T Phan An Ontology-Based Approach for Key Phrase Extraction Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP [9] Chau Q.Nguyen, Tuoi T.Phan, Tru H.Cao Vietnamese Proper Noun Recognition Proceedings of the 4th IEEE International Conference on Computer Science, Research, Innovation & Vision for the Future, February 12-16,2006 Ho Chi Minh City, Vietnam - 36 - 40, 2010 Springer-Verlag ISSN 1860-949X DOI 10.1007/978-3642-12090-9 Hội nghị Khoa học Quốc tế ACM: Association for Computing Machinery ACS: Austrian Computer Society [vii] Thanh C.NGUYEN, Hai M.LE, Tuoi T.PHAN Building Knowledge Base for Vietnamese Information Retrieval The 11th International Conference on Information Integration and Web-based Applications & Services, 2009, Malaysia, ACM & ACS ACM ISBN 978–1–60558–660–1 [viii] Thanh C.NGUYEN, Tuoi T.PHAN The effect of Semantic Index in Information Retrieval development The 10th International Conference on Information Integration and Web-based Applications & Services, 2008, Austria, ACM & ACS, pp.438–441 ACM ISBN 978–1–60558–349–5 [ix] Thanh C.NGUYEN, Tuoi T.PHAN An ontology-based approach of query expansion The 9th International Conference on Information Integration and Web Based Application & Service, 2007, Indonesia, ACS, pp.113–123 ISBN 978–3–85403–229–8 [x] Thanh C.NGUYEN, Tuoi T.PHAN A hybrid approach of noun phrase translation in Cross-Language Information Retrieval The 9th International Conference on Information Integration and Web Based Application & Service, 2007, Indonesia, ACS, pp.389–394 ISBN 978–3–85403–229–8 [xi] Thanh C Nguyen, Tuoi T.Phan Applying Key-Phrase in CrossLanguage Information Retrieval The Eighth International Conference on Information Integration and Web Based Application & Service, 2006, Indonesia, ACS, pp.451–460 ISSN 3–85403–214– 5, ISBN 978–3–85403–3–214–4 NGHIÊN CỨU KHOA HỌC [xii] Tham gia ñề tài nghiên cứu khoa học trọng ñiểm cấp Đại học Quốc gia Tp.HCM “Xây dựng chương trình trợ giúp truy xuất thông tin tiếng Việt” (B2005-20-01-TD), 2005-2007 (ñã hoàn tất), PGS.TS Phan Thị Tươi chủ nhiệm [xiii] Tham gia ñề tài nghiên cứu khoa học cấp Nhà nước “Nghiên cứu, xây dựng số hệ thống khai thác thông tin ña phương tiện có hỗ trợ tiếng Việt” (KC.01/06-10/02), thuộc Chương trình Nghiên cứu, phát triển ứng dụng Công nghệ Thông tin Truyền thông, 2009-2010 (ñang thực hiện), PGS.TS Phan Thị Tươi - 35 - Chương 2- NGHIÊN CỨU LIÊN QUAN Ở Việt nam có nhóm nghiên cứu với nhiều công trình công bố nước Tuy hướng nghiên cứu kết công bố nhóm không hoàn toàn liên quan ñến toán mở rộng truy vấn luận án, hướng xử lý (liên quan phần ñến luận án) ontology, truy xuất rút trích thông tin ứng dụng xử lý ngôn ngữ tự nhiên, họ ñã ñạt ñược kết quan trọng với nhiều công trình khoa học công bố nước [1] [2] [3] [4] [8] [9] năm 2007-2009 năm 2010 (nhóm TS.Phan Thị Tươi), [36] [37] năm 20072009 (nhóm TS.Cao Hoàng Trụ-Quản Thành Thơ) [27] (nhóm TS.Đặng Trần Khánh) thuộc ĐH-BK.HCM, [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20], [30] [31] năm 2008-2009 (nhóm TS.Nguyễn Tuấn Đăng, nhóm TS.Đỗ Phúc, ĐHCNTT.HCM), [38] (nhóm TS.Đồng Thị Bích Thủy-Hồ Bảo Quốc, ĐH-KHTN.HCM), [6] Viện Công nghệ Thông tin (nhóm TS.Lương Chi Mai, TS.Bạch Hưng Khang, TS.Hồ Tú Bảo) Việc ứng dụng ontology ñể trợ giúp vấn ñề mở rộng truy vấn ñược nghiên cứu từ năm ñầu thập niên 1990 với số thành côngg WordNet ontology tổng quát phổ dụng ñược dùng toán mở rộng truy vấn nhóm Gonzalo [26], Voorhees [22] [23], Hearst [29] Ngoài ra, việc phát triển ontology chuyên dụng phục vụ nhu cầu mở rộng truy vấn ñược tiến hành nhóm Finkelstein [28], Navigli Velardi [34] hay Baziz [7], Grootjen V.D.Weide [24]… Đặc biệt, nhóm Abraham [5] phát triển thể học với thành phần lớp (class), ñối tượng thể (instance), thuộc tính (property) tìm kiếm, phát sinh từ ñồng nghĩa Sandhya [35] ñã xây dựng thể học dựa khái niệm ñối tượng thể hiện, thuộc tính, khái niệm (concept) số quan hệ IS-A, rời rạc (disjointness) tương ñương g Phần trình bày số công trình nghiên cứu ñặc trưng, công trình nghiên cứu lại khác ñược trình bày chi tiết Chương Luận án -8- (equivalence) giải thuật xử lý cho kết có ñộ xác 23% ñộ bao phủ 34% [32] [33] ñề xuất mô hình mạng ngữ nghĩa dựa số quan hệ trích dẫn từ WordNet quan hệ thượng danh (hypernymy), hạ danh (hyponymy), toàn thể (meronymy), phận (holonymy), tính chất (attribute), tương ñồng (similarity), số quan hệ ñược ñịnh nghĩa thêm giải (gloss), chủ ñề (topic) miền (domain) [ Chương 3- XÂY DỰNG NỀN TẢNG HỆ THỐNG 3.1 Giới thiệu Chương trình bày khái niệm tảng mô hình mở rộng truy vấn dựa ontology Lý thuyết ñược ñề xuất quan hệ hai mục 3.2 sở ñể xây dựng quan hệ ngữ nghĩa ñối tượng giới thực Ở mục 3.3, thông qua ñịnh nghĩa mô hình toán mở rộng truy vấn, cung cấp lý thuyết giúp ñảm bảo tính tổng quát tính ñúng vấn ñề Phần 3.4 hướng người ñọc ñến vấn ñề cấu trúc cụm danh từ tiếng Anh, sau ñó trình bày ñề xuất luận án mẫu xác ñịnh cụm danh từ ñể phục vụ việc huấn luyện ontology OOMP việc phân tích truy vấn Các mục lại chương giới thiệu phương pháp ñánh giá kết quả, môi trường, công cụ hỗ trợ liệu thực nghiệm chương Một phần kết chương ñã công bố công trình [ii], [iv], [v] [ix] 3.2 Bài toán Xây dựng ontology toán Hoàn chỉnh mở rộng truy vấn Từ hai toán xác ñịnh chương 1, tác giả ñề xuất sở lý thuyết quan hệ ngữ nghĩa mở rộng ñóng vai trò tảng việc phát triển cấu trúc ontology phương pháp mở rộng truy vấn hoàn thiện truy vấn Giả sử: − D={wi} tập danh mục từ ngôn ngữ tự nhiên − O={oi} tập danh mục từ mô tả ñối tượng (object) -9- hướng nghiên cứu tương lai Ứng dụng phương pháp ñược ñề xuất luận án vào xử lý ngôn ngữ tự nhiên tiếng Việt mục tiêu lâu dài ñồng thời hướng nghiên cứu phát triển tác giả Những ứng dụng ñóng góp phần hướng nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ BÁO CÁO KHOA HỌC Tạp chí Khoa học [i] Tuoi T.Phan, Thanh C.Nguyen Vietnamese knowledge base development and exploitation The International Journal of Business Intelligence and Data Mining (IJBIDM), 2010 ISSN (Online): 17438195, ISSN (Print): 1743-8187 (Được chấp nhận ñăng bài) [ii] Nguyễn Chánh Thành, Phan Thị Tươi Mô hình mở rộng truy vấn truy xuất thông tin Tạp chí Công Nghệ Thông tin & Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin Truyền thông, số (23) kỳ 3, Việt nam, 2010 ISSN 0866–7039 [iii] Nguyễn Chánh Thành, Phan Thị Tươi Truy xuất thông tin với mục hướng ñến ngữ nghĩa Tạp chí Công Nghệ Thông tin & Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin Truyền thông, số 20, Việt nam, 2008, tr 49–59 ISSN 0866–7039 [iv] Thanh C.Nguyen, Tuoi T.Phan A hybrid solution of ontologybased query expansion The International Journal of Web Information Systems, Volume Number 2, 2008, pp.215–227, 2008 ISSN 1744–0084 [v] Nguyễn Chánh Thành, Phan Thị Tươi Truy xuất thông tin: Giải pháp thể học cho hoàn chỉnh truy vấn Tạp chí Công Nghệ Thông tin & Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin Truyền thông, số 19, Việt nam, tr 84–92, 2008 ISSN 0866–7039 Chương sách [vi] Tuoi T.PHAN, Thanh C.NGUYEN, Thuy N.T.HUYNH Question Semantic Analysis in Vietnamese QA System The Advances in Intelligent Information and Database Systems book, Serie of Studies in Computational Intelligence, Volume 283, pp.29- 34 - * Vấn ñề 4: Tối ưu chi phí thời gian xử lý phương pháp mở rộng kết tìm kiếm Định hướng phương pháp tối ưu minh họa hình 7.1 Hình 7.1 Phương pháp thực vấn ñề Như trình bày hình 7.1, phương pháp giải trường hợp hướng ñến việc thu giảm thời gian thực hai bước xử lý, ñiều ñó tác ñộng ñến số lượng tài liệu kết tìm ñược giải thuật HS tỉ lệ cách biệt thời gian tìm kiếm giải thuật HS so với phương pháp thô giảm thiểu ñáng kể Vấn ñề cần ñược xem xét tiến hành thực nghiệm ñể kiểm chứng mức ñộ tối ưu thu ñược từ phương pháp cải tiến Nhìn chung, vấn ñề tập hợp toán không phức tạp cần ñược xem xét nghiên cứu tương lai, ñể hỗ trợ cho việc xây dựng hệ thống truy xuất thông tin hướng ngữ nghĩa cho tiếng Việt Những vấn ñề có tầm quan trọng ñến hướng nghiên cứu tác giả lĩnh vực truy xuất thông tin, ñặc biệt việc hỗ trợ truy xuất thông tin tiếng Việt 7.3 Lời kết Toàn nội dung trình bày luận án công trình nghiên cứu lâu dài và thành mà tác giả ñạt ñược trình nghiên cứu ñó Đây kết ñạt ñược thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, truy xuất thông tin ontology Các ñóng góp ñược trình bày phần 7.1 kết ñạt ñược mặt thực nghiệm ñã nhấn mạnh ý nghĩa lý thuyết thực tiễn luận án Những vấn ñề ñược trình bày phần 7.2 ñộng lực giúp tác giả hoàn thiện kết ñạt ñược luận án tiếp tục - 33 - − M={mj} tập danh mục từ mô tả thành phần ñối tượng (member) − P={pk} tập danh mục từ mô tả tính chất thành phần (property) Các ñịnh nghĩa ñược ñề xuất: Định nghĩa 3.1–Độ liên kết (Sim) tương quan hai ñối tượng Định nghĩa 3.2–Độ phụ thuộc (Dep) ñối tượng x vào ñối tượng y Định nghĩa 3.3–Thành phần ñối tượng (Mem) xác ñịnh thành phần ñối tượng Định nghĩa 3.4–Thuộc tính thành phần (Pro) xác ñịnh thuộc tính thành phần Định nghĩa 3.5–Quan hệ Thành phần ñặc trưng ñối tượng R m Ví dụ: R m (“dung lượng”, “bộ nhớ”) Định nghĩa 3.6–Quan hệ Trội thành phần ñặc trưng Rfm Ví dụ: Rfm (“dung lượng”, “chủng loại”) cho ñối tượng RAM Định nghĩa 3.7–Quan hệ Tính chất ñặc trưng thành phần Rp Ví dụ: R p (“lớn nhất”, “dung lượng”) “dung lượng” thành phần ñặc trưng ñối tượng “bộ nhớ” Định nghĩa 3.8–Quan hệ Trội tính chất ñặc trưng Rfp Ví dụ: ñối tượng “RAM”, Rfp (“lớn nhất”, “bền nhất”) Các quan hệ ngữ nghĩa ñã ñược ñịnh nghĩa ñược xác ñịnh biểu thức luận lý sau: R m (m j , oi ) ⇔ ( Dep(m j , o i ) > ∨ Mem(m j , o i ) = 1) ∧ (Sim(m j , oi ) > 0) (3.8) Rfm (m j1 , m j ) ⇔ ( R m (m j1 , oi ) ∧ R m (m j ,o i )) ∧ (℘(m j1 ) > ℘(m j )) (3.9) R p (p k ,m j ) ⇔ (Dep(p k ,m j ) > ∨ Pr o(p k ,m j ) = 1) ∧ (Sim(p k ,m j ) > 0) (3.10) Rfp ( p k1 , p k ) ⇔ ( R p ( p k1 , m j ) ∧ R p (m k ,m j )) ∧ (℘( p k1 ) > ℘( p k )) (3.11) Định nghĩa quan hệ ngữ nghĩa nêu ñược áp dụng vào lĩnh vực xử lý ngôn ngữ tự nhiên lĩnh vực khác Trong phạm - 10 - vi xác ñịnh, quan hệ nêu ñược áp dụng ñể tạo ontology cho miền khái niệm lĩnh vực Trí tuệ nhân tạo, Xử lý ngôn ngữ tự nhiên; ñược dùng ñể kiểm tra tính hoàn chỉnh cụm danh từ hay tạo (mở rộng) cụm danh từ tương ñương… lĩnh vực thuộc Xử lý ngôn ngữ tự nhiên Dịch máy, Truy xuất thông tin, Rút trích thông tin, Tóm lược văn … Từ góc ñộ toán học, việc xây dựng lớp tương ñương từ quan hệ nêu ñể thực phân loại ñối tượng giải pháp cần ñược quan tâm Định nghĩa 3.9 –Quan hệ ñối tượng, thành phần ñặc trưng tính chất ñặc trưng ROMP (minh họa Hình 3.1) Định nghĩa 3.10 – Truy vấn hoàn chỉnh Định nghĩa 3.11 – Dạng biểu diễn truy vấn hoàn chỉnh Định nghĩa 3.12 – Cây phân tích truy vấn hoàn chỉnh (minh họa Hình 3.1 3.2) Định nghĩa 3.12 – Đồ thị ngữ nghĩa Định nghĩa 3.14 – Tính chất liên quan phân tích Định nghĩa 3.15 – Tập ngữ nghĩa truy vấn : R mp :R key mem ber * Vấn ñề 2: Hiệu chỉnh số bước tiền xử lý cho phương pháp ñể áp dụng cho tiếng Việt ngôn ngữ khác, cụ thể: − (2a) Xây dựng kho tài liệu tiếng Việt ñã ñược chuẩn hóa có số lượng chất lượng phù hợp (2b) Hệ thống ISE cần tạo ñược tập mục tài liệu − (2c) Cần thực việc tiền xử lý nhằm phân tích truy vấn ke y p ro perty 12 key p rop erty n (a) * Vấn ñề 1: Tối ưu phần cài ñặt giải thuật tận dụng tính ưu việt số phần mềm chuyên dụng tổ chức quản trị sở liệu hướng ñối tượng ñể tiết kiệm nhiều chi phí thời gian thực giải thuật cải tiến hiệu suất phương pháp liên quan Vấn ñề có tính thực tiễn cao, nên cần ñược ưu tiên xem xét tiếng Việt ñồng thời hỗ trợ tìm kiếm truy vấn tiếng Việt ke y m e m ber … Hướng phát triển Các thực nghiệm chương trước ñã ñã thử nghiệm cho tất giải thuật mà luận án ñề xuất với nguồn liệu liên quan ñược chọn lọc, ñã thu ñược kết khả quan Tuy nhiên, số vấn ñề Tuy nhiên, số vấn ñề cần ñược nghiên cứu giai ñoạn − object key p rop er ty 1 7.2 tiếng Việt (phân ñoạn từ, gán nhãn từ loại) trước trình thực thi … ke y p ro perty m2 com pu ter HDD m em or y giải thuật ñã ñề xuất luận án m ain -bo ard Đây vấn ñề cần ñược ưu tiên xem xét tương lai cap acity p rocessing unit bra nd tent size q uality p rice (b ) largest h ig hest we ll-k no wn sm allest stro ng est lo west Hình 3.1 Ví dụ phân tích (b) ñược xây dựng từ quan hệ ROMP(a) - 11 - * Vấn ñề 3: Tiếp tục phát triển nghiên cứu mục hướng ngữ nghĩa ứng dụng liên quan Như vậy, toán mục hướng ngữ nghĩa ñược phân tích khai thác theo nhiều góc ñộ khác nhằm hỗ trợ nghiên cứu phát triển hệ thống web ngữ nghĩa Vấn ñề ñang ñược quan tâm xử lý ñã có số kết ñược công bố công trình [iii] [viii] - 32 - liệu giải thuật CB-KBT Các kết thực nghiệm ñã tạo ổn ñịnh cho thử nghiệm − Nhóm giải thuật xử lý truy vấn có thực nghiệm phức tạp qua nhiều bước ñể xác ñịnh tính khả thi tính hiệu tương ứng Kết thực nghiệm giải thuật NPC, SNPE NPMR cho thấy giá trị ñộ xác tương ñối cao nguồn liệu N6, N11 N12 liên quan ñến chủ ñề tin học, giá trị ñộ phủ cao mức tổng quát Từ ñây, nhận thấy ñược tính hiệu giải thuật miền có liên quan mật thiết ñến nội dung truy vấn tài liệu nguồn Các so sánh trình bày thực nghiệm phương pháp cho thấy ưu ñiểm phương pháp so với cách tìm kiếm thô mà người sử dụng thực ñộng tìm kiếm thông tin − Kết từ giải thuật SIC nhóm giải thuật xử lý khai thác mục cho thấy số lượng liên kết mở rộng ñến ontology OOMP ñạt mức ñộ tương ñối cao phụ thuộc vào số lượng ñầu mục tập mục tương ứng mức ñộ tương hợp ñầu mục ñó với phần tử ontology OOMP Điều ảnh hưởng ñến kết thực nghiệm giải thuật HS trường hợp tìm kiếm mở rộng phạm vi cục toàn cục Các so sánh thực nghiệm giải thuật cho thấy khả bao phủ kết giải thuật HS tốt so với giải thuật vừa nêu Nhìn chung, kết bước ñầu thực nghiệm chương thể tính khả thi hướng nghiên cứu luận án ñồng thời phản ánh tính hiệu giải thuật Hướng nghiên cứu xử lý truy vấn nâng cao chất lượng thông tin truy xuất dựa ontology mang lại nhiều kết khả quan Những thực nghiệm, nghiên cứu việc cải tiến giải thuật cần thiết tương lai ñể nâng cao tính hiệu mô hình mà luận án ñã ñề xuất laptop disc computer HDD notebook memory Object capacity content main-board size Member quality largest highest Property : Rm processing unit brand : Rp price well-known smallest strongest lowest : synonymy/hypernymy (trong WordNet) Hình 3.2 Đồ thị ngữ nghĩa G có phân lớp 3.3 Các mô hình cho toán mở rộng truy vấn Liên quan ñến hệ thống mở rộng hoàn chỉnh truy vấn ñịnh nghĩa mô hình ñề xuất sau ñây: − Hệ thống mở rộng truy vấn dựa ontology ñộc lập với hệ thống truy xuất thông tin (Query Expansion Model with OntologyOB Based without Information Retrieval, QEM −+IR ) − Hệ thống mở rộng truy vấn dựa ontology kết hợp xác suất ñộc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and Probability without Information OB + P Retrieval, QEM −+IR ) − Hệ thống mở rộng truy vấn dựa ontology kết hợp hệ thống truy xuất thông tin (Query Expansion Model with OntologyOB ) Based with Information Retrieval, QEM ++IR − Hệ thống mở rộng truy vấn dựa ontology kết hợp xác suất tích hợp hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and Probability with Information OB + P Retrieval, QEM ++IR ) Các mô hình ñược tổ chức theo tính kế thừa hình 3.4 - 31 - - 12 - QEM −+IROB QEM ++IROB QEM QEM −+IROB + P + OB + P + IR Hình 3.4 Tổ chức phân cấp mô hình OB Định nghĩa 3.16 – Mô hình QEM −+IR (Mô hình 1) OB + P (Mô hình 2) Định nghĩa 3.17 – Mô hình QEM −+IR Định nghĩa 3.18 – Mô hình QEM ++IROB (Mô hình 3) OB + P Định nghĩa 3.19 – Mô hình QEM ++IR (Mô hình 4) 3.4 Mẫu nhận dạng cụm danh từ Định nghĩa 3.20 – Mẫu nhận dạng cụm danh từ thành phần 3.5 Phương pháp thực nghiệm ñánh giá Trong truy xuất thông tin, ñộ ño ñược sử dụng ñể ñánh giá ñộ xác P (precision), ñộ bao phủ R (recall) ñộ trung bình ñiều hòa F Sau ñây ñịnh nghĩa liên quan ñộ ño [103] Định nghĩa 3.21 – Độ xác (P) Định nghĩa 3.22 – Độ bao phủ (R) Định nghĩa 3.23 – Độ trung bình ñiều hòa F Trong thực nghiệm, giải thuật ñề xuất luận án ñược cài ñặt ngôn ngữ T-SQL thực phần mềm quản trị sở liệu Microsoft SQL Server 2005 Cấu hình hệ thống máy chủ sử dụng thực nghiệm gồm xử lý Intel(R) Core(TM) Duo T.7300 2.2GHz, nhớ 2GB, nhớ có phần dung lượng trống khả dụng 15GB Các công việc hỗ trợ thực nghiệm cần thực bao gồm: − Xây dựng kho ngữ liệu tài liệu tiếng Anh − Xây dựng ñộng tìm kiếm thông tin cục (Internal Search Engine, ISE) dựa công cụ Lucene [104] cho kho ngữ liệu nêu ñộc lập với phần chương trình luận án − Tổ chức khai thác kho liệu WordNet - 13 - Vận dụng phương pháp phân tích cụm danh từ (trong lĩnh vực xử lý ngôn ngữ tự nhiên) ñể nhận dạng thành phần truy vấn, từ ñó kết hợp ontology OOMP ñể hỗ trợ việc hoàn chỉnh mở rộng truy vấn, góp phần xây dựng mô hình xử lý truy vấn xử lý luận án Mô hình với giải thuật liên quan ñã góp phần giải Bài toán luận án, ñồng thời mở rộng áp dụng cho toán khác lĩnh vực xử lý ngôn ngữ tự nhiên (truy xuất thông tin, rút trích thông tin, tóm lược nội dung văn bản) Các phương pháp giải thuật liên quan ñến ñóng góp ñược giới thiệu [ii], [v] [ix] * Đóng góp thứ tư: phương pháp xây dựng mục hướng ngữ nghĩa: Phương pháp giúp phát triển hệ thống truy xuất thông tin tìm kiếm thông tin tốt cho người dùng Nó tạo sở cho nghiên cứu ứng dụng liên quan ñến truy xuất thông tin, qua ñó xác ñịnh hướng nghiên cứu chuyên biệt lĩnh vực truy xuất thông tin web ngữ nghĩa Phương pháp ñã ñược trình [iv] ñược phát triển [iii] [viii] Những kết ñạt ñược luận án ñóng góp nêu tạo sở cho hướng nghiên cứu tác giả góp phần phát triển ứng dụng cho công trình [xii] Error! Reference source not found Ngoài ra, luận án ñược thực thực nghiệm cho giải thuật ñã ñược trình bày chương, gồm nhóm giải thuật huấn luyện ontology CB-KBT, WB-KBT A-KBT; nhóm giải thuật xử lý truy vấn CNPV, NPC, SNPE, NPMR, CNPG, RNPG, nhóm giải thuật xây dựng khai thác mục hướng ngữ nghĩa SIC, HS Một số kết ñạt ñược có ý nghĩa thực tế sau: − Kết thực nghiệm giải thuật huấn luyện ontology cho thấy số lượng ñáng kể liệu rút trích ñược ñộ tin cậy cao 80,41% cho liệu dạng Object, 97,09% cho liệu dạng Property giải thuật WB-KBT, tối thiểu 98,02% cho dạng - 30 - − Thứ nhất, ñịnh nghĩa quan hệ ngữ nghĩa R m , R p , Rfm Rfp , khái niệm truy vấn hoàn chỉnh, phân tích dạng ñồ thị ngữ nghĩa (trình bày chương 3) tạo tiền ñề OB cho việc kiến tạo mô hình mở rộng truy vấn MQE −+IR , OB OB + P OB + P MQE −+IR , MQE ++IR MQE ++IR Những mô hình phản ánh kết khả quan vận dụng hợp lý nghiên cứu lĩnh vực xử lý ngôn ngữ vào toán mở rộng truy vấn web ngữ nghĩa Hơn nữa, chúng ñược áp dụng phạm vi luận án ñể giải Bài toán Bài toán 2, mà áp dụng số nghiên cứu thuộc lĩnh vực xử lý ngôn ngữ tự nhiên − Thứ hai, việc xây dựng lớp tương ñồng từ quan hệ nêu giúp cho việc phân loại ñối tượng hiệu hơn, từ ñó áp dụng vào phương pháp phân tích truy vấn CNPV luận án mở rộng cho tác vụ phân lớp ngữ nghĩa ontology khác Công trình [ii], [iv], [v] [ix] ñã giới thiệu phương pháp luận ñịnh nghĩa khái niệm * Đóng góp thứ hai: mô hình ontology OOMP ñề xuất phương pháp huấn luyện liệu CB-KBT, WB-KBT A-KBT: Trong phạm vi luận án, ontology OOMP phục vụ toán mở rộng truy vấn toán khác theo hướng khai thác quan hệ khái niệm Từ góc ñộ ngôn ngữ học, thành phần ontology ñược phân lớp dựa dạng từ loại danh từ, tính từ nên cấu trúc chúng phụ thuộc vào khác ngôn ngữ tự nhiên Điều tạo thuận lợi cho việc phát triển ontology ngôn ngữ tự nhiên khác (như tiếng Việt, Pháp …), từ ñó hướng tới việc xây dựng ontology hỗ trợ nhiều ngôn ngữ tự nhiên khác Nội dung liên quan ñến ñóng góp ñã ñược công bố công trình [iv], [v] [ix] * Đóng góp thứ ba: mô hình xử lý truy vấn (truy vấn dạng cụm danh từ) dựa ontology OOMP với giải thuật CNPV, NPC, SNPE NPMR: - 29 - Ontology OOMP ñóng vai trò quan trọng thực nghiệm giải thuật việc cung cấp liệu ngữ nghĩa cần thiết cho giải thuật ñể bổ sung thành phần khiếm khuyết Trong tiến trình thực nghiệm, công cụ ISE tìm kiếm tài liệu cho truy vấn kết từ giải thuật ñề xuất chương 6, mà hỗ trợ xác ñịnh số liệu (như tần suất xuất hiện, ñộ phụ thuộc) phần tử ontology, từ ñó giúp nâng cao chất lượng ontology Dựa thư viện mã nguồn mở Lucene [40], tác giả phát triển ñộng tìm kiếm thông tin tập liệu cục ñể hỗ trợ thực nghiệm giải thuật ñề xuất luận án Động ñược ñặt tên “Động tìm kiếm thông tin cục bộ” (Internal Search Engine, ISE) Động ñược cài ñặt ngôn ngữ C# Microsoft DotNet Framework 2.0, có hỗ trợ tìm kiếm cho từ khoá ñơn cụm từ, bao gồm chế tìm kiếm gần ñúng hay xác 3.6 Nguồn liệu thực nghiệm Nguồn liệu tham khảo từ tổ chức TREC [41] Bảng 3.1 Thống kê thành phần liệu từ TREC Ký hiệu Nguồn liệu Số lượng (tập tin) N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 Associated Press (AP) Congressional Record (CR) Department of Energy abstracts (DOE) Foreign Broadcast Information Service (FB) Federal Register (FR) Financial Times Limited (FT) Los Angeles Times (LA) U.S Patents (PATN) San Jose Mercury News (SJM) Wall Street Journal (WSJ) Ziff-Davis-part (ZF2) Ziff-Davis-part (ZF) - 14 - 1.044 222 178 492 828 593 730 235 301 572 427 354 Dung lượng (MB) 272 91,6 72,1 149 244 197 169 249 294 159 424 353 Dữ liệu phục vụ việc huấn luyện ontology OOMP ñược lưu tập TRAINING_DATA có số lượng 247.988 cụm danh từ thuộc chín dạng mẫu Dữ liệu phục vụ việc thử nghiệm cho giải thuật ñược lưu tập liệu TEST_DATA gồm 12.282 cụm danh từ ñược chọn lọc ñể kiểm tra thử nghiệm giải thuật khác luận án Bảng 3.2 Danh sách tập mục xây dựng cho hệ thống ISE Nguồn Dung lượng tập Nguồn Dung lượng tập liệu mục (MB) liệu mục (MB) AP (N1) 552 LA (N7) 518 CR (N2) 276 PATN (N8) 257 DOE (N3) 214 SJM (N9) 313 FB (N4) 198 WSJ (N10) 307 FR (N5) 287 ZF2 (N11) 417 FT (N6) 663 ZF (N12) 511 Bảng 3.3 Thống kê cụm danh từ theo mẫu TEST_DATA Mẫu Số lượng Tỉ lệ (%) Mẫu Số lượng Tỉ lệ (%) M3 305 2,48 M149 201 1,64 M60 2.592 21,10 M150 159 1,29 M71 276 2,25 M178 542 4,41 M81 712 5,80 M184 592 4,82 M85 186 1,51 M186 1.027 8,36 M87 189 1,54 M192 331 2,70 M89 154 1,25 M195 192 1,56 M99 1.463 11,91 M196 211 1,72 M102 143 1,16 M203 165 1,34 M103 584 4,75 M204 155 1,26 M116 1048 8,53 M205 162 1,32 M125 431 3,51 M209 148 1,21 M142 314 2,56 Chương 4- XÂY DỰNG ONTOLOGY OOMP 4.1 Giới thiệu Với ưu ñiểm lợi ích ứng dụng ontology vào việc mở rộng truy vấn truy xuất thông tin (trình bày phần 2.2, chương 2), việc phát triển ontology nhằm phục vụ toán mở - 15 - Chương 7- KẾT LUẬN Từ chương ñến chương 6, luận án ñã trình bày toàn nghiên cứu tác giả mở rộng truy vấn dựa sở ontology Các chương ñầu cung cấp sở lý thuyết làm sở cho toàn phương pháp phân tích, hoàn chỉnh mở rộng truy vấn ñược trình bày chương Mỗi chương ñề xuất mô hình, phương pháp giải thuật xử lý phù hợp dựa sở lý thuyết ñã ñược trình bày chương trước Những nội dung ñược trình bày chương ñã bám sát mục tiêu ñề hai toán ban ñầu Điều thể thông qua kết ñạt ñược mặt lý thuyết thực tiễn luận án Các kết nghiên cứu luận án ñã góp phần xác ñịnh vấn ñề cần nghiên cứu, phát triển thời gian tới 7.1 Kết ñạt ñược Từ ý tưởng khai thác nét ñặc trưng truy vấn dạng cụm danh từ, luận án ñã ñề xuất mô hình phương pháp luận nghiên cứu mở rộng truy vấn sở ontology lĩnh vực truy xuất thông tin Từ việc mở rộng truy vấn luận án thực xây dựng cụm danh từ hoàn chỉnh, dạng cụm danh từ vừa thỏa mãn chức ngữ pháp ngôn ngữ tự nhiên, vừa mang ngữ nghĩa cần thiết ñể tìm kiếm thông tin cho có kết tốt Tác giả ñã xây dựng sở lý thuyết cho mô hình mở rộng truy vấn giải thuật thực việc kiểm tra, hoàn thiện, mở rộng truy vấn Một hướng phát triển khác luận án xây dựng hệ thống mục hướng ngữ nghĩa, nhằm mở rộng khả xử lý mở rộng truy vấn cho hệ thống truy xuất thông tin Những kết ñã ñáp ứng ñược mục tiêu Bài toán Bài toán mà luận án ñã ñưa Kết nghiên cứu luận án có ý nghĩa khoa học thực tiễn với ñóng góp sau * Đóng góp ñầu tiên: ñề xuất số phương pháp xác ñịnh quan hệ khái niệm phục vụ việc xử lý toán phương pháp ñược ñề xuất luận án: - 28 - STT Bảng 6.2 So sánh kết thực nghiệm Số liệu trung bình PP-Thô PP-HS Số kết tìm ñược 687 721 Thời gian thực thi 276,43 1.127,33 Tỉ lệ 1,05 4,08 Kết phản ánh tỉ lệ tốt (1,05 lần) ñạt ñược mặt kết tìm ñược trung bình PP-HS so với kết PP-Thô Tuy nhiên, chi phí trung bình thời gian tìm kiếm giải thuật HS cao (4,08 lần) so với tìm kiếm thô Đây vấn ñề ảnh hưởng ñến tính hiệu giải thuật HS STT Bảng 6.3 So sánh kết thực nghiệm Số liệu trung bình PP-Thô PP-HS Số kết tìm ñược 354 354 Thời gian thực thi 837,17 1.936,43 Tỉ lệ 1,00 2,31 Cả hai phương pháp ñều thu ñược giá trị bình quân số tài liệu tìm ñược ngang Một nghịch lý xảy liên quan ñến thời gian thực thi trung bình hai phương pháp Cả hai giá trị “PP-Thô” “PP-HS” ñều cao so với kết tương ứng thực nghiệm trước ñó Tuy nhiên, tỉ lệ cách biệt thời gian thực thi hai phương pháp ñược thu giảm từ 4,08 (trong thực nghiệm 1) xuống 2,31 Kết phản ánh mức cải thiện ñáng kể thời gian thực thi trung bình giải thuật HS so với kết tìm kiếm thô Đây bước cải tiến khách quan ảnh hưởng ñến tính hiệu giải thuật HS STT Bảng 6.4 So sánh kết thực nghiệm Số liệu trung bình PP-Thô PP-HS Số kết tìm ñược 104 167 Thời gian thực thi 354,86 388,83 Tỉ lệ 1,61 1,10 Kết phản ánh tỉ lệ tốt cao (1,61 lần) ñạt ñược mặt kết tìm ñược trung bình giải thuật HS so với kết tìm kiếm thô Đồng thời, cách biệt chi phí trung bình thời gian tìm kiếm giải thuật HS tìm kiếm thô ñược thu giảm ñáng kể (chỉ lại 1,10 lần so với 2,31 lần thực nghiệm 2) so với tìm kiếm thô So với kết tương ứng thực nghiệm 2, ñây cải tiến khách quan ảnh hưởng ñến tính hiệu giải thuật HS - 27 - rộng truy vấn luận án ñóng vai trò quan trọng Hơn nữa, toán xử lý luận án liên quan ñến khái niệm cụm danh từ hoàn chỉnh quan hệ ngữ nghĩa ROMP, Rm Rp, nhiên WordNet chưa ñáp ứng ñầy ñủ yêu cầu cần thiết ñồng thời giải pháp mở rộng WordNet ñể bổ sung dạng quan hệ nêu ñòi hỏi nhiều thời gian, công sức không hoàn toàn khả thi cho luận án, nên việc xây dựng riêng biệt ontology OOMP vấn ñề cần thiết nhằm kiến tạo nhóm mạng ngữ nghĩa tương ứng cho quan hệ Dựa sở lý thuyết ñề xuất chương 3, chương vấn ñề ñược trình bày liên quan ñến việc phát triển ontology OOMP (Ontology of Object–Member–Property) xác ñịnh cấu trúc tổ chức, phương pháp huấn luyện, thực nghiệm kết thu ñược Một phần kết chương ñã công bố công trình [v] [ix] 4.2 Xây dựng ontology OOMP So với ontology khác, ñặc trưng bật ontology OOMP tổ chức phân cấp khái niệm ngữ nghĩa dựa theo quan hệ R OMP Cấu trúc ñược thể chi tiết hình 4.1 với thành phần liệu tương ứng cho thực thể, thông qua ñó thực mô hình sở liệu thực tế Object oID oValue oType Rm oIDmI D Dep KeyMember mID mValue mType mPriority mProbability Rp mID pID Dep KeyProperty pID pValue pType pPriority pProbability Hình 4.1 Cấu trúc ontology OOMP tổ chức sở liệu quan hệ Việc huấn luyện ontoloy OOMP ñược giải hai cách tiếp cận − Cách thứ hướng ñến việc khai thác thông tin kho ngữ liệu cho trước thông qua việc sử dụng mẫu (trong mục 3.4 chương 3) ñể tìm thành phần dự tuyển nhằm xác ñịnh giá trị phù hợp cho việc lưu trữ - 16 - − Cách thứ hai hướng ñến việc khai thác thông tin ngữ nghĩa ñã có sẵn WordNet 4.3 Phương pháp huấn luyện dựa kho ngữ liệu Giải thuật 4.1 Huấn luyện ontology dựa kho ngữ liệu (CorpusBased Knowledge Base Training, CB-KBT) (ñộ phức tạp O(n2)) Giải thuật 6.2 Tạo mục hướng ngữ nghĩa (Semantic Index Creation, SIC) (ñộ phức tạp O(n2)) Giải thuật 6.3 Tìm kiếm kết hợp (Hybrid Search, HS) (O(n)) Kết thực nghiệm: 3,866 3,966 3,248 6,393 95738 3,102 3,125 3,102 2,797 5,943 5,907 5,974 5,637 6,400 20632 6453 8463 N1 2857 N2 N3 N4 N5 N6 N7 M178 M184 M186 M192 M195 M196 M204 M209 Bảng 4.1 Dữ liệu dự tuyển rút trích ñược giải thuật CB-KBT Tập liệu Số lượng Số lượng xác Độ tin cậy (%) Object 11.396 11.378 99,84 Member 9.210 9.173 99,60 Property 16.515 16.188 98,02 Quan hệ Rm 85.687 85.428 99,70 Quan hệ Rp 104.001 70.110 67,41 4.4 Phương pháp huấn luyện dựa WordNet Giải thuật 4.2 Huấn luyện ontology dựa WordNet (WordNetbased Knowledge Base Training, WB-KBT) (ñộ phức tạp O(n2)) STT Bảng 4.2 Dữ liệu ñược rút trích giải thuật WB-KBT Loại Số lượng Số lượng xác Độ xác (%) Object 7.193 5.784 80,41 Member 11.221 3.618 32,24 Property 824 800 97,09 Quan hệ Rm 34.945 1.178 3,37 Quan hệ Rp 2.815 1.662 59,04 4.5 Cơ chế tự huấn luyện ontology OOMP Giải thuật 4.3 Huấn luyện ontology tự ñộng (Automatic Knowledge Base Training, A-KBT) (ñộ phức tạp O(n2)) - 17 - N8 N9 N10 7,197 7,307 N11 N12 574 Hình 4.2 Phân bổ cụm danh từ tập TRAINING_DATA theo dạng mẫu STT 6,321 6,360 5,195 Liên kết ñến phần tử dạng Object M3 2,727 1,224 5,004 4,543 5,179 4,660 5,015 2,756 5,100 4,677 5,145 5,300 2,240 46751 47710 18810 3,203 3,261 7,278 7,429 3,285 Liên kết ñến phần tử dạng Member Liên kết ñến phần tử dạng Property Hình 6.7 So sánh số liên kết tạo thành theo nguồn liệu từ SIC 8.8 8.93 8.41 8.47 8.3 8.25 8.9 8.41 7.58 8.34 7.87 8.15 7.4 8.44 7.59 8.17 N1 N2 N3 N4 N5 8.68 8.84 8.83 8.88 7.39 8.94 3.32 3.85 3.65 N6 7.26 8.31 7.62 8.38 8.64 N7 N8 N9 N10 Liên kết ñến phần tử dạng Object (%) 10.48 10.75 10.17 10.38 11.73 11.91 N11 N12 Liên kết ñến phần tử dạng Member (%) Liên kết ñến phần tử dạng Property (%) Hình 6.8 So sánh tỉ lệ liên kết tạo thành theo nguồn liệu từ SIC Các liên kết ñóng vai trò quan trọng việc mở rộng kết tìm kiếm phần thực nghiệm giải thuật HS sau ñây Các bước tiến hành thực nghiệm giải thuật HS sau: − Thực nghiệm 1: toán tìm kiếm mở rộng toàn cục phạm vi toàn cục − Thực nghiệm 2: toán tìm kiếm mở rộng toàn cục phạm vi cục − Thực nghiệm 3: toán tìm kiếm mở rộng cục phạm vi cục - 26 - f(A) Y STT f-1 f f-1(f(A)) A 4.6 Các ứng dụng ontology quan hệ X Trong lĩnh vực này, số phương pháp ứng dụng ñể: − Kiểm tra tính hoàn chỉnh cụm danh từ (Complete Noun Phrase Verification, CNPV) − Tạo cụm danh từ hoàn chỉnh (Complete Noun Phrase Generation, CNPG) − Tạo cụm danh từ rút gọn (Reductive Noun Phrase Generation, RNPG) − Hoàn chỉnh thành phần cụm danh từ (ñể bổ sung hay nhiều tính chất trội) (Noun Phrase Completion, NPC) − Mở rộng cụm danh từ tương ñương (ñể bổ sung hay nhiều tính chất ñặc trưng cho ñối tượng truy vấn) (Similar Noun Phrase Expansion, SNPE) − Rút gọn thành phần cụm danh từ (ñể loại bỏ hay thay số thành phần cụm danh từ hay nhiều thuộc tính ñặc trưng) (Noun Phrase Member Reduction, NPMR) Hình 6.3 Minh họa tính chất (6.1) Phương pháp tiếp cận hệ thống dựa tính chất (6.1): (giải thuật HS) (giải thuật SIC) (tập kết mở rộng) (tập kết thô) (tìm kiếm thô) Bảng 4.3 Dữ liệu bổ sung tạo giải thuật A-KBT Loại Số lượng Số lượng xác Độ xác Quan hệ Rm 3.953 1.611 40,75% Quan hệ Rp 2.807 1.074 38,26% Hình 6.4.Ứng dụng tính chất (6.1) vào mở rộng kết truy vấn Mô hình hệ thống xử lý mở rộng thể hình 6.8 Chương 55.1 Hình 6.5 Mô hình thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin có sẵn Index id1 id2 idi idi+1 idn-1 idn Object HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN Giới thiệu Chương trình bày tác vụ liên quan ñến toán hoàn chỉnh Mỗi phần chương trình bày mục tiêu tác vụ, giải thuật thực tác vụ, ví dụ minh họa thực nghiệm với ñầy ñủ số liệu thực nghiệm thực tế Một phần kết chương ñã công bố công trình [v] Member Member Object Member Member Ontology Property 11 Property 12 Object Property n1 Property 11 Property m Property 12 Member Member Property n1 Property m 5.2 Hoàn chỉnh rút gọn truy vấn Property 11 Property 12 Property n1 Object Property m Member Member Object Member Property 11 Member Property 12 Property n1 Property m Property n1 Property m Hình 6.6.Mô hình tổ chức mục hệ thống truy xuất thông tin - 25 - OB + P Ngoài ra, sở lý thuyết phần 3.2 mô hình MQE−+IR , Property 11 Property 12 việc mở rộng truy vấn bổ sung cụm từ tương ñương ñược hỗ trợ giải thuật hoàn chỉnh truy vấn cho trường hợp chưa rõ - 18 - nghĩa Trong số trường hợp cụ thể, truy vấn ñược biểu diễn dạng rút gọn thông qua việc loại bỏ số thành phần không quan trọng Mô hình hệ thống hoàn chỉnh rút gọn truy vấn ñược mô tả sau Hình 5.1 Mô hình hệ thống hoàn chỉnh rút gọn truy vấn Phương pháp xử lý mô-ñun ñược trình bày thông qua giải thuật NPC NPMR mục 5.6 5.7, ñó sử dụng hỗ trợ từ giải thuật giới thiệu mục 5.3, 5.4 5.5 sau ñây 5.3 Kiểm tra cụm danh từ hoàn chỉnh Giải thuật 5.1 Kiểm tra cụm danh từ hoàn chỉnh (Complete Noun Phrase Verification, CNPV) (ñộ phức tạp O(n)) Kết thực nghiệm: 2000 1800 1600 1400 1200 1000 ngữ cảnh ñịnh, từ ñó ảnh hưởng ñến ñịnh hướng nghiên cứu tương lai vấn ñề cải tiến phương pháp SNPE Bảng 6.1 So sánh kết phương pháp tìm kiếm thô SNPE Giá trị bình quân theo truy vấn PP-Thô PP-SNPE Tỉ lệ (a) Số lượt tài liệu tìm ñược 7.925659 37.90736 4.782865 (b) Số lượt tài liệu tìm ñược xác 4.983213 24.08883 4.833995 (c) Số lượt tài liệu tìm ñược phân biệt 1.62542 0.363176 0.223435 (d) Số lượt tài liệu tìm ñược xác phân biệt 0.37458 0.060854 0.162459 6.2 Mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn So với mô hình phần 6.1, hướng tiếp cận khác liên kết ontology OOMP với hệ thống truy xuất thông tin có sẵn việc tạo kết hợp ontology OOMP với tập mục hệ thống Mô hình ñể triển khai việc tìm kiếm liệu ñược mở rộng thông qua giải thuật tìm kiếm kết hợp (Hybrid Search, HS) Mô hình lý OB + P thuyết MQE ++IR ñóng vai trò tảng cho phương pháp Nếu f : X Y ánh xạ từ tập hợp X ñến tập hợp Y, A ⊆ X tập hợp phần tử, y=f(x) ảnh phần tử x qua f, A∈X tập hợp phần tử, f(A) ảnh tập hợp A qua f, B∈Y tập hợp phần tử, f-1(B)={x∈X / f(x)∈B} tạo ảnh B qua ánh xạ f thì: A ⊆ f −1 ( f ( A)) ⊆ X (6.1) (minh họa hình 6.3) 800 600 400 200 M184 M192 M196 M209 M192 M205 M60 M85 M89 M125 M149 M178 M205 M60 M85 M89 M184 M203 M60 M81 M87 M102 M116 M142 M178 M3 M71 M85 M178 M203 M60 M85 M186 M209 M103 M149 M99 M142 M150 M192 M186 M195 M204 M102 M125 M149 M99 TH0 TH1 TH10 TH11 TH15 TH2 TH3 TH4 TH5TH6 TH7 TH9 Hình 5.2 Các trường hợp xử lý giải thuật CNPV theo dạng lỗi & mẫu 5.4 Tạo cụm danh từ hoàn chỉnh Giải thuật 5.2 Tạo cụm danh từ hoàn chỉnh (Complete Noun Phrase Generation, CNPG) (ñộ phức tạp O(n)) - 19 - Dựa theo phân tích trên, phương pháp tiếp cận giải thuật sử dụng ontology OOMP ñể mở rộng hệ thống mục mặc ñịnh (ñược tạo công cụ tạo mục Lucene, Lemure …) nhằm tạo hệ thống mục hướng ngữ nghĩa Bước xử lý ñược thể với giải thuật Tạo mục hướng ngữ nghĩa (Semantic Index Creation, SIC), ñó giải thuật SIC ñóng vai trò ánh xạ f thể hình 6.6 Từ ñó, với truy vấn q ban ñầu, thông qua việc tham khảo (ñược thực giải thuật Tìm kiếm kết hợp (Hybrid Search, HS) ñến hệ thống mục mở rộng này, việc tìm kiếm xác ñịnh ñược tập mục từ mục (ñóng vai trò tập A) tập mở rộng mục từ liên kết (ñóng vai trò f (f(A)) (minh họa hình 6.4) - 24 - Điểm ñặc biệt mô hình ñề xuất tương tác hệ thống mở rộng truy vấn ñộng tìm kiếm thông tin diễn mức liệu luận lý thông qua kết dạng biểu diễn trung gian gồm tổ hợp ñịnh dạng luận lý cụm danh từ ñược mở rộng 5.5 Tạo cụm danh từ rút gọn Giải thuật 5.3 Tạo cụm danh từ rút gọn (Reductive Noun Phrase Generation, RNPG) (ñộ phức tạp O(n)) 5.6 Hoàn chỉnh cụm danh từ Hình 6.1 Mô hình hệ thống mở rộng truy vấn với ñộng tìm kiếm thông tin Giải thuật 5.4 Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC) (ñộ phức tạp O(n2)) Kết thực nghiệm: 653 650 590 Giải thuật 6.1 Mở rộng cụm danh từ tương ñương (Similar Noun Phrase Expansion, SNPE) (ñộ phức tạp O(n2)) Kết thực nghiệm: 95.2% 99.3% 100.0% 100.0% 99.3% 100.0% 100.0% 93.8% 98.7% 304 178 99.0% 100.0% 100.0% 100.0% 75.9% 307 169 156 151 20 14 59.8% N1 N2 N3 42.9% 13 N4 N5 N6 Kết (số tài liệu) 16 N7 N8 N9 N10 N11 N12 Kết xác (số tài liệu) Hình 5.3 Thống kê số lượng kết thực nghiệm theo nguồn liệu 16.6% 9.1% 8.6% 4.5% 0.4% 2.0% N1 295 86.2% 86.0% 75.3% 3.9% 354 133 92.1% 85.6% 425 354 201 92.9% 427 452 N2 N3 N4 3.8% 0.2% N5 N6 Độ xác 9.5% 1.0% 2.0% 1.9% N7 N8 5.0% N9 Độ bao phủ N10 N11 N12 100.0% 95.2% Độ F 98.5% 100.0% 100.0% 99.8% 92.9% 100.0% 100.0% 98.1% 86.7% 85.0% 59.4% 724 42.7% 659 593 480 18.0% 450 427 354 301 220 13 20 N1 N2 178 134 N3 194 177 N4 N5 Kết (số tài liệu) N6 86.7% 76.6% 74.7% Hình 6.1 Thống kê số liệu ñộ ño theo nguồn liệu 99.7% 99.5% 99.5% 99.5% 92.7% 354 305 15 N7 N8 N9 N2 N3 5.1% 0.7% N4 3.9% 0.3% N5 N6 Độ xác 10.3% 1.2% 2.3% 2.0% N7 N8 Độ bao phủ 5.4% N9 N10 N11 N12 Độ F Hình 5.4 Thống kê số liệu ñộ ño theo nguồn liệu N10 N11 N12 Kết xác (số tài liệu) Hình 6.2 Thống kê số lượng kết thực nghiệm theo nguồn liệu So sánh cho thấy phương pháp SNPE có kết trội bật mặt (a), (b) chưa thật trội mặt (c) (d) Điều phản ánh ưu nhược ñiểm phương pháp SNPE - 23 - 9.8% 2.1% N1 152 14 10.0% 4.2% Bảng 5.1 So sánh kết phương pháp tìm kiếm thô NPC Giá trị bình quân theo truy vấn PP-Thô PP-NPC Tỉ lệ (a) Số lượt tài liệu tìm ñược 52,7445 48,91685 0,92743 (b) Số lượt tài liệu tìm ñược xác 23,60186 28,07387 1,189477 (c) Số lượt tài liệu tìm ñược phân biệt 0,938901 1,607647 1,712264 (d) Số lượt tài liệu tìm ñược xác phân biệt 0,15493 0,289903 1,871195 - 20 - So sánh cho thấy phương pháp NPC có kết tốt mặt (b), (c) (d) Điều chứng tỏ phương pháp NPC có tác ñộng tích cực ñến việc cải thiện chất lượng truy vấn, nói cách khác tỉ lệ ñộ xác kết thu ñược tăng lên Chương 6- 5.7 Giải thuật rút gọn thành phần cụm danh từ Giải thuật 5.5 Rút gọn thành phần cụm danh từ (Noun Phrase Member Reduction, NPMR) (ñộ phức tạp O(n2)) Kết thực nghiệm: 95.2% 85.7% 97.0% 100.0% 100.0% 98.2% 83.7% 85.1% 73.6% 75.0% 100.0% 100.0% 94.2% 99.7% 92.7% 86.7% 99.8% N11 N12 81.3% 57.1% 41.0% 3.4% 1.7% N1 16.6% 9.1% N2 8.4% 4.4% N3 0.4% 0.2% N4 N5 N6 Độ xác 3.8% 1.9% 1.8% 0.9% N7 N8 Độ bao phủ 8.2% 4.3% N9 N10 Độ F Hình 5.5 Thống kê số liệu ñộ ño theo nguồn liệu 730 691 593 480 445 426 427 354 301 178 131 12 20 354 307 225 220 182 145 Kết (số tài liệu) 14 13 MỞ RỘNG TRUY VẤN OB OB OB + P Thông qua mô hình MQE−+IR , MQE++IR , MQE−+IR , OB + P MQE++IR ñề xuất mục 3.2 chương 3, vấn ñề mở rộng truy vấn ñược tiếp cận theo hai hướng: − Hướng toàn cục: thực mở rộng truy vấn cho ñộng tìm kiếm thông tin Web, nội dung chi tiết phần 6.1 − Hướng cục bộ: thực mở rộng truy vấn cho hệ thống truy xuất thông tin có sẵn dùng kho ngữ liệu cục kết hợp việc phát triển hệ thống mục hướng ñến ngữ nghĩa (từ ñây ñược gọi hệ thống truy xuất thông tin có sẵn) nội dung chi tiết phần 6.2 Trên sở hai hướng này, việc phát triển hệ thống mở rộng truy vấn ñược thực dựa việc kết hợp ontology OOMP ứng dụng quan hệ R m , Rfm , R p , Rfp ñể từ ñó xác ñịnh phương thức xử lý cần thiết Mỗi phần chương trình bày mục tiêu, giải thuật thực ví dụ minh họa cho phương pháp, thực nghiệm liên quan số liệu thực tế Một phần kết chương ñã công bố công trình [iv], [ix] số phát triển ñược giới thiệu [iii] [viii] 6.1 Mở rộng truy vấn cho ñộng tìm kiếm Web 10 11 12 Kết xác (số tài liệu) Hình 5.6 Thống kê số lượng kết thực nghiệm theo nguồn liệu Bảng 5.2 So sánh kết phương pháp tìm kiếm thô NPMR Giá trị bình quân theo truy vấn PP-Thô NPMR Tỉ lệ (a) Số lượt tài liệu tìm ñược 7.925659 197.0885 24.86714 (b) Số lượt tài liệu tìm ñược xác 4.983213 74.40406 14.93094 (c) Số lượt tài liệu tìm ñược phân biệt 1.62542 2.137698 1.315167 (d) Số lượt tài liệu tìm ñược xác phân biệt 0.37458 0.352596 0.941309 - 21 - So sánh (a), (b) (c) cho thấy cải thiện ñáng kể chất lượng số lượng phương pháp NPMR Đây kết khích lệ mà toán rút gọn truy vấn ñạt ñược Mô hình hệ thống ñược ñề xuất hình 6.1 Trong mô hình, hệ thống mở rộng truy vấn ñóng vai trò mô-ñun liên kết với ñộng tìm kiếm thông tin Trong hệ thống này, chức mở rộng truy vấn giải thuật SNPE ñược thực cho phép truy vấn nhập dạng cụm danh từ tiếng Anh Giải thuật bổ sung nhiều tính chất ñặc trưng cho ñối tượng truy vấn Việc bổ sung thêm phần tử oi∈O, mj∈M, pk∈P, cụm danh từ ñược tạo - 22 -

Ngày đăng: 21/11/2016, 02:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan