Xây dựng chỉ mục có ngữ nghĩa trong hệ thống truy hồi thông tin

Đại Học Quốc Gia TP Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA -oOo - NGÔ XUÂN TIẾN LUẬN VĂN THẠC SĨ Chuyên Ngành: Khoa học máy tính XÂY DỰNG CHỈ MỤC CÓ NGỮ NGHĨA TRONG HỆ THỐNG TRUY HỒI THƠNG TIN TP Hồ Chí Minh, Tháng 12 – 2008 LỜI CẢM ƠN Tôi xin chân thành cảm ơn PGS TS Phan Thị Tươi định hướng tận tình hướng dẫn tơi hồn thành luận văn Xin cảm ơn q thầy, Khoa Cơng nghệ thơng tin trường Đại học Bách khoa thành phố Hồ Chí Minh Th.S Nguyễn Chánh Thành – NCS ngành Khoa học máy tính trường Đại học Bách khoa thành phố Hồ Chí Minh dạy dỗ hướng dẫn tơi suốt thời gian học tập thực luận văn Tơi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, người sát cánh động viên tạo điều kiện tốt để học tập hồn tất luận văn tốt nghiệp TÓM TẮT Khi đối mặt với kho liệu lớn, phương pháp truy hồi thông tin dựa vào từ khố khơng cho kết tìm kiếm xác cao mong muốn Đã có nhiều nghiên cứu đưa nhằm nâng cao độ xác tìm kiếm, nghiên cứu chủ yếu tập trung vào môi trường web với việc khai thác thông tin mối liên kết tài liệu web với Cũng với mong muốn tăng độ xác tìm kiếm, luận văn chúng tơi tập trung vào kho liệu nhỏ mang tính chất đặc thù riêng, từ xây dựng hệ thống mục cho phép tích hợp nét ngữ nghĩa thu từ kho liệu Kho liệu mà chọn để thực nghiệm báo khoa học cung tạp chí ACL ABSTRACT When faces with large data storage, the information retrieval system based on keywords has turned out not to give such an accurate result as it is expected There have been many studies carried out to improve the accuracy of searching, but these researches have only focused on web environment to exploit the information about the hyperlinks between web pages What we here, in this thesis, is also with the aim of increasing searching accuracy, however we primarily develop it in the context of the smaller domain but having specific characteristics, and from that build an index system allowing the integration of the semantic contents derived from this data storage The data storage that we choose to work is the scientific articles provided by ACL journal MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 LÝ DO CHỌN ĐỀ TÀI 1.2 MỤC TIÊU ĐỀ TÀI 1.3 ĐÓNG GÓP CỦA ĐỀ TÀI 1.4 Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI 1.5 CẤU TRÚC LUẬN VĂN CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Mơ hình khơng gian vector 2.2 Tiêu chí đánh giá chất lượng hệ thống truy hồi thông tin [3] 2.3 Giới thiệu hệ thống truy hồi thông tin dựa theo chiến lược Term Weighting (Trọng số từ) [4] CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN ĐẾN ĐỀ TÀI 17 3.1 Kỹ thuật PageRank Google 17 3.2 Cải tiến phương pháp PageRank cách phân tích liên kết cấp độ Block 20 3.3 Máy tìm kiếm thơng tin web ngữ nghĩa metadata - Swoogle 26 CHƯƠNG CƠ SỞ LÝ LUẬN CỦA ĐỀ TÀI .31 4.1 Mục tiêu đề tài 31 4.2 Đặc điểm kho liệu thư viện online 32 4.3 Kho liệu ACL 33 4.4 Cấu trúc viết ACL 33 4.5 Hướng nghiên cứu đề tài 34 4.6 Phương pháp xác định trọng số dựa vào nội dung tài liệu 36 4.7 Phương pháp xây dựng trọng số ngữ nghĩa dựa vào mối quan hệ tài liệu 41 4.8 Trọng số tài liệu thống sử dụng cho việc thứ tự 46 CHƯƠNG CÀI ĐẶT HỆ THỐNG .48 5.1 PDFBox Chuyển đổi file từ định dạng pdf sang dạng text sử dụng thư viện 50 5.2 Rút trích đặc trưng tài liệu ACL (ACL Feature Extraction) 50 5.3 Lập mục tài liệu sử dụng Lucene Indexer 51 5.4 Chuyển Lucene index sang sở liệu (Index Converter) 52 5.5 Rút trích mối quan hệ tài liệu (ACL Relation Extraction) 53 5.6 Tính tần suất đặc trưng (fF Calculator) 53 5.7 Tính trọng số mức độ phổ biến tài liệu (PRref Calculator) 54 5.8 Tính trọng số tài liệu sử dụng cho việc thứ tự 54 5.9 Giao diện chương trình 55 CHƯƠNG THỰC NGHIỆM 57 6.1 Kết rút trích thơng tin tài liệu ACL 57 6.2 So sánh kết tìm kiếm hệ thống với hệ thống khác 58 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .66 TÀI LIỆU THAM KHẢO 68 DANH MỤC CÁC BẢNG Bảng 2-1: Các công thức xác định trọng số cục 11 Bảng 2-2: Các cơng thức xác định trọng số tồn cục 12 Bảng 2-3: Công thức xác định thành phần chuẩn hoá 13 Bảng 2-4: Kết thu sử dụng trọng số cục 14 Bảng 2-5: Kết thu kết hợp trọng số cục LOGN với trọng số toàn cục 14 Bảng 2-6: Kết thu kết hợp thêm thành phần chuẩn hoá 14 Bảng 2-7: Kết thu sử dụng kết hợp trọng số cho tài liệu từ khoá truy vấn 15 Bảng 5-1: Tập giá trị trọng số đặc trưng nội dung tài liệu 53 Bảng 6-1: Kết rút trích thơng tin tài liệu ACL 57 Bảng 6-2: Độ dài từ khoá truy vấn 58 Bảng 6-3: Độ xác trung bình hệ thống 60 Bảng 6-4: Độ lệch tập tài liệu trả hệ thống LuceneSimC với hệ thống khác 61 Bảng 6-5: Kết trả hai hệ thống từ khoá “phrasal word alignment” 62 Bảng 6-6: Kết trả từ khoá “Traditional search engine” 63 Bảng 6-7: Kết trả từ khoá “information extraction” 64 DANH MỤC CÁC HÌNH Hình 3-1: Độ xác trung bình theo tham số alpha cho PR-Combination BLPR-Combination, thực nghiệm với TREC2003 25 Hình 3-2: Độ xác theo điểm cắt P@10 theo alpha cho PRCombination BLPR-Combination, thực nghiệm với TREC2003 25 Hình 3-3: Kiến trúc hệ thống Swoogle 27 Hình 3-4: Lược đồ lướt trang Swoogle 29 Hình 5-1: Mơ hình hoạt động hệ thống S_Engine 49 Hình 5-2: Giao diện người dùng nhập thơng tin truy vấn 55 Hình 5-3: Giao diện trả kết tìm kiếm cho người dùng 56 Hình 5-4: Giao diện xem nội dung tài liệu 56 CHƯƠNG TỔNG QUAN 1.1 LÝ DO CHỌN ĐỀ TÀI Trong thời đại bùng nổ thông tin nay, mà kho liệu thường lớn, thách thức mà mang lại cho người làm để quản lý truy xuất thơng tin cách nhanh chóng xác Điều địi hỏi hệ thống truy hồi thơng tin phải trì tăng độ xác tìm kiếm Đối với hệ thống truy hồi thơng tin truyền thống dựa vào từ khố việc trì khơng thể Vì vậy, nhiều nghiên cứu đời với mục đích tích hợp thêm nét ngữ nghĩa đặc thù loại tài liệu nhằm nâng cao độ xác hệ thống Trong năm gần đây, đời hệ thống tìm kiếm Google đánh dấu thành cơng cho hướng nghiên cứu tích hợp ngữ nghĩa Bằng cách khai thác thông tin mối liên kết tài liệu môi trường web để xác định mức độ phổ biến tài liệu, Google tạo nên nét ngữ nghĩa cho tài liệu tích hợp thêm vào hệ thống Sự tích hợp giúp Google phần đáp ứng cầu tìm kiếm thông tin người dùng môi trường web trở thành hệ thống tìm kiếm thơng tin môi trường web phổ biến thời điểm Tuy nhiên, với việc giữ kín mơ hình hoạt động tập trung vào môi trường web nên Google khơng thể đáp ứng tốt nhu cầu tìm kiếm hệ thống liệu cục người dùng hệ thống liệu mà tài liệu tài liệu web, khơng thể rút trích thơng tin mối liên kết tài liệu Ngược lại với việc giữ kín mơ hình hoạt động Google, Lucene biết đến thư viện mã nguồn mở để hỗ trợ người dùng xây dựng hệ thống -1- truy hồi thơng tin cho phép tìm kiếm thơng tin toàn nội dung tài liệu Tuy nhiên Lucene thiết kế để hỗ trợ tất dạng tài liệu mà không quan tâm đến ngữ nghĩa nội dung, Lucene khơng thể khai thác tích hợp nét ngữ nghĩa dạng liệu đặc thù Với kho liệu cụ thể, mà tài liệu tồn số đặc trưng chung truy xuất được, việc khai thác đặc trưng xây dựng hệ thống truy hồi thông tin tiền đề cho phép ta gia tăng độ xác Với mong muốn gia tăng độ xác truy hồi thơng tin kho liệu cụ thể, giới hạn kho liệu tập tài liệu trích đăng tạp chí ACL (The Association for Computational Linguistics) [15] ACL tạp chí chuyên ngành ngơn ngữ học tính tốn, nên tài liệu trích đăng thường có chủ đề máy tính viết theo đinh dạng chuẩn Việc giới hạn cho phép chúng tơi rút trích đặc trưng tài liệu tên tài liệu, tên tác giả, thơng tin tóm tắt, tài liệu tham khảo … sử dụng đặc trưng kết hợp với mơ hình truy hồi thơng tin dựa vào từ khố để xây dựng hệ thống mục tích hợp ngữ nghĩa, cho phép việc truy hồi thông tin có độ xác tốt 1.2 MỤC TIÊU ĐỀ TÀI Mục tiêu đề tài xây dựng mục cho phép tích hợp thêm nét ngữ nghĩa khác nội dung tài liệu nhằm làm tăng độ xác tìm kiếm Trong phạm vi đề tài chúng tơi thực tích hợp hai nét ngữ nghĩa sau: Nét ngữ nghĩa vị trí xuất từ khoá đặc trưng nội dung tài liệu (trình phần 4.6): hệ thống truy hồi thông tin thường không xác định đặc trưng nội dung tài liệu, khơng quan tâm đến vị trí xuất từ khoá tài liệu Tuy nhiên, xác định đặc trưng nội dung tài liệu, ta nhận thấy tài liệu có từ khoá xuất đặc trưng quan trọng tên tài liệu, phần tóm tắt … có xác suất phù hợp với từ khố cao Vì vậy, cách xác định vị trí xuất từ khố đặc trưng -2- • Độ xác trung bình hệ thống LuceneSimC, sau kết hợp hệ thống SimC với hệ thống Lucene để tích hợp thêm ưu điểm Lucene mà SimC thiếu, thu 21.88% tương đương với hệ thống phổ biến Lucene Google Desktop Để thấy rõ khác biệt LuceneSimC với hệ thống khác, ta xem thông tin bảng 6-4 Bảng mô tả độ lệch tập tài liệu trả hệ thống LuceneSimC với hệ thống khác Hệ thống TOP 20 TOP 15 TOP 10 TOP Độ lệch trung bình Lucene 33.53 36.08 37.84 43.14 37.65 Google Desktop 71.67 74.90 77.25 84.71 77.11 LuceneSengine 14.71 17.65 20.20 21.18 18.43 Bảng 6-4: Độ lệch tập tài liệu trả hệ thống LuceneSimC với hệ thống khác Ta thấy LuceneSimC hệ thống tích hợp Lucene SimC, khác biệt với hệ thống Lucene lớn (37.65%) Để tìm hiểu chi tiết khác biệt này, ta xét ba ví dụ tập 10 kết trả ứng với từ khoá truy vấn cụ thể “phrasal word alignment”, “tranditional search engine”, “information extraction” - 61 - Từ khoá truy vấn “phrasal word alignment” STT Lucene SimC Lucene Google Desktop Bayesian Learning of Word Alignment with Inversion Cohesion Constraint Transduction Grammar Non-compositional Phrases with for Joint Phrasal Translation Modeling Synchronous Parsing Phrasal Cohesion and Cohesive Phrase2 Inversion Transduction Grammar Statistical Machine based Decoding for Statistical Machine Translation for Joint Phrasal Translation Translation Modeling Constraining the Soft Syntactic Selective Phrase Constraints for Word Phrase-Based, Joint Pair Extraction for Alignment through Probability Improved Statistical Discriminative Statistical Machine Translation Training Translation Model Word Alignment with Monolingual Machine A Model for FineGrained Alignment of Cohesion Constraint Translation for Multilingual Texts Paraphrase Generation Soft Syntactic Constraining the Phrase-Based, Joint Constraints for Word A Model for FineGrained Alignment of Alignment through Probability Multilingual Texts Discriminative Statistical Training Translation Model Bayesian Learning of Soft Syntactic Improving Bitext Constraints for Word Word Alignments via Non-compositional Alignment through Syntax-based Phrases with Reordering of Synchronous Parsing Discriminative Training English Word Alignment and Monolingual Machine Learning for Cross-Lingual Semantic Parsing Translation for Resource Acquisition Paraphrase with Statistical ? Machine Translation Generation Effective Phrase Phrasal Cohesion and Hybrid Example-Based Statistical Machine Translation SMT: the Best of Extraction from Translation Both Worlds? Alignment Models A Model for Fine9 Combination of Grained Alignment of Bootstrapping a Statistical Word Alignments Based on Multilingual Texts Multilingual PartMultiple of-speech Tagger in Preprocessing One Person-day Schemes 10 The Complexity of Cohesive PhraseCorrecting ESL Phrase Alignment based Decoding for Errors Using Phrasal Problems Statistical Machine SMT Techniques Translation Bảng 6-5: Kết trả hai hệ thống từ khoá “phrasal word alignment” - 62 - Từ khoá truy vấn: “traditional search engine” STT Lucene SimC Lucene Google Desktop A Hybrid Approach to A Hybrid Approach to In Question Natural Language Web Natural Language Web Answering, Two Heads Search Search Are Better Than One Creating Spelling correction HIT-WSD: Using Multilingual as an iterative Search Engine for Translation Lexicons process that Multilingual with Regional exploits the Chinese-English Variations Using collective knowledge Lexical Sample Task Web Corpora of web users Arabic to French Sentence Alignment: The Role of Lexical The Linguist’s Exploration of A Resources in CJK Search Engine: An Cross-language Natural Language Overview Information Processing Retrieval Approach Towards Intelligent Towards Intelligent A Hybrid Approach to Search Assistance Search Assistance Natural Language Web for Inquiry-Based for Inquiry-Based Search Learning Learning HIT-WSD: Using Chinese-English A speech interface Search Engine for Backward for open-domain Multilingual Transliteration question-answering Chinese-English Asisted with Mining Edward Schofield Lexical Sample Task Mono-lingualWeb Page Arabic to French Sentence Alignment: A speech interface Learning to Rank Exploration of A for open-domain Answers on Large Cross- language question-answering Online QA Information Edward Schofield Collections Retrieval Approach Spelling correction Poliqarp: An open The OLAC Metadata as an iterative source corpus Set and Controlled process that indexer and search Vocabularies Steven exploits the engine with Bird syntactic extensions collective … Spelling correction The Role of Lexical Chinese-English Term as an iterative Resources in CJK Translation Mining process that Natural Language Based on Semantic exploits the Processing Prediction collective … Discourse Processing Bootstrapping PathAutomated Rating of for Explanatory Based Pronoun Essays in Tutorial ESL Essays Resolution Applications 10 Selecting Query Term Cross Lingual and Discourse Processing Alterations for Web Semantic Retrieval for Explanatory Search by Exploiting for Cultural Essays in Tutorial Query Contexts Heritage … Applications Bảng 6-6: Kết trả từ khoá “Traditional search engine” - 63 - Từ khoá truy vấn: “information extraction” STT Lucene SimC Lucene Google Desktop Segment-based Hidden Comparison of Exploiting Rich Markov Models for Syntactic Similarity Models Information Information for for the Relation Relation Extraction Extraction Discovery Task A High Accuracy Resume Information The Role of Lexical Method for SemiExtraction with Resources in CJK supervised Cascaded Hybrid Natural Language Information Model Processing Extraction A Comparison of Assessing the Tagging Strategies correlation between The stages of event for Statistical contextual patterns extraction Information and biological Extraction entity tagging Efficient System Demonstration The Tradeoffs Hierarchical Entity Between Open and of On-Demand Classifier Using Traditional Relation Information Conditional Random Extraction S.Sekine Extraction Fields Confidence Learning Extraction LEILA: Learning to Extract Information Estimation for Patterns for by Linguistic Information Subjective Analysis Extraction Expressions Transductive Pattern Exploiting Rich Multilingual Learning for Syntactic Ontology Acquisition Information Information for from Multiple MRDs Extraction Relation Extraction Learning Domain7 Segment-based Hidden Multi-Field Information Specific Information Markov Models for Extraction and Cross Extraction Patterns Information Document Fusion from the Web Extraction System Demonstration LoLo: A System based The Tradeoffs of On-Demand on Terminology for Between Open and Multilingual Traditional Relation Information Extraction S.Sekine Extraction Extraction Multi-Field Learning DomainData Selection in Information Specific Information Semi-supervised Extraction and Extraction Patterns Learning for Name Cross-Document from the Web Tagging Fusion Integrating Automatic Knowledge 10 Unsupervised Probabilistic Representation using Information Extraction Models a Graph-based Extraction Approach and Data Mining to Algorithm for Using Graph Mutual Discover Relations Language-Independent Reinforcement and Patterns in Text Lexical Chaining Bảng 6-7: Kết trả từ khoá “information extraction” - 64 - Trong bảng 6-5, 6-6 6-7, tài liệu in đậm tài liệu mà cảm thấy phù hợp với từ khoá truy vấn dựa theo tên tài liệu Từ ta thấy kết trả LuceneSimC có tài liệu phù hợp với từ khoá truy vấn nhiều trật tự xếp tốt so với hệ thống Lucene Google Desktop Do chúng tơi đánh giá hệ thống LuceneSimC có độ xác tốt so hệ thống Lucene Google Desktop Kết thu tốt hệ thống LuceneSimC ưu tiên cho đặc trưng quan trọng tài liệu tên tài liệu thực thứ tự 6.2.4 Kết luận thực nghiệm: Trong phần thực nghiệm không so sánh kết hệ thống LuceneSEngine với hệ thống khác cải tiến việc tích hợp thêm thơng tin trọng số mức độ phổ biến tài liệu trọng số quan hệ tác giả LuceneSEngine kiểm chứng cách đánh giá thủ công người dùng đọc so sánh nội dung với Tuy nhiên dựa vào kết thu sau: • Từ bảng 6-3, LuceneSEngine có độ xác 21.40% tương đương với hệ thống khác • LuceneSimC đạt kết tìm kiếm tốt so với Lucene Google Desktop Cùng với lập luận hệ thống hoạt động tốt tích hợp thêm thơng tin trọng số mức độ phổ biến tài liệu trọng số quan hệ tác trình bày chương 4, định chọn LuceneSEngine làm hệ thống phục vụ người dùng - 65 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Qua việc nghiên cứu lý thuyết với kết thu từ thực nghiệm, rút kết luận sau: • Việc truy hồi thơng tin dựa vào việc phân tích nội dung text tài liệu khơng đạt xác cao Vì việc phân tích đặc trưng khác tài liệu để tích hợp thêm vào hệ thống cần thiết, giúp gia tăng độ xác • Việc phân tích nội dung tài liệu thành nhiều đặc trưng khác xét đến vị trí xuất từ khố tìm kiếm thành phần đặc trưng cải thiện độ xác tìm kiếm ĐĨNG GĨP CỦA ĐỀ TÀI Đã xây dựng cơng thức cho phép xác định giá trị trọng số đặc trưng tài liệu dựa theo chiều dài trung bình đặc trưng Kết thực nghiệm thu góp phần khẳng định tính đắn hướng nghiên cứu tích hợp thêm nét đặc trưng vào hệ thống truy hồi thông tin để nâng cao độ xác MỘT SỐ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI Hiện hệ thống có sử dụng số tham số mang giá trị mặc định, nhiên hạn chế tập liệu khơng cho phép chúng tơi xác định độ xác thật hệ thống, nên đưa chế huấn luyện để tìm giá trị tối ưu tham số Sắp tới dự định thay xây dựng kho liệu hỗ trợ việc huấn luyện để tìm trị tối ưu tham số - 66 - Hệ thống thiết kế hỗ trợ nét ngữ nghĩa kho liệu ACL, nên hướng phát triển tới mở rộng hệ thống để hỗ trợ cách linh động nét ngữ nghĩa kho liệu khác Ngoài ra, tốc độ thực thi vấn đề hệ thống Nên thời gian tới chúng tơi tìm cách để cải thiện tốc độ hệ thống - 67 - TÀI LIỆU THAM KHẢO [1] http://en.wikipedia.org/wiki/Vector_space_model, “Vector Space Model”, 2008 [2] http://en.wikipedia.org/wiki/Tf-Idf “Term Frequency – Inverse Document Frequency”, 2008 [3] K Mahesh “Text Retrieval Quality: A Primer”, 2008 [4] M T Abdullah, F Ahmad, R Mahmod, T Mohd and T Sembok “Term Weighting Schemes Experiment on Malay Text Retrieval System” 2nd national conference on computer graphics and multimedia, 2004 [5] http://lucene.apache.org/java/docs/ “Apache Lucene Overview”, 2008 [6] S Brin, L Page “The Anatomy of a Large-Scale Hypertextual Web Search Engine” Proceedings of the 7th international conference on World Wide Web, 1998, pp.107-117 [7] X Wang, A Shakery and T Tao “Dirichlet PageRank” Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval , 2005 [8] L.Nie, D Davison and B Wu “From Whence Does Your Authortiry Come?Utilizing Community Relevance in Ranking” Association for the Advancement of Artificial Intelligence, 2007 [9] L Ding, T Finin, A Joshi, Y Peng, R S Cost, J Sachs, R Pan, P Reddivari and V Doshi “Swoogle: A Semantic Web Search and Metadata Engine” Proceedings of the 13th ACM international conference on Information and knowledge management, pp.652-659, 2004 - 68 - [10] Taher H Haveliwala “Topic-Sensitive PageRank” Proceedings of the 11th international conference on World Wide Web, 2005 [11] D Cai, X He, J.-R Wen and W.-Y Ma “Block-level Link Analysis” Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval, 2004 [12] L Nie, D Davison and X Qi “Topical Link Analysis for Web Search” Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 2006 [13] http://www.w3.org/TR/rdf-concepts/ [14] http://www.w3.org/TR/owl-features/ [15] http://www.aclweb.org/, “The Association for Computational Linguistics”, 2008 [16] http://www.gregsadetsky.com/aol-data/ “AOL query log”, 2008 [17] Joon Ho Lee “Analyses of Multiple Evidence Combination”, 1997 [18] R Manmatha and H Sever “A Formal Approach to Score Normalization for Mata-search”, 2002 - 69 - Phụ lục A: Giới thiệu Lucene Tổng quan: Lucene biết đến thư viện mã nguồn mở cung cấp khả lập mục chế truy hồi thông tin mục với hiệu suất cao Cấu trúc mục Lucene xây dựng cho phép hỗ trợ khả truy vấn sau: • Tìm kiếm dựa vào thông tin thống kê (sắp xếp kết tốt lên trên) • Hỗ trợ tìm kiếm theo từ, cụm từ hay theo ký tự mở rộng (*, ?, ) • Tìm kiếm dựa vào thơng tin trường (như tìm kiếm theo trường tác giả, tựa đề, nội dung …) • Hỗ trợ việc tìm kiếm nhiều mục đồng thời Cấu trúc Lucene Các khái niệm Lucene bao gồm: mục (Index), tài liệu, trường từ (term): • Chỉ mục gồm chuỗi tài liệu • Tài liệu gồm chuỗi trường • Mỗi trường gồm chuỗi từ • Mỗi từ chuỗi ký tự Trong Lucene nội dung trường tách thành nhiều thực thể riêng rẽ để lập mục lập mục dạng thực thể Việc hỗ trợ cho phép lưu trữ trọn vẹn thông tin trường liệu để tìm kiếm thông tin theo trường Chỉ mục Lucene thuộc dạng mục đảo ngược (inverted index), với từ đưa vào ta xác định tài liệu chứa Đây đảo ngược mối quan hệ tự nhiên tài liệu bao gồm danh sách từ Chỉ mục thực thi dạng cho phép việc truy hồi thông tin thực thi cách nhanh chóng Các từ Lucene ngồi việc chứa danh sách tài liệu tham chiếu, cịn chứa thêm thơng tin vị trí tần suất xuất nhằm hỗ trợ chức tìm kiếm theo cụm từ tìm kiếm theo thông tin thống kê Công thức xác định trọng số tài liệu Ngoài việc lập mục tài liệu nhằm tăng tốc việc tìm kiếm tài liệu, Lucene hỗ trợ chế cho phép thứ tự tài liệu cách đánh trọng số tài liệu theo từ khố truy vấn nhập vào Cơng thức xác định trọng tài liệu d câu truy vấn q là: score(q, d ) = coord (q, d ) * queryNorm(q ) * ∑ (tf (t , d ) * idf (t ) * t.getBoost () * norm(t , d )) t in q Trong đó: • tf(t,d): giá trị liên quan đến tần suất (frequency) từ t tài liệu d Mặc định tf(t,d) = frequency1/2 • idf(t): nghịch đảo tần suất tài liệu, liên quan đến số lượng tài liệu có chứa từ idf (t ) = + log( • t tồn kho liệu Mặc định numDocs ) docFreq + coord(q,d): trọng số liên quan đến số lượng từ từ khoá truy vấn xuất tài liệu, nhiều từ từ khoá truy vấn xuất tài liệu giá trị lớn • queryNorm(q): tham số chuẩn hoá từ khoá truy vấn Tham số không ảnh hướng đến việc thứ tự tài liệu, giúp cho trọng số tài liệu từ khoá truy vấn so sánh với • t.getBoost(): xác định độ ưu tiên trường liệu mà từ t thuộc • norm(t,d): giá trị chuẩn hoá trường liệu mà t thuộc tài liệu d Phụ lục B: Cơ Sở Dữ Liệu Thực Thi Hệ Thống Phụ lục C: Danh Sách Từ Khoá Truy Vấn Bảng bên danh sách từ khoá truy vấn số lượng kết thu hệ thống (chỉ lấy 100 kết trả đầu tiên) Đối với hai hệ thống Google Yahoo số liệu sau loại bỏ kết không nằm kho liệu thực nghiệm STT 10 11 12 13 14 15 16 Từ khoá truy vấn average precision average precision search engine combination of link search engine combination of multiple search engine hybrid approach for searching in the semantic web information extraction Information ranking technique information retrieval algorithms introduction to modern information retrieval inverted index knowledge base for semantic parsing large search engine Learning noun phrase approach modern information retrieval named entity classification overview natural language extraction framework LuceneGoogleYahoo Lucene Lucene & & SimC SEngine 100 100 100 100 Google Simc Desktop 100 37 54 100 36 37 79 100 100 100 100 32 37 14 100 100 100 100 39 25 58 100 100 100 100 44 21 100 100 100 100 21 40 100 100 100 100 100 28 41 100 100 100 100 100 24 36 100 100 100 100 100 24 36 71 100 100 100 100 13 11 22 100 100 100 100 24 36 100 100 100 100 100 29 34 100 100 100 100 100 52 30 100 100 100 100 100 21 33 71 100 100 100 100 63 22 11 100 100 100 100 49 31 100 100 100 100 STT Từ khoá 17 natural language processing problem 18 normalization algorithm 19 ontology network analysis 20 optimization binary classification task 21 overview of concept based retrieval engine 22 pagerank algorithm 23 pagerank information retrieval 24 phrasal word alignment 25 powerful web search 26 probability statistical translation model 27 ranking based on the frequency 28 recall and precision 29 recently word alignment algorithm 30 relevance in ranking 31 relevance judgments 32 relevance judgments trec 33 resource description framework 34 semantic concept based query expansion 35 semantic search concept detection 36 semantic search engine LuceneGoogleYahoo Google Lucene Simc Desktop & SimC Lucene & SEngine 100 25 35 100 100 100 100 100 19 36 100 100 100 100 100 33 22 23 100 100 100 100 67 10 100 100 100 100 39 12 16 100 100 100 100 18 15 100 100 100 100 15 13 100 100 100 100 71 35 67 100 100 100 100 29 43 34 100 100 100 100 84 43 99 100 100 100 100 36 42 100 100 100 100 100 35 51 100 100 100 100 100 70 54 79 100 100 100 100 24 43 91 100 100 100 100 19 34 38 100 100 100 100 17 19 100 100 100 100 30 39 85 100 100 100 100 24 16 29 100 100 100 100 46 27 42 100 100 100 100 34 32 100 100 100 100 STT Từ khoá 37 semantic web search 38 semantic web search engine 39 statistical text similarity model 40 term weight example 41 term weighting schemes 42 test collection for retrieval evaluation 43 text based ranking technique 44 topic search algorithm 45 topical link analysis for web search 46 traditional search engine 47 using text retrieval conference 48 vector space model 49 vector space model limitation 50 web graph link structure 51 web search engine with link analysis LuceneGoogleYahoo Google Lucene Simc Desktop & SimC Lucene & SEngine 100 38 43 100 100 100 100 100 38 30 100 100 100 100 100 45 37 100 100 100 100 100 28 50 100 100 100 100 100 24 36 24 100 100 100 100 59 37 100 100 100 100 100 25 32 100 100 100 100 100 26 42 100 100 100 100 100 42 16 100 100 100 100 19 34 58 100 100 100 100 13 36 100 100 100 100 100 31 50 100 100 100 100 100 22 43 25 100 100 100 100 49 33 32 100 100 100 100 73 43 26 100 100 100 ... với mơ hình truy hồi thơng tin dựa vào từ khố để xây dựng hệ thống mục tích hợp ngữ nghĩa, cho phép việc truy hồi thơng tin có độ xác tốt 1.2 MỤC TIÊU ĐỀ TÀI Mục tiêu đề tài xây dựng mục cho phép... chốt cho phát triển hệ thống truy hồi thông tin Trong năm gần đây, với bùng nổ thông tin Internet thành công hệ thống tìm kiếm Google, nghiên cứu hệ thống truy hồi thông tin chủ yếu tập trung... lượng hệ thống truy hồi thông tin độ xác độ truy hồi Độ xác số đo tính hữu ích danh sách tài liệu trả về, độ truy hồi số đo tính đầy đủ danh sách Trong trường hợp lý tưởng, hệ thống truy hồi thông

Định dạng
Số trang	83
Dung lượng	1,32 MB