Đồ án tốt nghiệp xếp hạng lại kết quả trả về từ máy tìm kiếm

65 1.2K 2
Đồ án tốt nghiệp xếp hạng lại kết quả trả về từ máy tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI MỞ ĐẦU Bài toán truy hồi thông tin (information retrieval) là một trong những bài toán cơ bản luôn được thực hiện và đòi hỏi giải quyết của con người. Tri thức của con người rất bao la, thông tin con người muốn tìm kiếm cũng rất đa dạng, vì vậy công việc truy hồi thông tin phải được hệ thống hóa theo những quy trình nhất định để làm giảm thời gian và công sức tìm kiếm. Trước đây, nơi lưu giữ tri thức chủ yếu là thư viện, và các thông tin chủ yếu nằm trên sách, báo… Nhưng từ giữa thế kỷ 20, khi kỷ nguyên công nghệ thông tin của con người bắt đầu bước vào giai đoạn phát triển, người ta đã quan tâm chú trọng việc giải quyết bài toán truy hồi thông tin trên nền tảng máy tính. Ngày nay, khi mà thời đại của World Wide Web thống trị hệ thống thông tin toàn cầu, thì Internet đã trở thành kho dữ liệu khổng lồ và tìm kiếm thông tin trên Internet cũng trở thành một nhu cầu thường nhật không thể thiếu của mọi người. Để đáp ứng nhu cầu đó, những máy tìm kiếm (search engine) trên Internet được xây dựng, tiêu biểu là Google, Bing, Yahoo search… Tuy nhiên các máy tìm kiếm nêu trên chủ yếu phục vụ cho ngôn ngữ tiếng Anh, còn ngôn ngữ tiếng Việt vẫn thiếu những máy tìm kiếm hiệu quả, hỗ trợ các tính năng nâng cao và phù hợp với đặc điểm ngôn ngữ bản địa. Đây là một vấn đề khá hóc búa và liên quan đến rất nhiều lĩnh vực bao gồm cả các bài toán truy hồi thông tin lẫn xử lý ngôn ngữ tiếng Việt. Trong khuôn khổ một đồ án tốt nghiệp của sinh viên, em không thể xây dựng được một máy tìm kiếm giống như mong muốn, vì vậy được sự gợi ý và hướng dẫn của PGS.TS Nguyễn Kim Anh, em đã chọn thực hiện đề tài “Xếp hạng lại kết quả trả về từ máy tìm kiếm” cho đồ án tốt nghiệp của mình. Với mục tiêu nghiên cứu, tìm hiểu và xây dựng chương trình minh họa, báo cáo đồ án ngoài được chia làm 3 phần chính: • Phần 1: Đặt vấn đề và định hướng giải pháp • Phần 2: Triển khai và đánh giá kết quả • Phần 3: Kết luận

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1. Thông tin về sinh viên Họ và tên sinh viên: . . . . . . . .Nguyễn Anh Tuấn . . . . . . . . . . . . . . . . . . . Điện thoại liên lạc: 0975038269 Email: anhtuanandroid@gmail.com Lớp: HTTT – k51 Hệ đào tạo: Đại học chính quy Đồ án tốt nghiệp được thực hiện tại: Bộ môn Hệ thống thông tin Thời gian làm ĐATN: Từ ngày 14/02/2011 đến 26/05/2011 2. Mục đích nội dung của ĐATN: Đồ án nhằm nghiên cứu xây dựng thử nghiệm hệ thống tìm kiếm nâng cao có ứng dụng các kỹ thuật xếp hạng lại kết quả tìm kiếm. 3. Các nhiệm vụ cụ thể của ĐATN: • Tìm hiểu kiến trúc tổng thể của một hệ thống tìm kiếm. • Nghiên cứu, tìm hiểu bộ tìm kiếm của máy tìm kiếm mã nguồn mở Nutch • Phân tích, thiết kế, cài đặt một hệ thống tìm kiếm dựa trên Nutch có tích hợp chức năng xếp hạng lại kết quả tìm kiếm 4. Lời cam đoan của sinh viên: Tôi – Nguyễn Anh Tuấn - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS.TS. Nguyễn Kim Anh. Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác. Hà Nội, ngày 26 tháng 5 năm 2011 Tác giả ĐATN Nguyễn Anh Tuấn 5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo vệ: Hà Nội, ngày tháng 5 năm 2011 Giáo viên hướng dẫn PGS.TS. Nguyễn Kim Anh Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 1 TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Trong các máy tìm kiếm truyền thống, việc xếp hạng kết quả tìm kiếm được dựa trên sự so khớp và tần suất xuất hiện của từ khóa của truy vấn trong các tài liệu. Với một truy vấn mập mờ, đa nghĩa, máy tìm kiếm có thể trả về tập kết quả không như mong đợi của người dùng. Kỹ thuật xếp hạng lại kết quả tìm kiếm được ứng dụng nhằm giải quyết khó khăn đó của các máy tìm kiếm. Trong khuôn khổ đồ án, 2 kỹ thuật xếp hạng lại được tiến hành nghiên cứu và cài đặt là kỹ thuật xếp hạng lại dựa trên ngữ cảnh truy vấn và kỹ thuật xếp hạng lại dựa trên phản hồi người dùng. Dưới đây là nội dung tóm tắt của đồ án: MỞ ĐẦU: Trình bày tóm tắt về nhiệm vụ của đồ án, tóm tắt các nội dung được thực hiện trong đồ án. PHẦN 1: ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP. Phần này giới thiệu về bài toán xếp hạng kết quả tìm kiếm cũng như xếp hạng lại kết quả tìm kiếm, đề xuất phương pháp giải quyết, trình bày về các lý thuyết liên quan. PHẦN 2: PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI HỆ THỐNG. Phần này đi sâu trình bày chi tiết các kết quả phân tích thiết kế hệ thống, đưa ra các chức năng được xây dựng và cài đặt. Cuối cùng là thử nghiệm, kết quả cài đặt cùng đánh giá ưu, nhược điểm và khả năng ứng dụng của hệ thống. PHẦN 3: KẾT LUẬN: Tổng kết các kết quả đạt được trong đồ án và một số hạn chế cần khắc phục, đề xuất hướng nghiên cứu tiếp theo. Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 2 ABSTRACT OF THESIS In traditional search engines, the ranking of search results is based on the match and frequencies of query’s terms in documents. If the input is an abstract and fuzzy query, the search engine may return a results set which is not what users desire. That problem can be solved by re-ranking search results algorithms. In this thesis, two re-ranking algorithms are researched and implemented: re-ranking algorithm based on query context and re-ranking algorithm based on user feedbacks. The summary of the contents is listed below: OPENING: Presenting the thesis’s tasks and content in summary SECTION 1: INTRODUCTION AND ORIENTING SOLUTIONS. This section introduces the ranking search results and re-ranking search results problems, and also proposes methods to solve with those problems. SECTION 2: ANALYSISING, DESIGNING AND DEPLOYMENT THE SYSTEM. This section reports the result of analyzing and designing the system. It presents details of all modules which are implemented. The results of the system implement and testing are also included here. At the end of this section is the system’s advantages and disadvantages evaluating. SECTION 3: CONCLUSIONS. This section shows achieved results and also the remain problems which need to be solved in the future. This section also proposes further researching in the coming time. Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 3 LỜI CẢM ƠN Em xin chân thành cảm ơn tập thể các thầy cô trường Đại Học Đại Học Bách Khoa Hà Nội trong suốt 5 năm học vừa qua đã trang bị cho em nhiều kiến thức quý báu, rất cần thiết cho việc hoàn thành đồ án tốt nghiệp này. Các thầy cô luôn là tấm gương mẫu mực về tác phong nghiên cứu khoa học để em noi theo. Em xin gửi lời cảm ơn chân thành và sâu sắc tới PGS.TS Nguyễn Kim Anh, người đã cho em những lời khuyên bổ ích về chuyên môn trong suốt quá trình nghiên cứu cũng như tận tình hướng dẫn em từ những ngày đầu nhận đề tài và chỉ bảo cho em trong suốt quá trình làm đồ án này. Xin gửi lời cảm ơn tới các bạn lớp HTTT - K51 đã động viên tôi trong những lúc khó khăn và luôn nhiệt tình trao đổi tài liệu, kiến thức chuyên môn cũng như kinh nghiệm làm đồ án. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến cha mẹ và tất cả bạn bè, những người luôn kịp thời động viên và giúp đŒ em vượt qua những khó khăn trong cuộc sống. Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 4 MỤC LỤC DANH MỤC HÌNH ẢNH 8 THUẬT NGỮ VÀ TỪ VIẾT TẮT 12 LỜI MỞ ĐẦU 13 PHẦN 1: ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP 14 I.Bài toán truy hồi thông tin và các khái niệm liên quan: 14 1.1.Định nghĩa về truy hồi thông tin: 14 1.2.Các khái niệm cơ bản của truy hồi thông tin: 14 II.Tổng quan về máy tìm kiếm: 15 2.1.Định nghĩa máy tìm kiếm: 15 2.2. Kiến trúc cơ bản của một máy tìm kiếm: 15 III.Bài toán xếp hạng lại kết quả tìm kiếm của máy tìm kiếm: 16 3.1.Tính điểm trong thư viện tìm kiếm Lucene: 16 3.1.1.Standard Boolean Model (SBM): 16 3.1.2.Vector Space Model (VSM): 18 3.1.3.Ứng dụng SBM và VSM trong Lucene: 19 3.2.Xếp hạng lại kết quả tìm kiếm: 21 3.2.1.Phát biểu bài toán: 21 3.2.2.Hai hướng tiếp cận xếp hạng lại kết quả tìm kiếm: 21 IV.Các kỹ thuật xếp hạng lại kết quả tìm kiếm: 22 4.1.Khái niệm Query Log: 22 4.2.Hướng tiếp cận hướng ngữ cảnh truy vấn – Thuật toán Q-rank: 23 4.2.1.Cơ sở lý thuyết: 23 4.2.2.Các bước của thuật toán: 24 4.3.Hướng tiếp cận hướng phản hồi người dùng – Thuật toán Page Rank Reviser:. .25 4.3.1.Thuật toán I-SPY: 25 4.3.2. Thuật toán Page Rank Reviser (P2R): 26 Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 5 PHẦN 2: TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 32 I.Mô tả chung hệ thống: 32 II.Phân tích hệ thống: 33 2.1.Biểu đồ phân rã chức năng: 33 2.2.Mô hình hoạt động của chức năng tìm kiếm và xếp hạng kết quả: 34 2.3.Phân tích hệ thống về mặt cơ sở dữ liệu: 35 III.Thiết kế hệ thống: 38 3.1.Module xếp hạng lại kết quả tìm kiếm hướng ngữ cảnh truy vấn: 38 3.2.Module xếp hạng lại kết quả tìm kiếm hướng phản hồi người dùng: 40 3.2.1.Thuật toán P2R pha 1 – Giải thuật OFSD: 41 3.2.2.Thuật toán P2R pha 2 – Xếp hạng lại kết quả tìm kiếm: 47 3.3.Một số module phụ: 51 3.3.1.Module tách từ tiếng Việt: 51 3.3.2.Module lưu trữ dữ liệu: 53 IV.Cài đặt và đánh giá hệ thống: 54 4.1.Môi trường và công cụ cài đặt: 54 4.2.Dữ liệu phục vụ thử nghiệm: 54 4.3.Giao diện chương trình: 55 4.3.1.Giao diện trang chủ: 55 4.3.2.Giao diện kết quả tìm kiếm: 57 4.4.Thử nghiệm: 61 4.4.1.Các tham số của thuật toán Q-rank: 61 4.4.2.Các tham số thuật toán P2R: 61 4.5.Đánh giá: 62 PHẦN 3: KẾT LUẬN 63 I.Kết luận: 63 II.Kết quả nghiên cứu: 63 III.Kết quả phát triển ứng dụng 64 Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 6 IV.Hướng phát triển: 64 TÀI LIỆU THAM KHẢO 65 Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 7 DANH MỤC HÌNH ẢNH DANH MỤC HÌNH ẢNH 8 THUẬT NGỮ VÀ TỪ VIẾT TẮT 12 LỜI MỞ ĐẦU 13 PHẦN 1: ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP 14 I.Bài toán truy hồi thông tin và các khái niệm liên quan: 14 1.1.Định nghĩa về truy hồi thông tin: 14 1.2.Các khái niệm cơ bản của truy hồi thông tin: 14 II.Tổng quan về máy tìm kiếm: 15 2.1.Định nghĩa máy tìm kiếm: 15 2.2. Kiến trúc cơ bản của một máy tìm kiếm: 15 III.Bài toán xếp hạng lại kết quả tìm kiếm của máy tìm kiếm: 16 3.1.Tính điểm trong thư viện tìm kiếm Lucene: 16 3.1.1.Standard Boolean Model (SBM): 16 3.1.2.Vector Space Model (VSM): 18 Hình 1 – Vector tài liệu và truy vấn 18 3.1.3.Ứng dụng SBM và VSM trong Lucene: 19 Hình 2 – Ứng dụng VSM và SBM trong Lucene 19 3.2.Xếp hạng lại kết quả tìm kiếm: 21 3.2.1.Phát biểu bài toán: 21 3.2.2.Hai hướng tiếp cận xếp hạng lại kết quả tìm kiếm: 21 IV.Các kỹ thuật xếp hạng lại kết quả tìm kiếm: 22 4.1.Khái niệm Query Log: 22 4.2.Hướng tiếp cận hướng ngữ cảnh truy vấn – Thuật toán Q-rank: 23 4.2.1.Cơ sở lý thuyết: 23 Hình 3 – Hai kịch bản tìm kiếm phổ biến 23 Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 8 4.2.2.Các bước của thuật toán: 24 4.3.Hướng tiếp cận hướng phản hồi người dùng – Thuật toán Page Rank Reviser:. .25 4.3.1.Thuật toán I-SPY: 25 Hình 4 – Ma trận truy vấn 26 4.3.2. Thuật toán Page Rank Reviser (P2R): 26 Hình 5 – Ma trận cụm từ thường xuyên 26 PHẦN 2: TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 32 I.Mô tả chung hệ thống: 32 Hình 6 – Mô tả hệ thống 32 II.Phân tích hệ thống: 33 2.1.Biểu đồ phân rã chức năng: 33 Hình 7 – Mô hình phân rã chức năng 33 2.2.Mô hình hoạt động của chức năng tìm kiếm và xếp hạng kết quả: 34 Hình 8 – Mô hình hoạt động của chức năng tìm kiếm và xếp hạng kết quả 34 2.3.Phân tích hệ thống về mặt cơ sở dữ liệu: 35 III.Thiết kế hệ thống: 38 3.1.Module xếp hạng lại kết quả tìm kiếm hướng ngữ cảnh truy vấn: 38 Hình 9 – Xếp hạng lại kết quả tìm kiếm hướng ngữ cảnh truy vấn 38 3.2.Module xếp hạng lại kết quả tìm kiếm hướng phản hồi người dùng: 40 Hình 10 – Xếp hạng lại kết quả tìm kiếm hướng phản hồi người dùng 40 3.2.1.Thuật toán P2R pha 1 – Giải thuật OFSD: 41 Hình 11 – Giải thuật OFSD 41 3.2.2.Thuật toán P2R pha 2 – Xếp hạng lại kết quả tìm kiếm: 47 Hình 12 – Pha 2 giải thuật P2R 47 3.3.Một số module phụ: 51 3.3.1.Module tách từ tiếng Việt: 51 Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 9 Hình 13 – Quy trình tách từ của vnTokenizer 51 3.3.2.Module lưu trữ dữ liệu: 53 Hình 14 – Module lưu trữ dữ liệu 53 IV.Cài đặt và đánh giá hệ thống: 54 4.1.Môi trường và công cụ cài đặt: 54 4.2.Dữ liệu phục vụ thử nghiệm: 54 4.3.Giao diện chương trình: 55 4.3.1.Giao diện trang chủ: 55 Hình 15 – Giao diện trang chủ 55 Hình 16 – Giao diện trang about 56 Hình 17 – Giao diện trang help 56 4.3.2.Giao diện kết quả tìm kiếm: 57 Hình 18 – Giao diện kết quả tìm kiếm cơ bản 57 Hình 19 – Tính điểm của máy tìm kiếm với tài liệu 58 Hình 20 – Dữ liệu của tài liệu cached trên hệ thống 58 Hình 21 – Giao diện kết quả tìm kiếm nâng cao 59 Hình 22 – Các cụm từ thường xuyên của OFSD 60 4.4.Thử nghiệm: 61 4.4.1.Các tham số của thuật toán Q-rank: 61 4.4.2.Các tham số thuật toán P2R: 61 4.5.Đánh giá: 62 PHẦN 3: KẾT LUẬN 63 I.Kết luận: 63 II.Kết quả nghiên cứu: 63 III.Kết quả phát triển ứng dụng 64 IV.Hướng phát triển: 64 Sinh viên thực hiện: Nguyễn Anh Tuấn SHSV: 20063482 Khóa 51 Lớp HTTT 10 [...]... chức năng tìm kiếm và xếp hạng kết quả: Hình 8 – Mô hình hoạt động của chức năng tìm kiếm và xếp hạng kết quả Trong pha xếp hạng lại kết quả tìm kiếm cho phép người dùng cấp cao lựa chọn cách thức xếp hạng lại kết quả tìm kiếm: • • • • Không xếp hạng lại kết quả tìm kiếm Xếp hạng lại dựa trên phương pháp hướng ngữ cảnh truy vấn Xếp hạng lại dựa trên phương pháp hướng phản hồi người dùng Xếp hạng lại bằng... HTTT 15 III.Bài toán xếp hạng lại kết quả tìm kiếm của máy tìm kiếm: Xếp hạng lại kết quả tìm kiếm là một trong những kỹ thuật quan trọng nhằm cải thiện chất lượng tìm kiếm của các máy tìm kiếm (search engine – SE) Ta sẽ đi nghiên cứu cách thức tính điểm cho cặp truy vấn – tài liệu của thư viện Lucene, một thư viện tìm kiếm nổi tiếng để hiểu rõ ưu nhược điểm của các cách tính điểm và xếp hạng truyền thống... vấn họ mới tìm thấy được tài liệu mình mong muốn Xếp hạng lại kết quả tìm kiếm (re-ranking search results) là một bài toán nhằm cải thiện chất lượng tìm kiếm, đưa những tài liệu mà (có thể) người dùng mong muốn lên trên đầu Việc xếp hạng lại này nhằm 2 mục đích: • Giảm thiểu thời gian tìm kiếm cho người dùng • Giảm sức ép lên máy tìm kiếm 3.2.2.Hai hướng tiếp cận xếp hạng lại kết quả tìm kiếm: Có rất... máy tìm kiếm giống như mong muốn, vì vậy được sự gợi ý và hướng dẫn của PGS.TS Nguyễn Kim Anh, em đã chọn thực hiện đề tài Xếp hạng lại kết quả trả về từ máy tìm kiếm cho đồ án tốt nghiệp của mình Với mục tiêu nghiên cứu, tìm hiểu và xây dựng chương trình minh họa, báo cáo đồ án ngoài được chia làm 3 phần chính: • • • Phần 1: Đặt vấn đề và định hướng giải pháp Phần 2: Triển khai và đánh giá kết quả. .. thuật xếp hạng lại kết quả tìm kiếm, và mỗi kỹ thuật lại khai thác những giá trị khác nhau của quá trình tìm kiếm cùng tài liệu tìm kiếm Trong đồ án này, em lựa chọn nghiên cứu và cài đặt 2 thuật toán xếp hạng lại kết quả tìm kiếm dựa trên 2 hướng tiếp cận: • Hướng tiếp cận hướng ngữ cảnh truy vấn (query context) – Thuật toán Q-rank • Hướng tiếp cận hướng phản hồi người dùng (user feedback) – Thuật toán... 20 3.2 .Xếp hạng lại kết quả tìm kiếm: 3.2.1.Phát biểu bài toán: Quá trình tìm kiếm trên máy tìm kiếm: Người dùng nhập truy vấn vào giao diện máy tìm kiếm, máy sẽ đi tìm các tài liệu thích hợp trong kho chỉ mục của mình và xếp hạng tài liệu dựa trên điểm số rồi trả về cho người dùng Vấn đề: liệu tài liệu người dùng mong muốn có ở trong tập tài liệu trên đầu (thứ hạng cao)? Vì theo những khảo sát từ trước... mục sẽ do người quản trị thực hiện sử dụng các module có sẵn của Nutch Người dùng khi cần tìm kiếm sẽ nhập vào truy vấn thông qua giao diện hệ thống ở web browser, hệ thống sẽ tiến hành tìm kiếm và trả về tập kết quả đã được xếp hạng lại cho người dùng Yêu cầu về chức năng: Nhiệm vụ chính trong hệ thống là đảm bảo việc tìm kiếm chinh xác và nhanh chóng Việc xếp hạng lại kết quả tìm kiếm phải đáp ứng... hệ thống: 2.1.Biểu đồ phân rã chức năng: Hình 7 – Mô hình phân rã chức năng Như đã trình bày ở trên, hệ thống tìm kiếm được xây dựng thử nghiệm dựa trên máy tìm kiếm Nutch Các chức năng thu thập tài liệu và lập chỉ mục cho tài liệu được Nutch cung cấp sẵn, đồ án ở đây chỉ nghiên cứu tích hợp chức năng xếp hạng lại kết quả tìm kiếm vào bên trong chức năng tìm kiếm và xếp hạng kết quả của Nutch Sinh... Thuật toán Page Rank Reviser: Khi máy tìm kiếm trả về tập kết quả, người dùng sẽ xem lướt qua phần mô tả của mỗi kết quả và nhấn lên những liên kết đến những tài liệu họ cho là thích hợp Như vậy hành động nhấn lên liên kết đó đã bao hàm sự đánh giá sơ bộ của người dùng đối với tài liệu thông qua đoạn mô tả Kỹ thuật xếp hạng lại kết quả tìm kiếm dựa trên phản hồi người dùng khai thác thông tin đánh giá... KHAI VÀ ĐÁNH GIÁ KẾT QUẢ I.Mô tả chung hệ thống: Hệ thống thử nghiệm được xây dựng dựa trên máy tìm kiếm Nutch Đây là một máy tìm kiếm mã nguồn mở nổi tiếng sử dụng thư viện tìm kiếm Lucene, có đầy đủ các thành phần cơ bản của một máy tìm kiếm: bộ thu thập dữ liệu (crawler), bộ đánh chỉ mục (indexer) và bộ tìm kiếm thông tin (searcher) Trên hệ thống thử nghiệm, các thao tác thu thập dữ liệu và đánh chỉ . 15 III.Bài toán xếp hạng lại kết quả tìm kiếm của máy tìm kiếm: Xếp hạng lại kết quả tìm kiếm là một trong những kỹ thuật quan trọng nhằm cải thiện chất lượng tìm kiếm của các máy tìm kiếm (search. Lucene 19 3.2 .Xếp hạng lại kết quả tìm kiếm: 21 3.2.1.Phát biểu bài toán: 21 3.2.2.Hai hướng tiếp cận xếp hạng lại kết quả tìm kiếm: 21 IV.Các kỹ thuật xếp hạng lại kết quả tìm kiếm: 22 4.1.Khái. tin: 14 II.Tổng quan về máy tìm kiếm: 15 2.1.Định nghĩa máy tìm kiếm: 15 2.2. Kiến trúc cơ bản của một máy tìm kiếm: 15 III.Bài toán xếp hạng lại kết quả tìm kiếm của máy tìm kiếm: 16 3.1.Tính điểm

Ngày đăng: 09/04/2015, 14:48

Từ khóa liên quan

Mục lục

  • DANH MỤC HÌNH ẢNH

  • THUẬT NGỮ VÀ TỪ VIẾT TẮT

  • LỜI MỞ ĐẦU

  • PHẦN 1: ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP

  • I.Bài toán truy hồi thông tin và các khái niệm liên quan:

    • 1.1.Định nghĩa về truy hồi thông tin:

    • 1.2.Các khái niệm cơ bản của truy hồi thông tin:

    • II.Tổng quan về máy tìm kiếm:

      • 2.1.Định nghĩa máy tìm kiếm:

      • 2.2. Kiến trúc cơ bản của một máy tìm kiếm:

      • III.Bài toán xếp hạng lại kết quả tìm kiếm của máy tìm kiếm:

        • 3.1.Tính điểm trong thư viện tìm kiếm Lucene:

          • 3.1.1.Standard Boolean Model (SBM):

          • 3.1.2.Vector Space Model (VSM):

            • Hình 1 – Vector tài liệu và truy vấn

            • 3.1.3.Ứng dụng SBM và VSM trong Lucene:

              • Hình 2 – Ứng dụng VSM và SBM trong Lucene

              • 3.2.Xếp hạng lại kết quả tìm kiếm:

                • 3.2.1.Phát biểu bài toán:

                • 3.2.2.Hai hướng tiếp cận xếp hạng lại kết quả tìm kiếm:

                • IV.Các kỹ thuật xếp hạng lại kết quả tìm kiếm:

                  • 4.1.Khái niệm Query Log:

                  • 4.2.Hướng tiếp cận hướng ngữ cảnh truy vấn – Thuật toán Q-rank:

                    • 4.2.1.Cơ sở lý thuyết:

                      • Hình 3 – Hai kịch bản tìm kiếm phổ biến

                      • 4.2.2.Các bước của thuật toán:

                      • 4.3.Hướng tiếp cận hướng phản hồi người dùng – Thuật toán Page Rank Reviser:

                        • 4.3.1.Thuật toán I-SPY:

                          • Hình 4 – Ma trận truy vấn

                          • 4.3.2. Thuật toán Page Rank Reviser (P2R):

                            • Hình 5 – Ma trận cụm từ thường xuyên

                            • PHẦN 2: TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ

                            • I.Mô tả chung hệ thống:

                              • Hình 6 – Mô tả hệ thống

Tài liệu cùng người dùng

Tài liệu liên quan