1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các phương pháp lập chỉ mục tài liệu trong hệ tìm kiếm thông tin

74 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 656,62 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC CÁC PHƯƠNG PHÁP LẬP CHỈ MỤC TÀI LIỆU TRONG HỆ TÌM KIẾM THÔNG TIN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 13.00 ĐINH NGỌC THI Người hướng dẫn khoa học: PGS.TS NGUYỄN ĐỨC NGHĨA HÀ NỘI 2005 Mục lục MỤC LỤC Trang Trang bìa phụ…………………………………………………………….1 Mục lục………………………………………………………………… Lời nói đầu………………………………………………………………3 Chương Hệ tìm kiếm thơng tin Internet………………… 1.1 Tổng quan hệ tìm kiếm thông tin………… … 1.2 Môđun lập mục tài liệu hệ tìm kiếm thơng tin….18 1.3 Lý thuyết họ BTree………………………………… 31 Chương Các phương pháp lập mục tài liệu hệ tìm kiếm thông tin 36 2.1 Phương pháp chia sẻ block……………………… ………… 36 2.2 Phương pháp sử dụng B+Tree.……………………………47 Chương Hệ tìm kiếm thơng tin Text Search…………………………53 3.1 Những chức chương trình Text Search…………… 53 3.2 Cấu trúc liệu chương trình Text Search…… 54 3.3 Các mơđun chương trình Text Search………………… 56 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search….61 4.1 Đánh giá thực nghiệm hệ tìm kiếm thông tin Text Search.… 61 4.2 Hướng phát triển chương trình Text Search … … … 68 Danh mục thuật ngữ viết tắt Luận văn…… ………………… 69 Danh mục bảng…………………………………………………….70 Danh mục hình vẽ đồ thị……… ………………………………… 71 Tài liệu tham khảo… … … … … … … … … … … … … ….73 Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Lời nói đầu LỜI NÓI ĐẦU Ngày nay, với phát triển nhanh chóng mạng máy tính tồn cầu bùng nổ thơng tin, kho liệu hình thành khắp nơi không ngừng gia tăng dung lượng Con người đứng trước thực tế chìm ngập liệu, thơng tin ln cần thiết, chí thiếu họ Những kho liệu ẩn chứa hàm lượng thông tin vô lớn, vấn đề đặt làm để “khai thác”, tổng hợp mỏ thơng tin để trở nên hữu có giá trị sử dụng người sử dụng Những thông tin biểu diễn lưu trữ nhiều dạng khác văn bản, hình ảnh, video, âm thanh…Trong đó, liệu văn phi cấu trúc phổ biến Có thể nói rằng: “Khối lượng liệu khổng lồ mà người sử dụng truy suất khơng tổ chức lưu trữ tốt kèm theo phương thức xử lý hiệu để khai thác lượng thơng tin chúng thơng tin chết khơng mang lại chút lợi ích ” Để giải vấn đề này, người ta đưa khái niệm khai thác xử lý thông tin Khai thác xử lý thông tin hiểu trình sử dụng tri thức người để trích chọn, chắt lọc tạo thơng tin mới, có ý nghĩa từ nguồn liệu khác giao dịch, tài liệu, email, trang web…và sử dụng thông tin để đưa định đời sống hay lĩnh vực sản xuất, kinh doanh cụ thể Cho đến nay, người đạt tiến công nghệ với phát triển lý thuyết lĩnh vực xử lý thông tin giải phần vấn đề đặt ra, chẳng hạn, toán xử lý văn Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Lời nói đầu tìm kiếm, phân lớp văn bản… Tuy nhiên, nhiều vấn đề đặt cho toán tổ chức liệu để tìm kiếm thơng tin Làm để lưu trữ thơng tin hiệu quả, có cấu trúc hợp lý, chiếm khơng gian lưu trữ, phục vụ tốt cho q trình tìm kiếm tốn quan tâm Với nhu cầu khám phá để có thêm hiểu biết, gợi ý dẫn dắt Thầy giáo hướng dẫn, sau tham khảo số tài liệu nghiên cứu nước, em thực đề tài "Các phương pháp lập mục tài liệu hệ tìm kiếm thơng tin” cho Luận văn Cao học Luận văn bao gồm chương: Chương 1: Hệ tìm kiếm thơng tin Internet Tìm hiểu mơ hình hệ tìm kiếm thơng tin, đánh giá phương pháp lập mục tài liệu có hệ tìm kiếm thơng tin Chương 2: Các phương pháp lập mục tài liệu hệ tìm kiếm thông tin Đề xuất hai phương pháp lập mục tài liệu: phương pháp chia sẻ block sử dụng B+Tree Chương 3: Hệ tìm kiếm thơng tin Text Search Xây dựng chương trình tìm kiếm thơng tin Text Search mà mục tài liệu tạo lập hai phương pháp đề xuất Chương 4: Đánh giá thực nghiệm hệ tìm kiếm thông tin Text Search So sánh đánh giá thực nghiệm Text Search với hệ tìm kiếm thơng tin Google Desktop Search để chứng tỏ hiệu hai phương pháp lập mục tài liệu chia sẻ block sử dụng B+Tree Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Lời nói đầu Cuối cùng, em xin bày tỏ lịng biết ơn chân thành sâu sắc đến Phó Giáo sư - Tiến sỹ Nguyễn Đức Nghĩa, người Thầy tận tình chu đáo hướng dẫn em hồn thành Luận văn Em xin gửi lời cảm ơn đến Thầy Cô Trung Tâm Đào tạo Sau Đại học Khoa Công Nghệ Thông Tin, Trường Đại học Bách Khoa Hà Nội nhiệt tình giúp đỡ em trình học tập Trường Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Chương Hệ tìm kiếm thơng tin Internet Chương HỆ THỐNG TÌM KIẾM THƠNG TIN TRÊN INTERNET Tóm tắt nội dung chương: Chương trình bày vấn đề sau: + Tổng quan hệ tìm kiếm thơng tin + Mơđun lập mục tài liệu hệ tìm kiếm thông tin + Những kiến thức sở dùng Luận văn 1.1 Tổng quan hệ tìm kiếm thơng tin Trong phần từ tài liệu tham khảo, Luận văn đưa định nghĩa hệ tìm kiếm thơng tin, mơ hình tìm kiếm thông tin sử dụng từ trước đến giới 1.1.1 Định nghĩa hệ tìm kiếm thơng tin Trong thời đại tràn ngập thơng tin nay, khơng có hệ tìm kiếm thơng tin hiệu người sử dụng dễ bị ngập chìm biển thơng tin Có thể nói tìm kiếm thơng tin cần thiết hà sa số thông tin internet trở thành nhu cầu mang tính người Do đó, thuật ngữ tìm kiếm thơng tin xuất từ sớm, thông tin dạng văn bản, hình ảnh âm thanh… Phổ biến tìm kiếm văn (bao gồm việc tìm kiếm thứ tự văn bản), đặc biệt hệ tìm kiếm thơng tin (Search Engine) Đôi khi, thuật ngữ dùng tồn q trình từ việc xử lý văn tới phân lớp tìm kiếm văn Trong Luận văn này, thuật ngữ “tìm kiếm văn bản” sử dụng theo nghĩa bao hàm việc lập mục tài liệu (document), tìm kiếm Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Chương Hệ tìm kiếm thơng tin Internet xếp tài liệu tìm kiếm theo thứ tự liên quan đến yêu cầu người sử dụng (tài liệu file liệu trang web) Không cần phải giải thích nhiều thấy vai trị hệ tìm kiếm thơng tin thời phổ cập internet ngày Kho thông tin vô tận internet giảm nhiều ý nghĩa khơng có cơng cụ tìm kiếm thơng tin hiệu mà người sử dụng cần Người sử dụng mong muốn phải có cơng cụ mà lần truy cập vào internet phải lấy thơng tin mà họ tìm kiếm Một hệ tìm kiếm thơng tin chương trình phần mềm dùng để lưu trữ quản lý thông tin nằm tài liệu, giúp người sử dụng tìm kiếm thơng tin mà họ quan tâm Hệ thống không giống hệ trả lời câu hỏi, cịn phải tồn vị trí tài liệu có chứa thơng tin cần thiết Một số tài liệu “tìm kiếm được” thoả mãn yêu cầu người sử dụng gọi tài liệu phù hợp tài liệu liên quan (Relevant Document) Một hệ tìm kiếm hồn hảo tìm đưa tài liệu liên quan mà không đưa tài liệu không liên quan Tuy nhiên hệ thống không tồn thể tìm kiếm khơng đầy đủ mức độ liên quan phụ thuộc vào quan điểm chủ quan người Hai người sử dụng đưa truy vấn với hệ tìm kiếm thơng tin sau có đánh giá khác mức độ liên quan tài liệu tìm Hiện nay, khối lượng thông tin đồ sộ lại bùng phát với tốc độ chóng mặt, phức tạp ngơn ngữ tự nhiên, u cầu tìm kiếm Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Chương Hệ tìm kiếm thông tin Internet ngày cao người việc phát triển hệ tìm kiếm thơng tin nhiều việc cần phải làm Ngay hệ tìm kiếm phổ biến internet Google, Yahoo hay MSN ngày cải tiến, bổ sung nâng cấp chức nó, mục đích để thuận tiện hữu ích cho người sử dụng Tìm kiếm thơng tin nói chung phải giải vấn đề biểu diễn, lưu trữ, tổ chức truy cập đến mục thông tin Việc tổ chức biểu diễn thông tin giúp người sử dụng dễ dàng truy cập thông tin mà họ quan tâm Nhưng để tìm kiếm đặc điểm thơng tin theo u cầu người sử dụng công việc dễ dàng, đặc biệt với sở liệu khổng lồ đa dạng internet Do vậy, hệ tìm kiếm thơng tin hồn chỉnh ln có mơđun sau đây: Mơđun lập mục tài liệu Mơđun tìm kiếm mục tài liệu theo câu truy vấn người sử dụng Mơđun xếp kết tìm kiếm Mơ hình hệ tìm kiếm thơng tin biểu diễn qua sơ đồ sau: Tài liệu Bài tốn thơng tin Biểu diễn Biểu diễn Chỉ mục tài liệu Truy vấn Phản hồi Sắp xếp tài liệu So sánh Các tài liệu tìm kiếm Hình 1.1: Quy trình tìm kiếm thơng tin Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Chương Hệ tìm kiếm thơng tin Internet Q trình biểu diễn tài liệu thường gọi trình lập mục tài liệu (Indexing) Q trình lưu trữ thực tài liệu hệ thống, thường lưu trữ phần tài liệu, chẳng hạn phần tiêu đề tóm tắt Q trình biểu diễn u cầu người sử dụng gọi trình biểu diễn truy vấn (Query Formulation Process) Truy vấn biểu thị tương tác hệ thống người sử dụng, q trình khơng đưa truy vấn phù hợp mà phải thể dễ hiểu yêu cầu người sử dụng Việc thiết lập tự động truy vấn liên tiếp gọi phản hồi độ liên quan (Relevance Feedback) Việc so sánh truy vấn với tài liệu gọi trình đối sánh (Matching Process) cho kết danh sách tài liệu xếp theo thứ tự mức độ liên quan với truy vấn Rõ ràng, để mô tả thông tin yêu cầu cách đầy đủ, người sử dụng trực tiếp yêu cầu thông tin sử dụng giao diện thời hệ tìm kiếm Thay vào họ phải chuyển đổi thông tin yêu cầu thành truy vấn mà xử lý hệ tìm kiếm (hoặc thu hồi thông tin (IR Information Retrieval)) Thông thường, phép chuyển đổi tạo tập hợp từ khố (hoặc term số) mơ tả khái qt yêu cầu người sử dụng Với truy vấn, mục đích hệ IR tìm kiếm thơng tin mà trở nên hữu ích phù hợp với người sử dụng Điều quan trọng cần nhấn mạnh việc phục hồi thông tin khác với việc phục hồi liệu Trong ngữ cảnh hệ thống IR, nhiệm vụ phục hồi liệu việc xác định tài liệu chứa từ khoá xuất thường xuyên truy vấn mà không cần thoả mãn yêu cầu họ Trên thực tế, người sử dụng hệ thống IR quan tâm nhiều đến việc khôi phục thông tin Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội Chương Hệ tìm kiếm thơng tin Internet chủ đề việc khôi phục liệu mà đáp ứng truy vấn đưa Một ngôn ngữ phục hồi liệu hướng vào việc khôi phục tất đối tượng thoả mãn điều kiện xác định rõ ràng biểu thức tắc biểu thức đại số quan hệ Do vậy, với hệ thống khôi phục liệu, đối tượng đơn lẻ bị lỗi số hàng nghìn đối tượng tìm kiếm không thực Tuy nhiên, với hệ thống khôi phục thông tin, đối tượng tìm kiếm khơng xác cho phép có lỗi nhỏ Ngun nhân khác việc khôi phục thông tin xử lý với tài liệu chứa ngôn ngữ tự nhiên thường cấu trúc khơng rõ nghĩa Nói cách khác, hệ thống khôi phục liệu (như sở liệu quan hệ) xử lý liệu có cấu trúc ngữ nghĩa xác định Để đáp ứng hiệu yêu cầu thông tin người sử dụng, hệ thống IR phải cách “hiểu” nội dung thơng tin (của tài liệu) tập hợp xếp chúng theo mức độ phù hợp với truy vấn Sự “hiểu biết” nội dung bao gồm việc trích chọn cú pháp, ngữ nghĩa từ văn sử dụng thông tin để so khớp với thông tin người sử dụng Cái khó khơng hiểu để trích chọn thơng tin mà cịn cách sử dụng để định mối liên quan nào? Do khái niệm mức độ liên quan (Relevance) phần quan trọng vấn đề khôi phục thông tin Trong thực tế, mục đích hệ thống IR tìm kiếm tất tài liệu liên quan với truy vấn người sử dụng việc tìm kiếm đưa số tài liệu khơng thích hợp với u cầu Như vậy, khơi phục thơng tin q trình nhận dạng, xác định tài liệu liên quan dựa mô tả yêu cầu thông tin người sử dụng Việc tìm kiếm dựa nội dung thực tài liệu mà không phụ thuộc vào Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 10 Chương Hệ tìm kiếm thơng tin Text Search void *reserved_ptr1, void *reserved_ptr2, SEARCH_RES *ptr_to_search_result_parm, STATUS *status_ptr ); Đây hàm để tìm kiếm theo truy vấn mục tài liệu Hàm tìm kiếm với truy vấn lớn 128 toán hạng (operand), chiều dài toán hạng không vượt 128 ký tự Kết thúc việc tìm kiếm với truy vấn void searchTerm( SEARCH_HANDLE *ptr_to_search_handle, STATUS *status_ptr ); Cũng tương tự lập mục, file cấu trúc mục khố lại tìm kiếm để đảm bảo q trình tìm kiếm, mục tài liệu khơng thay đổi Sau đó, phải gọi đến hàm để mở khố cho file này, đồng thời giải phóng vùng nhớ cấp phát cho việc tìm kiếm Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 60 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search Chương ĐÁNH GIÁ THỰC NGHIỆM HỆ TÌM KIẾM THƠNG TIN TEXT SEARCH Tóm tắt nội dung chương: Chương trình bày hai vấn đề sau: + Đánh giá thực nghiệm chương trình tìm kiếm thơng tin TS + Hướng phát triển chương trình TS 4.1 Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search Chúng ta đánh giá hệ tìm kiếm thơng tin TS theo khía cạnh sau: + Tiết kiệm chi phí lưu trữ mục tài liệu hiệu tìm kiếm + So sánh thực nghiệm chạy chương trình + So sánh chức chương trình 4.1.1 Các đánh giá khía cạnh tiết kiệm chi phí lưu trữ hiệu tìm kiếm Từ phần trình bày chương 2, thấy hai phương pháp lập mục chia sẻ block sử dụng B+Tree có ưu điểm mặt tiết kiệm chi phí lưu trữ sau: Lưu trữ giá trị số hiệu tài liệu docID từ dựa số hiệu tài liệu docID xuất trước đó: Giả sử có từ xuất 1000 tài liệu khác nhau, có số hiệu tài liệu liên tiếp từ n đến n + 999 Bởi tài liệu liên tiếp nhau, độ sai khác docID 1, với phương pháp lưu trữ sử dụng chia sẻ block, cần sử dụng 1000 * 0.5 = 500 byte Trong đó, lưu trữ trực tiếp giá trị docID này, cần 256 + (1000 -256) * = 1744 byte Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 61 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search Lưu trữ giá trị vị trí xuất từ tài liệu dựa vị trí xuất trước từ tài liệu này: Giả sử có từ xuất tài liệu 10 lần, lần trung bình vị trí cách 10000, vị trí xuất 20000 Do 10000 < 214 (= 16384) nên phương pháp chia sẻ block sử dụng * + * = 21 byte để lưu trữ vị trí Trong đó, lưu trữ trực tiếp giá trị vị trí xuất này, phải sử dụng 10 * = 30 byte để lưu trữ Điều có nghĩa quan trọng, số lượng từ xuất tài liệu nhiều Cơ chế pintpoint nút lá: Do chế chia block liệu nút thành khối liệu khác nhau, theo kiểu bảng băm có trỏ trỏ đến điểm đầu điểm cuối khối liệu này, nên tốc độ tìm kiếm vị trí xuất từ nút tăng lên đến lần Điều có ý nghĩa vơ quan trọng, cần cập nhật mục tài liệu với tài liệu chứa từ tồn mục liệu, hay tìm kiếm theo độ giới hạn (ranking), phép tìm kiếm vị trí xuất từ nút cho key sử dụng nhiều lần 4.1.2 Các đánh giá so sánh thực nghiệm Vì TS chương trình tìm kiếm văn máy tính cá nhân (PC - Personal Computer), nên so sánh mặt thực nghiệm chương trình TS với chương trình tìm kiếm thơng tin máy tính Desktop Search biết đến nhiều nhất Google Để so sánh, vào trang web www.desktop.google.com, lấy cài đặt Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 62 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search miễn phí cho chương trình Google Desktop Search (GDS), cài vào máy PC, chương trình lập mục toàn file máy PC Chúng ta tiến hành thử nghiệm với 20 máy PC khác Cấu hình máy đồng đều: vi xử lý Intel Pentium IV 2.8 GHz, nhớ RAM 512 MB, sử dụng hệ điều hành Windows 2000 Professional Mỗi file máy PC coi tài liệu lập mục Chúng ta gọi toàn liệu máy PC liệu để kiểm tra chương trình Vì tồn file máy PC, nên coi liệu liệu khơng có cấu trúc Vì đánh giá 20 PC khác nên liệu khơng hồn tồn giống Ở đây, đánh giá theo hai tiêu chí kích thước mục tài liệu thời gian tìm kiếm Các giá trị thu giá trị tính trung bình 20 liệu lần thực cho liệu Để tăng tính khách quan đánh giá, tiến hành lần thử, lần với 20 liệu có kích thước đồng 5, 10, 15, 20, 25 30 GB, lưu trữ tương ứng 25000, 50000, 75000, 100000, 125000 150000 file So sánh kích thước mục tài liệu hai chương trình TS GDS thể bảng sau: Số Kích thước TT liệu (GB) Số file 25000 Kích thước mục tài liệu (MB) Tên mục tài liệu GDS TS 176 160 Index5 10 50000 Index10 342 318 15 75000 Index15 512 475 20 100000 Index20 673 604 25 125000 Index25 877 788 30 150000 Index30 980 910 Bảng 4.1: So sánh kích thước mục tài liệu GDS TS Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 63 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search Kết bảng thể rõ biểu đồ sau: Kích thước mục tài liệu (MB) 1000 GDS 900 TS 800 700 600 500 400 300 200 100 10 15 20 25 30 Kích thước liệu (GB) Hình 4.1: Biểu đồ so sánh kích thước mục tài liệu GDS TS Từ bảng 4.1 hình 4.1, thấy với liệu, kích thước mục tài liệu tạo chương trình TS ln nhỏ kích thước mục tài liệu tạo chương trình GDS trung bình khoảng 9% Vì mục đích lập mục tài liệu để tăng hiệu cho trình tìm kiếm, nên so sánh thời gian tìm kiếm truy vấn hai chương trình GDS TS với mục tài liệu tạo Những truy vấn mang thử nghiệm hoàn toàn ngẫu nhiên, mục đích nhằm so sánh tốc độ tìm kiếm hai chương trình GDS TS với biểu thức truy vấn có nhiều phép tốn logic Thời gian tìm kiếm truy vấn mục tài liệu tạo chương trình GDS TS thống kê bảng sau: Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 64 Chương Đánh giá thực nghiệm hệ tìm kiếm thông tin Text Search Số TT Chỉ mục tài liệu Index5 Index10 Index15 Index20 Index25 Index30 Truy vấn study “study English” study - information study * information study “study English” study - information study * information study “study English” study - information study * information study “study English” study - information study * information study “study English” study - information study * information study “study English” study - information study * information Số lượng doc 467 32 449 18 987 49 964 23 1494 58 1430 64 2267 70 2210 57 2568 85 2485 117 3185 102 3056 129 GDS (giây) 0.4 0.4 0.50 13 0.4 12 0.55 17 1.1 17 0.68 25 0.9 20 0.8 24 1.3 24 31 1.7 TS (giây) 3.2 0.38 5.9 0.36 0.47 11 0.38 11 0.50 17 0.8 15 0.61 24 0.8 19 0.72 23 1.2 22 0.8 28 1.4 Bảng 4.2: So sánh thời gian tìm kiếm hai chương trình GDS TS Kết thu bảng 4.2 cho thấy thời gian tìm kiếm cho câu truy vấn chương trình TS nhanh chương trình GDS 4.1.3 Các đánh giá chức chương trình Theo trang web www.searchenginewatch.com (là trang web cập nhật kỹ thuật tìm kiếm tiếng nay), có 12 tiêu chuẩn để đánh giá Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 65 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search chức hệ tìm kiếm thơng tin Desktop Search Bảng sau kết so sánh chức hai chương trình GDS TS theo 12 tiêu chuẩn này: Số TT Tiêu chuẩn Số lượng tài liệu lập mục Các loại file tạo mục Tần suất cập nhật mục tài liệu Tốn tử tìm kiếm mặc định Tìm kiếm theo cụm từ Tìm kiếm với từ gốc Có định nghĩa từ dừng hay khơng? Có phân biệt chữ hoa hay chữ thường tìm kiếm hay khơng? Có tốn tử logic câu truy vấn? GDS Tuỳ ý TS Tuỳ ý Tất Tất Tuỳ ý Tuỳ ý Và (AND) Và (AND) Có Có Khơng Khơng Có Có Khơng Có Khơng có tốn tử truy vấn (OR) Khơng Có tốn tử truy vấn (OR) Có 10 Có đưa kết tìm kiếm gần hay khơng? 11 Tìm kiếm theo trường, bao gồm ngơn ngữ, định dạng file, ngày tháng cập nhật file Có Có 12 Sắp xếp kết tìm kiếm theo tiêu chí nào? Khơng Khơng Bảng 7: Kết so sánh chức TS với chương trình GDS Từ bảng kết so sánh chức hai chương trình GDS TS, thấy 12 tiêu chuẩn trên, chương trình GDS có chức chương trình TS có chức đó, ngồi chức 6, 7, 8, 9, 10 chương trình GDS lại có chương trình TS Điều phân tích sau: Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 66 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search Do hai phương pháp: sử dụng block chia sẻ B+Tree lưu trữ tách biệt hẳn từ tài liệu khỏi thơng tin vị trí nó, cần thao tác nhỏ cấu trúc chứa từ tài liệu giúp cho chương trình TS có tính trên: Tìm kiếm với từ gốc Vì từ tài liệu ghi vào mục tài liệu tách thành hai loại key KEYVAR KEYCUT, KEYVAR chứa gốc từ ngơn ngữ tiếng Anh, nên cho phép chương trình TS tìm kiếm theo từ gốc Có định nghĩa từ dừng hay không Khi lập mục tài liệu, người sử dụng đưa vào danh sách từ mà họ cho từ dừng Môđun lập mục gán giá trị -1 cho trường số hiệu block cấu trúc KEYVAR từ dừng Căn vào giá trị -1 trường này, mơđun tìm kiếm khơng đưa kết người sử dụng tìm kiếm với từ dừng Có phân biệt chữ hoa hay chữ thường tìm kiếm hay khơng ? Vì trường patt hai cấu trúc KEYVAR KETCUT chứa mã UTF8 từ mang vào lập mục, mã UTF8 lại phân biệt ký tự viết hoa hay viết thường, nên cho phép chương trình TS tìm kiếm với chức phân biệt chữ hoa hay chữ thường Có tốn tử logic câu truy vấn ? Mơđun tìm kiếm chuyển biểu thức truy vấn người sử dụng đưa vào thành biểu thức dạng hậu tố Balan, sau tìm kiếm theo tốn hạng biểu thức nay, thực phép toán biểu thức truy vấn với kết tìm kiếm cho toán hạng Với phương thức xử lý Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 67 Chương Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search này, chương trình TS cho phép thực phép toán biểu thức truy vấn OR, AND NOT Có đưa kết tìm kiếm gần hay khơng ? Tương tự tìm kiếm với từ gốc, dựa vào hai loại cấu trúc KEYVAR KEYCUT dùng để lưu trữ từ tài liệu, mơđun tìm kiếm lấy khố mà có độ phù hợp (theo %) với từ câu truy vấn lớn giá trị 4.2 Hướng phát triển chương trình Text Search Nếu đầu tư nhiều thời gian cơng sức, chương trình Text Search phát triển theo hướng sau:  Tìm kiếm theo ngữ cảnh câu truy vấn Tuy nhiên cơng việc khó khăn, địi hỏi người phát triển chương trình phải am hiểu sâu sắc cấu trúc ngữ pháp ngôn ngữ tiếng Anh lẫn tiếng Việt  Không tìm kiếm từ gốc với từ biến đổi có quy tắc mà cịn tìm kiếm với từ biến đổi bất quy tắc ngôn ngữ tiếng Anh Mở rộng hơn, xây dựng thêm sở liệu từ điển để tìm kiếm với từ đồng nghĩa  Xây dựng thêm môđun thu hồi trang web để tạo thành hệ tìm kiếm thơng tin hồn chỉnh internet  Xây dựng giao diện hoàn chỉnh, đẹp mắt tiện lợi cho người sử dụng Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 68 Danh mục DANH MỤC THUẬT NGỮ VIẾT TẮT TRONG LUẬN VĂN Viết tắt Tiếng Anh Tiếng Việt IR Information Retrieval Thu hồi thông tin PSB Position Shared Block Block chia sẻ để chứa vị trí xuất từ PSC Position Shared Block Control Quản lý block chia sẻ PLF Position Leaf File File chứa nút PND Position Node Data File chứa nút cành Text Search Tìm kiếm thơng tin Google Desktop Search Hệ tìm kiếm thơng tin cục TS GDS Google URL Uniform Resource Locator Địa đến trạm Internet hay mạng nội UTF Unicode Transformation Các định dạng biến đổi Unicode Formats Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 69 Danh mục DANH MỤC CÁC BẢNG Tên bảng Nội dung Trang 2.1 Nội dung trường cấu trúc PATTINFO 39 2.2 Nội dung trường cấu trúc PATTCUT 40 2.3 Bảng tổng hợp thông tin vị trí hai pattern 44 2.4 Nội dung trường cấu trúc KEYVAR 45 2.5 Nội dung trường cấu trúc KEYCUT 46 2.6 2.7 2.8 Cấu trúc phần header slot hay block chứa nút cành Cấu trúc child_block chứa thông tin nút 48 49 Cấu trúc block chứa liệu vị trí xuất từ tài liệu nút 49 3.1 Nội dung trường cấu trúc HCREATEPARM 55 3.2 Nội dung trường cấu trúc SEARCH_COND 55 3.3 Nội dung trường cấu trúc SEARCH_RES So sánh kích thước mục tài liệu GDS TS 56 4.1 4.2 63 So sánh thời gian tìm kiếm hai chương trình GDS TS Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 65 70 Danh mục DANH MỤC CÁC HÌNH VẼ Tên hình vẽ Nội dung Trang 1.1 Quy trình tìm kiếm thơng tin 1.2 Mơ hình cơng cụ tìm kiếm thơng tin truyền 12 thống 1.3 Bộ cơng cụ tìm kiếm trang web 16 1.4 Khái qt mơ hình lập mục 19 1.5 Mơ hình mơđun phân tích 19 1.6 Kiến trúc tổng quan hệ tìm kiếm thông tin 23 Google 1.7 Cấu trúc liệu kho chứa Google 25 1.8 Chỉ mục forward, interved, lexicon loại hit 27 Google 1.9 Cấu trúc liệu BTree 31 1.10 Cấu trúc liệu B+Tree 33 2.1 Sơ đồ cấu trúc file mục tài liệu 37 sử dụng phương pháp chia sẻ block 2.2 Cấu trúc file PSB sử dụng phương pháp chia sẻ 38 block 2.3 Từ sau cắt vào pattern 40 2.4 Sắp xếp pattern theo thứ tự từ điển 40 2.5 Lưu trữ vị trí xuất từ tài liệu 41 2.6 Thông tin vị trí xuất từ file PSB 44 2.7 Hình ảnh key file KEY 46 Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 71 Danh mục 2.8 Lược đồ tìm kiếm thơng tin cấu trúc mục 47 tài liệu 2.9 Mơ hình lưu trữ vị trí xuất từ 50 B+Tree số lượng khơng nhiều 2.10 Mơ hình lưu trữ vị trí xuất từ 50 B+Tree số lượng nhiều 2.11 Cấu trúc mục tài liệu sử dụng 51 phương pháp B+Tree 3.1 Mơ hình chức chương trình TS 54 3.2 Lược đồ mơđun lập mục tài liệu 58 4.1 Biểu đồ so sánh kích thước mục tài liệu 64 GDS TS Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 72 Tài liệu tham khảo TÀI LIỆU THAM KHẢO Các báo khoa học [1] J B Lovins, Development of a stemming algorithm, Mechanical Translation and Computational Linguistics, pages 112 - 231, 1968 [2] Porter, M F, An Algorithm for Suffix Stripping, ACM SIGIR Conference on R&D in Information Retrieval, pages 313 - 327, 1980 [3] Sergey Brin, Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proceedings of the 7th International World Wide Web conference, 1998 [4] Faloutsos, Cristos, Access Methods for Text, ACM Computing Surveys, Vol 17, No 1, 1985, pages 49 – 74 [5] Sack-Davis, Ramamohanarao, Multikey Access Methods Based on Superimposed Coding Techniques, ACM Transactions on Database System, Vol 12, No 4, 1987, pages 655 – 696 [6] Srivastava, Ramamoorthy, Efficient Algorithms for Maintenance of Large Databases Indexes, Proceedings of IEEE conference on Data Engineering 1988, pages 402 – 408 [7] Anthony Tomasic, Hector Garcia-Molina, Kurt Shoens, Incremental updates of inverted lists for text document retrieval, Proceedings of the 1994 ACM SIGMOD international conference on Management of data, pages 289 – 300 [8] S Lawrence, C L Giles, Accessibility of information on the web, Nature 400, pages 107- 109, 1999 [9] D Hawking, N Craswell, Overview of TREC-7 very large collection track, Proceedings of the 7th Text Retrieval conference, pages 91 - 104, Nov 1998 Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 73 Tài liệu tham khảo [10] J Hirai, S Raghavan, H Garcia-Molina, A Paepcke, WebBase: A repository of web pages, Proceedings of the 9th International World Wide Web conference, May 2000 [11] J Cho, H Garcia-Molina, The evolution of the web and implications for an incremental crawler, 26th International conference on Very Large Databases, Sep 2000 Các trang web www.searchenginewatch.com http://desktop.google.com Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội 74 ... hình hệ tìm kiếm thơng tin, đánh giá phương pháp lập mục tài liệu có hệ tìm kiếm thơng tin Chương 2: Các phương pháp lập mục tài liệu hệ tìm kiếm thơng tin Đề xuất hai phương pháp lập mục tài liệu: ... Tổng quan hệ tìm kiếm thơng tin? ??……… … 1.2 Mơđun lập mục tài liệu hệ tìm kiếm thông tin? ??.18 1.3 Lý thuyết họ BTree………………………………… 31 Chương Các phương pháp lập mục tài liệu hệ tìm kiếm thơng tin ... tìm kiếm thơng tin Chương CÁC PHƯƠNG PHÁP LẬP CHỈ MỤC TÀI LIỆU TRONG HỆ TÌM KIẾM THƠNG TIN Tóm tắt nội dung chương: chương Luận văn đề xuất hai phương pháp để lập mục tài liệu sau: + Phương pháp

Ngày đăng: 25/02/2021, 15:49

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w