1. Trang chủ
  2. » Luận Văn - Báo Cáo

ThS37 109 xây dựng hệ thống truy xuất thông tin

103 790 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 103
Dung lượng 1,45 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI …………………………………… LUẬN VĂN THẠC SĨ KHOA HỌC XÂY DỰNG HỆ THỐNG TRUY XUẤT THÔNG TIN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: TRẦN THỊ HOÀNG THẢO Người hướng dẫn khoa học: TS LÊ THANH HƯƠNG HÀ NỘI 2006 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU U CHƯƠNG TỔNG QUAN VỀ TRUY XUẤT THÔNG TIN 10 1.1 Khái niệm truy xuất thông tin 10 1.2 Quá trình truy xuất thông tin 13 1.2.1 Giai đoạn tiền xử lý 15 1.2.2 Giai đoạn thu thập 20 1.3 Các hướng tiếp cận giải toán truy xuất thông tin 22 1.4 Đánh giá hiệu truy xuất thông tin 22 1.4.1 Độ xác độ bao phủ 23 1.4.2 Độ xác trung bình 25 1.4.3 Độ đo F độ đo E 26 1.4.4 Các tiếp cận đánh giá lấy người dùng làm trung tâm 28 1.5 Một số hệ thống truy xuất thông tin 29 1.6 Kết chương 34 CHƯƠNG CÁC CÔNG CỤ TRUY XUẤT THÔNG TIN CƠ BẢN 35 2.1 Lập mục 35 2.2 Xếp hạng 43 2.2.1 Tổng quan mô hình truy xuất thông tin 43 2.2.2 Các mô hình lôgíc 46 2.2.3 Các mô hình đại số 52 2.2.4 Các mô hình xác suất 56 2.3 Kết chương 61 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Truy xuất thông tin CHƯƠNG CƠ CHẾ HOẠT ĐỘNG CỦA LUCENE 62 3.1 Giới thiệu Lucene 62 3.2 Lập mục 63 3.2.1 Khung nhìn lôgíc mục 64 3.2.2 Cấu trúc mục 65 3.2.3 Inverted index 73 3.2.4 Chiến lược lập mục 77 3.3 Tìm kiếm 78 3.3.1 Mô hình không gian véctơ 78 3.3.2 Xếp hạng 81 3.4 Kết chương 84 CHƯƠNG CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM 85 4.1 Kiến trúc hoạt động chương trình 85 4.2 Kết thực nghiệm 87 4.3 Kết chương 94 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 95 5.1 Kết luận 95 5.2 Hướng phát triển luận văn 96 TÀI LIỆU THAM KHẢO 98 TÀI LIỆU THAM KHẢO CHÉO 100 Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ Truy xuất thông tin DANH MỤC CÁC TỪ VIẾT TẮT BIR Binary Independence Retrieval: truy xuất độc lập nhị phân CLM Coordination Level Matching: đối sánh mức đồng hạng GVSM Generalized Vector Space Model: mô hình không gian véctơ suy rộng idf Inverse Document Frequency: nghịch đảo tần số văn IR Information Retrieval: truy xuất thông tin LSI Latent Semantic Indexing: lập mục ngữ nghĩa tiềm ẩn tf Term Frequency: tần số thuật ngữ tf – idf Phương pháp tần số kết hợp tf idf TREC Text REtrieval Conference : hội nghị truy xuất văn VSM Vector Space Model: mô hình không gian véctơ Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ Truy xuất thông tin DANH MỤC BẢNG Bảng 1-1 Số thứ tự hệ thống biểu đồ 31 Bảng 3-1 Ví dụ tệp mục 66 Bảng 3-2 Ví dụ tệp mục 67 Bảng 3-3 Ví dụ tệp mục 69 Bảng 3-4 Ví dụ mục ghép 71 Bảng 4-1 So sánh kết lập mục chương trình Google Desktop 88 Bảng 4-2 Các loại truy vấn thử nghiệm 90 Bảng 4-3 So sánh hiệu truy vấn chương trình Google Desktop 91 Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ Truy xuất thông tin DANH MỤC HÌNH Hình 1-1 Quy trình truy xuất thông tin nói chung (nguồn: [1]) 13 Hình 1-2 Khung nhìn lôgíc tài liệu thông qua giai đoạn tiền xử lý (nguồn: [1]) 15 Hình 1-3 Văn A ban đầu 16 Hình 1-4 Văn A sau phân tích 16 Hình 1-5 Văn A sau loại từ danh sách stopword Smart 17 Hình 1-6 Văn A sau lấy gốc từ 18 Hình 1-7 Ví dụ đồ thị độ xác-độ bao phủ trung bình 24 Hình 1-8 Các tài liệu thu thập so với tài liệu có liên quan (nguồn: [5]) 27 Hình 1-9 Biểu đồ so sánh tính xác số hệ thống IR 30 Hình 1-10 Biểu đồ so sánh tính hiệu số hệ thống IR 30 Hình 1-11 Biểu đồ so sánh số hệ thống IR 31 Hình 2-1 Tần số tập hợp (cf) tần số tài liệu (df) thể khác 37 Hình 2-2 Ví dụ giá trị idf 38 Hình 2-3 Một ví dụ tạo nhãn với khối logic có D = từ, kích thước nhãn F = 12 bit, m = bit 39 Hình 2-4 Cấu trúc File dạng SSF 40 Hình 2-5 Minh hoạ Inverted File 42 Hình 3-1 Quy trình lập mục với Lucene 63 Hình 3-2 Khung nhìn lôgíc mục Lucene 65 Hình 3-3 Chỉ mục không tối ưu hoá gồm phân đoạn, chứa 24 tài liệu 68 Hình 3-4 Ví dụ minh hoạ định dạng mục Lucene (nguồn: [4]) 74 Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ Truy xuất thông tin Hình 3-5 Một sơ đồ lập mục Lucene 78 Hình 3-6 Minh họa độ tương tự côsin 79 Hình 4-1 Kiến trúc hoạt động chương trình 85 Hình 4-2 Phần client thực tìm kiếm 87 Hình 4-3 Biểu đồ độ xác chương trình Google Desktop 89 Hình 4-4 Biểu đồ R-Precision chương trình (R = 10) 93 Hình 4-5 Biểu đồ so sánh thời gian thực chương trình với Google Desktop 93 Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ Truy xuất thông tin MỞ ĐẦU Ngày nay, phát triển mạnh mẽ công nghệ thông tin dẫn tới dung lượng liệu lưu máy tính gia tăng nhanh chóng Trong tập liệu khổng lồ ẩn chứa hàm lượng thông tin vô lớn Vấn đề đặt làm khai thác khối thông tin để trở nên có ích người dùng Những tiến đạt lý thuyết công nghệ lĩnh vực xử lý thông tin giải phần nhu cầu nêu trên, chẳng hạn, toán xử lý văn tìm kiếm, phân loại, phân cụm văn Information Retrieval (tạm dịch truy xuất thông tin) số vấn đề quan tâm Đây vấn đề khó, với hệ thống tìm kiếm phổ biến mạng Internet Google, Altavista, Yahoo nhiều hạn chế Có thể liệt kê hạn chế thường gặp sau: thứ với truy vấn, hệ thống thường trả tập kết gồm hàng nghìn tài liệu, chí lớn nhiều, khiến người dùng phải nhiều thời gian để đọc nội dung tài liệu nhằm tìm thông tin mà họ quan tâm; thứ hai vấn đề tìm kiếm theo trọng số từ khoá, ví dụ người dùng đưa truy vấn “software engineering” với mong muốn từ “software” có ưu tiên cao từ “engineering” nhiều không nhận kết ý; thứ ba vấn đề xếp tài liệu trả theo độ liên quan với truy vấn Ngày nhiều tổ chức cá nhân có nhu cầu tìm kiếm thông tin tập liệu đặt máy tính mạng máy tính Yêu cầu đặt cần có hệ thống truy xuất thông tin chạy Desktop với hiệu độ xác cao Trong luận văn này, tập trung nghiên cứu sở lý thuyết truy xuất thông tin xây dựng thử nghiệm hệ thống truy xuất thông tin cho phép tìm kiếm tài liệu mang nội dung tiếng Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ Truy xuất thông tin Anh chứa máy tính Hệ thống xây dựng dựa thư viện mã nguồn mở truy xuất thông tin Lucene Nội dung luận văn gồm chương : • Chương 1: trình bày tổng quan truy xuất thông tin, bước cần thực trình truy xuất thông tin, phương pháp đánh giá hiệu truy xuất thông tin so sánh số hệ thống truy xuất thông tin giới • Chương 2: trình bày công cụ truy xuất thông tin quan trọng lập mục xếp kết tìm kiếm • Chương 3: giới thiệu trình bày chế lập mục tìm kiếm thư viện mã nguồn mở Lucene • Chương 4: trình bày kiến trúc hoạt động chương trình kết thực nghiệm • Chương 5: kết luận hướng phát triển luận văn Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 10 Truy xuất thông tin CHƯƠNG TỔNG QUAN VỀ TRUY XUẤT THÔNG TIN Mục đích chương giới thiệu tóm tắt vấn đề truy xuất thông tin: Truy xuất thông tin gì? Các bước thực trình truy xuất thông tin Các phương pháp đánh giá hiệu truy xuất So sánh số hệ thống truy xuất thông tin 1.1 Khái niệm truy xuất thông tin Thuật ngữ truy xuất thông tin (Information Retrieval – IR), phát biểu Rijsbergen [12] , thường định nghĩa cách rộng không chặt chẽ Do vậy, thường có nhập nhằng lĩnh vực truy xuất liệu (data retrieval), truy xuất tài liệu (document retrieval), truy xuất thông tin truy xuất văn (text retrieval) Một định nghĩa đủ, dễ hiểu, tránh nhầm lẫn đưa Lancaster [19] : Một hệ thống truy xuất thông tin không cho người dùng biết (ví dụ thay đổi tri thức người dùng) chủ đề mà họ yêu cầu Nó đơn cho biết tồn (hoặc không tồn tại) vị trí tài liệu có liên quan tới yêu cầu người dùng Trong thực tế nghiên cứu, định nghĩa truy xuất thông tin sau [7] : Truy xuất thông tin việc tìm kiếm tài liệu trạng thái phi cấu trúc (thường văn bản) thoả mãn nhu cầu thông tin từ tập hợp lớn (thường máy chủ cục mạng) Hành động xác định rõ cốt lõi IR Hàng ngày, có hàng trăm triệu người thực truy xuất thông tin họ sử dụng máy tìm kiếm web tìm kiếm hộp thư điện tử IR nhanh chóng trở thành hình thức truy nhập thông tin vượt trội, vượt qua dạng tìm kiếm kiểu sở liệu truyền thống IR lĩnh vực khoa học máy tính chuyên lý thuyết thực hành việc tìm kiếm thông tin Do văn phương tiện phổ biến sử dụng để Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 89 Truy xuất thông tin Từ thực nghiệm, kết luận chương trình lập mục với tốc độ chậm Google Desktop Tuy nhiên, kích thước mục chương trình nhỏ nhiều so với Google Desktop trình lập mục chương trình chiếm tài nguyên hệ thống so với Google Desktop Điều quan trọng môđun lập mục chạy phần hệ điều hành để cập nhật lại mục có biến đổi liệu Trong đó, Google Desktop có chế tương tự chiếm nhiều tài nguyên hệ thống Ở bước tìm kiếm, thử nghiệm với nhiều câu truy vấn thuộc nhiều loại Chúng sử dụng độ đo R-Precision (với giá trị R = 10) để đánh giá kết thử nghiệm Độ xác kết trả kiểm tra thủ công Dựa vào giá trị R-Precision cho truy vấn chương trình Google Desktop, vẽ biểu đồ độ xác (Hình 4-3) để so sánh khả truy vấn chương trình với Google Desktop Hiệu R-Precision chương trình Google Desktop 0.60 0.50 0.40 Hiệu R-Precision 0.30 0.20 0.10 0.00 10 11 12 13 14 15 16 17 18 19 20 21 -0.10 -0.20 -0.30 Truy vấn Hình 4-3 Biểu đồ độ xác chương trình Google Desktop Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 90 Truy xuất thông tin Trong biểu đồ (Hình 4-3), trục hoành biểu diễn truy vấn theo thứ tự từ đến 21, trục tung biểu diễn hiệu R-Precision chương trình so với Google Desktop truy vấn Sự phân bổ loại truy vấn dùng để thử nghiệm thể Bảng 4-2 Bảng 4-2 Các loại truy vấn thử nghiệm Truy vấn 1-3 Kiểu truy vấn Truy vấn từ khoá Ý nghĩa Tìm kiếm tài liệu có chứa từ khoá 4-10 Truy vấn cụm từ Tìm kiếm tài liệu có chứa cụm từ 11-13 Truy vấn với toán tử OR Tìm kiếm tài liệu chứa từ khoá truy vấn 14-17 Truy vấn với toán tử AND Tìm kiếm tài liệu có chứa tất từ khoá truy vấn 18-20 Truy vấn với toán tử NOT Tìm kiếm tài liệu có chứa số từ khoá không số từ khoá khác truy vấn 21 Truy vấn theo nhóm Tìm kiếm tài liệu thoả mãn điều kiện nhóm từ khoá truy vấn Từ biểu đồ (Hình 4-3), rút nhận xét sau (tóm tắt Bảng 4-3): Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 91 Truy xuất thông tin • Với truy vấn kiểu từ khoá, chương trình Google Desktop cho kết tương đương truy vấn số 3, Google Desktop đưa kết tốt chút truy vấn số • Với truy vấn cụm từ, chương trình Google Desktop cho kết tương đương truy vấn số 7, 10, chương trình cho kết tốt nhiều truy vấn số 5, Google Desktop cho kết tốt chút truy vấn số 4, Bảng 4-3 So sánh hiệu truy vấn chương trình Google Desktop Kiểu truy Truy vấn vấn Truy vấn từ khoá Tốt Chương trình x x x x x x x Truy vấn với toán tử OR đương cụm từ Google Desktop x Truy vấn Tương x 10 x 11 x 12 x 13 x Truy vấn với 14 toán tử AND 15 x x 16 Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 x Luận văn thạc sĩ 92 17 Truy vấn với toán tử NOT Truy vấn theo nhóm Truy xuất thông tin x 18 19 x x 20 21 x x • Với truy vấn với toán tử OR, chương trình Google Desktop cho hiệu truy xuất tương đương truy vấn số 11, chương trình cho kết tốt truy vấn số 12 13 • Với truy vấn với toán tử AND, chương trình Google Desktop cho hiệu truy xuất tương đương truy vấn số 14 16, chương trình cho kết truy xuất tốt truy vấn số 15, Google Desktop cho hiệu cao truy vấn số 17 • Với truy vấn với toán tử NOT, chương trình Google Desktop cho hiệu truy xuất tương đương truy vấn số 18 20, chương trình cho kết tốt nhiều truy vấn số 19 • Với truy vấn dạng nhóm số 21, chương trình cho kết tốt so với Google Desktop Qua kiểm tra thủ công, nhận thấy thứ tự xếp tập kết tìm kiếm chương trình xác so với thứ tự xếp Google Desktop Ngoài ra, chương trình có khả thực truy vấn Google Desktop không hỗ trợ truy vấn theo kí tự đại diện, truy vấn có tính đến khoảng cách từ khoá, truy vấn có tính đến trọng số từ khoá Chúng xây dựng biểu đồ độ xác R-Precision (với R = 10) chương trình (Hình 4-4) Biểu đồ cho thấy hiệu truy xuất tốt chương trình, chương trình có độ xác R-Precision = với 10/21 Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 93 Truy xuất thông tin truy vấn Với truy vấn lại, chương trình cho độ xác cao, thấp 0.5 cao 0.9 Độ xác R-Precision chương trình 1.20 Độ xác R-Precision 1.00 0.80 0.60 0.40 0.20 0.00 10 11 12 13 14 15 16 17 18 19 20 21 19 20 21 Truy vấn Hình 4-4 Biểu đồ R-Precision chương trình (R = 10) Thời gian thực chương trình Thời gian thực Google 1.4 1.2 Thời gian (giây) 0.8 0.6 0.4 0.2 10 11 12 13 14 15 16 17 18 Truy vấn Hình 4-5 Biểu đồ so sánh thời gian thực chương trình với Google Desktop Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 94 Truy xuất thông tin Dựa vào số liệu thời gian thực hiện, xây dựng biểu đồ so sánh thời gian thực chương trình Google Desktop so với truy vấn (Hình 4-5) Biểu đồ cho thấy thời gian thực chương trình thường tương đương với thời gian thực Google Desktop Trong số truy vấn thời gian thực chương trình chậm Google Desktop Ngược lại, số truy vấn khác chương trình lại đưa kết nhanh so với Google Desktop Qua phân tích kết thực nghiệm, khẳng định chế lập mục chương trình tốt Google Desktop xét theo khía cạnh kích thước mục mức độ sử dụng tài nguyên hệ thống trình lập mục Về hiệu truy vấn, chương trình tương đương với Google Desktop tốc độ tìm kiếm độ xác R-Precision (xét với R = 10) kết trả Hơn nữa, thứ tự xếp kết trả chương trình xác so với thứ tự mà Google Desktop đưa Điều chứng tỏ tính hiệu cấu trúc mục mô hình xuất thông tin dựa mô hình không gian véctơ thư viện mã nguồn mở IR Lucene 4.3 Kết chương Trong chương này, trình bày số kết thực nghiệm chương trình truy xuất thông tin xây dựng dựa thư viện mã nguồn mở Lucene Kết thực nghiệm cho thấy cấu trúc mục ghép Lucene mang lại hiệu đáng kể việc tìm kiếm Đồng thời, từ kết thực nghiệm, nhận xét mô hình truy xuất thông tin dựa mô hình không gian véctơ Lucene mang lại tính xác cao tập kết tìm kiếm Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 95 Truy xuất thông tin CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 5.1 Kết luận Trong luận văn, trình bày bước cần thực để xây dựng hệ thống truy xuất thông tin; nghiên cứu so sánh kỹ thuật lập mục mô hình truy xuất thông tin; trình bày chế lập mục Inverted Files mô hình truy xuất thông tin dựa mô hình không gian véctơ thư viện mã nguồn mở Lucene; xây dựng chương trình tìm kiếm thông tin dựa Lucene Cụ thể: Chúng trình bày bước trình truy xuất thông tin, bao gồm hai giai đoạn tiền xử lý tài liệu thu thập thông tin Chúng trình bày phương pháp đánh giá hiệu truy xuất theo hai hướng tiếp cận hướng mô hình tiếp cận đánh giá lấy người dùng làm trung tâm Chúng trình bày so sánh hai cấu trúc mục Signature Files Inverted Files Chúng so sánh hướng tiếp cận truy xuất thông tin mô hình lôgíc, mô hình đại số mô hình xác suất Chúng tập trung nghiên cứu chế lập mục tìm kiếm thư viện mã nguồn mở IR Lucene Cuối cùng, xây dựng chương trình thử nghiệm dựa Lucene để kiểm nghiệm đánh giá hiệu cấu trúc mục Inverted Files mô hình không gian véctơ Lucene Chúng thực thử nghiệm chương trình nhiều lần với nhiều truy vấn khác Đồng thời dùng Google Desktop để thử nghiệm với truy vấn điều kiện Kết thử nghiệm cho thấy chương trình có tốc độ lập mục chậm Google Desktop kích thước thư mục mục nhỏ Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 96 Truy xuất thông tin nhiều so với Google Desktop chiếm tài nguyên hệ thống trình lập mục Tốc độ tìm kiếm độ xác R-Precsion (với R = 10) chương trình tương đương với Google Desktop Thứ tự tập kết trả chương trình xác so với thứ tự tập kết mà Google Desktop trả Xét cách tổng thể phạm vi thử nghiệm luận văn chương trình có hiệu hoạt động cao Google Desktop 5.2 Hướng phát triển luận văn Hoàn thiện chương trình tìm kiếm thông tin chương để sử dụng thực tiễn tìm kiếm thông tin desktop, tìm kiếm thông tin mạng intranet, tìm kiếm thông tin web Hiện tại, luận văn dừng lại việc tìm kiếm thông tin tập tài liệu mang nội dung tiếng Anh Bởi vậy, hướng phát triển luận văn nghiên cứu kỹ thuật mở rộng chương trình để tìm kiếm tài liệu mang nội dung tiếng Việt Tiếng Việt có đặc điểm riêng cấu tạo từ, cấu trúc ngữ pháp Vì cần có cải tiến việc phân tích từ vựng Chúng đề xuất hướng nghiên cứu dựa KStemmer (còn gọi Krovetz Stemmer) để giải vấn đề Kstemmer giải thuật lấy gốc từ phát triển Bob Krovetz, trường đại học University of Massachusetts, năm 1993 Giải thuật sử dụng hình thái học ngôn ngữ biến tố (inflectional linguistic morphology) Hình thái học biến tố mô tả biến đổi dự đoán từ diễn cú pháp (hình thức số nhiều sở hữu danh từ, hình thức khứ tiếp diễn động từ trường hợp thường gặp tiếng Anh) Kstemmer loại bỏ cách hiệu xác hậu tố theo ba bước : biến đổi dạng số nhiều thành dạng số ít, biến đổi khứ thành tại, loại bỏ dạng đuôi ‘ing’ Quá trình biến đổi trước hết loại bỏ tiền tố, qua trình kiểm tra từ điển để Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 97 Truy xuất thông tin tìm ghi có, trả gốc từ Kstemmer phù hợp với ngôn ngữ có hình thái từ đa dạng tiếng Việt Do đó, đề xuất hướng nghiên cứu, cải tiến Kstemmer để áp dụng cho toán truy xuất thông tin tập tài liệu mang nội dung tiếng Việt Luận văn bước khởi đầu để tác giả làm quen nghiên cứu toán truy xuất thông tin Tác giả mong muốn cộng tác với người quan tâm lĩnh vực để nghiên cứu giải toán, đặc biệt toán tìm kiếm tài liệu tiếng Việt Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 98 Truy xuất thông tin TÀI LIỆU THAM KHẢO [1] Ricardo Baeza-Yates, Berthier Ribeiro-Neto (1999), Modern Information Retrieval, Addison Wesley, New York [2] Eva Ericsson (2005), User-Centered Evaluation of a Information Retrieval System, Master’s thesis, Uppsala University, Uppsala [3] Ed Greengrass (2000), Information Retrieval-A Survey [4] Erik Hatcher, Otis Gospodnetic (2005), Lucene In Action, Manning Publications Co, Greenwich [5] Diana Inkpen (2006), Information Retrieval on the Internet, Volume III (Part 3), 213 [6] Wessel Kraaij (2004), Variations on Language Modeling for Information Retrieval, Phd thesis, Enschede [7] Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze (2006), An Introduction to Information Retrieval, Cambridge University Press, Cambridge [8] Tom Noda, Shawn Helwig (2005), Benchmark Study of Desktop Search Tools, UW E-Business Consortium, University of Wisconsin-Madison [9] Sunanda Patro (2005), Synthesising Web Search Queries from Example Text Documents, Master’s thesis, University of Tasmania, Hobart [10] Justin Picard (2000), Probabilistic Argumentation Systems Applied to Information Retrieval, Phd thesis, Neuchâtel [11] Zhanzi Qiu (2004), Hyperstructure-Based Search Methods for the World Wide Web, Master’s thesis, Technischen Universität Darmstadt, Darmstadt Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 99 Truy xuất thông tin [12] van Rijsbergen, C J (1979), Information Retrieval, 2nd edition, Butterworths, Lodon [13] Christian Safran (2005), A Concept-Based Information Retrieval Approach for User-oriented Knowledge Transfer, Master’s thesis, Graz University of Technology, Graz Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 100 Truy xuất thông tin TÀI LIỆU THAM KHẢO CHÉO [14] American Society of Indexers (2005), AMERICAN SOCIETY OF INDEXERS: How Information Retrieval Started (Trong [13] , trang 16,17) [15] Clarke, C L., Cormack, G V., & Tudhope, E A (1997), “Relevance ranking for one to three term queries”, in Devroye, L., & Chrisment, C., editors, Proceedings of RIAO’97, 388–400 (Trong [6] , trang 29) [16] Cooper, WS (1988), “Getting beyond Boole”, Information Processing and Management, Vol.24, no.3, pp.243-248 (Trong [9] , trang 7) [17] Fuhr, N (1992), “Probabilistic models in information retrieval”, The Computer Journal, 35(3), 233–245 (Trong [6] ) [18] Kobayashi, M and Takeda, K (2000), “Information retrieval on the web”, ACM Computing Surveys, Vol.32, no.2, pp.144-173.(Trong [9] , trang 8) [19] Lancaster, F W (1968), Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley, New York (Trong [2] , trang 3) [20] Maron, ME and Kuhns, JL (1960), “On relevance, probabilistic indexing and information retrieval”, Journal of the Association for Computing Machinery, Vol.7, pp.216-244 (Trong [9] , trang 9) [21] Ruthven, I and Lalmas, M (2003), “A survey on the use of relevance feedback for information systems”, Knowledge engineering Review, Vol.18, no.2, pp 95-145.(Trong [9] , trang 8) [22] Salton, G (1971), The SMART retrieval system: experiments in automatic documentprocessing, Prentice-Hall, Englewood Cliffs (Trong [11] , trang 12) Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 101 Truy xuất thông tin [23] Salton, G and Gill, M (1983), Introduction to modern information retrieval, Mc.Graw Hill, New York, p448 (Trong [11] , trang 12) [24] Salton, G., & Buckley, C (1988), “Term-weighting approaches in automatic text retrieval”, Information Processing & Management, 24(5),513–523.(Trong [6] , trang 28) [25] Salton, G (1989), Automatic text processing – the transformation, analysis and retrieval of information by computer, AddisonWesley, Reading, MA (Trong [11] , trang 12) [26] Scott Deerwester, Susan T Dumais, Thomas K Landauer, George W Furnas, and Richard Harshman (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6):391-407 (Trong [5] ) [27] F Sebastiani (1998), “On the role of logic in information retrieval”, Information Processing and Management, 34(1):1–18 (Trong [Justin Picard, 2000], trang 10) [28] Singhal, A and Salton, G 1995 ,”Automatic Text Browsing Using Vector space Model”, Proceedings of the Dual-Use Technologies and Applications Conference, pp.318-324 (Trong [9] , trang 8) [29] Singhal, A (2001), “Modern Information Retrieval: A Brief Overview”, IEEE Data Eng Bull, Vol.24, no.4, pp.35-43 (Trong [9] , trang 12) [30] Wong, S K M., Ziarko, W., Raghavan, V V., & Wong, P C N (1986), “On extending the vector space model for boolean query processing”, In Proceedings of the 9th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’86), pp 175–185 ACM Press (Trong [6] , trang 39) Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 102 Truy xuất thông tin [31] Wong, S K M., Ziarko, W., Raghavan, V V., & Wong, P C N (1987), “On modeling of information retrieval concepts in vector space”, TODS, 12(2),299–321 (Trong [6] , trang 39) [32] Yang, K (2002), Combining Text-, Link-, and Classification-based Retrieval Methods to Enhance Information Discovery on the Web, PhD thesis, University of North Carolina, p18 (Trong [9] , trang 10) [33] Zadeh, L A (1965), “Fuzzy sets”, Information and Control, 8,338– 353 (Trong [6] , trang 29) Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 103 Truy xuất thông tin TÓM TẮT LUẬN VĂN Trong luận văn, trình bày bước cần thực để xây dựng hệ thống truy xuất thông tin, bao gồm hai giai đoạn tiền xử lý tài liệu thu thập thông tin Chúng nghiên cứu so sánh kỹ thuật lập mục hướng tiếp cận truy xuất thông tin, bao gồm mô hình lôgíc, mô hình đại số mô hình xác suất Chúng nghiên cứu trình bày chế lập mục mô hình truy xuất thông tin thư viện mã nguồn mở Lucene Cuối cùng, xây dựng chương trình thử nghiệm dựa Lucene để kiểm nghiệm đánh giá hiệu cấu trúc mục Inverted Files mô hình không gian véctơ Lucene Các từ khoá: truy xuất thông tin, lập mục, xếp hạng, Inverted Files, mô hình không gian véctơ Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ [...]... Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 29 Truy xuất thông tin 1.5 Một số hệ thống truy xuất thông tin Hiện nay, có rất nhiều hệ thống truy xuất thông tin phục vụ tìm kiếm thông tin trên máy tính và trên mạng Internet hoặc Intranet Các hệ thống tìm kiếm trên web như Google, AltaVista đã và đang rất phổ biến Bên cạnh đó, nhu cầu tìm kiếm thông tin trên một máy tính hoặc trên một mạng máy tính... trong chỉ mục 1.4 Đánh giá hiệu quả truy xuất thông tin Như trên đã nêu, vì các hệ thống IR phải xử lý nhu cầu thông tin được mô tả một cách gần đúng của người dùng nên kết quả của một quá trình truy xuất thông tin không phù hợp tuyệt đối với nhu cầu thông tin, mà được xếp hạng theo độ liên quan Việc đánh giá độ chính xác của kết quả được gọi là đánh giá truy xuất thông tin Bên cạnh những độ đo hiệu suất... về truy xuất thông tin Quá trình truy xuất thông tin bao gồm hai giai đoạn là tiền xử lý tài liệu và tìm kiếm thông tin theo yêu cầu của người dùng trong tập tài liệu đã xử lý Trong đó, quan trọng nhất là bước lập chỉ mục tài liệu và sắp xếp độ liên quan của từng tài liệu đối với yêu cầu tìm kiếm Để đánh giá hiệu quả truy xuất thông tin, có thể áp dụng nhiều độ đo, bao gồm các tiếp cận hướng hệ thống. ..11 Truy xuất thông tin biểu diễn và phân bố thông tin một cách hiệu quả, hầu hết các nghiên cứu IR đều tập trung vào việc tìm kiếm trong các tập hợp tài liệu dạng văn bản Như hàm ý của thuật ngữ IR, nhiệm vụ chính của IR là tìm kiếm thông tin thoả mãn nhu cầu thông tin của người dùng Người sử dụng của một hệ thống IR quan tâm nhiều tới việc thu nhận thông tin về một chủ đề hơn là... câu truy vấn cho trước Trái lại, truy xuất dữ liệu chỉ nhằm mục tiêu cung cấp các tập hợp thông tin "vừa khít" với các từ khoá của một câu truy vấn IR có lịch sử lâu dài giống như lịch sử của việc lưu trữ thông tin, vào khoảng 4000 năm Cùng với sự phát triển của lượng thông tin được lưu trữ, con người phải phát triển ngày càng nhiều phương thức để tổ chức lượng thông tin đó để phục vụ cho việc truy xuất. .. thạc sĩ 15 Truy xuất thông tin Quá trình này thường được chia thành hai giai đoạn, tiền xử lý (preprocessing) và thu thập (retrieval) Giai đoạn truy xuất có thể lặp đi lặp lại nếu như người dùng muốn tinh chỉnh các kết quả truy xuất 1.2.1 Giai đoạn tiền xử lý 1.2.1.1 Tiền xử lý tài liệu Trong giai đoạn tiền xử lý, hệ thống IR tạo ra biểu diễn bên trong của thông tin trong từng tài liệu thông qua quy... chỉ mục và các hướng tiếp cận truy xuất thông tin Tiếp đó, chúng tôi sẽ trình bày cơ chế lập chỉ mục và tìm kiếm của thư viện mã nguồn mở Lucene Cuối cùng là kết quả xây dựng chương trình thử nghiệm dựa trên Lucene Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 35 Truy xuất thông tin CHƯƠNG 2 CÁC CÔNG CỤ TRUY XUẤT THÔNG TIN CƠ BẢN Trong chương này,... văn thạc sĩ 23 Truy xuất thông tin phần mềm nói chung thì hiệu suất truy xuất là vấn đề then chốt của một hệ thống IR Việc đánh giá IR được thực hiện bằng cách truy vấn một tập hợp tham khảo đã chuẩn hóa Những tập tham khảo này gồm một tập các tài liệu, một tập các yêu cầu thông tin ví dụ và các tập hợp tài liệu có liên quan tương ứng Những tài liệu có liên quan ứng với các yêu cầu thông tin mẫu được... đồ gán trọng số tf-idf được sử dụng phổ biến trong các hệ thống truy xuất văn bản Trần Thị Hoàng Thảo Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Luận văn thạc sĩ 20 Truy xuất thông tin 1.2.2 Giai đoạn thu thập 1.2.2.1 Xử lý truy vấn Nhu cầu thông tin của người dùng được phát biểu bằng một yêu cầu (request), là đầu vào của hệ thống IR Một yêu cầu có thể được viết ở dạng ngôn ngữ tự... ra cùng truy vấn giống nhau cho một hệ thống IR nhưng lại có cách đánh giá độ liên quan khác nhau đối với các tài liệu được thu thập Hệ thống IR theo một nghĩa nào đó, phải thông dịch” nội dung của các phần tử thông tin (các tài liệu) trong một tập hợp và xếp hạng chúng theo mức độ liên quan tới câu truy vấn của người dùng Việc thông dịch” một nội dung tài liệu bao gồm việc chắt lọc thông tin cú pháp

Ngày đăng: 13/07/2016, 09:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w