Xây dựng đội ngũ cán bộ, công chức cấp xã ở tỉnh Cà Mau hiện nay

103 614 0
Xây dựng đội ngũ cán bộ, công chức cấp xã ở tỉnh Cà Mau hiện nay

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 166 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI …………………………………… LUẬN VĂN THẠC SĨ KHOA HỌC XÂY DỰNG HỆ THỐNG TRUY XUẤT THÔNG TIN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: TRẦN THỊ HOÀNG THẢO Người hướng dẫn khoa học: TS LÊ THANH HƯƠNG HÀ NỘI 2006 Footer Page of 166 Header Page of 166 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU U CHƯƠNG TỔNG QUAN VỀ TRUY XUẤT THÔNG TIN 10 1.1 Khái niệm truy xuất thông tin 10 1.2 Quá trình truy xuất thông tin 13 1.2.1 Giai đoạn tiền xử lý 15 1.2.2 Giai đoạn thu thập 20 1.3 Các hướng tiếp cận giải toán truy xuất thông tin 22 1.4 Đánh giá hiệu truy xuất thông tin 22 1.4.1 Độ xác độ bao phủ 23 1.4.2 Độ xác trung bình 25 1.4.3 Độ đo F độ đo E 26 1.4.4 Các tiếp cận đánh giá lấy người dùng làm trung tâm 28 1.5 Một số hệ thống truy xuất thông tin 29 1.6 Kết chương 34 CHƯƠNG CÁC CÔNG CỤ TRUY XUẤT THÔNG TIN CƠ BẢN 35 2.1 Lập mục 35 2.2 Xếp hạng 43 2.2.1 Tổng quan mô hình truy xuất thông tin 43 2.2.2 Các mô hình lôgíc 46 2.2.3 Các mô hình đại số 52 2.2.4 Các mô hình xác suất 56 2.3 Kết chương 61 Footer Page of 166 Header Page of 166 Truy xuất thông tin CHƯƠNG CƠ CHẾ HOẠT ĐỘNG CỦA LUCENE 62 3.1 Giới thiệu Lucene 62 3.2 Lập mục 63 3.2.1 Khung nhìn lôgíc mục 64 3.2.2 Cấu trúc mục 65 3.2.3 Inverted index 73 3.2.4 Chiến lược lập mục 77 3.3 Tìm kiếm 78 3.3.1 Mô hình không gian véctơ 78 3.3.2 Xếp hạng 81 3.4 Kết chương 84 CHƯƠNG CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM 85 4.1 Kiến trúc hoạt động chương trình 85 4.2 Kết thực nghiệm 87 4.3 Kết chương 94 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 95 5.1 Kết luận 95 5.2 Hướng phát triển luận văn 96 TÀI LIỆU THAM KHẢO 98 TÀI LIỆU THAM KHẢO CHÉO 100 Footer Page ofHoàng 166 Thảo Trần3Thị Luận văn thạc sĩ Header Page of 166 Truy xuất thông tin DANH MỤC CÁC TỪ VIẾT TẮT BIR Binary Independence Retrieval: truy xuất độc lập nhị phân CLM Coordination Level Matching: đối sánh mức đồng hạng GVSM Generalized Vector Space Model: mô hình không gian véctơ suy rộng idf Inverse Document Frequency: nghịch đảo tần số văn IR Information Retrieval: truy xuất thông tin LSI Latent Semantic Indexing: lập mục ngữ nghĩa tiềm ẩn tf Term Frequency: tần số thuật ngữ tf – idf Phương pháp tần số kết hợp tf idf TREC Text REtrieval Conference : hội nghị truy xuất văn VSM Vector Space Model: mô hình không gian véctơ Footer Page ofHoàng 166 Thảo Trần4Thị Luận văn thạc sĩ Header Page of 166 Truy xuất thông tin DANH MỤC BẢNG Bảng 1-1 Số thứ tự hệ thống biểu đồ 31 Bảng 3-1 Ví dụ tệp mục 66 Bảng 3-2 Ví dụ tệp mục 67 Bảng 3-3 Ví dụ tệp mục 69 Bảng 3-4 Ví dụ mục ghép 71 Bảng 4-1 So sánh kết lập mục chương trình Google Desktop 88 Bảng 4-2 Các loại truy vấn thử nghiệm 90 Bảng 4-3 So sánh hiệu truy vấn chương trình Google Desktop 91 Footer Page ofHoàng 166 Thảo Trần5Thị Luận văn thạc sĩ Header Page of 166 Truy xuất thông tin DANH MỤC HÌNH Hình 1-1 Quy trình truy xuất thông tin nói chung (nguồn: [1]) 13 Hình 1-2 Khung nhìn lôgíc tài liệu thông qua giai đoạn tiền xử lý (nguồn: [1]) 15 Hình 1-3 Văn A ban đầu 16 Hình 1-4 Văn A sau phân tích 16 Hình 1-5 Văn A sau loại từ danh sách stopword Smart 17 Hình 1-6 Văn A sau lấy gốc từ 18 Hình 1-7 Ví dụ đồ thị độ xác-độ bao phủ trung bình 24 Hình 1-8 Các tài liệu thu thập so với tài liệu có liên quan (nguồn: [5]) 27 Hình 1-9 Biểu đồ so sánh tính xác số hệ thống IR 30 Hình 1-10 Biểu đồ so sánh tính hiệu số hệ thống IR 30 Hình 1-11 Biểu đồ so sánh số hệ thống IR 31 Hình 2-1 Tần số tập hợp (cf) tần số tài liệu (df) thể khác 37 Hình 2-2 Ví dụ giá trị idf 38 Hình 2-3 Một ví dụ tạo nhãn với khối logic có D = từ, kích thước nhãn F = 12 bit, m = bit 39 Hình 2-4 Cấu trúc File dạng SSF 40 Hình 2-5 Minh hoạ Inverted File 42 Hình 3-1 Quy trình lập mục với Lucene 63 Hình 3-2 Khung nhìn lôgíc mục Lucene 65 Hình 3-3 Chỉ mục không tối ưu hoá gồm phân đoạn, chứa 24 tài liệu 68 Hình 3-4 Ví dụ minh hoạ định dạng mục Lucene (nguồn: [4]) 74 Footer Page ofHoàng 166 Thảo Trần6Thị Luận văn thạc sĩ Header Page of 166 Truy xuất thông tin Hình 3-5 Một sơ đồ lập mục Lucene 78 Hình 3-6 Minh họa độ tương tự côsin 79 Hình 4-1 Kiến trúc hoạt động chương trình 85 Hình 4-2 Phần client thực tìm kiếm 87 Hình 4-3 Biểu đồ độ xác chương trình Google Desktop 89 Hình 4-4 Biểu đồ R-Precision chương trình (R = 10) 93 Hình 4-5 Biểu đồ so sánh thời gian thực chương trình với Google Desktop 93 Footer Page ofHoàng 166 Thảo Trần7Thị Luận văn thạc sĩ Header Page of 166 Truy xuất thông tin MỞ ĐẦU Ngày nay, phát triển mạnh mẽ công nghệ thông tin dẫn tới dung lượng liệu lưu máy tính gia tăng nhanh chóng Trong tập liệu khổng lồ ẩn chứa hàm lượng thông tin vô lớn Vấn đề đặt làm khai thác khối thông tin để trở nên có ích người dùng Những tiến đạt lý thuyết công nghệ lĩnh vực xử lý thông tin giải phần nhu cầu nêu trên, chẳng hạn, toán xử lý văn tìm kiếm, phân loại, phân cụm văn Information Retrieval (tạm dịch truy xuất thông tin) số vấn đề quan tâm Đây vấn đề khó, với hệ thống tìm kiếm phổ biến mạng Internet Google, Altavista, Yahoo nhiều hạn chế Có thể liệt kê hạn chế thường gặp sau: thứ với truy vấn, hệ thống thường trả tập kết gồm hàng nghìn tài liệu, chí lớn nhiều, khiến người dùng phải nhiều thời gian để đọc nội dung tài liệu nhằm tìm thông tin mà họ quan tâm; thứ hai vấn đề tìm kiếm theo trọng số từ khoá, ví dụ người dùng đưa truy vấn “software engineering” với mong muốn từ “software” có ưu tiên cao từ “engineering” nhiều không nhận kết ý; thứ ba vấn đề xếp tài liệu trả theo độ liên quan với truy vấn Ngày nhiều tổ chức cá nhân có nhu cầu tìm kiếm thông tin tập liệu đặt máy tính mạng máy tính Yêu cầu đặt cần có hệ thống truy xuất thông tin chạy Desktop với hiệu độ xác cao Trong luận văn này, tập trung nghiên cứu sở lý thuyết truy xuất thông tin xây dựng thử nghiệm hệ thống truy xuất thông tin cho phép tìm kiếm tài liệu mang nội dung tiếng Footer Page ofHoàng 166 Thảo Trần8Thị Luận văn thạc sĩ Header Page of 166 Truy xuất thông tin Anh chứa máy tính Hệ thống xây dựng dựa thư viện mã nguồn mở truy xuất thông tin Lucene Nội dung luận văn gồm chương : • Chương 1: trình bày tổng quan truy xuất thông tin, bước cần thực trình truy xuất thông tin, phương pháp đánh giá hiệu truy xuất thông tin so sánh số hệ thống truy xuất thông tin giới • Chương 2: trình bày công cụ truy xuất thông tin quan trọng lập mục xếp kết tìm kiếm • Chương 3: giới thiệu trình bày chế lập mục tìm kiếm thư viện mã nguồn mở Lucene • Chương 4: trình bày kiến trúc hoạt động chương trình kết thực nghiệm • Chương 5: kết luận hướng phát triển luận văn Footer Page ofHoàng 166 Thảo Trần9Thị Luận văn thạc sĩ Header Page 10 of 166 10 Truy xuất thông tin CHƯƠNG TỔNG QUAN VỀ TRUY XUẤT THÔNG TIN Mục đích chương giới thiệu tóm tắt vấn đề truy xuất thông tin: Truy xuất thông tin gì? Các bước thực trình truy xuất thông tin Các phương pháp đánh giá hiệu truy xuất So sánh số hệ thống truy xuất thông tin 1.1 Khái niệm truy xuất thông tin Thuật ngữ truy xuất thông tin (Information Retrieval – IR), phát biểu Rijsbergen [12] , thường định nghĩa cách rộng không chặt chẽ Do vậy, thường có nhập nhằng lĩnh vực truy xuất liệu (data retrieval), truy xuất tài liệu (document retrieval), truy xuất thông tin truy xuất văn (text retrieval) Một định nghĩa đủ, dễ hiểu, tránh nhầm lẫn đưa Lancaster [19] : Một hệ thống truy xuất thông tin không cho người dùng biết (ví dụ thay đổi tri thức người dùng) chủ đề mà họ yêu cầu Nó đơn cho biết tồn (hoặc không tồn tại) vị trí tài liệu có liên quan tới yêu cầu người dùng Trong thực tế nghiên cứu, định nghĩa truy xuất thông tin sau [7] : Truy xuất thông tin việc tìm kiếm tài liệu trạng thái phi cấu trúc (thường văn bản) thoả mãn nhu cầu thông tin từ tập hợp lớn (thường máy chủ cục mạng) Hành động xác định rõ cốt lõi IR Hàng ngày, có hàng trăm triệu người thực truy xuất thông tin họ sử dụng máy tìm kiếm web tìm kiếm hộp thư điện tử IR nhanh chóng trở thành hình thức truy nhập thông tin vượt trội, vượt qua dạng tìm kiếm kiểu sở liệu truyền thống IR lĩnh vực khoa học máy tính chuyên lý thuyết thực hành việc tìm kiếm thông tin Do văn phương tiện phổ biến sử dụng để Footer Page 166.Thảo Trần10 Thị of Hoàng Luận văn thạc sĩ Header Page 89 of 166 89 Truy xuất thông tin Từ thực nghiệm, kết luận chương trình lập mục với tốc độ chậm Google Desktop Tuy nhiên, kích thước mục chương trình nhỏ nhiều so với Google Desktop trình lập mục chương trình chiếm tài nguyên hệ thống so với Google Desktop Điều quan trọng môđun lập mục chạy phần hệ điều hành để cập nhật lại mục có biến đổi liệu Trong đó, Google Desktop có chế tương tự chiếm nhiều tài nguyên hệ thống Ở bước tìm kiếm, thử nghiệm với nhiều câu truy vấn thuộc nhiều loại Chúng sử dụng độ đo R-Precision (với giá trị R = 10) để đánh giá kết thử nghiệm Độ xác kết trả kiểm tra thủ công Dựa vào giá trị R-Precision cho truy vấn chương trình Google Desktop, vẽ biểu đồ độ xác (Hình 4-3) để so sánh khả truy vấn chương trình với Google Desktop Hiệu R-Precision chương trình Google Desktop 0.60 0.50 0.40 Hiệu R-Precision 0.30 0.20 0.10 0.00 10 11 12 13 14 15 16 17 18 19 20 21 -0.10 -0.20 -0.30 Truy vấn Hình 4-3 Biểu đồ độ xác chương trình Google Desktop Footer Page 166.Thảo Trần89 Thị of Hoàng Luận văn thạc sĩ Header Page 90 of 166 90 Truy xuất thông tin Trong biểu đồ (Hình 4-3), trục hoành biểu diễn truy vấn theo thứ tự từ đến 21, trục tung biểu diễn hiệu R-Precision chương trình so với Google Desktop truy vấn Sự phân bổ loại truy vấn dùng để thử nghiệm thể Bảng 4-2 Bảng 4-2 Các loại truy vấn thử nghiệm Truy vấn 1-3 Kiểu truy vấn Truy vấn từ khoá Ý nghĩa Tìm kiếm tài liệu có chứa từ khoá 4-10 Truy vấn cụm từ Tìm kiếm tài liệu có chứa cụm từ 11-13 Truy vấn với toán tử OR Tìm kiếm tài liệu chứa từ khoá truy vấn 14-17 Truy vấn với toán tử AND Tìm kiếm tài liệu có chứa tất từ khoá truy vấn 18-20 Truy vấn với toán tử NOT Tìm kiếm tài liệu có chứa số từ khoá không số từ khoá khác truy vấn 21 Truy vấn theo nhóm Tìm kiếm tài liệu thoả mãn điều kiện nhóm từ khoá truy vấn Từ biểu đồ (Hình 4-3), rút nhận xét sau (tóm tắt Bảng 4-3): Footer Page 166.Thảo Trần90 Thị of Hoàng Luận văn thạc sĩ Header Page 91 of 166 91 Truy xuất thông tin • Với truy vấn kiểu từ khoá, chương trình Google Desktop cho kết tương đương truy vấn số 3, Google Desktop đưa kết tốt chút truy vấn số • Với truy vấn cụm từ, chương trình Google Desktop cho kết tương đương truy vấn số 7, 10, chương trình cho kết tốt nhiều truy vấn số 5, Google Desktop cho kết tốt chút truy vấn số 4, Bảng 4-3 So sánh hiệu truy vấn chương trình Google Desktop Kiểu truy Truy vấn vấn Truy vấn từ khoá Tốt Chương trình x x x x x x x Truy vấn với toán tử OR đương cụm từ Google Desktop x Truy vấn Tương x 10 x 11 x 12 x 13 x Truy vấn với 14 toán tử AND 15 16 Footer Page 166.Thảo Trần91 Thị of Hoàng x x x Luận văn thạc sĩ Header Page 92 of 166 92 17 Truy vấn với toán tử NOT Truy vấn theo nhóm Truy xuất thông tin x 18 19 x x 20 21 x x • Với truy vấn với toán tử OR, chương trình Google Desktop cho hiệu truy xuất tương đương truy vấn số 11, chương trình cho kết tốt truy vấn số 12 13 • Với truy vấn với toán tử AND, chương trình Google Desktop cho hiệu truy xuất tương đương truy vấn số 14 16, chương trình cho kết truy xuất tốt truy vấn số 15, Google Desktop cho hiệu cao truy vấn số 17 • Với truy vấn với toán tử NOT, chương trình Google Desktop cho hiệu truy xuất tương đương truy vấn số 18 20, chương trình cho kết tốt nhiều truy vấn số 19 • Với truy vấn dạng nhóm số 21, chương trình cho kết tốt so với Google Desktop Qua kiểm tra thủ công, nhận thấy thứ tự xếp tập kết tìm kiếm chương trình xác so với thứ tự xếp Google Desktop Ngoài ra, chương trình có khả thực truy vấn Google Desktop không hỗ trợ truy vấn theo kí tự đại diện, truy vấn có tính đến khoảng cách từ khoá, truy vấn có tính đến trọng số từ khoá Chúng xây dựng biểu đồ độ xác R-Precision (với R = 10) chương trình (Hình 4-4) Biểu đồ cho thấy hiệu truy xuất tốt chương trình, chương trình có độ xác R-Precision = với 10/21 Footer Page 166.Thảo Trần92 Thị of Hoàng Luận văn thạc sĩ Header Page 93 of 166 93 Truy xuất thông tin truy vấn Với truy vấn lại, chương trình cho độ xác cao, thấp 0.5 cao 0.9 Độ xác R-Precision chương trình 1.20 Độ xác R-Precision 1.00 0.80 0.60 0.40 0.20 0.00 10 11 12 13 14 15 16 17 18 19 20 21 19 20 21 Truy vấn Hình 4-4 Biểu đồ R-Precision chương trình (R = 10) Thời gian thực chương trình Thời gian thực Google 1.4 1.2 Thời gian (giây) 0.8 0.6 0.4 0.2 10 11 12 13 14 15 16 17 18 Truy vấn Hình 4-5 Biểu đồ so sánh thời gian thực chương trình với Google Desktop Footer Page 166.Thảo Trần93 Thị of Hoàng Luận văn thạc sĩ Header Page 94 of 166 94 Truy xuất thông tin Dựa vào số liệu thời gian thực hiện, xây dựng biểu đồ so sánh thời gian thực chương trình Google Desktop so với truy vấn (Hình 4-5) Biểu đồ cho thấy thời gian thực chương trình thường tương đương với thời gian thực Google Desktop Trong số truy vấn thời gian thực chương trình chậm Google Desktop Ngược lại, số truy vấn khác chương trình lại đưa kết nhanh so với Google Desktop Qua phân tích kết thực nghiệm, khẳng định chế lập mục chương trình tốt Google Desktop xét theo khía cạnh kích thước mục mức độ sử dụng tài nguyên hệ thống trình lập mục Về hiệu truy vấn, chương trình tương đương với Google Desktop tốc độ tìm kiếm độ xác R-Precision (xét với R = 10) kết trả Hơn nữa, thứ tự xếp kết trả chương trình xác so với thứ tự mà Google Desktop đưa Điều chứng tỏ tính hiệu cấu trúc mục mô hình xuất thông tin dựa mô hình không gian véctơ thư viện mã nguồn mở IR Lucene 4.3 Kết chương Trong chương này, trình bày số kết thực nghiệm chương trình truy xuất thông tin xây dựng dựa thư viện mã nguồn mở Lucene Kết thực nghiệm cho thấy cấu trúc mục ghép Lucene mang lại hiệu đáng kể việc tìm kiếm Đồng thời, từ kết thực nghiệm, nhận xét mô hình truy xuất thông tin dựa mô hình không gian véctơ Lucene mang lại tính xác cao tập kết tìm kiếm Footer Page 166.Thảo Trần94 Thị of Hoàng Luận văn thạc sĩ Header Page 95 of 166 95 Truy xuất thông tin CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 5.1 Kết luận Trong luận văn, trình bày bước cần thực để xây dựng hệ thống truy xuất thông tin; nghiên cứu so sánh kỹ thuật lập mục mô hình truy xuất thông tin; trình bày chế lập mục Inverted Files mô hình truy xuất thông tin dựa mô hình không gian véctơ thư viện mã nguồn mở Lucene; xây dựng chương trình tìm kiếm thông tin dựa Lucene Cụ thể: Chúng trình bày bước trình truy xuất thông tin, bao gồm hai giai đoạn tiền xử lý tài liệu thu thập thông tin Chúng trình bày phương pháp đánh giá hiệu truy xuất theo hai hướng tiếp cận hướng mô hình tiếp cận đánh giá lấy người dùng làm trung tâm Chúng trình bày so sánh hai cấu trúc mục Signature Files Inverted Files Chúng so sánh hướng tiếp cận truy xuất thông tin mô hình lôgíc, mô hình đại số mô hình xác suất Chúng tập trung nghiên cứu chế lập mục tìm kiếm thư viện mã nguồn mở IR Lucene Cuối cùng, xây dựng chương trình thử nghiệm dựa Lucene để kiểm nghiệm đánh giá hiệu cấu trúc mục Inverted Files mô hình không gian véctơ Lucene Chúng thực thử nghiệm chương trình nhiều lần với nhiều truy vấn khác Đồng thời dùng Google Desktop để thử nghiệm với truy vấn điều kiện Kết thử nghiệm cho thấy chương trình có tốc độ lập mục chậm Google Desktop kích thước thư mục mục nhỏ Footer Page 166.Thảo Trần95 Thị of Hoàng Luận văn thạc sĩ Header Page 96 of 166 96 Truy xuất thông tin nhiều so với Google Desktop chiếm tài nguyên hệ thống trình lập mục Tốc độ tìm kiếm độ xác R-Precsion (với R = 10) chương trình tương đương với Google Desktop Thứ tự tập kết trả chương trình xác so với thứ tự tập kết mà Google Desktop trả Xét cách tổng thể phạm vi thử nghiệm luận văn chương trình có hiệu hoạt động cao Google Desktop 5.2 Hướng phát triển luận văn Hoàn thiện chương trình tìm kiếm thông tin chương để sử dụng thực tiễn tìm kiếm thông tin desktop, tìm kiếm thông tin mạng intranet, tìm kiếm thông tin web Hiện tại, luận văn dừng lại việc tìm kiếm thông tin tập tài liệu mang nội dung tiếng Anh Bởi vậy, hướng phát triển luận văn nghiên cứu kỹ thuật mở rộng chương trình để tìm kiếm tài liệu mang nội dung tiếng Việt Tiếng Việt có đặc điểm riêng cấu tạo từ, cấu trúc ngữ pháp Vì cần có cải tiến việc phân tích từ vựng Chúng đề xuất hướng nghiên cứu dựa KStemmer (còn gọi Krovetz Stemmer) để giải vấn đề Kstemmer giải thuật lấy gốc từ phát triển Bob Krovetz, trường đại học University of Massachusetts, năm 1993 Giải thuật sử dụng hình thái học ngôn ngữ biến tố (inflectional linguistic morphology) Hình thái học biến tố mô tả biến đổi dự đoán từ diễn cú pháp (hình thức số nhiều sở hữu danh từ, hình thức khứ tiếp diễn động từ trường hợp thường gặp tiếng Anh) Kstemmer loại bỏ cách hiệu xác hậu tố theo ba bước : biến đổi dạng số nhiều thành dạng số ít, biến đổi khứ thành tại, loại bỏ dạng đuôi ‘ing’ Quá trình biến đổi trước hết loại bỏ tiền tố, qua trình kiểm tra từ điển để Footer Page 166.Thảo Trần96 Thị of Hoàng Luận văn thạc sĩ Header Page 97 of 166 97 Truy xuất thông tin tìm ghi có, trả gốc từ Kstemmer phù hợp với ngôn ngữ có hình thái từ đa dạng tiếng Việt Do đó, đề xuất hướng nghiên cứu, cải tiến Kstemmer để áp dụng cho toán truy xuất thông tin tập tài liệu mang nội dung tiếng Việt Luận văn bước khởi đầu để tác giả làm quen nghiên cứu toán truy xuất thông tin Tác giả mong muốn cộng tác với người quan tâm lĩnh vực để nghiên cứu giải toán, đặc biệt toán tìm kiếm tài liệu tiếng Việt Footer Page 166.Thảo Trần97 Thị of Hoàng Luận văn thạc sĩ Header Page 98 of 166 98 Truy xuất thông tin TÀI LIỆU THAM KHẢO [1] Ricardo Baeza-Yates, Berthier Ribeiro-Neto (1999), Modern Information Retrieval, Addison Wesley, New York [2] Eva Ericsson (2005), User-Centered Evaluation of a Information Retrieval System, Master’s thesis, Uppsala University, Uppsala [3] Ed Greengrass (2000), Information Retrieval-A Survey [4] Erik Hatcher, Otis Gospodnetic (2005), Lucene In Action, Manning Publications Co, Greenwich [5] Diana Inkpen (2006), Information Retrieval on the Internet, Volume III (Part 3), 213 [6] Wessel Kraaij (2004), Variations on Language Modeling for Information Retrieval, Phd thesis, Enschede [7] Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze (2006), An Introduction to Information Retrieval, Cambridge University Press, Cambridge [8] Tom Noda, Shawn Helwig (2005), Benchmark Study of Desktop Search Tools, UW E-Business Consortium, University of Wisconsin-Madison [9] Sunanda Patro (2005), Synthesising Web Search Queries from Example Text Documents, Master’s thesis, University of Tasmania, Hobart [10] Justin Picard (2000), Probabilistic Argumentation Systems Applied to Information Retrieval, Phd thesis, Neuchâtel [11] Zhanzi Qiu (2004), Hyperstructure-Based Search Methods for the World Wide Web, Master’s thesis, Technischen Universität Darmstadt, Darmstadt Footer Page 166.Thảo Trần98 Thị of Hoàng Luận văn thạc sĩ Header Page 99 of 166 99 Truy xuất thông tin [12] van Rijsbergen, C J (1979), Information Retrieval, 2nd edition, Butterworths, Lodon [13] Christian Safran (2005), A Concept-Based Information Retrieval Approach for User-oriented Knowledge Transfer, Master’s thesis, Graz University of Technology, Graz Footer Page 166.Thảo Trần99 Thị of Hoàng Luận văn thạc sĩ Header Page 100 of 166 100 Truy xuất thông tin TÀI LIỆU THAM KHẢO CHÉO [14] American Society of Indexers (2005), AMERICAN SOCIETY OF INDEXERS: How Information Retrieval Started (Trong [13] , trang 16,17) [15] Clarke, C L., Cormack, G V., & Tudhope, E A (1997), “Relevance ranking for one to three term queries”, in Devroye, L., & Chrisment, C., editors, Proceedings of RIAO’97, 388–400 (Trong [6] , trang 29) [16] Cooper, WS (1988), “Getting beyond Boole”, Information Processing and Management, Vol.24, no.3, pp.243-248 (Trong [9] , trang 7) [17] Fuhr, N (1992), “Probabilistic models in information retrieval”, The Computer Journal, 35(3), 233–245 (Trong [6] ) [18] Kobayashi, M and Takeda, K (2000), “Information retrieval on the web”, ACM Computing Surveys, Vol.32, no.2, pp.144-173.(Trong [9] , trang 8) [19] Lancaster, F W (1968), Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley, New York (Trong [2] , trang 3) [20] Maron, ME and Kuhns, JL (1960), “On relevance, probabilistic indexing and information retrieval”, Journal of the Association for Computing Machinery, Vol.7, pp.216-244 (Trong [9] , trang 9) [21] Ruthven, I and Lalmas, M (2003), “A survey on the use of relevance feedback for information systems”, Knowledge engineering Review, Vol.18, no.2, pp 95-145.(Trong [9] , trang 8) [22] Salton, G (1971), The SMART retrieval system: experiments in automatic documentprocessing, Prentice-Hall, Englewood Cliffs (Trong [11] , trang 12) Footer Page of 166 Trần100 Thị Hoàng Thảo Luận văn thạc sĩ Header Page 101 of 166 101 Truy xuất thông tin [23] Salton, G and Gill, M (1983), Introduction to modern information retrieval, Mc.Graw Hill, New York, p448 (Trong [11] , trang 12) [24] Salton, G., & Buckley, C (1988), “Term-weighting approaches in automatic text retrieval”, Information Processing & Management, 24(5),513–523.(Trong [6] , trang 28) [25] Salton, G (1989), Automatic text processing – the transformation, analysis and retrieval of information by computer, AddisonWesley, Reading, MA (Trong [11] , trang 12) [26] Scott Deerwester, Susan T Dumais, Thomas K Landauer, George W Furnas, and Richard Harshman (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6):391-407 (Trong [5] ) [27] F Sebastiani (1998), “On the role of logic in information retrieval”, Information Processing and Management, 34(1):1–18 (Trong [Justin Picard, 2000], trang 10) [28] Singhal, A and Salton, G 1995 ,”Automatic Text Browsing Using Vector space Model”, Proceedings of the Dual-Use Technologies and Applications Conference, pp.318-324 (Trong [9] , trang 8) [29] Singhal, A (2001), “Modern Information Retrieval: A Brief Overview”, IEEE Data Eng Bull, Vol.24, no.4, pp.35-43 (Trong [9] , trang 12) [30] Wong, S K M., Ziarko, W., Raghavan, V V., & Wong, P C N (1986), “On extending the vector space model for boolean query processing”, In Proceedings of the 9th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’86), pp 175–185 ACM Press (Trong [6] , trang 39) Footer Page of 166 Trần101 Thị Hoàng Thảo Luận văn thạc sĩ Header Page 102 of 166 102 Truy xuất thông tin [31] Wong, S K M., Ziarko, W., Raghavan, V V., & Wong, P C N (1987), “On modeling of information retrieval concepts in vector space”, TODS, 12(2),299–321 (Trong [6] , trang 39) [32] Yang, K (2002), Combining Text-, Link-, and Classification-based Retrieval Methods to Enhance Information Discovery on the Web, PhD thesis, University of North Carolina, p18 (Trong [9] , trang 10) [33] Zadeh, L A (1965), “Fuzzy sets”, Information and Control, 8,338– 353 (Trong [6] , trang 29) Footer Page of 166 Trần102 Thị Hoàng Thảo Luận văn thạc sĩ Header Page 103 of 166 103 Truy xuất thông tin TÓM TẮT LUẬN VĂN Trong luận văn, trình bày bước cần thực để xây dựng hệ thống truy xuất thông tin, bao gồm hai giai đoạn tiền xử lý tài liệu thu thập thông tin Chúng nghiên cứu so sánh kỹ thuật lập mục hướng tiếp cận truy xuất thông tin, bao gồm mô hình lôgíc, mô hình đại số mô hình xác suất Chúng nghiên cứu trình bày chế lập mục mô hình truy xuất thông tin thư viện mã nguồn mở Lucene Cuối cùng, xây dựng chương trình thử nghiệm dựa Lucene để kiểm nghiệm đánh giá hiệu cấu trúc mục Inverted Files mô hình không gian véctơ Lucene Các từ khoá: truy xuất thông tin, lập mục, xếp hạng, Inverted Files, mô hình không gian véctơ Footer Page of 166 Trần103 Thị Hoàng Thảo Luận văn thạc sĩ ... lên buộc thủ thư thư viện Alexandria phải nghĩ cách tổ chức tác phẩm, vào kỷ thứ trước Công nguyên Mục lục ví dụ khác công cụ ban đầu IR, trở nên thiết yếu mà tác phẩm văn học gia tăng theo số... thông tin máy tính mạng máy tính cá nhân tổ chức gia tăng Đáp ứng với nhu cầu đó, hệ công cụ tìm kiếm máy tính phát triển mạnh mẽ Trong luận văn, xây dựng thử nghiệm hệ thống truy xuất thông tin... hiệu quả: tiêu chí đánh giá hiệu kỹ thuật công cụ bao gồm việc sửa dụng nhớ, thời gian lập mục hay kích thước mục Công cụ tốt công cụ không gây ảnh hưởng tới hiệu suất hoạt động máy tính Chúng

Ngày đăng: 19/03/2017, 09:04

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC BẢNG

  • DANH MỤC HÌNH

  • MỞ ĐẦU

  • CHƯƠNG 1. TỔNG QUAN VỀ TRUY XUẤT THÔNG TIN

    • 1.1. Khái niệm truy xuất thông tin

    • 1.2. Quá trình truy xuất thông tin

      • 1.2.1. Giai đoạn tiền xử lý

        • 1.2.1.1. Tiền xử lý tài liệu

          • Phân tích từ vựng

          • Loại bỏ từ dừng

          • Lấy gốc từ

          • 1.2.1.2. Lập chỉ mục

          • 1.2.2. Giai đoạn thu thập

            • 1.2.2.1. Xử lý truy vấn

            • 1.2.2.2. Tìm kiếm

            • 1.2.2.3. Xếp hạng

            • 1.2.2.4. Phản hồi về độ liên quan

            • 1.3. Các hướng tiếp cận giải quyết bài toán truy xuất thông tin

            • 1.4. Đánh giá hiệu quả truy xuất thông tin

              • 1.4.1. Độ chính xác và độ bao phủ

              • 1.4.2. Độ chính xác trung bình

              • 1.4.3. Độ đo F và độ đo E

Tài liệu cùng người dùng

Tài liệu liên quan