1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ thống trợ giúp tìm kiếm thông tin

112 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 112
Dung lượng 3,23 MB

Nội dung

Vũ thị việt giáo dục đào tạo trờng đại học bách khoa hà nội - luận văn thạc sĩ khoa học công nghệ thông tin ngành : công nghệ thông tin Hệ thống trợ giúp tìm kiếm thông tin Vũ thị việt 2007 - 2009 Hà Nội 2009 Hµ Néi - 2009 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205164111000000 giáo dục đào tạo trờng đại học bách khoa hà nội - luận văn thạc sĩ khoa học Hệ thống trợ giúp tìm kiếm thông tin ngành : công nghệ thông tin Vũ thị viƯt Ngêi híng dÉn khoa häc : pgs Ts ngun thđy Hµ Néi - 2009 MỤC LỤC LỜI CAM ĐOAN DANH MỤC HÌNH VẼ VÀ BẢNG DANH MỤC THUẬT NGỮ Chương GIỚI THIỆU 0.1 Đặt vấn đề 0.2 Mục tiêu 0.3 Bố cục nội dung luận văn Chương TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1 Giới thiệu hệ thống tìm kiếm thơng tin 1.1.1 Định nghĩa hệ thống tìm kiếm thơng tin 1.1.2 Mục tiêu hệ thống tìm kiếm thơng tin 1.2 Các tiêu chí đánh giá hệ thống tìm kiếm thông tin 11 1.3 Các chức hệ thống tìm kiếm thơng tin 13 1.3.1 Chức tìm kiếm 13 1.3.1.1 Logic Boolean 14 1.3.1.2 Xác định mức độ gần gũi 14 1.3.1.3 Mệnh đề từ gần 15 1.3.1.4 Tìm kiếm mờ 16 1.3.1.5 Che giấu thuật ngữ 16 1.3.1.6 Các lĩnh vực số ngày tháng 17 1.3.1.7 Mở rộng khái niệm từ điển đồng nghĩa 17 1.3.1.8 Các truy vấn ngôn ngữ tự nhiên .19 1.3.2 Chức duyệt 21 1.3.2.1 Xếp hạng 21 1.3.2.2 Phân vùng .22 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 1.3.2.3 Đánh dấu 23 1.4 Kỹ thuật đánh mục 23 1.4.1 Mục đích việc đánh mục 23 1.4.2 Đánh mục tự động 25 1.4.2.1 Đánh mục thuật ngữ 26 1.4.2.2 Đánh mục khái niệm 28 1.4.3 1.5 Mơ hình Latent Semantic Indexing (LSI) 28 Các cấu trúc liệu thường sử dụng hệ thống tìm kiếm thông tin 32 1.5.1 Giới thiệu cấu trúc liệu 32 1.5.2 Các thuật toán lấy gốc từ 33 1.5.2.1 Giới thiệu trình stemming 33 1.5.2.2 Thuật toán Porter Stemming 34 1.5.2.3 Stemmer tra cứu từ điển 35 1.5.2.4 Stemmer kế thừa .36 1.5.3 Cấu trúc file nghịch đảo 39 1.5.4 Cấu trúc liệu N-Grams 42 1.5.5 Cấu trúc liệu PAT (Patricia Trees) 44 1.5.6 Cấu trúc liệu siêu văn XML 48 1.5.7 Mô hình Markov ẩn 48 1.6 Các kỹ thuật tìm kiếm hướng người dùng 52 1.6.1 Các câu lệnh tìm kiếm ràng buộc 52 1.6.2 Độ tương tự xếp hạng 53 1.6.2.1 Độ tương tự 54 1.6.2.2 Các kỹ thuật mơ hình Markov ẩn 55 1.6.2.3 Thuật toán xếp hạng .55 1.6.3 Phản hồi thông tin liên quan 57 Chương 59 MỘT SỐ PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU TRONG CÁC HỆ THỐNG TÌM KIẾM THƠNG TIN 59 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 2.1 Mơ hình Boolean (Boolean Model) 60 2.2 Mơ hình khơng gian vector (Vector Space Model) 62 2.2.1 Mơ hình Boolean 63 2.2.2 Mơ hình tần suất (Term Frequency - TF) 63 2.2.3 Mơ hình nghịch đảo tần số văn (Inverse Document Frequency - IDF) 63 2.2.4 Mơ hình kết hợp TFxIDF 64 2.2.5 Áp dụng phương pháp vector thưa biểu diễn văn 64 2.3 Mơ hình xác suất (Probabilistic Model) 65 2.4 Mơ hình tập mờ (Fuzzy Set Model) 67 2.4.1 Lý thuyết tập mờ FS 67 2.4.2 Biểu diễn văn dựa khái niệm mờ 68 2.5 Mơ hình tập thơ (Rough Set Model) 70 2.5.1 Giới thiệu lý thuyết tập thơ mơ hình tập thơ dung sai 70 2.5.2 Ứng dụng mơ hình tập thơ tốn tìm kiếm thơng tin 72 Chương 74 HỆ THỐNG TRỢ GIÚP TÌM KIẾM THÔNG TIN 74 3.1 Giới thiệu 74 3.2 Quá trình phát triển hệ tìm kiếm 76 3.2.1 Quá trình phát triển từ hệ tìm kiếm liệu (DRS) lên hệ tìm kiếm thông tin (IRS) 76 3.2.2 3.3 Quá trình phát triển từ IRS lên IRSS 78 Các vấn đề hệ thống trợ giúp tìm kiếm thơng tin 80 3.3.1 Khái niệm hệ thống trợ giúp tìm kiếm IRSS 80 3.3.2 Đặc điểm IRSS 80 3.3.3 Các thành phần IRSS 83 3.3.4 Các lĩnh vực liên quan đến IRSS 84 3.4 Các kỹ thuật trợ giúp người dùng 85 3.4.1 Gợi ý thuật ngữ tới người dùng 85 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 3.4.1.1 Phương thức hỗ trợ tìm kiếm thơng tin 87 3.4.1.2 Kỹ thuật mở rộng truy vấn .89 3.4.1.3 Quá trình xếp hạng tài liệu tìm kiếm .90 3.4.2 Một số chức nâng cao khác 92 Chương 93 MƠ TẢ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 93 4.1 Mô tả thuật toán Knuth-Morris-Pratt 93 4.4.2 Tư tưởng thuật toán .93 4.1.2 Phát biểu thuật toán 94 4.1.3 Nhận xét thuật toán 95 4.2 Giới thiệu chương trình 95 4.2.1 Phương pháp tìm kiếm 95 4.2.2 Giao diện chương trình 96 4.3 Thực nghiệm khả chương trình 99 4.3.1 Điều kiện thực nghiệm 99 4.3.2 Kết thực nghiệm 99 4.4 Nhận xét kết thực nghiệm 101 Chương 101 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .102 5.1 Kết luận chung 102 5.1.1 Những kết đạt 102 5.1.2 Những khó khăn tồn 102 5.2 Hướng phát triển 103 TÀI LIỆU THAM KHẢO Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 104 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Hệ thống trợ giúp tìm kiếm thơng tin” thực hiện, hướng dẫn PGS TS Nguyễn Thanh Thuỷ - Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội Các kết nghiên cứu trình bày luận văn hồn tồn trung thực Mọi trích dẫn tài liệu tham khảo sử dụng luận văn rõ nguồn gốc Hà nội, ngày 22 tháng 10 năm 2009 Tác giả luận văn Vũ Thị Việt Thanh Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh DANH MỤC HÌNH VẼ VÀ BẢNG Hình 1.1: Mơ hình hệ thống tìm kiếm thơng tin Hình 1.2 : Minh họa độ xác gọi lại 13 Hình 1.3: Sự sử dụng phép toán Boolean 14 Hình 1.4: Cách sử dụng che giấu thuật ngữ .17 Hình 1.5: Các từ đồng nghĩa với thuật ngữ “computer” 19 Hình 1.6: Cấu trúc lớp khái niệm phân cấp “computer” 19 Hình 1.7: Mạng Bayesian mức .27 Hình 1.8: Hệ số k tập liệu mẫu 31 Hình 1.9: Biểu diễn ma trận xấp xỉ A k có hạng k 31 Hình 1.10: Giải thuật k-means áp dụng cho hệ IR 32 Hình 1.11: Các cấu trúc liệu 33 Hình 1.12: Cây biểu tượng thuật ngữ bag, barn, bring, box, bottle, both 38 Hình 1.13: Các Stemming kế thừa 38 Hình 1.14: Cấu trúc file nghịch đảo 40 Hình 1.15: Bigrams, Trigrams, Pentagrams “sea colony” .42 Hình 1.16: Các loại lỗi tả 43 Hình 1.17: Các ví dụ xâu bán vô hạn .45 Hình 1.18: Các xâu bán vơ hạn xâu đầu vào “100110001101” 46 Hình 1.19: Cây nhị phân PAT với đầu vào “100110001101” 47 Hình 1.20: Cây nhị phân PAT bỏ qua bit với đầu vào “100110001101” 47 Hình 1.21: Các ví dụ ràng buộc truy vấn .53 Bảng 2.1: Đặc điểm số mơ hình tìm kiếm thơng tin 59 Hình 2.1: Ma trận ảnh hưởng thuật ngữ – tài liệu 61 Hình 2.2: Biểu diễn vector văn khơng gian có thuật ngữ 62 Bảng 2-2: Ví dụ biểu diễn vector thưa 65 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh DANH MỤC THUẬT NGỮ STT Từ viết tắt Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt CSDL Database Cơ sở liệu DR Data Retrieval Tìm kiếm liệu DRS Data Retrieval System Hệ thống tìm kiếm liệu DSS Decision Support System Hệ hỗ trợ định DBMS Database Management System Hệ quản trị sở liệu HMM Hiden Markov Model Mơ hình Markov ẩn HTML Ngơn ngữ đánh dấu siêu văn HTTKTT Hypertext Markup Language Information Retrieval System HTTT Information System Hệ thống thông tin 10 IDF Inverse Document Frequency Nghịch đảo tần số văn 11 IR Information Retrieval Tìm kiếm thơng tin 12 IRS 13 IRSS 14 MBMS 15 PAT PAtricia Trees Cấu trúc liệu PAT 16 TF Term Frequency Tần suất xuất thuật ngữ 17 XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng Information Retrieval System Information Retrieval Support System Model Base Management System Hệ thống tìm kiếm thơng tin Hệ thống tìm kiếm thơng tin Hệ thống trợ giúp tìm kiếm thơng tin Hệ quản trị sở mơ hình Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh

Ngày đăng: 22/01/2024, 16:52

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w