Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 112 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
112
Dung lượng
1,65 MB
Nội dung
Vũ thị việt giáo dục đào tạo trường đại học bách khoa hà nội - luận văn thạc sĩ khoa học công nghệ thông tin ngành : công nghệ thông tin Hệ thống trợ giúp tìm kiếm thông tin Vũ thị việt 2007 - 2009 Hà Nội 2009 Hà Nội - 2009 giáo dục đào tạo trường đại học bách khoa hà nội - luận văn thạc sĩ khoa học Hệ thống trợ giúp tìm kiếm thông tin ngành : công nghệ thông tin Vũ thị viƯt Ngêi híng dÉn khoa häc : pgs Ts ngun thđy Hµ Néi - 2009 MỤC LỤC LỜI CAM ĐOAN DANH MỤC HÌNH VẼ VÀ BẢNG DANH MỤC THUẬT NGỮ Chương GIỚI THIỆU 0.1 Đặt vấn đề 0.2 Mục tiêu 0.3 Bố cục nội dung luận văn Chương TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1 Giới thiệu hệ thống tìm kiếm thông tin 1.1.1 Định nghĩa hệ thống tìm kiếm thơng tin 1.1.2 Mục tiêu hệ thống tìm kiếm thơng tin 1.2 Các tiêu chí đánh giá hệ thống tìm kiếm thơng tin 11 1.3 Các chức hệ thống tìm kiếm thơng tin 13 1.3.1 Chức tìm kiếm 13 1.3.1.1 Logic Boolean 14 1.3.1.2 Xác định mức độ gần gũi 14 1.3.1.3 Mệnh đề từ gần 15 1.3.1.4 Tìm kiếm mờ 16 1.3.1.5 Che giấu thuật ngữ 16 1.3.1.6 Các lĩnh vực số ngày tháng 17 1.3.1.7 Mở rộng khái niệm từ điển đồng nghĩa 17 1.3.1.8 Các truy vấn ngôn ngữ tự nhiên .19 1.3.2 Chức duyệt 21 1.3.2.1 Xếp hạng 21 1.3.2.2 Phân vùng .22 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 1.3.2.3 Đánh dấu 23 1.4 Kỹ thuật đánh mục 23 1.4.1 Mục đích việc đánh mục 23 1.4.2 Đánh mục tự động 25 1.4.2.1 Đánh mục thuật ngữ 26 1.4.2.2 Đánh mục khái niệm 28 1.4.3 1.5 Mơ hình Latent Semantic Indexing (LSI) 28 Các cấu trúc liệu thường sử dụng hệ thống tìm kiếm thơng tin 32 1.5.1 Giới thiệu cấu trúc liệu 32 1.5.2 Các thuật toán lấy gốc từ 33 1.5.2.1 Giới thiệu trình stemming 33 1.5.2.2 Thuật toán Porter Stemming 34 1.5.2.3 Stemmer tra cứu từ điển 35 1.5.2.4 Stemmer kế thừa .36 1.5.3 Cấu trúc file nghịch đảo 39 1.5.4 Cấu trúc liệu N-Grams 42 1.5.5 Cấu trúc liệu PAT (Patricia Trees) 44 1.5.6 Cấu trúc liệu siêu văn XML 48 1.5.7 Mơ hình Markov ẩn 48 1.6 Các kỹ thuật tìm kiếm hướng người dùng 52 1.6.1 Các câu lệnh tìm kiếm ràng buộc 52 1.6.2 Độ tương tự xếp hạng 53 1.6.2.1 Độ tương tự 54 1.6.2.2 Các kỹ thuật mơ hình Markov ẩn 55 1.6.2.3 Thuật toán xếp hạng .55 1.6.3 Phản hồi thông tin liên quan 57 Chương 59 MỘT SỐ PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU TRONG CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN 59 Hệ thống trợ giúp tìm kiếm thông tin – Vũ Thị Việt Thanh 2.1 Mô hình Boolean (Boolean Model) 60 2.2 Mơ hình khơng gian vector (Vector Space Model) 62 2.2.1 Mơ hình Boolean 63 2.2.2 Mơ hình tần suất (Term Frequency - TF) 63 2.2.3 Mơ hình nghịch đảo tần số văn (Inverse Document Frequency - IDF) 63 2.2.4 Mơ hình kết hợp TFxIDF 64 2.2.5 Áp dụng phương pháp vector thưa biểu diễn văn 64 2.3 Mơ hình xác suất (Probabilistic Model) 65 2.4 Mơ hình tập mờ (Fuzzy Set Model) 67 2.4.1 Lý thuyết tập mờ FS 67 2.4.2 Biểu diễn văn dựa khái niệm mờ 68 2.5 Mơ hình tập thơ (Rough Set Model) 70 2.5.1 Giới thiệu lý thuyết tập thơ mơ hình tập thô dung sai 70 2.5.2 Ứng dụng mô hình tập thơ tốn tìm kiếm thơng tin 72 Chương 74 HỆ THỐNG TRỢ GIÚP TÌM KIẾM THƠNG TIN 74 3.1 Giới thiệu 74 3.2 Quá trình phát triển hệ tìm kiếm 76 3.2.1 Quá trình phát triển từ hệ tìm kiếm liệu (DRS) lên hệ tìm kiếm thơng tin (IRS) 76 3.2.2 3.3 Quá trình phát triển từ IRS lên IRSS 78 Các vấn đề hệ thống trợ giúp tìm kiếm thơng tin 80 3.3.1 Khái niệm hệ thống trợ giúp tìm kiếm IRSS 80 3.3.2 Đặc điểm IRSS 80 3.3.3 Các thành phần IRSS 83 3.3.4 Các lĩnh vực liên quan đến IRSS 84 3.4 Các kỹ thuật trợ giúp người dùng 85 3.4.1 Gợi ý thuật ngữ tới người dùng 85 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 3.4.1.1 Phương thức hỗ trợ tìm kiếm thông tin 87 3.4.1.2 Kỹ thuật mở rộng truy vấn .89 3.4.1.3 Quá trình xếp hạng tài liệu tìm kiếm .90 3.4.2 Một số chức nâng cao khác 92 Chương 93 MÔ TẢ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 93 4.1 Mơ tả thuật tốn Knuth-Morris-Pratt 93 4.4.2 Tư tưởng thuật toán 93 4.1.2 Phát biểu thuật toán 94 4.1.3 Nhận xét thuật toán 95 4.2 Giới thiệu chương trình 95 4.2.1 Phương pháp tìm kiếm 95 4.2.2 Giao diện chương trình 96 4.3 Thực nghiệm khả chương trình 99 4.3.1 Điều kiện thực nghiệm 99 4.3.2 Kết thực nghiệm 99 4.4 Nhận xét kết thực nghiệm 101 Chương 101 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .102 5.1 Kết luận chung 102 5.1.1 Những kết đạt 102 5.1.2 Những khó khăn cịn tồn 102 5.2 Hướng phát triển 103 TÀI LIỆU THAM KHẢO Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 104 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Hệ thống trợ giúp tìm kiếm thông tin” thực hiện, hướng dẫn PGS TS Nguyễn Thanh Thuỷ - Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội Các kết nghiên cứu trình bày luận văn hồn tồn trung thực Mọi trích dẫn tài liệu tham khảo sử dụng luận văn rõ nguồn gốc Hà nội, ngày 22 tháng 10 năm 2009 Tác giả luận văn Vũ Thị Việt Thanh Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh DANH MỤC HÌNH VẼ VÀ BẢNG Hình 1.1: Mơ hình hệ thống tìm kiếm thơng tin Hình 1.2 : Minh họa độ xác gọi lại 13 Hình 1.3: Sự sử dụng phép toán Boolean 14 Hình 1.4: Cách sử dụng che giấu thuật ngữ .17 Hình 1.5: Các từ đồng nghĩa với thuật ngữ “computer” 19 Hình 1.6: Cấu trúc lớp khái niệm phân cấp “computer” 19 Hình 1.7: Mạng Bayesian mức .27 Hình 1.8: Hệ số k tập liệu mẫu 31 Hình 1.9: Biểu diễn ma trận xấp xỉ Ak có hạng k 31 Hình 1.10: Giải thuật k-means áp dụng cho hệ IR 32 Hình 1.11: Các cấu trúc liệu 33 Hình 1.12: Cây biểu tượng thuật ngữ bag, barn, bring, box, bottle, both 38 Hình 1.13: Các Stemming kế thừa 38 Hình 1.14: Cấu trúc file nghịch đảo 40 Hình 1.15: Bigrams, Trigrams, Pentagrams “sea colony” .42 Hình 1.16: Các loại lỗi tả 43 Hình 1.17: Các ví dụ xâu bán vơ hạn 45 Hình 1.18: Các xâu bán vô hạn xâu đầu vào “100110001101” 46 Hình 1.19: Cây nhị phân PAT với đầu vào “100110001101” 47 Hình 1.20: Cây nhị phân PAT bỏ qua bit với đầu vào “100110001101” 47 Hình 1.21: Các ví dụ ràng buộc truy vấn .53 Bảng 2.1: Đặc điểm số mô hình tìm kiếm thơng tin 59 Hình 2.1: Ma trận ảnh hưởng thuật ngữ – tài liệu 61 Hình 2.2: Biểu diễn vector văn không gian có thuật ngữ 62 Bảng 2-2: Ví dụ biểu diễn vector thưa 65 Hệ thống trợ giúp tìm kiếm thông tin – Vũ Thị Việt Thanh DANH MỤC THUẬT NGỮ STT Từ viết tắt Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt CSDL Database Cơ sở liệu DR Data Retrieval Tìm kiếm liệu DRS Data Retrieval System Hệ thống tìm kiếm liệu DSS Decision Support System Hệ hỗ trợ định DBMS Database Management System Hệ quản trị sở liệu HMM Hiden Markov Model Mơ hình Markov ẩn HTML Ngôn ngữ đánh dấu siêu văn HTTKTT Hypertext Markup Language Information Retrieval System Hệ thống tìm kiếm thơng tin HTTT Information System Hệ thống thông tin 10 IDF Inverse Document Frequency Nghịch đảo tần số văn 11 IR Information Retrieval Tìm kiếm thơng tin 12 IRS Hệ thống tìm kiếm thơng tin 13 IRSS 14 MBMS Information Retrieval System Information Retrieval Support System Model Base Management System 15 PAT PAtricia Trees Cấu trúc liệu PAT 16 TF Term Frequency Tần suất xuất thuật ngữ 17 XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng Hệ thống trợ giúp tìm kiếm thơng tin Hệ quản trị sở mơ hình Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 91 với chủ đề cách thực tìm kiếm NTCIR Test-collection1(được xây dựng từ khoảng 330000 tóm tắt báo) • Kết thí nghiệm Người dùng đánh giá hệ thống cách chọn bốn phương án, “1 Hệ thống hữu ích”, “2 Hệ thống hữu ích”, “3 Hệ thống hữu ích”, “4 Hệ thống khơng có ích” Kết tất người dùng chọn phương án So sánh thời gian trung bình đối tượng lựa chọn tài liệu liên quan đến chủ đề cách sử dụng chức gợi ý thuật ngữ với thời gian trung bình khơng sử dụng chức Kết Thời gian sử dụng (giây) thể hình sau: Số lượng tài liệu lựa chọn Trường hợp sử dụng chức gợi ý thuật ngữ Trường hợp không sử dụng chức gợi ý thuật ngữ Hệ thống trợ giúp tìm kiếm thông tin – Vũ Thị Việt Thanh 92 3.4.2 Một số chức nâng cao khác Ngồi chế độ tìm kiếm thơng thường, hầu hết máy tìm kiếm hỗ trợ chức nâng cao mà dòng liên kết thường viết cụm từ "Advanced search", hay đơn giản "Advanced" Trong chế độ này, tìm kiếm hướng dẫn chi tiết Đặc điểm chung chế độ nâng cao là: • Giao diện thêm vào nhiều khung chữ hay ô trống (text box) có dịng hướng dẫn để tiện cho người dùng điền vào Không thiết phải điền hết tất khung chữ khung điền cách nhiều chi tiết giúp cho máy tìm kiếm làm việc hiệu • Đa số máy tìm kiếm cho lựa chọn theo thông tin như: − Lựa chọn ngôn ngữ Cho đến có số máy truy tìm sau cho phép tìm riêng trang tiếng Việt − Lựa chọn ngày tháng trang Web − Lựa chọn kiểu tệp (file type) − Lọc bỏ nội dung dành riêng cho người lớn Có thể sử dụng phép toán AND, OR, NOT sử dụng ký tự thay nêu chương trước để nâng cao phép truy tìm Tuy nhiên, người dùng nên cẩn thận kết chịu ảnh hưởng nhiều điều kiện khác Hệ thống trợ giúp tìm kiếm thông tin – Vũ Thị Việt Thanh 93 Chương MƠ TẢ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM Sau cài đặt thành công chức cần thiết chương trình, phần tổng kết sau giới thiệu qua giao diện chương trình demo, đồng thời đưa kết thực nghiệm để kiểm nghiệm đánh giá lại vấn đề lý thuyết nêu chương trước 4.1 Mơ tả thuật tốn Knuth-Morris-Pratt: 4.4.2 Tư tưởng thuật toán: Tư tưởng thuật toán Knuth-Morris-Pratt thay so sánh mẫu (câu truy vấn tìm kiếm) với vị trí văn tập tài liệu, ta dựa vào ký tự biết trước mẫu để giảm số phép so sánh Cụ thể, phát có khơng ăn khớp ta tìm cách dịch chuyển với số đơn vị lớn Điều thực tùy thuộc vào mẫu, ví dụ mẫu có dạng xâu nhị phân đặc biệt 10000000 (ký tự mẫu xuất lần) Giả sử có xâu khởi đầu dài k ký tự (tức k ký tự mẫu khớp với đoạn văn bản) Như vậy, ký tự thứ j = k + khơng khớp ta biết k ký tự trước mẫu khớp rồi; điều có nghĩa k ký tự có dạng mẫu văn 100 Rõ ràng, ta so sánh ký tự thứ mẫu (là 1) với k − ký tự văn bản, hay nói cách khác dịch chuyển mẫu sang phải k đơn vị (gán lại j = i giữ nguyên) để so sánh tiếp ký tự mẫu với ký tự thứ i văn Tuy nhiên, thực tế không xảy trường hợp đặc biệt thuật tốn Knuth-Morris-Pratt tổng q hóa từ tư tưởng Một điều đáng ý ta ln ln xếp cho trỏ i không bị giảm Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 94 4.1.2 Phát biểu thuật toán: Trước hết ta cần xây dựng mảng next[1 M] để xác định xem phải dự phòng khoảng phát không ăn khớp Dịch chuyển (j − 1) ký tự mẫu từ trái sang phải; ký tự ký tự thứ hai mẫu dừng lại ký tự gối khớp khơng có ký tự khớp Khoảng cách để dự phòng mẫu next[j] xác định xác số ký tự gối khớp + Đặc biệt, với số j > giá trị next[j] số k lớn mà nhỏ j, cho (k − 1) ký tự khớp với (k − 1) ký tự cuối (j − 1) ký tự mẫu Mặt khác, ta định nghĩa next[1] = Ta có thuật tốn tính mảng next sau: Algorithm Tính mảng next; procedure initnext; var i, j : integer; begin i := 1;j := 0;next[1] := 0; repeat if (j = 0) or (p[i] = p[j]) then i := i + 1;j := j + 1;next[i] := j; else j := next[j]; end if until i>M end; Sau xác định mảng next bắt đầu xét đến thuật toán: Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 95 Algorithm Thuật toán Knuth-Morris-Pratt; function kmpsearch : integer; var i, j : integer; begin i := 1;j := 1;initnext; repeat if (j = 0) or (a[i] = p[j]) then i := i + 1;j := j + 1; else j := next[j]; end if until (j>M) or (i>N) if j>M then kmpsearch := i − M; else kmpsearch := i; end if end; 4.1.3 Nhận xét thuật tốn: Thuật tốn Knuth-Morris-Pratt (KMP) khơng dùng nhiều (M + N) phép so sánh ký tự (trong M chiều dài văn bản, N chiều dài câu truy vấn người dùng nhập vào), có độ phức tạp O(M + N) 4.2 Giới thiệu chương trình: 4.2.1 Phương pháp tìm kiếm: Về bản, chương trình sử dụng giải thuật Knuth-Morris-Pratt để so khớp chuỗi Ngồi ra, chương trình tự nhận biết kết tìm có phải từ (hay cụm từ) hồn chỉnh hay khơng Nó chấp nhận từ (cụm từ) hoàn Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 96 chỉnh Ví dụ: Giả sử người dùng tìm kiếm từ khóa “Free”, văn tìm được: _ “This is a Free Software” hợp lệ _ ”This is Freeze Game ” không hợp lệ _ “This is Freeze Game, and it is Free!” hợp lệ _ “Find Shared/Free software ” hợp lệ _ “Mailto Free@vinagame.com.vn” hợp lệ Vấn đề file: Các file văn có dung lượng lớn, chương trình khơng thể đọc Chương trình chia nhỏ nội dung file (tùy thuộc vào kích cỡ file), đọc phần 4.2.2 Giao diện chương trình: Tận dụng kinh nghiệm người dùng web, chương trình thiết kế giao diện thân thiện, có nhiều điểm giống với trang web tìm kiếm hàng đầu giới google.com Giao diện ứng dụng chạy lên: Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 97 Ở giao diện trên, combobox dùng để điền từ khóa tìm kiếm, có khả xổ từ khóa gợi ý Những thơng tin lấy từ CSDL irss, cài đặt hệ CSDL MySQL Khi từ khóa tìm kiếm người dùng nhập vào mới, chưa có CSDL, chương trình thêm vào CSDL Sau điền xong từ khóa: − Con trỏ combobox, người dùng ấn Enter trình tìm kiếm bắt đầu − Hoặc kích chuột vào nút tìm kiếm bên cạnh để bắt đầu trình tìm kiếm Quá trình tìm kiếm đệ quy tồn ổ cứng máy tính, thư mục người dùng định Các tùy chọn tìm kiếm nâng cao: − Nội dung tìm kiếm: Chính xác cụm từ điền vào, từ cụm từ điền vào − Định dạng file tìm kiếm − Tìm từ thư mục: Thư mục gốc trình tìm kiếm, chương trình sâu vào thư mục dò file văn Việc tìm kiếm lâu, nên xây dựng thành tiến trình tiến trình có thơng số cho biết có chạy hay khơng Vì vậy, Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 98 chạy mà người dùng muốn thực tìm kiếm mới, chương trình đưa thơng báo: Cịn kết tìm kiếm cho từ khóa “Fixed” thư mục có 3276 file 207 thư mục con, với yêu cầu lọc file có định dạng HTML: Có nút Back, Next để qua lại trang, số trang hiển thị chữ màu xanh Mỗi trang hiển thị tối đa 10 kết Trong tìm kiếm kể trên, ta có kết tìm ta trang thứ hiển thị kết tìm kiếm Mỗi kết gồm: − Dòng chữ màu xanh: Đường dẫn file Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 99 − Dịng chữ màu đen: Một trích dẫn câu file chứa từ khóa tìm kiếm tơ đậm Khi kích chuột vào dịng màu xanh, chương trình tự động mở file ứng với đường dẫn (mở ứng dụng mặc định đăng ký với hệ điều hành ) 4.3 Thực nghiệm khả chương trình: 4.3.1 Điều kiện thực nghiệm: Chương trình thực máy tính có cấu hình: CPU Intel Pentium @ 3GHz, RAM 1GB Chương trình cài đặt ngơn ngữ lập trình Java, sử dụng thư viện hỗ trợ làm việc với định dạng file phức tạp DOC, PDF nên điều ảnh hưởng nhiều đến tốc độ chương trình 4.3.2 Kết thực nghiệm: Ta đặt tên kiểu tìm kiếm xác từ (cụm từ) điền vào kiểu 1, kiểu cịn lại kiểu Tìm kiếm thư mục có 35 file tất cả, 17 file HTML, 16 file PDF, file DOC Chọn tìm kiếm cho định dạng HTML, PDF: Từ khóa Số kết trả Thời gian Source Code (kiểu 1) 1243 ms Source Code (kiểu 2) 17 1312 ms POI Text (kiểu 1) 1234 ms POI Text (kiểu 2) 32 1312 ms 1224 ms Before subscribing to any of the mailing lists (kiểu 1) Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 100 Tìm kiếm thư mục docs, thư mục chứa văn dành cho người sử dụng thư viện Apache POI 3.1 tổ chức Apache Foundation, thư viện dành cho xử lý tất định dạng file Microsoft Office Thư mục có tổng cộng 3276 file, với 207 thư mục Với định dạng file cụ thể: − Có 3159 file HTML, kích thước thực 53.2MB, kích thước lưu trữ đĩa cứng 112MB (do hệ điều hành Window XP quản lý), không tính file ảnh − Có 69 file PDF, kích thước thực 1.07MB, kích thước lưu trữ đĩa cứng 2.56MB − Khơng có file định dạng DOC Nếu chọn với file HTML, ta có kết sau: Từ khóa Số kết trả Thời gian Fixed project re-serialization Fixed re-serialization (kiểu 1) Fixed re-serialization (kiểu 2) Fixed The POI project (kiểu 2) 15 34 27925 ms 27812 ms 26211 ms 26111 ms 16 26212 ms 2656 29211 ms Ta nhận thấy việc tìm kiếm file HTML nhanh file PDF, DOC, định dạng file khả thư viện xử lý định dạng file Ta có giản đồ thời gian tìm kiếm sau, với thơng số tìm kiếm: − Độ dài từ (cụm từ) khóa tìm kiếm trung bình: 50 − Định dạng file: Trên định dạng TXT, HTML, DOC, PDF Tuy nhiên định dạng DOC, PDF chọn file có tương đối ảnh, cấu trúc không phức tạp Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 101 Từ giản đồ ta thấy: Đường cong gần với dạng đường thẳng, hiệu tìm kiếm chương trình tương đối ổn định, thời gian tìm kiếm tỷ lệ thuận với số lượng file Thông thường, độ dài văn file thường dài nhiều so với từ (cụm từ) khóa tìm kiếm, nên với độ phức tạp O(M + N) qua thực nghiệm, ta nhận thấy kết tìm kiếm độ dài từ khóa dao động từ 40 – 100 khơng khác nhiều 4.4 Nhận xét kết thực nghiệm: Có thể đưa số nhận xét sau: − Module cài đặt giải thuật tìm kiếm đệ quy file thư mục gốc làm việc tốt − Module cài đặt giải thuật Knuth-Morris-Pratt làm việc tốt − Module cài đặt giải thuật tách lấy từ hoàn chỉnh làm việc tốt − Kết gần với đường tuyến tính, cho thấy chương trình làm việc ổn định Hạn chế: Java ngôn ngữ xử lý vào file hệ điều hành Windows chậm, ảnh hưởng nhiều đến tốc độ làm việc Windows chương trình Thuật tốn Knuth-Morris-Pratt làm việc hiệu trường hợp câu truy vấn tìm kiếm có tính trùng lặp cao Hệ thống trợ giúp tìm kiếm thông tin – Vũ Thị Việt Thanh 102 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận chung 5.1.1 Những kết đạt Luận văn trình bày vấn đề lý thuyết HTTKTT Đặc biệt, trình bày chi tiết phương pháp hỗ trợ người dùng, phương pháp đem lại hiệu cao, giảm bớt chi phí q trình tìm kiếm thơng tin Trên sở tiến hành thiết kế, cài đặt, thực nghiệm kết chương trình, tác giả đạt kết cụ thể sau: Luận văn thử nghiệm chương trình minh họa sử dụng thuật tốn so khớp từ khóa Knuth-Morris-Pratt Qua thực nghiệm nhận thấy chương trình thực thi ổn định, có tốc độ hiệu tốt Đã nghiên cứu cài đặt thành công chức tìm kiếm nâng cao cho chương trình, gợi ý thuật ngữ tìm kiếm cho người dùng Nếu từ khố lần đầu tìm kiếm chương trình tự động cập nhật vào CSDL Hỗ trợ tìm kiếm theo định dạng file, tìm kiếm theo cụm từ xác từ cụm từ nhập vào 5.1.2 Những khó khăn cịn tồn Do thời gian thực trình độ hạn chế nên chưa giải số vấn đề sau: • Nếu tìm kiếm thư mục định trước theo đường dẫn thời gian tìm nhanh, tìm kiếm tồn hệ thống lâu • Tìm kiếm file có định dạng Plaintext HTML nhanh, file có định dạng doc PDF lâu nhiều Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 103 • Chưa kiểm tra tính đắn chương trình tập CSDL lớn • Chương trình áp dụng tìm kiếm liệu văn bản, chưa áp dụng với loại liệu đa phương tiện hình ảnh, video, âm thanh… 5.2 Hướng phát triển Với vấn đề tồn nêu trên, thời gian tới, tác giả dự kiến phát triển đề tài theo hướng sau: • Tiếp tục nghiên cứu xử lý vấn đề tồn thuật tốn • Tiếp tục cải thiện tính nâng cao khác cho chương trình tìm kiếm theo thời gian thiết lập file, tìm kiếm theo khu vực bổ sung số định dạng file tìm kiếm khác PowerPoint, Excel… • Nghiên cứu tiếp mặt lý thuyết mức độ ứng dụng thuật toán việc xử lý tập liệu lớn Nghiên cứu mở rộng chương trình để tìm kiếm liệu đa phương tiện, nhằm nâng cao ý nghĩa phạm vi sử dụng chương trình Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 104 TÀI LIỆU THAM KHẢO [1] Cao Việt Hùng (2004), Tìm kiếm thơng tin dựa mơ hình khơng gian vectơ - số giải thuật ứng dụng, Trường Đại học Bách Khoa Hà Nội [2] http://vi.wikipedia.org/wiki/M%C3%A1y_truy_t%C3%ACm_d%E1%BB%AF_li%E1%BB%87u [3] Nguyễn Thế Quang, Phát triển thuật toán gom cụm văn HTML ứng dụng, Công nghệ tri thức http://www.uit.edu.vn/forum/index.php?act=Attach&type=post&id=87274 [4] Phùng Văn Đức (2006), Phân loại văn tiếng Việt sử dụng phương pháp SVMs, Trường Đại học Bách Khoa Hà Nội [5] Gerald J Kowalski and Mark T Maybury (2000), Information Storage and Retrieval Systems: Theory and Implementation- 2nd, Kluwer Academic Publishers, London [6] H Sakai, K.Ohtake, S Masuyama (2001), “A retrieval support system by suggesting terms to a user”, Proceedings 2001 International Conference on Chinese Language Computing, pp 77 – 80 [7] Y.Y Yao (2002), “Information Retrieval Support Systems”, IEEE World Congress on Computational Intelligence, Honolulu, Hawaii, USA, pp 773 – 778 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 105 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh ... TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1 Giới thiệu hệ thống tìm kiếm thơng tin 1.1.1 Định nghĩa hệ thống tìm kiếm thông tin 1.1.2 Mục tiêu hệ thống tìm kiếm thơng tin 1.2... KHẢO Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh 104 Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh LỜI CAM ĐOAN Tôi xin cam đoan luận văn ? ?Hệ thống trợ giúp tìm kiếm thơng... Hệ thống trợ giúp tìm kiếm thơng tin – Vũ Thị Việt Thanh Chương 1: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THƠNG TIN 1.1 Giới thiệu hệ thống tìm kiếm thơng tin Chương đưa định nghĩa hệ thống lưu trữ tìm