Xây dựng giải pháp để thiết kế công cụ đánh giá sự tương đồng về nội dung của hai tài liệu văn bản tiếng việt

66 461 0
Xây dựng giải pháp để thiết kế công cụ đánh giá sự tương đồng về nội dung của hai tài liệu văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** TRƯƠNG THỊ QUỲNH HƯƠNG XÂY DỰNG GIẢI PHÁP ĐỂ THIẾT KẾ CÔNG CỤ ĐÁNH GIÁ SỰ TƯƠNG ĐỒNG VỀ NỘI DUNG CỦA HAI TÀI LIỆU VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai – 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** TRƯƠNG THỊ QUỲNH HƯƠNG XÂY DỰNG GIẢI PHÁP ĐỂ THIẾT KẾ CÔNG CỤ ĐÁNH GIÁ SỰ TƯƠNG ĐỒNG VỀ NỘI DUNG CỦA HAI TÀI LIỆU VĂN BẢN TIẾNG VIỆT Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TRẦN VĂN LĂNG Đồng Nai – 2013 LỜI CAM ĐOAN Tôi xin cam đoan kết cơng trình nghiên cứu thân, không chép người khác Các số liệu, kết trình bày luận văn trung thực Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin chịu hồn tồn trách nhiệm cho lời cam đoan Học viên Trương Thị Quỳnh Hương LỜI CẢM ƠN Em xin bày tỏ lịng thành kính biết ơn sâu sắc đến thầy PGS.TS.Trần Văn Lăng nhiệt tình hướng dẫn, bảo em suốt trình thực luận văn Em xin chân thành cảm ơn Quý thầy cô Khoa Công nghệ thông tin trường Đại học Lạc Hồng tạo điều kiện thuận lợi cho em suốt thời gian học tập nghiên cứu trường Xin cảm ơn anh chị em, bạn bè, đồng nghiệp giúp đỡ động viên nhiều trình em thực luận văn Xin cảm ơn cha mẹ, anh chị em người thân chỗ dựa tinh thần, nguồn động lực to lớn để em vượt qua khó khăn q trình thực luận văn Xin chân thành cảm ơn! Đồng Nai, ngày tháng 12 năm 2013 Học viên Trương Thị Quỳnh Hương MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC HÌNH DANH MỤC BẢNG DANH MỤC CÁC TỪ VIẾT TẮT MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN 1.1 Giới thiệu hệ tìm kiếm thơng tin 1.1.1 Kỹ thuật tìm kiếm thông tin 1.1.2 Một số vấn đề tìm kiếm thông tin 1.1.3 Hệ thống tìm kiếm thơng tin – IRS 1.2 Sự khác biệt hệ thống IR hệ thống thông tin khác 11 1.3 Các hệ tìm kiếm văn thường sử dụng 13 CHƯƠNG 2: MỘT SỐ KỸ THUẬT TÌM KIẾM VÀ SO SÁNH VĂN BẢN THEO NỘI DUNG 15 2.1 Các truy vấn Boolean mục tài liệu 15 2.1.1 Truy vấn Boolean 15 2.1.2 Cấu trúc tệp 16 2.1.3 Các từ dừng từ gốc 18 2.1.4 Chỉ số hoá bổ sung 19 2.1.5 Kỹ thuật nén số (index compression) 21 2.1.6 Chỉ mục tự động 23 2.2 Thước đo hiệu 25 2.3 Mơ hình truy tìm không gian vectơ 29 2.4 Mơ hình truy tìm theo xác suất 31 2.5 Mơ hình truy tìm sở cụm 32 2.6 Kỹ thuật phản hồi phù hợp 33 2.7 Mơ hình LSI (Latent semantic indexing) 35 2.7.1 Ý tưởng LSI 35 2.7.2 Một số khái niệm 37 2.7.3 Kỹ thuật SVD (singular value decomposition) 39 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 51 3.1 Giới thiệu toán 51 3.2 Chức chương trình 52 3.3 Quy trình phát triển ứng dụng 52 3.3.1 Xây dựng ma trận Term – Doc 52 3.3.2 Lập mục tài liệu 52 3.3.3 Xây dựng ma trận trọng số 53 3.3.4 Phương pháp LSI 53 4.2 Cài đặt thử nghiệm 54 4.3 Hoạt động chương trình 54 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH Hình 1.1 Mơ hình tổng qt tìm kiếm thơng tin Hình 1.2 Tiến trình truy vấn tài liệu sở Hình 1.3 Mơ hình kiến trúc hệ tìm kiếm thơng tin Hình 1.4 Cấu trúc hệ tìm kiếm thông tin tiêu biểu 10 Hình 2.1 Sơ đồ trì số tập hợp động 20 Hình 2.2 Mơ tả recall 26 Hình 2.3 Mô tả Precision 27 Hình 2.4 Đồ thị so sánh hiệu 28 Hình 2.5 Sử dụng khái niệm cho truy vấn 35 Hình 2.6 Biểu đồ 2-D 12 thuật ngữ tài liệu từ tập mẫu 41 Hình 2.7 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ- tài liệu 42 Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu 44 Hình 2.9 Đồ thị Recall - Precision thuật tốn LSI 50 Hình 3.1 Giao diện chương trình 54 Hình 3.2 Giao diện chức cấu hình 55 Hình 3.3 Giao diện tìm kiếm theo mơ hình LSI 55 DANH MỤC BẢNG Bảng 1.1: So sánh IRS với hệ thống thông tin khác 13 Bảng 2.1 Kết recall precision 29 Bảng 2.2 Số lần xuất thuật ngữ tài liệu 40 DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu Tiếng Anh Tiếng Việt viết tắt DBMS Database Management System Hệ quản trị sở liệu DSS Decision Support Systems Hệ hỗ trợ định IMS Information Management System Hệ quản lý thông tin IR Information retrieval Truy tìm thơng tin LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn QAS Question Anser System Hệ trả lời câu hỏi SVD Singular Value Decomposition Kỹ thuật tách giá trị đơn MỞ ĐẦU Đặt vấn đề Ngày máy tính sử dụng lĩnh vực đời sống, kho thơng tin máy tính tăng trưởng khơng ngừng thật khó khăn cho cơng tác tìm kiếm (nhất tìm kiếm file văn bản) Chính cần có hệ thống tìm kiếm thơng tin (Information Retrieval) hỗ trợ người dùng tìm kiếm cách xác nhanh chóng thơng tin mà họ cần kho tư liệu khổng lồ Hiện có số hệ thống tìm kiếm GoogleDesktop, DTSearch, Lucene, nhiên hệ thống sử dung kỹ thuật tìm kiếm đơn giản nên hiệu cịn chưa cao Vì mục tiêu luận văn nhằm tìm hiểu số giải pháp tìm kiếm thơng tin, cụ thể tìm kiếm văn theo nội dung sở liệu nhằm đánh giá tương đồng nội dung hai tài liệu văn tiếng Việt Mục đích luận văn Mục đích luận văn nghiên cứu phương pháp tìm kiếm văn tìm cách ứng dụng mơ hình mơ hình LSI (Latent semantic indexing) để giải tốn Trên sở thiết kế công cụ đánh giá tương đồng nội dung hai tài liệu văn tiếng Việt Phương pháp nghiên cứu Để thực đề tài này, cần nghiên cứu tổng quan tình hình ngồi nước vấn đề tìm kiếm tài liệu Sau có nhìn tổng quan trạng giải vấn đề lựa chọn hướng giải hợp lý vào nghiên cứu lý thuyết chuyên sâu Trong đề tài cần nghiên cứu thuật tốn tìm kiếm so sánh mẫu văn theo nội dung, lập mục tài liệu tìm kiếm khơng gian vector Sau nắm rõ sở lý thuyết đề tài xây dựng chương trình để thử nghiệm đánh giá tính đắn lý thuyết nêu Nội dung luận văn 43 Vậy, tính c1 = 40 c2 = 10 Dựa vào giá trị riêng để tính vecto riêng theo cơng thức: (X-cI)x = với x vecto riêng cần tìm + Với c1 = 40: -15x1 - 15x2 = -15x1 - 15x2 = 0, x2 = -x1 Nên ta có: Ta tính được: Và x1 = + Với c2 = 10, ta có x2 = x1 - Tương tự, tính T0 dựa vào ma trận XXT với giá trị riêng 40 10 Vì thế, ta có ma trận với giá trị riêng tăng dần tính từ XTX XXT - Ma trận chéo giá trị riêng S0 tính: Vậy, từ ma trận A phân tích SVD thành ma trận sau: Nói chung, với X = T0S0D0T, ma trận T0, D0, S0 tất phải xếp hạng Sử dụng SVD nhận “xấp xỉ” X giá trị số lớn ma trận S0 Tích ma trận kết ma trận ܺ෠ xấp xỉ X 44 có hạng k Việc lựa chọn k xác định “các khái niệm quan trọng”, với giả định khái niệm với giá trị số nhỏ S0 xem “nhiễu” bỏ qua Các giá trị số S0 xếp, k lớn giữ lại tập nhỏ cịn lại nhận giá trị Khi đó, số đưa vào S0, việc biểu diễn làm đơn giản hóa việc xóa hàng cột S0 để thu ma trận đường chéo S, sau xóa cột tương ứng T0 D0 để nhận T D tương ứng Kết mơ hình giảm lược: X ൎ ܺ෠ = TSDT Mơ hình giảm lược, trình bày hình 2.8, sử dụng để xấp xỉ với liệu Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu Ma trận thuật ngữ tài liệu gốc gần sử dụng k giá trị số lớn vectơ số tương ứng Giảm lược SVD ma trận thuật ngữ- tài liệu X, đó: T, D ma trận trực giao S ma trận đường chéo giá trị số t số hàng X d số cột X m hạng X ( ൑ min(t,d)) k số chiều chọn mơ hình giảm lược (k ൑ m) Giảm lược số chiều, lựa chọn k tới hạn với thực Đúng ý tưởng, muốn giá trị k đủ lớn để phù hợp với đặc tính cấu trúc thực liệu, đủ nhỏ để lọc chi tiết không phù hợp hay chi tiết khơng quan trọng 45 Ví dụ, ví dụ trước thực tính tốn với tài liệu (c1 c5, m1 m4) 12 thuật ngữ, ma trận X (12×9) cho số lần xuất thuật ngữ tài liệu: Với ma trận 12×9 thuật ngữ tài liệu, X phân tích thành ba ma trận khác T0S0DT0, T0 D0 có cột trực giao T0 gồm vectơ giá trị số chiều với 12 thuật ngữ S0 ma trận đường chéo giá trị số D0 gồm vectơ giá trị số chiều với tài liệu 46 Bây giờ, tìm xấp xỉ X việc giữ lại hai giá trị số S0 cột tương ứng ma trận T0 ma trận D0 (Chú ý rằng, sử dụng kết hợp T0 D0 để xác định vị trí 12 thuật ngữ tài liệu, theo thứ tự định sẵn biểu diễn 2-chiều) Mơ hình giảm lược sau: X ൎ ܺ෠ = TSDT 47 Thơng thường, kích thước đơn miền lớn vừa phải 200 Xét ý nghĩa mang lại: Kích thước bảng tần số gốc giả sử (t×d), t tổng số thuật ngữ d tổng số tài liệu Dễ có đến t = triệu d = 10,000 CSDL tài liệu nhỏ Sau giảm thiểu, kích thước ba ma trận đơn giả sử cịn 200: - Kích thước ma trận thứ t×k Với số ta có triệ200 = 200 triệu đầu vào - Kích thước ma trận đơn 200×200 = 40,000 đầu vào (sự thật 40,000 đầu vào 200 cần phải lưu trữ, lại nhận giá trị 0) - Kích thước ma trận cuối k×d Với số ta có 200×10,000 =2 triệu đầu vào Cuối ta có khoảng 202 triệu đầu vào bảng sau áp dụng SVD Ngược lại, (t×d) gần tới 10 tỷ, nói cách khác SVD làm giảm đáng kể không gian sử dụng khoảng 1/50 so với bảng gốc Chú ý: Trong nhiều trường hợp, ma trận gốc t×d ma trận rải rác, lưu trữ số phần tử nhỏ t×d nhiều Trong trường hợp phân tích SVD lại làm tăng tổng số lưu trữ Các phép so sánh kỹ thuật SVD Về bản, có ba phép so sánh cần quan tâm: So sánh hai thuật ngữ (trả lời câu 48 hỏi “tương tự thuật ngữ i j nào?”); so sánh hai tài liệu (“tương tự tài liệu i j sao?”); so sánh thuật ngữ với tài liệu (“thuật ngữ i tài liệu j có mối quan hệ nào?”) Trong cách tiếp cận vấn đề truy tìm thơng tin, số lượng tương ứng để so sánh hai hàng với nhau, hai cột với hay xem xét ô riêng lẻ ma trận gốc, ma trận liệu term-document X Trong trường hợp này, tạo so sánh tương tự sử dụng ma trận ܺ෠ , coi biểu diễn mẫu quan trọng xác thực liệu X Với ܺ෠ =TSDT, tương đồng tính tốn sử dụng ma trận nhỏ T, D S So sánh hai thuật ngữ: Tích vơ hướng hai vectơ hàng ܺ෠ xác định phạm ෡ T) ma trận vi hai thuật ngữ có tương đồng qua tập tài liệu Ma trận (ܺ෠ ܺ vuông đối xứng chứa tích số thuật ngữ với thuật ngữ Với S ma trận chéo D ma trận trực giao, dễ dàng xác định được: ෡ T = TS2TT ܺ෠ ܺ ෡ T) thu việc lấy tích Chú ý, điều có nghĩa ô (i,j) (ܺ෠ ܺ hàng i j ma trận TS Đó là, xét hàng TS tương đương với thuật ngữ tích điểm so sánh thuật ngữ So sánh hai tài liệu: Phân tích việc so sánh hai tài liệu tương đồng, trường hợp tích hai vectơ cột ma trận ܺ෠ , cho biết khả đánh giá ෡ T) chứa tích hai tài liệu tương đồng mơ tả qua thuật ngữ Vì vậy, ma trận (ܺ෠ ܺ điểm tài liệu đến tài liệu Việc định nghĩa ma trận T, S D đảm bảo rằng: ෡ T = DS2DT ܺ෠ ܺ Ở đây, ô (i,j) (ܺ෠ T ܺ෠ ) thu việc tính tích hàng i j ma trận DS Vì thế, coi hàng ma trận DS tương ứng với tài liệu So sánh thuật ngữ với tài liệu: Sự so sánh khác với hai so sánh trước Thay việc cố gắng để đánh giá tích điểm hàng hay cột ܺ෠ , so sánh chủ yếu thuật ngữ tài liệu dựa vào giá trị ô riêng lẻ ܺ෠ ܺ෠ định nghĩa thuật ngữ ma trận T, S D ܺ෠ = TSDT 49 Bởi vậy, ô (i,j) ܺ෠ thu việc tính tích hàng i ma trận TS1/2 với hàng thứ j ma trận DS1/2 Chú ý rằng, So sánh (như thuật ngữ-thuật ngữ hay tài liêu-tài liệu) gồm việc sử dụng hàng TS DS cho toạ độ Tìm kiếm p tài liệu phù hợp cho truy vấn q Với q truy vấn, ta coi q tài liệu tạo lập vectơ Xq Tuy nhiên, có đặc điểm là: k khái niệm quan trọng xét xét tất t thuật ngữ Khi yêu cầu tìm p tài liệu phù hợp với q, ta phải tìm p tài liệu d1, , dp sau: Với ൑ i ൑ j ൑ p, tính tương tự Xq di lớn hay tính tương tự Xq dj, Khơng có tài liệu dz mà tính tương tự dz Xq vượt tính tương tự dp Hoặc, tính tốn độ tương đồng truy vấn tài liệu dựa tính tốn cosin - Chuyển véctơ truy vấn q không gian thuật ngữ sang véctơ qc không gian khái niệm: qc = D T x q - Mức độ tương tự truy vấn với tài liệu tính tích vô hướng hay hệ số cosin qc hàng T Có thể biến đổi (ánh xạ từ X vào D): X = T0 * S0 * D0T ⇒ S0-1 * T0T * X = D0T (lúc T0* T0T = 1) ⇒ D0 = XT * T0 * S0-1 + Áp dụng biến đổi với q: qc = qT * T * S-1 + Sau so sánh vectơ thay đổi việc sử dụng biện pháp cosin chuẩn (DT )i biểu diễn cột thứ i ma trận DT 50 - Làm việc với véctơ k chiều thay cho véctơ t chiều (k nhỏ t nhiều lần) Đánh giá hiệu mơ hình LSI Kiểm nghiệm thực tế với tập liệu MED, tập liệu chuẩn nghiên cứu lý thuyết tập hợp thuộc y học, gồm 1033 tài liệu 30 truy vấn Việc mục tự động tất thuật ngữ xuất nhiều tài liệu kết 5823 thuật ngữ đánh mục SVD hệ số 100 ma trận 5823 thuật ngữ với 1033 tài liệu sử dụng truy tìm hiệu quả, đánh giá dựa vào 30 câu truy vấn có với tập liệu Đánh giá mơ hình LSI tập liệu MED dựa vào số recall precision biểu diễn sơ đồ sau: Hình 2.9 Đồ thị Recall –Precision thuật tốn LSI Phương pháp LSI thực tốt mức thấp recall thể hai nhân tố: thứ nhất, độ xác (precision) tương đối tốt hệ thống mức recall thấp, mang lại khả cải tiến Thứ hai, LSI thiết kế chủ yếu để giải vấn đề tính đồng nghĩa (vì tăng recall); thành cơng vấn đề tính đa nghĩa (precision) 51 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 3.1 Giới thiệu tốn Hiện tại, có nhiều kỹ thuật tìm kiếm, kỹ thuật có ưu điểm nhược điểm, có kỹ thuật đạt hiệu không cao cách thức đơn giản, kỹ thuật cho hiểu tốt, giảm bớt phức tạp lại không linh hoạt Một số kỹ thuật nghiên cứu phạm vi luận văn mơ hình Boolean; mơ hình khơng gian vectơ; mơ hình tìm kiếm sở cụm; mơ hình tìm kiếm theo xác xuất; mơ hình phản hồi phù hợp mơ hình tìm kiếm LSI Bài tốn tập trung vào mô tả kỹ thuật LSI, cài đặt kỹ thuật ngơn ngữ lập trình C# Chương trình mơ thuật tốn tìm kiếm LSI, phương pháp chủ yếu tính tốn ma trận Các ma trận xây dựng từ tài liệu thuật ngữ xuất tài liệu đó, từ việc phân tích SVD để tính tốn, tìm tài liệu quan tâm dựa vào câu truy vấn Trong hệ thống tìm kiếm, số lượng tài liệu lớn, tài liệu lại có nhiều thuật ngữ khác nhau, ma trận thuật ngữ - tài liệu (term - document) lớn để trả tài liệu phù hợp phải đem so sánh yêu cầu với đối tượng Điều phức tạp gây tốn thời gian, dung lượng nhớ Kỹ thuật LSI nhằm giảm bớt phức tạp giai đoạn đem lại hiểu tìm kiếm Bài tốn khơng sâu vào q trình tiền xử lý văn bản, mô kỹ thuật đối sánh LSI cho thấy giảm lược chiều không gian thuật ngữ - tài liệu, tức giảm thiểu phức tạp đối sánh câu truy vấn tập liệu Chương trình xây dựng nhằm giải tốn có đầu vào đầu sau: Input: tập gồm nhiều liệu văn lưu trữ máy tính dạng không nén Output: Danh sách tệp văn chứa từ hay cụm từ câu truy vấn Với đầu vào đầu tốn chương trình phải đáp ứng u cầu sau: • Chương trình cho phép thu thập tạo mục tài liệu; 52 • Cho phép cập nhật lại mục có tài liệu đưa vào hệ thống; • Cho phép người dùng nhập vào câu truy vấn, sau thực tìm kiếm tài liệu liên quan đến câu truy vấn; • Sắp xếp tài liệu theo thứ tự giảm dần độ tương quan tài liệu câu truy vấn, sau hiển thị kết cho người dùng 3.2 Chức chương trình Chương trình xây dựng với chức sau: - Tập hợp tài liệu - Tách từ từ tài liệu - Tính trọng số từ ứng với tài liệu - Chọn lọc từ có giá trị phân biệt cao làm mục - Lập mục cho từ tạo nên tài liệu - Cập nhật lại mục thêm tài liệu - Hiển thị kết tìm kiếm cho người dùng 3.3 Quy trình phát triển ứng dụng Để xây dựng chương trình đáp ứng chức trên, cần thực bước sau đây: 3.3.1 Xây dựng ma trận Term – Doc Xây dựng ma trận Term – Doc A có kích thước MxN (M thuật ngữ, N tài liệu) bao gồm tần số tfij thuật ngữ i tài liệu j Ma trận ma trận chứa thuật ngữ xuất tập trung số tài liệu 3.3.2 Lập mục tài liệu Mục tiêu làm mục tìm thuật ngữ tốt để đại diện tài liệu cho tài liệu truy tìm xác tiến trình truy vấn Tiến trình mục tự động bao gồm bước sau: • Tách từ từ tài liệu; • Loại bỏ từ dừng; • Nhận biết từ đồng nghĩa Mọi thuật ngữ có ý nghĩa tương tự thay 53 từ chung; • Tính trọng số thuật ngữ tài liệu công thức: Wij = tfij * log (N/dfj); • Tạo tệp mục lục sở thuật ngữ trọng số thuật ngữ nói 3.3.3 Xây dựng ma trận trọng số Ma trận trọng số xây dựng cách tính trọng số từ ứng với tài liệu Trọng số thuật ngữ phản ánh tầm quan trọng thuật ngữ tài liệu Khi gán trọng số thuật ngữ, cần phải quan tâm đến hai: tần số thuật ngữ (tfij) tần số tài liệu (dfj) Cơng thức chung để tính trọng số thuật ngữ là: Wij = tfij * log (N/dfj) đó, Wij trọng số thuật ngữ j tài liệu i, tfij tần số thuật ngữ j tài liệu i, N tổng số tài liệu tập tài liệu, dfj tần số tài liệu chứa thuật ngữ j Trọng số tỷ lệ với tần số thuật ngữ tỷ lệ nghịch với tần số tài liệu, công thức thường gọi tf.idf [idf=log(N/dfi)] 3.3.4 Phương pháp LSI Bước1: Đánh trọng số thuật ngữ xây dựng ma trận term-doc A ma trận truy vấn Q; Bước 2: Tách ma trận A thành tích ma trận tìm ma trận U, S, V, đó: A = USVT Bước 3: Thực giảm chiều ma trận cách tạo ma trận vng Ss có chiều s x s từ ma trận S Tương tự cho ma trận Vs có chiều s x N ma trận Us có chiều M x s tương ứng Bước 4: Tìm toạ độ vector tài liệu không gian giảm chiều này; Bước 5: Tìm tọa độ véc tơ truy vấn không gian giảm chiều: q=qTUsSs-1 Bước 6: Sắp xếp tài liệu theo thứ tự giảm dần giá trị tương đồng cosin 54 câu truy vấn tài liệu Cơng thức tính tốn để tính giá trị tương đồng cosin mơ hình khơng gian vector sở Thực chất tính tích điểm toạ độ vector câu truy vấn tài liệu chia cho tích độ dài vector truy vấn vector tài liệu 4.2 Cài đặt thử nghiệm Chương trình cài đặt C# Chương trình gồm phần: phần lập mục phần tìm kiếm Phần tìm kiếm kiếm theo kỹ thuật LSI 4.3 Hoạt động chương trình Giao diện chương trình gồm chức chính: chức cấu hình, chức lập mục, chức tìm kiếm Hình 3.1 Giao diện chương trình Chức cấu hình cho phép cấu hình đường dẫn thư mục chức văn có nội dung cần so sánh thiết lập hệ số K 55 Hình 3.2 Giao diện chức cấu hình Hình 3.3 Giao diện tìm kiếm theo mơ hình LSI 56 KẾT LUẬN Qua tìm hiểu nghiên cứu cho thấy việc tìm kiếm so sách nội dung văn thơng qua hệ thống truy tìm thông tin vấn đề mang tính thời Cơng nghệ thơng tin Luận văn sâu nghiên kỹ thuật truy tìm văn sở nội dung qua số mơ hình cụ thể từ hỗ trợ cho việc đánh giá tương đồng nội dung văn Qua trình nghiên cứu, luận văn đạt kết sau: - Tìm hiểu tổng quan hệ tìm kiếm thơng tin, khác biệt hệ thống truy tìm thơng tin - Nghiên cứu cách thức hoạt động hệ thống truy tìm thơng tin nói chung nghiên cứu số vấn đề mục, tìm kiếm tài liệu văn sở nội dung nói riêng - Tìm hiểu số mơ hình tìm kiếm như: Mơ hình Boolean sở, mở rộng; mơ hình khơng gian vectơ; mơ hình tìm kiếm sở cụm; mơ hình tìm kiếm theo xác xuất; mơ hình phản hồi phù hợp mơ hình tìm kiếm LSI - Cài đặt thử nghiệm chương trình mơ thuật tốn tìm kiếm mơ hình LSI Tuy nhiên, luận văn cịn số hạn chế như: Chương trình mơ tả thuật tốn tìm kiếm, chưa mơ tả hồn thiện chương trình đánh giá tương đồng nội dung văn Chưa so sánh chi tiết phương pháp tìm kiếm nêu ra; chưa đánh giá hiệu tìm kiếm phương pháp tập liệu cụ thể Hướng nghiên cứu: Hồn thiện chương trình tìm kiếm mơ hình LSI để đưa vào ứng dụng Tiếp tục tìm hiểu kỹ thuật tìm kiếm nâng cao dựa sở nội dung tài liệu văn Đánh giá khả tìm kiếm mơ hình liệu cụ thể TÀI LIỆU THAM KHẢO Tiếng Việt [1] PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở liệu đa phương tiện Tiếng Anh [2] Chris Manning et al (2007), Information Retrieval and Lantent Semantic Indexing, Lecture Notes, Marcus Uneson [3] David Hand, Heikki Mannila & Padhraic Smyth (2001), Principles of Data Mining, The MIT Press, pp 267-287 [4] Edel Garcia (2006), Latent Semantic Indexing (LSI) A Fast Track Tutorial, Grossman and Frieder’s Information Retrieval, Algorithms and Heuristics [5] Gerard Salton, Chris Buckley (1988), Parallel text search methods, Communications of the ACM [6] Scott Deerwester et al (1990), Indexing by Latent Semantic Analysis, Journal of The American Society for Information Science [7] Soumen Chakrabarti (2003), Mining the Web, Morgan Kaufmann Publishers Internet [1] http://www.miislita.com/information-retrieval-tutorial/svd-lsi-tutorial-3-fullsvd.html [2] http://www.bluebit.gr/matrix-calculator/

Ngày đăng: 26/10/2016, 14:41

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan