Giới thiệu:

Một phần của tài liệu tài liệu mô hình không gian vecto để xây dựng các hệ truy tìm thông tin (Trang 38)

KẾT HỢP THUẬT TOÁN K-MEANS VÀ MÔ HÌNH LSI VÀO BÀI TOÁN GOM CỤM VĂN BẢN

3.1Giới thiệu:

Với các kỹ thuật áp dụng trong hệ truy tìm thông tin được trình bày tổng quát ở chương 1 thì trong chương 2 trình bày mô hình không gian vector và mô hình cải tiến LSI áp dụng vào hệ truy tìm thông tin. Do câu truy vấn rất ngắn nên có rất nhiều từ chỉ mục của tập văn bản không xuất hiện trong câu truy vấn, có nghĩa là hầu hết các thành phần của vector truy vấn là zero. Điều này có nghĩa là có một số văn bản có liên quan đến câu truy vấn nhưng không được trả về. Đây là một điểm yếu của mô hình không gian vector.

Để khắc phục nhược điểm của mô hình không gian vector thì trong mô hình LSI – một mô hình rất hiệu quả mà gần đây đã được quan tâm rất nhiều cho việc ứng dụng vào hệ truy tìm thông tin. Trong mô hình này không những trình bày giảm số chiều rất nhiều của ma trận từ chỉ mục (term document) A, mà quan trọng là tìm chính xác về nghĩa của tập văn bản và trả về một cách chính xác các văn bản mà người dùng cần tìm kiếm [7], [8], [9]. Tuy nhiên để trả về các tập văn bản mà người dùng cần tìm thì mô hình LSI phải đi tính độ đo Cosines của tất cả các tập văn bản trong ma trận xấp xỉ Ak. Điều này dẫn đến việc hạn chế tốc độ tìm kiếm của giải

thuật.

Trong luận văn này đề nghị áp dụng bài toán gom cụm vào hệ truy tìm thông tin cụ thể là thuật toán K-means với hai phương pháp cải tiến: Tiền xử lý ma trận từ chỉ mục (term – document) A và áp dụng hợp lý độ đo khoảng cách. Sau đó, đem kết quả đạt được so sánh với mô hình không gian vector và mô hình cải tiến LSI.

Một phần của tài liệu tài liệu mô hình không gian vecto để xây dựng các hệ truy tìm thông tin (Trang 38)