Đánh giá hiệu quả của việc kết hợp thuật toán gom cụm với mô hình LS

Một phần của tài liệu tài liệu mô hình không gian vecto để xây dựng các hệ truy tìm thông tin (Trang 47)

KẾT HỢP THUẬT TOÁN K-MEANS VÀ MÔ HÌNH LSI VÀO BÀI TOÁN GOM CỤM VĂN BẢN

3.4 Đánh giá hiệu quả của việc kết hợp thuật toán gom cụm với mô hình LS

đi tính cosines giữa vector truy vấn với tất cả các vector của văn bản. Điều này đã làm hạn chế tốc độ truy tìm thông tin.

Nhìn lại ví dụ 3.3, việc trả về tập văn bản liên quan đến câu truy vấn được cải thiện một cách hiệu quả. Lúc này ta chỉ lấy vector truy vấn tính Cosines với các văn bản trong các cụm được trả về. Số cụm và số văn bản dùng để tính Cosines với vector truy vấn q rất ít hơn tập văn bản ban đầu.

3.4 Đánh giá hiệu quả của việc kết hợp thuật toán gom cụm với mô hình LSI LSI

Giả sử có tập N văn bản. (N rất lớn). Khi đó ta thấy:

Đối với mô hình LSI, sau khi phân tích SVD trên ma trận từ chỉ mục (terms document) A làm giảm đi số chiều của ma trân A rất nhiều (k<<N). Tuy nhiên, để

thực hiện truy vấn thì trong mô hình LSI cũng vẫn phải đi tính Cosines của vector truy vấn q với tất cả các văn bản trong tập văn bản N. Điều này làm giảm hiệu quả của mô hình LSI.

Vậy thời gian tính Cosines của câu truy vấn q với các văn bản trong tập văn bản N là: O(N).

Đối với mô hình dùng thuật toán gom cụm K-means đã cải tiến sau khi phân tích SVD, ta thấy:

• Gọi k là số cụm ban đầu. Thời gian tính Cosines của câu truy vấn q với các vector trong tâm là O(k).

• Gọi n là số văn bản trong từng cụm (n<<N). Thời gian tính Cosines của câu truy vấn q với các vector văn bản trong từng cụm thỏa ngưởng trả về là O(kn).

Vậy thời gian trả về số văn bản cần lấy là: O(k) + O(kn) = O(kn) Như vậy, O(kn) << O(N) vì (k,n << N)

Lúc này, mô hình cải tiến chỉ đi tính Cosines của câu truy vấn q với các vector văn bản trong từng cụm thỏa ngưỡng trả về nên làm tăng hiệu quả so với mô hình LSI.

Trường hợp xấu nhất, nếu tập văn bản N thỏa hết điều kiện cần trả về thì lúc này mô hình cải tiến sẽ chậm hơn mô hình LSI k lần.

Một phần của tài liệu tài liệu mô hình không gian vecto để xây dựng các hệ truy tìm thông tin (Trang 47)

Tải bản đầy đủ (DOC)

(76 trang)
w