Mụ hỡnh khụng gian vectơ

Một phần của tài liệu Phân cụm tập kết quả tìm kiếm web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn và fisher kernel (Trang 31)

Trong bài toỏn khai thỏc tỡm kiếm thụng tin, mỗi tài liệu được xem như là một chuỗi cỏc từ, và chỳng thường được biểu diễn dưới dạng vectơ nhiều chiều. Mỗi một chiều tương ứng với một từ riờng biệt. Với cỏch biểu diễn này chỳng ta cú thể dễ dàng thực hiện phõn cụm tài liệu. Tuy nhiờn, vỡ phụ thuộc vào số từ riờng biệt trong tài liệu nờn số chiều của vectơ thường rất lớn. Việc tớnh toỏn trong khụng gian nhiều chiều tốn nhiều thời gian và đụi lỳc khụng thể thực hiện vỡ hạn chế khụng gian nhớ và thời gian thực. Do đú, để sử dụng hiệu quả cỏch biểu diễn này trước tiờn cần phải giảm số chiều của vectơ.

Như chỳng ta đều biết, thường thỡ nội dung của tài liệu đỳng bằng nghĩa của tất cả cỏc từ trong nú cộng lại. Tuy nhiờn, điều đú khụng cú nghĩa là tất cả cỏc từ trong tài liệu đều cú ý nghĩa diễn đạt nội dung tài liệu. Vỡ vậy chỳng ta chỉ cần biểu diễn những từ cú nghĩa. Khi đú số chiều của vectơ sẽ được giảm đỏng kể kộo theo làm giảm độ phức tạp tớnh toỏn, song vẫn đảm bảo tớnh toàn vẹn nội dung tài liệu. Do đú bước tiền xử lớ dữ liệu là khụng thể thiếu được. Nú bao gồm cỏc bước xử lớ sau: phõn tớch từ vựng, stemming, loại bỏ stop_word, v.v…(xem 2.4)

Sau khi hoàn thành cỏc bước tiền xử lớ, ta cú thể biểu diễn tập tài liệu theo mụ hỡnh khụng gian vectơ như sau:

Giả sử cú tập N tài liệu d1, d2, …, dN và tập M từ (sau khi xử lớ). Khi đú, mỗi tài liệu di sẽ được biểu diễn như sau: di = [w1i, w2i, …, wMi]T với wji là trọng số của từ thứ j trong tài liệu di.

Một phần của tài liệu Phân cụm tập kết quả tìm kiếm web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn và fisher kernel (Trang 31)