Mục tiêu của phân cụm dữ liệu trong tìm kiếm thông tin

Một phần của tài liệu Tìm hiểu và xây dựng hệ thống tìm kiếm văn bản trên cơ sở phân cụm dữ liệu (Trang 54 - 56)

Các mục thông tin tương tự nhau được nhóm lại để hình thành các cụm trên cơ sở độ đo mức tương tự nào đó. Mỗi cụm được biểu diễn bởi trọng tâm véctơ đặc trưng của cụm. Trong khi truy tìm, ta tính toán độ tương tự giữa véctơ truy vấn và từng cụm (đại diện bởi trọng tâm cụm). Các cụm mà độ tương tự của nó với véctơ truy vấn mà lớn hơn ngưỡng nào đó thì được lựa chọn. Sau đó, độ tương tự giữa véctơ truy vấn với từng véctơ đặc trưng trong cụm được tính toán và k mục gần nhất được xếp hạng và được xem như kết quả cho lại.

Hình 3.1: Phân cụm các véctơ truy vấn

Thí dụ, các véctơ đặc trưng trên hình 3.1 được nhóm vào 11 cụm. Trong khi truy tìm, véctơ truy vấn được so sánh với lần lượt 11 trọng tâm cụm. Nếu tìm thấy trọng tâm cụm 2 gần giống véctơ truy vấn nhất thì ta tính khoảng cách giữa véctơ truy vấn với từng véctơ đặc trưng trong cụm 2. Tổng số tính toán khoảng cách đòi hỏi phải nhỏ hơn nhiều tổng các véctơ đặc trưng trong CSDL.

Trong phương pháp truy tìm trên cơ sở cụm trên đây, mức độ tương tự được tính toán giữa câu truy vấn và từng trọng tâm và với từng véctơ đặc trưng trong cụm lựa chọn. Khi tổng số cụm mà lớn, ta sử dụng cụm nhiều tầng để làm giảm tính toán mức độ tương tự giữa truy vấn và trọng tâm. Các cụm tương tự nhau được nhóm để hình thành cụm lớn hơn (super-cluster). Trong khi truy tìm, trước hết so sánh véctơ truy vấn với trọng tâm của cụm cha sau đó so sánh với từng trọng tâm các cụm bên trong cụm cha, cuối cùng so sánh với các véctơ đặc trưng của cụm con. Hãy xem xét không gian đặc trưng trên hình 3.1, ta có thể hình thành cụm cha n hư hình 3.2. Trong khi truy tìm, so sánh véctơ truy vấn với từng trọng tâm của 4 cụm cha. Nếu tìm thấy trọng tâm của cụm cha 1 là gần véctơ truy vấn nhất, hãy so sánh véctơ truy vấn với ba trọng tâm cụm con trong cụm cha 1. Trong thí dụ cụm hai mức này, tổng số tính toán khoảng cách đòi hỏi giữa véctơ truy vấn và trọng tâm (của các cụm cha và cụm con) là 7 (4+3), nhỏ hơn 11 tính toán khi sử dụng cụm một tầng.

Cụm 1

Cụm 2

Cụm 3

Trọng tâm cụm Véctơ đặc trưng

Hình 3.2: Hình thành cụm cha

Cụm không chỉ làm truy tìm hiệu quả mà còn làm dễ dàng cho việc duyệt và dẫn đường. Với duyệt và dẫn đường, một mục đại diện mà có véctơ đặc trưng gần trọng tâm cụm của nó thì được hiển thị cho mỗi cụm. Nếu người sử dụng quan tâm đến mục đại diện thì họ có thể quan sát các mục khác trong cụm.

Các kỹ thuật cụm được sử dụng chung với các cấu trúc dữ liệu để tìm kiếm hiệu quả hơn. Các mục tương tự được nhóm thành cụm. Trọng tâm các cụm hoặc/và các mục trong mỗi cụm được tổ chức nhờ cấu trúc dữ liệu nào đó để tìm kiếm hiệu quả.

Một phần của tài liệu Tìm hiểu và xây dựng hệ thống tìm kiếm văn bản trên cơ sở phân cụm dữ liệu (Trang 54 - 56)

Tải bản đầy đủ (PDF)

(91 trang)