Bài toán phân cụm dữ liệu

Một phần của tài liệu phương pháp học nửa giám sát và ứng dụng (Trang 42 - 45)

Các mục dữ liệu tƣơng tự nhau đƣợc nhóm lại để hình thành các cụm trên cơ sở độ đo mức tƣơng tự nào đó. Mỗi cụm đƣợc biểu diễn bởi trọng tâm vector

đặc trƣng của cụm. Trong khi truy vấn, ta tính toán độ tƣơng tự giữa vector truy vấn và từng cụm (đại diện bởi trọng tâm cụm). Các cụm mà độ tƣơng tự của nó với vector truy vấn mà lớn hơn ngƣỡng nào đó thì đƣợc lựa chọn. Sau đó, độ tƣơng tự giữa vector truy vấn với từng vector đặc trƣng trong cụm đƣợc tính toán và k mục gần nhất đƣợc xếp hạng và đƣợc xem nhƣ kết quả.

Ví dụ, các vector đặc trƣng trên hình dƣới đƣợc nhóm vào 11 cụm. Trong khi truy tìm, vector truy vấn đƣợc so sánh với lần lƣợt 11 trọng tâm cụm. Nếu tìm thấy trọng tâm cụm 2 gần giống vector truy vấn nhất thì ta tính khoảng cách giữa vector truy vấn với từng vector đặc trƣng trong cụm 2. Tổng số tính toán khoảng cách đòi hỏi phải nhỏ hơn nhiều tổng các vector đặc trƣng trong cơ sở dữ liệu.

Hình 2.5: Phân cụm các vector truy vấn

Trong phƣơng pháp truy tìm trên cơ sở cụm trên đây, mức độ tƣơng tự đƣợc tính toán giữa câu truy vấn và từng trọng tâm và với từng vector đặc trƣng trong cụm lựa chọn. Khi tổng số cụm mà lớn, ta sử dụng cụm nhiều tầng để làm giảm tính toán mức độ tƣơng tự giữa truy vấn và trọng tâm. Các cụm tƣơng tự nhau đƣợc nhóm để hình thành cụm lớn hơn. Trong khi truy tìm, trƣớc hết so sánh vector truy vấn với trọng tâm của cụm cha sau đó so sánh với từng trọng

tâm các cụm bên trong cụm cha, cuối cùng so sánh với các vector đặc trƣng của cụm con.

Trong khi truy vấn, so sánh vector truy vấn với từng trọng tâm của 4 cụm cha. Nếu tìm thấy trọng tâm của cụm cha 1 là gần vector truy vấn nhất, hãy so sánh vector truy vấn với ba trọng tâm cụm con trong cụm cha 1. Trong thí dụ cụm hai mức này, tổng số khoảng cách tính toán đòi hỏi giữa vector truy vấn và trọng tâm (của các cụm cha và cụm con) là 7 (4+3), nhỏ hơn 11 tính toán khi sử dụng cụm một tầng.

Hình 2.6: Hình thành cụm cha

Cụm không chỉ làm truy tìm hiệu quả mà còn làm dễ dàng cho việc duyệt và dẫn đƣờng. Với duyệt và dẫn đƣờng, một mục đại diện mà có vector đặc trƣng gần trọng tâm cụm của nó thì đƣợc hiển thị cho mỗi cụm. Nếu ngƣời sử dụng quan tâm đến mục đại diện thì họ có thể quan sát các mục khác trong cụm.

Các kỹ thuật cụm đƣợc sử dụng chung với các cấu trúc dữ liệu để tìm kiếm hiệu quả hơn. Các mục tƣơng tự đƣợc nhóm thành cụm. Trọng tâm các cụm hoặc/và các mục trong mỗi cụm đƣợc tổ chức nhờ cấu trúc dữ liệu nào đó để tìm kiếm hiệu quả.

Một phần của tài liệu phương pháp học nửa giám sát và ứng dụng (Trang 42 - 45)

Tải bản đầy đủ (PDF)

(77 trang)