Phân cụm phân cấp

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan (Trang 29 - 31)

Các phương pháp phân cụm tối ưu (phân cụm phân hoạch) cho ra phân cụm là một phân hoạch tối ưu theo một hàm tiêu chuẩn nào đó. Tuy nhiên, trong nhiều hoàn cảnh, một cụm lại chứa các cụm con, các cụm con này lại chứa các cụm con nhỏ hơn,… Điều đó dẫn đến cách tiếp cận phân cụm như sau. Quá trình phân cụm tạo thành một dãy các mức. Đầu tiên (mức 1), mỗi điểm dữ liệu tạo thành một cụm, và do đó ở mức 1 có N cụm (tập dữ liệu D có N điểm). Ở mức 2, ta chọn hai cụm ở mức 1 gộp lại thành một cụm, và do đó mức 2 có N – 1 cụm. Cứ thế tiếp tục, chọn hai cụm ở mức k – 1 gộp lại để tạo thành một cụm ở mức k. Số cụm ở mức k là N – k + 1. Cuối cùng ở mức N, toàn bộ tập dữ liệu ở trong một cụm. Quá

trình trên có thể biểu diễn dưới dạng cây như trong hình 1.7a, hoặc dưới dạng biểu đồ Venn như trong hình 1.7b. Quá trình phân cụm trên được gọi là phân cụm phân cấp gộp (agglomerative hierarchical cluster), đó là thủ tục bottom-up. Đối lập với phân cụm phân cấp gộp là phân cụm phân cấp chia (divisive hierarchical clustering). Đó là thủ tục top-down. Đầu tiên (ở mức 1), toàn bộ tập dữ liệu thuộc cùng một cụm. Sau đó ở các mức tiếp theo ta chọn một cụm và chẻ nó ra thành hai cụm. Cuối cùng ở mức N, ta thu được N cụm, mỗi cụm chứa đúng một dữ liệu, như được chỉ ra hình 1.7a.

(a) (b)

Hình 1.7 Phân cụm phân cấp tập dữ liệu D={a,b,c,d,e}

Phần lớn các thuật toán phân cụm phân cấp thuộc phạm trù phân cụm phân cấp gộp. Mục này sẽ trình bày một vài thuật toán đó. Trước hết ta cần trả lời được câu hỏi, ở mỗi bước làm thế nào chọn ra được hai cụm để gộp chúng thành một cụm? Chúng ta sẽ xác định khoảng cách giữa hai cụm. Khi đã lựa chọn một khoảng cách, thì hai cụm được chọn là hai cụm gần nhau nhất theo khoảng cách đã chọn.

Khoảng cách giữa hai cụm. Giả sử Ckvà Cl là hai cụm, và dis(X, X’) là độ đo không tương tự giữa hai điểm X và X’. Sau đây là một số độ đo khoảng cách thông dụng nhất. Dmin (Ck, Cl) = k l X C ,X C min dis(X,X')   (1.4) Dmax (Ck, Cl) = k l X C ,X Cmax dis(X,X')   (1.5)

Davg (Ck, Cl) = k l X C X C k l 1 dis(X,X') N N    (1.6)

Trong đó Nk , Nl là số điểm dữ liệu của cụm Ck, Cl tương ứng. Với các dữ liệu liên tục, còn có thể sử dụng khoảng cách sau:

Dmin (Ck, Cl) = m - mk l (1.7)

Trong đó, mk và mllà tâm của cụm Ck và Cltương ứng.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan (Trang 29 - 31)

Tải bản đầy đủ (PDF)

(62 trang)