CHƢƠNG II : PHÂN CỤM ĐA MÔ HÌNH
2.3. Thuật toán phân cụm đa mô hình MCLA (sMCLA)
Trong MCLA mỗi cụm đƣợc đại diện bởi một vector n-chiềukết hợp. Ý tƣởng là để nhóm và thu gọn cụm vào siêu cụm, và sau đó gán từng đối tƣợng để các siêu cụm trong đó nó tốt nhất. Các cụm đƣợc chia nhóm theo phân vùng đồ thị dựa phân cụm. sMCLA là mở rộng MCLA bằng cách chấp nhận phân cụm mềm nhƣ đầu vào. sMCLA có thể đƣợc chia thành các bƣớc sau:
Xây dựng Meta-Graphcủa cụm: Tất cả các ( ) 1
r q q k
theo từng cụm hoặc chỉ số vector si (với trọng số), các siêu cạnh của S, có thể đƣợc xem nhƣ là đỉnh của
một đồ thị vô hƣớng. Các trọng số cạnh giữa hai cụm sa và sb đƣợc thiết lập
nhƣ là Wa b, Euclidean dist s s_ ( , ).a b Khoảng cách Euclide là một thƣớc đo của sự khác biệt về thành viên của tất cả các đối tƣợng đến hai cụm này. Nhƣ trong các
thuật toán SCSPA, khoảng cách Euclid đƣợc chuyển đổi thành một giá trị tƣơng tự.
Nhóm các cụm vào siêu cụm: Các Meta-graph xây dựng trong bƣớc trƣớc đƣợc
phân chia sử dụng để tạo ra METIS k cân bằngsiêu cụm. Vì mỗi đỉnh trong Meta - graph đại diện cho một nhãn cụm riêng biệt, một cụm Meta đại diện cho một nhóm các các nhãn cụm tƣơng ứng.
Thu gọn Meta-clusters sử dụng trọng số: Thu gọn tất cả các cụm chứa trong mỗi
meta-cluster để tạo thành vector liên kết của nó. Mỗi meta-clusters chứa một giá trị cho mọi đối tƣợng của nó. Vector liên kết này đƣợc tính là trung bình của các vectơ liên kết để mỗi cụm đƣợc nhóm lại thành các meta-cluster. Đây là một hình thức có trọng số của các bƣớc thực hiện trong MCLA.
Mã giả:
Input: Data set X { , ,..., }x x1 2 xm ;
j 1 * C C j k ; Process 1. V C ; 2. E ; 3. fori1,..., :k* 4.for j1,...,k*:
5.if Ci và Cjthuộc về cụm khác nhau 6.then E E eij % thêm cạnh
7.wij Ci Cj Ci Cj Ci Cj ;
8.end
10.GV E, ; 11.C1 M C2 M ...Ck M =METIS(G) ; 12.for p1... :k 13.fori1... :m 14. (M) P M M pi C C i P h x C C ; 15.end 16. end 17. fori1,..., :m 18. i arg maxp{1,...,k}h(M)pi ; 19. end
20. Output: Phân cụm đa mô hình ;