Thuật toán k-tâm phân cụm dữ liệu hỗn hợp là mở rộng thuật toán k-mean khi đã mở rộng các miền giá trị của thuộc tính có thứ tự và xác định khoảng cách giữa các đối tượng nhưđã nêu. Thuật toán được đặc tả như sau:
Proceduce k-tâm Begin Chọn các trọng số ρj, các hàm fj ,xác định k. Chọn k phần tử ban đầu { }k j j z =1 của D làm tâm các cụm Xếp mỗi x ∈D vào cụm Cj mà nó gần tâm nhất; For j=1,...,k do zj ←mode(Cj); Repeat
Phân bố lại cụm theo tâm mới// như k-mean; Cập nhật lại tâm cho các cụm // nhờ tính mode
Until các cụm không đổi; Xác định các cụm
End
Dễ dàng nhận được định lý sau về tính hội tụ của thuật toán.
¾ Sự hội tụ của thuật toán
Thuật toán trên hội tụ sau một số hữu hạn bước lặp tới điểm cực tiểu địa phương của hàm P: ∑ ∑ = ∈ = k j x c j j z x d P 1 2( , ) (14) ¾ Nhận xét
1) Khi thuật toán kết thúc, các đối tượng tâm có thể không thuộc tập X. Để tìm phần tửđại diện cho mỗi cụm, ta lấy phần tử thuộc cụm gần với tâm của nó nhất.
Đồ án tốt nghiệp Đại học hệ chính quy Thuật toán Phân cụm dữ liệu nửa giám sát
28
Chương 4 : PHÂN CỤM DỮ LIỆU NỬA GIÁM SÁT
Phân cụm nửa giám sát là phương pháp sử dụng các thông tin bổ trợđể hướng dẫn cho quá trình phân cụm. Các thông tin bổ trợ có thể được cho dưới dạng tập các cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được dán nhãn. Công việc xác định những tập ràng buộc hay những tập dữ liệu được dán nhãn được thực hiện bởi người phân cụm. Việc xác định này tuỳ thuộc vào kinh nghiệm của người phân cụm hoặc có thể dựa vào các tiêu chuẩn khác nhau tuỳ theo mục đích của việc phân cụm. Hiện nay có hai hương tiếp cận phương pháp phân cụm nửa giám sát đó là:
• Phương pháp dựa trên tìm kiếm(search-based ) Trong hướng tiếp cận này, chính thuật toán phân cụm đã được sửa đổi
nhằm tìm kiếm một phân hoạch thích hợp thông qua việc sử dụng các thông tin bổ trợ. Trong phần sau em xin trình bày ba thuật: COP-KMeans, Seeded- KMeans, Constrained-KMeans là các thuật toán điển hình của phương pháp dựa trên tìm kiếm.
• Phương pháp dựa trên độđo tương tự(similarity-based).
Trong phương pháp này, người ta sử dụng một thuật toán phân cụm (có sử dụng độđo tương tự) hiện có. Tuy nhiên, độđo đầu tiên được huấn luyện để
thoả mãn các thông tin bổ trợ. Các độđo được dùng có thể kể đến như: khoảng cách Euclide, khoảng cách Mahattan,…