Phõn cụm bỏn giỏm sỏt là phương phỏp sử dụng cỏc thụng tin bổ trợ để hướng dẫn cho quỏ trỡnh phõn cụm. Cỏc thụng tin bổ trợ cú thể được cho dưới dạng tập cỏc cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được gỏn nhón. Một số cụng trỡnh nghiờn cứu gần đõy đó dựng thụng tin bổ trợ trong việc phõn cụm [4,5,6,7]
Đối với phương phỏp phõn cụm nửa giỏm sỏt dựa trờn tập dữ liệu được gỏn nhón, để hỡnh thành nờn cỏc cụm giống nhằm khởi tạo cho một thuật toỏn phõn cụm hoặc để sinh ra cỏc ràng buộc dẫn dắt quỏ trỡnh phõn cụm, người ta sẽ sử dụng tập dữ liệu được gỏn nhón.
Bài toỏn phõn cụm nửa giỏm sỏt dựa trờn tập dữ liệu được gỏn nhón được phỏt biểu như sau: Cho một tập dữ liệu ban đầu N1
i i
X x , gọi S X là tập giống (tập dữ liệu đó gỏn nhón) trong đú với mỗi đối tượng xj S người dựng cung cấp cho nú một phõn hoạch (cụm) Xh. Giả sử rằng bất kể cụm nào trong X cũng cú ớt nhất một đối tượng xj thuộc tập giống. Người ta phõn hoạch tập giống S thành K cụm giống tỏch rời K1
h h
S , do đú mọi đối tượng xj Sh đều nằm trong cụm Xh
tương ứng. Nhiệm vụ cần giải quyết là từ K cụm giống K1 h h
S chỳng ta phải phõn hoạch tập dữ liệu X thành K phõn hoạch tỏch rời K1
h h
X .
Thuật toỏn Seeded-KMeans
Seeded-Kmeans là thuật toỏn phõn cụm bỏn giỏm sỏt điển hỡnh dựa trờn tập dữ liệu đó được người dựng gỏn nhón được Basu đề xuất năm 2002.
Thuật toỏn Seeded-KMeans sử dụng cỏc cụm giống Sh để khởi tạo cho thuật toỏn K-Means. Do vậy thay vỡ phải khởi tạo K cụm ngẫu nhiờn chỳng ta khởi tạo chỳng từ K cụm giống.
Thuật toỏn Seeded-KMeans
Input: - Tập cỏc đối tượng dữ liệu X x1,...,xN,xid
- Số lượng cụm: K - Tập giống K1
h h
S S
Output: K phõn hoạch tỏch rời: K1 h h
X của X sao cho hàm mục tiờu được tối ưu.
Thuật toỏn:
Bước 1: Khởi tạo cỏc cụm: (0) 1
h h x S h x S , với h = 1,...K; t0.
Bước 2: Gỏn cụm: Gỏn mỗi đối tượng dữ liệu x vào cụm h* (tức là tập * ( 1) 1 K t h h X ) với h* = argmin ( ) 2 || t || h x
Bước 3: Ước lượng tõm: ( 1)
( 1) ( 1) 1 | | ht t h t x X h x X Bước 4: t t+1
Bước 5: Dừng nếu hội tụ hoặc quay lại bước 2.