.Thuật toỏn phõn cụm bỏn giỏm sỏt Seeded-KMeans

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 31 - 33)

Phõn cụm bỏn giỏm sỏt là phương phỏp sử dụng cỏc thụng tin bổ trợ để hướng dẫn cho quỏ trỡnh phõn cụm. Cỏc thụng tin bổ trợ cú thể được cho dưới dạng tập cỏc cặp ràng buộc hoặc một tập nhỏ một số dữ liệu được gỏn nhón. Một số cụng trỡnh nghiờn cứu gần đõy đó dựng thụng tin bổ trợ trong việc phõn cụm [4,5,6,7]

Đối với phương phỏp phõn cụm nửa giỏm sỏt dựa trờn tập dữ liệu được gỏn nhón, để hỡnh thành nờn cỏc cụm giống nhằm khởi tạo cho một thuật toỏn phõn cụm hoặc để sinh ra cỏc ràng buộc dẫn dắt quỏ trỡnh phõn cụm, người ta sẽ sử dụng tập dữ liệu được gỏn nhón.

Bài toỏn phõn cụm nửa giỏm sỏt dựa trờn tập dữ liệu được gỏn nhón được phỏt biểu như sau: Cho một tập dữ liệu ban đầu  N1

i i

Xx, gọi SX là tập giống (tập dữ liệu đó gỏn nhón) trong đú với mỗi đối tượng xj S người dựng cung cấp cho nú một phõn hoạch (cụm) Xh. Giả sử rằng bất kể cụm nào trong X cũng cú ớt nhất một đối tượng xj thuộc tập giống. Người ta phõn hoạch tập giống S thành K cụm giống tỏch rời  K1

h h

S  , do đú mọi đối tượng xj Sh đều nằm trong cụm Xh

tương ứng. Nhiệm vụ cần giải quyết là từ K cụm giống  K1 h h

S  chỳng ta phải phõn hoạch tập dữ liệu X thành K phõn hoạch tỏch rời  K1

h h

X  .

Thuật toỏn Seeded-KMeans

Seeded-Kmeans là thuật toỏn phõn cụm bỏn giỏm sỏt điển hỡnh dựa trờn tập dữ liệu đó được người dựng gỏn nhón được Basu đề xuất năm 2002.

Thuật toỏn Seeded-KMeans sử dụng cỏc cụm giống Sh để khởi tạo cho thuật toỏn K-Means. Do vậy thay vỡ phải khởi tạo K cụm ngẫu nhiờn chỳng ta khởi tạo chỳng từ K cụm giống.

Thuật toỏn Seeded-KMeans

Input: - Tập cỏc đối tượng dữ liệu X x1,...,xN,xid

- Số lượng cụm: K - Tập giống K1

h h

S   S

Output: K phõn hoạch tỏch rời:  K1 h h

X  của X sao cho hàm mục tiờu được tối ưu.

Thuật toỏn:

Bước 1: Khởi tạo cỏc cụm: (0) 1

h h x S h x S    , với h = 1,...K; t0.

Bước 2: Gỏn cụm: Gỏn mỗi đối tượng dữ liệu x vào cụm h* (tức là tập  *  ( 1) 1 K t h h X   ) với h* = argmin ( ) 2 || t || h x

Bước 3: Ước lượng tõm: ( 1)

( 1) ( 1) 1 | | ht t h t x X h x X        Bước 4: t t+1

Bước 5: Dừng nếu hội tụ hoặc quay lại bước 2.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 31 - 33)

Tải bản đầy đủ (PDF)

(89 trang)