Thuật toán phân cụm dữ liệu trừ (S C Subtractive C- 123docz.net

Trong thuật toán phân cụm trừ có 4 tham số ta phải thiết lập: e , e, ra và h

(hay rb). Các tham số này ảnh hưởng rất lớn đến kết quả phân cụm của thuật toán và gây nên sự không chắc chắn cho thuật toán. Nếu chọn e , e lớn sẽ làm giảm số cụm ngược lại nếu chọn e , e giá trị nhỏ quá sẽ làm tăng số lượng cụm.

Tương tự, việc lựa chọn ra và h (hay rb) cũng ảnh hưởng tới số lượng cụm được tạo ra nhiều hoặc ít. Như vậy, chúng ta không thể biết các tham số tốt nhất một tập dữ liệu thậm chí việc tìm kiếm theo một tham số cho thuật toán để đưa ra kết quả phân cụm tốt nhất cũng là khó khăn.

Ở hình 2.2 cho thấy kết quả phân cụm khi áp dụng giải thuật phân cụm trừ để phân cụm cho 100 mẫu dữ liệu được tạo thành qua việc mô hình hóa hàm không

Hình 2.2. Kết quả phân cụm dữ liệu của SC theo Chiu

Theo Chiu, ta lựa chọn các tham số lần lượt là e= 0.5 , e= 0.15, ra = 0.25và

1.5

h= thì sẽ cho kết quả phân cụm tốt nhất.

Còn ở hình 2.3 (a-b) là các đồ thị mô tả sự phục thuộc của SC vào các tham số

r và h. Trong đó hình 2.3a biểu thị sự phụ thuộc kết quả phân cụm của thuật toán SC vào tham số ra khi các tham số còn lại lần lượt được chọn là e= 0.5 , e= 0.15

và h= 1.5 và hình 2.3b biểu thị sự phụ thuộc kết quả phân cụm của thuật toán SC vào tham số h khi các tham số còn lại lần lượt được chọn là e = 0.5 , e = 0.15 và

a 0.25

r = .

Hình 2.3. a-b Sự phụ thuộc của SC vào các tham số ra và h

trở thành tâm của một cụm dữ liệu hay không qua hàm tính mật độ (khả năng) các mẫu dữ liệu bao quanh của mẫu đó mà thực chất là dựa vào khoảng cách giữa mẫu đó với các mẫu còn lại. Nếu một mẫu dữ liệu có rất nhiều mẫu khác bao quanh trong một phạm vi nhất định (trong khoảng bán kính cụm r) thì khả năng nó trở thành tâm cụm là rất lớn. Và việc xác định độ thuộc của một mẫu vào một cụm nào đó được dựa vào hàm thuộc Gaussian (4). Vì vậy, ta xem xét tới một tham số mờ có vai trò điều khiển quá trình phân chia thành các cụm dữ liệu thông qua việc đưa tham số m vào hàm tính mật độ cho các mẫu dữ liệu như công thức (2.1).

Nếu *

x là vị trí tâm cụm thứ k, có mật độ là *

P thì mật độ cho các mẫu dữ liệu còn lại được tính theo công thức (2.3).

Khi đó việc lựa chọn giá trị của tham số m sẽ ảnh hưởng rất lớn tới kết quả phân chia thành các cụm dữ liệu.

Qua điều chỉnh tham số mờ m ta cũng dễ dàng thu được kết quả phân cụm tốt mà không phụ thuộc nhiều vào việc điều chỉnh thiết lập các tham số ban đầu cho thuật toán phân cụm trừ. Hình 2.4 a minh họa số tâm cụm tạo hình thành từ việc lựa chọn các tham số ban đầu là e = 0.5, e= 0.15, ra= 0.25 và h=1.5được đánh giá là tốt nhất. Hình 2.4 b minh họa số tâm cụm được tạo thành theo thuật toán SC mở rộng với các tham số e= 0.5 , e= 0.15, ra = 0.4, h=1.35 và m= 2.47. Ta thấy rằng kết quả phân cụm từ hình 2.4a cũng tiến đến khá gần với kết quả phân cụm ở hình 2.4b

Như vậy với việc điều chỉnh tham số m thì cũng có thể thu được kết quả phân cụm là tương đối tốt mà không phụ thuộc vào việc lựa chọn bốn th am số ban đầu.

Nếu điểm có mật độ lớn nhất nằm giữa hai cận thì khoảng cách giữa điểm đó với các tâm cụm đã được xác định trước đó sẽ quyết định xem điểm đó có trở thành tâm cụm mới hay không.

Thuật toán SC:

Input: Vùng dữ liệu X, các tham số ra, (hay rb), e, e.

Output: Số lượng cụm và các tâm cụm.

Các bước thực hiện thuật toán phân cụm trừ mờ như sau:

Bước 1: Khởi tạo ra, h với b

a r r

h= , e và e .

Bước 2: Tính mật độ cho các điểm dữ liệu theo công thức (2.1). Chọn điểm có

mật độ lớn nhất làm tâm cụm đầu tiên: * ax1

n k i i P m P = = với k = 1 và Pk* là mật độ của tâm cụm thứ nhất .

Bước 3: Tính toán lại mật độ cho các điểm dữ liệu còn lại theo công thức (2.3).

Bước 4: Gọi x* là điểm có mật độ lớn nhất là P*.

- Nếu P*> ePref : x* là một tâm cụm mới và tiếp tục bước 3. - Ngược lại nếu P* ePref

< : chuyển sang bước 5

- Ngược lại:

+ dmin khoảng cách nhỏ nhất giữa *

x và các tâm cụm trước đó. + Nếu * min ef 1 r a d P r + P ³ : *

x là một tâm cụm mới và tiếp tục bước 3.

Thiết lập P x( *)= 0. Chọn x*

có mật độ P* lớn nhất và tiếp tục bước 4.

Bước 5: Đưa ra các cụm kết quả.

Khi đó bậc hay độ thuộc của một điểm đối với một tâm cụm được xác định theo công thức: 2 2 4 i k a x x r ik e (2.4) Nhận xét:

Các thuật toán phân cụm trước đó như K-means, K-medoids, C-means mờ yêu cầu phải xác định trước số lượng cụm và đưa ra các tâm cụm khởi tạo ban đầu. Kết quả phân cụm phụ thuộc vào các tâm cụm ban đầu này. Việc tìm ra các tâm cụm khởi tạo để thu được kết quả tốt là vấn đề khó. Giải thuật phân cụm trừ đã giải quyết được vấn đề này, tự xác định số lượng cụm và các tâm cụm dựa vào cấu trúc của tập dữ liệu.

Tuy nhiên, thuật toán phân cụm trừ lại phải thiết lập 4 tham số đầu vào là ra, (hay rb), e, e. Kết quả phân cụm phụ thuộc nhiều vào lựa chọn các tham số ban đầu và việc tìm các tham số để thuật toán cho kết quả tốt nhất là vấn đề khó khăn. Theo Chiu, các tham số ban đầu thường được chọn là ra = 0.25, = 1.5, e = 0.5,

e = 0.15. Tuy nhiên, việc lựa chọn bán kính ra tùy thuộc vào tập dữ liệu ban đầu. Bán kính ra quá nhỏ hoặc quá lớn đều đẫn đến kết quả kém chính xác, nếu chọn bán kính ra quá nhỏ thì hàm mật độ sẽ không ảnh hưởng tới các điểm dữ liệu lân cận, nếu chọn bán kính ra quá lớn thì hàm mật độ sẽ ảnh hưởng tới tất cả các điểm dữ liệu trong vùng. Một hướng cải tiến của thuật toán phân cụm trừ được đưa ra đó là thuật toán phân cụm trừ mờ.

Thuật toán phân cụm dữ liệu trừ (S C Subtractive Clustering)

Một giải thuật di truyền đơn giản

Những khuôn mẫu giống nhau