CHƯƠNG 3 CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU
3.6. CÁC THUẬT TOÁN PHÂN CỤM DỰA TRấN Mễ HèNH
3.6.1. Thuật toỏn EM
Thuật toỏn EM được xem như là thuật toỏn dựa trờn mụ hỡnh hoặc là mở rộng của thuật toỏn K-means. Cụ thể là EM phõn cụm dựa trờn sự phõn phối xỏc suất. Thật vậy, EM gỏn cỏc đối tượng cho cỏc cụm đó cho theo xỏc suất phõn phối thành phần của đối tượng đú. Phõn phối xỏc suất thường được sử dụng là phõn phối xỏc suất Gaussian với mục đớch là khỏm phỏ cỏc giỏ trị tốt nhất cho cỏc tham số của nú bằng hàm tiờu chuẩn là hàm logarit, đõy là hàm tốt để mụ hỡnh xỏc suất cho cỏc đối tượng dữ liệu. EM cú thể khỏm phỏ ra nhiều hỡnh dạng cụm khỏc nhau, tuy nhiờn do thời gian lặp của thuật toỏn khỏ nhiều nhằm xỏc định cỏc tham số tốt nờn chi phớ tớnh toỏn cho thuật toỏn
tương đối cao. Đó cú một số cải tiến được đề xuất cho EM dựa trờn cỏc tớnh toỏn của dữ liệu: cú thể nộn, sao lưu trong bộ nhớ, hủy bỏ. Trong cỏc cải tiến này, cỏc đối tượng bị hủy bỏ khi biết chắc chắn được nhón phõn cụm cho nú, chỳng được nộn khi khụng được loại bỏ và thuộc về một cụm quỏ lớn so với bộ nhớ và chỳng sẽ được lưu lại trong cỏc trường hợp cũn lại [11][15].
Sự phõn phối xỏc suất của EM được thể hiện như hỡnh 3.40.
Hỡnh 3.40. Phõn phối xỏc suất trong thuật toỏn EM
ỉ Thuật toỏn EM được phỏt biểu cụ thể như sau:
1. Đầu tiờn, tớnh toỏn xỏc suất phõn phối của cỏc cụm được thực hiện. 2. Tiếp theo, tớnh toỏn cỏc giỏ trị tham số phõn bổ, là những giỏ trị tốt
nhất cú thể cú của dữ liệu.
3. Theo mặc định, EM lựa chọn cụm tự động bằng giỏ trị tốt nhất của hàm tiờu chuẩn logarit khả năng của đối tượng dữ liệu, ước lượng sử dụng kiểm tra chộo. Bắt đầu với một cụm, rồi sau đú thờm vào cỏc cụm cho đến khi hàm logarit khả năng ước lượng được suy giảm.
3.6.2. Thuật toỏn COBWEB
COBWEB (Fisher, Douglas H. (1987)) là cỏch tiếp cận để biểu diễn cỏc đối tượng dữ liệu theo kiểu cặp thuộc tớnh-giỏ trị. COBWEB thực hiện bằng cỏch tạo cõy phõn lớp, tương tự như khỏi niệm của BIRCH, tuy nhiờn
cấu trỳc cõy khỏc nhau. Mỗi nỳt của cõy phõn lớp là đại diện cho khỏi niệm của đối tượng dữ liệu và tất cả cỏc điểm mà ở dưới lớp đú cựng thuộc một nỳt. COBWEB sử dụng cụng cụ phõn loại để quản lý cấu trỳc của cõy. Từ đú cỏc cụm hỡnh thành dựa trờn phộp đo độ tương tự mà phõn loại giữa tương tự và phi tương tự, cả hai cú thể mụ tả phõn chia giỏ trị thuộc tớnh giữa cỏc nỳt trong lớp. Cấu trỳc cõy cũng cú thể được hợp nhất hoặc phõn tỏch khi chốn một nỳt mới vào cõy. Cú hai phương phỏp cải tiến cho COBWEB là CLASSIT (COBWEB+NUMERICAL ATRIBUTES) và AUTO CLASS.
COBWEB xõy dựng một cõy phõn lớp theo thứ tự tăng dần bằng cỏch chốn vào cõy cỏc đối tượng từng bước một. Khi cú một đối tượng được chốn vào cõy phõn lớp, thuật toỏn COBWEB lại duyệt lại toàn bộ cõy từ trờn xuống dưới, bắt đầu từ gốc [10][15].
ỉ Thuật toỏn COBWEB cụ thể như sau:
1. Khởi tạo cõy bắt đầu là một nỳt trống.
2. Sau đú thờm vào từng nỳt một và cập nhập lại cõy cho phự hợp tại mỗi thời điểm.
3. Cập nhập cõy bắt đầu từ lỏ bờn phải trong mỗi trường hợp, sau đú cấu trỳc lại cõy.
4. Quyết định cập nhập dựa trờn sự phõn hoạch và cỏc hàm tiờu chuẩn phõn loại.
Tại mỗi nỳt, giải thuật COBWEB xem xột 4 khả năng cú thể xảy ra và lựa chọn một khả năng cú hàm giỏ trị CU đạt được tốt nhất của quỏ trỡnh (Insert, Create, Merge, Split).
Một nỳt mới được chốn vào một nỳt con đó tồn tại sẵn, giải thuật COBWEB trong mỗi trường hợp xỏc định hàm giỏ trị CU khi chốn đối tượng mới vào trong nỳt con đó tồn tại trước và lựa chọn ra trường hợp cú giỏ trị cao nhất.
Giải thuật COBWEB cũng xem xột việc tạo một nỳt con mới cụ thể cho mỗi đối tượng mới.
Giải thuật COBWEB cũng xem xột việc nối hai nỳt con đó cú với giỏ trị cao nhất và nhỡ như hỡnh 3.41.
Hỡnh 3.41. Quỏ trỡnh nối hai nỳt con
Giải thuật COBWEB cũng xem xột việc tỏch một nỳt con cú giỏ trị cao nhất như hỡnh 3.43.