Thuật toỏn EM

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 81)

Thuật toỏn EM được xem như là thuật toỏn dựa trờn mụ hỡnh hoặc là mở rộng của thuật toỏn K-means. Cụ thể là EM phõn cụm dựa trờn sự phõn phối xỏc suất. Thật vậy, EM gỏn cỏc đối tượng cho cỏc cụm đó cho theo xỏc suất phõn phối thành phần của đối tượng đú. Phõn phối xỏc suất thường được sử dụng là phõn phối xỏc suất Gaussian với mục đớch là khỏm phỏ cỏc giỏ trị tốt nhất cho cỏc tham số của nú bằng hàm tiờu chuẩn là hàm logarit, đõy là hàm tốt để mụ hỡnh xỏc suất cho cỏc đối tượng dữ liệu. EM cú thể khỏm phỏ ra nhiều hỡnh dạng cụm khỏc nhau, tuy nhiờn do thời gian lặp của thuật toỏn khỏ nhiều nhằm xỏc định cỏc tham số tốt nờn chi phớ tớnh toỏn cho thuật toỏn

tương đối cao. Đó cú một số cải tiến được đề xuất cho EM dựa trờn cỏc tớnh toỏn của dữ liệu: cú thể nộn, sao lưu trong bộ nhớ, hủy bỏ. Trong cỏc cải tiến này, cỏc đối tượng bị hủy bỏ khi biết chắc chắn được nhón phõn cụm cho nú, chỳng được nộn khi khụng được loại bỏ và thuộc về một cụm quỏ lớn so với bộ nhớ và chỳng sẽ được lưu lại trong cỏc trường hợp cũn lại [11][15].

Sự phõn phối xỏc suất của EM được thể hiện như hỡnh 3.40.

Hỡnh 3.40. Phõn phối xỏc suất trong thuật toỏn EM

Thut toỏn EM được phỏt biu c th như sau:

1. Đầu tiờn, tớnh toỏn xỏc suất phõn phối của cỏc cụm được thực hiện. 2. Tiếp theo, tớnh toỏn cỏc giỏ trị tham số phõn bổ, là những giỏ trị tốt

nhất cú thể cú của dữ liệu.

3. Theo mặc định, EM lựa chọn cụm tự động bằng giỏ trị tốt nhất của hàm tiờu chuẩn logarit khả năng của đối tượng dữ liệu, ước lượng sử dụng kiểm tra chộo. Bắt đầu với một cụm, rồi sau đú thờm vào cỏc cụm cho đến khi hàm logarit khả năng ước lượng được suy giảm.

Một phần của tài liệu Một số vấn đề về phân cụm dữ liệu (Trang 81)