một phương pháp gom cụm nhưng khác với các phương pháp gom cụm khác ở chỗ nó là hình thức gom cụm theo kiểu mô hình tham số. Theo đó, các điểm dữ liệu sẽ được phân vào các nhóm với các cấu trúc phân bố Gaussian tương ứng chỉ khác biệt nhau về giá trị các tham số.
Hình 2.21 Mixture of Gaussian Distribution
Quy trình ước lượng tham số : Người ta sẽ xem các mẫu dữ liệu như các điểm được sinh ngẫu nhiên bởi mô hình hỗn hợp và ước lượng các tham số sao cho xác suất các điểm dữ liệu được sinh ra bởi mô hình hỗn hợp là cao nhất. Nói đơn giản là ta cực đại hoá xác suất hậu nghiệm :
Trong đó µ1,µ2,...,µk là các giá trị trung bình nhóm đối với các cấu trúc phân bố Gaussian tương ứng. Nếu xem như các điểm dữ liệu là độc lập xác suất với nhau ta cần phải cực đại biểu thức sau :
Với data là tập các điểm dữ liệu x, P(ϖi) là xác suất để cấu trúc phân bố thứ i được chọn để sinh ra một điểm dữ liệu bất kỳ, P(x |ϖi, {µi}) =
2 2/ ) ( 2 1 µ σ π σ x i
e − là xác suất để điểm dữ liệu x được sinh ra ngẫu nhiên bởi cấu trúc phân bố thứ i. Vấn đề ở đây là ta phải ước lượng {µi} sao cho xác suất hậu nghiệm
đạt giá trị lớn nhất (giả sử rằng các cấu trúc phân bố có cùng phương sai).
Ta có thể xem L = P(data | {µi}) là một hàm nhiều biến, khi đó việc cực đại
hoá P(data | {µi}) tương đương với việc giải các phương trình đạo hàm riêng phần
để xác định {µi} tương ứng : =0 ∂ ∂ i L µ
Tuy nhiên, việc giải những phương trình như vậy rất khó và thường là không giải quyết 1 cách trực tiếp được do ta thường không có đầy đủ thông tin về một mẫu dữ liệu x, ví dụ như ta không biết chính xác x thuộc về nhóm nào mà ta chỉ biết đại khái là x thuộc về 1 trong số m nhóm nào đó. Chính vì vậy, người ta đã đề xuất một cách tiếp cận “mềm dẻo” hơn, đó chính là thuật giải EM (Expectation – Maximization).
tham số này thông qua một chu trình gồm 2 bước được lặp đi lặp lại đến khi nào thoả một điều kiện dừng nào đó. Hai bước đó gồm có Expectation và Maximization. Ở bước Expectation, thuật giải sẽ ước lượng những thông tin chưa biết dựa vào những thông tin đã biết (bộ tham số ở thời điểm hiện tại + P(ϖi) đã biết trước) bằng cách xác định giá trị trung bình kỳ vọng của chúng theo lý thuyết xác suất. Ở bước Maximization, thuật giải sẽ dựa vào những thông tin đã ước lượng ở bước Expectation để tính lại bộ tham số hiện có.
Hình 2.22 Mã giả của thuật toán EM
Để hiểu bản chất của thuật giải EM chúng ta sẽ theo dõi ví dụ sau đây : Giả sử xk là điểm của học sinh trong một lớp học với xác suất phân bố :
x1 = 30 , P(x1) = ½ x2 = 18 , P(x2) = µ
x3 = 0 , P(x3) = 2µ
Trường hợp 1 : Qua khảo sát chúng ta biết được :
• x1 : a học sinh
• x2 : b học sinh
• x3 : c học sinh
• x4 : d học sinh
Như vậy, ta cần ước lượngµ để mô hình xác suất trên “khớp” với dữ liệu thu được
qua khảo sát :
Đặt L = P(a, b, c, d| µ), nhận xét rằng việc cực đại hoá L tương đương với cựa đại
hoá ln(L) do đó đặt P = ln(L) ta cần giải phương trình đạo hàm theo µ :
0 = ∂ ∂ µ P (b/µ) + (c/µ) – 3d/(1/2-3µ) = 0 µ = (b + c)/6*(b+c+d)
Ở trường hợp này, do thông tin có đủ nên việc giải trực tiếp tỏ ra khá thuận lợi. Trường hợp 2 : Qua khảo sát ta biết :
• Có h học sinh đạt x1 hay x2 điểm.
• Có c học sinh đạt x3 điểm.
• Có d học sinh đạt x4 điểm.
Để giải quyết bài toán trong tình trạng thiếu thông tin như vậy, ta sẽ sử dụng thuật giải EM – ước lượng giá trị trung bình kỳ vọng a, b sau đó cực đại hoá hàm xác suất hậu nghiệm.
Thuật toán EM rất có hiệu quả trong việc xử lý những mẫu dữ liệu không hoàn chỉnh. Mô hình hỗn hợp các phân bố Gaussian kết hợp giải thuật EM là một công cụ khá hiệu quả để giải bài toán gom cụm dữ liệu nhằm giảm kích thước tập dữ liệu khi đi vào phân tích.