Phân bố Gauss còn được gọi là phân bố chuẩn được sử dụng rộng rãi như là mô hình cho phân bố của các biến liên tục. Trong trường hợp biến đơn 𝑥𝑥, phân bố Gauss có thểđược viết dưới dạng:
𝒩𝒩(𝑥𝑥|𝜇𝜇,𝜎𝜎2) = 1
(2𝜋𝜋𝜎𝜎2)1/2exp�− 1
2𝜎𝜎2(𝑥𝑥 − 𝜇𝜇)2� (1.13) Phân bốGauss như trên được chi phối bởi 2 tham số: kỳ vọng 𝜇𝜇và phương sai 𝜎𝜎2. Hình 1.3 là ví dụ cho phân bốGauss đơn biến đơn thể hiện với 𝜇𝜇= 0, 𝜎𝜎 = 1.
Hình 1.3 Phân bố Gauss đơn biến đơn thể hiện với 𝜇𝜇 = 0 và 𝜎𝜎= 1 Từ (1.13) có thể thấy phân bố Gauss thỏa mãn:
𝒩𝒩(𝑥𝑥|𝜇𝜇,𝜎𝜎2)≥0 (1.14)
Phân bố Gauss được chuẩn hóa:
� 𝒩𝒩∞ (𝑥𝑥|𝜇𝜇,𝜎𝜎2)𝑑𝑑𝑥𝑥 = 1
−∞ (1.15)
Kỳ vọng của 𝑥𝑥 theo phân bố Gauss:
𝔼𝔼[𝑥𝑥] = � 𝒩𝒩(𝑥𝑥|𝜇𝜇,∞ 𝜎𝜎2)𝑥𝑥𝑑𝑑𝑥𝑥=
−∞ 𝜇𝜇 (1.16)
Mô ment bậc 2:
𝔼𝔼[𝑥𝑥2] = � 𝒩𝒩∞ (𝑥𝑥|𝜇𝜇,𝜎𝜎2)𝑥𝑥2𝑑𝑑𝑥𝑥 =
−∞ 𝜇𝜇2+𝜎𝜎2 (1.17)
𝒩𝒩(𝑥𝑥|𝜇𝜇,𝜎𝜎2)
32 Từ (1.16) và (1.17), phương sai của 𝑥𝑥 sẽ là:
var[𝑥𝑥] = 𝔼𝔼[𝑥𝑥2]− 𝔼𝔼[𝑥𝑥]2 =𝜎𝜎2 (1.18) Trường hợp véc tơ x có D chiều, phân bốGauss đa thể hiện có dạng:
𝒩𝒩(𝐱𝐱|𝜇𝜇,Σ) = 1 (2𝜋𝜋)𝐷𝐷/2
1
|Σ|1/2 exp�−1
2(𝐱𝐱 − 𝝁𝝁)𝑇𝑇𝚺𝚺−1(𝐱𝐱 − 𝝁𝝁)� (1.19) Trong biểu thức trên, 𝝁𝝁 là véc tơ kỳ vọng có D chiều, 𝚺𝚺 là ma trận hiệp phương sai có kích thước 𝐷𝐷 × 𝐷𝐷 còn |𝚺𝚺| là định thức của 𝚺𝚺.
Giả thiết tập dữ liệu của các quan sát là 𝐱𝐱 với 𝐱𝐱 = (𝑥𝑥1, … ,𝑥𝑥𝑁𝑁)T biểu diễn cho 𝑁𝑁 quan sát của biến vô hướng 𝑥𝑥. Cũng giả thiết các quan sát được sinh ra một cách độc lập từ phân bố Gauss có kỳ vọng 𝜇𝜇 và phương sai 𝜎𝜎2chưa biết và ta muốn xác định các tham số này từ tập dữ liệu. Các điểm dữ liệu được sinh ra một cách độc lập từ cùng một phân bố sẽ được gọi là có phân bố giống nhau và độc lập (independent and identically distributed – i.i.d). Bởi vì tập dữ liệu 𝐱𝐱 là i.i.d, nên có thể viết như sau cho xác suất của tập dữ liệu với 𝜇𝜇 và 𝜎𝜎2:
𝑝𝑝(𝐱𝐱|𝜇𝜇,𝜎𝜎2) =� 𝒩𝒩(𝑥𝑥𝑛𝑛|𝜇𝜇,𝜎𝜎2)
𝑁𝑁 𝑛𝑛=1
(1.20) Một khiđược xem như là hàm của 𝜇𝜇 và 𝜎𝜎2, đây là hàm khả hiện Gauss và có thể được diễn dịch như Hình 1.4.
𝒩𝒩(𝑥𝑥𝑛𝑛|𝜇𝜇,𝜎𝜎2) 𝑝𝑝(𝑥𝑥)
𝑥𝑥𝑛𝑛
33
Hình 1.4 Hàm khả hiện đối với phân bố Gauss.
Phân bố Gauss có những thuộc tính giải tích quan trọng song để mô hình hóa các tập dữ liệu thực lại có hạn chế. Vì vậy, việc xếp chồng tuyến tính các phân bố Gauss sẽđặc trưng tốt hơn cho đặc tính phức tạp của tập dữ liệu thực. Bằng cách sử dụng sốlượng đủ lớn các thành phần Gauss, điều chỉnh kỳ vọng và phương sai của chúng cũng như điều chỉnh các hệ số của tổ hợp tuyến tính, có thể xấp xỉ phần lớn các phân bố liên tục bất kỳ với độ chính xác tùy ý.
Hình 1.5 Minh họa hỗn hợp 3 thành phần Gauss trong không gian 2 chiều
a) Đường bao mật độ không đổi cho 3 thành phần hỗn hợp; b) Đường bao của mật độ xác suất biên 𝑝𝑝(𝐱𝐱) của phân bố hỗn hợp, trọng số lần lượt là 0,5, 0,3 và 0,2;
c) Biểu diễn phân bố 𝑝𝑝(𝐱𝐱)theo bề mặt.
Xét trường hợp xếp chồng của K phân bốGauss như sau:
𝑝𝑝(𝐱𝐱) =� 𝜋𝜋𝑘𝑘
𝐾𝐾 𝑘𝑘=1
𝒩𝒩(𝐱𝐱|𝝁𝝁𝑘𝑘,𝚺𝚺𝑘𝑘) (1.21)
Đây là trường hợp phân bố Gauss hỗn hợp. Mỗi một phân bố𝒩𝒩(𝐱𝐱|𝝁𝝁𝑘𝑘,𝚺𝚺𝑘𝑘)được gọi là một thành phần của hỗn hợp có kỳ vọng và phương sai riêng 𝝁𝝁𝑘𝑘, 𝚺𝚺𝑘𝑘 tương ứng.
Hình 1.5 cho thấy phân bố Gauss có 3 thành phần. Tham số𝜋𝜋𝑘𝑘 là các hệ số hỗn hợp. Tích phân cả hai vế của (1.21) đối với x và lưu ý cả𝑝𝑝(𝐱𝐱) và các thành phần Gauss riêng rẽđều được chuẩn hóa, ta có:
a) b)
c)
34
�𝜋𝜋𝑘𝑘 𝐾𝐾 𝑘𝑘=1
= 1 (1.22)
Yêu cầu 𝑝𝑝(𝐱𝐱)≥ 0, 𝒩𝒩(𝐱𝐱|𝛍𝛍𝑘𝑘,𝚺𝚺𝑘𝑘) ≥0 dẫn tới 𝜋𝜋𝑘𝑘≥0đối với mọi k. Kết hợp với (1.22) sẽ có:
0≤ 𝜋𝜋𝑘𝑘 ≤ 1 (1.23)
Các hệ số hỗn hợp cũng thỏa mãn điều kiện như là xác suất. Tương đương với biểu thức (1.21), có thể viết:
𝑝𝑝(𝐱𝐱) =� 𝑝𝑝(𝑘𝑘)𝑝𝑝(𝐱𝐱|𝑘𝑘)
𝐾𝐾 𝑘𝑘=1
(1.24) Trong đó, 𝜋𝜋𝑘𝑘=𝑝𝑝(𝑘𝑘) là xác suất tiên nghiệm của thành phần thứ k.
𝒩𝒩(𝐱𝐱|𝛍𝛍𝑘𝑘,𝚺𝚺𝑘𝑘) = 𝑝𝑝(𝐱𝐱|𝑘𝑘) là xác suất có điều kiện của 𝐱𝐱đối với k. Một đại lượng quan trọng nữa là xác suất hậu nghiệm 𝑝𝑝(𝑘𝑘|𝐱𝐱). Từđịnh lý Bayes, ta có:
𝑝𝑝(𝐱𝐱) = � 𝑝𝑝(𝑘𝑘)𝑝𝑝(𝐱𝐱|𝑘𝑘)
𝐾𝐾 𝑘𝑘=1
= 𝑝𝑝(𝑘𝑘)𝑝𝑝(𝐱𝐱|𝑘𝑘)
∑ 𝑝𝑝(𝑣𝑣)𝑝𝑝(𝐱𝐱|𝑣𝑣)𝑙𝑙 = 𝜋𝜋𝑘𝑘𝒩𝒩(𝐱𝐱|𝝁𝝁𝑘𝑘,𝚺𝚺𝑘𝑘)
∑ 𝜋𝜋𝑙𝑙 𝑙𝑙𝒩𝒩(𝐱𝐱|𝝁𝝁𝑙𝑙,𝚺𝚺𝑙𝑙) (1.25) Dạng phân bố hỗn hợp Gauss được chi phối bởi các tham số𝝅𝝅, 𝝁𝝁 và 𝚺𝚺, trong đó 𝝅𝝅 ≡ {𝜋𝜋1, … ,𝜋𝜋𝐾𝐾}, 𝝁𝝁 ≡{𝝁𝝁1, … ,𝝁𝝁𝐾𝐾} và 𝚺𝚺 ≡ {𝚺𝚺1, … ,𝚺𝚺𝐾𝐾}. Để thiết lập giá trị của các tham số này có thể dùng cực đại khả hiện (likelihood). Từ (1.21), logarit của hàm khả hiện cho bởi:
ln𝑝𝑝(𝐗𝐗|𝝅𝝅,𝝁𝝁,𝚺𝚺) = �ln��𝜋𝜋𝑘𝑘𝒩𝒩�𝐱𝐱𝑛𝑛�𝝁𝝁𝑘𝑘,𝚺𝚺𝑘𝑘�
𝐾𝐾 𝑘𝑘=1
�
𝑁𝑁 𝑛𝑛=1
(1.26) Trong đó 𝐗𝐗 = {𝐱𝐱1, … ,𝐱𝐱N}. Có thể thấy rằng đây là trường hợp phức tạp hơn nhiều so với phân bốGauss đơn do có tổng theo k bên trong logarit. Vì vậy lời giải của các tham số không còn dưới dạng giải tích nữa. Trong trường hợp này có thể sử dụng cực đại kỳ vọng để nhận được lời giải.
Giả thiết biến z nhị phân ngẫu nhiên K chiều có một trong K cách biểu diễn trong đó phần tử đặc biệt z𝑘𝑘= 1 còn các phần tử khác bằng 0. Vì thế giá trị z𝑘𝑘 thỏa mãn z𝑘𝑘∈ {0,1} còn ∑𝑘𝑘z𝑘𝑘= 1. Có thể thấy có K trạng thái đối với véc tơ z tương ứng với nó có phần tử khác 0. Định nghĩa phân bố kết hợp 𝑝𝑝(𝐱𝐱,𝐳𝐳) theo phân bố biên 𝑝𝑝(𝐳𝐳) và phân bố có điều kiện 𝑝𝑝(𝐱𝐱|𝐳𝐳)tương ứng với mô hình trên Hình 1.6.
z
x
35
Hình 1.6 Đồ thị biểu diễn một mô hình hỗn hợp trong đó phân bố kết hợp được biểu diễn dưới dạng 𝑝𝑝(𝒙𝒙,𝒛𝒛) =𝑝𝑝(𝒛𝒛)𝑝𝑝(𝒙𝒙|𝒛𝒛)
Phân bốbiên đối với z được quy định tùy thuộc vào các hệ số hỗn hợp 𝜋𝜋𝑘𝑘 sao cho 𝑝𝑝(𝑧𝑧𝑘𝑘 = 1) = 𝜋𝜋𝑘𝑘.
Tham số{𝜋𝜋𝑘𝑘} phải thỏa mãn: 0≤ 𝜋𝜋𝑘𝑘 ≤1 (1.27) Cùng với: �𝜋𝜋𝑘𝑘
𝐾𝐾 𝑘𝑘=1
= 1 (1.28)
Vì z dùng một trong K cách biểu diễn nên có thể viết phân bố này dưới dạng:
𝑝𝑝(𝐳𝐳) = � 𝜋𝜋𝑘𝑘𝑧𝑧𝑘𝑘
𝐾𝐾 𝑘𝑘=1
(1.29) Tương tựnhư vậy, phân bố có điều kiện của x với một giá trịđặc biệt của z cũng là phân bố Gauss:
𝑝𝑝(𝐱𝐱|𝑧𝑧𝑘𝑘 = 1) =𝒩𝒩(𝐱𝐱|𝝁𝝁𝑘𝑘,𝚺𝚺𝑘𝑘) (1.30) Công thức này cũng có thểđược viết dưới dạng:
𝑝𝑝(𝐱𝐱|𝐳𝐳) = � 𝒩𝒩(𝐱𝐱|𝝁𝝁𝑘𝑘,𝚺𝚺𝑘𝑘)𝑧𝑧𝑘𝑘
𝐾𝐾 𝑘𝑘=1
(1.31) Phân bố kết hợp cho bởi 𝑝𝑝(𝐳𝐳)𝑝𝑝(𝐱𝐱|𝒛𝒛) còn phân bố biên của x là tổng của các phân bố kết hợp lấy cho tất cả các trạng thái có thể có của x:
𝑝𝑝(𝐱𝐱) = � 𝑝𝑝(𝐳𝐳)𝑝𝑝(𝐱𝐱|𝐳𝐳) =� 𝜋𝜋𝑘𝑘𝒩𝒩(𝐱𝐱|𝛍𝛍𝑘𝑘,𝚺𝚺𝑘𝑘)
𝐾𝐾 𝑘𝑘=1 𝐳𝐳
(1.32) Ởđây đã sử dụng công thức (1.30) và (1.31). Như vậy phân bố biên của x là phân bố Gauss hỗn hợp có dạng (1.21). Nếu có các quan sát 𝐱𝐱1, … ,𝐱𝐱𝑁𝑁 và phân bố biên có dạng 𝑝𝑝(𝐱𝐱) =∑ 𝑝𝑝(𝐱𝐱,𝑧𝑧 𝐳𝐳) nên với mỗi điểm dữ liệu quan sát được 𝐱𝐱𝑛𝑛 sẽ có biến tiềm ẩn 𝐳𝐳𝑛𝑛 .
Từđó sẽ có công thức tương đương của phân bố Gauss hỗn hợp tương ứng với một biến tiềm ẩn được biểu diễn tường minh. Như vậy, có thể làm việc với phân bố kết hợp 𝑝𝑝(𝐱𝐱,𝐳𝐳) thay cho làm việc với phân bố biên 𝑝𝑝(𝐱𝐱) và điều này dẫn tới đơn giản hóa rất quan trọng thông qua thuật toán cực đại hóa kỳ vọng (EM – Expectation Maximization).
Một đại lượng khác đóng vai trò quan trọng là xác suất có điều kiện của z với x đã cho. Sử dụng ký hiệu γ(𝑧𝑧𝑘𝑘) cho 𝑝𝑝(𝑧𝑧𝑘𝑘 = 1|𝐱𝐱) và γ(𝑧𝑧𝑘𝑘)được xác định theo định lý Bayes như sau:
γ(𝑧𝑧𝑘𝑘)≡ 𝑝𝑝(𝑧𝑧𝑘𝑘 = 1|𝐱𝐱) = 𝑝𝑝(𝑧𝑧𝑘𝑘 = 1)𝑝𝑝(𝐱𝐱|𝑧𝑧𝑘𝑘 = 1)
∑𝐾𝐾 𝑝𝑝(𝑧𝑧𝑖𝑖
𝑖𝑖=1 = 1)𝑝𝑝(𝐱𝐱|𝑧𝑧𝑖𝑖 = 1)
36
= 𝜋𝜋𝑘𝑘𝒩𝒩(𝐱𝐱|𝛍𝛍𝑘𝑘,𝚺𝚺𝑘𝑘)
∑𝐾𝐾𝑖𝑖=1𝜋𝜋𝑖𝑖𝒩𝒩�𝐱𝐱�𝛍𝛍𝑖𝑖,𝚺𝚺𝑖𝑖� (1.33) 𝜋𝜋𝑘𝑘 là xác suất tiên nghiệm để𝑧𝑧𝑘𝑘= 1 còn 𝛾𝛾(𝑧𝑧𝑘𝑘) là xác suất hậu nghiệm tương ứng khi đã có quan sát x. γ(𝑧𝑧𝑘𝑘) có thểxem như là đại lượng đóng vai trò trách nhiệm dẫn tới phần tử k sẽ lấy quan sát x.