3.1.1 Suy diễn biến thiên cho phân phối chuẩn nhiều chiều
Gần đây, nhóm tác giả có giới thiệu phương pháp suy diễn biến thiên cho phân phối chuẩn nhiều chiều (multivariate Gaussian distribution - VIG) được áp dụng để xấp xỉ xác suất p(x|y= )i cho mỗi nhãn lớp i={1 2, , .. .,M}[ ]. Ý tưởng chính của phương pháp suy diễn biến thiên (VI) là xấp xỉ một phân phối xác40 suất hậu nghiệmp Z( |X)của biến ẩn khi cho tập dữ liệu quan sát đượcZ Xbằng một cách thức dễ dàng thông qua một phân phốiq Z( )mà có sự khác biệt giữap Z( |X)vàq Z( )là nhỏ nhất. Trong phương thức ước lượng hợp lý húa cực đại (Maximum Likelihood Estimation - MLE) cỏc tham số như ( , ) khụng được coi như là cỏcà Σ biến ngẫu nhiờn và hàm hợp lý húa được tối ưu bởi giỏ trị của cỏc tham số. Trong khi đú, cỏc tham số ( , )à Σ lại được xem như là các biến ngẫu nhiên trong phương pháp VI và được dùng để tính phân phối xác suất hậu nghiệmp(à,Σ|X).
Để xác định sự khác biệt giữa hai phân phối xác suất, ta thường dùng khoảng cách phân kỳ Kullback-Leiber được tính như sau:
KL q p( k ) =Eq
h ln q Z( )
p Z( |X) i
=− Z
q Z ln( ) p Z( |X)
q Z( ) dZ (3.1)
Điểm cần lưu ý là khoảng cách phân kỳ KLthường rất khó tối ưu bởi vì nó yêu cầu cần phải biết phân phối mà chúng ta đang cố gắng xấp xỉ. Nếu KL q p( k )≥0 và KL q p( k ) =ln p( ( ))X −L(q) với L( ) =q Rq Z ln( ) (pq Z(X,( )Z))dZlà cận dưới của logarith xác suất biênln( ( ))p X thì ta có thể xấp xỉ cực đại hóa cận dưới L( )q thay vì phải cực tiểu hóaKL q p( k ).
Giả sử rằngq Z( ) =∏Mi=1qi(Zi)trong đóZ=∪Mi=1Zithì giá trị tối ưu choL( )q tương ứng vớiqj(Zj)(Zi∩ Zj=/0,i6= )j làq∗j(Zj)được tính như sau [ ,43 44]:
ln q( ∗j(Zj)) =Ei6=j
ln p( (X,Z))
+const (3.2)
Trong biểu thức3.2, ký hiệuEi6=j
.. .là kỳ vọng của phân phối trên toàn bộ các biến ngẫu nhiênq Zj( = )i6 j và một hằng số độc lập vớiZi. Sự hội tụ được đảm bảo bởi vì ràng buộc đó là lồi đối với mỗi yếu tốqi(Zi).
Trong các nghiên cứu trước đây, phương pháp VI được áp dụng để ước lượng mật độ xác suất của phân phối Dirichlet và mô hình phân phối chuẩn hỗn hợp (Gaussian Mixture Model - GMM) [ ,44 45 46, ]. Trong nghiên cứu này, nhóm tác giả đã áp dụng phương pháp VI để ước lượng tham số của phân phối chuẩn nhiều chiều. Dựa trên định lýGiới hạn trung tâm(Center Limit), phân phối Gaussian có thể được dùng để xấp xỉ rất nhiều phân phối khác như là phân phối Poisson, phân phối nhị thức (Bionominal) hay phân phối Gamma [ ]. Trong khi41 đó, phân phối Dirichlet được dùng chủ yếu như là phân phối tiền nghiệm cho các biến dạng danh sách hoặc các biến đa thức trong các mô hình dựa trên Bayesian. Phân phối chuẩn nhiều chiều sẽ được sử dụng để xấp xỉ hàm hợp lý hóa (likelihood function) cho xác suất p( ( )L x |Gm)đối với mỗi nhãn lớp mà tất cả các đặc trưng củaL x( )là các giá trị thực nằm trong khoảng [0,1]. Mặc dù GMM có thể được sử dụng để xấp xỉ mô hình cho các nhãn lớp nhưng nó có điểm hạn chế là cần nhiều tham số và chi phí tính toán trong quá trình huấn luyện là khá cao. Ngoài ra, khi mà số lượng dữ liệu có sẵn rất nhỏ thì việc lựa chọn số thành phần Gaussian cần phải rất cẩn thận [ ].42
Mục đớch của phương phỏp này là cần xấp xỉ một phõn phối xỏc suất hậu nghiệm cho giỏ trị trung bỡnhà và ma trận chính xácΛ=Σ−1với tập dữ liệuX={xn|n=1,. .. ,N}trong đó các quan sát được giả định làx độc lập với giỏ trị phõn phối chuẩn nhiều chiềuN(x|à,Λ−1). Hàm hợp lý húa được tớnh như sau:
p(X|à,Λ) =
N
∏
n=1
N(xn|à,Λ−1) = (2π)−ND2 | |ΛN2 exp
−1 2
N
∑
n=1
(xn−à)TΛ(xn−à)
(3.3) với là số chiều của quan sát .D x
Để xây dựng một phép biến đổi ta bắt đầu từ việc phân tích phân phối chung của các biến ngẫu nhiên:
p(X, ,à Λ) = p(X|à,Λ)p(à|Λ)p( )Λ . Thành phần kết hợp tiền nghiệm của một phõn phối chuẩn nhiều chiều với hai biến ẩn à và Λ được xỏc định theo phõn phối Gaussian-Wilshart: p(à,Λ) = p(à|Λ)p( )Λ trong đú p(à|Λ)là một phõn phối chuẩn:
p(à|Λ) =N(à|m0,(β0Λ)−1) = (2π)−D2|β0Λ|12 exp
−1
2(à−m0)Tβ0Λ(à−m0) (3.4)
vàp( )Λ là một phân phối Wilshart:
p( ) =Λ W(Λ|W0,v0) = (B W0,v0)| |Λ v0− −2D 1 expn
−1
2Tr(W−01Λ)o
(3.5)
B(W0,v0) =|W0|−v20
2v02DπD D(4−1)
D
∏
i=1
Γv0+1−i 2
−1
(3.6) vớim0là một vector chiều vàD β0là ma trận mở rộng của ma trận nghịch đảo của phõn phối chuẩnΛ p(à|Λ). Ngoài ra,W0là ma trận cỡDìDvàv0là bậc tự do của phõn phối Wilshart p( )Λ . HàmTr( )ã là hàm tớnh vết của ma trận và hàmΓ( )ã được định nghĩa làΓ( ) =ã R0∞xt−1e−xdx.
Từ đú, ta cú thể ỏp dụng để xấp xỉ một phõn phối hậu nghiệmq(à,Λ) =q( )à q( )Λ bằng cỏch cập nhật như sau:
ln q( ∗( )) =à EΛ
ln p( (X, ,à Λ))
+const (3.7)
ln q( ∗( )) =Λ Eà
ln p( (X, ,à Λ))
+const (3.8)
Do đó, ta thu được các kết quả sau:
• Giỏ trị tối ưu cho phõn phối q∗( )à được tớnh theo biểu thức3.7là một phõn phối Gaussianq∗( ) =à N(à|m H, −1)với vector trung bỡnhmvà ma trận chớnh xỏcH−1được định nghĩa như trong biểu thức 3.9và3.10như sau:
m=β0m0+Nx
β0+N (3.9)
H= (β0+ ) [ ]N EΛ (3.10)
• Giá trị tối ưu cho phân phốiq∗( )Λ là một phân phối Wilshartq∗( ) =Λ W(Λ|W,v)với bậc tự do là vàv ma trận mở rộngWđược tính theo biểu thức3.11và3.12:
v=v0+ +N 1 (3.11)
W−1=W−01+ (β0+ )N H−1+ +S β0N
β0+NJ (3.12)
trong đóx=N1∑Nn=1xn,S=∑Nn=1(xn−x x)( n−x)TvàJ= (x m− 0)(x m− 0)T.
• Cận dướiL( )q của suy diễn biến thiên cho phân phối chuẩn nhiều chiều được tính như sau:
L( ) =q ln B( (W0,v0))−ln B( (W,v))−1 2 h
NDln(2π)−Dln(β0)−vD + (ln| |H) +vTr(SW) +vT r(W−01W) + β0Nv
β0+NTr(JW)i (3.13)
ta ký hiệuLi( )q là giá trị của cận dưới tại vòng lặp thứ , vì vậy ta có:i Li( )q −Li−1( ) =q −ln B( (Wi,v))−1
2vTr
hS W+ −01+ β0N β0+NJ
Wi
i
+ ( (ln B Wi−1,v))−1 2vTrh
S W+ −01+ β0N β0+NJ
Wi−1i
−1
2( (ln |Wi| −) ln(|Wi−1|)) (3.14) trong đóln(|Wi| −) ln(|Wi−1|) =ln
|vWi|
|vWi−1|
=ln
|E[Λi]|
|E[Λi−1]|
=ln(|Hi| −) ln(|Hi−1|).
Thuật toán để ước lượng phân phối chuẩn nhiều chiều được mô tả như sau:
Algorithm 5Thuật toán ước lượng suy diễn biến thiên cho phân phối chuẩn nhiều chiều Input: Tập dữ liệu , ngưỡng ,X εm0,β0,v0,W0,E[ ]Λ,
Output: m H, của phõn phốiq( ) =à N(à|m H, −1)vàW,vcủa phõn phốiq( ) =Λ W(Λ|W,v)
1: i = 1
2: foreach ido
3: Cập nhật , theo biểu thứcm H 3.9và3.10
4: Cập nhậtW, theo biểu thứcv 3.11và3.12
5: ifi > 1 &&Li( )q −Li−1( )q <εthen
6: break
7: end if
8: i = i + 1
9: end for
Trong thuật toỏn trờn, bốn biến củaq( )à vàq( )Λ được cập nhật từng bước từ cỏc giỏ trị ban đầu của chỳng.
Quá trình cập nhật sẽ dừng lại khi sự thay đổi giá trị giới hạn dướiL( )q nhỏ hơn một ngưỡng quy định .ε Trong các thí nghiệm của chúng tôi, sự hội tụ có thể đạt được sau 3 hoặc 4 lần lặp với ngưỡngε=1e−10.
Trong thực tế ta thường chọn sao choà E[ ] =à mvà sao choΛ E[ ] =Λ vWkhi chỳng ta cần đỏnh giỏ phõn phối chuẩnN(x|à,Λ−1).