Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
562,2 KB
Nội dung
Thuật tốn Cực đại hóa Kì vọng (EM) Trần Quốc Long1 Bộ mơn Khoa học Máy tính Khoa Cơng nghệ Thông tin Trường Đại học Công nghệ Thứ Tư, 30/03/2016 Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 / 19 Giới thiệu Nội dung Giới thiệu Thuật tốn cực đại hóa kì vọng (EM) Mơ hình Markov ẩn Tổng kết Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 / 19 Giới thiệu Bài tốn ước lượng mật độ (có tham số) Xét biến ngẫu nhiên X tập X Ta phân bố thật p(x) X ta có liệu mẫu lấy từ phân bố p(x) x ∼ p(x) Xét lớp hàm phân bố p(x; θ), x ∈ X phụ thuộc vào tham số θ ∈ Θ Bài toán: Cho mẫu x ∼ p(x), tìm tham số θ để p(x; θ) xấp xỉ p(x) Lưu ý: Khi X = Z × Z × × Z p(x) phân tích thành nhân tử n ∏ p(x) = p(z1 , z2 , , zn ) = p(zi ), zi ∈ Z i=1 x tương đương với n mẫu học độc lập có phân bố zi , i = 1, n Long (Đại học Công nghệ) Thuật toán EM 30/03/2016 / 19 Giới thiệu Phương pháp ước lượng hợp lý cực đại (MLE) Bài toán Bài tốn: Cho mẫu x ∼ p(x), tìm tham số θ để p(x; θ) xấp xỉ p(x) Sự hợp lý tham số (likelihood function): L(θ; x) = p(x; θ) hàm θ Ước lượng hợp lý cực đại: θMLE = arg max L(θ; x) θ = arg max log L(θ; x) θ Long (Đại học Công nghệ) Thuật toán EM 30/03/2016 / 19 Giới thiệu Phương pháp ước lượng hợp lý cực đại (MLE) Ví dụ Giả sử n mẫu z1 , z2 , , zn độc lập có phân bố p(z) Xét lớp hàm phân bố chuẩn p(z; µ, σ ) = N (z; µ, σ ) Sự hợp lý tham số n ∏ (z −µ)2 − i √ L(µ, σ ; z1:n ) = e 2σ 2πσ i=1 θ x n 1 ∑ log L(µ, σ ; z1:n ) = n log √ − (zi − µ)2 2σ 2πσ i=1 Lấy đạo hàm đặt 1∑ µ=z= zi ; n ∑n n σ = i=1 zi n i=1 Long (Đại học Công nghệ) Thuật toán EM − z2 30/03/2016 / 19 Thuật toán cực đại hóa kì vọng (EM) Nội dung Giới thiệu Thuật tốn cực đại hóa kì vọng (EM) Mơ hình Markov ẩn Tổng kết Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 / 19 Thuật tốn cực đại hóa kì vọng (EM) Biến ẩn Trong đa số trường hợp, ta khơng có đầy đủ liệu, số thông tin bị ẩn Ta quan sát biến x mà không quan sát biến y (ẩn) Bài toán: Cho mẫu x, ước lượng mật độ p(x, y) với lớp hàm phân bố p(x, y; θ) Ước lượng hợp lý cực đại (MLE) θMLE = arg max log p(x; θ) θ [∫ = arg max log θ ] p(x, y; θ)dy y Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 / 19 Thuật tốn cực đại hóa kì vọng (EM) Bất đẳng thức biến phân cho EM (variational inequality) Xét phân bố q(y), ta có ∫ log p(x; θ)q(y)dy log p(x; θ) = y ∫ ∫ = log p(x, y; θ)q(y)dy − log p(y|x; θ)q(y)dy y y ∫ log p(x, y; θ)q(y)dy = Eq [log p(x, y; θ)] y ∫ ∫ ∫ q(y) log − log p(y|x; θ)q(y)dy = q(y)dy − log q(y)q(y)dy p(y|x; θ) y y y E[q] DKL [q∥p(y|x;θ)] Eq [log p(x, y; θ)]: kì vọng theo phân bố q(y) DKL [q∥p(y|x; θ)]: khoảng cách Kullback-Leibler E[q]: entropy phân bố q(y) Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 / 19 Thuật toán cực đại hóa kì vọng (EM) Bất đẳng thức biến phân cho EM (variational inequality) Xét phân bố q(y), ta có log p(x; θ) = Eq [log p(x, y; θ)] + DKL [q∥p(y|x; θ)] + E[q] hợp lý kì vọng khoảng cách KL≥0 entropy Sự hợp lý bị chặn kì vọng + entropy Cận chặt (dấu xảy ra) q(y) = p(y|x; θ) Nếu cố định q(y) cần cực đại hóa kì vọng Ep(y|x;θ) [log p(x, y; θ)] Bản chất thuật toán EM cực đại hóa cận hợp lý Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 / 19 Thuật tốn cực đại hóa kì vọng (EM) Thuật tốn cực đại hóa kì vọng (EM) Thuật tốn Cực đại hóa kì vọng (EM) Input: mẫu x (thơng tin y bị ẩn) Khởi tạo: chọn tham số θ(0) phân bố p(x, y; θ) k = 3: while chưa hội tụ 4: Bước E: tính phân bố hậu nghiệm p(y|x; θ(k) ) biểu thức kì vọng 1: 2: Q(θ|θ(k) ) = Ep(y|x;θ(k) ) [log p(x, y; θ)] 5: Bước M: cực đại hóa kì vọng θ(k+1) = arg max Q(θ|θ(k) ) θ k ← k + 7: end while Đặt tên Arthur Dempster, Nan Laird, Donald Rubin (1977) 6: Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 / 19 Mô hình Markov ẩn Mơ hình Markov ẩn Tham số mơ hình x(0) x(1) x(t-1) x(t) x(t+1) x(T) y(1) y(t-1) y(t) y(t+1) y(T) Xác suất chuyển trạng thái P(x(t + 1) = xj |x(t) = xi ) = aij Xác suất sinh y P(y(t) = yk |x(t) = xi ) = bik Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 11 / 19 Mô hình Markov ẩn Mơ hình Markov ẩn Ví dụ x(0) x(1) x(t-1) x(t) x(t+1) x(T) y(1) y(t-1) y(t) y(t+1) y(T) Biến ẩn x chức đoạn gen, loại từ câu, v.v Biến quan sát y kí hiệu nucleotide ATCG, từ cụ thể, v.v Xác suất chuyển trạng thái xác suất chuyển đoạn gen có chức khác nhau, v.v Xác suất sinh liệu xác suất để đoạn gen sinh nucleotide khác nhau, v.v Bài toán: Quan sát (biến hiện) y, tính tham số mơ hình Markov ẩn A = [aij ], B = [bik ] Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 11 / 19 Mơ hình Markov ẩn Mơ hình Markov ẩn Ví dụ: Wikipedia Alice - Bob Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 11 / 19 Mô hình Markov ẩn Xác suất đầy đủ HMM Giả sử ta biết biến trạng thái x = (x(0) = x1 , x(1), x(2), , x(T)) biến quan sát y = (y(1), y(2), , y(T)) s ∈ {0, 1} biến nhị phân x(t) = x (biến ẩn) Đặt δt,i i o Đặt δt,k ∈ {0, 1} biến nhị phân y(t) = yk (biến hiện) Xác suất chuyển trạng thái x(t − 1) → x(t) N ∏ N ∏ δs aijt−1,i s δt,j i=1 j=1 (chỉ có số khác 1) Xác suất sinh liệu x(t) → y(t) N ∏ K ∏ o δ s δt,k bikt,i i=1 k=1 Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 12 / 19 Mơ hình Markov ẩn Xác suất đầy đủ HMM Giả sử ta biết biến trạng thái x = (x(0) = x1 , x(1), x(2), , x(T)) biến quan sát y = (y(1), y(2), , y(T)) x(0) x(1) x(t-1) x(t) x(t+1) x(T) y(1) y(t-1) y(t) y(t+1) y(T) Xác suất đầy đủ (phân phối dạng mũ) T N ∏ N N K s s ∏ ∏ δs δo ∏ ∏ δ δ P( δ s , δ o ; A, B ) = b t,i t,k a t−1,i t,j ij biến ẩn biến tham số θ t=1 i=1 k=1 Long (Đại học Công nghệ) Thuật toán EM ik i=1 j=1 30/03/2016 12 / 19 Mô hình Markov ẩn Thống kê đủ log P(δ s , δ o ; A, B) = N,N ∑ (log aij ) i,j=1 = N,N ∑ [ T ∑ ] s s δt−1,i δt,j + t=1 log aij · Uij + i,j=1 N,K ∑ [ T ] ∑ s o (log bik ) δt,i δt,k t=1 i,k=1 N,K ∑ log bik · Vik i,k=1 Thống kê đủ (số đếm cạnh đồ thị) Uij = T ∑ s δt−1,i s δt,j , Vik = t=1 số lần xi → yk Thuật toán EM o s δt,k δt,i t=1 số lần xi → xj Long (Đại học Công nghệ) T ∑ 30/03/2016 13 / 19 Mơ hình Markov ẩn MLE biết δ s Tính aij , bik Bài tốn tối ưu có ràng buộc max aij ,j=1, ,N max bik ,k=1, ,K N ∑ N ∑ log aij · Uij , cho j=1 K ∑ aij = j=1 K ∑ log bik · Vik , cho k=1 bik = k=1 Dùng phương pháp nhân tử Lagrange Uij aij = ∑ ∝ Uij , j = 1, , N j′ Uij′ Vik bik = ∑ ∝ Vik , k = 1, , K k′ Vik′ Long (Đại học Công nghệ) Thuật toán EM 30/03/2016 14 / 19 Mơ hình Markov ẩn EM δ s Thế vào công thức MLE Tính kì vọng hậu nghiệm Uij = E[Uij |δ o ; A, B], Vik = E[Vik |δ o ; A, B] Thế vào công thức MLE Uij aij = ∑ , j′ Uij′ bik = ∑ Vik , k′ Vik′ với i, j = 1, , N, k = 1, , K Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 15 / 19 Mơ hình Markov ẩn EM khơng biết δ s Kì vọng hậu nghiệm Uij = E[Uij | δ o ] = T ∑ s s E[δt−1,i δt,j | δo] t=1 s E[δt,i s δt+1,j o | δ ] = P(x(t) = xi , x(t + 1) = xj | δ o ) Vik = E[Vik | δ o ] = T ∑ s o E[δt,i δt,k | δo] t=1 s E[δt,i o δt,k o | δ ] = P(x(t) = xi , y(t) = yk | δ o ) Như vậy, thuật tốn EM quy việc tính xác suất hậu nghiệm (xác suất cạnh đồ thị) ξij (t) = P(x(t) = xi , x(t + 1) = xj | δ o ) γik (t) = P(x(t) = xi , y(t) = yk | δ o ) Long (Đại học Cơng nghệ) Thuật tốn EM 30/03/2016 15 / 19 Mơ hình Markov ẩn EM khơng biết δ s Tính xác suất hậu nghiệm Do biến δ o số, nhân vế với P(δ o ) = const ξij (t) ∝ P(x(t) = xi , x(t + 1) = xj , δ o ) γik (t) ∝ P(x(t) = xi , y(t) = yk , δ o ) Quy hoạch động αi (t) = P(x(t) = i, δ1o , , δto ) o o |x(t) = i) βi (t) = P(δt+1 , , δT Dùng công thức Bayes P(x(t) = xi , x(t + 1) = xj , δ o ) = αi (t)aij βj (t + 1) K ∏ δo bjkt,k k=1 o P(x(t) = xi , y(t) = yk , δ o ) = δt,k × αi (t)βi (t) Long (Đại học Cơng nghệ) Thuật toán EM 30/03/2016 15 / 19 Mơ hình Markov ẩn EM δ s Quy hoạch động tính αi (t), βi (t) Cơng thức đệ quy (lại sử dụng cơng thức Bayes) Thuật tốn xi 1 αi (t) = 0[ ∑N u=1 αu (t − 1)aui Thuật toán ngược { βi (t) = ∑N j=1 βj (t ]∏ + 1)aij o δt,k K b k=1 ik ∏K o δt+1,k k=1 bjk Long (Đại học Cơng nghệ) Thuật tốn EM , , t = 0, i = t = 0, i ̸= , t>0 , t=T , t