Thông thường, BMS bao gồm việcxây dựng một công thức Bayes phân cấp và sử dụng phương pháp MCMC hoặc một số thuật toán tính toán khác để ước lượng xác suất hậu nghiệm của mô hình.. Một l
Trang 1DAI HỌC QUOC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Dao Thanh Ting
LUA CHON BIEN, SO THANH PHAN VA ƯỚC LƯỢNG THAM SỐ BẰNG PHƯƠNG PHAP VB
CHO CÁC MÔ HÌNH GLMM VÀ MRDE-MN
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2020
Trang 2DAI HỌC QUOC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Đào Thanh Tung
LUA CHON BIEN, SO THANH PHAN VA UGC LƯỢNG THAM SỐ BANG PHƯƠNG PHAP VB
CHO CAC MO HINH GLMM VA MRDE-MN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 9460112.02
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Người hướng dẫn khoa học:
PGS TS TRAN MINH NGOC
TS TRAN MẠNH CƯỜNG
Hà Nội - 2020
Trang 3LỜI CAM ĐOAN
Toi xin cam đoan những kết quả trình bày trong luận án là mới, đã được
công bố trên các tạp chí Quốc tế Các kết quả viết chung với hai hướng dẫn khoa hoc PGS TS Tran Minh Ngọc và TS Trần Mạnh Cường đã được sự đồng
ý của hai hướng dẫn khi đưa vào luận án Những kết quả được trình bày trongluận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào
khác.
Nghiên cứu sinh
Đào Thanh Tùng
Trang 4Tác giả luận án chân thành cảm ơn lãnh đạo, các thầy, cô giáo và cán bộ
Khoa Toán - Cơ - Tin học, Phòng Sau đại học - Trường Đại hoc Khoa học Tu
nhiên - Đại học Quốc gia Hà Nội đã làm hết sức trách nhiệm, nhiệt tình giúp
đỡ và tạo mọi điều kiện thuận lợi cho chúng tôi trong suốt quá trình nghiên cứu
và hoàn thành luận án.
Tác giả chân thành cảm ơn các đồng nghiệp ở Khoa Toán - Tin học và lãnhđạo Học viện Quân y đã tạo điều kiện giúp đỡ tôi làm việc và học tập
Cuối cùng, tác giả luận án xin dành lời cảm ơn đặc biệt tới gia đình, người
thân và bạn bè, những người đã thường xuyên giúp đỡ, chia sẻ động viên và là
chỗ dựa để tôi có thể hoàn thành luận án này!
Tác giả xin chân thành cảm on!
NCS Dao Thanh Tùng
ii
Trang 5Mục lục
Lời cam đoan
Lời cảm ơn
Bảng ký hiệu và viết tắt
Mở đầu
1.1
1.2
1.3
1.4
1.5
Chương 1 Kiến thức chuẩn bị
Một số phân phối thường gặp
1.1.1 Phân phối Beta ẶẶẶẶ Ốc 1.1.2 Phan phối Gamma
1.1.3 Phan phối Gamma ngược
1.1.4 Phân phối chuẩn một
chiều.1.15 Phân phối chuẩn nhiều chiều
-1.1.6 Phân phối Wishart 0 0 004
Họ mũ va Mô hình hồi quy tuyến tính tổng quát
121 Họ mũ ee 1.2.2 Mô hình hồi quy tuyến tính tổng quát
-Mô hình hồi quy tron 2 ốc Phương pháp Bayes biến phân
-1.4.1 Cơ sở toán học 00000000 ees 1.4.2 Trường hợp MFVB 0000.
1.43 Trường hợpFEFEVH
Một số thuật toán tối ưu sử dụng trong luận án
1.5.1 Thuật toán Newton - Raphson
ili
ii
vil
Trang 61.5.2 Thuật toán xấp xỉ ngẫu nhiên cho FFVB 4I
1.5.3 Thuật toán đạo hàm theo hướng 43
Chương 2 Lựa chọn biến và ước lượng tham số bằng phương pháp VB cho mô hình GLMM 44 2.1 Giới thiệu chung vo 44 2.2 MohinhGLMM 0 0 00000000000 47 2.3 Phuong pháp VB ước lượng mode hậu nghiém 50
2.4 Phương pháp VB để chọn biến và ước lượng tham số cho GLMM 52 2.4.1 Phân phối hậu nghiệm tối ưu VB cho đ 52
2.4.2 Phân phối hậu nghiệm tối ưu VB chob 56
2.4.3 Phân phối hậu nghiệm tối tu VB choQ_ 59
2.4.4 Phân phối hậu nghiệm tối tu VB choÀ 59
2.4.5 Phân phối hậu nghiệm tối ưu VB cho@ 60
2.4.6 Lựa chọn các siêu thamsố 61
2.4.7 Thuật toán V Q2 64 PT) 0 daa 65 2.5.1 Nghiên cứu mô phỏng ẶẶ So 66 2.5.2 Ứng dụng trên dữ liệu thực 69
Chương 3 Lua chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho mô hình MRDE-MN 72 3.1 Giới thiệu chung LH ee 73 3.2 Mô hình MRDE-MN Q2 75 3.2.1 Phan phối hậu nghiệm tối ưu VB choB 76
3.2.2 Phan phối hậu nghiệm tối wu VB cho T7y 78
3.2.3 Phân phối hậu nghiệm tối ưu VB cho g„ 79
3.2.4 Phân phối hậu nghiệm tối wu VB của+y 79
3.2.5 CandudiL(q) ốc aaHa eee 80 3.2.6 Thuật toán VB cho mô hình MRDE-MN 83
3.3 Lựa chọn số thành phần 84
1V
Trang 73.4 Lựa chọn bién 2.0.00 0000000 Q Q Q v va 87
3.4.1 Mô hình tiénnghiém 87
3.4.2 Lựa chọn biến cho mean model 88
3.4.3 Lựa chọn biến cho gatingmodel 903.44 Thuật toán đầy đủ co 91
3.5 Ứng dụng ng ee 92
3.5.1 Nghiên cứu mô phỏng 93
3.5.2 Ung dụng trên dữ liệu thực HILDA 94
Kết luận và kiến nghị 97
Kết luan 2 en 97 Kiến nghị về những nghiên cứu tiếp theo - 97
Danh mục công trình khoa học của tác giả liên quan đến luậnán 99
Trang 8Danh sách hình vẽ
1.1 Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải 29
1.2 Kết quả thực hiện mô phỏng bằng hai thuật toán Thuật toán 1
là cột bên trái và Thuật toán 2 là cột bên phải 36
vì
Trang 9Danh sách bảng
1.1
1.2
1.3
1.4
2.1
2.2
3.1
3.2
3.3
3.4
Bang mô ta ham liên kết ứng với các dạng hồi quy
Bảng kết quả hai lần thực hiện mô phỏng
Bảng kết quả thực hiện mô phỏng
-Bảng kết quả thực hiện mô phỏng trên ba thuật toán
Kết quả mô phỏng hồi quy Poisson
-Kết quả mô phỏng hồi quy logistie
Bang giá trị đúng của các tham số Ø8 và + .
Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương phap
Các biến được chọn và các hệ số ước lượng trong mean model Các biến được chọn và các hệ số ước lượng trong gating model
vì
28
94
95
96
Trang 10Bảng ký hiệu và viết tắt
AIC Akaike’s information criterion
BIC Bayesian information criterion
BaLasso Bayesian adaptive Lasso BMS Bayesian model selection
CFR Correctly-Fitted Rate
CGD Coordinate Gradient Descent
EM Expectation Maximization FFVB Fixed Form Variational Bayes GLM Generalized Linear Model
GLMM Generalized Linear Mixed Model Lasso Least absolute shrinkage and selection operator
KL Kullback-Leibler ACMC Markov chain Monte Carlo
MEM Mixtures of Expert Model
MFVB Mean Form Variational Bayes 1L Maximum Likelihood
(LR Multivariate Linear Regression MRDE-MN Multivariate Regression Density Estimation with
Mixtures of Normals
{RM Mixtures Regression Model
MSE Mean Squared Error
vil
Trang 11OLS Ordinary Least Squares
PML Penalized Maximum Likelihood
PPS Partial Predictive Score
RDE-MHN(k) Regression Density Estimation with Mixtures of k
Trang 12MỞ ĐẦU
Lựa chọn mô hình là một bài toán cơ bản trong thống kê cũng như trong
nhiều lĩnh vực khoa học khác Theo R A Fisher, có ba khía cạnh của một bài
toán tổng quát về suy luận thống kê và dự báo: (1) mô tả và xây dựng mô hình,
(2) ước lượng các tham số mô hình, và (3) ước tính độ chính xác Về cơ bản, bài
toán lựa chọn mô hình liên quan đến yếu tố (1) và (3) ở trên Mục tiêu quan
trọng trong phân tích dữ liệu là hiểu cấu trúc cơ bản trong dữ liệu Giả sử rằng
chúng ta được cho một tập hợp các mô hình phan ánh một loạt các cấu trúctiềm năng trong dữ liệu và nhiệm vụ là chọn trong số đó một mô hình giải thíchtốt nhất hoặc phù hợp nhất với dữ liệu
Giả sử tập dữ liệu D = {(a1, 1), (22, 9a), , (an, Yn)} được rút ra từ một mối
quan hệ hàm
U= firue (x) + nhiéu
van đề là ta không biết biểu thức toán học của ham fire, nó như một hộp den, biến đổi x thành y và có sự tác động của nhiễu Tìm hiểu về firye chính là tìm hiểu về cơ chế sinh ra dit liệu y khi có x Thông thường, ta không thể xác định
được chính xác ƒ„„¿ mà cần chon trong một lớp hàm F, nào đó một hàm f,phan ánh tốt nhất mối quan hệ của theo x hay giải thích được y nhiều nhất
theo một tiêu chuẩn nào đó Lớp hàm để chọn f, được hiểu là một lớp mô hình.
Chỉ số "c" trong ký hiệu Z, ngụ ý tính phức tạp của lớp ham (c viết tắt của
chữ "complexity") Việc chọn hàm f, như vay là lựa chọn mô hình, bao gồm các
van đề lựa chọn biến, ước lượng tham số của mô hình và đánh giá f, là tốt nhất
Trang 13A 2 ` Z
theo tiêu chuẩn nào đó.
Trước khi nhà phân tích dit liệu tiến hành lựa chọn một mô hình, ho cần
phải biết tiêu chuẩn thế nào là một mô hình tốt Noi cách khác, mục tiêu của
bài toán lựa chọn mô hình cần phải được xác định rõ ràng Các mục tiêu khác
nhau có thể dan đến các mô hình khác nhau Các dạng mô hình F, cũng cần
được xác định trước, với c thuộc một tập hợp C nào đó Lua chon mô hình sẽ là
lựa chọn một chỉ số e € C tốt nhất Với e được lựa chọn đó, ký hiệu ƒÿ € F là
hàm hồi quy tốt nhất xấp xỉ ƒ¡„„¿ Có rất nhiều phương pháp lựa chọn mô hình
nổi tiếng như phương pháp hợp lý cực đại phạt, phương pháp Bayes, phương
pháp thực nghiệm.
Để ước lượng tham số của mô hình có thể sử dụng phương pháp bình phương
tối thiểu (Least Squares: LS) hoặc phương pháp hợp lý cực dai (Maximum
Likelihood: ML) Giả sử D có phân phối mẫu là P(D|ƒ) thường gọi là hàm hợp
ly Dé ước lượng tham số của mô hình, phương pháp ML sẽ chọn
fe = ax P(D|f).
Ip arg max (D\f)
Chang hạn xét mô hình hồi quy tuyến tính thong thường y = 6X +e, khi đó F,
là lớp hàm tuyến tính hay mô hình hồi quy tuyến tính của X với e biến độc lập
Khi đó fs = ƒ°(8) trong đó ô là ước lượng hợp lý cực đại của đ.
Đối với việc chọn mô hình thì phương pháp hợp lý cực đại phạt (Penalized
Maximum Likelihood: PML) chon
ê = arg min{—logP(D|f%) + pen(Z.)}.
l6
Đại lượng —logP(D|fS) + pen(Z¿) được xem là tiêu chuẩn để chọn lựa mô hình,
số hạng phạt pen(F,) phụ thuộc vào cách tiếp cận được dùng Trong tiêu chuẩn
AIC thì pen(Z,) = e, hoặc tiêu chuẩn BIC thì pen(F,) = c®8" trong đó e là số
tham số tự do của mô hình Trong thực hành, hai tiêu chuẩn AIC và BIC là các tiêu chuẩn thông dụng nhất được sử dụng để lựa chọn mô hình Trong nhiều
Trang 14trường hợp, chúng dễ dàng sử dụng và mang lại kết quả tốt Một số phiên bản
mở rộng của AIC cũng đã được đề xuất trong [6]
Lóp phương pháp lựa chọn mô hình thứ hai là các phương phấp lựa chon mô
hình Bayes (Bayesian Model Selection: BMS), các phương pháp này tổ ra rất
hiệu quả và ngày càng được sử dụng nhiều Thông thường, BMS bao gồm việcxây dựng một công thức Bayes phân cấp và sử dụng phương pháp MCMC hoặc
một số thuật toán tính toán khác để ước lượng xác suất hậu nghiệm của mô
hình Mô hình có xác suất hậu nghiệm cao nhất sẽ được chọn.
Với một lớp mô hình M, giả sử chúng ta có niềm tin nào đó về phân phối
tiên nghiệm p(M), trong trường hợp không có thông tin gì thì có thể chọn p(M)
có phân phối đều Theo quy tắc Bayes, ta có
p(DỊM)p(M) p(M|D) = PT
mô hình được chọn là mô hình có xác suất hậu nghiệm cao nhất, nghĩa là
Mup = arg max p(M|D).
Su mở rong BMS được giới thiệu trong [22], [29] va [34] BMS đã được mở
rộng bằng cách xây dựng mô hình Bayes phân cấp với các biến tiềm an được sử dụng để xác định việc chọn tập con các biến Bằng cách này, sẽ tránh được việc
tính xác suất hậu nghiệm của 2? tập con, trong đó p là số lượng tất cả các biến
độc lập có thể đưa vào mô hình hồi quy.
Một lớp các phương pháp lựa chọn mô hình khác được ứng dụng rộng rãi
trong thực tế là các phương pháp thực nghiệm như bootstrap của Efron và
Tibshirani [14], kiểm tra chéo (cross-validation) và các biến thể của nó trong [1],
[LO], [16] và [37]:
Các phương pháp này thường dựa trên một bộ dữ liệu kiểm tra 7“ được sử
dụng để chọn c sao cho ƒÿ có sai số nhỏ nhất trên D’ Thông thường 7 được
cắt ra hoặc lấy lại từ 2 Nghia là họ sử dụng D để ước lượng các tham số cho
3
Trang 15từng mô hình sau đó sẽ chọn mô hình nào có sai số nhỏ nhất trên D’ Các tiêu
chuẩn thực nghiệm dễ hiểu và dễ sử dụng, nhưng độ chính xác sẽ giảm khi kích thước mẫu giảm, có thể là một van đề nghiêm trọng nếu cỡ mẫu ø nhỏ Ngoài
ra, chúng đôi khi tốn thời gian, đặc biệt là trong các trường hợp nhiều biến và
lý cực đại là một trong những phương pháp phổ biến được sử dụng để xử lý
các bài toán thống kê hiện đại Thuật toán tối đa hóa kỳ vọng (Expectation
Maximization: EM), là một thuật toán lặp đệ quy để ước lượng ML, có một số
lợi thế và đã trở thành một phương pháp tiêu chuẩn để giải quyết các van đề xử
lý thống kê Tuy nhiên, thuật toán EM chứa đựng những yêu cầu làm hạn chế
khả năng ứng dụng của nó trong những bài toán phức tạp Gần đây, phương pháp Bayes biến phân (Variational Bayes: VB) đã xuất hiện giải quyết một số
yêu cầu hạn chế của thuật toán EM và đang được phát triển và ứng dụng rộng
rãi từ giữa những năm 1990 Hơn nữa, người ta đã chỉ ra rằng thuật toán EM
là một trường hợp đặc biệt của thuật toán VB.
Trong nhiều trường hợp ta đã biết dạng mô hình hoặc đã xác định được cấu
trúc của mô hình Khi đó vấn đề cần quan tâm là chọn biến cho mô hình Lựa
chọn biến là bài toán cơ bản nhất trong thống kê và các lĩnh vực liên quan nhưhọc máy và kinh tế lượng Nó là trường hợp đặc biệt (nhưng thông dụng nhất)của bài toán lựa chon mô hình Giả sử Y là biến được quan tâm và X\, Xa, , Xp
là tập các biến độc lập có thể giải thích hay dự đoán Y Vấn đề đặt ra là cần
chọn lựa các biến quan trọng, tức là lựa chọn một tập con từ p biến đó, có ảnh
hưởng nhất đến Y để đưa ra mô hình biểu diễn tốt nhất mối quan hệ giữa Y và
các biến được chọn
Trang 16Bài toán lựa chọn biến là bài toán quen thuộc trong ngữ cảnh hồi quy
tuyến tính thông thường Ký hiệu + là vector các chỉ số các tập con của p
biến Xy, Xa, , Xp tức là + = (ñ,í2, ,í„) trong đó i; = 1 nếu biến X; được chọn,i; = 0 nếu ngược lại Ký hiệu q, là số các biến được chon trong tập con +, tức làd;=33;—¡¡;- Ta cần chọn tập con phù hợp nhất với mô hình có dạng
Y= X,B8,+€
trong đó X, là ma trận cỡ n x qy có các cột là các biến được chọn ứng với cácthành phần có giá trị bằng 1 của vector 7, 3, là vector hệ số hồi quy q,-chiéu
và c~ W„(0;ø?])
Khi hàm mật độ có điều kiện p(/|+) không có phân phối chuẩn nhưng vẫn
thuộc họ phân phối mũ (chẳng hạn như phân phối nhị thức, Possion) thì khi đó
mô hình hồi quy tuyến tính thông thường được mở rộng thành mô hình hồi quy
tuyến tính tổng quát (Generalized Linear Models: GLMs) Một mô hình GLM
sẽ bao gồm ba thành phần như sau:
1 Hàm mật độ có điều kiện p(z|z) thuộc họ phân phối mũ có dạng
ƒ(w|8) = exp Ñ — +4 ci) ;
2 Thanh phan dự báo tuyến tính ạ= Xổ
3 Hàm liên kết ø(-) sao cho Ey=p=g~1(n)
Trong thực tế có nhiều tình huống không phù hợp với mô hình hồi quy tuyến
tính thông thường mà phải sử dụng mô hình khác tổng quát hơn Chẳng hạn, khi
nghiên cứu trên ø bệnh nhân ung thư, bệnh nhân thứ i được theo dõi khảo sát
n¡ lần tại các thời điểm khác nhau Trong trường hợp này, các bệnh nhân là độc
lập với nhau còn các kết quả khảo sát được trên mỗi bệnh nhân lại phụ thuộc
nhau Vì vậy không thể sử dụng mô hình hồi quy tuyến tính thông thường được
mà cần sử dụng các mô hình hồi quy tuyến tính hỗn hợp tổng quát (Generalized
b
Trang 17Linear Mixed Model: GUMM), còn gọi là mô hình hồi quy tuyến tính hỗn hợp
tổng quát với yếu tố ảnh hưởng ngẫu nhiên hoặc mô hình dữ liệu theo dõi lặp lại Mô hình hồi quy tuyến tính hỗn hợp tổng quát cũng là một mở rộng từ mô hình tuyến tính tổng quát, trong đó thành phần dự báo tuyến tính chứa các ảnh
hưởng ngẫu nhiên (hay ảnh hưởng mang tính cá thể) ngoài các ảnh hưởng cố
định thông thường (hay ảnh hưởng mang tính tổng thể) Nghĩa là 7 = X + Zb
trong đó b = (bị, ,bạ)“ là vector yếu tố ảnh hưởng ngẫu nhiên, đối tượng thứ
i được đặc trưng bởi b; với i = 1, ,n Các yếu tố ảnh hưởng ngẫu nhiên riêng
của từng đối tượng có phân phối chuẩn b; ~ (0,Q) và b ~ (0,Q¿) trong đó
Q, = blockdiag(@, , Q).
Trong GLMMs, ham mật độ có điều kiện của ;; được giả sử có dạng
Ƒ(w|8,b) = exp (am n + cis)
trong đó n;; là tham số chính tắc có liên quan đơn điệu với trung bình có điềukiện ij; = E(yij|B,b;) thông qua hàm liên kết ø(-), ø(w;;) = mij Tham số tỷ lệ ở
có thể chưa biết, ¢(-) và e(-) là các hàm đã biết.
GLMMs được sử dung rộng rãi dé lập mô hình dữ liệu cum phụ thuộc Lựa
chọn biến trong GLMMs được coi là một nhiệm vụ khó khăn, vi ham hợp lý liên
quan đến các tích phân khó tính toán Các phương pháp cổ điển để lựa chọn
biến, chăng hạn như các phương pháp dựa trên kiểm định giả thuyết hoặc lựa
chọn tập hợp con, đều bị giới hạn trong một số lượng ít biến
Có hai công trình đáng chú ý là bài báo của Groll và đồng sự [19] và
Schell-dorfer và đồng sự [35] có thể thực hiện lựa chọn biến cho GLMMs trong trường
hợp nhiều biến Giả sử Q(g) là ma trận hiệp phương sai của b; phụ thuộc vàovectơ tham số chưa biết ø, ký hiệu ổ' = (9’,b') và +! = (¢, ø) khi đó log hàm hợp
Trang 18phương pháp xấp xỉ Laplace, từ đó nhận được
P(8,2) /(uulỗ.+)) — 616)!
sau đó họ kết hợp sử dụng một phạt i¡-norm trên các hệ số ảnh hưởng cố định
PMB, By) = “"(ð,+) = (9,3) > Bil,
cuối cùng các ước lượng của đ và b nhận được từ
j= P99(8,4) = arg max (°(3,4) = A |), arg max (5, 4) arg max y8
trong đó ¥ là ước lượng hợp lý cực đại của /“PP(ð, +).
Như vậy, cách tiếp cận của họ là đầu tiên ước lượng hàm hợp lý bằng cáchxấp xỉ các tích phân trên các ảnh hưởng ngẫu nhiên bằng cách sử dụng phương
pháp Laplace, sau đó giảm thiểu tổng ước lượng hợp lý này và một phạt Lasso
dạng i¡-norm trên các hệ số ảnh hưởng cố định Sử dụng một phat Lasso sẽ co
các hệ số về 0, do đó dẫn đến sự lựa chọn biến Cách tiếp cận lựa chọn biến này
hấp dẫn hơn so với các hướng tiếp cận cổ điển vì nó có thể xử lý các vấn đề với
một số lượng lớn các biến
Tuy nhiên, vẫn còn nhiều vấn đề để cải tiến trong cách tiếp cận của Groll
và đồng su [19] và Schelldorfer và đồng sự [35] Thứ nhất, xấp xỉ Laplace của
ho trong một số trường hợp có thể không chính xác ([20]) Thứ hai, hiệu suất
của thuật toán phụ thuộc vào tham số co rút \, tham số này cần được chonmột cách thích hợp Vì vậy, người dùng phải chạy lại thuật toán nhiều lần chocác giá trị khác nhau của tham số co rút trong phạm vi được chỉ định trước,
sau đó chọn giá trị tốt nhất của tham số co rút dựa trên một số tiêu chuẩn như
AIC hoặc BIC Kết quả là, toàn bộ quy trình lựa chọn mô hình cuối cùng có
thể tốn thời gian Hơn nữa, việc xác định một phạm vi thích hợp cho tham số
co rút không đơn giản Thứ ba, cách tiếp cận này sử dụng một tham số co rút
duy nhất cho mọi hệ số, có thể dẫn đến ước lượng có chệch của các hệ số Do
ĩ
Trang 19đó mục tiêu thứ nhất của chúng tôi là khắc phục những hạn chế này,
dựa trên phương pháp Bayes biến phân thích nghỉ với một phạt dạng
Trong các ngành khoa học đời sống, kỹ thuật, y tế và kinh doanh, có nhiềutrường hợp cần phải nhóm các đối tượng tương tự và tách những đối tượng
không giống nhau để hiểu rõ hơn về nội dung hiện tượng quan tâm Phân tích cụm cung cấp một cách để nhóm các đối tượng thành các cụm khác nhau Khi phân loại được thực hiện, các nhà nghiên cứu tìm cách hiểu sự khác biệt tác
động của các biến giải thích lên một số hiện tượng quan tâm trên các cụm khác
nhau Hướng tới mục tiêu này, họ có thể ước lượng mô hình hồi quy trong mỗi
cụm, nhưng kết quả ước tính các hệ số bị sai lệch lớn ngay cả khi các cụm đượctách biệt tốt ([5]) Mặt khác, mô hình hồi quy hỗn hợp hữu hạn ([26]) cung cấp
một cách tiếp cận để phân loại các đối tượng thành các cụm khác nhau và ước
lượng các mô hình hồi quy một cách đồng thời trên các cụm ([12])
Mô hình hồi quy trộn (Mixtures Regression Model: MRM), giả sử hàm mật
độ có dạng
K
ply|x,7, 8,0) = So tN (w|ux() o%):
k=1
Có hai van đề can giải quyết trong bài toán lựa chon mô hình ở đây, thứ
nhất là xác định số thành phần K, điều này có thể áp dụng các phương pháp
tiếp cận của Biernacki va đồng sự [4]; Hastie và đồng sự [21] và thứ hai là chọn
biến cho mô hình, có thể áp dụng các tiểu chuẩn AIC ([2]), BIC ([36]).
Các tác giả Prasad va đồng sự [32] đã nhận thấy tiêu chuẩn AIC không phù
Trang 20hợp với dạng mô hình này vì nó thường cho số thành phần quá cao dẫn tới kết
quả ước lượng không chính xác Nhóm tác giả này đã phát triển một phương pháp mới với tiêu chuẩn MRC (Mixture Regression Criterion) để xác định đồng
thời số lượng thành phần và các biến trong mô hình hồi quy trộn hữu hạn
Tran và đồng sự [40] đã nghiên cứu ước lượng mô hình hồi quy mật độ trộn k
phân phối chuẩn có phương sai phụ thuộc (Regression Density Estimation with
Mixtures of k Heteroscedastic Normals: RDE-MHN(k))
k
P(w|Z) = dl N (y|n3 (2), 05 (2))
trong đó xác suất trộn 7;(z), trung bình p;(z) và phương sai ơ7(Z ) là các hàm
của các tổ hợp tuyến tính của z, các z;(Z) > 0 và » 7;(z) = 1 Tran va đồng
sự [40] đề xuất một thuật toán nhanh dựa trên phương pháp Bayes biến phâncho phép thực hiện đồng thời lựa chọn các biến, lựa chọn số thành phần k và
ước lượng tham số Phương pháp của Tran và đồng sự [40] có thể giải quyết vấn
đề cực đại địa phương trong việc lựa chọn k, và có thể áp dung cho trường hợp nhiều biến (số lượng biến có thể lớn hơn kích thước mẫu).
Tuy nhiên, Nott và đồng sự [28], Tran và đồng sự [40] va Villani và đồng sự
[42] chỉ mới nghiên cứu mô hình này với y là đơn biến, trường hợp y là đa biến
chưa được nghiên cứu thực hiện Do đó mục tiêu thứ hai của chúng tôi là
nghiên cứu mở rộng mô hình này cho trường hợp y là đa biến.
Từ những lý do trên, chúng tôi xác định đối tượng nghiên cứu của luận án là
lựa chọn biến cho mô hình hồi quy tuyến tính hỗn hợp tổng quát (Generalized
Linear Mixed Model: GLMM) va mô hình hồi quy mật độ nhiều biến với việc
trộn các phân phối chuẩn (Multivariate Regression Density Estimation with
Mixtures of Normals model: MRDE-MN) Luận án sử dụng phương pháp Bayes
biến phân để xây dựng thuật toán lựa chọn biến nhanh đồng thời ước lượng
tham số mô hình Các kết quả chủ yếu của luận án được công bố trong các công
trình [I], [II] (xem danh mục các công trình của tác giả luận án)
9
Trang 21Cụ thể luận án đã đạt được những kết quả như sau:
1 Chứng tôi đã xâu dựng một thuật toán Bayes biến phân dé
thực hiện đồng thời lựa chọn biến va ước lượng tham số trong GLMM, ky hiệu là VBGLMM Thuật toán được đề xuất dua
trên phương pháp Bayes biến phân để ước lượng mét mode
hậu nghiệm kết hợp uới phương pháp Bayes thích nghi Lasso.
Phương pháp VB mode hậu nghiệm của chứng tôi có thể được áp dung cho tiệc lựa chọn biến trong các ứng dựng khác, chang han
như lựa chọn hiệp phương sai Phương pháp VBGLMM được đề
quất cũng có thể được mở rộng thành (i) lựa chọn nhóm biến
trong GLMM bằng cách sử dung Lasso phạt nhóm ([43]) (ii)
lua chon biến được sắp xếp trong GLMMs bằng phạt tuyét đối
tổng hợp ([44]).
2 Chứng tôi dé xuất m6 hành hồi quụ mật độ nhiều biến vdi viéc
trộn các phân phối chuẩn có phương sai phụ thuộc
(MRDE-MN), xây dựng thuật toán Bayes biến phân thực hiện đồng thời
chọn biến, ước lượng tham số va xác định số thành phan của
mô hành.
Nội dung của luận án gồm ba chương:
Chương 1: Kiến thức chuẩn bị
Trong chương này chúng tôi trình bày một số nội dung cơ bản nhằm bổ trợ
cho hai chương tiếp theo, bao gồm một số phân phối thường gặp và các tính chấtcủa chúng, cơ sở toán học và một số ví dụ minh họa cho phương pháp Bayesbiến phân và các thuật toán tối ưu đã sử dụng trong luận án
Chương 2: Lựa chọn biến và ước lượng tham số bằng phương pháp VB cho
mô hình GLMM
10
Trang 22Trong chương này, chúng tôi đã xây dựng được một thuật toán Bayes biến
phan để thực hiện đồng thời lựa chọn biến và ước lượng tham số trong GLMM Thuật toán được đề xuất dựa trên phương pháp Bayes biến phân để ước lượng
một mode hậu nghiệm kết hợp với Bayes thích nghi Lasso Việc đánh giá hiệusuất hoạt động của phương pháp của chúng tôi đã được thực hiện rất đầy đủ
va đã khang định được phương pháp này tốt hơn rất nhiều so với phương pháp khác Hơn nữa, phương pháp VB mode hậu nghiệm cũng có thể được áp dụng cho việc lựa chọn biến trong các nội dung khác, chang han như lựa chon hiệp
phương sai Phương pháp VBGLMM được đề xuất cũng có thể được mở rộng
thành (i) lựa chọn nhóm biến trong GLMM bing cách sử dung Lasso phạt nhóm
([43]) (ii) lựa chọn biến được sắp xếp trong GLMM bang phạt tuyệt đối tổng
hợp (44]).
Chương 3: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương
pháp VB cho mô hình MRDE-MN
Trong chương này, chúng tôi nghiên cứu mô hình hồi quy mật độ nhiều biến
với việc trộn các phân phối chuẩn có phương sai phụ thuộc (MRDE-MN), mô tả
thuật toán Bayes biến phân thực hiện đồng thời chọn biến và ước lượng tham
số cho Mean model và Gating model và xác định số thành phần của mô hình.Hiệu suất hoạt động của phương pháp của chúng tôi cũng được đánh giá bằng
nghiên cứu mô phỏng va dữ liệu thực.
Các kết quả chủ yếu của luận án được báo cáo tại
- Semina Bộ môn Xác suất thống kê - trường Dai học Khoa hoc Tự nhiên,Đại học Quốc gia Hà Nội
- Hội nghị ngày Thống kê, Đại học Khoa học Tự nhiên, Đại học Quốc gia
Hà Nội.
- Đại hội Toán học Việt Nam lần thứ IX, Nha Trang, tháng 8 năm 2018.
Các kết quả chủ yếu của luận án được công bố trên [I], [II]
11
Trang 23Chương 1
Kiến thức chuẩn bị
Trong chương này chúng tôi trình bày một số nội dung cơ bản nhằm chuẩn
bị kiến thức bổ trợ cho hai chương tiếp theo, bao gồm một số phân phối thường
gap và các tinh chất của chúng, cơ sở toán học và một số ví dụ minh họa chophương pháp Bayes biến phân và các thuật toán tối ưu sẽ được sử dụng trong
luận ấn.
1.1 Một số phân phối thường gặp
1.1.1 Phân phối Beta
Biến ngẫu nhiên X nhận giá trị trong đoạn [0; 1] có phân phối Beta với hai
tham số a > 0 và 8 > 0 được ký hiệu là X ~ Beta(a, j)
Trang 24E(log X) = (a) — U(œ + 8):
trong đó ø(-) là ham digamma, (+)= dosh (2)
- Nếu X có ham mật độ p(z|œ,đ)z#~1!(1—z)#=! thi X ~Beta(a,f)
1.1.2 Phân phối Gamma
Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma với hai tham số
œ>0 và B>0 được ký hiệu là X ~Gamma(a,{).
- Nếu X có hàm mật độ p(z|a,8)exp((a=1)loge= 8z) thì X~Gamma(œ,8).
1.1.3 Phân phối Gamma ngược
Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma ngược (Inverse
Gamma: IG) với hai tham số œ>0 và Ø>0 được ký hiệu là X ~IG(a,)
- Hàm mật độ:
a a
got
P(rl0.8)= Ta exp(—2) ex (loge (œ+1)logz 5.
- Một số tính chất quan trọng của phân phối Gamma ngược
8
œ—Ì
EX = (a > 1),
13
Trang 25- Nếu X có hàm mật độ p(z|a,8)<exp( (œ+1)losz~Ÿ) thì X~IG(œ„8).
- Nếu X~Gamma(a,8) thì +~IG(a,8)
1.1.4 Phân phối chuẩn một chiều
Biến ngẫu nhiên X nhận giá trị trên R có phân phối chuẩn với hai tham số
u và o? được ký hiệu là X ~.V(u,ø))
- Nếu X có hàm mat độ p(z|w.ø°)<exp(~ sz(z?~3uz)) thì X ~N (1,07).
1.1.5 Phan phối chuẩn nhiều chiều
Vector ngẫu nhiên X nhận giá trị trên IR“ có phân phối chuẩn d-chiéu với hai
tham số trung bình pw và ma trận hiệp phương sai © được ký hiệu là X ~.Mq(,>)
14
Trang 26- Hàm mật độ:
ap(in.2)=() ‘tex Lene lam}.
hay
p(2e|4.3)=exp{ —Slog(2n) —Slog|®|—5(a—p)'="a—p)
- Một số tính chất quan trọng của phan phối chuẩn nhiều chiều:
KL(P|I@)=5 {tr@9SI)+(wy—j) S2 (paws) d+ log =}.
1.1.6 Phan phối Wishart
Ma tran pxp ngẫu nhiên X xác định dương có phân phối Wishart với haitham số n và V được ký hiệu là X ~ Wishart,(n,V) trong đó ø là số tự nhiên và
V là pxp ma trận xác định dương.
15
Trang 27- Hàm mật độ
|X|(®=p~1/2¿~t(Vˆ'X)/2
X|n,V np
ANS FEV PDE)
- Một số tinh chất quan trọng của phân phối Wishart:
Giả sử biến ngẫu nhiên Y có phân phối xác suất phụ thuộc vào tham số n,
được gọi là thuộc họ mũ nếu hàm mật độ có dạng
ƒ(yln) = exp (“ —Sữ), cu.) |@
trong đó được gọi là tham số chính tắc của ho mũ, ¢ là tham số ty lệ, ¢(-) vac(-) là các hàm đã biết
- Phân phối chuẩn: Giả sử biến ngẫu nhiên Y có phân phối chuẩn (,ø2)
trong trường hợp nay n=, ¢=07, €(n)
- Phân phối Poisson: Gia sử biến ngẫu nhiên Y có phân phối Poisson(A) khi
Trang 28= exp (y logÀ—À— log(y!)),
trong trường hợp này =logÀ, d=1, ¢(n)=A=e" va c(y,¢) =—log(y!).
- Phân phối Nhị thức: Gia sử biến ngẫu nhiên Y có phân phối nhị thức
Binomial(n,7) khi đó
C?7#(1 — x)" 9
ƒ0|x)
= exp (y log + nlog(1 — 7) 4 logC¥),
trong trường hợp này ?=logr“ =logit(z), ¿=1, ¢(m) =—nlog(1—m) =nlog(e" +1)
và c(y,@) =logCh.
1.2.2 Mô hình hồi quy tuyến tính tổng quát
Chúng ta thường quen thuộc với mô hình hồi quy tuyến tính thông thường(khi biến phụ thuộc y là biến liên tục), hay mô hình hồi quy logistic (khi y làbiến nhị phân) GLMs (Generalized linear models) là một lớp các mô hình hồi
quy tuyến tính tổng quát cho nhiều kiểu dữ liệu của biến phụ thuộc y, được
trình bay trong Annette va Adrian [3] và Nelder và Wederburn [27].
Gia sử y=(y1,y2, -,Yn)’, mô hình hồi quy tuyến tính tổng quát được xác định
bởi ba thành phần:
- Hàm mật độ thuộc họ mũ
Flute) =esp( HS cauua)),
trong đó 7,i=1,2, n là tham số chính tắc của ho mũ; tham số ty lệ ¢ có thể đã
biết hoặc chưa biết, ¢(-) và c(-) là các hàm đã biết
Trang 29- Hàm liên kết
Tham số chính tắc 7 liên hệ đơn trị với kỳ vọng có điều kiện = E(w,|8)
thông qua hàm liên kết ø(-); ø(u¿)= với i=1,2, n Hàm liên kết được xác định
tùy thuộc vào dạng hồi quy, một số dạng hồi quy quen thuộc được trình bày
trong bang 1.1.
Bang 1.1: Bảng mô tả ham liên kết ứng với các dang hồi quy.
Hồi quy Poisson: ;|Ø~ Poisson(A,) ø(A¡)=log(A)
Hồi quy Nhị thức hay hồi quy logistic: |đ=~ Binomial(1,z,) g(m¡) =logit(m;)
1.3 Mô hình hồi quy trộn
Trong trường hợp mô hình dữ liệu được phát sinh từ một quần thể không
đồng nhất thì mô hình hồi quy trộn là phù hợp nhất (Mixture of RegressionModels: MRMs) Nó là một công cụ linh hoạt để mô hình hóa dữ liệu dang này
Cho Y là một biến đáp ứng được quan tâm và z= (z1,za, ,z„) là vector các hiệp
biến được cho là có ảnh hưởng đến Y Ta nói (z,Y) tuân theo MRMs nếu ham
mật độ có điều kiện của Y được cho bởi z có dạng
K
p(y|z.#)= ref (ylOe(2).o4);
k=1
trong đó f(y|0,¢) thuộc một ho các hàm mật độ của Y, K 1a số thành phan,
0y(z)—=g(z!8¿) với k=1,2, , được cho bởi hàm liên kết ø(-), B=((91,69, ,8x,®,7)
với y;= (Ô1.ka .Øp) › ® = (¢1,09, 0K)’ va 7 = (71,72, ,7K)! sao cho Tr > Ö và
teal Các my, k=1,2, ,.K được gọi là xác suất trộn Hàm liên kết ø(-) được
xác định theo dạng của f(y|0,¢) là Chuẩn, Nhị thức hay Poisson.
18
Trang 30- Mô hình hồi quy trộn các phân phối Chuẩn
K
p(y|z.)= ˆ,A(y|wx(2).71),
k=1
trong đó N(y|uz(z),o2) là phan phối chuẩn với trung bình py, (z)=2' Be.
- Mô hình hồi quy trộn các phân phối Nhị thức
K
p(ylz,8) =) 7, Binomial(y|T,9,(2)),
k=1
trong đó Binomial(y|7,0;,(z)) là phân phối Nhị thức với T là số lần thực hiện
phép thử và xác suất thành công Ø;„(z) € (0,1) được cho bởi logit(0,(z)) =z’ Bp
- Mô hình hồi quy trộn các phân phối Poisson
K
p(y|z;)= 7Poisson(y|Ax(2));
k=1
trong đó Poisson(y|A,(z)) là phân phối Poisson với log(Ag(z)) = 2’ Be
1.4 Phương pháp Bayes bién phân
Gia sử y là biến quan sát được, phụ thuộc vào tham số 6 Khi đó p(y) đượcgọi là phân phối biên duyên của y, p(y|@) là phân phối của y khi đã biết Ø (cònđược gọi là hàm hợp lý), p(@) là phân phối tiên nghiệm của 0 và p(0|u) được gọi
là phân phối hậu nghiệm của 6 khi đã biết y Thống kê Bayes sử dung phan
phối hậu nghiệm p(6|y) để suy luận thống kê: ước lượng tham số, kiểm định gia
thuyết hay phân tích hồi quy Do đó phân phối hậu nghiệm p(0|y) là rất quan
trọng trong thống kê Bayes Suy luận Bayes về p(0|y) được dựa vào định lý Bayes
điều chỉnh như sau:
p(0)p(/|0) p(0lu) = p0)
Như vậy, phân phối hậu nghiệm tỷ lệ với tích phân phối tiên nghiệm và hàm hợp
lý, ký hiệu là p(6|y) « p(@)p(y|@) Tuy nhiên, phân phối tiên nghiệm p(Ø) thường
19
Trang 31là không biết, mà chỉ có thé chọn cho Ø một tiên nghiệm được xem là phù hợp
(dựa vào kinh nghiệm hay lòng tin nào đó về phân phối của 0).
Điều quan trọng hơn cả là phân phối hậu nghiệm p(6|y) thường là phân phối
không biết mà phải sử dụng một phương pháp xấp xỉ để xấp xỉ nó Trong nội
dung này chúng tôi quan tâm phương pháp Bayes biến phân Phương phápBayes biến phân VB là các kỹ thuật xấp xỉ phân phối hậu nghiệm trong suy
luận Bayes (Chương 10 [8S], [30]) Phương pháp này thường được sử dụng trong
các mô hình thống kê phức tạp bao gồm biến quan sát được (còn gọi là "dữ
liệu"), tham số chưa biết và biến tiềm ẩn Trong suy luận Bayes, tham số và biến tiềm an được nhóm lại là biến không quan sát được Phương pháp VB chủ
yêu được sử dụng cho hai mục đích:
- Tìm ra phân phối tối ưu, thuộc lớp các hàm phân phối quen thuộc nào đó
để xấp xỉ phân phối hậu nghiệm đúng của các biến không quan sát được để làm
suy luận thống kê qua các biến này
- Tìm cực đại cận dưới biên duyên Từ đó thực hiện lựa chọn mô hình phù
hợp nhất với dữ liệu
1.4.1 Cơ sở toán học
Giả sử có dữ liệu y với hàm hợp lý p(y|@) trong đó Øe]R“ là tham số chưa biết
va phân phối tiên nghiệm của Ø là p(Ø) Phương pháp VB xấp xỉ phân phối hau
nghiệm p(6|y) « p(6)p(w|6) bởi một ham mật độ a(6) của @ trong một lóp phân
phối dễ xử lý, g(@) được chon sao cho cực tiểu khoảng cách Kullback-Leibler giữa
Trang 32Vi KL(allp)>0 nên logp(y) > L(q) do đó L(q) được gọi là cận dưới biên duyên
của y, việc cực tiểu KL(q||p) sẽ tương đương với cực đại L(q) Thông thường phan
phối hậu nghiệm xấp xỉ được khai triển thành một tích là một giả thiết quan
trọng trong phương pháp VB Giả sử 0=(0,9a) và q(@) được khai triển thành
4(0) = 4I(01)4a(03) (1.3)
Giả sử gi(Ø1)=qg„, (01) và qo(02) =4q7, (02) trong đó 7¡ và 7a là các tham số biến
phân cần phải ước lượng Khi đó
Lm, 72) L(q) = | Gr: (01) drs (92) log p(y, 0)d01d02 — / Gr, (1) log qr, (01 )d01 + C(72)
= [ons (/ in( ls) logy at do, — Ju (01) log gr, (01)d01 + Ca)
= = f(r) 105 4 (Pi)ats + CC)
= gn (01) do, + C(72),
trong đó C(72) là một hằng số chi phụ thuộc vào 7a và
ði(w.i) = exp ( / dna(0) log rly, et) = exp (Eo, (log p(y 4))).
Trang 33Một cách tương tự, cố định r¡, đặt
*
rf = rf(n) = argmax ( [t0 Dung: (1.6)T2 T2 2
VỚI
ña(y.;) = exp ( / dn(61) log rly, 0, ) = exp (B_p,(log p(y 9))).
khi đó, với mọi 7s ta có
L(71,73) > LI, 72) (1.7)
Đặt r9ld— (eld rola) là giá trị hiện tại của 7¡ và 7a, giá tri cập nhật mới làthew — 7*(79!¢) trong (1.4) va 7‡°*=zrz(r}°*) trong (1.6) Do (1.5) và (1.7) nên
Lí") > (r9), (1.8)
Điều này dẫn tới một hệ thống vòng lặp để cập nhật giá trị z và công thức
(1.8) bảo đảm sự cải thiện của cận dưới biên duyên qua các vòng lặp Do cận
dưới biên duyên L(r) bi chặn trên bởi logp(y) nên sự hội tụ của hệ thống vòng
lặp được bảo đảm Kết quả trên có thể dễ dàng mở rộng cho trường hợp tổng quát là q(@) được khai triển thành # khối g()=q1(61) x xqK (0K) XAp xi Bayes
biến phan được đưa về xử lý bài toán tối ưu (1.4) Các ø;:(Ø;) với ¡=1, được
xấp xỉ bởi
tr (0) Bly) = FREES oc exp (Bo (lognty.6)))- (19)
Chú ý rang bai toán tối ưu (1.4) cũng chính là bài toán VB gốc là cực đại
L(q) trong (1.2).
Từ kết quả trên ta có thuật toán VB tổng quát có dang:
1 Khởi trị r¡ với i=1, ,K.
2 Lần lượt cập nhật các 7; theo kết quả nhận được từ (1.9)
3 Lặp lại bước 2 cho đến khi hội tụ
22
Trang 34Điều kiện dừng có thể dựa vào sự cải thiện L(q) hoặc dựa vào sự hội tu của
tham số chính nào đó qua các vòng lặp
Trong nhiều trường hợp, một hàm mật độ tiên nghiệm liên hợp p(;) có thể
được chọn sao cho p;(6;\y) thuộc về một họ mật độ tham số có thể nhận biết
được Trường hợp này được gọi là Bayes biến phân dạng trung bình (Mean FormVariational Bayesian: MFVB) Khi đó hậu nghiệm VB tối ưu q;;(0;) làm cực đạitích phân bên về phải của (1.4) chính là p;(6;|y), với 77 là tham số tương ứng
của hàm mật độ này.
Nếu 7;(6;|y) không thuộc họ mật độ có thể nhận biết được thì ta cần chọn
cho nó một dạng phân phối sau đó sử dụng một số kỹ thuật tối ưu xử lý (1.4)
để ước lượng tham số rỷ của q,*(6;) Trường hợp này được gọi là cố định dang
biến phan Bayes (Fixed Form Variational Bayesian: FFVB)
1.4.2 Trường hợp MFVB
Trường hợp này ?,(6,|y) thuộc một họ phân phối có thể nhận biết được nên
thông qua (1.9) sẽ cho ta dang ham mật độ q,,(6;) thuộc một lớp phân phối nào
đó đã biết, ta có thể dé dàng xác định tham số zÿ của g;,(0;) chính là các tham
số đặc trưng của phân phối này
Ví dụ 1.1: Giả sử = (0i ,;)“ là n quan sát độc lập và có cùng phân phối
chuẩn (/,ø2) với hai tham số và o chưa biết Ta có hàm mật độ
Trang 35p(o ) — 1G(Ao, Bo) — T(Ao)” exp 2).
Trong trường hợp này, bộ tham số của mô hình là Ø= (/,ø?), phân phối tiên
nghiệm p(@) = p(/)ø(ø?) và hậu nghiệm biến phan VB được khai triển thành
4(0)=4(0)4(ø?) Ta cần xác định phân phối hậu nghiệm tối ưu VB cho hai tham
SỐ / và o?
Phân phối hậu nghiệm tối ưu VB cho 6.
Từ (1.9) ta có
quilt) p1(Hn|g) «x
log (p(y|t.0?)-p 2s2se))
t5)|— SIS QS =we x nại * oa)! ¬C
HIẾP} ell)
Như vậy 7I(0¡|) thuộc họ phân phối chuẩn, do đó q„(u)~.V(u„,ø2) với hai
tham số ø„ va ø2 được cập nhật theo công thức
5 11, 1\
“= (nll +a)
-Hụ = (ng[—] +48) o2, (1.10)
Trang 36trong đó [-] là kỳ vọng với phân phối tương ứng.
Phân phối hậu nghiệm tối ưu VB cho ø?
Tương tự như trên ta có
à
qzz(ø) Pa(ø'|u)ơ?
x exp {E _o2(log p(y, Mo 2)}
exp {Ey (log (p (yl, 0°).p (u)-p(0?))) }
x exp {Ey log p(|u; ø *) + log p(y) + losp(ø?)) Ì
exp { exp { exp { -
Io2(o )%exp{ = (F+40+1)log(o ) Fe (Bo Hộ › (Yi- by) 4 voi) S.
Nhu vậy q,2(07) ~IG(A,2,B,2) với hai tham số A,2 va B„z được cập nhật theo
công thức
Trang 37Biz, = Bo (yi — tụ)” + sơ2 (1.11)
1 Aj
a ~ Boa’
[logo?] = log By2 — (A,2)
Cận dưới biên duyên L(q).
Ta có
— P(Y,9) 4) —
L(q) = | 40)log a) đØ = {log p(y, 8)] — [log a(8)]
= [log p(y|9)] + [log p(@)] — [log g(0)].
Trang 38+Aœ log Byz — log P(Ag2) — (Ag2 + 1) (tog By — 0(Az2)) — Ago.
Kết hợp các kết quả trên ta nhận được
L(q) = Slog(2n) = 6 + Ap — Ag?) (tog By — 0(Az2))
3 Cập nhật A„z và B,2 theo công thức (1.11).
4 Lặp lại bước 2 - 3 cho đến khi hội tụ
2, Z N 2 N z ñ Z 2 * 4 ` 2
Giả sử ta có /uz„e Và ơz„¿ là hai giá trị đúng của hai tham sô p và o
trong phân phối chuẩn của các y; Khi đó phân phối hậu nghiệm đúng cho /
là p(uly) ~N (ut? of") với hai tham số pl") và ofl") được xác định bởi
true 1 t0 ) 2(true)= => 1.12
và phân phối hậu nghiệm đúng cho o? là p(o?|y) ~1G(A%"”, Bi”) với hai thamơ2 )
số Ate và Bie được xác định bởi công thức
Aue — 5 + Ao.
Bie = Be 3 — irue)Ê- (1.13)
27
Trang 39Chúng tôi đã thực hiện mô phỏng với /;„e=0 , ø2.„„= 10 với n=100 và n=200
để thấy rõ sự ảnh hưởng của dữ liệu y lên phân phối hậu nghiệm của các tham
số pp và ơ? Kết quả được thể hiện trong bảng 1.2.
Bảng 1.2: Bảng kết quả hai lần thực hiện mô phỏng
Lần thực hiện | Các tham số | Hậu nghiệm đúng | Hậu nghiệm tối ưu VB
Chú ý rằng giá trị đúng của tham số được ước lượng bang mode của phân
phối hậu nghiệm tối ưu VB tương ứng Chang hạn, /„„„e=0 được ước lượng
bằng ñ= „0.2195 và ø2.„„= 10 được lượng bằng ở? ey +49 = 8.6758.
Các ước lượng này chưa được tốt là do n=100 khá bé, khi thực hiện với n=200
thì các ước lượng này rất tốt, có thể đạt được ñ= —0.0349 và 6? =9.8147.
Đồ thị minh họa cho xấp xỉ hậu nghiệm được thể hiện như hình 1.1 Đường
nét liền là đồ thị của phân phối hậu nghiệm đúng p(u|y) và p(ø?|y) và đường nét
đứt là đồ thi của phân phối hậu nghiệm tối ưu VB g(/) và g(ø?) Nhìn chung haiđường nay rất sát nhau Đặc biệt nhìn vào đồ thị mô tả sự cải thiện của L(q)qua các vòng lặp, cho thấy thuật toán VB hội tụ rất nhanh, chỉ sau vài vònglặp đã gần như dat được giới hạn trên của L(q)
28
Trang 40The posterior density p(mu|y) và q(mu) The posterior density p(muly) và q(mu)
14 1.8
1.6 1.2
0.3
92 0.25
0.15 0.2
0.15 0.1
(e) Cận dưới biên duyên L(q) ( Cận dưới biên duyên L(q)
Hình 1.1: Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải
29