1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN

115 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

DAI HỌC QUOC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Dao Thanh Ting

LUA CHON BIEN, SO THANH PHAN VA

ƯỚC LƯỢNG THAM SỐ BẰNG PHƯƠNG PHAP VB

CHO CÁC MÔ HÌNH GLMM VÀ MRDE-MN

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2020

Trang 2

DAI HỌC QUOC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Đào Thanh Tung

LUA CHON BIEN, SO THANH PHAN VA

UGC LƯỢNG THAM SỐ BANG PHƯƠNG PHAP VB

CHO CAC MO HINH GLMM VA MRDE-MN

Chuyên ngành: Lý thuyết xác suất và thống kê toán họcMã số: 9460112.02

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Người hướng dẫn khoa học:

PGS TS TRAN MINH NGOC

TS TRAN MẠNH CƯỜNG

Hà Nội - 2020

Trang 3

LỜI CAM ĐOAN

Toi xin cam đoan những kết quả trình bày trong luận án là mới, đã được

công bố trên các tạp chí Quốc tế Các kết quả viết chung với hai hướng dẫnkhoa hoc PGS TS Tran Minh Ngọc và TS Trần Mạnh Cường đã được sự đồng

ý của hai hướng dẫn khi đưa vào luận án Những kết quả được trình bày trongluận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào

Nghiên cứu sinh

Đào Thanh Tùng

Trang 4

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lòng biết ơn chân thành đến hai cán bộ hướng dẫn

khoa học:

1 PGS TS Tran Minh Ngọc.2 TS Trần Mạnh Cường.

Đặc biệt PGS TS Trần Minh Ngọc, người đã giao đề tài, tận tình chỉ bảo,hướng dẫn tôi trong suốt quá trình nghiên cứu và hoàn thành luận án.

Tác giả luận án chân thành cảm ơn lãnh đạo, các thầy, cô giáo và cán bộ

Khoa Toán - Cơ - Tin học, Phòng Sau đại học - Trường Đại hoc Khoa học Tu

nhiên - Đại học Quốc gia Hà Nội đã làm hết sức trách nhiệm, nhiệt tình giúpđỡ và tạo mọi điều kiện thuận lợi cho chúng tôi trong suốt quá trình nghiên cứu

và hoàn thành luận án.

Tác giả chân thành cảm ơn các đồng nghiệp ở Khoa Toán - Tin học và lãnhđạo Học viện Quân y đã tạo điều kiện giúp đỡ tôi làm việc và học tập.

Cuối cùng, tác giả luận án xin dành lời cảm ơn đặc biệt tới gia đình, người

thân và bạn bè, những người đã thường xuyên giúp đỡ, chia sẻ động viên và là

chỗ dựa để tôi có thể hoàn thành luận án này!

Tác giả xin chân thành cảm on!

NCS Dao Thanh Tùng

ii

Trang 5

Mục lục

Lời cam đoan

Lời cảm ơn

Bảng ký hiệu và viết tắtMở đầu

Chương 1 Kiến thức chuẩn bị

Một số phân phối thường gặp

1.1.1 Phân phối Beta ẶẶẶẶ Ốc1.1.2 Phan phối Gamma

1.1.3 Phan phối Gamma ngược

1.1.4 Phân phối chuẩn một

chiều.1.15 Phân phối chuẩn nhiều chiều

-1.1.6 Phân phối Wishart 0 0 004.

Họ mũ va Mô hình hồi quy tuyến tính tổng quát

121 Họ mũ ee1.2.2 Mô hình hồi quy tuyến tính tổng quát -

Mô hình hồi quy tron 2 ốcPhương pháp Bayes biến phân -

1.4.1 Cơ sở toán học 00000000 ees1.4.2 Trường hợp MFVB 0000.

1.43 Trường hợpFEFEVH

Một số thuật toán tối ưu sử dụng trong luận án

1.5.1 Thuật toán Newton - Raphson

vil

Trang 6

1.5.2 Thuật toán xấp xỉ ngẫu nhiên cho FFVB 4I

1.5.3 Thuật toán đạo hàm theo hướng 43

Chương 2 Lựa chọn biến và ước lượng tham số bằng phươngpháp VB cho mô hình GLMM 442.1 Giới thiệu chung vo 442.2 MohinhGLMM 0 0 00000000000 472.3 Phuong pháp VB ước lượng mode hậu nghiém 50

2.4 Phương pháp VB để chọn biến và ước lượng tham số cho GLMM 522.4.1 Phân phối hậu nghiệm tối ưu VB cho đ 52

2.4.2 Phân phối hậu nghiệm tối ưu VB chob 56

2.4.3 Phân phối hậu nghiệm tối tu VB choQ_ 59

2.4.4 Phân phối hậu nghiệm tối tu VB choÀ 59

2.4.5 Phân phối hậu nghiệm tối ưu VB cho@ 60

2.4.6 Lựa chọn các siêu thamsố 61

2.4.7 Thuật toán V Q2 64PT) 0 daa 652.5.1 Nghiên cứu mô phỏng ẶẶ So 662.5.2 Ứng dụng trên dữ liệu thực 69

Chương 3 Lua chọn biến, số thành phần và ước lượng tham sốbằng phương pháp VB cho mô hình MRDE-MN 723.1 Giới thiệu chung LH ee 733.2 Mô hình MRDE-MN Q2 753.2.1 Phan phối hậu nghiệm tối ưu VB choB 76

3.2.2 Phan phối hậu nghiệm tối wu VB cho T7y 78

3.2.3 Phân phối hậu nghiệm tối ưu VB cho g„ 79

3.2.4 Phân phối hậu nghiệm tối wu VB của+y 79

3.2.5 CandudiL(q) ốc aaHa eee 803.2.6 Thuật toán VB cho mô hình MRDE-MN 83

3.3 Lựa chọn số thành phần 84

1V

Trang 7

3.4 Lựa chọn bién 2.0.00 0000000 Q Q Q v va 87

3.4.1 Mô hình tiénnghiém 87

3.4.2 Lựa chọn biến cho mean model 88

3.4.3 Lựa chọn biến cho gatingmodel 903.44 Thuật toán đầy đủ co 91

3.5 Ứng dụng ng ee 92

3.5.1 Nghiên cứu mô phỏng 93

3.5.2 Ung dụng trên dữ liệu thực HILDA 94

Kết luận và kiến nghị 97

Kết luan 2 en 97Kiến nghị về những nghiên cứu tiếp theo - 97

Danh mục công trình khoa học của tác giả liên quan đến luậnán 99

Trang 8

Danh sách hình vẽ

1.1 Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải 29

1.2 Kết quả thực hiện mô phỏng bằng hai thuật toán Thuật toán 1

là cột bên trái và Thuật toán 2 là cột bên phải 36

Trang 9

Danh sách bảng

Bang mô ta ham liên kết ứng với các dạng hồi quy

Bảng kết quả hai lần thực hiện mô phỏng

Bảng kết quả thực hiện mô phỏng

-Bảng kết quả thực hiện mô phỏng trên ba thuật toán .

Kết quả mô phỏng hồi quy Poisson

-Kết quả mô phỏng hồi quy logistie

Bang giá trị đúng của các tham số Ø8 và + .

Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương phap .

Các biến được chọn và các hệ số ước lượng trong mean model.Các biến được chọn và các hệ số ước lượng trong gating model .

Trang 10

Bảng ký hiệu và viết tắt

AIC Akaike’s information criterion

BIC Bayesian information criterion

BaLasso Bayesian adaptive LassoBMS Bayesian model selection

GLMM Generalized Linear Mixed Model

Lasso Least absolute shrinkage and selection operatorKL Kullback-Leibler

ACMC Markov chain Monte Carlo

MEM Mixtures of Expert Model

MFVB Mean Form Variational Bayes1L Maximum Likelihood

(LR Multivariate Linear Regression

MRDE-MN Multivariate Regression Density Estimation with

Mixtures of Normals

{RM Mixtures Regression Model

MSE Mean Squared Error

vil

Trang 11

OLS Ordinary Least Squares

PML Penalized Maximum Likelihood

PPS Partial Predictive Score

RDE-MHN(k) Regression Density Estimation with Mixtures of k

vill

Trang 12

MỞ ĐẦU

Lựa chọn mô hình là một bài toán cơ bản trong thống kê cũng như trong

nhiều lĩnh vực khoa học khác Theo R A Fisher, có ba khía cạnh của một bài

toán tổng quát về suy luận thống kê và dự báo: (1) mô tả và xây dựng mô hình,

(2) ước lượng các tham số mô hình, và (3) ước tính độ chính xác Về cơ bản, bài

toán lựa chọn mô hình liên quan đến yếu tố (1) và (3) ở trên Mục tiêu quan

trọng trong phân tích dữ liệu là hiểu cấu trúc cơ bản trong dữ liệu Giả sử rằng

chúng ta được cho một tập hợp các mô hình phan ánh một loạt các cấu trúctiềm năng trong dữ liệu và nhiệm vụ là chọn trong số đó một mô hình giải thíchtốt nhất hoặc phù hợp nhất với dữ liệu.

Giả sử tập dữ liệu D = {(a1, 1), (22, 9a), , (an, Yn)} được rút ra từ một mối

quan hệ hàm

U= firue (x) + nhiéu

van đề là ta không biết biểu thức toán học của ham fire, nó như một hộp den,biến đổi x thành y và có sự tác động của nhiễu Tìm hiểu về firye chính là tìmhiểu về cơ chế sinh ra dit liệu y khi có x Thông thường, ta không thể xác định

được chính xác ƒ„„¿ mà cần chon trong một lớp hàm F, nào đó một hàm f,phan ánh tốt nhất mối quan hệ của theo x hay giải thích được y nhiều nhất

theo một tiêu chuẩn nào đó Lớp hàm để chọn f, được hiểu là một lớp mô hình.

Chỉ số "c" trong ký hiệu Z, ngụ ý tính phức tạp của lớp ham (c viết tắt của

chữ "complexity") Việc chọn hàm f, như vay là lựa chọn mô hình, bao gồm các

van đề lựa chọn biến, ước lượng tham số của mô hình và đánh giá f, là tốt nhất

Trang 13

A 2 ` Z

theo tiêu chuẩn nào đó.

Trước khi nhà phân tích dit liệu tiến hành lựa chọn một mô hình, ho cần

phải biết tiêu chuẩn thế nào là một mô hình tốt Noi cách khác, mục tiêu của

bài toán lựa chọn mô hình cần phải được xác định rõ ràng Các mục tiêu khác

nhau có thể dan đến các mô hình khác nhau Các dạng mô hình F, cũng cần

được xác định trước, với c thuộc một tập hợp C nào đó Lua chon mô hình sẽ là

lựa chọn một chỉ số e € C tốt nhất Với e được lựa chọn đó, ký hiệu ƒÿ € F là

hàm hồi quy tốt nhất xấp xỉ ƒ¡„„¿ Có rất nhiều phương pháp lựa chọn mô hình

nổi tiếng như phương pháp hợp lý cực đại phạt, phương pháp Bayes, phương

pháp thực nghiệm.

Để ước lượng tham số của mô hình có thể sử dụng phương pháp bình phương

tối thiểu (Least Squares: LS) hoặc phương pháp hợp lý cực dai (Maximum

Likelihood: ML) Giả sử D có phân phối mẫu là P(D|ƒ) thường gọi là hàm hợp

ly Dé ước lượng tham số của mô hình, phương pháp ML sẽ chọn

fe = ax P(D|f).

Ip arg max (D\f)

Chang hạn xét mô hình hồi quy tuyến tính thong thường y = 6X +e, khi đó F,

là lớp hàm tuyến tính hay mô hình hồi quy tuyến tính của X với e biến độc lập.

Khi đó fs = ƒ°(8) trong đó ô là ước lượng hợp lý cực đại của đ.

Đối với việc chọn mô hình thì phương pháp hợp lý cực đại phạt (Penalized

Maximum Likelihood: PML) chon

ê = arg min{—logP(D|f%) + pen(Z.)}.

Đại lượng —logP(D|fS) + pen(Z¿) được xem là tiêu chuẩn để chọn lựa mô hình,

số hạng phạt pen(F,) phụ thuộc vào cách tiếp cận được dùng Trong tiêu chuẩn

AIC thì pen(Z,) = e, hoặc tiêu chuẩn BIC thì pen(F,) = c®8" trong đó e là số

tham số tự do của mô hình Trong thực hành, hai tiêu chuẩn AIC và BIC là cáctiêu chuẩn thông dụng nhất được sử dụng để lựa chọn mô hình Trong nhiều

Trang 14

trường hợp, chúng dễ dàng sử dụng và mang lại kết quả tốt Một số phiên bản

mở rộng của AIC cũng đã được đề xuất trong [6].

Lóp phương pháp lựa chọn mô hình thứ hai là các phương phấp lựa chon mô

hình Bayes (Bayesian Model Selection: BMS), các phương pháp này tổ ra rất

hiệu quả và ngày càng được sử dụng nhiều Thông thường, BMS bao gồm việcxây dựng một công thức Bayes phân cấp và sử dụng phương pháp MCMC hoặc

một số thuật toán tính toán khác để ước lượng xác suất hậu nghiệm của mô

hình Mô hình có xác suất hậu nghiệm cao nhất sẽ được chọn.

Với một lớp mô hình M, giả sử chúng ta có niềm tin nào đó về phân phối

tiên nghiệm p(M), trong trường hợp không có thông tin gì thì có thể chọn p(M)

có phân phối đều Theo quy tắc Bayes, ta có

p(DỊM)p(M)p(M|D) = PT

mô hình được chọn là mô hình có xác suất hậu nghiệm cao nhất, nghĩa là

Mup = arg max p(M|D).

Su mở rong BMS được giới thiệu trong [22], [29] va [34] BMS đã được mở

rộng bằng cách xây dựng mô hình Bayes phân cấp với các biến tiềm an được sửdụng để xác định việc chọn tập con các biến Bằng cách này, sẽ tránh được việc

tính xác suất hậu nghiệm của 2? tập con, trong đó p là số lượng tất cả các biến

độc lập có thể đưa vào mô hình hồi quy.

Một lớp các phương pháp lựa chọn mô hình khác được ứng dụng rộng rãi

trong thực tế là các phương pháp thực nghiệm như bootstrap của Efron và

Tibshirani [14], kiểm tra chéo (cross-validation) và các biến thể của nó trong [1],

[LO], [16] và [37]:

Các phương pháp này thường dựa trên một bộ dữ liệu kiểm tra 7“ được sử

dụng để chọn c sao cho ƒÿ có sai số nhỏ nhất trên D’ Thông thường 7 được

cắt ra hoặc lấy lại từ 2 Nghia là họ sử dụng D để ước lượng các tham số cho

3

Trang 15

từng mô hình sau đó sẽ chọn mô hình nào có sai số nhỏ nhất trên D’ Các tiêu

chuẩn thực nghiệm dễ hiểu và dễ sử dụng, nhưng độ chính xác sẽ giảm khi kíchthước mẫu giảm, có thể là một van đề nghiêm trọng nếu cỡ mẫu ø nhỏ Ngoài

ra, chúng đôi khi tốn thời gian, đặc biệt là trong các trường hợp nhiều biến và

lý cực đại là một trong những phương pháp phổ biến được sử dụng để xử lý

các bài toán thống kê hiện đại Thuật toán tối đa hóa kỳ vọng (Expectation

Maximization: EM), là một thuật toán lặp đệ quy để ước lượng ML, có một số

lợi thế và đã trở thành một phương pháp tiêu chuẩn để giải quyết các van đề xử

lý thống kê Tuy nhiên, thuật toán EM chứa đựng những yêu cầu làm hạn chế

khả năng ứng dụng của nó trong những bài toán phức tạp Gần đây, phươngpháp Bayes biến phân (Variational Bayes: VB) đã xuất hiện giải quyết một số

yêu cầu hạn chế của thuật toán EM và đang được phát triển và ứng dụng rộng

rãi từ giữa những năm 1990 Hơn nữa, người ta đã chỉ ra rằng thuật toán EM

là một trường hợp đặc biệt của thuật toán VB.

Trong nhiều trường hợp ta đã biết dạng mô hình hoặc đã xác định được cấu

trúc của mô hình Khi đó vấn đề cần quan tâm là chọn biến cho mô hình Lựa

chọn biến là bài toán cơ bản nhất trong thống kê và các lĩnh vực liên quan nhưhọc máy và kinh tế lượng Nó là trường hợp đặc biệt (nhưng thông dụng nhất)của bài toán lựa chon mô hình Giả sử Y là biến được quan tâm và X\, Xa, , Xp

là tập các biến độc lập có thể giải thích hay dự đoán Y Vấn đề đặt ra là cần

chọn lựa các biến quan trọng, tức là lựa chọn một tập con từ p biến đó, có ảnh

hưởng nhất đến Y để đưa ra mô hình biểu diễn tốt nhất mối quan hệ giữa Y và

các biến được chọn.

Trang 16

Bài toán lựa chọn biến là bài toán quen thuộc trong ngữ cảnh hồi quy

tuyến tính thông thường Ký hiệu + là vector các chỉ số các tập con của p

biến Xy, Xa, , Xp tức là + = (ñ,í2, ,í„) trong đó i; = 1 nếu biến X; được chọn,i; = 0 nếu ngược lại Ký hiệu q, là số các biến được chon trong tập con +, tức là

d;=33;—¡¡;- Ta cần chọn tập con phù hợp nhất với mô hình có dạng

Y= X,B8,+€

trong đó X, là ma trận cỡ n x qy có các cột là các biến được chọn ứng với cácthành phần có giá trị bằng 1 của vector 7, 3, là vector hệ số hồi quy q,-chiéuvà c~ W„(0;ø?]).

Khi hàm mật độ có điều kiện p(/|+) không có phân phối chuẩn nhưng vẫn

thuộc họ phân phối mũ (chẳng hạn như phân phối nhị thức, Possion) thì khi đó

mô hình hồi quy tuyến tính thông thường được mở rộng thành mô hình hồi quy

tuyến tính tổng quát (Generalized Linear Models: GLMs) Một mô hình GLM

sẽ bao gồm ba thành phần như sau:

1 Hàm mật độ có điều kiện p(z|z) thuộc họ phân phối mũ có dạng

ƒ(w|8) = exp Ñ — +4 ci) ;

2 Thanh phan dự báo tuyến tính ạ= Xổ.

3 Hàm liên kết ø(-) sao cho Ey=p=g~1(n).

Trong thực tế có nhiều tình huống không phù hợp với mô hình hồi quy tuyến

tính thông thường mà phải sử dụng mô hình khác tổng quát hơn Chẳng hạn, khi

nghiên cứu trên ø bệnh nhân ung thư, bệnh nhân thứ i được theo dõi khảo sát

n¡ lần tại các thời điểm khác nhau Trong trường hợp này, các bệnh nhân là độc

lập với nhau còn các kết quả khảo sát được trên mỗi bệnh nhân lại phụ thuộc

nhau Vì vậy không thể sử dụng mô hình hồi quy tuyến tính thông thường đượcmà cần sử dụng các mô hình hồi quy tuyến tính hỗn hợp tổng quát (Generalized

b

Trang 17

Linear Mixed Model: GUMM), còn gọi là mô hình hồi quy tuyến tính hỗn hợp

tổng quát với yếu tố ảnh hưởng ngẫu nhiên hoặc mô hình dữ liệu theo dõi lặplại Mô hình hồi quy tuyến tính hỗn hợp tổng quát cũng là một mở rộng từ môhình tuyến tính tổng quát, trong đó thành phần dự báo tuyến tính chứa các ảnh

hưởng ngẫu nhiên (hay ảnh hưởng mang tính cá thể) ngoài các ảnh hưởng cố

định thông thường (hay ảnh hưởng mang tính tổng thể) Nghĩa là 7 = X + Zb

trong đó b = (bị, ,bạ)“ là vector yếu tố ảnh hưởng ngẫu nhiên, đối tượng thứi được đặc trưng bởi b; với i = 1, ,n Các yếu tố ảnh hưởng ngẫu nhiên riêng

của từng đối tượng có phân phối chuẩn b; ~ (0,Q) và b ~ (0,Q¿) trong đó

Q, = blockdiag(@, , Q).

Trong GLMMs, ham mật độ có điều kiện của ;; được giả sử có dạng

Ƒ(w|8,b) = exp (am n + cis)

trong đó n;; là tham số chính tắc có liên quan đơn điệu với trung bình có điềukiện ij; = E(yij|B,b;) thông qua hàm liên kết ø(-), ø(w;;) = mij Tham số tỷ lệ ở

có thể chưa biết, ¢(-) và e(-) là các hàm đã biết.

GLMMs được sử dung rộng rãi dé lập mô hình dữ liệu cum phụ thuộc Lựa

chọn biến trong GLMMs được coi là một nhiệm vụ khó khăn, vi ham hợp lý liên

quan đến các tích phân khó tính toán Các phương pháp cổ điển để lựa chọn

biến, chăng hạn như các phương pháp dựa trên kiểm định giả thuyết hoặc lựa

chọn tập hợp con, đều bị giới hạn trong một số lượng ít biến.

Có hai công trình đáng chú ý là bài báo của Groll và đồng sự [19] và

Schell-dorfer và đồng sự [35] có thể thực hiện lựa chọn biến cho GLMMs trong trường

hợp nhiều biến Giả sử Q(g) là ma trận hiệp phương sai của b; phụ thuộc vàovectơ tham số chưa biết ø, ký hiệu ổ' = (9’,b') và +! = (¢, ø) khi đó log hàm hợp

Trang 18

phương pháp xấp xỉ Laplace, từ đó nhận được

P(8,2) /(uulỗ.+)) — 616)!

sau đó họ kết hợp sử dụng một phạt i¡-norm trên các hệ số ảnh hưởng cố định

PMB, By) = “"(ð,+) = (9,3) > Bil,

cuối cùng các ước lượng của đ và b nhận được từ

j= P99(8,4) = arg max (°(3,4) = A |),arg max (5, 4) arg max y8

trong đó ¥ là ước lượng hợp lý cực đại của /“PP(ð, +).

Như vậy, cách tiếp cận của họ là đầu tiên ước lượng hàm hợp lý bằng cáchxấp xỉ các tích phân trên các ảnh hưởng ngẫu nhiên bằng cách sử dụng phương

pháp Laplace, sau đó giảm thiểu tổng ước lượng hợp lý này và một phạt Lasso

dạng i¡-norm trên các hệ số ảnh hưởng cố định Sử dụng một phat Lasso sẽ co

các hệ số về 0, do đó dẫn đến sự lựa chọn biến Cách tiếp cận lựa chọn biến này

hấp dẫn hơn so với các hướng tiếp cận cổ điển vì nó có thể xử lý các vấn đề với

một số lượng lớn các biến.

Tuy nhiên, vẫn còn nhiều vấn đề để cải tiến trong cách tiếp cận của Groll

và đồng su [19] và Schelldorfer và đồng sự [35] Thứ nhất, xấp xỉ Laplace của

ho trong một số trường hợp có thể không chính xác ([20]) Thứ hai, hiệu suất

của thuật toán phụ thuộc vào tham số co rút \, tham số này cần được chonmột cách thích hợp Vì vậy, người dùng phải chạy lại thuật toán nhiều lần chocác giá trị khác nhau của tham số co rút trong phạm vi được chỉ định trước,

sau đó chọn giá trị tốt nhất của tham số co rút dựa trên một số tiêu chuẩn như

AIC hoặc BIC Kết quả là, toàn bộ quy trình lựa chọn mô hình cuối cùng có

thể tốn thời gian Hơn nữa, việc xác định một phạm vi thích hợp cho tham số

co rút không đơn giản Thứ ba, cách tiếp cận này sử dụng một tham số co rút

duy nhất cho mọi hệ số, có thể dẫn đến ước lượng có chệch của các hệ số Do

ĩ

Trang 19

đó mục tiêu thứ nhất của chúng tôi là khắc phục những hạn chế này,

dựa trên phương pháp Bayes biến phân thích nghỉ với một phạt dạng

Trong các ngành khoa học đời sống, kỹ thuật, y tế và kinh doanh, có nhiềutrường hợp cần phải nhóm các đối tượng tương tự và tách những đối tượng

không giống nhau để hiểu rõ hơn về nội dung hiện tượng quan tâm Phân tíchcụm cung cấp một cách để nhóm các đối tượng thành các cụm khác nhau Khiphân loại được thực hiện, các nhà nghiên cứu tìm cách hiểu sự khác biệt tác

động của các biến giải thích lên một số hiện tượng quan tâm trên các cụm khác

nhau Hướng tới mục tiêu này, họ có thể ước lượng mô hình hồi quy trong mỗi

cụm, nhưng kết quả ước tính các hệ số bị sai lệch lớn ngay cả khi các cụm đượctách biệt tốt ([5]) Mặt khác, mô hình hồi quy hỗn hợp hữu hạn ([26]) cung cấp

một cách tiếp cận để phân loại các đối tượng thành các cụm khác nhau và ước

lượng các mô hình hồi quy một cách đồng thời trên các cụm ([12]).

Mô hình hồi quy trộn (Mixtures Regression Model: MRM), giả sử hàm mật

độ có dạng

ply|x,7, 8,0) = So tN (w|ux() o%):

Có hai van đề can giải quyết trong bài toán lựa chon mô hình ở đây, thứ

nhất là xác định số thành phần K, điều này có thể áp dụng các phương pháp

tiếp cận của Biernacki va đồng sự [4]; Hastie và đồng sự [21] và thứ hai là chọn

biến cho mô hình, có thể áp dụng các tiểu chuẩn AIC ([2]), BIC ([36]).

Các tác giả Prasad va đồng sự [32] đã nhận thấy tiêu chuẩn AIC không phù

Trang 20

hợp với dạng mô hình này vì nó thường cho số thành phần quá cao dẫn tới kết

quả ước lượng không chính xác Nhóm tác giả này đã phát triển một phươngpháp mới với tiêu chuẩn MRC (Mixture Regression Criterion) để xác định đồng

thời số lượng thành phần và các biến trong mô hình hồi quy trộn hữu hạn.

Tran và đồng sự [40] đã nghiên cứu ước lượng mô hình hồi quy mật độ trộn k

phân phối chuẩn có phương sai phụ thuộc (Regression Density Estimation with

Mixtures of k Heteroscedastic Normals: RDE-MHN(k))

P(w|Z) = dl N (y|n3 (2), 05 (2))

trong đó xác suất trộn 7;(z), trung bình p;(z) và phương sai ơ7(Z ) là các hàm

của các tổ hợp tuyến tính của z, các z;(Z) > 0 và » 7;(z) = 1 Tran va đồng

sự [40] đề xuất một thuật toán nhanh dựa trên phương pháp Bayes biến phâncho phép thực hiện đồng thời lựa chọn các biến, lựa chọn số thành phần k và

ước lượng tham số Phương pháp của Tran và đồng sự [40] có thể giải quyết vấnđề cực đại địa phương trong việc lựa chọn k, và có thể áp dung cho trường hợpnhiều biến (số lượng biến có thể lớn hơn kích thước mẫu).

Tuy nhiên, Nott và đồng sự [28], Tran và đồng sự [40] va Villani và đồng sự

[42] chỉ mới nghiên cứu mô hình này với y là đơn biến, trường hợp y là đa biến

chưa được nghiên cứu thực hiện Do đó mục tiêu thứ hai của chúng tôi là

nghiên cứu mở rộng mô hình này cho trường hợp y là đa biến.

Từ những lý do trên, chúng tôi xác định đối tượng nghiên cứu của luận án là

lựa chọn biến cho mô hình hồi quy tuyến tính hỗn hợp tổng quát (Generalized

Linear Mixed Model: GLMM) va mô hình hồi quy mật độ nhiều biến với việc

trộn các phân phối chuẩn (Multivariate Regression Density Estimation with

Mixtures of Normals model: MRDE-MN) Luận án sử dụng phương pháp Bayes

biến phân để xây dựng thuật toán lựa chọn biến nhanh đồng thời ước lượng

tham số mô hình Các kết quả chủ yếu của luận án được công bố trong các công

trình [I], [II] (xem danh mục các công trình của tác giả luận án)

9

Trang 21

Cụ thể luận án đã đạt được những kết quả như sau:

1 Chứng tôi đã xâu dựng một thuật toán Bayes biến phân dé

thực hiện đồng thời lựa chọn biến va ước lượng tham số trongGLMM, ky hiệu là VBGLMM Thuật toán được đề xuất dua

trên phương pháp Bayes biến phân để ước lượng mét mode

hậu nghiệm kết hợp uới phương pháp Bayes thích nghi Lasso.

Phương pháp VB mode hậu nghiệm của chứng tôi có thể được ápdung cho tiệc lựa chọn biến trong các ứng dựng khác, chang han

như lựa chọn hiệp phương sai Phương pháp VBGLMM được đề

quất cũng có thể được mở rộng thành (i) lựa chọn nhóm biến

trong GLMM bằng cách sử dung Lasso phạt nhóm ([43]) (ii)

lua chon biến được sắp xếp trong GLMMs bằng phạt tuyét đối

tổng hợp ([44]).

2 Chứng tôi dé xuất m6 hành hồi quụ mật độ nhiều biến vdi viéc

trộn các phân phối chuẩn có phương sai phụ thuộc

(MRDE-MN), xây dựng thuật toán Bayes biến phân thực hiện đồng thời

chọn biến, ước lượng tham số va xác định số thành phan của

mô hành.

Nội dung của luận án gồm ba chương:

Chương 1: Kiến thức chuẩn bị

Trong chương này chúng tôi trình bày một số nội dung cơ bản nhằm bổ trợ

cho hai chương tiếp theo, bao gồm một số phân phối thường gặp và các tính chấtcủa chúng, cơ sở toán học và một số ví dụ minh họa cho phương pháp Bayesbiến phân và các thuật toán tối ưu đã sử dụng trong luận án.

Chương 2: Lựa chọn biến và ước lượng tham số bằng phương pháp VB cho

mô hình GLMM

10

Trang 22

Trong chương này, chúng tôi đã xây dựng được một thuật toán Bayes biến

phan để thực hiện đồng thời lựa chọn biến và ước lượng tham số trong GLMM.Thuật toán được đề xuất dựa trên phương pháp Bayes biến phân để ước lượng

một mode hậu nghiệm kết hợp với Bayes thích nghi Lasso Việc đánh giá hiệusuất hoạt động của phương pháp của chúng tôi đã được thực hiện rất đầy đủ

va đã khang định được phương pháp này tốt hơn rất nhiều so với phương phápkhác Hơn nữa, phương pháp VB mode hậu nghiệm cũng có thể được áp dụngcho việc lựa chọn biến trong các nội dung khác, chang han như lựa chon hiệp

phương sai Phương pháp VBGLMM được đề xuất cũng có thể được mở rộng

thành (i) lựa chọn nhóm biến trong GLMM bing cách sử dung Lasso phạt nhóm

([43]) (ii) lựa chọn biến được sắp xếp trong GLMM bang phạt tuyệt đối tổng

hợp (44]).

Chương 3: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương

pháp VB cho mô hình MRDE-MN

Trong chương này, chúng tôi nghiên cứu mô hình hồi quy mật độ nhiều biến

với việc trộn các phân phối chuẩn có phương sai phụ thuộc (MRDE-MN), mô tả

thuật toán Bayes biến phân thực hiện đồng thời chọn biến và ước lượng thamsố cho Mean model và Gating model và xác định số thành phần của mô hình.Hiệu suất hoạt động của phương pháp của chúng tôi cũng được đánh giá bằng

nghiên cứu mô phỏng va dữ liệu thực.

Các kết quả chủ yếu của luận án được báo cáo tại

- Semina Bộ môn Xác suất thống kê - trường Dai học Khoa hoc Tự nhiên,Đại học Quốc gia Hà Nội.

- Hội nghị ngày Thống kê, Đại học Khoa học Tự nhiên, Đại học Quốc gia

Hà Nội.

- Đại hội Toán học Việt Nam lần thứ IX, Nha Trang, tháng 8 năm 2018.

Các kết quả chủ yếu của luận án được công bố trên [I], [II].

11

Trang 23

1.1 Một số phân phối thường gặp

1.1.1 Phân phối Beta

Biến ngẫu nhiên X nhận giá trị trong đoạn [0; 1] có phân phối Beta với hai

tham số a > 0 và 8 > 0 được ký hiệu là X ~ Beta(a, j).

Trang 24

E(log X) = (a) — U(œ + 8):

trong đó ø(-) là ham digamma, (+)= dosh (2)

- Nếu X có ham mật độ p(z|œ,đ)z#~1!(1—z)#=! thi X ~Beta(a,f).

1.1.2 Phân phối Gamma

Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma với hai tham số

œ>0 và B>0 được ký hiệu là X ~Gamma(a,{).- Hàm mật độ:

- Nếu X có hàm mật độ p(z|a,8)exp((a=1)loge= 8z) thì X~Gamma(œ,8).

1.1.3 Phân phối Gamma ngược

Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma ngược (Inverse

Gamma: IG) với hai tham số œ>0 và Ø>0 được ký hiệu là X ~IG(a,).

- Hàm mật độ:

a a

P(rl0.8)= Ta exp(—2) ex (loge (œ+1)logz 5.

- Một số tính chất quan trọng của phân phối Gamma ngược

EX =(a > 1),

13

Trang 25

- Nếu X có hàm mật độ p(z|a,8)<exp( (œ+1)losz~Ÿ) thì X~IG(œ„8).

- Nếu X~Gamma(a,8) thì +~IG(a,8).

1.1.4 Phân phối chuẩn một chiều

Biến ngẫu nhiên X nhận giá trị trên R có phân phối chuẩn với hai tham số

u và o? được ký hiệu là X ~.V(u,ø)).

- Nếu X có hàm mat độ p(z|w.ø°)<exp(~ sz(z?~3uz)) thì X ~N (1,07).

1.1.5 Phan phối chuẩn nhiều chiều

Vector ngẫu nhiên X nhận giá trị trên IR“ có phân phối chuẩn d-chiéu với hai

tham số trung bình pw và ma trận hiệp phương sai © được ký hiệu là X ~.Mq(,>).

14

Trang 26

- Hàm mật độ:

p(in.2)=() ‘tex Lene lam}.

p(2e|4.3)=exp{ —Slog(2n) —Slog|®|—5(a—p)'="a—p)

- Một số tính chất quan trọng của phan phối chuẩn nhiều chiều:

KL(P|I@)=5 {tr@9SI)+(wy—j) S2 (paws) d+ log =}.

1.1.6 Phan phối Wishart

Ma tran pxp ngẫu nhiên X xác định dương có phân phối Wishart với haitham số n và V được ký hiệu là X ~ Wishart,(n,V) trong đó ø là số tự nhiên và

V là pxp ma trận xác định dương.

15

Trang 27

- Hàm mật độ

X|n,V np

ANS FEV PDE)

- Một số tinh chất quan trọng của phân phối Wishart:

Giả sử biến ngẫu nhiên Y có phân phối xác suất phụ thuộc vào tham số n,

được gọi là thuộc họ mũ nếu hàm mật độ có dạng

ƒ(yln) = exp (“ —Sữ), cu.) |@

trong đó được gọi là tham số chính tắc của ho mũ, ¢ là tham số ty lệ, ¢(-) vac(-) là các hàm đã biết.

- Phân phối chuẩn: Giả sử biến ngẫu nhiên Y có phân phối chuẩn (,ø2)

khi đó

1 1 :

Đo SP ( 552 Y — H) )

trong trường hợp nay n=, ¢=07, €(n)

- Phân phối Poisson: Gia sử biến ngẫu nhiên Y có phân phối Poisson(A) khi

Trang 28

= exp (y logÀ—À— log(y!)),

trong trường hợp này =logÀ, d=1, ¢(n)=A=e" va c(y,¢) =—log(y!).

- Phân phối Nhị thức: Gia sử biến ngẫu nhiên Y có phân phối nhị thức

Binomial(n,7) khi đó

C?7#(1 — x)" 9

= exp (y log + nlog(1 — 7) 4 logC¥),

trong trường hợp này ?=logr“ =logit(z), ¿=1, ¢(m) =—nlog(1—m) =nlog(e" +1)

và c(y,@) =logCh.

1.2.2 Mô hình hồi quy tuyến tính tổng quát

Chúng ta thường quen thuộc với mô hình hồi quy tuyến tính thông thường(khi biến phụ thuộc y là biến liên tục), hay mô hình hồi quy logistic (khi y làbiến nhị phân) GLMs (Generalized linear models) là một lớp các mô hình hồi

quy tuyến tính tổng quát cho nhiều kiểu dữ liệu của biến phụ thuộc y, được

trình bay trong Annette va Adrian [3] và Nelder và Wederburn [27].

Gia sử y=(y1,y2, -,Yn)’, mô hình hồi quy tuyến tính tổng quát được xác định

bởi ba thành phần:

- Hàm mật độ thuộc họ mũ

Flute) =esp( HS cauua)),

trong đó 7,i=1,2, n là tham số chính tắc của ho mũ; tham số ty lệ ¢ có thể đã

biết hoặc chưa biết, ¢(-) và c(-) là các hàm đã biết.

Trang 29

- Hàm liên kết

Tham số chính tắc 7 liên hệ đơn trị với kỳ vọng có điều kiện = E(w,|8)

thông qua hàm liên kết ø(-); ø(u¿)= với i=1,2, n Hàm liên kết được xác định

tùy thuộc vào dạng hồi quy, một số dạng hồi quy quen thuộc được trình bày

trong bang 1.1.

Bang 1.1: Bảng mô tả ham liên kết ứng với các dang hồi quy.

Hồi quy Poisson: ;|Ø~ Poisson(A,) ø(A¡)=log(A)

Hồi quy Nhị thức hay hồi quy logistic: |đ=~ Binomial(1,z,) g(m¡) =logit(m;)

1.3 Mô hình hồi quy trộn

Trong trường hợp mô hình dữ liệu được phát sinh từ một quần thể không

đồng nhất thì mô hình hồi quy trộn là phù hợp nhất (Mixture of RegressionModels: MRMs) Nó là một công cụ linh hoạt để mô hình hóa dữ liệu dang này.

Cho Y là một biến đáp ứng được quan tâm và z= (z1,za, ,z„) là vector các hiệp

biến được cho là có ảnh hưởng đến Y Ta nói (z,Y) tuân theo MRMs nếu ham

mật độ có điều kiện của Y được cho bởi z có dạng

p(y|z.#)= ref (ylOe(2).o4);

trong đó f(y|0,¢) thuộc một ho các hàm mật độ của Y, K 1a số thành phan,

0y(z)—=g(z!8¿) với k=1,2, , được cho bởi hàm liên kết ø(-), B=((91,69, ,8x,®,7)

với y;= (Ô1.ka .Øp) › ® = (¢1,09, 0K)’ va 7 = (71,72, ,7K)! sao cho Tr > Ö và

teal Các my, k=1,2, ,.K được gọi là xác suất trộn Hàm liên kết ø(-) được

xác định theo dạng của f(y|0,¢) là Chuẩn, Nhị thức hay Poisson.

18

Trang 30

- Mô hình hồi quy trộn các phân phối Chuẩn

p(y|z.)= ˆ,A(y|wx(2).71),

trong đó N(y|uz(z),o2) là phan phối chuẩn với trung bình py, (z)=2' Be.

- Mô hình hồi quy trộn các phân phối Nhị thức

p(ylz,8) =) 7, Binomial(y|T,9,(2)),

trong đó Binomial(y|7,0;,(z)) là phân phối Nhị thức với T là số lần thực hiện

phép thử và xác suất thành công Ø;„(z) € (0,1) được cho bởi logit(0,(z)) =z’ Bp.

- Mô hình hồi quy trộn các phân phối Poisson

p(y|z;)= 7Poisson(y|Ax(2));

trong đó Poisson(y|A,(z)) là phân phối Poisson với log(Ag(z)) = 2’ Be.

1.4 Phương pháp Bayes bién phân

Gia sử y là biến quan sát được, phụ thuộc vào tham số 6 Khi đó p(y) đượcgọi là phân phối biên duyên của y, p(y|@) là phân phối của y khi đã biết Ø (cònđược gọi là hàm hợp lý), p(@) là phân phối tiên nghiệm của 0 và p(0|u) được gọilà phân phối hậu nghiệm của 6 khi đã biết y Thống kê Bayes sử dung phan

phối hậu nghiệm p(6|y) để suy luận thống kê: ước lượng tham số, kiểm định gia

thuyết hay phân tích hồi quy Do đó phân phối hậu nghiệm p(0|y) là rất quan

trọng trong thống kê Bayes Suy luận Bayes về p(0|y) được dựa vào định lý Bayes

điều chỉnh như sau:

p(0)p(/|0)p(0lu) = p0)

Như vậy, phân phối hậu nghiệm tỷ lệ với tích phân phối tiên nghiệm và hàm hợp

lý, ký hiệu là p(6|y) « p(@)p(y|@) Tuy nhiên, phân phối tiên nghiệm p(Ø) thường

19

Trang 31

là không biết, mà chỉ có thé chọn cho Ø một tiên nghiệm được xem là phù hợp

(dựa vào kinh nghiệm hay lòng tin nào đó về phân phối của 0).

Điều quan trọng hơn cả là phân phối hậu nghiệm p(6|y) thường là phân phối

không biết mà phải sử dụng một phương pháp xấp xỉ để xấp xỉ nó Trong nội

dung này chúng tôi quan tâm phương pháp Bayes biến phân Phương phápBayes biến phân VB là các kỹ thuật xấp xỉ phân phối hậu nghiệm trong suy

luận Bayes (Chương 10 [8S], [30]) Phương pháp này thường được sử dụng trong

các mô hình thống kê phức tạp bao gồm biến quan sát được (còn gọi là "dữ

liệu"), tham số chưa biết và biến tiềm ẩn Trong suy luận Bayes, tham số vàbiến tiềm an được nhóm lại là biến không quan sát được Phương pháp VB chủ

yêu được sử dụng cho hai mục đích:

- Tìm ra phân phối tối ưu, thuộc lớp các hàm phân phối quen thuộc nào đó

để xấp xỉ phân phối hậu nghiệm đúng của các biến không quan sát được để làm

suy luận thống kê qua các biến này.

- Tìm cực đại cận dưới biên duyên Từ đó thực hiện lựa chọn mô hình phù

hợp nhất với dữ liệu.

1.4.1 Cơ sở toán học

Giả sử có dữ liệu y với hàm hợp lý p(y|@) trong đó Øe]R“ là tham số chưa biếtva phân phối tiên nghiệm của Ø là p(Ø) Phương pháp VB xấp xỉ phân phối hau

nghiệm p(6|y) « p(6)p(w|6) bởi một ham mật độ a(6) của @ trong một lóp phân

phối dễ xử lý, g(@) được chon sao cho cực tiểu khoảng cách Kullback-Leibler giữa

Trang 32

Vi KL(allp)>0 nên logp(y) > L(q) do đó L(q) được gọi là cận dưới biên duyên

của y, việc cực tiểu KL(q||p) sẽ tương đương với cực đại L(q) Thông thường phanphối hậu nghiệm xấp xỉ được khai triển thành một tích là một giả thiết quantrọng trong phương pháp VB Giả sử 0=(0,9a) và q(@) được khai triển thành

4(0) = 4I(01)4a(03) (1.3)

Giả sử gi(Ø1)=qg„, (01) và qo(02) =4q7, (02) trong đó 7¡ và 7a là các tham số biếnphân cần phải ước lượng Khi đó

Lm, 72) L(q) = | Gr: (01) drs (92) log p(y, 0)d01d02 — / Gr, (1) log qr, (01 )d01 + C(72)

= [ons (/ in( ls) logy at do, — Ju (01) log gr, (01)d01 + Ca)

= = f(r) 105 4 (Pi)ats + CC)

= gn (01) do, + C(72),

trong đó C(72) là một hằng số chi phụ thuộc vào 7a và

ði(w.i) = exp ( / dna(0) log rly, et) = exp (Eo, (log p(y 4))).

Trang 33

Một cách tương tự, cố định r¡, đặt

rf = rf(n) = argmax ( [t0 Dung: (1.6)T2 T2 2

ña(y.;) = exp ( / dn(61) log rly, 0, ) = exp (B_p,(log p(y 9))).

khi đó, với mọi 7s ta có

L(71,73) > LI, 72) (1.7)

Đặt r9ld— (eld rola) là giá trị hiện tại của 7¡ và 7a, giá tri cập nhật mới làthew — 7*(79!¢) trong (1.4) va 7‡°*=zrz(r}°*) trong (1.6) Do (1.5) và (1.7) nên

Lí") > (r9), (1.8)

Điều này dẫn tới một hệ thống vòng lặp để cập nhật giá trị z và công thức

(1.8) bảo đảm sự cải thiện của cận dưới biên duyên qua các vòng lặp Do cận

dưới biên duyên L(r) bi chặn trên bởi logp(y) nên sự hội tụ của hệ thống vòng

lặp được bảo đảm Kết quả trên có thể dễ dàng mở rộng cho trường hợp tổngquát là q(@) được khai triển thành # khối g()=q1(61) x xqK (0K) XAp xi Bayes

biến phan được đưa về xử lý bài toán tối ưu (1.4) Các ø;:(Ø;) với ¡=1, được

xấp xỉ bởi

tr (0) Bly) = FREES oc exp (Bo (lognty.6)))- (19)

Chú ý rang bai toán tối ưu (1.4) cũng chính là bài toán VB gốc là cực đại

L(q) trong (1.2).

Từ kết quả trên ta có thuật toán VB tổng quát có dang:

1 Khởi trị r¡ với i=1, ,K.

2 Lần lượt cập nhật các 7; theo kết quả nhận được từ (1.9).

3 Lặp lại bước 2 cho đến khi hội tụ.

22

Trang 34

Điều kiện dừng có thể dựa vào sự cải thiện L(q) hoặc dựa vào sự hội tu của

tham số chính nào đó qua các vòng lặp.

Trong nhiều trường hợp, một hàm mật độ tiên nghiệm liên hợp p(;) có thể

được chọn sao cho p;(6;\y) thuộc về một họ mật độ tham số có thể nhận biết

được Trường hợp này được gọi là Bayes biến phân dạng trung bình (Mean FormVariational Bayesian: MFVB) Khi đó hậu nghiệm VB tối ưu q;;(0;) làm cực đạitích phân bên về phải của (1.4) chính là p;(6;|y), với 77 là tham số tương ứng

của hàm mật độ này.

Nếu 7;(6;|y) không thuộc họ mật độ có thể nhận biết được thì ta cần chọn

cho nó một dạng phân phối sau đó sử dụng một số kỹ thuật tối ưu xử lý (1.4)

để ước lượng tham số rỷ của q,*(6;) Trường hợp này được gọi là cố định dang

biến phan Bayes (Fixed Form Variational Bayesian: FFVB).

1.4.2 Trường hợp MFVB

Trường hợp này ?,(6,|y) thuộc một họ phân phối có thể nhận biết được nên

thông qua (1.9) sẽ cho ta dang ham mật độ q,,(6;) thuộc một lớp phân phối nào

đó đã biết, ta có thể dé dàng xác định tham số zÿ của g;,(0;) chính là các tham

số đặc trưng của phân phối này.

Ví dụ 1.1: Giả sử = (0i ,;)“ là n quan sát độc lập và có cùng phân phối

chuẩn (/,ø2) với hai tham số và o chưa biết Ta có hàm mật độ

Trang 35

p(o ) — 1G(Ao, Bo) — T(Ao)” exp 2).

Trong trường hợp này, bộ tham số của mô hình là Ø= (/,ø?), phân phối tiên

nghiệm p(@) = p(/)ø(ø?) và hậu nghiệm biến phan VB được khai triển thành

4(0)=4(0)4(ø?) Ta cần xác định phân phối hậu nghiệm tối ưu VB cho hai thamSỐ / và o?.

Phân phối hậu nghiệm tối ưu VB cho 6.

Từ (1.9) ta có

quilt) p1(Hn|g) «x

log (p(y|t.0?)-p 2s2se))

t5)|—SISQS =we xnại * oa)!¬C

HIẾP} ell)

Như vậy 7I(0¡|) thuộc họ phân phối chuẩn, do đó q„(u)~.V(u„,ø2) với hai

tham số ø„ va ø2 được cập nhật theo công thức

5 11, 1\

“= (nll +a)

-Hụ = (ng[—] +48) o2, (1.10)

Trang 36

trong đó [-] là kỳ vọng với phân phối tương ứng.

Phân phối hậu nghiệm tối ưu VB cho ø?.

Tương tự như trên ta có

qzz(ø) Pa(ø'|u)ơ?

x exp {E _o2(log p(y, Mo 2)}

exp {Ey (log (p (yl, 0°).p (u)-p(0?))) }

x exp {Ey log p(|u; ø *) + log p(y) + losp(ø?)) Ì

exp {exp {

Io2(o )%exp{ = (F+40+1)log(o ) Fe (Bo Hộ › (Yi- by) 4 voi) S.

Nhu vậy q,2(07) ~IG(A,2,B,2) với hai tham số A,2 va B„z được cập nhật theo

công thức

Trang 37

Biz, = Bo (yi — tụ)” + sơ2 (1.11)

1 Aj

a ~ Boa’

[logo?] = log By2 — (A,2)

Cận dưới biên duyên L(q).

Ta có

— P(Y,9) 4) —

L(q) = | 40)log a) đØ = {log p(y, 8)] — [log a(8)]

= [log p(y|9)] + [log p(@)] — [log g(0)].

Trang 38

+Aœ log Byz — log P(Ag2) — (Ag2 + 1) (tog By — 0(Az2)) — Ago.

Kết hợp các kết quả trên ta nhận được

L(q) = Slog(2n) = 6 + Ap — Ag?) (tog By — 0(Az2))

3 Cập nhật A„z và B,2 theo công thức (1.11).

4 Lặp lại bước 2 - 3 cho đến khi hội tụ.

2, Z N 2 N z ñ Z 2 * 4 ` 2

Giả sử ta có /uz„e Và ơz„¿ là hai giá trị đúng của hai tham sô p và o

trong phân phối chuẩn của các y; Khi đó phân phối hậu nghiệm đúng cho /

là p(uly) ~N (ut? of") với hai tham số pl") và ofl") được xác định bởi

true 1 t0 ) 2(true)= => 1.12

và phân phối hậu nghiệm đúng cho o? là p(o?|y) ~1G(A%"”, Bi”) với hai thamơ2 )

số Ate và Bie được xác định bởi công thức

Aue — 5 + Ao.

Bie = Be 3 — irue)Ê- (1.13)

27

Trang 39

Chúng tôi đã thực hiện mô phỏng với /;„e=0 , ø2.„„= 10 với n=100 và n=200

để thấy rõ sự ảnh hưởng của dữ liệu y lên phân phối hậu nghiệm của các thamsố pp và ơ? Kết quả được thể hiện trong bảng 1.2.

Bảng 1.2: Bảng kết quả hai lần thực hiện mô phỏng.

Lần thực hiện | Các tham số | Hậu nghiệm đúng | Hậu nghiệm tối ưu VB

Lần 1 by 0.2195 0.2195n = 100 ơn 0.0999 0.0884

Aye 51 51

By 449.1384 451.1436

Lan 2 Hụ -0.0349 -0.0349n = 200 ơn 0.0495 0.0500

Ag 101 101

Đa: 996.2705 1001.1000

Chú ý rằng giá trị đúng của tham số được ước lượng bang mode của phân

phối hậu nghiệm tối ưu VB tương ứng Chang hạn, /„„„e=0 được ước lượng

bằng ñ= „0.2195 và ø2.„„= 10 được lượng bằng ở? ey +49 = 8.6758.

Các ước lượng này chưa được tốt là do n=100 khá bé, khi thực hiện với n=200

thì các ước lượng này rất tốt, có thể đạt được ñ= —0.0349 và 6? =9.8147.

Đồ thị minh họa cho xấp xỉ hậu nghiệm được thể hiện như hình 1.1 Đường

nét liền là đồ thị của phân phối hậu nghiệm đúng p(u|y) và p(ø?|y) và đường nét

đứt là đồ thi của phân phối hậu nghiệm tối ưu VB g(/) và g(ø?) Nhìn chung haiđường nay rất sát nhau Đặc biệt nhìn vào đồ thị mô tả sự cải thiện của L(q)qua các vòng lặp, cho thấy thuật toán VB hội tụ rất nhanh, chỉ sau vài vònglặp đã gần như dat được giới hạn trên của L(q).

28

Trang 40

The posterior density p(mu|y) và q(mu) The posterior density p(muly) và q(mu)

14 1.8

1.208 4

06 0.8

92 0.25

0.15 0.2

0.050 0

(e) Cận dưới biên duyên L(q) ( Cận dưới biên duyên L(q)

Hình 1.1: Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải.

29

Ngày đăng: 21/05/2024, 02:13

HÌNH ẢNH LIÊN QUAN

Bảng ký hiệu và viết tắt Mở đầu - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng k ý hiệu và viết tắt Mở đầu (Trang 5)
Bang 1.1: Bảng mô tả ham liên kết ứng với các dang hồi quy. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
ang 1.1: Bảng mô tả ham liên kết ứng với các dang hồi quy (Trang 29)
Bảng 1.2: Bảng kết quả hai lần thực hiện mô phỏng. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 1.2 Bảng kết quả hai lần thực hiện mô phỏng (Trang 39)
Hình 1.1: Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Hình 1.1 Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải (Trang 40)
Bảng 1.3: Bảng kết quả thực hiện mô phỏng. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 1.3 Bảng kết quả thực hiện mô phỏng (Trang 46)
Hình 1.2: Kết quả thực hiện mô phỏng bằng hai thuật toán. Thuật toán 1 là cột - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Hình 1.2 Kết quả thực hiện mô phỏng bằng hai thuật toán. Thuật toán 1 là cột (Trang 47)
Bảng 2.1: Kết quả mô phỏng hồi quy Poisson - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 2.1 Kết quả mô phỏng hồi quy Poisson (Trang 79)
Bảng 2.2: Kết quả mô phỏng hồi quy logistic - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 2.2 Kết quả mô phỏng hồi quy logistic (Trang 80)
Hình theo phương pháp Bayes biến phân, chúng tôi đi đến thuật - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Hình theo phương pháp Bayes biến phân, chúng tôi đi đến thuật (Trang 94)
Bảng 3.1: Bảng giá trị đúng của các tham số 6 và +. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 3.1 Bảng giá trị đúng của các tham số 6 và + (Trang 104)
Bảng 3.2: Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương pháp. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 3.2 Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương pháp (Trang 105)
Bảng 3.3: Các biến được chọn và các hệ số ước lượng trong mean model. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 3.3 Các biến được chọn và các hệ số ước lượng trong mean model (Trang 106)
Bảng 3.4: Các biến được chọn và các hệ số ước lượng trong gating model. - Luận án tiến sĩ toán học: Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN
Bảng 3.4 Các biến được chọn và các hệ số ước lượng trong gating model (Trang 107)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w