1. Trang chủ
  2. » Luận Văn - Báo Cáo

Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde mn

115 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE-MN
Tác giả Đào Thanh Tùng
Người hướng dẫn PGS. TS. Trần Minh Ngọc, TS. Trần Mạnh Cường
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Toán học
Thể loại Luận án tiến sĩ
Năm xuất bản 2020
Thành phố Hà Nội
Định dạng
Số trang 115
Dung lượng 773,7 KB

Cấu trúc

  • 1.1 Một số phân phối thường gặp (23)
    • 1.1.1 Phân phối Beta (23)
    • 1.1.2 Phân phối Gamma (24)
    • 1.1.3 Phân phối Gamma ngược (24)
    • 1.1.4 Phân phối chuẩn một chiều (25)
    • 1.1.5 Phân phối chuẩn nhiều chiều (25)
    • 1.1.6 Phân phối Wishart (26)
  • 1.2 Họ mũ và Mô hình hồi quy tuyến tính tổng quát (27)
    • 1.2.1 Họ mũ (27)
    • 1.2.2 Mô hình hồi quy tuyến tính tổng quát (28)
  • 1.3 Mô hình hồi quy trộn (29)
  • 1.4 Phương pháp Bayes biến phân (30)
    • 1.4.1 Cơ sở toán học (31)
    • 1.4.2 Trường hợp MFVB (34)
    • 1.4.3 Trường hợp FFVB (41)
  • 1.5 Một số thuật toán tối ưu sử dụng trong luận án (51)
    • 1.5.1 Thuật toán Newton - Raphson (52)
    • 1.5.2 Thuật toán xấp xỉ ngẫu nhiên cho FFVB (52)
    • 1.5.3 Thuật toán đạo hàm theo hướng (54)
  • Chương 2 Lựa chọn biến và ước lượng tham số bằng phương pháp VB cho mô hình GLMM 44 (23)
    • 2.1 Giới thiệu chung (55)
    • 2.2 Mô hình GLMM (58)
    • 2.3 Phương pháp VB ước lượng mode hậu nghiệm (61)
    • 2.4 Phương pháp VB để chọn biến và ước lượng tham số cho GLMM . 52 (63)
      • 2.4.1 Phân phối hậu nghiệm tối ưu VB cho β (63)
      • 2.4.2 Phân phối hậu nghiệm tối ưu VB cho b (67)
      • 2.4.3 Phân phối hậu nghiệm tối ưu VB cho Q (70)
      • 2.4.4 Phân phối hậu nghiệm tối ưu VB cho λ (71)
      • 2.4.5 Phân phối hậu nghiệm tối ưu VB cho φ (71)
      • 2.4.6 Lựa chọn các siêu tham số (72)
      • 2.4.7 Thuật toán VB (76)
    • 2.5 Ứng dụng (77)
      • 2.5.1 Nghiên cứu mô phỏng (77)
      • 2.5.2 Ứng dụng trên dữ liệu thực (78)
  • Chương 3 Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho mô hình MRDE-MN 72 (55)
    • 3.1 Giới thiệu chung (84)
    • 3.2 Mô hình MRDE-MN (86)
      • 3.2.1 Phân phối hậu nghiệm tối ưu VB cho β (87)
      • 3.2.2 Phân phối hậu nghiệm tối ưu VB cho T k (89)
      • 3.2.3 Phân phối hậu nghiệm tối ưu VB cho q ik (90)
      • 3.2.4 Phân phối hậu nghiệm tối ưu VB của γ (90)
      • 3.2.5 Cận dưới L(q) (91)
      • 3.2.6 Thuật toán VB cho mô hình MRDE-MN (94)
    • 3.3 Lựa chọn số thành phần (95)
    • 3.4 Lựa chọn biến (98)
      • 3.4.1 Mô hình tiên nghiệm (98)
      • 3.4.2 Lựa chọn biến cho mean model (99)
      • 3.4.3 Lựa chọn biến cho gating model (101)
      • 3.4.4 Thuật toán đầy đủ (102)
    • 3.5 Ứng dụng (103)
      • 3.5.1 Nghiên cứu mô phỏng (104)
      • 3.5.2 Ứng dụng trên dữ liệu thực HILDA (105)
    • 1.1 Bảng mô tả hàm liên kết ứng với các dạng hồi quy (0)
    • 1.2 Bảng kết quả hai lần thực hiện mô phỏng (0)
    • 1.3 Bảng kết quả thực hiện mô phỏng (0)
    • 1.4 Bảng kết quả thực hiện mô phỏng trên ba thuật toán (0)
    • 2.1 Kết quả mô phỏng hồi quy Poisson (0)
    • 2.2 Kết quả mô phỏng hồi quy logistic (0)
    • 3.1 Bảng giá trị đúng của các tham số β và γ (0)
    • 3.2 Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương pháp (0)
    • 3.3 Các biến được chọn và các hệ số ước lượng trong mean model (0)
    • 3.4 Các biến được chọn và các hệ số ước lượng trong gating model (0)

Nội dung

Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MNLựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho các mô hình GLMM và MRDE - MN

Một số phân phối thường gặp

Phân phối Beta

Biến ngẫu nhiên X nhận giá trị trong đoạn [0; 1] có phân phối Beta với hai tham số α > 0 và β > 0 được ký hiệu là X ∼Beta(α, β).

- Hàm mật độ: p(x|α, β) = Γ(α + β) Γ(α)Γ(β) x α−1 (1 − x) β−1 - Một số tính chất quan trọng của phân phối Beta

E(log X) = ψ(α) − ψ(α + β). trong đú ψ(ã) là hàm digamma, ψ(x) = dlogΓ(x) dx - Nếu X có hàm mật độ p(x|α,β )∝ x α−1 (1−x) β−1 thì X ∼Beta(α,β).

Phân phối Gamma

Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma với hai tham số α > 0 và β >0 được ký hiệu là X ∼Gamma(α,β ).

- Hàm mật độ: p(x|α,β) = β α Γ(α) x α−1 exp(−βx) = exp log β α Γ(α) +(α −1)logx−βx

- Một số tính chất quan trọng của phân phối Gamma

- Nếu X có hàm mật độ p(x|α,β)∝ exp

Phân phối Gamma ngược

Biến ngẫu nhiên X nhận giá trị dương có phân phối Gamma ngược (Inverse Gamma: IG) với hai tham số α > 0 và β >0 được ký hiệu là X ∼IG(α,β).

- Hàm mật độ: p(x|α,β) = β α Γ(α) x −α−1 exp(− β x ) = exp log β α Γ(α) −(α+1)logx− β x

- Một số tính chất quan trọng của phân phối Gamma ngược

- Nếu X có hàm mật độ p(x|α,β )∝ exp

Phân phối chuẩn một chiều

Biến ngẫu nhiên X nhận giá trị trên R có phân phối chuẩn với hai tham số à và σ 2 được ký hiệu là X ∼ N (à,σ 2 ).

- Một số tính chất quan trọng của phân phối chuẩn một chiều

EX = à, VarX = σ 2 , EX 2 = à 2 + σ 2 , E(e kX ) = e kà+ 1 2 k 2 σ 2 , ModeX = à.

- Nếu X cú hàm mật độ p(x|à,σ 2 ) ∝ exp

Phân phối chuẩn nhiều chiều

Vector ngẫu nhiên X nhận giá trị trênR d có phân phối chuẩn d-chiều với hai tham số trung bỡnhàvà ma trận hiệp phương saiΣđược ký hiệu làX ∼N d (à,Σ).

- Một số tính chất quan trọng của phân phối chuẩn nhiều chiều:

+ Nếu X cú hàm mật độ p(x|à,Σ) ∝ exp n

+ Nếu X ∼ N d (à,Σ) thỡ E[(X −à) 0 Σ −1 (X −à)] = d. + Nếu X ∼ N (à,Σ) và Z =QX thỡ Z ∼ N (Qà,Q 0 ΣQ). + Nếu X ∼ N (à,Σ) thỡ E(XX 0 ) = (àà 0 +Σ).

+ Nếu P ∼ N d (à 1 ,Σ 1 ), Q ∼ N d (à 2 ,Σ 2 ), thỡ khoảng cỏch Kullback-Leibler từ P đến Q là

Phân phối Wishart

Ma trận p×p ngẫu nhiên X xác định dương có phân phối Wishart với hai tham số n và V được ký hiệu là X ∼Wishart p (n,V ) trong đó n là số tự nhiên vàV là p×p ma trận xác định dương.

2 np 2 |V | n/2 Γ p ( n 2 ) - Một số tính chất quan trọng của phân phối Wishart:

MeanX = nV ,ModeX = (n − p − 1)V ,Var(X ij ) = n(v 2 ij + v ii v jj ).

Họ mũ và Mô hình hồi quy tuyến tính tổng quát

Họ mũ

Giả sử biến ngẫu nhiên Y có phân phối xác suất phụ thuộc vào tham số η, được gọi là thuộc họ mũ nếu hàm mật độ có dạng f (y|η) = exp yη − ζ(η) φ + c(y, φ)

, trong đú η được gọi là tham số chớnh tắc của họ mũ, φ là tham số tỷ lệ, ζ(ã) và c(ã) là cỏc hàm đó biết.

- Phõn phối chuẩn: Giả sử biến ngẫu nhiờn Y cú phõn phối chuẩn N (à,σ 2 ) khi đó f (y|à, σ 2 ) = 1

, trong trường hợp này η = à, φ = σ 2 , ζ(η) = 1 2 à 2 = 1 2 η 2 và c(y,φ) = − 1 2 log(2πσ 2 )− 2σ y 2 2.

- Phân phối Poisson: Giả sử biến ngẫu nhiên Y có phân phối Poisson(λ) khi đó f (y|λ) = λ y e −λ y!

, trong trường hợp này η = logλ, φ = 1, ζ(η) = λ =e η và c(y,φ) = −log(y!).

- Phân phối Nhị thức: Giả sử biến ngẫu nhiên Y có phân phối nhị thức Binomial(n,π) khi đó f (y|π) = C y n π y (1 − π) n−y

, trong trường hợp này η = log 1−π π =logit(π), φ = 1, ζ(η) = −nlog(1− π) = nlog(e η +1) và c(y,φ) = logC y n

Mô hình hồi quy tuyến tính tổng quát

Chúng ta thường quen thuộc với mô hình hồi quy tuyến tính thông thường (khi biến phụ thuộc y là biến liên tục), hay mô hình hồi quy logistic (khi y là biến nhị phân) GLMs (Generalized linear models) là một lớp các mô hình hồi quy tuyến tính tổng quát cho nhiều kiểu dữ liệu của biến phụ thuộc y, được trình bày trong Annette và Adrian [3] và Nelder và Wederburn [27].

Giả sử y = (y 1 ,y 2 , ,y n ) 0 , mô hình hồi quy tuyến tính tổng quát được xác định bởi ba thành phần:

- Hàm mật độ thuộc họ mũ f (y i |β) = exp y i η i −ζ(η i ) φ +c(y i ,φ)

, trong đó η i ,i = 1,2, ,n là tham số chính tắc của họ mũ; tham số tỷ lệ φ có thể đã biết hoặc chưa biết, ζ(ã) và c(ã) là cỏc hàm đó biết.

- Thành phần tuyến tính η =X β trong đó η = (η 1 ,η 2 , ,η n ) 0 ; β là p-vector hệ số ảnh hưởng cố định; X là n ×p ma trận thiết kế ứng với yếu tố ảnh hưởng cố định.

Tham số chớnh tắc η i liờn hệ đơn trị với kỳ vọng cú điều kiện à i = E(y i |β) thụng qua hàm liờn kếtg(ã); g(à i ) = η i vớii = 1,2, ,n Hàm liờn kết được xỏc định tùy thuộc vào dạng hồi quy, một số dạng hồi quy quen thuộc được trình bày trong bảng 1.1.

Bảng 1.1: Bảng mô tả hàm liên kết ứng với các dạng hồi quy.

Dạng hồi quy Hàm liờn kết g(ã)

Hồi quy chuẩn: y i |β ∼ N (à i ,σ 2 ) g(à i ) = à i Hồi quy Poisson: y i |β ∼Poisson(λ i ) g(λ i ) = log(λ i )Hồi quy Nhị thức hay hồi quy logistic: y i |β ∼Binomial(1,π i ) g(π i ) =logit(π i )

Mô hình hồi quy trộn

Trong trường hợp mô hình dữ liệu được phát sinh từ một quần thể không đồng nhất thì mô hình hồi quy trộn là phù hợp nhất (Mixture of Regression Models: MRMs) Nó là một công cụ linh hoạt để mô hình hóa dữ liệu dạng này.

ChoY là một biến đáp ứng được quan tâm vàz = (z 1 ,z 2 , ,z n ) 0 là vector các hiệp biến được cho là có ảnh hưởng đến Y Ta nói (z,Y ) tuân theo MRMs nếu hàm mật độ có điều kiện của Y được cho bởi z có dạng p(y|z,Ψ) =

X k=1 π k f (y|θ k (z),φ k ), trong đó f (y|θ,φ) thuộc một họ các hàm mật độ của Y, K là số thành phần, θ k (z)=g(z 0 β k )vớik =1,2, ,K được cho bởi hàm liờn kếtg(ã),Ψ=(β 1 ,β 2 , ,β K ,Φ,π) với β k = (β k1 ,β k2 , ,β kp ) 0 , Φ = (φ 1 ,φ 2 , ,φ K ) 0 và π = (π 1 ,π 2 , ,π K ) 0 sao cho π k > 0 và

PK k=1 π k = 1 Cỏc π k , k = 1,2, ,K được gọi là xỏc suất trộn Hàm liờn kết g(ã)được xác định theo dạng của f (y|θ,φ) là Chuẩn, Nhị thức hay Poisson.

- Mô hình hồi quy trộn các phân phối Chuẩn p(y|z,Ψ) =

X k=1 π k N (y|à k (z),σ 2 k ), trong đú N (y|à k (z),σ k 2 ) là phõn phối chuẩn với trung bỡnh à k (z) = z 0 β k - Mô hình hồi quy trộn các phân phối Nhị thức p(y|z,Ψ) =

X k=1 π k Binomial(y|T,θ k (z)), trong đó Binomial(y|T,θ k (z)) là phân phối Nhị thức với T là số lần thực hiện phép thử và xác suất thành công θ k (z) ∈ (0,1) được cho bởi logit(θ k (z)) = z 0 β k

- Mô hình hồi quy trộn các phân phối Poisson p(y|z,Ψ) =

X k=1 π k Poisson(y|λ k (z)),trong đó Poisson(y|λ k (z)) là phân phối Poisson với log(λ k (z)) = z 0 β k

Phương pháp Bayes biến phân

Cơ sở toán học

Giả sử có dữ liệuy với hàm hợp lý p(y|θ)trong đó θ ∈R d là tham số chưa biết và phân phối tiên nghiệm của θ là p(θ) Phương pháp VB xấp xỉ phân phối hậu nghiệm p(θ|y) ∝ p(θ)p(y|θ) bởi một hàm mật độ q(θ) của θ trong một lớp phân phối dễ xử lý,q(θ)được chọn sao cho cực tiểu khoảng cách Kullback-Leibler giữa q(θ) và p(θ|y):

Chúng ta có logp(y) = log p(y)

Vì KL(qkp)≥ 0 nên log p(y) ≥ L(q) do đó L(q) được gọi là cận dưới biên duyên củay, việc cực tiểu KL(qkp)sẽ tương đương với cực đại L(q) Thông thường phân phối hậu nghiệm xấp xỉ được khai triển thành một tích là một giả thiết quan trọng trong phương pháp VB Giả sử θ = (θ 1 ,θ 2 ) và q(θ) được khai triển thành q(θ) = q 1 (θ 1 )q 2 (θ 2 ) (1.3)

Giả sử q 1 (θ 1 ) = q τ 1 (θ 1 ) và q 2 (θ 2 ) = q τ 2 (θ 2 ) trong đó τ 1 và τ 2 là các tham số biến phân cần phải ước lượng Khi đó

= Z q τ 1 (θ 1 ) log e p 1 (y, θ 1 ) q τ 1 (θ 1 ) dθ 1 + C(τ 2 ), trong đó C(τ 2 ) là một hằng số chỉ phụ thuộc vào τ 2 và ep 1 (y, θ 1 ) = exp

Cố định τ 2 Đặt τ 1 ∗ = τ 1 ∗ (τ 2 ) = arg max τ 1

, (1.4) thì với mọi τ 1 ta có

Một cách tương tự, cố định τ 1 , đặt τ 2 ∗ = τ 2 ∗ (τ 1 ) = arg max τ 2

, khi đó, với mọi τ 2 ta có

L(τ 1 , τ 2 ∗ ) ≥ L(τ 1 , τ 2 ) (1.7) Đặt τ old = (τ 1 old ,τ 2 old ) là giá trị hiện tại của τ 1 và τ 2 , giá trị cập nhật mới là τ 1 new = τ 1 ∗ (τ 2 old ) trong (1.4) và τ 2 new = τ 2 ∗ (τ 1 new ) trong (1.6) Do (1.5) và (1.7) nên

L(τ new ) ≥ L(τ old ) (1.8) Điều này dẫn tới một hệ thống vòng lặp để cập nhật giá trị τ và công thức (1.8) bảo đảm sự cải thiện của cận dưới biên duyên qua các vòng lặp Do cận dưới biên duyên L(τ) bị chặn trên bởi logp(y) nên sự hội tụ của hệ thống vòng lặp được bảo đảm Kết quả trên có thể dễ dàng mở rộng cho trường hợp tổng quát làq(θ)được khai triển thành K khối q(θ)= q 1 (θ 1 )× ×q K (θ K ) Xấp xỉ Bayes biến phân được đưa về xử lý bài toán tối ưu (1.4) Các q τ i ∗ (θ i )với i = 1, ,K được xấp xỉ bởi q τ i ∗ (θ i ) ≈e p i (θ i |y) = pe i (y, θ i ) R ep i (y, θ i )dθ i ∝ exp E −θ i (log p(y, θ))

Chú ý rằng bài toán tối ưu (1.4) cũng chính là bài toán VB gốc là cực đại L(q) trong (1.2).

Từ kết quả trên ta có thuật toán VB tổng quát có dạng:

1 Khởi trị τ i với i = 1, ,K. 2 Lần lượt cập nhật các τ i theo kết quả nhận được từ (1.9).

3 Lặp lại bước 2 cho đến khi hội tụ. Điều kiện dừng có thể dựa vào sự cải thiện L(q) hoặc dựa vào sự hội tụ của tham số chính nào đó qua các vòng lặp.

Trong nhiều trường hợp, một hàm mật độ tiên nghiệm liên hợp p(θ i ) có thể được chọn sao cho p e i (θ i |y) thuộc về một họ mật độ tham số có thể nhận biết được Trường hợp này được gọi là Bayes biến phân dạng trung bình (Mean Form

Variational Bayesian: MFVB) Khi đó hậu nghiệm VB tối ưu q τ ∗ i (θ i )làm cực đại tích phân bên vế phải của (1.4) chính là e p i (θ i |y) , với τ i ∗ là tham số tương ứng của hàm mật độ này.

Nếu e p i (θ i |y) không thuộc họ mật độ có thể nhận biết được thì ta cần chọn cho nó một dạng phân phối sau đó sử dụng một số kỹ thuật tối ưu xử lý (1.4) để ước lượng tham số τ i ∗ của q τ i ∗ (θ i ) Trường hợp này được gọi là cố định dạng biến phân Bayes (Fixed Form Variational Bayesian: FFVB).

Trường hợp MFVB

Trường hợp này p e i (θ i |y) thuộc một họ phân phối có thể nhận biết được nên thông qua (1.9) sẽ cho ta dạng hàm mật độq τ i (θ i ) thuộc một lớp phân phối nào đó đã biết, ta có thể dễ dàng xác định tham số τ i ∗ củaq τ i (θ i ) chính là các tham số đặc trưng của phân phối này.

Ví dụ 1.1: Giả sử y = (y 1 , ,y n ) 0 là n quan sát độc lập và có cùng phân phối chuẩn N (à,σ 2 ) với hai tham số à và σ chưa biết Ta cú hàm mật độ p(y i |à,σ 2 ) =

, nên hàm hợp lý là p(y|à,σ 2 ) = 1

Suy luận Bayes theo hệ thống phân cấp như sau: y|à, σ 2 ∼ p(y|à, σ 2 ), à ∼ N (à 0 , σ 0 2 ), σ 2 ∼ IG(A 0 , B 0 ), nghĩa là p(à) = N (à 0 , σ 0 2 ) =

Trong trường hợp này, bộ tham số của mụ hỡnh là θ = (à,σ 2 ), phõn phối tiờn nghiệm p(θ) = p(à)p(σ 2 ) và hậu nghiệm biến phõn VB được khai triển thành q(θ) = q(à)q(σ 2 ) Ta cần xỏc định phõn phối hậu nghiệm tối ưu VB cho hai tham số à và σ 2

Phõn phối hậu nghiệm tối ưu VB cho à. Từ (1.9) ta có q à (à) ≈ p e 1 (à|y) ∝ exp n E −à (log p(y, à, σ 2 )) o

Như vậy e p 1 (θ 1 |y) thuộc họ phõn phối chuẩn, do đú q à (à) ∼ N (à à ,σ à 2 ) với hai tham số à à và σ 2 à được cập nhật theo cụng thức σ à 2 = nh 1 σ 2 i + 1 σ 0 2 −1

, à à = n y ¯h 1 σ 2 i + à 0 σ 2 0 σ à 2 , (1.10) trong đú [ã] là kỳ vọng với phõn phối tương ứng.

Phân phối hậu nghiệm tối ưu VB cho σ 2 Tương tự như trên ta có q σ 2 (σ 2 ) ≈ p e 2 (σ

Như vậy q σ 2 (σ 2 )∼IG(A σ 2 ,B σ 2 )với hai tham sốA σ 2 và B σ 2 được cập nhật theo công thức

Khi đó theo tính chất của phân phối Inverse Gamma thì

Cận dưới biên duyên L(q). Ta có

+A σ 2 log B σ 2 − log Γ(A σ 2 ) − (A σ 2 + 1) log σ 2 − B σ 2 σ 2 , do đó log p(y|θ)

Kết hợp các kết quả trên ta nhận được

1 Khởi trị A σ 2 , B σ 2 2 Cập nhật à à và σ à 2 theo cụng thức (1.10).

3 Cập nhật A σ 2 và B σ 2 theo công thức (1.11).

4 Lặp lại bước 2 - 3 cho đến khi hội tụ.

Giả sử ta cú à true và σ true 2 là hai giỏ trị đỳng của hai tham số à và σ 2 trong phõn phối chuẩn của cỏc y i Khi đú phõn phối hậu nghiệm đỳng cho à là p(à|y) ∼ N (à (true) à ,σ 2(true) à ) với hai tham số à (true) à và σ à 2(true) được xỏc định bởi công thức σ 2(true) à = n 1 σ true 2 + 1 σ 0 2 −1

, à true à = n y ¯ 1 σ true 2 + à 0 σ 0 2 σ à 2(true) , (1.12) và phân phối hậu nghiệm đúng cho σ 2 là p(σ 2 |y) ∼IG(A true σ 2 ,B σ true 2 ) với hai tham số A true σ 2 và B true σ 2 được xác định bởi công thức

Chỳng tụi đó thực hiện mụ phỏng với à true =0, σ 2 true với n 0vàn 0 để thấy rõ sự ảnh hưởng của dữ liệu y lên phân phối hậu nghiệm của các tham số à và σ 2 Kết quả được thể hiện trong bảng 1.2.

Bảng 1.2: Bảng kết quả hai lần thực hiện mô phỏng.

Lần thực hiện Các tham số Hậu nghiệm đúng Hậu nghiệm tối ưu VB

Chú ý rằng giá trị đúng của tham số được ước lượng bằng mode của phân phối hậu nghiệm tối ưu VB tương ứng Chẳng hạn, à true = 0 được ước lượng bằng à ˆ = à à = 0.2195 và σ true 2 = 10 được lượng bằng σ ˆ 2 = A B σ 2 σ 2 +1 = 451.1436 51+1 = 8.6758. Các ước lượng này chưa được tốt là do n = 100 khá bé, khi thực hiện với n = 200 thỡ cỏc ước lượng này rất tốt, cú thể đạt được à= ˆ −0.0349 và σ ˆ 2 = 9.8147. Đồ thị minh họa cho xấp xỉ hậu nghiệm được thể hiện như hình 1.1 Đường nột liền là đồ thị của phõn phối hậu nghiệm đỳngp(à|y)và p(σ 2 |y) và đường nột đứt là đồ thị của phõn phối hậu nghiệm tối ưu VBq(à)và q(σ 2 ) Nhỡn chung hai đường này rất sát nhau Đặc biệt nhìn vào đồ thị mô tả sự cải thiện của L(q) qua các vòng lặp, cho thấy thuật toán VB hội tụ rất nhanh, chỉ sau vài vòng lặp đã gần như đạt được giới hạn trên của L(q).

(e) Cận dưới biên duyên L(q) (f) Cận dưới biên duyên L(q)

Hình 1.1: Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải.

Trường hợp FFVB

Trường hợp này e p i (θ i |y) không thuộc một họ phân phối có thể nhận biết được nên thông qua (1.9) dạng hàm mật độ củaθ i sẽ không thuộc một lớp phân phối nào đó đã biết nên ta không xác định tham số τ i ∗ của q τ ∗ i (θ i ) như trong trường hợp MFVB mà cần chọn cho q τ ∗ i (θ i ) một dạng phân phối cố định rồi áp dụng một kỹ thuật giải bài toán tối ưu (1.1) hoặc (1.2) hoặc (1.4).

Ví dụ 1.2: Giả sử y = (y 1 , ,y n ) 0 với i = 1, ,n là n quan sát độc lập của biến ngẫu nhiên Y phụ thuộc hai tham số β và α theo mô hình Y = β +exp(α) với ∼ N (0,1).

Từ giả thiết trên, suy ra Y ∼ N (β,e 2α ), do đó ta có hàm hợp lý là p(y|β,α) = 1

Suy luận Bayes theo hệ thống phân cấp như sau: y|β, α ∼ p(y|β, α), β ∼ N (0, σ 0 2 ), α ∼ N (0, σ 0 2 ), nghĩa là p(β) = N (0, σ 2 0 ) =

Trong trường hợp này, bộ tham số của mô hình là θ = (β,α), phân phối tiên nghiệm p(θ) = p(β)p(α) và hậu nghiệm biến phân VB được khai triển thành q(θ) = q(β)q(α) Ta cần xác định phân phối hậu nghiệm tối ưu VB cho hai tham số β và α, từ đó ước lượng giá trị đúng của hai tham số này tại mode của phân phối hậu nghiệm tối ưu VB tương ứng.

Phân phối hậu nghiệm tối ưu VB cho β. Từ (1.9) ta có q β (β) ≈e p 1 (β|y) ∝ exp n E −β (log p(y, β, α)) o

Như vậy e p 1 (θ 1 |y) thuộc họ phõn phối chuẩn, do đú q β (β) ∼ N (à β ,σ 2 β ) với hai tham số à β và σ 2 β được cập nhật theo cụng thức σ β 2 =

Phân phối hậu nghiệm tối ưu VB cho α. Tương tự ta có q α (α) ≈e p 1 (α|y) ∝ exp n E −α (log p(y, β, α)) o

, vỡ E β β = [β] = à β và E β β 2 = [β 2 ] = σ β 2 +à 2 β nờn dễ dàng cú được n

Rõ ràng q α (α) không thuộc họ phân phối nào mà ta có thể nhận biết, cần chọn cho nó một dạng phân phối phù hợp Trong trường hợp này, ta chọn q α (α) ∼ N (à α ,σ α 2 ) với à α và σ 2 α cần ước lượng sao q α (α) xấp xỉ tốt nhất với exp(f (α)).

Gọi α ∗ là nghiệm của phương trình f 0 (α) = 0 và theo khai triển Taylor của hàm f (α) tại α ∗ ta có f (α) ≈ f(α ∗ )+ 1

2 f 00 (α ∗ )(α−α ∗ ) 2 Điều này dẫn tới q α (α) ∝ exp n f(α) o

Do đú ta cú thể ước lượng và cập nhật à α và σ 2 α theo cụng thức à α = α ∗ , σ α 2 = − f 00 (α ∗ ) −1

, (1.15) với α ∗ được tính xấp xỉ bằng thuật toán Newton-Raphson:

1 Khởi trị α old 2 Cập nhật α new = α old −(f 00 (α old )) −1 f 0 (α old ). 3 Đặt α old =α new

4 Lặp lại bước 2 - 3 cho đến khi hội tụ.

Cận dưới biên duyên L(q). Ta có

Biến đổi từ phân phối của p(y|θ), p(θ) và q(θ) nhận được log p(y|θ) = − n

Kết hợp các kết quả trên ta nhận được

1 Khởi trị à β , σ β 2 2 Cập nhật à α và σ 2 α theo cụng thức (1.15).

3 Cập nhật à β và σ β 2 theo cụng thức (1.14).

4 Lặp lại bước 2 - 3 cho đến khi hội tụ.

Bài toán tối ưu (1.2) có thể giải bằng cách chọn trước dạng phấn phối cho các q τ i (θ i )với i = 1, ,K, khi đó ta có bộ tham số biến phân τ = (τ 1 , ,τ K ), do L(τ) chỉ có một điểm cực trị là điểm cực đại nên τ ∗ điểm cực đại của L(τ) và cũng chính là nghiệm của hệ phương trình

Chẳng hạn, trong vớ dụ 1.2, ta chọn trướcq β (β)∼N (à β ,σ β 2 )vàq α (α)∼N (à α ,σ α 2 ) khi đú tham số biến phõn cần ước lượng sẽ là τ = (à β ,σ β 2 ,à α ,σ 2 α ) Lần lượt tớnh các đạo hàm riêng theo các tham số này ta được

Như vậy công thức cập nhật các tham số này được xác định từ hệ phương trình

(1.16) trong đú à α và σ α 2 được xỏc định bằng thuật toỏn Newton-Raphson Chỳ ý rằng trong quá trình cập nhật σ 2 α phải dương.

1 Khởi trị à β , σ β 2 2 Cập nhật à α là nghiệm của f (à α ) = 0 bằng thuật toỏn Newton-Raphson.

3 Cập nhật σ α 2 là nghiệm của g(σ 2 α ) = 0 bằng thuật toán Newton-Raphson.

4 Cập nhật à β và σ β 2 theo cụng thức (1.16).

5 Lặp lại bước 2 - 4 cho đến khi hội tụ.

Với bài toán này, chúng tôi cũng đã thực hiện mô phỏng bằng cả hai thuật toán trên với β true = 20, α true = 1 và n = 100 Kết quả ước lượng rất tốt được trỡnh bày trong bảng 1.3 Như vậy, theo Thuật toỏn 1 thỡ β ˆ = à β = 19.7771 và ˆ α = à α = 0.9852, cũn đối với Thuật toỏn 2 thỡ β ˆ = à β = 19.7769 và α ˆ = à α = 1.0197.

Bảng 1.3: Bảng kết quả thực hiện mô phỏng.

Các tham số Thuật toán 1 Thuật toán 2 Hậu nghiệm đúng à β 19.7771 19.7769 19.7765 σ β 2 0.0716 0.0717 0.0738 à α 0.9852 1.0197 σ α 2 0.0050 0.0345 Đồ thị minh họa cho xấp xỉ hậu nghiệm bằng hai thuật toán được thể hiện như hình 1.2. Đặc biệt Salimans và Knowles [33] đã đề xuất một phương pháp giải quyết cho trường hợp FFVB bằng cách chọn q η (θ) có phân phối thuộc họ mũ, sau đó áp dụng thuật toán xấp xỉ ngẫu nhiên.

Mục tiêu của Salimans và Knowles [33] xấp xỉ phân phối hậu nghiệm p(θ|y) = arg min q(θ) KL(q(θ)kp(θ|y)) = arg min q(θ)

(e) Cận dưới biên duyên L(q) (f) Cận dưới biên duyên L(q)

Hình 1.2: Kết quả thực hiện mô phỏng bằng hai thuật toán Thuật toán 1 là cột bên trái và Thuật toán 2 là cột bên phải.

Giả sử q(θ) = q η (θ) trong đóη là tham số biến phân hay là tham số điều chỉnh hình dáng của phân phối hậu nghiệm Thông thường q η (θ) được chọn là một phân phối thuộc họ mũ, có dạng q η (θ) = exp[T (θ)η − U (η)]ν(θ), trong đó T (θ) là một vector 1×k các thống kê đủ của θ, ν(θ) là một độ đo cơ bản và η làk ×1vector các tham số tự nhiên của họ phân phối mũ q η (θ) Khi đó bài toán tối ưu (1.17) được đưa về bài toán tối ưu trên tham số η ˆ η = arg min η E q η (θ) log q η (θ) − log p(y, θ)

Để thuận lợi, Salimans và Knowles [33] đã điều chỉnh dạng của q η (θ) thành qe η e (θ) = exp[ Te(θ)e η]ν(θ), trong đó Te(θ) = (1,T (θ)) và e η = (η 0 ,η

0 ) 0 khi đó với e q e η (θ) ta có KL( q eη e (θ)|p(y, θ)) =

Z eq η e (θ) Te(θ) 0 Te(θ)e η − Te(θ) 0 log p(y, θ) dν(θ), tại cực tiểu củaKL(e q η e (θ)|p(y,θ))ta có η elà nghiệm của phương trình∇ η e KL(e q η e (θ)|p(y,θ))=

0, do đó eη = hZ qe η e (θ) Te(θ) 0 Te(θ)dν(θ) i−1hZ eq η e (θ) Te(θ) 0 log p(y, θ)dν(θ) i

Salimans và Knowles [33] đã sử dụng công thức (1.18) để ước lượng e η bằng thuật toán xấp xỉ ngẫu nhiên được trình bày trong mục 1.5.2 dưới đây.

Chẳng hạn, đối với vớ dụ 1.2, ta cú thể chọn q η (α) = N (à α ,σ α 2 ) rồi ỏp dụng phương phỏp của Salimans và Knowles [33] để cập nhật cỏc tham số à α và σ α 2 , sau đú xỏc định à β và σ 2 β theo cụng thức (1.14).

2 log(2πσ α 2 )o do đó vector thống kê đủ đối với tham số chính tắc η = (− 2σ 1 2 α , à σ α 2 α ) 0 là T = (α 2 ,α). Khi đó Te= (1,α 2 ,α) và e η = (η 0 ,η

2 log(2πσ 2 α ) Từ đây ta có

 Áp dụng thuật toán xấp xỉ ngẫu nhiên của Salimans và Knowles [33] cho trường hợp này, chúng ta có thuật toán như sau:

N 2 Thực hiện các vòng lặp với t = 1,2,,,,,N

• Tạo mẫu mô phỏng α ∗ t từ phân phối xấp xỉ q η t (α),

• Đặt g ˆ t = Te(α ∗ t ) 0 logp(α ∗ t ,y) hoặc một ước lượng không chệch khác của E q ηt [ Te(α) 0 logp(α,y)]

• Đặt C ˆ t = Te(α ∗ t ) 0 Te(α ∗ t ) hoặc một ước lượng không chệch khác của E q ηt [ Te(α) 0 Te(α)]

• Nếu t > N/2 thì đặt ¯ g = ¯ g + ˆ g t và C ¯ = ¯ C + ˆ C t 3 Tính η ˆ = ¯ C −1 g ¯

2 , à α = ˆ η 3 σ α 2 5 Tớnh à β và σ β 2 theo cụng thức (1.14)

Chúng tôi đã thực hiện cả ba thuật toán trên và tính sai số bình phương trung bình của giá trị ước lượng của tham số so với giá trị đúng của nó trên 20 mẫu Kết quả được trình bày trong bảng 1.4 Nhìn chung phương pháp 1 và 2 cho kết quả ổn định hơn phương pháp 3.

Bảng 1.4: Bảng kết quả thực hiện mô phỏng trên ba thuật toán. n MSE Thuật toán 1 Thuật toán 2 Thuật toán 3

Một số thuật toán tối ưu sử dụng trong luận án

Thuật toán Newton - Raphson

Xét hàm vector f (x) = (f 1 (x),f 2 (x), ,f n (x)) 0 Giả sử cần tìm nghiệm xấp xỉ của phương trình f(x) = 0 Ký hiệu u(x) = ∂f (x)

∂x khi đó, thuật toán Newton - Raphson để giải bài toán này là

1 Khởi trị x old 2 Lặp lại cho đến khi thỏa mãn điều kiện dừng x new = x old −u(x old ) −1 f (x old )

Khi thuật toán hội tụ thì x new sẽ là nghiệm xấp xỉ của phương trình f (x) = 0.

Thuật toán xấp xỉ ngẫu nhiên cho FFVB

Salimans và Knowles [33] đã đề xuất phương pháp giải quyết bài toán (1.18) bằng cách xem nó như một công thức cập nhật điểm cố định ĐặtC =E q [ Te(θ) 0 Te(θ)] và g = E q [ Te(θ) 0 logp(θ,y)] Khi đó (1.18) có thể viết thành e η = C

Knowles [33] cập nhật C và g theo trọng số Monte Carlo, tạo mẫu đơn θ ∗ t từ phân phối xấp xỉ hậu nghiệm q η t (θ)tại mỗi vòng lặp t, và sử dụng các công thức cập nhật g t+1 = (1 − w)g t + wˆ g t

C t+1 = (1 − w)C t + w C ˆ t đối với một số w ∈ [0;1] trong đó ˆ g t = Te(θ t ∗ ) 0 logp(θ t ∗ ,y) và C ˆ t = Te(θ ∗ t ) 0 Te(θ ∗ t ) Giá trị w được chọn đủ bé sao cho đảm bảo sự hội tụ của thuật toán.

Thuật toán xấp xỉ ngẫu nhiên cho FFVB.

N 2 Thực hiện các vòng lặp đối với t = 1,2,,,,N

• Tạo mẫu mô phỏng θ t ∗ từ phân phối xấp xỉ q η t (θ),

• Đặt g ˆ t = Te(θ ∗ t ) 0 logp(θ ∗ t ,y) hoặc một ước lượng không chệch khác của E q ηt [ Te(θ) 0 logp(θ,y)]

• Đặt C ˆ t = Te(θ ∗ t ) 0 Te(θ t ∗ ) hoặc một ước lượng không chệch khác của E q ηt [ Te(θ) 0 Te(θ)]

– Đặt g ¯ = ¯ g + ˆ g t – Đặt C ¯ = ¯ C + ˆ C t 3 Hoàn tác η ˆ = ¯ C −1 ¯ gKết quả của thuật toán cho ta ước lượngη ˆlà điểm cực tiểu củaKL( q eη e (θ)|p(y,θ)).

Lựa chọn biến và ước lượng tham số bằng phương pháp VB cho mô hình GLMM 44

Giới thiệu chung

Mô hình hồi quy tuyến tính hỗn hợp tổng quát GLMM còn gọi là mô hình hồi quy tuyến tính tổng quát với yếu tố ảnh hưởng ngẫu nhiên hoặc mô hình dữ liệu dọc Mô hình GLMM cũng là một mở rộng từ mô hình tuyến tính tổng quát, trong đó thành phần dự báo tuyến tính chứa các ảnh hưởng ngẫu nhiên (hay ảnh hưởng mang tính cá thể) ngoài các ảnh hưởng cố định thông thường (hay ảnh hưởng mang tính tổng thể), nghĩa là thành phần tuyến tính có dạng η = Xβ +Zb Mô hình GLMM được ứng dụng rộng rãi để thiết lập mô hình dữ liệu cụm phụ thuộc Giả sử theo dõi m đối tượng, đối tượng thứ i được theo dõi n i lần, ký hiệu y ij là kết quả theo dõi lần thứ j của đối tượng thứ i Khi đó giữa các đối tượng thì độc lập nhưng các kết quả của cùng một đối tượng lại có sự phụ thuộc Trong thực tế, đây là một dạng mô hình dữ liệu phổ biến, đặc biệt là trong Y học, các bệnh nhân thường phải tái khám theo dõi trong một khoảng thời gian nào đó.

Lựa chọn biến cho mô hình GLMM được xem là một nhiệm vụ khó khăn vì các tích phân thường rất khó tính Các phương pháp cổ điển như kiểm định giả thuyết hoặc lựa chọn tập con đều bị giới hạn bởi một số ít biến Ngày này cùng với sự phát triển vượt bậc của khoa học công nghệ, nhu cầu về giải quyết những bài toán phức tạp cũng tăng lên, do đó cần phải có những thuật toán nhanh hơn có khả năng giải quyết những bài toán phức tạp đó.

Hai công trình quan trọng của Groll và đồng sự [19] và Schelldorfer và đồng sự [35] đã nhận được sự quan tâm đặc biệt bởi phương pháp của họ có thể thực hiện chọn biến cho GLMMs trong trường hợp nhiều biến.

Tuy nhiên, vẫn còn chỗ để cải thiện trong cách tiếp cận của Groll và đồng sự [19] và Schelldorfer và đồng sự [35] Thứ nhất, xấp xỉ Laplace về hàm hợp lý có thể trong một số trường hợp không chính xác lắm ([20]) Thứ hai, hiệu suất của phương pháp tiếp cận này phụ thuộc vào tham số co rút λ, tham số này cần được chọn một cách thích hợp Vì vậy, người dùng phải chạy lại nhiều lần cho các giá trị khác nhau của tham số λ trong phạm vi được chỉ định trước, sau đó chọn giá trị tốt nhất của tham số co rút dựa trên một số tiêu chuẩn như AIC hoặc BIC Kết quả là, toàn bộ quy trình lựa chọn mô hình cuối cùng có thể tốn thời gian Hơn nữa, việc xác định một phạm vi thích hợp cho tham số λ không đơn giản Thứ ba, cách tiếp cận này sử dụng một tham số λ cho mọi hệ số, có thể dẫn đến ước lượng có chệch của các hệ số.

Trong chương này chúng tôi đề xuất phương pháp Bayes thích nghi Lasso (Bayesian adaptive Lasso: BaLasso) để chọn biến cho GLMM trong trường hợp nhiều biến Chúng tôi sử dụng phân phối mũ kép (Double Exponential: DE) cho các hệ số của yếu tố ảnh hưởng cố định với các tham số co rút khác nhau cho các hệ số khác nhau, điều này sẽ tương đương với hướng tiếp cận trong [19] và [35] khi tất cả các tham số co rút bằng nhau.

Mục đích của việc áp dụng các tham số co rút khác nhau trên các hệ số khác nhau là để đạt được sự thích ứng, nghĩa là sự co rút lớn hơn nên được đặt trên các hệ số tương ứng với các biến không quan trọng và sự có rút nhỏ hơn nên được sử dụng cho các biến số quan trọng ([45]).

Chúng tôi xem xét nghiên cứu một mô hình Bayes đầy đủ, nghĩa là đặt các phân phối tiên nghiệm thích hợp cho tất cả các tham số của mô hình, bao gồm cả các tham số co rút Kết quả là chúng tôi đã vượt qua được một nhiệm vụ đầy thử thách về việc chọn lựa một vector cao chiều của các tham số co rút.

Tiếp theo, chúng tôi phát triển một thuật toán Bayes biến phân VB để ước lượng mode hậu nghiệm của vector hệ số ảnh hưởng cố định và phân phối hậu nghiệm của ma trận hiệp phương sai của yếu tố ảnh hưởng ngẫu nhiên Điều này dẫn tới một phương thức hoàn toàn tự động thực hiện đồng thời việc chọn biến và ước lượng tham số trong GLMM, và sự thích ứng các tham số co rút được thực hiện một cách tự động Các tham số được ước lượng bằng mode của phân phối hâu nghiệm tối ưu VB tương ứng và biến được chọn là biến có hệ số ảnh hưởng cố định khác không.

Cuối cùng, không giống như cách tiếp cận trong [19] và [35], cách tiếp cận của chúng tôi không dựa vào xấp xỉ Laplace đối với các tích phân trên các yếu tố ảnh hưởng ngẫu nhiên, vì quy trình cập nhật trong thuật toán Bayes biến phân dẫn đến một tích phân có thể được tính toán dễ dàng theo giải tích hoặc được xấp xỉ với độ chính xác tùy ý.

Các ví dụ trong phần 2.5 cho thấy rằng cách tiếp cận của chúng tôi hoạt động tốt hơn các phương pháp hiện có về tỷ lệ chọn biến đúng trong mô hình, sai số trung bình bình phương của các ước lượng và thời gian chạy CPU.

Chương này được tổ chức như sau Mục 2.2 trình bày về cấu trúc phân cấp của mô hình GLMM, thể hiện đầy đủ các phân phối tiên nghiệm, bao gồm cả các tham số co rút Mục này cũng thể hiện được ước lượng mode hậu nghiệm trên tham số β chính là ước lượng hợp lý cực đại phạt trong [19] và [35] Mục2.3 trình bày về phương pháp Bayes biến phân và thuật toán EM về ước lượng mode hậu nghiệm Mục 2.4 trình bày đầy đủ, chi tiết các phân phối hậu nghiệm tối ưu VB cho tất cả các tham số của mô hình, đồng thời cũng mổ tả thuật toánVB để thực hiện đồng thời việc chọn biến và ước lượng tham số Mục 2.5 trình bày các ví dụ mô phỏng mô hình hồi quy tuyến tính hỗn hợp Poisson và logistic,đồng thời so sánh kết quả của phương pháp của chúng tôi với phương pháp củaGroll và đồng sự [19] và Schelldorfer và đồng sự [35] sử dụng tiêu chuẩn BIC và các ứng dụng trên dữ liệu thực Cuối cùng là kết luận và thảo luận về một số phần mở rộng có thể có.

Mô hình GLMM

Giả sử trong mô hình hồi quy tuyến tính hỗn hợp tổng quát cóy i =(y i1 , ,y in i ) 0 là vector đáp ứng của đối tượng thứ i, i = 1, ,m Cho yếu tố ảnh hưởng ngẫu nhiên b i , các y ij có phân phối độc lập với hàm mật độ f (y ij |β, b i ) = exp y ij η ij − ζ(η ij ) φ + c(y ij , φ)

,trong đó η ij là tham số chính tắc liên hệ đơn trị với kỳ vọng có điều kiện à ij = E(y ij |β,b i ) thụng qua hàm liờn kết g(ã), g(à ij ) = η ij Vector hệ số ảnh hưởng cố định làβ =(β 0 ,β 1:p 0 ) 0 với β 0 là hệ số chặn và β 1:p =(β 1 , ,β p ) 0 Tham số tỷ lệφ có thể đó biết hoặc chưa biết, ζ(ã) và c(ã) là cỏc hàm đó biết Vector η i = (η i1 , ,η in i ) 0 được mô hình là η i = β 0 1 n i +X i β 1:p +Z i b i, trong đó 1 n i là vector gồm toàn 1, X i là một n i ×p ma trận thiết kế đối với yếu tố ảnh hưởng cố định và Z i là một n i ×u ma trận thiết kế đối với yếu tố ảnh hưởng ngẫu nhiên (trong đó u là kích thước của b i ) Đặt n =Pm i=1 n i , b = (b 0 1 , ,b 0 m ) 0 và y =

Hàm hợp lý có điều kiện có yếu tố ảnh hưởng ngẫu nhiên b là p(y|β, b, φ) = m

, trong đó ζ(η) được hiểu là hàm tác động trên từng thành phần và c(y,φ) =X i,j c(y ij ,φ).

Các yếu tố ảnh hưởng ngẫu nhiên b i thường được giả định là độc lập và có cựng phõn phối N (0,Q −1 ), trong đúN (à,Σ)là ký hiệu phõn phối chuẩn đa chiều với trung bỡnhàvà ma trận hiệp phương sai Σ Phõn phối của b làN (0,Q −1 b ) với Q b là ma trận đường chéo khối blockdiag(Q, ,Q).

Chúng tôi xem xét suy luận Bayes với mô hình phân cấp như sau: y|β, b, φ ∼ p(y|β, b, φ), (2.1) b|Q ∼ N (0, Q −1 b ), Q ∼ Wishart(S 0 , ν 0 ), p(β 0 ) ∼ 1, β j |λ j ∼ DE(λ j ) = λ j

2 exp(−λ j |β j |), j = 1, , p, λ j ∼ Gamma(r, s) = s r Γ(r) (λ j ) r−1 exp(−sλ j ), ở đây DE(λ j ) là ký hiệu của hàm mật độ mũ kép Nếu φ chưa biết thì cũng có thể xác định một phấn phối tiên nghiệm p(φ) trên φ.

Chúng tôi tham khảo mô hình đã được đề xuất (2.1) như là mô hình Bayes thích nghi Lasso (Bayesian adaptive Lasso: BaLasso) cho GLMM Bộ tham số của mô hình là θ = (β,Q,φ,b,λ 1 , ,λ p ) và S 0 ,ν o ,r,s là các siêu tham số.

Khi λ j =λ và được coi là cố định, phân phối hậu nghiệm đồng thời của β,Q,φ là p(β, Q, φ|y) ∝ p(y, β, Q, φ)

Trong trường hợp này, mode hậu nghiệm biên duyên của β từ mô hình (2.1) chính là ước lượng hợp lý cực đại phạt trong [19] và [35], họ ước lượng các tham số bằng cách làm cực đại log Z p(y|β, b, φ)p(b|Q)db − λ p

|β j | (2.2) trên β Chú ý rằng chúng tôi sử dụng các λ j khác nhau cho các hệ số β j khác nhau để đạt được sự thích ứng ở mức tín hiệu ([45]).

Phương pháp Bayes Lasso lần đầu tiên được giới thiệu trong [31], họ đã xem xét một hệ số co rút đơn λ cho tất cả các hệ số, nhưng chỉ trong văn cảnh hồi quy tuyến tính thông thường Giả sử β ˆ 0 là vectơ ước lượng hợp lí cực đại của hệ số β trong mô hình hồi tuyến tính thông thường, khi đó ước lượng Lasso sẽ là β ˆ j = sign( ˆ β j 0 )× (| β ˆ j 0 |−λ) + , nghĩa là ước lượng Lasso sẽ co các hệ số có giá trị tuyệt đối lớn hơn λ và đặt bằng 0 các hệ số quá nhỏ (giá trị tuyệt đối nhỏ hơn λ) Những biến tương ứng với hệ số khác 0 là các biến được chọn và những biến tương ứng với hệ số bằng 0 sẽ không được chọn Điều này dẫn tới việc ước lượng β theo phương pháp Lasso sẽ đồng thời cho phép chọn biến.

Phương pháp Bayes thích nghi Lasso cho GLMs cũng được giới thiệu trongGriffin và Brown [18] và Leng và đồng sự [24] Griffin và Brown [18] đã sử dụng thuật toán EM để ước lượng mode hậu nghiệm cho β và do đó có thể thực hiện chọn biến Leng và đồng sự [24] đầu tiên sử dụng phương pháp sinh mẫu Gibbs để sinh mẫu từ phân phối hậu nghiệm của λ và sau đó đề xuất một phương pháp hỗn hợp giữa thống kê Bayes và thống kê tần suất để thực hiện chọn biến trong đó λ được cố định tại mode hậu nghiệm của nó.

Phương pháp VB ước lượng mode hậu nghiệm

Như đã chỉ ra trong [39], ước lượng Lasso là tương đương với mode hậu nghiệm khi một phân phối tiên nghiệm mũ kép (cũng được gọi là tiên nghiệm Laplace) được sử dụng cho vector các hệ số β.

Nhìn chung, đối với các mục đích chọn biến trong các thiết lập Bayes, người ta thường quan tâm đến mode hậu nghiệm hơn là toàn bộ phân phối hậu nghiệm.

Như sẽ thấy trong các phần tiếp theo, chọn biến trong GLMM được thực hiện thông qua mode hậu nghiệm của vector hệ số ảnh hưởng cố định β.

Trong phần này chúng tôi sẽ trình bày một phương pháp Bayes biến phân để ước lượng một mode hậu nghiệm.

Giả sử θ =(θ 1 ,θ 2 ), trong đóθ 1 là vector của các tham số mà mode hậu nghiệm của chúng đang được quan tâm và θ 2 là một vector của các tham số khác Khi đó phân phối hậu nghiệm VB có dạng q(θ) = δ τ 1 (θ 1 )q τ 2 (θ 2 ), (2.3) với δ τ 1 (θ 1 ) là một mật độ khối tập trung tại τ 1 δ τ 1 (θ 1 ) =

 1, nếu θ 1 = τ 1 0, nếu θ 1 6= τ 1 và τ 1 sẽ là ước lượng của mode hậu nghiệm của θ 1

Công thức (1.4) và (1.6) trở thành τ 1 ∗ (τ 2 ) = arg max τ 1

Tối ưu hậu nghiệm VB của θ 2 từ (1.6’) là q τ 2 ∗ (θ 2 ) = p(θ 2 |y,τ 1 ) ∝ p(y,τ 1 ,θ 2 ) nên (1.4’) và (1.6’) có thể được viết bằng thuật toán EM ([11]), trong đó

• E-step: Tính Q(τ 1 |τ 1 old ) =R p(θ 2 |y,τ 1 old )logp(y,τ 1 ,θ 2 )dθ 2.

• M-step: Tối đa hóa Q(τ 1 |τ 1 old ) trên τ 1

Thuật toán EM có thể được xem là một trường hợp đặc biệt của thuật toán VB ở đâyq τ 2 (θ 2 )trong (2.3) là q τ 2 (θ 2 )=p(θ 2 |y,τ 1 ) Chú ý rằng phương pháp mode VB trong (1.4’) và (1.6’) có phần linh hoạt hơn thuật toán EM bởi vì chúng ta có nhiều khả năng để tìm giải pháp cho (1.6’) với điều kiện là q τ 2 (θ 2 ) được hạn chế trong một số họ mật độ Điều này rất quan trọng bởi vì mật độ tối ưu q τ ∗

2 (θ 2 ) = p(θ 2 |y,τ 1 ) trong một số trường hợp không thuộc họ mật độ có thể nhận biết, khi đó rất khó để tính tích phân trong E-step Chẳng hạn, trong mô hình tuyến tính hỗn hợp tổng quát được đề cập ở trên, sự phân phối của các yếu tố ảnh hưởng ngẫu nhiên trên điều kiện dữ liệu và các tham số khác không thuộc họ mật độ có thể nhận biết, điều này làm cho nó khó ước lượng vector hệ số bằng thuật toán EM.

Phương pháp VB để chọn biến và ước lượng tham số cho GLMM 52

Việc chọn biến và ước lượng tham số sẽ được thực hiện đồng thời bằng thuật toán VB Chúng tôi sử dụng phương pháp biến phân Bayes để xấp xỉ phân phối hậu nghiệm p(θ|y) với hậu nghiệm biến phân được khai triển thành q(θ) = q(β)q(Q)q(φ)q(b) p

Y j=1 q(λ j ), (2.4) trong đó chúng tôi chọn q(β) = δ β q (β) và q(b) là phân phối chuẩn với trung bình à q b và ma trận hiệp phương sai Σ q b

2.4.1 Phân phối hậu nghiệm tối ưu VB cho β

Từ công thức (1.4’), ước lượng mode β q được cập nhật bởi β q = arg max β n exp E −β (log p(y, θ))o

= arg max β nZ q(φ)q(b) log p(y|β, b, φ)dφdb + p

, (2.5) trong đú [ã] là ký hiệu kỳ vọng với hậu nghiệm VB tương ứng. Đặt f (β) = [ 1 φ ] Z

1 0 ζ(η)) − y 0 η q(b)db (2.6) khi đó (2.5) tương đương với β q = arg min β

Cần chú ý rằng sự khác biệt chính giữa (2.7) và (2.2) là tích phân trong f(β) có thể tính được bằng giải tích hoặc xấp xỉ một cách dễ dàng với độ chính xác tùy ý mà không phải dựa vào xấp xỉ Laplace.

Trong (2.6) chúng tôi làm việc với log của hàm hợp lý, điều này sẽ thuận lợi hơn quy mô ban đầu như trong (2.2) Việc xử lý và tính toán công thức (2.6) khá phức tạp, tùy thuộc vào hồi quy chuẩn, hồi quy Poisson hay hồi quy nhị thức.

Trường hợp hồi quy chuẩn.

Giả sử y ij ∼ N (à ij ,σ 2 ) khi đú f (y ij |à ij , σ 2 ) = exp n 1 σ 2 y ij à ij − à 2 ij

, suy ra η ij = à ij , ζ(η ij ) = η

Mặt khỏc ta biết rằng, nếu x ∼ N (à,σ 2 ) thỡ Ex 2 = à 2 +σ 2 và η = Xβ +Zb với b ∼ N (à q b ,Σ q b ) nờn η ∼ N (Xβ +Zà q b ,ZΣ q b Z 0 ) Kết hợp lại ta cú E q(b) η = Xβ +Zà q b và

E q(b) η 2 = (Xβ +Zà q b ) 2 +diag(Z Σ q b Z 0 ) Ở đõy phộp bỡnh phương tỏc động lờn từng thành phần của vector Thay vào ta được f (β) =h 1 σ 2 in 1

Trường hợp hồi quy Poisson.

Giả sử y ij ∼Poisson(λ) khi đó f (y ij |λ) = expn y ij logλ−λ+logy ij o

, suy ra η ij = logλ, λ =e η ij = ζ(η ij ), φ = 1, do đó f(β) = [ 1 φ ] Z

Mặt khỏc, nếu x ∼ N (à,σ 2 ) thỡ E(e x ) = exp(à+ 1 2 σ 2 ) và η ∼ N (Xβ +Zà q b ,ZΣ q b Z 0 ) nờn ta cú E q(b) η = Xβ +Zà q b và E q(b) e η = exp Xβ +Zà q b + 1 2 diag(ZΣ q b Z 0 )

Thay vào ta được f(β) = 1 0 exp

Trường hợp hồi quy Binomial.

Giả sử y ij ∼Binomial(1,π ij ) khi đó f(y ij |π ij ) = exp n y ij log π ij

, suy ra η ij = log 1−π π ij ij , ζ(η ij ) = −log(1−π ij ) = log(1+ e η ij ), φ = 1, do đó f(β) = [ 1 φ ] Z

Như vậy để tính f (β) ta đưa về tính các E η ij log

1 + e η ij trong đó η ij có phõn phối chuẩn với kỳ vọng β 0 + x 0 ij β 1:p +z ij 0 à q b i và phương sai z 0 ij Σ q b i z ij Các E η ij log

1+e η ij được tính xấp xỉ như sau.

Xột E ξ (log(1+ e ξ )) với ξ ∼ N (à,σ 2 ) Ta viết E ξ (log(1+e ξ )) = E ζ h(ζ) với h(ζ) = log(1+e à+σζ )và ζ ∼ N (0,1) Áp dụng khai triển Taylor choh(ζ) tai 0, h(ζ) cú thể được xấp xỉ bởi h(ζ) ≈ h(0) +

Chú ý rằng E ζ (ζ k ) = 0 nếu k chẵn và E ζ (ζ k ) = (k −1)!! nếu k lẻ.

Bài toán tối ưu (2.7) thuộc về một lớp các bài toán tối ưu phổ biến, trong đó hàm mục tiêu có dạng tổng của một hàm trơn và một hàm chính quy, lồi và nửa liện tục dưới Có nhiều thuật toán để giải quyết bài toán tối ưu này Ở đây chúng tôi áp dụng phương pháp đạo hàm theo hướng (Coordinate Gradient Descent: CGD) của Tseng và đồng sự [41] ([35]) để giải quyết bài toán (2.7).

Sử dụng ký hiệu như trong [35], ký hiệu β (s) = (β 0 (s) , ,β p (s) ) 0 là giá trị của β tại vòng lặp thứ svà đặt β (s,s−1;j) =(β 0 (s) , ,β j−1 (s) ,β j (s−1) , ,β p (s−1) ) 0 Đặte j là vector đơn vị thứ (j +1) và H j (s) là một ma trận xác định dương, j =0, ,p Sự hội tụ của thuật toán CGD về điểm cực tiểu của F (β) được chứng minh trong [41] Thuật toán CGD như sau:

1 Khởi trị β (0) Lặp lại theo s = 1,2,

2 Thực hiện các vòng lặp với j = 0,1, ,p

(i) Tính hướng giảm d (s) j = arg min d nd∇f(β (s,s−1;j) ) 0 e j + 1

(2.8) (ii) Chọn cỡ bước α j (s) và đặt β (s,s−1;j+1) = β (s,s−1;j) +α (s) j d (s) j e j. Đối với ma trận H j (s) , chúng tôi chọn H j (s) =∇ 2 f (β (s,s−1;j) ) Dễ thấy rằng d (s) j trong (2.8) có thể được tính theo d (s) j =

, j > 0. Đối với cỡ bước α (s) j , Tseng và đồng sự [41] đã gợi ý quy tắc Armijo như sau: với 0 < δ,% < 1 và 0 ≤ γ < 1, chọn α init j > 0 và đặt α (s) j là phần tử lớn nhất của {α init j δ l } l=0,1, thỏa mãn

Theo [35], chúng tôi chọn α init j = 1, δ = 0.5, % = 0.1 và γ = 0.

2.4.2 Phân phối hậu nghiệm tối ưu VB cho b

Từ công thức (1.9), phân phối xấp xỉ tối ưu VB q(b) là q(b) ∝ exp n E −b log p(y, θ) o

∝ exp nZ q(Q)q(φ) log p(y|β, b, φ) + log p(b|Q) dQdφ o

Trường hợp hồi quy chuẩn.

Như phần trên đã biết trường hợp này ζ(η) = η 2 2 và φ =σ 2 mà η =Xβ +Zb nên q(b) ∝ expn

, à q b = [ 1 σ 2 ] y 0 Z − β 0 X 0 Z Σ q b , Trường hợp hồi quy khác. Đặt h(b) = − 1

2 b 0 [Q b ]b +[ 1 φ ](y 0 η−1 0 ζ(η)), khi đó q(b) ∝ e h(b) , chúng tôi sử dụng phương pháp xấp xỉ Gauss để xấp xỉ q(b) bằng phõn phối chuẩn với trung bỡnhà q b và ma trận hiệp phương saiΣ q b như sau:

Giả sử q(x) = e f(x) , gọi x ∗ là điểm cực đại củaf (x), theo khai triển Taylor, ta có f(x) ≈ f(x ∗ )+ 1

Do vậy, xấp xỉ Gauss tốt nhất cho q(x) có trung bình x ∗ và ma trận hiệp phương sai −( ∂ ∂x∂x 2 f(x ∗ 0 ) ) −1

Như vậy, trong trường hợp này à q b và Σ q b được cập nhật theo cụng thức à q b = b ∗ Σ q b =

(2.9) trong đóη ∗ =Xβ q +Zb ∗ và b ∗ được xác định bằng phương pháp Newton-Raphson với đạo hàm bậc nhất và bậc hai của h(b) là u(b) và H(b). Áp dụng các công thức

Z − [Q b ]. trong đó ζ(η) ˙ và ζ(η) ¨ là đạo hàm bậc nhất và đạo hàm bậc hai tác động trên từng thành phần của vector.

Phương pháp Newton-Raphson để xác định b ∗ điểm cực đại của h(b):

1 Khởi trị b old 2 Lặp cho đến khi thỏa mãn điều kiện dừng b new = b old −H(b old ) −1 u(b old ).

2.4.3 Phân phối hậu nghiệm tối ưu VB cho Q

Nên từ công thức (1.9), ta có q(Q) ∝ expn

∝ exp nZ q(b) log p(b|Q) + log p(q) db o

[b 0 Q b b] = [tr(b 0 Q b b)] = [tr(bb 0 Q b )] = tr([bb 0 ]Q b )

Vậy q(Q) ∼Wishart(S q ,ν q ) với ν q và S q được cập nhật theo công thức ν q = ν 0 + m, S q = S 0 −1 + m

2.4.4 Phân phối hậu nghiệm tối ưu VB cho λ

2 e −λ j |b j Nên từ công thức (1.9), ta có q(λ j ) ∝ exp n E −λ j log p(β j , λ j ) o

Vậy q(λ j ) ∼Gamma(α q λ j ,β λ q j ) với α q λ j và β λ q j được cập nhật theo công thức α q λ j = r + 1, β λ q j = |β j q | + s, (2.11) vì thế [λ j ] =α q λ j /β λ q j

2.4.5 Phân phối hậu nghiệm tối ưu VB cho φ

Trong nhiều trường hợp như hồi quy Poisson và hồi quy logistic thì φ là một hằng số đã biết Trong những trường hợp khác, chúng ta có thể đặt một phân phối tiên nghiệm thích hợp trên φ để hậu nghiệm tối ưu VB q(φ) ∝ exp E −φ (log p(y, θ))

(2.12) thuộc họ phân phối có thể nhận biết được Chẳng hạn trong trường hợp hồi quy tuyến tính hỗn hợp chuẩn thì φ = σ 2 , chúng tôi sử dụng phân phối tiên nghiệm cho σ 2 là p(σ 2 ) =IG(α 0 σ 2 ,β σ 0 2 ), tức là p(σ 2 ) = β σ 0 2 α σ 0 2 Γ(α 0 σ 2 ) σ 2 −α

, khi đó ta có q(σ 2 ) ∝ exp n E −σ 2 log p(y, θ) o

Đặt u = y−(Xβ q +Zb) khi đú u ∼ N (y−Xβ q −Zà q b ,ZΣ q b Z 0 ) = N (à u ,Σ u ) nờn

Do đó q(σ 2 ) ∼IG(α q σ 2 ,β σ q 2 ) với α q σ 2 và β σ q 2 được cập nhật theo công thức α σ q 2 = n/2 + α 0 σ 2 , β σ q 2 = 1

2tr(ZΣ q b Z 0 ) + β σ 0 2 trong trường hợp này [1/σ 2 ] = α q σ 2 /β σ q 2.

2.4.6 Lựa chọn các siêu tham số Đối với tiên nghiệm cho λ j , người ta có thể sử dụng tiên nghiệm p(λ j ) ∝ 1/λ j ,nghĩa là r = s = 0 Trong luận án này, chúng tôi sử dụng phương pháp thực nghiệm Bayes như trong [24] và [31] để chọn r Chúng tôi sử dụng một tiên nghiệm Gamma, Gamma(α 0 r ,β r 0 ), cho r và xấp xỉ phân phối hậu nghiệm p(r|y) bởi Gamma(α q r ,β r q ), trong đó các tham số α q r ,β r q được ước lượng bằng phương pháp FFVB của Salimans và Knowles [33] Từ công thức (1.18) với ký hiệu Y = logp(y,θ) và T = T (θ) ta có

, từ đó suy ra η 0 = E q [Y ] − E q [T ]η = E q [log p(y, θ) − log q(η)] − U (η) và (2.13) η = h E q [T 0 T ] − E q [T 0 ]E q [T ] i−1h E q [T 0 Y ] − E q [T 0 ]E q [Y ] i

Trong thuật toán FFVB của Salimans và Knowles [33] yêu cầu một ước lượng khụng chệch của ma trận hiệp phương sai cú dạng cov(T (X),V (X)) với T (ã) và V (ã) là cỏc hàm vector của biến ngẫu nhiờn X với hàm mật độ xỏc suất f(x).

Giả sử X 1 và X 2 là hai biến ngẫu nhiên độc lập được rút ra tự f Khi đó covc = 1

2 (T (X 1 ) − T (X 2 ))(V (X 1 ) − V (X 2 )) 0 là một ước lượng không chệch của cov(T (X),V (X)) Thật vậy, đặt ET (X 1 ) = ET (X 2 ) = ET (X) =T 0 và EV (X 1 ) = EV (X 2 ) = EV (X) = V 0 , khi đó do X 1 và X 2 độc lập có cùng phân phối nên cov(T (X 1 ), V (X 1 )) = E[(T (X 1 ) − T 0 )(V (X 1 ) − V 0 ) 0 ] =cov(T (X), V (X)), cov(T (X 2 ), V (X 2 )) = E[(T (X 2 ) − T 0 )(V (X 2 ) − V 0 ) 0 ] =cov(T (X), V (X)).

Er = α q r β r q , Varr = α r q β r q 2 , E(log r) = ψ(α) − log β;Var(log r) = ˙ ψ (α q r ), và

, do đó cov(r, log r) = E(r log r) − ErE log r

Thống kê đủ cho tham số tự nhiên η = (α q r ,β r q ) 0 là T (r) = (logr,−r) 0 và sau một số phép biến đổi đại số và bỏ qua những số hạng độc lập với r (do ta cần tính hiệu logp(r 1 ,y)− logp(r 2 ,y ) nên có thể bỏ qua những số hạng độc lập với r) ta được p(r, y) = p log s − β r 0 + p

Theo công thức (2.14) ta có C = C(α q r , β r q ) =cov(T, T ) −1 =

Chúng tôi sử dụng thuật toán xấp xỉ ngẫu nhiên để ước lượng α q r và β r q

1 Khởi trị η = (α q r ,β r q ) 0 Tính C =C(α q r ,β r q ) và g =Cη. 2 Khởi trị C ¯ = 0, ¯ g = 0.

3 Thực hiện các vòng lặp với i = 1,2, ,N

• Sinh mẫu r 1 ,r 2 từ q(r) và tính bg i = 1 2 (log p(r 1 , y) − log p(r 2 , y))(T (r 1 ) − T (r 2 )) và Cbi = C(α q r ,β r q ).

• Nếu i > N/2 thì đặt g ¯ = ¯ g +b g i , C ¯ = ¯ C + Cbi. 4 Đặt η = ¯ C −1 ¯ g.

Việc cập nhật tham số s có phần dễ hơn, có thể đặt một phân phối tiên nghiệm Gamma trên s, khi đó phân phối hậu nghiệm tối ưu VB của s cũng là một phân phối Gamma Tuy nhiên, chúng tôi nhận thấy rằng đối với bài toán cao chiều thì cố định s những giá trị rất bé sẽ cho kết quả tốt hơn.

Chúng tôi đặt s = 1e −5 trong việc triển khai ứng dụng, điều này ngụ ý sử dụng một tiên nghiệm rất bẹt đối với λ j , đặt S 0 = 10 4 I và ν 0 = u +1 lần lượt là các tham số của một phân phối tiên nghiệm bẹt trên Q.

Sau khi xây dựng được các công thức để cập nhật các tham số như trên, chúng tôi có thuật toán VB để thực hiện đồng thời việc chọn biến và ước lượng tham số cho mô hình GLMM.

1 Khởi trị β q và S q (và q(φ) nếu có áp dụng).

3 Cập nhật à q b và Σ q b theo (2.9) 4 Cập nhật S q theo (2.10).

6 Cập nhật q(φ) (nếu có áp dụng).

7 Lặp lại các bước 2-6 cho đến khi hội tụ.

Lựa chọn biến, số thành phần và ước lượng tham số bằng phương pháp VB cho mô hình MRDE-MN 72

Giới thiệu chung

Như đã biết, trong mô hình hồi quy tuyến tính thông thường, luôn có một giả thiết quan trọng là hàm mật độ có điều kiện p(y|x) có phân phối chuẩn với kỳ vọng Xβ và phương sai thuần nhất σ 2 Đây là một điều kiện quá nặng nề, trong một số tình huống ứng dụng khó được thỏa mãn Mô hình hồi quy mật độ trộn cho phép tránh được điều kiện khắc nghiệt này Ngoài ra, có rất nhiều trường hợp ứng dụng cần sử dụng mô hình hồi quy trộn thì mới mô tả chính xác đặc trưng nghiên cứu Chẳng hạn, khi nghiên cứu về chiều cao người, nếu dùng một phân phối chuẩn để mô hình hóa chiều cao của cả hai giới nam và nữ thì sẽ không chính xác Chiều cao của từng giới có thể có phân phối chuẩn nhưng do đặc thù khác nhau giữa nam và nữ nên các đặc trưng của phân phối sẽ khác nhau, sử dụng trộn hai phân phối chuẩn sẽ tốt hơn và chính xác hơn.

Giả sử y là một vector d-chiều các biến đáp ứng liên tục và z là một vector p-chiều các hiệp biến tiềm năng Trong chương này chúng tôi quan tâm đến vấn đề phân tích mô hình hồi quy mật độf (y|z)bằng cách trộn các phân phối chuẩn đa chiều Ước lượng mật độ hồi quy đơn biến đã được xem xét trong các công trình của Nott và đồng sự [28], Tran và đồng sự [40] và Villani và đồng sự [42], hàm mật độ có điều kiện của biến đáp ứng y được mô hình bởi mật độ trộn các phân phối chuẩn có phương sai thay đổi, với tất cả các thành phần trung bình, các phương sai và các xác suất trộn là các hàm tuyến tính của các hiệp biến z. Chúng tôi mở rộng mô hình đơn biến này thành mô hình có y là đa biến.

Hàm mật độ có điều kiện của y cho bởi z được mô hình bằng p(y|z) =

, (3.1) trong đó Σ k là các ma trận hiệp phương sai, K là số thành phần, các mô hình xác suất trộn (gating model) π k (z) và các mô hình trung bình (mean model) à k (z) là cỏc hàm của z N d (y|à,Σ) là hàm mật độ của một phõn phối chuẩn d-chiều với trung bỡnh à và ma trận hiệp phương sai Σ Hoàn toàn cú thể cho Σ k phụ thuộc vào z nhưng điều này làm cho mô hình phức tạp hơn nên chúng tôi không xem xét ở đây Mô hình này được gọi là mô hình ước lượng hồi quy mật độ đa biến với trộn các phân phối chuẩn (Multivariate Regression Density Estimation with Mixtures of Normals model: MRDE-MN)

Chúng tôi phát triển một thuật toán Bayes biến phân nhanh để thực hiện các kết luận thống kê trong mô hình (3.1), cụ thể là thực hiện một cách đồng thời việc lựa chọn các biến có ý nghĩa, xác định số thành phần và ước lượng các tham số của mô hình Phương pháp của chúng tôi xây dựng dựa trên phương pháp của Tran và đồng sự [40] cho trường hợp biến đáp ứng y là đơn biến.

Quan hệ mật thiết với mô hình MRDE-MN là mô hình MEM (Mixture of Expert Model: MEM), được khởi xướng trong lĩnh vực học máy bởi Jacobs et al [23] (chi tiết về mô hình này được trình bày trong Masoudnia và đồng sự [25]).

MEM sử dụng một mạng nơron cho mỗi thành phần, trong nhiều trường hợp sẽ mạng lại nhiều sự linh hoạt để thực hiện mô hình hóa Thuật toán EM hoặc SGD (stochastic gradient descent) thường được sử dụng để ước lượng mô hình.

Tính linh hoạt của việc sử dụng mạng nơron cho các thành phần dẫn đến một thử thách rất lớn đó là việc ước lượng các tham số và thực hiện lựa chọn mô hình một cách đồng thời Cách tiếp cận của chúng tôi để xử lý MRDE-MN là sử dụng phương pháp Bayes biến phân.

Mục 3.2 sẽ trình bày chi tiết về mô hình MRDE-MN và phát triển một thuật toán Bayes biến phân, mục 3.3 sẽ trình bày phương pháp xác định số thành phần và mục 3.4 giới thiều về vấn đề chọn biến cho mô hình Mục 3.5 sẽ trình bày về các ứng dụng thử nghiệm trên dữ liệu mô phỏng cũng như trên bộ dữ liệu thực và cuối cùng là kết luận của chương.

Mô hình MRDE-MN

Giả sử D = {(y (i) ,z (i) ),i = 1, ,n} là tập các quan sát của (y,z) Mô hình (3.1) có thể viết thành y (i) |δ (i) = k, T = {T 1 , , T K } ∼ N d (y (i) |à (i) k , T k −1 ), i = 1, , n; k = 1, , K, (3.2) trong đó δ (i) là một biến ngẫu nhiên tiềm ẩn được dùng để xác định thành phần của y (i) , δ (i) ∈ {1, ,K } và T k = Σ −1 k Vector trung bỡnhà (i) k được mụ hỡnh bởi à (i) k = (β 0 k1 v (i) 1 , , β 0 kd v (i) d ) 0 , trong đó v (i) j là một tập con của z (i) và β kj ∈R p j tương ứng là vector các hiệp biến và vector hệ số trong mô hình ứng với biênj Số biến trong biênj của mean model là p j , j = 1, ,d Chú ý rằng các biến có thể khác nhau đối với các biên j khác nhau nhưng chúng sẽ giống nhau qua các thành phần k.

Các xác suất trộn được mô hình bởi π k (w (i) ) = P (δ (i) = k|γ) = exp(γ 0 k w (i) )

, trong đó w (i) , là một tập con của z (i) , là vector hiệp biến và γ k ∈R r là vector hệ số trong thành phần k của gating model Không mất tính tổng quát và để thuận lợi trong tính toán, chúng tôi đặt γ 1 ≡ 0 và viết γ = (γ 0 2 , ,γ 0 K ) 0 ∈R s , s = (K −1)r.

Chúng tôi xét các phân phối tiên nghiệm trên β, T và γ β kj ∼ N p j (0, β 0 −1 I), j = 1, , d, k = 1, , K, T k ∼ Wishart(ν 0 , V 0 −1 ), k = 1, , K, γ ∼ N s (0, γ 0 −1 I), với β 0 , ν 0 , V 0 và γ 0 là các siêu tham số sẽ được đề cập sau Chú ý rằng δ = (δ (1) , ,δ (n) ) 0 cũng được xem xét như một mô hình tham số với tiên nghiệm

Bộ tham số của mô hình này là θ = (δ,β,γ,T ) có tiên nghiệm p(θ) = p(γ)p(δ|γ)p(β)p(T ) = p(γ) n

Chúng tôi áp dụng Bayes biến phân để xấp xỉ phân phối hậu nghiệm đúng của θ bằng một phân phối hậu nghiệm VB có dạng q(θ) = q(γ)q(δ)q(β)q(T ), (3.4) trong đó q(δ) = n

X k=1 q ik = 1, và q(β), q(T ) được phân tích thành q(β) = d

Với s (i) k = (y 1 (i) −β 0 k1 v (i) 1 , ,y d (i) −β 0 kd v (i) d ) 0 thì log hàm hợp lý được xác định bởi log p(y|θ) = n

Với a =(a 1 , ,a d ) 0 là một vectord-chiều, ký hiệua −l là một vector(d−1)-chiều nhận được từ a bằng cách xóa đi tọa độ thứ l Với ma trận A, ký hiệu A i,i là phần tử (i,i) của ma trận A, A −i,−j là ma trận nhận được từ ma trận A bằng cách xóa đi hàng thứ i và cột thứ j, A i,−j là hàng thứ i của ma trận A sau khi xóa đi cột thứ j, và A i,: là hàng thứ i của ma trận A.

3.2.1 Phân phối hậu nghiệm tối ưu VB cho β

Dựa vào công thức (3.6) và áp dụng công thức (1.9) ta có q(β kj ) ∝ expn

Như vậy q(β kj ) = N p j (à β kj , Σ β kj ), k = 1, , K ; j = 1, , d, trong đó Σ β kj = β 0 I + n

, (3.8) với [T k ] = ν k V k −1 trong đó ma trận V k được xác định trong phân phối hậu nghiệm tối ưu VB của T k

3.2.2 Phân phối hậu nghiệm tối ưu VB cho T k

, nên áp dụng công thức (1.9) ta được q(T k ) ∝ exp n E −T k log p(y, θ) o

Như vậy phân phối hậu nghiệm tối ưu VB của T k là q(T k ) = Wishart(ν k , V k −1 ), trong đó hai tham số ν k và V k được cập nhật theo công thức ν k = ν 0 + n

3.2.3 Phân phối hậu nghiệm tối ưu VB cho q ik

Tương tự như trên, từ công thức (1.9) ta có q ik = q(δ (i) = k)

+dlog2 −log|V k | với Ψ(x) =∂ Γ(x)/Γ(x) là hàm diagamma.

3.2.4 Phân phối hậu nghiệm tối ưu VB của γ

Từ công thức (1.9) ta có q(γ) ∝ exp n E −γ log p(y, θ) o

Phân phối này không có dạng chính tắc, nhưng đây là phân phối hậu nghiệm trong hồi quy đa thức Bayes với phân phối tiên nghiệm là phân phối chuẩn đa chiều N s (0,γ 0 −1 I) với vector đáp ứng thư i là (q i1 , ,q iK ) 0 Theo [40], chúng tôi sử dụng một phõn phối Dirac delta q(γ) = δ à γ (γ) tập trung tại điểm à γ đối với xấp xỉ VB trên γ, nghĩa là, chỉ quan tâm đến ước lượng điểm cho γ Tham số à γ được ước lượng bằng mode của (3.11) Tại điểm hội tụ, chỳng tụi sử dụng phương pháp xấp xỉ Gauss để xấp xỉ q(γ) băng một phân phối xấp xỉ chuẩn q opt (γ) với trung bỡnh à γ và ma trận hiệp phương sai Σ γ là ma trận Hessian được tính tại mode của phân phối hậu nghiệm ở trên.

Theo công thức (1.2) cận dưới của logp(y|θ) là L(q) = [log p(y, θ)] − [log q(θ)] = [log p(θ)] + [log p(y|θ)] − [log q(θ)] (3.12) trong đó [.] là ký hiệu kỳ vọng ứng với phân phối q(θ). Chỳ ý rằng nếu X ∼ N d (à,Σ) thỡ

[X 0 X] = tr[X 0 X ] =tr([XX 0 ]) =tr [X][X] 0 +Var(X)

Ta có các phân phối tiên nghiệm p(γ) = 1

Do đó số hạng thứ nhất của công thức (3.12) là

[log p(θ)] = [log p(γ)] + [log p(δ)] + [log p(β)] + [log p(T )]

Số hạng thứ hai, ta có log p(y|θ) = n

Và số hạng cuối cùng của công thức (3.12) là q(δ) = n

− 1 2 (β kj − à β kj ) 0 Σ −1 β kj (β kj − à β kj )o log q(β kj )

2 [(β kj − à β kj ) 0 Σ −1 β kj (β kj − à β kj )] log q(β)

[log q(θ)] = [log q(γ)] + [log q(δ)] + [log q(β)] + [log q(T )]

Theo [28], chỳng tụi xấp xỉ [logp ik (γ)] bằng logp ik (à γ ).

3.2.6 Thuật toán VB cho mô hình MRDE-MN

Sau khi đã xây dựng được các công thức để cập nhật các tham số của mô hình theo phương pháp Bayes biến phân, chúng tôi đi đến thuật toán VB cho mô hình MRDE-MN như sau:

1 Cập nhật Σ β kj và à β kj , j = 1, ,d, k = 1, ,K như trong (3.7) và (3.8).

2 Cập nhật ν k và V k , k = 1, ,K như trong (3.9).

3 Cập nhật q ik , i = 1, ,n, k = 1, ,K như trong (3.10).

4 Cập nhật à γ là mode của phõn phối (3.11).

5 Lặp lại các bước 1-4 cho đến khi dừng. Để khởi động hệ thống vòng lặp, đầu tiên chúng tôi thực hiện thuật toán phân cụm k-means trên dữ liệu {(y (i) ,z (i) ),i = 1, ,n} và gán 1 cho q ik nếu quan sát thứ i nằm trong cụm k và 0trong trường hợp ngược lại Với mỗi cụm k, các à β kj và Σ β kj , j = 1, ,d được khởi tạo bằng cỏch thực hiện mụ hỡnh hồi quy tuyến tính thông thường của y (i) j theo các hiệp biến v (i) j Sau đó khởi tạo ν k và V k như trong bước 2 và à γ như trong bước 4 Quy tắc dừng phổ biến là dừng lặp lại nếu giới hạn dưới không cải thiện thêm nữa Ngoài ra, chúng tôi cập nhật các tham số tuần tự cho đến khi sự khỏc biệt của à β kj trong hai lần lặp liờn tiếp là nhỏ hơn giá trị dung sai được chỉ định.

Lựa chọn số thành phần

Phần này đề cập đến vấn đề cực đại địa phương và chọn số lượng thành phần bằng cách điều chỉnh thuật toán tách và hợp nhất Đầu tiên chúng tôi khởi tạo số thành phần K sử dụng phương pháp của Calinski và Harabasz [7] để chọn số cụm Với K ban đầu, sau khi thuật toán 1 đã hội tụ, chúng tôi xem xét hợp nhất hai thành phần hoặc tách một thành phần cho đến khi giới hạn dưới không được cải thiện thêm nữa Ký hiệu θ ∗ và L ∗ biểu thị ước lượng tham số và giới hạn dưới tối đa sau khi thuật toán 1 đã hội tụ.

Tiêu chuẩn hợp nhất Hai thành phần được coi là hợp lý nhất cho việc hợp nhất nếu chúng gần nhau theo một nghĩa nào đó Ở đây chúng tôi sử dụng sự sai khác Kullback-Leibler (KL) để đo lường sự tương đồng Khoảng cách KL giữa hai phân phối P và Q được định nghĩa là

2 (KL(P kQ)+KL(QkP )), trong đó KL(P kQ) = R log P Q(x) (x) dP (x) là sự sai khác KL của Q so với P Nếu

Trong trường hợp này, khoảng cách KL (tính trung bình trên n điểm khảo sát) giữa hai thành phần k 1 và k 2 được cho bởi

Hai thành phần có khoảng cách KL nhỏ hơn sẽ càng hợp lý hơn nên chúng là ứng cử viên để hợp nhất ĐặtC ={(k 1 ,k 2 ), k 1 =1, ,K; k 2 =1, ,K ; k 1 6=k 2 }là tập hợp của cặp chỉ số,ξ 1 =argmin{KL(k 1 ,k 2 ), (k 1 ,k 2 )∈C}là cặp chỉ số của hai thành phần với khoảng cách KL nhỏ nhất, ξ i =argmin{KL(k 1 ,k 2 ), (k 1 ,k 2 ) ∈ C \{ξ 1 , ,ξ i−1 }}, i ≥ 2.

Ta viết C merge = {ξ 1 ,ξ 2 , } Chú ý rằng C merge = C merge (θ ∗ ) phụ thuộc vào θ ∗ Ý tưởng là cố gắng kết hợp các cặp thành phần hợp lý nhất cho đến khi giới hạn dưới được cải thiện hoặc số hoạt động hợp nhất vượt quá số được chỉ định trước

M merge max Giá trị của M merge max không nên cài đặt quá lớn (có thể nhỏ hơn 5) vì với những cặp thành phần được xét để hợp nhất càng về sau càng có ít hy vọng thành công.

Hoạt động hợp nhất Để ước tính các tham số của mô hình mới hợp nhất, điều quan trọng là sử dụng ước tính trước đó để khởi tạo lược đồ lặp Giả sử hai thành phần k 1 và k 2 sẽ được hợp nhất thành một thành phần mới k 0 Các giá trị khởi tạo cho mô hình hợp nhất mới được gán như sau Đối với các giá trị khởi tạo của thành phần mới k 0 , chúng tôi đã đặt à β k 0 j = q ¯ ãk 1 à β k 1 j + ¯ q ãk 2 à β k 2 j ¯ q ãk 1 + ¯ q ãk 2 , Σ β k 0 j = q ¯ ãk 1 Σ β k

2 j ¯ q ãk 1 + ¯ q ãk 2 , j = 1, ,d, với q ¯ ãk = n 1 Pn i=1 q ik và q ik 0 = q ik 1 +q ik 2 Các giá trị khởi tạo cho các tham số trong các thành phần khác được cố định theo ước tính hiện tại Lưu ý rằng số lượng thành phần bây giờ được giảm xuống 1 Khởi tạo các giá trị như trên được gọi là khởi tạo nóng nhằm làm cho thuật toán 1 nhanh hội tụ hơn.

Tiêu chuẩn tách Một thành phần được coi là không đáng tin cậy và là một ứng cử viên chính đáng cho việc chia tách nếu nó có giá trị hợp lý nhỏ, tức là nó kém phù hợp và phải được tách ra Độ tin cậy của thành phần k được định nghĩa là

Với R(k)nhỏ, thì thành phần kém tin cậy là thành phầnk và là ứng cử viên hợp lý để thực hiện tách ra Đặt η 1 =argmin{R(k), k = 1, ,K }, η i =argmin{R(k), k = 1, ,K; k 6= η 1 , ,η i−1 }, i ≥ 2 Ta viết C split = C split (θ ∗ ) = {η 1 ,η 2 , } Như trong bước hợp nhất, chúng tôi chia các thành phần hợp lý nhất cho đến khi giới hạn dưới được cải thiện hoặc số lần thực hiện chia tách vượt quá số được chỉ định trước

M split max Cũng như M merge max , giá trị của M split max không nên cài đặt quá lớn (có thể nhỏ hơn 5) vì với những thành phần được xét để tách làm hai càng về sau càng có ít hy vọng thành công.

Hoạt động tách Ký hiệu thành phần bị tách ra là k 0 và hai thành phần mới là k 1 và k 2 Theo [9], đặt λ là giá trị riêng lớn nhất của Σ k 0 và e là vector riêng tương ứng Chỳng tụi đặt à β k

2 j sao cho à 0 β k 1 j v (i) j = à 0 β k 0 j v (i) j − √ λe j , à 0 β k 2 j v (i) j = à 0 β k 0 j v (i) j + √ λe j , ∀i = 1, , n, (3.13) đối với j = 1, ,d Đặc biệt hơn, ta viết à β kj = (à 0 β kj ,à 1:p β j kj ) trong đú à 0 β kj là hệ số chặn đối với mean model của thành phầnk, trên biên j Khi đó (3.13) được viết thành à β k

2 j = Σ β k 0 j và giữ nguyên các thành phần khác không thay đổi, số lượng thành phần tăng thêm 1 Việc khởi tạo như vậy sẽ làm cho thuật toán 1 nhanh hội tụ.

Thuật toán 2: Tách và hợp nhất các thành phần.

1 Thực hiện thuật toán 1 Sau khi hội tụ, ký hiệu các tham số được ước lượng bằng θ ∗ và cận dưới cực đại bằng L ∗

2 Tính các tập C merge (θ ∗ ) và C split (θ ∗ ). 3 Thực hiện các vòng lặp với i merge = 1,2, ,M merge max

• Hợp nhất hai thành phần ứng với cặp chỉ số ξ i merge Đặt L ∗ merge , θ ∗ merge là cận dưới và các tham số được ước lượng mới.

• Nếu L ∗ merge > L ∗ thì dừng vòng lặp.

4 Thực hiện các vòng lặp với i split = 1,2, ,M split max

• Tách các thành phần η i split ĐặtL ∗ split , θ ∗ split là cận dưới và các tham số được ước lượng mới.

• Nếu L ∗ split > L ∗ thì dừng vòng lặp.

5 Nếu L ∗ merge >max{L ∗ split ,L ∗ } thìL ∗ :=L ∗ merge , θ ∗ := θ ∗ merge và quay lại bước 2.

Nếu L ∗ split > max{L ∗ merge ,L ∗ } thì L ∗ := L ∗ split , θ ∗ :=θ ∗ split và quay lại bước 2.

Lựa chọn biến

Trong các phần trước, chúng tôi giả định rằng các vector biến v j , j = 1, ,d trong mean model vàw trong gating model được cố định Phần này sẽ xem xét vấn đề lựa chọn biến Giả sử rằng C ={1, ,p}là tập hợp chỉ số của các biến tiềm năng z 1 , ,z p Ký hiệu C j m là tập hợp chỉ số của các biến hiện tại và z C m j = v j là các biến hiện tại trong mean model của biên j Tương tự ký hiệu C g là tập hợp chỉ số của các biến hiện tại và z C g = w là các biến hiện tại trong gating model.

3.4.1 Mô hình tiên nghiệm Đặt M là mô hình MRDE-MN (3.1) với C 1:d m = {C j m , j = 1, ,d} là các tập chỉ số của các hiệp biến trong mean model và C g là tập chỉ số các hiệp biến trong gating model Theo [40], chúng ta sử dụng xác suất tiên nghiệm trên mô hình M như sau p(M) = p(C 1:d m , C g ) = p(C g ) d

, trong đó |A| là lực lượng của tập A.

3.4.2 Lựa chọn biến cho mean model Đối với biên j ∈ {1, ,d} cố định, chúng tôi quan tâm việc bổ sung một biến mới z l , l ∈ C \C j m vào biên j của mean model Ta viết β C kj cho vector hệ số hiện tại và β kj N cho hệ số mới tương ứng với biến mới z l Với mục đích xếp hạng các biến số để đưa vào, chúng ta xem xét sự phân tích phân phối hậu nghiệm VB trên β q(β) =

Khi đó theo (1.9) ta có q(β N kj ) ∝ expn

Do đó phân phối hậu nghiệm tối ưu VB của β kj N là q(β kj N ) ∼ N 1 (à β N kj , σ β 2 N kj ), k = 1, , K, trong đó σ β 2 N kj = β 0 + n

Ký hiệu L new j (z l ), β new kj và L old j , β old kj tương ứng là cận dưới và tham số của hai mô hình có và không có biến mới z l trong biênj của mean model.

Ta có log p(β new kj ) = − p j + 1

[log p(β new kj )] = [log p(β old kj )] − 1

Chú ý rằng trong phân tích (3.14), chỉ có số hạng bổ sung A j (z l ) phụ thuộc vào biến mới Điều này cho chúng ta một cách thuận lợi để xếp hạng các biến tiềm năng có thể đưa vào biên j của mean model Biến hợp lý nhất để đưa vào biên j của mean model là biến có chỉ số bl =argmax l∈C\C m j A j (z l ) (3.15)

Chúng ta bổ sung z b l vào biên j của mean model nếu sự có mặt của nó cải thiện được cận dưới L(q)

3.4.3 Lựa chọn biến cho gating model

Chúng tôi thực hiện quy trình xếp hạng các biến để đưa vào gating model như trong [40] Để đo lường mối liên hệ vector biến đáp ứng và các biến giải thích, chúng tôi sử dụng tương quan khoảng cách được giới thiệu trong [38].

Tương quan khoảng cách là một thước đo tổng quát, không chỉ là tuyến tính, mà là sự phụ thuộc nói chung giữa hai vector ngẫu nhiên với số chiều bất kỳ.

Giả sử z b l là biến có tương quan khoảng cách mẫu cao nhất vớiy trong số các z l , l ∈ C \C g

- Nếu z b l chưa có trong mean model, nghĩa là bl 6∈ ∪ d j=1 C j m , thì z b l sẽ được bổ sung vào gating model nếu sự có mặt của nó cải thiện được cận dưới L(q).

- Nếu z b l đã có mặt trong mean model Biến này sẽ được bổ sung vào gating model nếu sự có mặt của nó cải thiện được cận dưới L(q) Ngược lại, sự tương quan cao của z b l có thể được gây ra do thông qua mean model hơn là gating model, do đó chúng tôi xem xét việc đưa vào biếnz l 0 có tương quan khoảng cách với y cao thứ hai trong số các biến trong C \C g Sự xem xét việc đưa biến vào gating model được thực hiện lặp lại cho đến khi một biến được chọn hoặc không còn z l 0 nào nữa.

Việc lựa chọn biến được kết hợp với thuật toán hợp nhất và tách để lựa chọn thành phần Ta viết L(C 1:d m ,C g ) là cận dưới được tối ưu bằng thuật toán 2 Ký hiệu dCor(y,z l ) là tương quan khoảng cách mẫu giữa vector phản hồi y và biến giải thích z l

1 Khởi trị C j m , j = 1, ,d và C g , và đặt L opt :=L(C 1:d m ,C g ). 2 Lặp các bước sau cho đến khi dừng

(a) Lưu C 1:d m,old :=C 1:d m và C g,old := C g (b) Thực hiện các vòng lặp với j = 1, ,d

• Bổ sung biến z b l, với bl được xác định trong (3.15), vào biên j của mean model Đặt Ce 1:d m là tập chỉ số kết quả cho mean model.

L( Ce 1:d m ,C g )+p( Ce 1:d m ,C g )> L opt +p(C 1:d m ,C g ) thì đặt C 1:d m := Ce 1:d m , L opt = L( Ce 1:d m ,C g ).

(c) Đặtτ l =dCor(y,z l )nếul6∈C g trái lạiτ l =−∞,l =1, ,p, và đặt stopSE.

Thực hiện các vòng lặp trong khi stop còn sai bl =argmax{τ l , l = 1, ,p} và đặt Ce g = C g ∪{bl}

Nếu τ b l = −∞ thì stop=TRUE trái lại

• Nếubl 6∈ ∪ d j=1 C j m : Đặt stop=TRUE Nếu

L(C 1:d m , Ce g )+p(C 1:d m , Ce g ) > L opt +p(C 1:d m ,C g ) thì đặt C g := Ce g , L opt :=L(C 1:d m , Ce g ).

L(C 1:d m , Ce g )+p(C 1:d m , Ce g ) > L opt +p(C 1:d m ,C g ) thì đặt C g := Ce g , L opt := L(C 1:d m , Ce g ) và stop=TRUE, trái lại đặt τ b l =−∞.Kết thúc vòng lặp(d) Nếu (C 1:d m,old =C 1:d m và C g,old =C g ) thì dừng, trái lại quay lại (a).

Ứng dụng

Các kết quả nghiên cứu trên, chúng tôi đã lập trình trên ngôn ngữ R Để minh họa và đánh giá tính ưu việt của phương pháp này, chúng tôi đã thử nghiệm trên dữ liệu mô phỏng và dữ liệu thực Kết quả đều cho thấy hiệu quả tốt của thuật toán, điều này được trình bày trong hai mục 3.5.1 và 3.5.2 dưới đây.

Chúng tôi mô phỏng dữ liệu từ mô hình p(y|z) =

X k=1 π k (z)N d (y|à k (z), Σ k ), với K = 3, d = 3 và giá trị đúng của các tham sốβ và γ được trình bày trong bảng 3.1, trong đó mỗi cột,p−5phần tử cuối đều là 0 Chúng tôi đặt Σ 1 = Σ 2 = Σ 3 =I.

Bảng 3.1: Bảng giá trị đúng của các tham số β và γ. β 11 β 21 β 31 β 12 β 22 β 32 β 13 β 23 β 33 γ 1 γ 2 γ 3 1.0 1.0 -3.0 -2.0 2.0 4.0 6.0 -3.0 4.0 0.0 1.5 1.0 0.0 -2.0 1.0 0.0 5.0 -1.0 0.0 -5.0 7.0 0.0 1.0 -3.5 2.0 0.0 0.0 3.0 0.0 0.0 5.0 0.0 0.0 0.0 0.0 0.0 0.0 -4.0 0.0 0.0 2.5 0.0 0.0 -3.5 0.0 0.0 0.0 0.0 5.0 0.0 6.5 1.0 0.0 -5.0 -2.0 0.0 1.5 0.0 -4.0 1.5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Để đánh giá hiệu suất của phương pháp, chúng tôi tính các tỷ lệ (%) chọn đúng biến cho mean model, gating model, tỷ lệ (%) chọn đúng số thành phần và tỷ lệ (%) chọn đúng cả ba mục tiêu trên Đồng thời chúng tôi cũng tính các sai số bình phương trung bình (MSE) giữa các giá trị ước tính với giá trị đúng của các tham số và thời gian chạy CPU (Intel Core i7, 3.40Ghz) Các kết quả mô phỏng được tóm tắt trong bảng 3.2 đối với các bộ giá trị khác nhau của số biến tiềm năng p và kích thước mẫu n Các giá trị thống kê được tính trên 20 mẫu.

Kết quả cho thấy phương pháp được đề xuất có thể xác định chính xác cả

Bảng 3.2: Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương pháp.

CFR (%) MSE CPU p n Mean Gating Component Overall MSE β MSE γ (sec)

2000 80.0 93.3 96.7 73.3 0.64 0.56 1501 các biến quan trọng và số thành phần với tốc độ cao nhờ thuật toán VB Đặc biêt, theo như kỳ vọng, tỷ lệ chọn đúng tăng lên cùng với kích thước mẫu n và giảm khi số biến tiềm năng p tăng.

3.5.2 Ứng dụng trên dữ liệu thực HILDA

Dữ liệu được trích xuất từ Trung tâm nghiên cứu về hộ gia đình, thu nhập và lao động tại Úc (the Household, Income and Labour Dynamics survey in Australia: HILDA) vào năm 2013 Các biến bao gồm một loạt các đặc tính về sức khỏe, thu nhập, giáo dục, sự hài lòng cuộc sống, Tất cả có 44 biến với 17,512 quan sát, từ đó chúng tôi chọn ngẫu nhiên một mẫu gồm 3000 quan sát để làm bộ dữ liệu ước lượng mô hình (training data) và phần còn lại được dùng để kiểm tra (test data) Chúng tôi sử dụngnghpf (physical health status score) và nghmh (mental health status score) là vector phản hồi 2 chiều y, và các biến còn lại z.

Chúng tôi quan tâm đến việc mô hình hóa mật độ hồi quy của các chỉ số về sức khỏe bằng cách sử dụng mô hình MRDE-MN Sử dụng phương pháp ước lượng mô hình và lựa chọn mô hình VB của chúng tôi, kết quả nhận được một mô hình MRDE-MN có 03 thành phần đã được chọn với các biến được chọn và các hệ số ược lượng được trình bày trong bảng 3.3 và 3.4 Thời gian chạy CPU là 957 giây.

Bảng 3.3: Các biến được chọn và các hệ số ước lượng trong mean model.

Các biến phản hồi Các biến được chọn T.phần 1 T.phần 2 T.phần 3 nghpf intercept -2.0134 0.6791 -0.2030 nlsnwtca 0.0157 -0.0267 0.2040 nlosathl 0.0008 0.0367 0.0753 nlosatyh -0.0001 -0.0141 -0.0634 njomwf -0.0006 0.0433 0.2073 nghmh intercept -2.0486 0.3988 0.1363 nlsemp 0.2007 0.0937 0.1590 nan4auc -0.0041 0.1661 0.2648 nlosatfs -0.0001 0.0506 0.1340 nlosatyh 0 0.1895 0.1607 njompi 0.0379 -0.2194 -0.2309

Chúng tôi so sánh phương pháp MRDE-MN với mô hình hồi quy tuyến tính đa biến thông thường (Multivariate Linear Regression: MLR) y = B 0 z + (3.16) với B là ma trận các hệ số, z là vector của các biến giải thích (bao gồm 1 là phần tử đầu tiên), và là một vector sai số ngẫu nhiên có phân phối chuẩn đa chiều với trung bình 0 và ma trận hiệp phương sai Σ Chúng tôi xem xét hai phiên bản của mô hình MLR: mô hình đủ biến MLR1 với tất cả các biến được sử dụng, và mô hình MLR2 trong đó các biến tương ứng với các hệ số không có ý nghĩa (nghĩa là các biến có p-value lớn hơn 0.1) đều được loại bỏ Chúng tôi

Bảng 3.4: Các biến được chọn và các hệ số ước lượng trong gating model.

Các biến được chọn Thành phần 1 Thành phần 2 Thành phần 3 intercept 0.0 4.3195 4.4232 nlnwcon 0.0 0.9117 0.6001 nlsnwpol 0.0 1.4063 1.0734 nlsnwkit 0.0 0.4892 -0.4132 nlsnwpi 0.0 0.9328 1.8798 đánh giá hiệu suất bằng cách sử dụng điểm dự báo logp(y|z) với các điểm dữ liệu(y,z) trong bộ dữ liệu kiểm tra, và p(y|z)là hàm mật độ của mô hình đang được xem xét.

Chúng tôi báo cáo điểm dự báo riêng phần (Partial Predictive Score: PPS),

(y,z)∈test data logp(y|z), với n test là kích thước của bộ dữ liệu kiểm tra Điều này được hiểu rằng mô hình có PPS càng nhỏ thì hiệu suất dự báo càng tốt Thực hiện đánh giá các mô hình trên bộ dữ liệu kiểm tra, PPS của MLR1, MLR2 và MRDE-MN tương ứng là 1.5212 (0.0076), 1.5526 (0.0071) và 0.8949 (0.0095) Kết quả này cho thấy mô hình MRDE-MN có hiệu suất dự báo rất tốt.

Trong chương này, chúng tôi đã trình bày một thuật toán nhanh để thực hiện đồng thời việc lựa chọn biến, số thành phần và ước lượng tham số trong mô hình mật độ hồi quy đa biến bằng cách trộn các phân phối chuẩn Một hướng nghiên cứu trong tương lai là mở rộng phương pháp cho lựa chọn biến và lựa chọn thành phần trong các mô hình trộn với mỗi thành phần là một mạng nơron.

Kết luận và kiến nghị

So với các công trình trước, những đóng góp mới của luận án gồm các kết qủa chính sau đây:

• Đã xây dựng được thuật toán biến phân Bayes để thực hiện đồng thời bài toán chọn biến và ước lượng tham số cho mô hình GLMM trong trường hợp nhiều biến Thuật toán đã thể hiện rõ tính ưu việt hơn so với phương pháp của Groll và đồng sự [19] và Schelldorfer và đồng sự [35] cả về mặt thời gian lẫn khả năng chọn được các biến quan trọng và độ chính xác của ước lượng thông qua các đánh giá trong nghiên cứu mô phỏng.

• Đã nghiên cứu mô hình MRDE-MN và xây dựng được thuật toán nhanh thực hiện đồng thời nhiều mục tiêu: (1) xác định số thành phần; (2) lựa chọn biến và ước lượng tham số cho mean model; (3) lựa chọn biến và ước lượng tham số cho gating model Thuật toán được xây dựng cũng thể hiện hiệu suất hoạt động tốt, được đánh giá trên dữ liệu mô phỏng và dữ liệu thực.

Kiến nghị về những nghiên cứu tiếp theo

Hướng nghiên cứu của luận án còn nhiều bài toán mở sau đây:

1 Lựa chọn nhóm biến trong mô hình GLMM bằng cách sử dụng Lasso phạt nhóm ([43]).

2 Lựa chọn biến được sắp xếp trong mô hình GLMM bằng cách sử dụng phạt tuyệt đối tổng hợp ([44]).

3 Mở rộng phương pháp cho lựa chọn biến và lựa chọn thành phần trong các mô hình trộn với mỗi thành phần là một mạng nơron.

Tuy nhiên, vì điều kiện thời gian và năng lực nên tác giả chưa giải quyết được các vấn đề trên Tác giả hy vọng rằng những vấn đề này sẽ sớm được giải quyết.

Danh mục các công trình khoa học của tác giả liên quan đến luận án

[I] Dao Thanh Tung, Minh-Ngoc Tran, Tran Manh Cuong, Bayesian Adaptive Lasso with Variational Bayes for Variable Selection in High-dimensional GeneralizedLinear Mixed Models, Communications in Statistics - Simula- tions and Computations, 48, 530 - 543, 2019.

[II] Dao Thanh Tung, Minh-Ngoc Tran, Flexible Multivariate Regression Den- sity Estimation,Communications in Statistics - Theory and Methods, 2020.

[1] Allen, D (1974), "The relationship between variable selection and data aug- mentation and a method for prediction", Technometrics 16, 125 - 127.

[2] Akaike, H (1973), "Information Theory and an Extension of the Maximum Likelihood Principle", Akademiai Kaid,Budapest, Hungary 267 - 281.

[3] Annette J Dobson and Adrian G Bảnett (2008), "An Introduction to Gen- eralized Linear Models", Taylor & Francis Group Boca Raton London New York.

[4] Biernacki, C and Celeux, G and Govaert, G (2000), "Assessing a mixture model for clustering with the integrated completed likelihood" ,IEEE Trans.

Pattern Analysis and Machine Intelligence 22, 719 - 725.

[5] Bryant, P and Williamson, J.A (1978), "Asymptotic behaviour of classifi- cation maximum likelihood estimates", Biometrika 65, 273 - 282.

[6] Burnham, K P and Anderson, D (2002), "Model selection and multimodel inference : a practical information-theoretic approach", New York, Springer 80, 141 - 151.

[7] Calinski, R B and Harabasz, J (1974) , "A dendrite method for cluster analysis", Communications in Statistics 3, 1 - 27.

[8] Christopher M Bishop (2006) , "Pattern Recognition and Machine Learn- ing", Springer Science + Business Media, LLC

[9] Constantinopoulos, C and Likas, A (1974) , "Unsupervised learning of Gaus- sian mixtures based on variational component splitting",IEEE Trans Neural Netw 18, 745 - 755.

[10] Craven, P and Wahba, G (1979), "Smoothing noisy data with spline func- tions: Estimating the correct degree of smoothing by the method of general- ized cross-validation", Numerische Mathematik 31, 277 - 403.

[11] Dempster, A.P and Laird, N.M and Rubin, D.B (1977), "Maximum Like- lihood from Incomplete Data via the EM Algorithm",Journal of the Royal Statistical Society, Series B 39, 1-38.

[12] DeSarbo, W S., and Corn, W L (1988), "A Maximum Likelihood Method- ology for Clusterwise Linear Regression",Journal of Classification5, 249-282.

[13] Donohue, M C and Overholser, R and Xu, R and Vaida, F (2011) ,

"Conditional Akaike information under generalized linear and proportional hazards mixed models", Biometrika 98, 685 - 700.

[14] Efron, B and Tibshirani, R.J (1993), "An Introduction to the Bootstrap", Chapman & Hall.

[15] Fitzmaurice, G and Laird, N (1993) , "A likelihood-based method for analysing longitudinal binary responses", Biometrika 80, 141 - 151.

[16] Geisser, S (1975), "The predictive sample reuse method with applications", Statist Assoc 70, 320 - 328.

[17] Greenberg, E R and Baron, J A and Stevens, M M and Stukel, T A. and Mandel, J S and Spencer, S K and Elias, P M and Lowe, N andNierenberg, D N and Bayrd G and Vance, J C (1989), "The skin cancer prevention study: design of a clinical trial of beta-carotene among persons at high risk for nonmelanoma skin cancer",Controlled Clinical Trials 10, 153 -166.

[18] Griffin, J E and Brown, P J (2011), "Bayesian adaptive Lassos with non- convex penalization", Australian and New Zealand Journal of Statistics 53, 423 - 442.

[19] Groll, Andreas and Tutz, Gerhard (2012), "Variable selection for generalized linear mixed models by L1-penalized estimation", Springer US 1 - 18.

[20] Harry Joe (2008), "Accuracy of Laplace approximation for discrete response mixed models" , Computational Statistics & Data Analysis 52, 5066 - 5074.

[21] Hastie, T and Tibshirani, R and Friedman, J H (2001), "The Elements of Statistical Learning", Springer.

[22] Hoeting, J.A., Madigan, D., Raftery, A.E Volinsky, C.T (1999), "Bayesian model averaging: A tutorial", Statistical Science 14, 382 - 417.

[23] Jacobs, R.A and Jordan, M.I and Nowlan, S.J and Hinton, G.E (1991) ,

"Adaptive mixtures of local experts", Biometrika 3, 79 - 87.

[24] Leng, C and Tran, M.-N and Nott, D J (2013), "Bayesian adaptive Lasso", The Annals of the Institute of Statistical Mathematics.

[25] Masoudnia, Saeed and Ebrahimpour, Reza (2014) , "Mixture of experts: a literature survey", Artificial Intelligence Review 42, 275 - 293.

[26] McLachlan, G J and Peel, D (2000), "Finite Mixture Models" , John Wiley and Sons, New York.

[27] Nelder J.A and Wederburn R W M (1972), "Generalized linear models", Journal of the Royal Statistical Society Series A 135 370 - 384.

[28] Nott, D J and Tan, S L and Villani, M and Kohn, R (2011), "Regression density estimation with variational methods and stochastic approximation",Journal of Computational and Graphical Statistics.

[29] O’Hagan, A and Foster, J (2004), "Kendall’s advanced theory of statistics:

Bayesian inference", Edward Arnold Press, London.

[30] Ormerod, J T and Wand, M P (2010), "Explaining Variational Approxi- mations", Journal of the American Statistical Association 64, 140 - 153.

[31] Park, T and Casella, G (2008), "The Bayesian Lasso", Journal of the American Statistical Association 103, 681 - 686.

[32] Prasad A NAIK, Peide SHI, and Chih-Ling TSAI (2008), "Extending the Akaike Information Criterion to Mixture Regression Models",Journal of the American Statistical Association 102, 224 - 254.

[33] Salimans, T and Knowles, D A (2013), "Fixed-form variational poste- rior approximation through stochastic linear regression",Erasmus University Rotterdam.

[34] Smith, M and Kohn, R (1996), "Nonparametric Regression using Bayesian Variable Selection", Journal of Econometrics 75, 317 - 343.

[35] Schelldorfer, J¨urg and Meier, Lukas and B¨uhlmann, Peter (2013), "GLMM- Lasso: An Algorithm for High-Dimensional Generalized Linear Mixed Models Using l1-Penalization", Journal of Computational and Graphical Statistics.

[36] Schwarz, G (1978), "Estimating the Dimension of a Model", The Annals of Statistics 6, 461 - 464.

[37] Stone, M (1974), "Cross-Validation Choice and Assessment of Statistical Prediction", Journal of the Royal Statistical Society 36, 111 - 147.

[38] Szekely, G J and Rizzo, M L (2009) , "Brownian distance covariance", The Annals of Applied Statistics 3, 1236 - 1265.

[39] Tibshirani, R (1996) , "Regression shrinkage and selection via the Lasso",Journal of the Royal Statistical Society, Series B 58, 267 - 288.

Ngày đăng: 01/09/2024, 21:48

HÌNH ẢNH LIÊN QUAN

Bảng 1.2: Bảng kết quả hai lần thực hiện mô phỏng. - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Bảng 1.2 Bảng kết quả hai lần thực hiện mô phỏng (Trang 39)
Hình 1.1: Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải. - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Hình 1.1 Kết quả thực hiện 02 lần: lần 1 cột bên trái và lần 2 cột bên phải (Trang 40)
Bảng 1.3: Bảng kết quả thực hiện mô phỏng. - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Bảng 1.3 Bảng kết quả thực hiện mô phỏng (Trang 46)
Hình 1.2: Kết quả thực hiện mô phỏng bằng hai thuật toán. Thuật toán 1 là cột bên trái và Thuật toán 2 là cột bên phải. - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Hình 1.2 Kết quả thực hiện mô phỏng bằng hai thuật toán. Thuật toán 1 là cột bên trái và Thuật toán 2 là cột bên phải (Trang 47)
Bảng 1.4: Bảng kết quả thực hiện mô phỏng trên ba thuật toán. - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Bảng 1.4 Bảng kết quả thực hiện mô phỏng trên ba thuật toán (Trang 51)
Bảng 2.1: Kết quả mô phỏng hồi quy Poisson - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Bảng 2.1 Kết quả mô phỏng hồi quy Poisson (Trang 79)
Bảng 3.1: Bảng giá trị đúng của các tham số β và γ . - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Bảng 3.1 Bảng giá trị đúng của các tham số β và γ (Trang 104)
Bảng 3.2: Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương pháp. - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Bảng 3.2 Bảng tóm tắt các chỉ số đánh giá hiệu quả của phương pháp (Trang 105)
Bảng 3.4: Các biến được chọn và các hệ số ước lượng trong gating model. - Lựa chọn biến, số thành phần và Ước lượng tham số bằng phương pháp vb cho các mô hình glmm và mrde   mn
Bảng 3.4 Các biến được chọn và các hệ số ước lượng trong gating model (Trang 107)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w