Bài viết nghiên cứu ước lượng trong hồi qui Poisson giãn nở số không khi biến đếm bị kiểm duyệt bên phải. Kiểm duyệt bên phải xảy ra khi chỉ cận dưới của biến tiên lượng được quan sát, hay nói cách khác ta chỉ biết giá trị thực của biến lớn hơn giá trị quan sát.
TNU Journal of Science and Technology 226(16): 231 - 238 ESTIMATION IN ZERO INFLATION POISSON REGRESSION MODEL WITH RIGHT CENSOR Van-Trinh Nguyen * , Van-Minh Pham Fundamental-Basic Faculty, VietNam Maritime University 484 Lach Tray Street, Ngo Quyen District, Hai Phong City ARTICLE INFO Received: 11/6/2021 Revised: 29/11/2021 Published: 30/11/2021 KEYWORDS Excess of zeroes Count data MLE Censor Poisson model ABSTRACT Count data often appears in many fields such as public health, economics, epidemiology In order to handle this kind of data, some regression models have been developed as Poisson regression, Binomial regression or more generally are generalized linear regression models (GLMs) When count data contains extra of zeroes, zero-inflated (ZI) models are improved to suit However, when counts are censored, the above models are no longer suitable Therefore, Saffari and Adnan (2001) mentioned to this model using some simple simulations However, the authors have not proven the existence, consistency, and asymptotic normality of a maximum likelihood estimator (MLE) yet With that in mind, this paper develops theory to give out rigorous proof to handle the above problems basing upon the asymptotic normality theory ƯỚC LƯỢNG TRONG MƠ HÌNH HỒI QUI POISSON GIÃN NỞ SỐ KHÔNG KIỂM DUYỆT BÊN PHẢI Nguyễn Văn Trịnh * , Phạm Văn Minh Khoa sở - Đại học Hàng Hải Việt Nam 484 Lạch Tray, Ngơ Quyền, Hải Phịng THƠNG TIN BÀI BÁO Ngày nhận bài: 11/6/2021 Ngày hoàn thiện: 29/11/2021 Ngày đăng: 30/11/2021 TỪ KHĨA Giãn nở số khơng Dữ liệu đếm Ước lượng hợp lí cực đại Kiểm duyệt Mơ hình Poisson TĨM TẮT Dữ liệu đếm thường xuất nhiều lĩnh vực thực tế y tế, kinh tế, dịch tễ học Để xử lý loại liện này, nhiều mơ hình hồi quy phát triển hồi quy Poisson, hồi quy Nhị thức hay tổng qt mơ hình hồi quy tổng qt hóa (GLMs) Khi liệu đếm chứa nhiều số không, mơ hình giãn nở số khơng (ZI) đời Tuy nhiên liệu cần kiểm duyệt mơ hình khơng cịn phù hợp Vì vậy, Saffari and Adnan (2001) đề cập đến mơ hình nghiên cứu mô đơn giản Tuy nhiên, tác giả chưa chứng minh cho tồn tại, tính vững tính tiệm cận chuẩn đại lượng hợp lí cực đại (MLE) Với nhận định đó, báo phát triển lý thuyết đưa chứng minh chặt chẽ cho vấn đề dựa vào lý thuyết tiệm cận chuẩn DOI: https://doi.org/10.34238/tnu-jst.4636 * Corresponding author Email: trinhnv@vimaru.edu.vn http://jst.tnu.edu.vn 231 Email: jst@tnu.edu.vn 226(16): 231 - 238 TNU Journal of Science and Technology Giới thiệu Mơ hình thống kê liệu đếm đóng vai trị quan trọng lĩnh vực nông nghiệp, kinh tế, dịch tễ, công nghiệp hay sức khỏe cơng cộng Mơ hình tuyến tính tổng quát [1] giải pháp phù hợp cho liệu Tuy nhiên, nhiều ứng dụng, liệu đếm xuất số không với tần suất đó, tức lượng số khơng khơng giải thích mơ hình dựa giả thiết phân phối Một số công cụ thống kê nghiên cứu để giải vấn đề có mơ hình hồi qui giãn nở số khơng, mơ hình kết hợp phân phối suy biến với mơ hình hồi qui đếm Ví dụ, mơ hình hồi qui giãn nở số không Poisson (ZIP) đề xuất [2], hay gần [3, 4, 5] Một số biến đổi hồi qui ZIP mơ hình ảnh hưởng ngẫu nhiên ZIP [6, 7], mơ hình nửa tham số ZIP [8, 9] Mơ hình hồi qui giãn nở số khơng nhị thức âm (ZINB) đề xuất [10], [11, 12] Bài báo này, nghiên cứu ước lượng hồi qui Poisson giãn nở số không biến đếm bị kiểm duyệt bên phải Kiểm duyệt bên phải xảy cận biến tiên lượng quan sát, hay nói cách khác ta biết giá trị thực biến lớn giá trị quan sát Saffari Adnan [13], đề xuất ước lượng hợp lí cực đại (MLE) ZIP với giá trị kiểm duyệt bên phải số Tuy nhiên, nghiên cứu này, tác giả chưa kết tiệm cận MLE Với hạn chế thiếu sót trên, chúng tơi mở rộng mơ hình cho trường hợp đại lượng kiểm duyệt ngẫu nhiên thực chứng minh lý thuyết cách chặt chẽ cho đại lượng MLE mơ hình Phần cịn lại báo bố cục sau: mục 2, nhắc lại mơ hình hồi qui ZIP, ước lượng hợp lí cực đại với kiểm duyệt ngẫu nhiên mơ tả với việc số kí hiệu dùng báo Mục 3, chúng tơi thiết lập tính vững tính tiệm cận chuẩn MLE Cuối cùng, số thảo luận hướng nghiên cứu thực mục Mơ hình hồi quy Poisson kiểm duyệt Mục nhắc lại định nghĩa mơ hình ZIP mơ tả ước lượng hợp lí cực đại (MLE) biến tiên lượng bị kiểm duyệt bên phải ngẫu nhiên mơ hình ZIP giãn nở số khơng (CZIP) 2.1 Ước lượng hợp lí cực đại mơ hình CZIP Mơ hình ZIP giả thiết biến tiên lượng Zi (chỉ số i kí hiệu cho cá thể i) thỏa mãn: Zi ∼ P(λi ) với xác suất ωi , với xác suất − ωi , (1) với P(λi ) phân phối Poisson, tham số trung bình λi > Dễ thấy, ZIP trở thành mơ hình Poisson ωi = Trong hồi qui ZIP, xác suất trộn ωi tham số trung bình λi xét mơ hình logistic log-linear tương ứng, cụ thể là: logit(ωi (γ)) = γ Wi , (2) log(λi (β )) = β Xi , (3) Xi = (1, Xi2 , , Xip ) Wi = (1,Wi2 , ,Wiq ) véc tơ ngẫu nhiên biến độc lập, β ∈ R p γ ∈ Rq tham số chưa biết; kí hiệu cho tốn tử chuyển vị Giả sử từ mơ hình (1)-(2)-(3) quan sát n vec tơ độc lập (Z1 , X1 , W1 ), , (Zn , Xn , Wn ), xác định không gian xác suất (Ω, C , P) Khi đó, hàm log-hàm hợp lí (β , γ) là: n ∑ 1{Zi =0} log eγ Wi + e− exp(β Xi ) + 1{Zi >0} Zi β Xi − eβ Xi − log(Zi !) − log + eγ Wi i=1 Ước lượng hợp lí cực đại (β , γ) thỏa mãn tính vững tính tiệm cận phân phối chuẩn, xem [14] Giả sử Zi kiểm duyệt bên phải, tức tồn số cá thể i mà ta quan sát cận Zi Điều mô hình cách đưa biến ngẫu nhiên kiểm duyệt Ci Cá thể i xem vec tơ (Zi∗ , δi , Xi , Wi ), http://jst.tnu.edu.vn 232 Email: jst@tnu.edu.vn 226(16): 231 - 238 TNU Journal of Science and Technology với Zi∗ = min(Zi ,Ci ) δi = 1{Zi 0, xét lân cận ψ0 : Nn (ε) = {ψ ∈ C : (ψ − ψ0 ) Fn (ψ − ψ0 ) ε }, Fn kí hiệu cho Fn (ψ0 ) Kết phát biểu nghiệm phương trình (4) tồn tại, vững lân cận Nn (ε) ψ0 n đủ lớn, trước hết ta bổ đề kĩ thuật −1 − 12 Bổ đề 3.1 Giả sử điều kiện D1-D4 Khi supψ∈Nn (ε) Fn Hn (ψ)Fn n → ∞ − Ik hội tụ theo xác suất tới Chứng minh Ta có −1 − 12 Fn Hn (ψ)Fn − Ik = −1 −1 Fn (Hn (ψ) − Fn )Fn , Hn (ψ) − Fn , λmin (Fn ) 1 c1 (Hn (ψ) − E(Hn (ψ))) + c1 (E(Hn (ψ)) − Fn ) , n n (vì D3) Do đó, bổ đề chứng minh ta hai số hạng bên vế phải bất đẳng thức cuối hội tụ theo xác suất tới ψ ∈ Nn (ε) n → ∞ Do đó, ta cần supψ∈Nn (ε) 1n (Hn (ψ) − E(Hn (ψ))) hội tụ theo xác suất tới n → ∞ Ta supψ∈Nn (ε) | 1n (Hn,( ,m) (ψ) − E(Hn,( ,m) (ψ)))| hội tụ tới với ( , m), , m = 1, , k, Hn,( ,m) kí hiệu ( , m) phần tử Hn Ta chứng minh cho trường hợp l, m ∈ {1, , p}, với Hn,( ,m) (ψ) = −∂ n (ψ)/∂ β ∂ βm (các trường hợp khác chứng minh tương tự) Thật vậy, http://jst.tnu.edu.vn 234 Email: jst@tnu.edu.vn TNU Journal of Science and Technology (H n n,( ,m) (ψ) − E(Hn,( ,m) (ψ))) 226(16): 231 - 238 n ∑ {Xi Xim δi Ji ui (ψ) − E [Xi Xim δi Ji ui (ψ)]} n i=1 + n ∑ Xi Xim δi (1 − Ji )λi (β ) − E Xi Xim δi (1 − Ji )λi (β ) n i=1 + n ∑ (1 − δi )(1 − Ji )vi (ψ) − E [(1 − δi )(1 − Ji )vi (ψ)] n i=1 Bây giờ, ta chứng minh sup ψ∈Nn (ε) n ∑ {Xi Xim δi Ji ui (ψ) − E [Xi Xim δi Ji ui (ψ)]} n i=1 hội tụ theo xác suất tới n → ∞ (hai số hạng lại làm tương tự) Để điều ta cần khẳng định lớp {Xi Xim δi Ji ui (ψ) : ψ ∈ C } Donsker (và theo Glivenko-Cantelli hội tụ (theo ψ)) Lớp {Xi Xim δi Ji } hiển nhiên Donsker Dưới điều kiện D1 D2, lớp {β Xi : β ∈ B} {γ Wi : γ ∈ G } Donsker Hàm mũ Lipschitz tập compact lớp {eβ Xi : β ∈ B}, {e− exp(β Xi ) : β ∈ B} {eγ Wi : γ ∈ G } Donsker Hơn nữa, tích tổng lớp Donsker bị chặn Donsker, đó, lớp {Xi Xim δi Ji ui (ψ) : ψ ∈ C } Donsker Vì vậy, sup | ψ∈C n ∑ {Xi Xim δi Ji ui (ψ) − E [Xi Xim δi Ji ui (ψ)]} | n i=1 hội tụ theo xác suất tới n → ∞ Vì Nn (ε) ⊂ C , nên sup | ψ∈Nn (ε) n ∑ {Xi Xim δi Ji ui (ψ) − E [Xi Xim δi Ji ui (ψ)]} | n i=1 hội tụ tới n → ∞ Định lý 3.1 (Tồn nhất) Giả sử điều kiện D1-D4 Khi đó, xác suất ψˆ n tồn nằm Nn (ε) dần tới n → ∞ Hơn nữa, ψˆ n hội tụ theo xác suất tới ψ0 n → ∞ Chứng minh Chứng minh dựa theo [15] kĩ thuật chi tiết khác Hơn nữa, số lập luận dẫn tới chứng minh trực tiếp a) Trước hết, chứng minh tính tồn tiệm cận ψˆ n Ta rằng, với η > 0, tồn ε > n1 ∈ N cho P ( n (ψ) − n (ψ0 ) < 0, ∀ψ ∈ ∂ Nn (ε)) − η, với n n1 , (7) ∂ Nn (ε) = {ψ ∈ C : (ψ − ψ0 ) Fn (ψ − ψ0 ) biên Nn (ε) Điều suy tồn cực đại địa phương n Nn (ε) Tính xác định dương Hn tính lồi C khẳng định cực đại tồn cục Thật (7) tương đương với: η > 0, tồn ε > n1 ∈ N cho = ε 2} P ( n (ψ) − n (ψ0 ) với ψ ∈ ∂ Nn (ε)) η, với n n1 , Xét khai triển Taylor n (ψ) − n (ψ0 ) với ψ˜ = aψ + (1 − a)ψ0 (0 P ( n (ψ) − n (ψ0 ) a ˜ (ψ − ψ0 ) Sn (ψ0 ) − (ψ − ψ0 ) × Hn (ψ)(ψ − ψ0 ) := (ψ − ψ0 ) Sn (ψ0 ) − Qn (ψ), = 1), đặt < c < 12 Ta có: 0, với ψ ∈ ∂ Nn (ε)) = P (ψ − ψ0 ) Sn (ψ0 ) +P (ψ − ψ0 ) Sn (ψ0 ) Qn (ψ) Qn (ψ) > cε , với ψ ∈ ∂ Nn (ε) Qn (ψ) Qn (ψ) cε , với ψ ∈ ∂ Nn (ε) P (A) + P (B) , http://jst.tnu.edu.vn 235 Email: jst@tnu.edu.vn 226(16): 231 - 238 TNU Journal of Science and Technology A = {(ψ − ψ0 ) Sn (ψ0 ) > cε , với ψ ∈ ∂ Nn (ε)} B = {Qn (ψ) cε , với ψ ∈ ∂ Nn (ε)} tương ứng Đặt un (ψ) = ε1 Fn (ψ − ψ0 ) Khi −1 A = {un (ψ) Fn Sn (ψ0 ) > cε, với ψ ∈ ∂ Nn (ε)}, ⊆ { −1 |un (ψ) Fn Sn (ψ0 )| > cε}, sup un (ψ) =1 −1 = { Fn Sn (ψ0 ) > cε} −1 −1 Suy P(A) P( Fn Sn (ψ0 ) > cε) Từ Định lý 1.5 [16], E Fn Sn (ψ0 ) Chebyshev suy k P(A) 2k ηc2 Cuối cùng, đặt ε = B nên P(B) suy P(A) c2 ε η/2 Lại có: = ˜ (ψ − ψ0 ) Hn (ψ)(ψ − ψ0 ) = −1 −1 ˜ n un (ψ) un (ψ) Fn Hn (ψ)F ⊆ −1 −1 ˜ n λmin Fn Hn (ψ)F = −1 −1 ˜ n λmin Fn Hn (ψ)F −1 cε , với ψ ∈ ∂ Nn (ε) , c, với ψ ∈ ∂ Nn (ε) , c, với ψ ∈ ∂ Nn (ε) , un (ψ) un (ψ) c, với ψ ∈ ∂ Nn (ε) −1 −1 ˜ n 2) P(∃ ψ ∈ ∂ Nn (ε) : λmin (Fn Hn (ψ)F − 12 2c) Theo Bổ đề 3.1 trên, Fn Hn (ψ)Fn theo xác suất tới Ik ψ ∈ Nn (ε), n → ∞ Do đó, theo [17], xác suất tới ψ ∈ Nn (ε), n → ∞ Nếu ψ˜ = aψ + (1 − a)ψ0 (0 a 1) ψ ∈ Nn (ε) −1 −1 λmin (Fn Hn (ψ)Fn ) Fn2 (ψ˜ − ψ0 ) = k bất đẳng thức hội tụ hội tụ theo Fn2 (aψ + (1 − a)ψ0 − ψ0 ) = a Fn2 (ψ − ψ0 ) , = Fn2 (ψ − ψ0 ) −1 ε, −1 ˜ n ) hội tụ theo xác suất tới n → ∞, vì ψ˜ ∈ Nn (ε) Từ suy λmin (Fn Hn (ψ)F −1 −1 ˜ n ) − 1| |λmin (Fn Hn (ψ)F −1 −1 sup |λmin (Fn Hn (ψ)Fn ) − 1| ψ∈Nn (ε) −1 −1 ˜ n 2) Do đó, với n đủ lớn (ví dụ, n n1 ), P(∃ ψ ∈ ∂ Nn (ε) cho λmin (Fn Hn (ψ)F Điều suy P(B) η/2 Từ đó, P ( n (ψ) − n (ψ0 ) 0, với ψ ∈ ∂ Nn (ε)) P (A) + P (B) Vậy chứng minh (7), tức tồn cực đại tồn cục n 2c) η/2, 2c < η, Nn (ε) b) Trở lại với tính vững ψˆ n Ta có: λmin (Fn ) ψˆ n − ψ0 = (ψˆ n − ψ0 ) λmin (Fn )Ik (ψˆ n − ψ0 ), (ψˆ n − ψ0 ) Fn (ψˆ n − ψ0 ), = Fn2 (ψˆ n − ψ0 ) ε 2, với xác suất dần tới n → ∞, theo a) Từ điều kiện D3, λmin (Fn ) dần tới ∞ n → ∞ Do ψˆ n − ψ0 hội tụ tới với xác suất dần tới n → ∞, dẫn tới điều phải chứng minh http://jst.tnu.edu.vn 236 Email: jst@tnu.edu.vn 226(16): 231 - 238 TNU Journal of Science and Technology Kết thứ hai là: Định lý 3.2 (Tiệm cận chuẩn) Giả sử điều kiện D1-D4 Khi Fn2 (ψˆ n − ψ0 ) hội tụ theo phân phối tới vector Gaussian N (0, Ik ), n → ∞ Chứng minh Chứng minh dựa theo chứng minh tiệm cận chuẩn MLE hồi qui Poisson tổng quát giãn nở số không không kiểm duyệt [18] Tuy nhiên, tác giả sử dụng điều kiện định lí giới hạn trung tâm Lyapunov, cịn chúng tơi dựa vào điều kiện yếu Lindeberg, điều mang lại chứng minh ngắn nhiều −1 Trước hết, ta chứng minh tính tiệm cận chuẩn vector chuẩn hóa Fn Sn , Sn kí hiệu cho Sn (ψ0 ) −1 Đặt u vector Rk , ta u Fn Sn hội tụ theo phân phối tới N (0, u u) (khơng tính tổng qt, ta giả sử u = 1) Từ (5) (6), ta ý Sn viết lại thành tổng vector ngẫu nhiên độc lập k-chiều Sn,i = (Sn,i,1 , , Sn,i,k ) , Sn = ∑ni=1 Sn,i Dễ thấy điều kiện D1, D2 D4, thành phần Sn,i bị chặn đại lượng dương khơng đổi c2 đó, tức là, |Sn,i, | < c2 , = 1, , k Do đó, Sn,i < c3 := kc22 Đặt −1 − 12 u Fn Sn = u Fn Khi ∗ )=0 E(Sn,i ∗ ) = var(∑ni=1 Sn,i n n i=1 i=1 ∗ ∑ Sn,i := ∑ Sn,i Bây giờ, ta xác nhận điều kiện Lindeberg, cụ thể: n ∗2 ∗ |>ε} → n → ∞ với ε > 0, ∑ E Sn,i 1{|Sn,i i=1 Xét ε > 0, ta có: n ∑E i=1 n ∗2 ∗ |>ε} Sn,i 1{|Sn,i điều kiện D3 Vì ∑E i=1 ∗ | > ε} {|Sn,i n ∑E i=1 u − 12 Fn ∗ |>ε} Sn,i 1{|Sn,i c1 c3 n ∑ E(1{|Sn,i∗ |>ε} ), n i=1 ∗ |>ε} suy {λmin (Fn ) < c3 /ε }, đó, 1{|Sn,i ∗2 ∗ |>ε} Sn,i 1{|Sn,i 1{λmin (Fn )