m, là tổng của cột j e Ham log-likelihood sao cho các thuật ngữ không liên quan đến tham số Mi: wy = x 2.1 yy log uj se Ước lượng Hị bằng cách tối đa hóa hàm log-likelihood cho phân phố
Trang 1BAO CAO MON HOC
Nhập môn Mô hình hóa Thắng kê
TÊN ĐÈ TÀI:
Mô hình Hải quy Tuyến tính Tổng quát với phân phối nhị thức
Giảng viên: TS Phạm Đình Tùng Nhóm sinh viên thực hiện:
STT Họ và tên MSSV
1 Nguyễn Thị Ngọc Uyên 23007930
2 Bui Pham Hai Ha 23007949
3 Nguyén Van Huy
5 Ly Duc Trung
6 Nguyén Quéc Trung
Trang 2
1.6 Median Effective Dose, ED5 uc ng tt kg 2
1.7 The Complementary Log-Log Link in Assay Analysis 2 1.8 OVWerdiSD€FSỈON Ăn HH HH HH HH KH HH hiện 2
19 When Wald Tests FFaÌl ch HH HH HH kh kkk 2 1.10 No Goodness-of-Fit for Binary Responses che 2 1.11 Case S[UOV SH HH HH HH HH HH it
CHUONG 2_ : POISSON AND NEGATIVE BINOMINAL GLMS 2 P¬ GIGTTNIGU .Ö 2
2.2 — Summary of Poisson GLMS ch HH HH tệp 2 2.3 ModellinQ ra†©S HH Hà Hà HH HH KH Hư ĐH 2 2.4 Contigency tables : log-linear modelS nhe 2
ĐH 0000) 00 6 .4a 2 2.4.2 Two Dimensional Tables: Systematic Componeni - - 2
2.4.3 Bảng hai chiều : Thành phần ngẫu nhiên c:ccccccccscccsersrrrer 2 2.4.4 Bảng ba chiều tt tt tre 6
2.4.5 Nghịch lý của SiITIDSON LH HH HH HH Hệ 14
MỤC LỤC
Trang 32.4.6 Equivalence of Binomial and Poisson GLMs HH TK HT HT HH TH HT 18
2.4.7 Higher-Order Tabl@S§ - ác nh HH HH HT HH HH HH Triệt 18 2.4.8 Structural Zeros in Contingency Tables - che 18 2.5 OVerdiSDerSỈOP LH HH HH HH HH HH kiệt 18 2.5.1 Overdispersion for Poisson GLÍMS ch Hee 18 2.5.2_ Negative Binomial GLÍMS cà HH nh HH HH nhe 18
Trang 4LỜI MỞ ĐẦU
Viết ngắn gọn nội dung của đồ án theo sự hướng dẫn của GVHD Phân mở dau can nêu
được các ý: đề tài tìm hiệu, nghiên cứu, vấn đề cần thực hiện; phương pháp thực hiện (néu có); lý do lựa chọn đề tài; kết quá tìm hiểu (nghiên cứu) của nhóm sinh viên thực hiện đồ
án có phù hợp với các vấn đề đã đặt ra hay không; tính thực tế của đồ án (với các đề tài nghiên cứu ứng dụng) định hướng phát triên mở rộng của đỗ án (néu có); các kiến thức và
kỹ năng mà sinh viên đã đạt được
Trang 1
Trang 5CHUONG 1 MODELS FOR PROPORTIONS : BINOMINAL GLMS
1.1 Giới thiệu
1.2 Modelling proportions
1.3 Link functions
1.4 Tolerance Distributions and the Probit Link
1.5 Odds, Odds Ratios and the Logit Link
1.6 Median Effective Dose, ED50
1.7 The Complementary Log-Log Link in Assay Analysis
1.8 Overdispersion
1.9 When Wald Tests Fail
1.10 No Goodness-of-Fit for Binary Responses
2.4.2 Two Dimensional Tables: Systematic Component
2.4.3 Bảng hai chiều : Thanh phan ngẫu nhiên
Khi thu thập mẫu, bảng thu thập mẫu có thể có 3 trường hợp xảy ra:
e Không có định hàng hoặc cột
e _ Tống số quan sát có định
e Tống số hàng là có định ho ặc tông só cột là có định
Trang 2
Trang 62.4.3.1 Không có định số hàng hoặc số cột
Ví dụ bảng sau là dữ liệu được thu thập từ tháng 12/1996 đến tháng 01/1997 bao gồm một bảng hai chiều đối chiếu thái độ của người Úc đối với thực phẩm biến đổi gen (GM) (yếu tó A) theo thu nhập của họ (yếu tó B)
High incomel Low income| Total (X2 = 0) (X2 = 1)
Trang 7Total 414 480 | 894 |
Mac dù số lượng quan sát có thẻ thay đổi tự do trong bảng, nhưng tổng số lượng quan
sát nhận được là 894
=> Sử dụng hàm phân phối đa thức
Đối với bảng 2 x 2, hàm xác suát cho phân phối da thức là:
PV Yaz» YouY225 H11; H12; Hạ1› Hz;) “ra (2) (“+ (=)
Ham log-likelihood co céng thire nhu sau: (Bo quan thuat ngir lién quan dén jy):
2.4.3.3 Téng hang hoac téng cét cé dinh
Ví dụ các nhà nghiên cứu có thê đã quyết định phỏng van 480 người thu nhập thấp và
414 người thu nhập cao, ghi lại thái độ của họ đối với thực phâm biên đổi gen Trong trường hợp này, như vậy số người có thu nhập cao phản đối thực pham gm chỉ được biết khi số người có thu nhập cao ủng hộ thực phẩm gm được biết và ngược lại
Trang 8
Total 414 480 | 894 |
Phân phối đa thức áp dụng riêng biệt đói với mỗi cột của bảng vì số lượng trong mỗi cột
được có định và không ngẫu nhiên
Giả sử só quan sát ở mỗi cột là độc lập với nhau, khi đó hàm xác suất có công thức như
se m, là tổng của cột j
e Ham log-likelihood sao cho các thuật ngữ không liên quan đến tham số Mi:
wy) = x 2.1 (yy log uj)
se Ước lượng Hị bằng cách tối đa hóa hàm log-likelihood cho phân phối đa
thức để đảm bảo tổng số lượng cột hoặc hàng là cố định:
YEH = my va >7 Hig = M2
i=1
Phan phối Poisson có thể được sử dụng dé mô hình hóa dữ liệu, nếu các hệ số ứng với từng
hàng trong tổ hợp tuyến tính của các biến độc lập và các hệ số này phái đảm báo:
mạ¡=X2-1 Ÿiz= y? fli
Hệ số chặn Bạ trong mô hình phải đảm bao Y yi1 = L_, flit va vi vậy, tang sé hang la of định
Trang 5
Trang 9Khi tổng cột là có định, mô hình Poisson GLM phù hợp Nếu cả tông hàng và tổng cột đều là
có định, mô hình Poisson GLM cũng phù hợp nếu các hệ số tương ứng với tổng hàng và tông cột
có mặt trong biến dự đoán tuyến tính Nhận xét trên có thể được mở rộng cho các bảng lớn hơn
=> Mô hình Poisson GLM có thể phù hợp với bảng dữ liệu thống kê nếu có tổng theo
hàng hoặc cột được giữ có định, thì các hệ số liên quan đến tổng này cần được bao gồm trong mô các hệ số liên quan đến tổng theo hàng hoặc tổng theo cột trong mô hình tuyến tinh ty 18 Poisson dé mô phỏng mối quan hệ giữa các biến độc lập và các tổng này Các
hệ số này giúp mô hình dự đoán cách mỗi biến ảnh hưởng đến tổng theo hàng hoặc tổng theo cột của bảng phân phối
2.4.4 Bang ba chiều
2.4.4.1 Khái niệm
Bang ba chiều (Three-dimensional Tables) là một dạng của bang phân loại dữ liệu, trong đó chúng ta xem xét ba yêu tố (thường được ký hiệu là A, B và ©) và phân loại các
quan sát dựa trên các cấp độ của ba yếu tố này
Hình 1 : 72h biểu đồ ba chiều thể hiện mới quan hệ giữa tuổi ứác, kích thước của
Sừng và tương tác giữa chúng
Trang 6
Trang 102.4.4.2 Ba yếu tố độc lập với nhau
Nếu A,B và C là độc lập với nhau thì x: = mi» x 2 xX ak , theo thang logarit:
log pik = log ai + ÍOQ x-j + ÍOQ z Với Lik = M rik
= Đây là độc lập với nhau
Cũng giống như trong trường hợp các bảng hai chiều, việc bao gồm các thành phân của mô hình thống kê đảm bảo một cách hiệu quả răng tông các giá trị trong cột hoặc trong hang của bảng là có định Nêu mô hình độc lập tương quan chéo là thích hợp, thì nhìn tổng
quan và phân phối của dữ liệu mà không can phải xem xét từng ô cụ thề trong bảng
Ví dụ: Đối với dữ liệu sỏi thận, mô hình tự do tương hỗ cho rằng thành công hoặc thất bại không phụ thuộc vào phương pháp sử dụng cũng như không phụ thuộc vào kích thước của sỏi thận, và phương pháp sử dụng cũng không phụ thuộc vào kích thước của sỏi
thận
rge stones
0
Việc áp dụng mô hình này giả định tý lệ bằng nhau được su dung cho mỗi biến riêng
biệt Nói cách khác, tỷ lệ bằng nhau của bệnh nhân ở mỗi phương pháp; 138/700 = 19.7%
tat cả các phương pháp điều trị thất bại; 343/700 = 49.0% bệnh nhân có sỏi thận kích thước
Trang 11$ Method : Factor w/ 2 levels "A","B": 1122112 2
$ Outcome: Factor w/ 2 levels "Failure","Success": 2121212 1
> ks.mutind <- glm( Counts ~ Size + Method + Outcome,
(Intercept) SizeSmal 1 MethodB OutcomeSuccess
3.521e+00 4.001e-02 -6.171e-16 1.404e+00
Degrees of Freedom: 7 Total (i.e Null); 4 Residual
Null Deviance: 510.1
Residual Deviance: 234.4 AIC: 289.2
2.4.4.3 Déc lap mot phan
Giả sử A và B không độc lập, nhưng cả 2 đều độc lập với C khi đó, ta có: ik = nije x
ak hoac , theo thang logarit: log pix = log m+ log aij + log x
Do A và B không độc lập, xij £ mis x 2)
Cũng giống như trong trường hợp các bảng hai chiều, việc bao gồm các thành phan của mô hình thống kê đảm bảo một cách hiệu quả răng tông các giá trị trong cột hoặc trong hang của bảng là có định
M6 hinh dé xuat nhw sau: log pik = log m + log zi- + 10g pj + LOG mK + 10g Zi
= Độc lập 1 phan
Ví dụ với dữ liệu sỏi thận ở mục 2.4.4.2 thì mô hình phù hợp được code như sau:
> ks.SM <- glm( Counts ~ Size * Method + Outcome,
Trang 12Residual Deviance: 33.12 AIC: 89.85
> ks.SO <- update(ks.SM, ~ Size * Outcome + Method)
Degrees of Freedom: 7 Total (i.e Null); 3 Residual
Null Deviance: 510.1
Residual Deviance: 204.8 AIC: 261.5
> ks.OM <- update(ks.SM, ~ Outcome * Method + Size)
Degrees of Freedom: 7 Total (i.e Null); 3 Residual
Null Deviance: 510.1
Residual Deviance: 232.1 AIC: 288.8
Trang 9
Trang 132.4.4.4 Độc lập có điều kiện
Giả sử A và B độc lập với nhau khi được xem xét riêng biệt với mỗi cấp độ của C
Xác suất của mỗi yêu tố (z) khi biết giá trị của biến k được tính toán dựa trên tổng biên
‘Tijlk = Risk X Tejlk
Mỗi xác suất có điều kiện có thê được viết lại dưới dạng tổng biÊn: mịk Aik / Kk} Tik = Tick / Meek} Tek = Wek / Tek
Từ đó, ta có:
Ztk = (i-lk X Welk) Meek = Wick Mejk / 7k
Theo thang logarit, log pix = log m + log mix + 10g 2K — 10g 2.-k
M6 hinh nhu sau: log pik = log M + log ais + logz.j + OG mK + 1OG rik + 10 a jK
=> Độc lập có điều kiện Nếu một mô hình độc lập có điều kiện là phù hợp, thì mỗi bảng hai chiều cho mỗi cấp độ của C khi xem xét riêng biệt sẽ cho tháy sự độc lập giữa A và B
Dữ liệu có thể được hiệu bằng cách tạo ra các bảng riêng biệt liên quan đến các yéu tó A
và B, một bảng cho mỗi cấp độ của C
Ví dụ với dữ liệu sỏi thận ở mục 2.4.4.2 thì mô hình phù hợp được code như sau:
> ks.nomMo <- glm(C Counts ~ Size * (Method + Outcome),
Trang 14> ks.noOS <- update(Cks.noMO, ~ Method * COutcome + Size) )
Degrees of Freedom: 7 Total (i.e Null); 2 Residual
Null Deviance: 510.1
Residual Deviance: 30.81 AIC: 89.53
> ks.noMS <- update(ks.nomMO, ~ Outcome * (Method + Size) )
3.9809 0.8065 -0
2329 -0.8267 0.2899 1 0699
Degrees of Freedom: 7 Total (i.e Null); 2 Residual
Null Deviance: 510.1
Residual Deviance: 202.4 AIC: 261.2
2.4.4.5 Tương quan đồng đều
Uniform Association là trường hợp cả 3 tương tác 2 yêu tố đều tồn tại nhưng không
tén tai 3 yéu té A,B,C
Trang 11
Trang 15=> Mỗi tương tác hai yếu tô không bị ảnh hưởng bởi cấp độ của yếu tó thứ ba Do đó,
mô hình không thẻ được diễn giải một cách đầy đủ băng các khái niệm về độc lập hoặc
tổng của các giá trị trong cột hoặc trong hang của bảng
Mô hình chứa tất cả các tương tác 2 yếu tố như sau: log ø¡x = log m + log z¡ + l0gm-j
+ 10g nx + ÍOQ 7i + ÍOQ zị + ÏOQ %-jk
=> Tương quan đồng đều
Ví dụ với dữ liệu sỏi thận ở mục 2.4.4.2 thì mô hình phù hợp được code như sau:
> ks.no3 <- gÏmC Counts ~ Size*Method*Outcome - Size:Method:Outcome,
4.2345 -2.1585 -0
9397 1.0332 2.3908 1 2606
MethodB: OutcomeSuccess
-0.3572 Degrees of Freedom: 7 Total (i.e Null); 1 Residual
Null Deviance: 510.1
Residual Deviance: 1.008 AIC: 61.73
2.4.4.6 Mô hình bão hòa
Nếu các thuật ngữ tương tác đều cần thiết trong mô hình tuyến tính, thì mô hình phù
hợp chính là mô hình bão hòa
Mô hình gồm tat ca cac tong tac nhw sau: log pik = log m + log zi + lOQ z-j: + log Tek + 1OQ Tick + 1OG xk + 1OG œụ- + ÍOQ Ziịk
Trang 12
Trang 16=> Mô hình bão hòa
Mô hình có độ lệch phần dư (residual deviance) băng0 và bậc tự do phần dư (residual
Degrees of Freedom: 7 Total (i.e Null); O Residual
Null Deviance: 510.1
Residual Deviance: -2.931e-14 AIC: 62.72
> c€ deviance( ks.all ), df.residual(ks.all) )
[1] -2.930989e-14 0.000000e+00
Điều này có nghĩa là có nhiều ước tính tham số bằng số ô trong bang va do đó dữ liệu
không thê được tóm tắt bằng cách sử dụng một bộ hệ số nhỏ hơn Nếu mô hình bão hòa là
phù h ợp thì dữ liệu không thê được trình bày ở dạng đơn giản hơn so với bảng l x J x K ban đầu
2.4.4.7 So sánh các mô hình
Khi min{y;} > 3, phương pháp saddlepoint được coi là chính xác đủ để sử dụng các
bài kiểm tra mức độ phù hợp đề kiêm tra và so sánh các mô hình
Trang 13
Trang 17Ví dụ với dữ liệu sói thận ở mục 2.4.4.2:
e Mô hình độc lập lẫn nhau và mô hình độc lập một phản là không phù hợp vì độ lệch còn lại vượt xa mức độ tự do còn lại Mô hình ks.noMO được xác định là
mô hình phù h ợp nhất cho bộ dữ liệu này
e - Dữ liệu được hiệu tốt nhát bằng cách tạo bảng riêng biệt cho sỏi thận lớn và
nhỏ, không nên két hợp dữ liệu của hai loại sỏi thận này
2.4.5 Nghịch lý của Simpson
2.4.5.1 Khái niệm
Là khi két hợp xác suất của nhiều yếu tố lại với nhau thì xu hướng của từng sự kiện riêng lẻ sẽ biến mắt, khi điều này xảy ra, xu hướng của xác suất tổng hợp đôi lúc có thê mâu thuẫn với xu hướng riêng của mỗi yéu tó
Điều này xảy ra khi số lượng của các nhóm yêu tố không đồng đều Một nghiên cứu
vô tình (hoặc có tình) chọn số bệnh nhân làm sao đê có thê kết luận răng một phương pháp điều trị (thực chát là có hại) trông có vẻ có lợi
2.4.5.2 Ví dụ minh họa
24.5.2.1 Ví dụ 1
Thí nghiệm sử dụng phương pháp giảm thiêu định kiến và thiên vị cho người tham
gia về một phương pháp điều trị y khoa được đề Xuất sau đây Một nhóm gồm có 120 bệnh
nhân (được chia thành các nhóm nhỏ 10, 20, 30 và 60 người) được điều trị, và một nhóm 120b ệnh nhân khác (được chia thành các nhóm nhỏ tương ứng 60, 30, 20 và 10 người)
không được điều trị
Két quả tổng hợp cho tháy việc điều trị có lợi cho bệnh nhân với tỷ lệ hồi phục cao hơn những bệnh nhân không được điều trị
Trang 14