Báo cáo môn học nhập môn mô hình hóa thống kê tên Đề tài mô hình hồi quy tuyến tính tổng quát với phân phối nhị thức

m, là tổng của cột j e Ham log-likelihood sao cho các thuật ngữ không liên quan đến tham số Mi: wy = x 2.1 yy log uj se Ước lượng Hị bằng cách tối đa hóa hàm log-likelihood cho phân phố

Trang 1

BAO CAO MON HOC

Nhập môn Mô hình hóa Thắng kê

TÊN ĐÈ TÀI:

Mô hình Hải quy Tuyến tính Tổng quát với phân phối nhị thức

Giảng viên: TS Phạm Đình Tùng Nhóm sinh viên thực hiện:

STT Họ và tên MSSV

1 Nguyễn Thị Ngọc Uyên 23007930

2 Bui Pham Hai Ha 23007949

3 Nguyén Van Huy

5 Ly Duc Trung

6 Nguyén Quéc Trung

Trang 2

1.6 Median Effective Dose, ED5 uc ng tt kg 2

1.7 The Complementary Log-Log Link in Assay Analysis 2 1.8 OVWerdiSD€FSỈON Ăn HH HH HH HH KH HH hiện 2

19 When Wald Tests FFaÌl ch HH HH HH kh kkk 2 1.10 No Goodness-of-Fit for Binary Responses che 2 1.11 Case S[UOV SH HH HH HH HH HH it

CHUONG 2_ : POISSON AND NEGATIVE BINOMINAL GLMS 2 P¬ GIGTTNIGU .Ö 2

2.2 — Summary of Poisson GLMS ch HH HH tệp 2 2.3 ModellinQ ra†©S HH Hà Hà HH HH KH Hư ĐH 2 2.4 Contigency tables : log-linear modelS nhe 2

ĐH 0000) 00 6 .4a 2 2.4.2 Two Dimensional Tables: Systematic Componeni - - 2

2.4.3 Bảng hai chiều : Thành phần ngẫu nhiên c:ccccccccscccsersrrrer 2 2.4.4 Bảng ba chiều tt tt tre 6

2.4.5 Nghịch lý của SiITIDSON LH HH HH HH Hệ 14

MỤC LỤC

Trang 3

2.4.6 Equivalence of Binomial and Poisson GLMs HH TK HT HT HH TH HT 18

2.4.7 Higher-Order Tabl@S§ - ác nh HH HH HT HH HH HH Triệt 18 2.4.8 Structural Zeros in Contingency Tables - che 18 2.5 OVerdiSDerSỈOP LH HH HH HH HH HH kiệt 18 2.5.1 Overdispersion for Poisson GLÍMS ch Hee 18 2.5.2_ Negative Binomial GLÍMS cà HH nh HH HH nhe 18

Trang 4

LỜI MỞ ĐẦU

Viết ngắn gọn nội dung của đồ án theo sự hướng dẫn của GVHD Phân mở dau can nêu

được các ý: đề tài tìm hiệu, nghiên cứu, vấn đề cần thực hiện; phương pháp thực hiện (néu có); lý do lựa chọn đề tài; kết quá tìm hiểu (nghiên cứu) của nhóm sinh viên thực hiện đồ

án có phù hợp với các vấn đề đã đặt ra hay không; tính thực tế của đồ án (với các đề tài nghiên cứu ứng dụng) định hướng phát triên mở rộng của đỗ án (néu có); các kiến thức và

kỹ năng mà sinh viên đã đạt được

Trang 1

Trang 5

CHUONG 1 MODELS FOR PROPORTIONS : BINOMINAL GLMS

1.1 Giới thiệu

1.2 Modelling proportions

1.3 Link functions

1.4 Tolerance Distributions and the Probit Link

1.5 Odds, Odds Ratios and the Logit Link

1.6 Median Effective Dose, ED50

1.7 The Complementary Log-Log Link in Assay Analysis

1.8 Overdispersion

1.9 When Wald Tests Fail

1.10 No Goodness-of-Fit for Binary Responses

2.4.2 Two Dimensional Tables: Systematic Component

2.4.3 Bảng hai chiều : Thanh phan ngẫu nhiên

Khi thu thập mẫu, bảng thu thập mẫu có thể có 3 trường hợp xảy ra:

e Không có định hàng hoặc cột

e _ Tống số quan sát có định

e Tống số hàng là có định ho ặc tông só cột là có định

Trang 2

Trang 6

2.4.3.1 Không có định số hàng hoặc số cột

Ví dụ bảng sau là dữ liệu được thu thập từ tháng 12/1996 đến tháng 01/1997 bao gồm một bảng hai chiều đối chiếu thái độ của người Úc đối với thực phẩm biến đổi gen (GM) (yếu tó A) theo thu nhập của họ (yếu tó B)

High incomel Low income| Total (X2 = 0) (X2 = 1)

Trang 7

Total 414 480 | 894 |

Mac dù số lượng quan sát có thẻ thay đổi tự do trong bảng, nhưng tổng số lượng quan

sát nhận được là 894

=> Sử dụng hàm phân phối đa thức

Đối với bảng 2 x 2, hàm xác suát cho phân phối da thức là:

PV Yaz» YouY225 H11; H12; Hạ1› Hz;) “ra (2) (“+ (=)

Ham log-likelihood co céng thire nhu sau: (Bo quan thuat ngir lién quan dén jy):

2.4.3.3 Téng hang hoac téng cét cé dinh

Ví dụ các nhà nghiên cứu có thê đã quyết định phỏng van 480 người thu nhập thấp và

414 người thu nhập cao, ghi lại thái độ của họ đối với thực phâm biên đổi gen Trong trường hợp này, như vậy số người có thu nhập cao phản đối thực pham gm chỉ được biết khi số người có thu nhập cao ủng hộ thực phẩm gm được biết và ngược lại

Trang 8

Total 414 480 | 894 |

Phân phối đa thức áp dụng riêng biệt đói với mỗi cột của bảng vì số lượng trong mỗi cột

được có định và không ngẫu nhiên

Giả sử só quan sát ở mỗi cột là độc lập với nhau, khi đó hàm xác suất có công thức như

se m, là tổng của cột j

e Ham log-likelihood sao cho các thuật ngữ không liên quan đến tham số Mi:

wy) = x 2.1 (yy log uj)

se Ước lượng Hị bằng cách tối đa hóa hàm log-likelihood cho phân phối đa

thức để đảm bảo tổng số lượng cột hoặc hàng là cố định:

YEH = my va >7 Hig = M2

i=1

Phan phối Poisson có thể được sử dụng dé mô hình hóa dữ liệu, nếu các hệ số ứng với từng

hàng trong tổ hợp tuyến tính của các biến độc lập và các hệ số này phái đảm báo:

mạ¡=X2-1 Ÿiz= y? fli

Hệ số chặn Bạ trong mô hình phải đảm bao Y yi1 = L_, flit va vi vậy, tang sé hang la of định

Trang 5

Trang 9

Khi tổng cột là có định, mô hình Poisson GLM phù hợp Nếu cả tông hàng và tổng cột đều là

có định, mô hình Poisson GLM cũng phù hợp nếu các hệ số tương ứng với tổng hàng và tông cột

có mặt trong biến dự đoán tuyến tính Nhận xét trên có thể được mở rộng cho các bảng lớn hơn

=> Mô hình Poisson GLM có thể phù hợp với bảng dữ liệu thống kê nếu có tổng theo

hàng hoặc cột được giữ có định, thì các hệ số liên quan đến tổng này cần được bao gồm trong mô các hệ số liên quan đến tổng theo hàng hoặc tổng theo cột trong mô hình tuyến tinh ty 18 Poisson dé mô phỏng mối quan hệ giữa các biến độc lập và các tổng này Các

hệ số này giúp mô hình dự đoán cách mỗi biến ảnh hưởng đến tổng theo hàng hoặc tổng theo cột của bảng phân phối

2.4.4 Bang ba chiều

2.4.4.1 Khái niệm

Bang ba chiều (Three-dimensional Tables) là một dạng của bang phân loại dữ liệu, trong đó chúng ta xem xét ba yêu tố (thường được ký hiệu là A, B và ©) và phân loại các

quan sát dựa trên các cấp độ của ba yếu tố này

Hình 1 : 72h biểu đồ ba chiều thể hiện mới quan hệ giữa tuổi ứác, kích thước của

Sừng và tương tác giữa chúng

Trang 6

Trang 10

2.4.4.2 Ba yếu tố độc lập với nhau

Nếu A,B và C là độc lập với nhau thì x: = mi» x 2 xX ak , theo thang logarit:

log pik = log ai + ÍOQ x-j + ÍOQ z Với Lik = M rik

= Đây là độc lập với nhau

Cũng giống như trong trường hợp các bảng hai chiều, việc bao gồm các thành phân của mô hình thống kê đảm bảo một cách hiệu quả răng tông các giá trị trong cột hoặc trong hang của bảng là có định Nêu mô hình độc lập tương quan chéo là thích hợp, thì nhìn tổng

quan và phân phối của dữ liệu mà không can phải xem xét từng ô cụ thề trong bảng

Ví dụ: Đối với dữ liệu sỏi thận, mô hình tự do tương hỗ cho rằng thành công hoặc thất bại không phụ thuộc vào phương pháp sử dụng cũng như không phụ thuộc vào kích thước của sỏi thận, và phương pháp sử dụng cũng không phụ thuộc vào kích thước của sỏi

thận

rge stones

0

Việc áp dụng mô hình này giả định tý lệ bằng nhau được su dung cho mỗi biến riêng

biệt Nói cách khác, tỷ lệ bằng nhau của bệnh nhân ở mỗi phương pháp; 138/700 = 19.7%

tat cả các phương pháp điều trị thất bại; 343/700 = 49.0% bệnh nhân có sỏi thận kích thước

Trang 11

$ Method : Factor w/ 2 levels "A","B": 1122112 2

$ Outcome: Factor w/ 2 levels "Failure","Success": 2121212 1

> ks.mutind <- glm( Counts ~ Size + Method + Outcome,

(Intercept) SizeSmal 1 MethodB OutcomeSuccess

3.521e+00 4.001e-02 -6.171e-16 1.404e+00

Degrees of Freedom: 7 Total (i.e Null); 4 Residual

Null Deviance: 510.1

Residual Deviance: 234.4 AIC: 289.2

2.4.4.3 Déc lap mot phan

Giả sử A và B không độc lập, nhưng cả 2 đều độc lập với C khi đó, ta có: ik = nije x

ak hoac , theo thang logarit: log pix = log m+ log aij + log x

Do A và B không độc lập, xij £ mis x 2)

Cũng giống như trong trường hợp các bảng hai chiều, việc bao gồm các thành phan của mô hình thống kê đảm bảo một cách hiệu quả răng tông các giá trị trong cột hoặc trong hang của bảng là có định

M6 hinh dé xuat nhw sau: log pik = log m + log zi- + 10g pj + LOG mK + 10g Zi

= Độc lập 1 phan

Ví dụ với dữ liệu sỏi thận ở mục 2.4.4.2 thì mô hình phù hợp được code như sau:

> ks.SM <- glm( Counts ~ Size * Method + Outcome,

Trang 12

> ks.SO <- update(ks.SM, ~ Size * Outcome + Method)

> ks.OM <- update(ks.SM, ~ Outcome * Method + Size)

Trang 9

Trang 13

2.4.4.4 Độc lập có điều kiện

Giả sử A và B độc lập với nhau khi được xem xét riêng biệt với mỗi cấp độ của C

Xác suất của mỗi yêu tố (z) khi biết giá trị của biến k được tính toán dựa trên tổng biên

‘Tijlk = Risk X Tejlk

Mỗi xác suất có điều kiện có thê được viết lại dưới dạng tổng biÊn: mịk Aik / Kk} Tik = Tick / Meek} Tek = Wek / Tek

Từ đó, ta có:

Ztk = (i-lk X Welk) Meek = Wick Mejk / 7k

Theo thang logarit, log pix = log m + log mix + 10g 2K — 10g 2.-k

M6 hinh nhu sau: log pik = log M + log ais + logz.j + OG mK + 1OG rik + 10 a jK

=> Độc lập có điều kiện Nếu một mô hình độc lập có điều kiện là phù hợp, thì mỗi bảng hai chiều cho mỗi cấp độ của C khi xem xét riêng biệt sẽ cho tháy sự độc lập giữa A và B

Dữ liệu có thể được hiệu bằng cách tạo ra các bảng riêng biệt liên quan đến các yéu tó A

và B, một bảng cho mỗi cấp độ của C

> ks.nomMo <- glm(C Counts ~ Size * (Method + Outcome),

Trang 14

> ks.noOS <- update(Cks.noMO, ~ Method * COutcome + Size) )

> ks.noMS <- update(ks.nomMO, ~ Outcome * (Method + Size) )

3.9809 0.8065 -0

2329 -0.8267 0.2899 1 0699

2.4.4.5 Tương quan đồng đều

Uniform Association là trường hợp cả 3 tương tác 2 yêu tố đều tồn tại nhưng không

tén tai 3 yéu té A,B,C

Trang 11

Trang 15

=> Mỗi tương tác hai yếu tô không bị ảnh hưởng bởi cấp độ của yếu tó thứ ba Do đó,

mô hình không thẻ được diễn giải một cách đầy đủ băng các khái niệm về độc lập hoặc

tổng của các giá trị trong cột hoặc trong hang của bảng

Mô hình chứa tất cả các tương tác 2 yếu tố như sau: log ø¡x = log m + log z¡ + l0gm-j

+ 10g nx + ÍOQ 7i + ÍOQ zị + ÏOQ %-jk

=> Tương quan đồng đều

> ks.no3 <- gÏmC Counts ~ Size*Method*Outcome - Size:Method:Outcome,

4.2345 -2.1585 -0

9397 1.0332 2.3908 1 2606

MethodB: OutcomeSuccess

-0.3572 Degrees of Freedom: 7 Total (i.e Null); 1 Residual

2.4.4.6 Mô hình bão hòa

Nếu các thuật ngữ tương tác đều cần thiết trong mô hình tuyến tính, thì mô hình phù

hợp chính là mô hình bão hòa

Mô hình gồm tat ca cac tong tac nhw sau: log pik = log m + log zi + lOQ z-j: + log Tek + 1OQ Tick + 1OG xk + 1OG œụ- + ÍOQ Ziịk

Trang 12

Trang 16

=> Mô hình bão hòa

Mô hình có độ lệch phần dư (residual deviance) băng0 và bậc tự do phần dư (residual

Degrees of Freedom: 7 Total (i.e Null); O Residual

Residual Deviance: -2.931e-14 AIC: 62.72

> c€ deviance( ks.all ), df.residual(ks.all) )

[1] -2.930989e-14 0.000000e+00

Điều này có nghĩa là có nhiều ước tính tham số bằng số ô trong bang va do đó dữ liệu

không thê được tóm tắt bằng cách sử dụng một bộ hệ số nhỏ hơn Nếu mô hình bão hòa là

phù h ợp thì dữ liệu không thê được trình bày ở dạng đơn giản hơn so với bảng l x J x K ban đầu

2.4.4.7 So sánh các mô hình

Khi min{y;} > 3, phương pháp saddlepoint được coi là chính xác đủ để sử dụng các

bài kiểm tra mức độ phù hợp đề kiêm tra và so sánh các mô hình

Trang 13

Trang 17

Ví dụ với dữ liệu sói thận ở mục 2.4.4.2:

e Mô hình độc lập lẫn nhau và mô hình độc lập một phản là không phù hợp vì độ lệch còn lại vượt xa mức độ tự do còn lại Mô hình ks.noMO được xác định là

mô hình phù h ợp nhất cho bộ dữ liệu này

e - Dữ liệu được hiệu tốt nhát bằng cách tạo bảng riêng biệt cho sỏi thận lớn và

nhỏ, không nên két hợp dữ liệu của hai loại sỏi thận này

2.4.5 Nghịch lý của Simpson

2.4.5.1 Khái niệm

Là khi két hợp xác suất của nhiều yếu tố lại với nhau thì xu hướng của từng sự kiện riêng lẻ sẽ biến mắt, khi điều này xảy ra, xu hướng của xác suất tổng hợp đôi lúc có thê mâu thuẫn với xu hướng riêng của mỗi yéu tó

Điều này xảy ra khi số lượng của các nhóm yêu tố không đồng đều Một nghiên cứu

vô tình (hoặc có tình) chọn số bệnh nhân làm sao đê có thê kết luận răng một phương pháp điều trị (thực chát là có hại) trông có vẻ có lợi

2.4.5.2 Ví dụ minh họa

24.5.2.1 Ví dụ 1

Thí nghiệm sử dụng phương pháp giảm thiêu định kiến và thiên vị cho người tham

gia về một phương pháp điều trị y khoa được đề Xuất sau đây Một nhóm gồm có 120 bệnh

nhân (được chia thành các nhóm nhỏ 10, 20, 30 và 60 người) được điều trị, và một nhóm 120b ệnh nhân khác (được chia thành các nhóm nhỏ tương ứng 60, 30, 20 và 10 người)

không được điều trị

Két quả tổng hợp cho tháy việc điều trị có lợi cho bệnh nhân với tỷ lệ hồi phục cao hơn những bệnh nhân không được điều trị

Trang 14

Tiêu đề	Mô Hình Hồi Quy Tuyến Tính Tổng Quát Với Phân Phối Nhị Thức
Tác giả	Nguyễn Thị Ngọc Uyên, Bui Pham Hai Ha, Nguyễn Văn Huy, Nguyễn Ba Huy, Ly Duc Trung, Nguyễn Quốc Trung
Người hướng dẫn	TS. Phạm Đình Tựng
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Khoa Học Tự Nhiên
Thể loại	báo cáo
Thành phố	Hà Nội

Định dạng
Số trang	23
Dung lượng	2,55 MB