quy logistio và mô hình hồi quy logistio bội.Ohuong 2 giới thiệu phương pháp phan tích thông kê được dùng trong:nghiên cứu này là md hình nhiều mức cho dữ liệu nhị phan, đặc biệt là, mô
Trang 1ĐẠI HOC QUỐO GIA HÀ NỘI
TRƯỜNG ĐẠI HOC KHOA HOO TỰ NHIÊN
Nguyễn Huyền Trang
KET LUẬN THONG KE
VỀ NHU CAU CHAM SÓC
SỨC KHỎE O HAI DƯƠNG
Chuyên ngành: Xác suất và Thống kê toán học
Mã số: 60 46 15
LUẬN VAN THẠC SĨ KHOA HOC TOÁN HOO
Người hướng dẫn khoa học;
PGS.TS Hồ Đăng Phúc
Hà Nội - 2011
Trang 2Mục lục
Lời nói đầu 3
1 Phương pháp phân tích hồi quy logistic 6
1.1 Số chênh và tỷ sô chênh 71.2 Hồi quy LOgisliOG ee ee ee ee 81.3 Mô hình hồi quy Logistio ll
1.3.1 Ước lượng các tham số cửa mô hình hồi quy logistic 12
1.3.2 Kiếm định sự phù hợp của mô hình hồi quy logistic 13
1.4 Mô hình hồi quy Logistiobội 16
1.4.1 Ước lượng mô hình hồi quy Logistiobội 19
1.4.2 Kiểm định sự phù hợp của mô hình hồi quy logistic
0 21
1.5 Ý nghĩa hệ số của mô hình hồi quy Logistic 23
2 Mô hình nhiều mức cho dữ liệu nhị phan 27
2.1 Mô hình tuyến tính nhiều mức 282.2 Mô hình nhiều mức cho dữ liệu nhị phân - 302.3 Giới thiệu phan mềm xử ly số liệu SPSS và SVATA 3ä
Trang 33 Kết luận thong kê về nhu cầu chăm sóc sức khoe ở Hải
Dương 36
3.1 Motasdlibu 2 ee ee ee 363.2 Phau tích số liệu mẫu 42
3.3 Phân tích số liu m4u2 — 51
3.4 Kétluan 2 58
Tai liệu tham khảo 64
Trang 4Lời nói đầu
Thống kê toán học là ông cụ nghiên cứu được sử dụng rộng rãi tronghau hết ác ngành khoa học thực nghiệm nhất là trong y hoo, sinh học,
xã hội học, kinh tế và môi trường thống kê toán họo giúp cho cáongành khoa học khám phá ra từ các số liệu thực nghiệm các quy luật
HỘI tai của các hiện tượng trong tự nhiên và trong xa hội.
Ode nghiên cứu về y tê cộng đồng cũng đòi hoi sử dụng ắc công cu
của thông kệ toán học để giải đáp các câu hỏi liêu quan đến hệ thông
chăm soo sức khỏe toàn dân, đưa ra các bằng chứng giúp xây dựng cácchú trương, chính sách liện quan đến mang lưới oung cấp các dịch vụchăm soo sức khỏe, nâng cao hiệu quả phục vụ của hệ thống y tế
Nghiên cứu này có mục đích đánh giá cáo yếu tổ anh hưởng đến uhucầu khám chữa bệnh tại nha đối với hai nhóm đối tượng người trong độ
tuổi lao dong và tré em dưới 16 tuổi, thông qua việc 4p dụng mô hình
hồi quy logistic nhiều mito — phương pháp thống kê hiện đại đang được
sử dụng rộng rãi trong nghiên cứu 6 nhiều nước trên thé giới và bướcđầu được sử dụng bại Việt Nam
Luận văn “ Kết luận thông kê về nhu cầu chăm sóc sức khóe ở Hải
Dương” bao gồm 3 chương: và danh mục tài liệu tham khảo
Ohuong 1 trình bày các vấn đề cơ ban về phương pháp phân tích hồi
Trang 5quy logistio và mô hình hồi quy logistio bội.
Ohuong 2 giới thiệu phương pháp phan tích thông kê được dùng trong:nghiên cứu này là md hình nhiều mức cho dữ liệu nhị phan, đặc biệt là,
mô hình hồi quy, logistic nhiều mức.
Dua trên cơ sở lý thuyết của hai chương đầu, Chương 3 đưa ra cáokết quả phan tích ảnh hưởng của các yêu tô kinh tê - xã hội đến nhu cần
khám chữa bệnh tại nhà của hai nhóm đối tượng người trong độ tuổi
lao động: và trẻ em dưới 16 tuổi Phần cuối cia chương 3 dua ra một sỐ
ý kiến về xây dựng và phát triển mô hình y tế gia đình nhằm nâng cao
Loi xin trân trọng cắm ơn cáo thầy giáo trong khoa Toán — Oo — Lin,
đặc biệt cáo thầy trong tổ Bộ mon Xáo suất và hông kê — Lrudug Dai
hoo Khoa học Lu nhiên đã cung cấp cho tôi các kiên thức chuyên ngành
cần thiết để thực hiện dé tài Loi cũng xin chân thành cắm ơn cáo thầy.
cô Phòng Sau đại họo đã nhiệt tình giúp đỡ tôi trong suốt thời gian họctập lồi xin gửi lời cẩm ơn đến cáo anh chị em trong lớp Cao học Lythuyết Xác suất và hông kê 2009 — 2011, cùng áo bạn đồng nghiệp và,gia đình đã, nhiệt tình đóng góp ý kiến, động viên, giúp đỡ tôi trong suốt
quá trình lam luận van.
Đặc biệt tôi xiu chân thành cam ơn sâu sắc tới sở y tê Hải Dương danhiệt tình và nghiêm tic cung cấp những dữ liệu chính xác và quý bau,
Trang 6mà nếu thiêu nguồn số liệu này tôi không thể thực hiện được.
Tuy đã có nhiều cỗ gắng nhưng bắn luận văn này cũng không tránh
khỏi những thiêu xót, tac giả rất mong có sự tham gia đóng góp ý kiên
của các thầy cd giáo, các nhà nghiên cứu Xác suất - hông kê , nghiên
cứu y ĐỂ vị vac dou gia quan tam tới luận van này,
Hà Nội, ngày 12 tháng 1 năin 2012
Học viên: Nguyễn Huyền Trang
Trang 7Chương 1
Phương pháp phân tích hồi quy
logistic
Trong nghiên cứu y khoa, va khoa học thực nghiệm nói chung thường
06 nhu cầu phâu tích mỗi quan hệ giữa một (hay nhiều ) yến tô nguy, cơ
và khả năng xảy ra một sự cỗ(biến cố) nào đó, chang hạn như đối với
một nghiện cứu về mdi quan hệ giữa thói quen hút thuốc lá và ung thư
phối, thì yêu tố nguy cơ ở đây là thói quen hút thuốc lá và sự cỗ cần
quan tam là hiện tượng bệnh ung thư phổi lIrong các nghiên oứu này.
đối tượng phân tích thường được thể hiện qua các biên số nhị phân, tức
là 06/ không, mắc bệnh/ không mao bệnh, chét/ sông, Yêu bô nguy,
cơ có thé là cáo biến số liên tục, các biến nhị phân hay cáo biển mang
đặc tính thứ bậc.
Vấn đề đặt ra cho các nghiên cứu dang này là làm cách nào để ước
tính mức độ liêu quan giữa yêu tố nguy cơ và khả năng xay ra sự cd
Oáoc phương pháp phân tích như mô hình hồi quy tuyên tính không thé
ấp dụng được bới vì biên phụ thuộc không phải là biến liên tục ma là,
biễn nhị phan Phương pháp pho biên nhất sử dụng để phân tích cáo dữ
Trang 8liệu với cáo biên phan ứng lưỡng phân là hồi quy, Logistic.
1.1 Số chênh và tý số chênh
Trong nghiên cứu dịch tễ người ta thường so sánh tan suất mic bệnh
giữa hai tong thé “ phơi nhiễm” (thử) và “ không phơi nhiễm” (chứng)
Ví dụ: Khi nghiên cứu bệnh phổi, cần so sánh tau suất mắc bệnh phổi
cla nhóm người hút thuôo lá và nhóm người không hút thuốc lá
Khi tần suất đang xét là lớn 06 thé xem xót hiệu của hai tần suất Nếu hiệu số đó khác 0 06 ý nghĩa thì có thể kết luận tần suất của nhow.
thử kháo tần suất của nhóm chứng
Tuy nhiên khi hai tần suất rất nhỏ thì viéo so sánh hiệu của chúngrat khó, cau so sánh bang thương (ty sô) giữa hai tần suat lý, số này.được gọi lA ty số tan suat(| hay độ rủi ro tương đôi), Nếu ty số đó khác
1 v6 ý nghĩa thì có thể kết luận tần suất của nhóm thứ khác tần suấtcủa nhóm: chứng.
Bên canh ty số tần suất oáo nhà, nghiện cứu thường dùng số chênh(odds)
và ty số chênh (odds ratio) để so sánh nhóm chứng với nhóu: thử.
Số chênh cla một số sự kiện xây ra được định nghĩa là ti số của sốlần xảy ra sự kiện và số lần không xảy ra sự kiện
Ly số chênh là tý số cúa hai số chênh L số này gan 1 thì hai nhóm
không có sự kháo biệt Ngược lại tý số chênh này càng xa 1 thì càng thé
hiện sự kháo biệt gitta hai nhóuh,
Trang 9Phơi nhiễm Không phơi nhiễm
Mắc bệnh a bKhông mắc bệnh G d
1.2 Hồi quy Logistic
Phan tích hồi quy nghiên cứu mỗi quan hệ phụ thuộc ctta một bién(gọi là biên phụ thuộc hoặc biên được giải thích) với một hay nhiều biênkhác (được gọi là biên độc lập hay biến giải thích) Ohtug ta sử dụng
cáo ký hiệu sau;
Y là biến phụ thuộc (hay biến được giải thích);
X; là biến độc lập (hay, biến giải thích thứ i)
Một trong nhiều vấn đề ma phân tích hồi quy giải quyết là ước lượng:giá trị trung bình của biễn phụ thuộc ứng với giá trị đã cho của biên độc
lập E(Y/Xi)
Nói chung, E(Y/X;) là một hàm cua X; sao cho:
E(Y/X) = f(X,)
Trang 10ƒ(X,) đượo gọi là hàm hồi quy tổng quát Khi đó
+ Hàm hồi quy tống quát có một biến độc lập được gọi là hàm hồi
quy don.
+ Nếu hàm hồi quy tổng quát v6 nhiều hơn một biến doo lập thi được
gọi là hàm hồi quy bội
+ Nêu hàm hồi quy tổng quát có dạng ƒ(X;) = bo + 6X, trong đó
Bo, 8; là cáo hệ số chưa biết, nhưng cô định, thì f(X;) được gọi là hàmhồi quy tuyên tính đơn va Bo, đị gọi là hệ số hồi quy,
Mô hình hồi quy Logistic khác với mô hình hồi quy tuyến tính thông:thường ở chỗ biên phụ thuộc của mô hình Logistic là một biên lưỡng
phan wa không phải là biên định lượng liên tục Dé thuận tiện trong
quá trình tính toán ta thường ma hóa hai giá trị của biên phụ thuộc là,
I và 0 Khi đó biến lưỡng phân được gọi là biéu nhị phân Nếu không
có phi chú gì đặc biệt, trong luận văn này chúng ta luôn xét biên phụthuộc là biên nhị phan
Hồi quy logistic la hồi quy phá tuyến trong đó biếu độc lập là định tính,hoặc định lượng, biến phụ thuộc là thị phan
Van đề được đặt ra là: “rong trường hợp biếu phụ thuộc là trhị phan
thi harm hot guy w(x) phat có dụng thư thế nào?”
Có nhiều dạng ham khác nhau da được nhiều tac giá đề xuất để xây,
dựng mô hình toán học cho bài toán hồi quy này, lrong số các tác giả,
đó, Oox (1970) da đưa ra haw logistio, O6 hai lý do để biện mình cho
việc chọn ham logisbio dua vào mô hình hồi quy v6 biến phụ thuộc là nhị
phan, đó là:
Trang 11- tính mềm déo toán học, thuận tiện trong tính toán;
- Cung cấp được các giải thích đầy đủ về ý nghĩa sinh hoo của mô
hình.
Gia sử biên ngẫu nhiên Y là mot biến nhị phân, còn X là Immột biến
độc lập với các giá trị tất định được cho trước Khi đó, để diễn ta môi
quan hệ giữa biến Y và biên X , cũng như đánh giá khá năng xuất hiện
cáo giá tri của biên Y theo các giá trị đã biết của X , ta có thé đưa ra
một định nghĩa của mô hình hồi quy logistic dạng đơn giản nhất như
Trang 12Định nghĩa 2 Phép biên đổi sau được gọi là phép biên đổi logit:
g(x) = In |———— (1.2.2)
Nhận xét:
+ g(x) = 89 + Biz là hàm tuyến tính ctta x với z € (—oœo, +00)
+ 0 < r(x) < 1 với moi gia trị cua x.
+ Giả, sử giá, trị quan sát y của biên phụ thuộc Y v6 dạng = a(x) +e
, trong đó e gọi là sai số (hiện giá trị quan sat và kì vọng oó điều kiệncủa biên phụ thuộc) Khi đó e nhận hai gia tri sau:
Nếu y = 1 thie = l1 — Z(z) với xáo suất 7(z)
Nếu y = 0 thì e = —Z(z) với xác suất 1 — r(x)
Từ đó, e vd phân phôi nhị thức với # (ec) = 0 và Var (e) = Var (Y) =
7 (a) [1 — ()].
1.3 Mô hình hồi quy Logistic
Xét biễn phụ thuộc là biến nhị phan Y và X1, Xo, , X; biên độc lập.Muốn dự đoán tan suất xuất hiện giá trị 1 của biên Y theo các biên độc
lập, 06 thé lập phương trình hồi quy:
lần suất = øIX+ + 62X¿ + - + øyXy +D
Hạn chế của mô hình trên: tan suat ở về trái chỉ nhận các giá trị lớn
hơn 0 nhó hơn T trong khi về phái có thể nhậu giá trị âm dương bat kì.
lại
Trang 13Do đó phải lập mô hình thích hợp hon:
log [Tần suất/(1 - lần suất) | = đ@IX1 + d2Xa + - + ayXy + Ù
Số chênh = exp(b) exp(ai X1) exp(aaX›) exp(a„Xz)
1.3.1 Ước lượng các tham số của mô hình hồi quy logistic
Để xác định được mô hình ta can ước lượng cáo tham số của mô hình
thong qua số liệu thu được trong mẫu quan sát O6 nhiều phương phấpước lượng thai sô, ở đây chúng ta xét phương pháp ước lượng hợp lý
cực đại Gia sử mau có un quan sát độc lập (Z¡, y;),7 = 1,2, ,n, VỚI 1;
là giá trị của biên phụ thuộc và z; là giá trị cla biên độc lập tai quansát thứ ¿ Việc ước lượng các tham số cia mô hình bằng phương phap
hợp lý cực đại được thực hiện theo quy trình như sau:
a La cod P(Y = 1|z) = r(x), do đó P(Y =0|z) = 1— z(z) Nhu
vậy Y nhậu giá tri 1 với xác suất bằng z(z;) và nhận giá trị 0 với xásuất bằng 1 — 7 (;),i = Ì, ,n
Với mỗi oặp (Z;, ¡),? = 1,2, ,n đặt
£(z;) = x(z,){1 — x(,j)]**
12
Trang 14b Với mau n quan sat độc lập (z;,¡),? = 1,2, ,n ta thành lập
lượng hợp ly cực đại cua Ø.
1.3.2 Kiểm định sự phù hợp của mô hình hồi quy logistic
Việc kiếm định sự phù hợp của mô hình, nhằm tra lời câu hoi: “Mo
hinh chứu biếu độc lập cho chứng ta thông tin vé biếu phụ thuộc thiêu
hon mot cách, đáng kể (có Ú ughia thông kô) so uới m6 hành, không chứu
Trang 15ham hợp lí bao hoa
Ki hiệu 7; = 7(a;) va từ (1.3.3) ta thay (1.3.6) 06 dạng
" Ì27⁄{1— 8) n ty `.
p=-~2m]] TL ya = 2), win(=) +1) (1 )
Yi — Uị
Như vậy, độ lệch D của mô hình hồi quy logistio là giá trị so sánh
giữa logarit hàm hợp lý của mô hình hồi quy logistic và logarit ham hợp
lý bão hòa (mô hình bão hòa là mô hình v6 số hệ số bằng số quan sát)
Định nghĩa 4 Hiệu độ lệch của hai mô hình không có biến độc lập và
có biên độc lập được gọi là tiêu chuẩn tý lệ hợp lý, ký hiệu là G:
G —D (mô hành không có biến độc lập) — D (mô hành có biếu độc lập)
Vì hai mô hình này có chung ham hợp lý bao hòa nêu ta cd:
hàm hợp lí logistic không có biến độc lập
ham hợp lí logistic vé biên độc lap
Tà, kiếm tra sự phù hợp của mô hình hồi quy logistic đơn bằng các
kiếm định gid thuyết H: 6, = 0, với đối thuyết K: 6, # 0, tức là xét xem
biên độc lập X thực sự có tác động tới biên phụ thuộc Y hay không
Xét mẫu cO n quan sat, giái phương trình hợp lí khi mô hình không
có biến độc lập, tức là 6, = 0, ta v6:
By) =In » Yi Soa — 9)
i=
14
Trang 16Dinh lý 1 Khi giá thuyết 6, = 0 đứng thà tiêu chuẩn thong kê GŒ có
phéu phot tiệm cậu phân phối x? uới bậc tu do bằng 1.
Theo hiệu lực của định lý trên, để thực hiện kiếm định sự phù hợp của mô hình hồi quy logistic đơn ta có thể tiến hành oác bude sau:
- Tính tiêu chuẩn ti lệ hợp lý G và giá tri — 2logarit — hàm hợp lý oúa
mô hình có đị #0, đặt giá trị ấy bằng —2/
- Với x (1) là biến ngẫu nhiên có phân phối Khi - bình phương motbậc tự do,tính xác suất ý nghĩa œ = P[y?(1) > —2l]
- So sánh œ với mức ý nghĩa a cho trước (thường được ân định bằng0.001 hoặc bằng, 0.05)
+ Nếu œ < ao , ta báo bó H (với mức ý nghĩa ag )
+ Nêu a > ap , ba chap nhận H (với mức độ tin cậy 100(1 — ao)%)
Trang 17Kiếm định theo tiêu chuẩn Wald
Bên canh phương pháp kiếm định tý lệ hàm hợp lý, ta có thé sử dung
phép kiểm định thông kê Wald
Định nghĩa 5 Liêu chuẩn thông kê Wald là tý số
^
A
_ 8E(ñi)
W
Với 8, là giá trị ước lượng cửa tham số 6, theo phương pháp ước lượng
hợp lí cue đại, SE(ô,) là sai số chuẩn ctia ước lượng đi.
Định nghĩa 6 Với giả thuyết đị = 0 thi tiêu chuẩn thông kê W có
phân phối tiệm can chuẩn N(0.1)
Với định lí trêu phép kiểm định theo tiêu chuẩn Wald với giá thuyết
H: 6, = 0 và đôi thuyết K: đị # 0 có thể thực hiện theo cáo bước sau:
- Tính tiêu chuẩn thông kê Wald
- Với ⁄ là biến ngẫu nhiên có phan phối chuẩn N(0,1) tính xác suất
ý nghĩa a = P||Z| > W).
- So sánh œ với gia tri ap cho brước:
+ Nếu a < ap ta bac bỏ H (với mức ý nghĩa ag)
+ Nếu a > ap ta chấp nhận H ( với độ tin vay, 100(1 — ap)%)
1.4 Mô hình hồi quy Logistic bội
Xét tập p biên độc lập X1, Xa, , Xp Ký hiệu veoto X = (X1, Xo, , Xp).Xáo suất điều kiện biên phụ thuộc Y theo các giá tri của biên độc lập X
16
Trang 18có dang:
P(Y = 1/z) = m(z) P(Y =0/r) =1—-7(2)
Khi đó ham Logit ctia mô hình hồi quy Logistio bội được biểu diễn qua
cáo biên độc lập bằng phương trình:
g(x) = Bot Bit, + : + Bry
Trong đó, đ;, ý = 1,p là cáo hệ số chưa biết còn 8 là hệ số chặn
Định nghia7 Mô hình hồi quy Logistic bội oó dạng:
e9 (x)
n(x) = 1+ em
Trong một số trường hợp biến doo lập là rời rac hoặc là biên định tính
để đưa những biến này vào mô hình ta sử dụng phương pháp thiết kế
biễn (hay lập biến gia)
Trong trường hợp tổng quát, khi biến độc lập có thể nhận k giá trị,
thiệt kê k— 1 biến giá D;, Do, , 2(k — 1), mỗi biên nhận giá trị 0 hoặc
I tùy thuộc vào giá trị cu thé của biên độc lập ban đầu La có cách wa
hóa lại như trong bằng sau:
Bảng thiết ké bién gia đối với biên nhận nhiều giá trị
Trang 19l Khi tương ứng với khá năng thứ nhất
mộ 0 Khi tương ứng với khả năng thứ nhất
L Khi tương ứng với kha năng thứ hai
0 Khi tương ứng với kha năng thứ hai
L Khi tương ứng với khá năng thứ k — 1
Thế 0 Khi tương ứng với kha năng thitk — 1
Tương ứng với kha năng thứ k thì D; = 0 với ¡ = 1, ,k — 1 La
thường chọn kha năng thứ k tương ứng với nhóm chứng, là nhóm dùng
làm chuẩn để so sánh với các nhóm còn lại.
Trong một số trường hợp, chúng ta có thé xây dựng biên giả tit một
biên liên bục Khi xây dựng biến giá từ một biến liên tục ta van cht ýmột số điều sau;
- Khoảng cach giữa cáo nhóm là bằng nhan,
- Cỡ cáo nhóm là bằng nhan,
- ân nhắc tới chú đề của đối tượng phan nhóm
Gia sử biến độc lập thứ ] là định tính có k; kha năng, khi đó v6 kj — 1
biến giá Dj, với u = 1,k; — 1 La gọi hệ số của các biến giá này troug
mô hình hồi quy là đ;„ La cd hàm Logit cửa mô hình hồi quy, Logistio
Trang 201.4.1 Ước lượng mô hình hồi quy Logistic bội
Để ước lượng mô hình hồi quy Logistic bội ta phai ước lượng veotơ hệ
sô 8 = (8, Øi, , đp) Luong tu như trong mô hình hồi quy Logistic đơn,
ta su dụng phương phấp ước lượng hợp lí cực đại Gia sử (Z;, y;), #¡ =
(ri1, -,in),2 = 1,p là mẫn gồm n quan sát độc lập Quy, trình tiến
hành ước lượng vectơ hệ số của mô hình được thực hiện như sau:
a Lập ham hợp lí va logarit ham hop lí của mau n có dang:
> ma[m —7(¡)} =0
S> zy| — (2) =0
ö Giải hệ phương trình hợp lí trên ta có nghiệm là ude lượng hợp lí cực
đại của vecbơ hệ số đ = (9, 61, , đ,), kí hiệu là B = (ñu,Ổi, , Bp).
Lay đạo hàm riêng cap hai logarit hàm hợp lí theo cáo đụ, 61, , Bp ta
GO:
AL (B Ni
i — =3 sim map“ Yo itiami(l ~ Ti)i=l
19
Trang 2108:08, — a ¡11ipT¡ 4 wee OR = > ipTi i
Khi đó wa trận hiệp phương sai của hệ số ước lượng được xác định bởi
phương trình Ð3(đ) = I71(8), trong do:
ơ?(Ø) øơ(0i,6›) o(81, Bp)
S2) 0 (81, Ø›) a” (52) mee 7 (81, Bp)
0 (81, Bp) 0 (82, Bp) ao 0° (Bp)
Với ø?(,) là phương sai của 6;,7 = 1,p,ø(;, By) là hiệp phương sai
của, 8; va Bu với j,u = 1, p ừ cdc công thức trên ta thay mwa tran hiệp
phương, sai Š(ô) là ước lượng của Šˆ(Ø) tại 3 Ước lượng này có dạng:
ơ(8I Bp) ơ(8a, Bp) ste ơ”(8,)
Từ đó ước lượng các sai số chuẩn ctta cáo hệ số ước lượng bang:
^ ^
1
.2/2 12
$E(ô;) = [6°(3,)|
Ta sẽ sứ dung cáo kí hiệu này khi kiểm định sự phù hợp của cáo hệ số
trong mô hình và xáo định khoảng ước lượng của cáo hệ số đó
20
Trang 221.4.2 Kiểm định sự phù hợp của mô hình hồi quy logistic bội
Để kiếm định sự phù hợp cia mô hình hồi quy logistic bội, ta tiến hành việc kiểm định giá thuyết H: 6, = By = - By = 0 và đôi thuyét
Dinh lý trên được gọt là Dinh lý Hosmer- Lemeshow, là md rộng cua
Định lý 1 và đã được chứng minh bằng phương pháp m6 phỏng.
Theo hiệu lực của định lý trên, để thực hiện kiếm định sự phù hợp
của mô hình hồi quy logistic bội ta có thé tiên hành vac bước như sau:
- Tính tiêu chuẩn tỷ số hợp lý G và giá trị — 2logarit — hàm hợp lý
của mô hình ứng với đôi thuyết K La gọi giá tri này là — 21
21
Trang 23- Với x? là biến ngẫu nhiên có phân phối Khi- bình phương, p bậc tự
do, tính xác suất ý nghĩa a = Ply? > —2l]
- So sánh œ với Iuức ý nghĩa ap cho trước:
+ Nếu a < ap ta báo bó H (với mức ý nghĩa ag)
+ Nêu œ > ap ta chấp nhận H ( với độ tin cay, 100(1 — ap)%)
Kiếm định theo tiêu chuan Wald
Định nghĩa 8, Irong mô hình hồi quy Logistio bội, tiêu chuẩn thông
kê Wald xáo định như sau:
Định lí 3 h¿ giá thuyết H đáng thà thong bê W có phâu phốt tiệm can
uới phan phối y? uới p+1 bậc tự do.
Phép kiếm định theo tiêu chuẩn Wald trong mô hình hồi quy Logistic
bội được thực hiện theo vac bude sau:
-ính tiêu chuẩn thông kê Wald
- Với Z là biến ngẫu nhiêu có phân phối x7,¡ , tính xác suất ý nghĩa
œ = P|Z > W]
Trang 24- So sánh œ với mức ý nghĩa ag cho trước:
+ Nêu a < ap ta báo bó H (với mức ý nghĩa ag)
+ Nếu a > ap ta chấp nhận H ( với độ tin cay, 100(1 — œg)%)
1.5 Ý nghĩa hệ số của mô hình hồi quy Logistic
Sau khi ước lượng và kiểm định sự phù hợp oủa mô hình hồi quy
logistic, chúng ta di đánh giá ý nghĩa, tam quan trọng của cáo hệ sốtrong mô hình, bức là chúng ta đi tra lời câu hoi: “Với cáo hệ sô đã đượcước lượng thì biên độc lập tương ứng có tác động như thé nào tới mô
hình nghiên cứu?”
Trước khi đi đánh giá ý nghĩa hệ số của m6 hình hồi quy chúng ta
giá sử mô hình đã được ước lượng và kiểm định sự phù hợp Đầu tiên
ta xáo định hàm của biên phụ thuộc cho bởi một hàm tuyên tính củabiên độc lập Đối với một số md hình gần với m6 hình tuyến tính hamnày được gọi là hàm liên kết Đối với mô hình hồi quy tuyến tính hamliêu kết cũng chính là ham hồi quy y—ax+b Như vậy, khi biên độc lậptăng thêm mot đơn vi thì biên phụ thuộc trong mô hình tuyến tính tăng
thêm a đơn vi lrong mô hình hồi quy logistio hàm liên kết là ham biên
doi logit g(a) = In Got — z(z)) = Bo + Øịz Khi đó ta có hệ số dốo
cua mô hình 6; = g(a + 1) — g(z).
Ý nghĩa của mỗi hệ số trong mộ hình logistic được lý giải tùy thuộc
kiểu của biên độc lập tương ứng:
+ Mô hình có biến độc lập nhị phan
Trong khuôn khổ của luận văn này chí xem xét trudg hợp biến độc
23
Trang 25lập X lưỡng phân nhận hai giá trị 0 và 1, Khi đó ta v6 bang giá trị hồi
quy cửa mô hình như sau:
Bang giá trị hồi quy Logistic với biên độc lập nhị phân
Trang 26Theo bang giá trị hồi quy Logistic với biên độc lập nhị phan ta oó ty số
efo+8i 1
1 + cf+ôi 1 + cÖ ePot hi ;
= =e 1
obo 1 ePo T+ eo T+ e8o+ổi
Từ đó log tý số chênh c6 dạng In = In(e”!) = beta; Như vậy log tý số
chênh có dạng
ụỤ
chênh bằng, đị La cd khoảng, ước lượng ctia đị với độ tin vay, 100(1— œ)%
là,
(ôi — Z„/2SE(Ô1): By + Z„»ŠE(ô1))
Do đó khoảng ước lượng của ty số chênh với độ tin vay, 100(1 — a)% là(eh: S00, cô+Za,sŠE(i))
+ Mô hình có biến độc lập nhận nhiều giá trị.
Bang hệ số hồi quy logistic cho biên độc lập nhận nhiều giá tri
Trang 27+ Mô hình có bién độc lập liên tục.
Trong trường hợp biến độc lập X là liên tục, thì hàm logit g(r) =
Bo + Bix cũng là log tỷ số chênh của mô hình Lit đó ta có hệ số dốu
đi = g(x +1)—g (2) với mọi giá trị cla x Lức là khi biến độc lập thay
doi 1 đơn vi thì ty số chênh sẽ thay, đổi exp (đ) đơn vi.
Log ty số chênh khi thay, đổi o đơn vị là g (2 + c) — g (x) = hj, từ ty
sô chênh 4Ú (c) v (# + e,#) = e?”' ta 06 khoảng ước lượng của ty số chênh
với độ tin vay, 100 (1 — a) % là
(cere ZoyeeS PU), colt ZopaeS Un) )
26
Trang 28Chương 2
Mô hình nhiều mức cho dữ liệu nhị
phần
Trong quá trình điều tra xã hội học, ching ta thường gặp cáo số liệu
có vau trúc thứ bac hoặc cấu trúc số liệu lồng nhóm, nói cách kháo là số
liệu được thu thập ở cao mức khac nhau cla đơn vị quan sat.Vi dụ cho
cáo câu trúc thứ bac trong xã hội khá là phong pht Ohẳng hạn, trong
cáo trường hoe, sinh viên được long nhóin trong cáo lớp và vac lớp đượclồng nhóm trong cáo trường, Hoặc trong điều tra về nhu cầu cham sócsức khỏe tại nhà, số liệu thu thập được ở từng nhóm thành viên trong
gia đình, song kết luận có thé dua ra cho các khu vực xã, phường khác
nhau,
Mô hình nhiều mức đã được xây dựng và sử dụng rộng rãi để nghiên
cứu cáo sô liệu v6 cau trav lồng nhóm Mô hình nhiều miức đã cho thay,
nhiều ưu điểm so với các phương pháp phân tích truyền thống khác,
chẳng hạn nó khắc phụo được hạn chê của giá thiết về tính độc lập giữa
các quan sát và giá thiết phương sai không doi Khi đó giá thiết về tính độc lập giữa cáo quan sát ma cáo phương pháp thông kê vd diéu đòi hỏi
27
Trang 29có thé bị vi phạm, nhưng kết quả của phương pháp phân tích nhiều mức
không chịu anh hướng của sự vi phạm đó Sau đây ta xem xét một sd
mô hình nhiều mite thường được sử dung.
2.1 Mô hình tuyên tính nhiều mức
Ta bắt đầu tit một mô hình quen thuộc- mô hình tuyên tính nhiều
mức La tập trung vào một mô hình cu thé wa cáo nhà xã hội học thường
sử dụng Dang chung nhất của mô hình tuyên tính nhiều mức từng được
mô ta bởi Mason và cáo đồng sự (1983), Goldstein (1987, 1995), và Bryk
& Raudeubush (1992).
Đầu tiên, ta xem xét mô hình 2 mức đơn gidu với một biến giải thích
duy nhất Thuật ngữ thông thường để ký hiệu mức thấp nhất cia thứ
bao là mức 1, mức thấp tiếp theo là mức 2,v.v Mô hình hồi quy nhiều
mức day, dir giá sử rằng có một bộ dữ liệu có thứ bậc với biên phụ thuộc
do đượo ở mức thấp nhất va một số biên dự báo (biến giải thích) do đượo
ở tat od cdc muito cúa, dữ liệu hiện có Ou thé, mô hình đó vd thé được
xem xét như một hệ thống có thứ bac cáo công thức hồi quy,
yij = Bo + đi + uj + Gụ (2.1.1)
trong đó, y;; là biéu kết quá cho đơn vị thứ i của mức 1 và đơn vịthứ ] của mức 2, Bo là hệ số chặn, z;; là biên giải thích, 6, là hệ số
dốo, u; là ảnh hướng ngẫu nhiên của những biến doi ngẫu nhiên ở mức
2 và e;; là anh hưởng ngẫu nhiên mức 1, Ode tham số cho ánh hưởng
Trang 30trong cum hoặc trong nhóm sau khi kiểm soát táo động của biến giái thích có thé thu được từ biểu thức ø = ø2/(ơ2 + 07) Phương trình
(2.1.1) v6 thé được xem xét như mô hình ánh hưởng ngẫu nhiên cho
dữ liệu điều khiến hoặc mô hình đường cong tăng trưởng lrong va 2 trường hợp, i và ] tương ứng là chi số thời điểm và cá thể, và là hiệp biên thay đổi theo thời gian Một mô hình tăng trướng tuyên tính đòi
hỏi trong phương trình (2.1.1) phải có thành phần tuyến tính và wot
mô hình tăng trưởng bac 2 đòi hỏi bổ sung vào phương trình đó thành
phần bao 2
Tà tiếp tục mở rộng mô hình 2 mức đơn giản thành mô hình 3 mứcvới hệ số ngẫu nhiêu,
Yijk = Bo + 1#jjk + 1/kÿk + VoR + Uojk + €0ijk (2.1.2)
lrong đó k chí số mức 3, vo, và uạọ;, là hệ số chặn ngẫu nhiện cho
mức 3 và Imức 2, tương ứng với z;;„¿ là biến giải thích được quan sát ở
mức 1 và uj, là ánh hướng ngẫu nhiên cua z;;y ở mức 2 Oáoc thai
sô khác trong mộ hình thỏa mãn E[vo,] = Eluo;g} = E[eu¿x] = 0,
0aT(0oy) = đo, 0aT(Uajy) = O29, 0dT(U1jy) = đi, 0@7(€ojjy) = 72 và
CoU(gj; 17g) = Tul
Mô hình này một lần nữa giá định rằng cáo ảnh hướng ngẫu nhiên
trên các mức kháo nhau va các ảnh hưởng ngẫu nhiên trên cic cum khac
nham trong cùng mot ruức là không tương quan Oac m6 hình phức tap
hơn có thé được xây dựng bằng cách thêm cáo biển quan sát vào phương
trình (2.1.2) và vac tương quan giữa oấo mite.
Mô hình nhiều mito không chi có cáo tham số hồi quy quen biết như
Bo và 6; mà con v6 oáo tham số ngẫu nhiên chua biết như Uojkr t1j„ Và
20
Trang 31vor Khi xem xét mô hình nhiều mức như là một trường hợp đặc biệtcủa mô hình phức hợp, cáo nhà thống kê ước lượng, các tham sỐ cla wd
hình thông qua phương pháp ước lượng bình phương bé nhất, cực tiểuhóa giá trị (ụ— X B)/V-1(y— XB) Tuy, nhiên do sự v6 mặt của cáo tham
số ngẫu nhiên ohưa biết trong V, trước đó người ta phái dùng phương
pháp hợp lí cue đại hoặc hợp lí cue đại hạn chế để ước lượng phương sai
và hiệp phương sai của u và e, với giả thiết chúng vd phân phối chuẩn.
2.2_ Mô hình nhiều mức cho dữ liệu nhị phan
Mô hình hồi quy cho dữ liệu nhị phan bao gồm hồi quy Logistio vàhồi quy xác suat(probit) thường được cáo nhà xã hội học dùng làm công,
cụ thống kê trong các nghiên cứu lrước tiên chúng ta xem xét mô hình
2 mức với biên phụ thuộc nhị phan và một biến giải thích Mô hình nàytương tự mô hình (2.1.1), chi khác ở chỗ biến phụ thuộc chí nhận hai giá
trị 0 và 1, Giá sử chúng ta có các học sinh (đơn vị mức 1) được nhóm
vào trong cấc trường (đơn vi mức 2).
Xót giá trị của biên phụ thuộc nhị phan y;; ứng với học sinh i trongtrường ] và gid trị cla biến giải thích z;; quan sát ở mức hoo sinh La kí
hiệu xáo suất dé biên đáp ứng nhận giá trị 1 bằng pj; = Pr(yij = 1) và
pi; được mô hình hóa bởi hàm liên kết logit lrong thực tế, y;; thườngđược giá thiết có phân phối Bernoulli Do đó, mô hình hồi quy hai mứccho biên phụ thuộc nhị phân được viết thành
loglp¿/(1 — pij)] = Bo + Ôi#¡j + uj (2.2.3)
trong dou; là ánh hướng ngẫu nhiên ở mức 2 Nếu không có u;, (2.2.3)
30
Trang 32sẽ là mộ hình hoi quy, logistic thông thường rong mô hình trên, ; vày;; được giả định là độc lập với nhan Oũng như trong mô hình tuyến
tính nhiều mức, uj được giá thiết oó phan phối chuẩn với kì vọng 0 vàphương sai o? Mô hình (2.2.3) thường được mô tả, dưới dạng khác của,
mô hình nhiều mức cho bởi phương trình (2.2.4) và (2.2.5) ,
Boj = Bo + uj; ( mô hình mức 2) (2.2.5)
Mô hình nhiều mức cho biên phụ thuộc nhị phân cing có thể diễn giấi
thông qua khái niệm biên an Giá sử tồn tai một biến ấn 1ï; phụ thuộc
vào yi; wot cách liên tụo La chi quan sat trực tiếp được biến phụ thuộcnhị phan 1;; chứ không phải yj luy, nhiên, ta biết yj; > 0 ueu ¿; = 1
và yi, < 0 nếu y;; #1 Mô hình nhiền mức cho tương đương, với (2.2.3)
có thé viết như sau:
Yi; = Bot ÔiZ¡j + uj + ei; (2.2.6)
„
O6 định ánh hướng ngẫu nhiện uv; ở mức 2, phương trình (2.2.6) có thếsuy ra ttt mô hình hồi quy, Logistic nhiều mức (2.2.3) hoặc mô hìnhhồi quy probit nhiều mức tùy thude vào giả thiết e;; trong phương trình
(2.2.6) có phan phối logistic tiêu chuẩn hay phân bô chuẩn thông thường.
Diễn giải trên minh họa cho mỗi liên hệ chặt chẽ giữa rô hình nhiềumức cho cáo dữ liệu định lượng liên tục và mô hình nhiều mức cho oấo
dữ liệu nhị phan.
Có định u; hoặc giá sử rằng u; đã quan sát được Liv đó, hàm wat
độ có điều kiện trên cụm ] cla mô hình (3) chính bằng ham wat độ v6
31