Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
622,82 KB
Nội dung
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MƠN TỐN - LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC MỘT SỐ MƠ HÌNH HỒI QUY ĐẶC BIỆT Giáo Viên Hướng Dẫn Sinh Viên Thực Hiện ThS Võ Văn Tài Nguyễn Thị Nguyệt Thắm Bộ Mơn Tốn Tốn Ứng Dụng K32 CẦN THƠ - 05/2010 MỤC LỤC - PHẦN MỞ ĐẦU 1.Giới thiệu vấn đề nghiên cứu Bố cục luận văn Chương HỒI QUY PHỔ BIẾN 1.1 GIỚI THIỆU 1.2 SỰ TƯƠNG QUAN CỦA HAI BIẾN ĐỊNH LƯỢNG 1.2.1 Hệ số tương quan đơn 1.2.2 Tỷ tương quan 1.3 HỒI QUY TUYẾN TÍNH 1.3.1 Hồi quy tuyến tính đơn 1.3.2 Hồi quy tuyến tính bội 12 1.4 MỘT SỐ DẠNG HỒI QUY PHI TUYẾN 17 1.5 PHẦN MỀM R TRONG PHÂN TÍCH HỒI QUY 18 1.5.1 Giới thiệu phần mềm R 18 1.5.2 Sử dụng phần mềm R phân tích tương quan 19 15.3 Sử dụng phần mềm R phân tích hồi quy 20 Chương HỒI QUY CÓ BIẾN ĐỊNH TÍNH 26 2.1 GIỚI THIỆU 26 2.2 SỰ TƯƠNG QUAN CỦA CÁC BIẾN ĐỊNH TÍNH 26 2.2.1 Khái niệm 26 2.2.2 Tương quan biến định tính 28 2.3 HỒI QUY CĨ BIẾN ĐỊNH TÍNH 35 2.3.1 Quy ước giá trị cho biến định tính 35 2.3.2 Xây dựng đường hồi quy mẫu 35 Chương HỒI QUY DẠNG HÀM MŨ VÀ LOGAGIT 42 3.1 GIỚI THIỆU 42 3.2 HỒI QUY DẠNG HÀM MŨ 42 3.2.1 Mơ hình 42 3.2.2 Hàm mũ dự báo dân số 43 3.2.3 Hàm mũ dự báo sinh trưởng lâm nghiệp 46 3.3 HỒI QUY LOGISTIC 50 3.3.1 Odds biến cố 50 3.3.2 Hồi quy logistic nhị phân đơn giản 50 3.3.3 Hồi quy logistic bội 54 3.4 HỒI QUY POISSON 56 3.4.1 Mơ hình 57 3.4.2 Ước lượng hệ số hồi quy 57 3.4.3 Hồi quy Poisson bội 59 3.4.4 Ý nghĩa hệ số đường hồi quy 59 PHẦN KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 LỜI CẢM ƠN Tôi xin gởi lời cảm ơn sâu sắc đến Thầy Võ Văn Tài dành nhiều thời gian, tâm huyết hướng dẫn, giúp đỡ tơi hồn thành đề tài tốt nghiệp Thầy đưa nhiều gợi ý sâu sắc dễ hiểu giúp tơi hồn thành luận văn cách đầy đủ logic Tôi xin chân thành cảm ơn quý Thầy Cô Khoa Khoa học tự nhiên, đặc biệt Thầy Cơ Bộ mơn tốn trang bị kiến thức tảng quan trọng cho suốt trình học tập Xin cám ơn Cơ cố vấn học tập Dương Thị Tuyền, người dìu dắt, hướng dẫn có lời khun bổ ích, chân thành mà Cơ dành cho chúng tơi suốt khóa học Tơi cám ơn tập thể lớp Toán ứng dụng K32, người bạn gắn kết suốt thời gian học tập, trao đổi kiến thức để hồn thành tốt chương trình học Sau cùng, tơi xin kính gởi đến Gia đình tơi người thân lịng biết ơn, lịng kính trọng sâu sắc Nơi cho niềm tin, động viên, hỗ trợ, chỗ dựa vững cho tháng ngày giảng đường đại học Mặc dù, tơi có nhiều cố gắng hồn thành luận văn tất nhiệt huyết khả mình, kiến thức cịn hạn chế nên khơng tránh thiếu sót, mong nhận đóng góp quý báu quý Thầy Cô bạn Xin chân thành cảm ơn Cần Thơ, tháng năm 2010 Sinh viên thực Nguyễn Thị Nguyệt Thắm PHẦN MỞ ĐẦU Giới thiệu vấn đề nghiên cứu Từ kỷ 19, khái niệm hệ số tương quan (correlation) đời huân tước Francis Galton (1886), nhà toán học đồng thời bác sĩ Ông đưa khái niệm tương quan nghiên cứu tập tính chiều cao hai hệ Ông cha đẻ thuật ngữ “Hồi quy” (regression) Về sau, khái niệm tương quan hồi quy mà Galton đưa nhà toán học Karl Pearson phát triển đỉnh cao đời hệ số tương quan mang tên ông (hệ số tương quan Pearson) Ngày nay, hệ số tương quan hồi quy ứng dụng rộng rãi đóng vai trị quan trọng, khơng thể thiếu dự báo ngành kinh tế, mơ hình chuẩn đốn y khoa, dự báo thống kê dân số, mô hình sinh trưởng sinh học… Luận văn tổng kết mơ hình hồi quy sử dụng Từ mơ hình hồi quy phổ biến hồi quy tuyến tính đơn bội, đến mơ hình hồi quy phức tạp, đặc biệt hồi quy có biến định tính, hồi quy dạng hàm mũ, dạng hàm logarit,… Luận văn trình bày cách sử dụng phần mềm R phân tích tương quan mơ hình hồi quy Bố cục luận văn Luận văn gồm có phần mở đầu, phần nội dung, phần kết luận tài liệu tham khảo Phần nội dung gồm chương: Chương 1: Chương tìm mối tương quan đại lượng v tìm hệ số thể tương quan như: hệ số tương quan đơn, tỷ tương quan,… Chương xây dựng mơ hình hồi quy phổ biến như: mơ hình hồi quy đơn, mơ hình hồi quy bội hay số dạng hồi quy phi tuyến thông dụng khác… áp dụng với liệu định lượng Chương 2: Xây dựng mơ hình hồi quy liệu có xuất biến định tính Việc xây dựng mơ hình có khác biệt chủ yếu dựa vào cách xây dựng mơ hình hồi quy phổ biến Chương 3: Trong chương thiết lập mơ hình hồi quy đặc biệt khác nhằm giúp cho việc dự báo xác mơ hình hồi quy khác khơng làm hay có độ xác khơng cao Đó dạng hồi quy hàm mũ, hàm logistic Poisson Chương HỒI QUY PHỔ BIẾN 1.1 GIỚI THIỆU Trong thực tế, đại lượng thường không đứng độc lập mà ln có phụ thuộc qua lại với Sự phụ thuộc chúng đa dạng, diễn tả nhiều hình thức khác Chúng ta đánh giá mức độ chiều hướng quan hệ, tương quan hệ số đặc trưng Khi liệu biến định tính tương quan đại lượng tính dựa tảng tương quan biến định lượng Khi đại lượng có tương quan với nhau, xây dựng đường hồi quy để thể mối quan hệ Từ dự báo biến khó quan sát, khó đo qua biến quan sát đo Có nhiều mơ hình hồi quy khác thiết lập để diễn tả quan hệ khác sống, nhiên chúng xây dựng dựa mơ hình hồi quy phổ biến hồi quy tuyến tính, hồi quy phi tuyến quen thuộc Vì để xem xét số mơ hình hồi quy đặc biệt chương sau, chương giới thiệu mô hình hồi quy phổ biến 1.2 SỰ TƯƠNG QUAN CỦA HAI BIẾN ĐỊNH LƯỢNG 1.2.1 Hệ số tương quan đơn Trong nhiều toán người ta quan tâm đến mối quan hệ hai hay nhiều biến ngẫu nhiên Giả sử có hai biến ngẫu nhiên X Y Vấn đề đặt có hay khơng mối quan hệ phụ thuộc X Y? Nếu X Y độc lập ta xét riêng biến, cịn X Y phụ thuộc phụ thuộc mức độ phụ thuộc nào? Trong thực tế, mối quan hệ phổ biến X Y thường quan hệ 10 tuyến tính tham số đặc trưng cho mối quan hệ gọi hệ số tương quan a) Công thức Hệ số tương quan hai biến ngẫu nhiên X Y, kí hiệu ρ xy xác định công thức ρ xy = Cov( X , Y ) Var ( X ) Var (Y ) (1.1) Trong Var(X), Var(Y) phương sai X Y, Cov( X , Y ) hiệp phương sai hai biến X Y xác định công thức sau: C ( X , Y ) = oE[( X − Ev( X ))(Y − E (Y ))] = E ( X ) − E ( X )Y.E (Y ) Đặt σ xy = Cov( X , Y ) = σ yx Vì σ x = V a( Xr ) σ y = V a(Yr) nên công thức (1.1) viết lại sau: ρ xy = σ xy σ x σ y (1.2) b) Ý nghĩa Hệ số tương quan hai biến đại lượng dùng để thể chiều hướng độ mạnh hay yếu mối quan hệ tuyến tính hai biến ρ xy gần mối quan hệ tuyến tính chặt ρ xy gần mối quan hệ tuyến tính yếu c) Tính chất Hệ số tương quan ρ xy có tính chất sau: i) − ≤ ρ xy ≤ ii) ρ xy 0: X Y có mối liên hệ tuyến tính thuận ( ρ = thể mối liên hệ tuyến tính thuận hồn tồn) iv) ρ xy = 0: X Y khơng có mối liên hệ tuyến tính 11 d) Hệ số tương quan tuyến tính mẫu R Trong thực tế, khơng biết xác σ xy , σ x , σ y để tính hệ số tương quan ρ xy ta phải biết luật phân phối xác suất đại lượng ngẫu nhiên Do đó, ta phải ước lượng tham số tổng thể công thức (1.2) tham số mẫu đặt trưng Giả sử từ tổng thể ta chọn mẫu gồm n phần tử Quan sát hai biến ngẫu nhiên X Y n phần tử mẫu, ta có số liệu cụ thể: (x ,y ), (x ,y ),…, (x n ,y n ) n n n Đặt x = ∑ xi , y = ∑ y i , xy = ∑ xi y i n i =1 n i =1 n i =1 Khi σ xy , σ x , σ y lần lựợt ước lượng S xy , ( n ) ( S x =y ∑ yi xi − x = n x − yx y Sx , S y sau: ) i =1 n ( ) ( ) S x = ∑ xi − x i =1 n S y = ∑ yi − y i =1 1 n = ∑ xi − ∑ xi n i =1 i =1 n 2 1 n = ∑ yi − ∑ yi n i =1 i =1 n 2 Như hệ số tương quan xác định công thức (1.2) ước lượng hệ số tương quan mẫu (kí hiệu: R) Sx y R= Hay R= ( n xy − x y ∑ y − ∑ y i i =1 i n i =1 n n (1.3) Sx S y ) ∑ x − ∑ x i i =1 i n i =1 n n = ( n xy − x y ) (1.4) Sx Sy Ví dụ 1.1 Bảng sau cho số liệu mức chi tiêu dùng (y–đôla/tuần) thu nhập hàng tuần (x–đôla/tuần) mẫu gồm 10 hộ gia đình Giả sử x y có mối quan hệ tương quan tuyến tính Hãy tìm hệ số tương quan x y y i 70 x i 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 Giải Từ số liệu quan sát trên, ta có bảng tính thơng tin cần thiết để tìm hệ số tương quan mức chi tiêu dùng thu nhập hàng tuần sau: 12 STT 10 Tổng: 10 Ta có n = 10, ∑x i =1 10 ∑x y i =1 i i i yi 70 65 90 95 110 115 120 140 155 150 1110 = 1700 , 10 ∑y i =1 = 205500 , x = i xi 80 100 120 140 160 180 200 220 240 260 1700 xi yi yi2 xi2 5600 4900 6400 6500 4225 10000 10800 8100 14400 13300 9025 19600 17600 12100 25600 20700 13225 32400 24000 14400 40000 30800 19600 48400 37200 24025 57600 39000 22500 67600 205500 132100 322000 = 1110 , ∑x 10 i =1 i = 322000 , 10 ∑y i =1 i = 132100 1700 1110 205500 = 170 , y = = 111 , xy = = 20550 10 10 10 Vậy hệ số tương quan x y R= 10(20550 − 170 x111) 1110 132100 − 10 1700 322000 − 10 = 16800 293370000 = 0.9808474 Nhận xét: R = 0.9808474 > nên x y có mối liên hệ tuyến tính thuận 1.2.2 Tỷ tương quan Hệ số tương quan đơn để đo mức độ phụ thuộc tuyến tính hai biến ngẫu nhiên X Y Giữa hai đại lượng ngẫu nhiên X Y cịn có phụ thuộc phi tuyến Do hệ số tương quan X Y nhỏ hay chí khơng ta kết luận X Y khơng có tương quan khơng xác, chúng có hình thức tương quan khác Vì vậy, người ta muốn đưa đại lượng mà đo mức độ tương quan hai biến ngẫu nhiên Đại lượng gọi tỷ tương quan a) Cơng thức Giả sử Var(Y) >0, tỷ tương quan hai đại lượng X Y (kí hiệu ηY2 / X ) xác định công thức sau: η 2Y / X = Var ( E (Y / X )) E ( E (Y / X )) − ( E (Y )) = Var (Y ) E (Y ) − ( E (Y )) (1.5) 56 ii) Hàm Schumacher có dạng Y = Y max exp(-b A-b1) Trong Y = biến số phụ thuộc, Ymax = giá trị lớn biến phụ thuộc, b b tham số mơ hình, A = tuổi Trước hết, giả định Y max = 70cm thủ tục tuyến tính hóa, xác định hai tham số hàm Schumacher sau: b = -376679, b = -0.38444 Như vậy, mơ hình biến đổi đường kính thân theo tuổi có dạng Y = 70.exp(-3.76679.A-0.38444) 3.3 HỒI QUY LOGISTIC Trong mô hình hồi quy truyền thống, biến phụ thuộc biến độc lập nhận giá trị tập số thực Trong thực tế có nhiều trường hợp, đại lượng nhận hai giá trị 1, ại l phụ thuộc vào biến độc lập khác nhận giá trị tập số thực Trong trường hợp người ta thường sử dụng mơ hình hồi quy Logistic 3.3.1 Odds biến cố Odds biến cố xảy định nghĩa tỉ số xác suất biến cố xảy với xác suất biến cố khơng xảy Kí hiệu: odds biến cố A ký hiệu Odds(A) Như odds ( A) = P ( A) − P ( A) Tỷ số odds hai biến cố A B xảy tỷ số odds(A) odds(B) Kí hiệu: OR(A, B) Như OR = ( A, B ) odds ( A) P ( A) − P ( B ) = odds ( B ) − P ( A) P ( B ) Nhận xét: odds biến cố xảy số so sánh số lần xác suất xảy không xảy biến cố Trong OR(A,B) số so sánh số lần odds(A) odds(B) 3.3.2 Hồi quy logistic đơn 57 a) Mơ hình Khi tìm mối quan hệ biến phụ thuộc nhị phân với biến độc lập khác, ta gặp vấn đề khó khăn so với mơ hình hồi quy khác Bởi xác suất thành cơng đưa giá trị 1, biến độc lập khác nhận giá trị Để gi ải khó khăn này, người ta sử dụng mơ hình hồi quy logistic Hàm logistic ẽs tìm mối quan hệ odds thành công với biến độc lập khác Mối quan hệ thơng thường tuyến tính Giả sử biến cố A có xác suất p, có mối quan với biến X, ta khơng thể tìm trực tiếp mối quan hệ p thuộc đoạn [0,1] X tùy ý Vì ln[odds( A)] = ln p có mối quan hệ với p có giá trị nên ta 1− p p thay mối quan hệ p X mối quan hệ ln X − p Giả sử mối quan hệ sau: p = β + β1 X + ε Y = ln 1− p Trong β β1 xác định độ dốc điểm chắn đường cong, ε thành phần ngẫu nhiên b) Xây dựng đường hồi quy mẫu p ˆ = β + βˆ1 x p − Xét mơ hình hồi quy mẫu y = ln (3.19) Trong βˆ0 βˆ1 ước lượng điểm β β1 Từ (3.19) ta có p ˆ ˆ = e β + β1x 1− p (3.20) Từ (3.20) ta có xác suất thành cơng khơ ng thành công xác định công thức sau: e β + β1 x ˆ p= 1+ e βˆ0 + βˆ1 x e β + β1x ˆ ˆ − p = − 1+ e ˆ βˆ0 + βˆ1 x = 1+ e − βˆ0 − βˆ1 x Thực n lần quan sát độc lập (x i , y i ), i = 1, 2,…, n ta có hàm hợp lý 58 e βˆ0 + βˆ1x L = ∏ βˆ0 + βˆ1 x i =1 + e n 1− yi + e − βˆ0 − βˆ1x yi Trong yi nhận giá trị kết thành công nhận giá trị kết thất bại ∂L βˆ = Cực tiểu hóa hàm hợp lý L ta có hệ phương trình ∂L = βˆ1 Hệ phương trình cụ thể sau: ( ) n −1 n − (βˆ0 + βˆ1 xi ) = y ∑ i ∑ + e i =1 i =1 n n ˆ ˆ xy = xi + e −(β + β1xi ) ∑ ∑ i i i =1 i =1 ( ) Việc giải hệ phương trình để tìm biểu thức giải tích cụ thể phức tạp trường hợp tổng quát nên người ta giải trường hợp cụ thể Tuy nhiên, việc tính tốn trường hợp cụ thể khơng đơn giản, nên thực tế người ta thường sử dụng đến hỗ trợ phần mềm tính toán SPSS, R, … Trong luận văn sử dụng phần mềm R c) Sử dụng phần mềm R ta làm sau: Để sử dụng phần mềm R phân tích tương quan ầcn nhập số liệu vào R với lệnh thông thường sau: Tạo số thứ tự lệnh > id x i yi data data Ước tính thơng số mơ hình hồi quy logistic ta dùng hàm glm (viết tắc từ generalized linear model) với cú pháp > logistic summary (logistic) Ví dụ 3.3 Trong nghiên cứu để tìm hiểu mối liên hệ nguy gãy xương (fx) mật độ xương số số sinh hóa khác 10 bệnh nhân nam tuổi từ 60 tuổi trở lên Năm 1990, số liệu sau thu thập cho đối tượng: độ tuổi (age), tỉ trọng thể (bmi), mật độ chất khoáng xương (bmd), số hủy xương (ictp), số tạo xương (pinp) Tro ng thời gian theo dõi, bệnh nhân bị gãy xương không gãy xương ghi nhận bảng số liệu sau: STT Nguy Độ tuổi Tỉ trọng id gãy xương (age) thể (bmi) (fx) 10 1 1 0 0 79 89 70 88 85 68 70 69 74 79 24.7252 25.9909 25.3934 23.2254 24.6097 25.0762 19.8839 25.0593 25.6544 19.9594 Mật độ Chỉ số Chỉ số chất khoáng hủy xương tạo xương xương (ictp) (pinp) (bmd) 0.818 9.17 37.383 0.871 7.561 24.685 1.358 5.347 40.62 0.714 7.354 56.782 0.748 6.76 58.358 0.935 4.939 67.123 1.04 4.321 26.399 1.002 4.212 47.515 0.987 5.605 26.132 0.863 5.204 60.267 Câu hỏi đặt có mối liên hệ mật độ chất khống xương (bmd) nguy gãy xương (fx) hay không? Giải Ta giải phần mềm R, ta thực lệnh sau: Kết quả: > id fx bmd data logistic summary (logistic) Call: glm(formula = fx ~ bmd, family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.24167 -1.12272 -0.04761 1.05848 1.59115 Coefficients: Estimate Std Error z value Pr(>|z|) 60 (Intercept) 2.041 3.661 0.557 0.577 bmd -2.191 3.886 -0.564 0.573 (Dispersion parameter for binomial family taken to be 1) Null deviance: 13.863 on degrees of freedom Residual deviance: 13.523 on degrees of freedom AIC: 17.523 Number of Fisher Scoring iterations: Nghĩa ta có mơ hình hồi quy yˆ = 2.041 − 2.191x Vì βˆ1 số âm nên mối liên hệ mật độ chất khoáng xương (bmd) nguy gãy xương (fx) mối liên hệ nghịch đảo: xác suất gãy xương tăng mật độ chất khoáng xương giảm 3.3.3 Hồi quy logistic bội a) Mơ hình Giả sử biến cố A có xác suất p, phụ thuộc vào biến định lượng X , X , …, X k Ta cần thiết lập mơ hình k p = β + ∑ β j X j + ε Y = ln j =1 1− p (3.21) Mơ hình (3.21) gọi hồi quy logistic bội Trong β j , j = 0,1, , k hệ số đường hồi quy ε thành phần ngẫu nhiên b) Xây dựng đường hồi quy mẫu Chúng ta xây dựng đường hồi quy mẫu dạng k p ˆ = β + ∑ βˆ j x j y = ln j =1 1− p (3.22) Trong βˆ j , j = 0,1, , k ước lượng β j Thực lấy n mẫu độc lập (y i , x ij) , i = 0,1, , n , j = 0,1, , k ta có Từ (3.22) ta thấy xác suất thành công không thành công cho lần quan sát xác định công thức pi = e k ˆ β + ∑ βˆ j xij j =1 1− e k ˆ β + ∑ βˆ j xij j =1 61 − pi = − e k ˆ ˆ β + j∑=1β j xij 1− e k ˆ β + ∑ βˆ j xij j =1 = k 1+ e − βˆ0 − ∑ βˆ j xij j =1 Ta có hàm hợp lý yi k 1− yi β + ∑ β j xij n j =1 e L = ∏ k k β + ∑ β j xij β + ∑ β j xij i =1 = j 1= j 1+ e 1+ e Trong yi nhận giá trị kết thành công nhận giá trị kết thất bại ∂L βˆ = ∂L =0 Cực đại hóa hàm hợp lý L ta có hệ phương trình βˆ1 ∂L ˆ =0 βk Hệ phương trình cụ thể sau: −1 k n n − βˆ0 + ∑ βˆ j xij j = y = 1+ e ∑ i ∑ i =1 i =1 ^ k n − βˆ0 + ∑ β i xij n j = ∑ xi y i = ∑ xi + e i =1 i =1 Trong thực tế người ta không sử dụng hệ phương trình để tìm hệ số đường hồi quy phức tạp Trong luận văn sử d ụng phần mềm R để tìm hệ số hồi quy Ví dụ 3.4 Quan tâm đến việc thường xuyên uống rượu sinh viên trường đại học châu Âu, người ta vấn 1000 sinh viên nam 1000 sinh viên nữ Kết có có 227 sinh viên nam trả lời có thường xuy ên uống rượu, nữ 170 Tìm đường hồi quy biểu thị mức độ thường xuyên uống rượu theo giới tính Giải 62 Cách để phân tích liệu ta sử dụng hồi quy logistic Biến giải thích giới tính cần phải mã hóa chúng Ta có mã hóa sau: x = : sinh viên nam, x = : sinh viên nữ Biến độc lập tỉ lệ người thường xuyên uống rượu Sử dụng hồi quy logistic, ta thực i chuyển đổi biến Thứ nhất, biến đổi odds cho nam nữ p 0.227 ) = = = 0.294 odds (men − p − 0.227 p 0.170 odds (women = ) = = 0.205 − p − 0.170 Ta có mơ hình hồi quy logistic p = = y ln(odds= ) ln β + β1 x 1− p Khi biến độc lập dành cho nam tương ứng với giá trị x = biến độc lập dành cho nữ tương ứng x = ln(oddsmen ) = ln(0.294) = −1.23 = β + β1 y = ln(oddswomen ) = ln(0.205) = −1.59 = β0 y = Để tìm ước lượng βˆ0 βˆ1 ước lượng tương ứng β β1 kết hợp phương trình nam nữ Chúng ta nhìn thấy ước lượng điểm chắn βˆ0 đơn giản tương ứng với ln(oddswomen ) cho nữ Do độ dốc khác biệt ln(oddsmen ) cho nam ln(oddswomen ) cho nữ ^ β = −1.23 − (−1.59) = 0.36 Vậy mô hình hồi quy logistic phù hợp y = ln(odds ) = −1.59 + 0.36 x 3.4 HỒI QUY POISSON Trong thực tế có nhiều trường hợp, đại lượng có phân phối Poisson phụ thuộc vào biến rời rạc độc lập Trong trường hợp này, sử dụng mơ hình hồi quy truyền thống cho kết dự báo có nhiều sai lệch, người 63 ta tìm kiếm mơ hình khác thích hợp Giả sử đại lượng Y có phân phối Poisson với trung bình λ Nếu xem λ biến phụ thuộc, việc biểu diễn qua biến độc lập dẫn đến vơ lý Bởi λ trung bình số đếm, khơng âm, bi ến độc lập nhận giá trị Giải khó khăn này, người ta lấy logarit số e trung bình λ xem biến phụ thuộc, biểu diễn qua biến độc lập Mơ hình hồi quy gọi hồi quy Poisson Về mặt lý thuyết ta biểu diễn ln( λ ) qua biến độc lập hàm tuyến tính phi tuyến Tuy nhiên thực tế, mơ hình hồi quy Poisson thích hợp với hình thức tuyến tính luận văn, chúng tơi trình bày hồi quy Poisson với hình thức phổ biến Hồi quy Poisson thiết lập sau mơ hình hồi quy truyền thống, nhu cầu việc dự báo nghiên cứu thực nghiệm quan sát nhiều lĩnh vực: kinh tế, tâm lý học, y học,… Đặc biệt, mơ hình hồi qui Poisson áp dụng nhiều sinh học y học Các nghiên cứu y tế dự đoán yếu tố gây bệnh, đánh giá loại thuốc, đánh giá phương pháp điều trị mới, … sử dụng mơ hình hồi quy Poisson 3.4.1 Mơ hình Cho đại lượng Y có phân phối Poisson phụ thuộc vào đại lượng X Giả sử ta có mối quan hệ X Y sau: ln(Y ) = ln( N ) + β + β1 X + ε (3.23) Y = exp(β + β1 X + ε ) = exp(β )exp(β1 X )exp(ε ) N (3.24) Hay Trong N số phần tử tổng thể, ε thành phần ngẫu nhiê n, khơng chệch Y ln(E(Y/X)), ε không, lớn không, nhỏ hỏn khơng giá trị nằm ngay, phía trên, phía đường hồi quy Chúng ta giả sử E( ε ) = Var( ε ) = σ hay ε ~N(0, σ ), ε biến ngẫu nhiên khơng tương quan mơ hình (3.2 3) (3.24) gọi mơ hình hồi quy Poisson tuyến tính đơn 3.4.2 Ước lượng hệ số hồi quy 64 Cho đại lượng ngẫu nhiên Y có phân phối Poisson tổng thể gồm N phần tử Chúng ta xây dựng mơ hình hồi quy Poisson tuyến tính đơn sau: t = exp β + β1 x hay ln(t ) = β + β1 x Trong t = y N Quan sát mẫu gồm m i phần tử, đại lượng Y nhận giá trị y i ứng với đại lượng X nhận giá trị x i, i = 1, 2, …, n Nghĩa ta có n cặp liệu (x 1, y , m ), (x 2, y , m ),…, (x n, y n ,m n ) để ước lượng tham số β , β1 ta sử dụng phương pháp bình phương tối tiểu Đặt t i = yi , với i=1,2,…, n ta có t i = exp(β + β1 xi ) mi (3.25) ln(t i ) = β + β1 xi Hay Gọi βˆ0 βˆ1 ước lượng β β1 , nghĩa ln tˆi = βˆ0 + βˆ1 xi Ta có tổng bình phương sai số giá trị quan sát thực tế lý thuyết ( ) ( L βˆ0 , βˆ1 = ∑ (ln t i − ln tˆi ) = ∑ ln t i − βˆ0 − βˆ1 xi n n i =1 i =1 ( ) (3.26) ) Chúng ta cần tìm βˆ0 , βˆ1 cho L βˆ0 , βˆ1 nhỏ Vì hai giá trị nghiệm hệ phương trình ( ) ( ) n ∂L ln t i − βˆ0 − βˆ1 xi = = − ∑ ˆ i =1 ∂β n ∂L = −2 ln t − βˆ − βˆ x x = ∑ i i i ∂βˆ i =1 Hệ phương trình tương đương n n ˆ n ˆ β β ln x x xi t i + = ∑ ∑ i ∑ i i =1 i =1 i =1 n n x βˆ + nβˆ = ln t ∑ i i ∑ i =1 i =1 Đây hệ phương trình tuyến tính bậc với hai ẩn βˆ0 , βˆ1 Giải hệ phương trình ta 65 n n n n ln ∑ xi t i − ∑ xi ln ∑ t i i =1 i =1 i =1 βˆ1 = n n n∑ xi − ∑ xi i =1 i =1 n 1 n βˆ0 = ln ∑ t i − βˆ1 ∑ xi n i =1 i =1 ( ) Khi tính βˆ0 , βˆ1 ta viết mơ hình hồi quy mẫu tˆ = exp βˆ0 + βˆ1 x ln(tˆ) = βˆ0 + βˆ1 x 3.4.3 Hồi quy Poisson bội Cho đại lượng Y có phân phối Poisson p hụ thuộc vào n đại lượng X , X , …, X n Giả sử ta có mối quan hệ X , X , …, X n Y sau: n ln(Y ) = ln( N ) + β + ∑ β i X i + ε (3.27) i =1 Trong N ε xác định giống mơ hình (3.23) Mơ hình (3.27) gọi hồi quy Poisson bội Nhiều tài liệu khẳng định tìm biểu thức giải tích cụ thể cho việc tính giá trị tham số đường hồi quy Poisson Trong thực tế tính giá trị ước lượng dựa phần mềm Trong luận văn, chúng tơi sử dụng phần mềm R để tìm hệ số 3.4.4 Ý nghĩa hệ số đường hồi quy log- tuyến tính Xét mơ hình hồi quy logistic bội Poisson bội LnY = β +β X +…+β k X k + ε i ∀i = 1, n (3.28) Thực đạo hàm riêng theo biến X j mô hình (3.28) sau: ∂ (Y ) ∂Ln(Y ) βj = = Y ∂X j ∂X j (3.29) Từ (3.29) giải thích ý nghĩa β j ( ∀j = 1, k ) sau: điều kiện nhân tố khác không đổi, X j tăng lên đơn vị (theo đơn vị tính X j ) Y tăng bình quân β j% Ví dụ 3.5 Số liệu sau số trường hợp mắc bệnh ung thư da phụ nữ thuộc “ thành phố song sinh” Minneapolis – St paul (Mĩ) 66 STT (id) Độ tuổi (age) Số trường hợp ung thư da (cases) Dân số (pop) Tỷ lệ phát sinh 1000 dân số 15-24 25-34 35-44 45-54 55-64 65-74 75-84 85+ 16 30 71 102 130 133 40 172.68 146.21 121.37 111.35 83.004 55.932 29.007 7.538 0.0058 0.1094 0.2472 0.6376 1.2289 2.3243 4.5851 5.3064 Dựa vào bảng số liệu trên, xây dựng mơ hình hồi quy để ước lượng tỷ lệ phát sinh bệnh ung thư da 1000 dân theo độ tuổi dân số Giải Chúng ta sử dụng phần mềm R để ước tính thơng số mơ hình hồi quy Poisson sau: > id age cases pop dataset fit