Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 46 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
46
Dung lượng
1,4 MB
Nội dung
BỘ Y TẾ ĐẠI HỌC Y DƢỢC THÀNH PHỐ HỒ CHÍ MINH CHƢƠNG TRÌNH KHOA HỌC VÀ CƠNG NGHỆ CẤP CƠ SỞ BÁO CÁO TỔNG HỢP KẾT QUẢ ĐỀ TÀI NGHIÊN CỨU KHOA HỌC Hồi qui Logistic ( Logistic Regression) Cơ quan chủ trì nhiệm vụ: KHOA KHOA HỌC CƠ BẢN Chủ trì nhiệm vụ: Chu Văn Thọ Thành phố Hồ Chí Minh - 2019 ĐẠI HỌC Y DƢỢC THÀNH PHỐ HỒ CHÍ MINH CHƢƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ Hồi qui Logistic ( Logistic Regression) Cơ quan chủ quản (ký tên đóng dấu) Chủ trì nhiệm vụ (ký tên) Chu Văn Thọ Cơ quan chủ trì nhiệm vụ (ký tên đóng dấu) CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc Tp HCM, ngày 14 tháng năm 2019 BÁO CÁO THỐNG KÊ KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC I THÔNG TIN CHUNG Tên đề tài: Phân biệt phân phối Chuẩn phân phối Laplace Thuộc lĩnh vực : Toán ứng dụng Chủ nhiệm nhiệm vụ: Họ tên: Chu Văn Thọ Ngày, tháng, năm sinh: 23/07/1956 Nam/ Nữ: Nam Học hàm, học vị: Tiến sĩ Chức danh khoa học: Chức vụ: Giảng viên Điện thoại: Tổ chức: Nhà riêng: Mobile: 0908707990 Fax: E-mail: Tên tổ chức công tác: Bộ mơn Tốn, Khoa Khoa Học Cơ Bản Địa tổ chức: 217 Hồng Bàng, Phường 11, Quận 5, Tp HCM Địa nhà riêng: Tổ chức chủ trì nhiệm vụ(1): Tên tổ chức chủ trì nhiệm vụ: Khoa Khoa Học Cơ Bản Điện thoại: Fax: E-mail: Website: Địa chỉ: 217 Hồng Bàng, Phường 11, Quận 5, Tp HCM Tên quan chủ quản đề tài: Đại học Y Dược thành phố Hồ Chí Minh II TÌNH HÌNH THỰC HIỆN Thời gian thực nhiệm vụ: Tên Khoa Trung tâm, đơn vị - nơi quản lý trực tiếp cá nhân làm chủ nhiệm đề tài - Theo Hợp đồng ký kết: từ tháng năm 2017 đến tháng năm 2019 - Thực tế thực hiện: từ tháng năm 2017 đến tháng năm 2019 - Được gia hạn (nếu có): gia hạn tháng Từ tháng năm 2019 đến tháng năm 2019 Kinh phí sử dụng kinh phí: a) Tổng số kinh phí thực hiện: tr.đ, đó: + Kính phí hỗ trợ từ ngân sách khoa học nhà trường: ………………….tr.đ + Kinh phí từ nguồn khác: ……………….tr.đ b) Tình hình cấp sử dụng kinh phí từ nguồn ngân sách khoa học: Số TT Theo kế hoạch Thời gian Kinh phí (Tháng, năm) (Tr.đ) Thực tế đạt Thời gian Kinh phí (Tháng, năm) (Tr.đ) Ghi (Số đề nghị toán) … c) Kết sử dụng kinh phí theo khoản chi: Đơn vị tính: Triệu đồng Theo kế hoạch Số TT Nội dung khoản chi Trả công lao động (khoa học, phổ thông) Nguyên, vật liệu, lượng Thiết bị, máy móc Xây dựng, sửa chữa nhỏ Chi khác Tổng cộng Tổng NSKH Nguồn khác Thực tế đạt Tổng NSKH Nguồn khác - Lý thay đổi (nếu có): Tổ chức phối hợp thực nhiệm vụ: Số TT Tên tổ chức đăng ký theo Thuyết minh Tên tổ chức tham gia thực Nội dung tham gia chủ yếu Sản phẩm chủ yếu đạt Ghi chú* - Lý thay đổi (nếu có): Cá nhân tham gia thực nhiệm vụ: (Người tham gia thực đề tài thuộc tổ chức chủ trì quan phối hợp, khơng q 10 người kể chủ nhiệm) Số TT Tên cá nhân đăng ký theo Thuyết minh Tên cá nhân tham gia thực Nội dung tham gia Sản phẩm chủ yếu đạt Ghi chú* - Lý thay đổi ( có): Tình hình hợp tác quốc tế: Số TT Theo kế hoạch (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Thực tế đạt (Nội dung, thời gian, kinh phí, địa điểm, tên tổ chức hợp tác, số đoàn, số lượng người tham gia ) Ghi chú* - Lý thay đổi (nếu có): Tình hình tổ chức hội thảo, hội nghị: Theo kế hoạch Thực tế đạt Số (Nội dung, thời gian, kinh phí, (Nội dung, thời gian, TT địa điểm ) kinh phí, địa điểm ) Ghi chú* - Lý thay đổi (nếu có): Tóm tắt nội dung, công việc chủ yếu: (Nêu mục .của đề cương, không bao gồm: Hội thảo khoa học, điều tra khảo sát nước nước ngoài) Số Các nội dung, công việc Thời gian Người, TT chủ yếu (Các mốc đánh giá chủ yếu) (Bắt đầu, kết thúc - tháng … năm) Theo kế Thực tế đạt hoạch quan thực Theo kế hoạch Thực tế đạt - Lý thay đổi (nếu có): III SẢN PHẨM KH&CN CỦA ĐỀ TÀI Sản phẩm KH&CN tạo ra: a) Sản phẩm Dạng I: Số TT Tên sản phẩm tiêu chất lượng chủ yếu Đơn vị đo Số lượng - Lý thay đổi (nếu có): b) Sản phẩm Dạng II: Số TT Tên sản phẩm Yêu cầu khoa học cần đạt Theo kế hoạch Thực tế đạt Ghi - Lý thay đổi (nếu có): c) Sản phẩm Dạng III: Số TT Tên sản phẩm - Lý thay đổi (nếu có): Yêu cầu khoa học cần đạt Theo Thực tế kế hoạch đạt Số lượng, nơi cơng bố (Tạp chí, nhà xuất bản) d) Kết đào tạo: Số TT Cấp đào tạo, Chuyên ngành đào tạo Thạc sỹ Tiến sỹ Số lượng Theo kế hoạch Thực tế đạt Ghi (Thời gian kết thúc) - Lý thay đổi (nếu có): đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp: Số TT Tên sản phẩm đăng ký Kết Thực tế đạt Theo kế hoạch Ghi (Thời gian kết thúc) - Lý thay đổi (nếu có): e) Thống kê danh mục sản phẩm KHCN ứng dụng vào thực tế Số TT Tên kết ứng dụng Thời gian Địa điểm (Ghi rõ tên, địa nơi ứng dụng) Kết sơ 2 Đánh giá hiệu đề tài mang lại: a) Hiệu khoa học công nghệ: (Nêu rõ danh mục công nghệ mức độ nắm vững, làm chủ, so sánh với trình độ cơng nghệ so với khu vực giới…) b) Hiệu kinh tế xã hội: (Nêu rõ hiệu làm lợi tính tiền dự kiến nhiệm vụ tạo so với sản phẩm loại thị trường…) Tình hình thực chế độ báo cáo, kiểm tra đề tài: Số TT I Nội dung Báo cáo tiến độ Lần Thời gian thực Ghi (Tóm tắt kết quả, kết luận chính, người chủ trì…) II … Báo cáo giám định kỳ Lần … Chủ nhiệm đề tài (Họ tên, chữ ký) Chu Văn Thọ Thủ trƣởng tổ chức chủ trì (Họ tên, chữ ký đóng dấu) ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ HỒI QUI LOGISTIC ĐA BIẾN The Multiple Logistic Regression TS CHU VĂN THỌ Abstract Logistic regression has proven to be one of the most versatile techniques in the class of generalized linear models Whereas linear regression models equate the expected value of the dependent variable to a linear combination of independent variables and their corresponding parameters, generalized linear models equate the linear component to some function of the probability of a given outcome on the dependent variable In logistic regression, that function is the logit transform: the natural logarithm of the odds that some event will occur What distinguishes a logistic regression model from the linear regression model is that the outcome variable in logistic regression model is binary or dichotomous This difference between logistic regression and linear regression is reflected both in the choice of a parametric model and in the assumptions In linear regression, parameters are estimated using the method of least squares by minimizing the sum of squared deviations of predicted values from observed values In logistic regression, least squares estimation is not capable of producing minimum variance unbiased estimators for the actual parameters In its place, maximum likelihood estimation is used to solve for the parameters that best fit the logistic regression equation We have proved the asymptotic properties of the maximum likelihood estimator: Consistency, Asymptotic Normality, and Asymptotic Efficiency We have found that the best unbiased estimator has a variance that is equal to The Cramer-Rao Lower Bound Finally, we have applied the estimated asymptotic variance of the maximum likelihood estimator in the logistic regression model A - PHẦN NGHIÊN CỨU CƠ BẢN Ƣớc lƣợng Cực đại Khả (The Maximum Likelihood Estimator – MLE) Hồi qui Logistic Đa biến (The Multiple Logistic Regression) B - PHẦN NGHIÊN CỨU ỨNG DỤNG Một số toán ứng dụng Hồi qui Logistic Bài toán 1: Tuổi Bệnh Động mạch vành (Age and Coronary Heart Disease - CHD) Bài toán 2: Nghiên cứu Trọng lƣợng trẻ sơ sinh thấp (The Low Birth Weight Study - LOW) David W.Hosmer and Stanley Lemeshow (2000) Applied Logistic Regression Second Edition A Wiley Interscience Publication John Wiley & Sons, Inc, Newyork Kiểm định giả thiết (Hypothesis Testing) ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION A - PHẦN NGHIÊN CỨU CƠ BẢN Ƣớc lƣợng Cực đại Khả (The Maximum Likelihood Estimator – MLE) 1.1 Hàm Likelihood Gọi ,…, mẫu biến ngẫu nhiên độc lập có phân phối (an independent and identically distributed sample - iid sample) với hàm mật độ xác suất (probability density function - pdf) f( ; ), vectơ tham số, = Hàm mật độ xác suất liên kết (joint pdf function) mẫu … iid, hàm n-chiều (ndimensional) mẫu quan sát … , với vectơ tham số , tích hàm mật độ f( ; ): = ∏ , thỏa: { ∫ Nếu ,…, ∫ biến ngẫu nhiên rời, với vectơ tham số , hàm mật độ liên kết là: ; ) = ∏ Hàm Likelihood, đƣợc định nghĩa nhƣ hàm mật độ xác suất liên kết, hàm theo vectơ tham số , ứng với mẫu quan sát … : ) = ∏ L( , thỏa: { ∫ Để đơn giản, với mẫu quan sát , có dạng: f(x; ) = ∫ ), hàm mật độ liên kết hàm Likelihood viết =( L( |x) = L( ) Thí dụ 1: Phân phối Bernoulli Gọi ,…, mẫu iid, với ~ Bernoulli( ) = với xác suất and = với xác suất – , ≤ ≤ Hàm pdf cho f( ; ) = , = 0,1 Hàm Likelihood theo biến tham số , với mẫu quan sát cho trước = ( ), L( x) = ∏ =∏ = ∑ ∑ Thí dụ 2: Phân phối chuẩn Gọi ,…, Hàm pdf cho mẫu iid, với f( ; ) = Hà √ ~ N(μ; exp(− ), μ R, R + ) vectơ tham số t cho trước = (μ; =( ), ), R ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION Variables in the Equation Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh Step B S.E Wald df Sig Exp(B) AGE 116 025 22.075 000 1.123 Constant -5.621 1.174 22.911 000 004 a a Variable(s) entered on step 1: AGE Mô hình ước lượng hồi qui logistic, với biến T(AGE) (ký hiệu biến ̂ ̂ = log = ̂ +̂ = +0 (AGE)), là: ̂ , ̂ ̂ = ̂ = Trong dân số, người 63 tuổi, ước lượng khả có CHD là: ̂ = 0.8434 = ƢỚC LƢỢNG ODDS RATIO CHO ĐỘ TĂNG THEO BIẾN ĐỘC LẬP LIÊN TỤC Ta có ̂ ̂ = log ̂ ̂ log ̂ = ̂ ̂ , for any value t Ƣớc lƣợng odds ratio cho độ tăng c theo t ̂ ̂ c) = ̂ (t + c , t) = ̂ ̂ ̂ ̂ Khoảng tin cậy 100(1- α)% ước lượng ̂ ̂̂ ̂ khoảng tin cậy 100(1-α)% ước lượng odds ratio ̂ c) ̂ ̂̂ Áp dụng vào toán Tuổi Bệnh Động mạch vành (Age and CHD): Ước lượng odds ratio cho tăng năm theo tuổi ̂ 1) = ̂ = ̂ = = 1.1173 Điều chứng tỏ năm, odd bị CHD tăng 1.1173 lần Nói khác đi, năm, nguy bị C 24 ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ Ước lượng odds ratio cho tăng 10 năm theo tuổi Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh ̂ 10) = ̂ = ̂ = 3.0343 Điều chứng tỏ 10 năm, odd bị CHD tăng 3.0343 lần Nói khác đi, 10 năm, nguy bị CHD tăng 3.0343 lần Giá trị thực phát biểu bị nghi ngờ, odd bị CHD người 40 tuổi tăng so với người 30 tuổi khác hồn toàn với odd bị CHD người 60 tuổi tăng so với người 50 tuổi Nói khác đi, thực tế, nguy tăng CHD người 40 tuổi so với người 30 tuổi khác hồn tồn với nguy tăng CHD người 60 tuổi so với người 50 tuổi Tình trạng khó tránh khỏi hiệp biến liên tục (continuous covariates) mơ hình tuyến tính logit 3.2 Bài tốn 2: Nghiên cứu Trọng lƣợng trẻ sơ sinh thấp (The Low Birth Weight Study - LOW) Trọng lượng trẻ sơ sinh thấp, định nghĩa trọng lượng trẻ sơ sinh nhỏ 2500g, vấn đề quan tâm bác sĩ nhiều năm Sự thật tỉ lệ tử vong trẻ em tỉ lệ trẻ em bị khiếm khuyết cao trẻ sơ sinh có trọng lượng thấp Dữ liệu thu thập từ nghiên cứu trung tâm Y khoa Baystate, Springfield, Massachusetts Theo liệu này, n = 189 ca sinh sản phụ, có = 59 ca sinh có trọng lượng trẻ sơ sinh thấp, = 130 ca sinh có trọng lượng trẻ sơ sinh bình thường Table Code Sheet for the Variables in the Low Birth Weight Data Variable Description Identification code Low Birth Weight Age of Mother Weight of Mother at Last Menstrual Period Race Smoking Status During Pregnancy History of Premature Labor 10 History of Hypertension Presence of Uterine Irritability Number of Physician Visits During 1st Trimester Birth Weight 11 Codes/Values ID number = 2500g; 1= < 2500g Years Pounds = White; = Black; = Other = No; 1= Yes = None; = One; = Two ,etc = No; 1= Yes = No; 1= Yes = None; = One; = Two ,etc Grams Name ID LOW AGE LWT RACE SMOKE PTL HT UI FTV BWT Mục tiêu nghiên cứu xác định xem biến số này, biến yếu tố nguy có trọng lượng trẻ sơ sinh thấp, dân số sản phụ khám Trung tâm Y khoa Baystate Bốn biến số đánh giá quan trọng AGE, LWT, RACE, FTV Biến RACE mã hóa = White; = Black; = Other Trong trường hợp này, hai biến thiết kế (design variables) cần thiết Khi đó, “White” mã hóa = = 0; “Black” mã hóa = = 0; “Other” mã hóa = and = Table The Coding of the Design Variables for RACE, Coded at Levels: White, Black, Other 25 ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION RACE Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh White Black Other Ta có mẫu gồm n = 189 quan sát độc lập ( = ( = 1, (AGE), (LWT), ( ), ( 0 , = (có LOW) = (không LOW), ), (FTV)), với i = 1,2,…,n = 189 Gọi = P( = 1| ), xác suất có LOW tương ứng với Ta tìm MLE ̂ , với ̂ = ( ̂ , ̂ , ̂ , ̂ , ̂ , ̂ ), cho hàm log-Likelihood lnL( |x) = ∑ ∑ ∑ đạt giá trị lớn nhất, có liệu quan sát (FTV)), với i = 1,2,…,n = 189 =( = 1, (AGE), (LWT), ( ), ( ), MLE ̂ tìm cách giải hệ gồm phương trình sau: { ∑ ∑ ∑ ∑ ̂ ̂ { ∑ ̂ ∑ ̂ ∑ ∑ ̂ ∑ ̂ ∑ Khi đó, mơ hình ước lượng hồi qui logistic (the estimated logistic regression model), với biến = ( = 1, (AGE), (LWT), ( ), ( ), (FTV)), i = 1,2,…,n = 189, là: ̂ = log ̂ = ̂ +̂ ̂ +̂ +̂ +̂ +̂ , ̂ = ̂ ∑ ̂ = ̂ ∑ ̂ Table Maximum Likelihood Estimators for a Multiple Logistic Regression Model Using Variable AGE, LWT, , , FTV Variable AGE LWT FTV Constant MLEs 0.024 0.014 1.004 0.433 0.049 1.295 Std Err 0.0337 0.0065 0.4979 0.3622 0.1672 1.0714 z 0.71 2.18 2.02 1.20 0.30 1.21 P> 0.480 0.029 0.044 0.232 0.768 0.227 Log-Likelihood = 111.286 Mơ hình ước lượng hồi qui logistic, với biến = ( (AGE), (LWT), biến = ( (AGE), (LWT), ( ), ( ), (FTV))), là: +̂ 26 +̂ +̂ ( ), ( ), (FTV)) (ký hiệu ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION = Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh , ̂ ̂ = ̂ = Trong dân số, sản phụ 35 tuổi, trọng lượng ứng với chu kỳ kinh nguyệt cuối 120 pounds (54,42kg), người châu Á, số lần khám thai thời kỳ đầu ba tháng thai, ước lượng khả sinh có trọng lượng thấp là: ̂ = = 0.281 Kiểm định giả thiết (Hypothesis Testing) 4.1 Phép kiểm Tỉ khả (The Likelihood Ratio Test) 4.1.1 Thống kê Tỉ khả (The Likelihood Ratio Statistic) Gọi vectơ tham số vectơ tham số cần ước lượng Giả thiết hạn chế (hypothesis of restrictions) vectơ tham số giả thiết : c( ) = (trong c( ) ký hiệu vectơ gồm tham số không vectơ tham số ) Gọi ̂ MLE không bị hạn chế ( ̂ be the vector of parameter estimates obtained without restrictions), ̂ MLE bị hạn chế ( ̂ be the vector of parameter estimates obtained with restrictions) Gọi ̂ likelihood mơ hình tương ứng với ̂ , ̂ likelihood mô hình tương ứng với ̂ Thống kê Tỉ khả định nghĩa là: λ = Chú ý: ̂ ̂ giá trị dƣơng ̂ không bị hạn chế) Suy < λ < ̂ ̂ nhỏ ̂ (vì ̂ MLE bị hạn chế ̂ MLE 4.1.2 Phân phối Thống kê Tỉ khả (Distribution of the Likelihood Ratio Statistic) Định lý: Trong điều kiện qui giả thiết : c( ) = 0, với mẫu lớn, thống kê −2 lnλ có phân phối chibình phƣơng, độ tự số tham số không vectơ tham số 4.1.3 Thống kê Tỉ khả mơ hình hồi qui logistic Để đánh giá ý nghĩa biến độc lập ý nghĩa hệ số phương trình hồi qui logistic, ta so sánh ̂ - likelihood mơ hình hồi qui logistic trường hợp khơng có biến độc lập ̂ likelihood mơ hình hồi qui logistic trường hợp có biến độc lập Tr là: 27 ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh λ = ̂ ̂ = Mơ hình hồi qui logistic đơn biến: Trong điều kiện qui giả thiết : = 0, với mẫu lớn, phân phối thống kê −2 lnλ phân phối chi bình phương, có độ tự (có tham số bị giới hạn) Mơ hình hồi qui logistic đa biến độc lập: Trong điều kiện qui giả thiết : = =…= = 0, với mẫu lớn, phân phối thống kê −2 lnλ phân phối chi bình phương, có độ tự k (có k tham số bị giới hạn) 4.1.4 Tính thống kê tỉ khả mơ hình hồi qui logistic Gọi ̂ =∑ =∑ = - likelihood mơ hình hồi qui logistic trường hợp khơng có biến độc lập: ̂ = ∏ ∑ = ∑ = ̂ - likelihood mơ hình hồi qui logistic trường hợp có biến độc lập: ̂=∏ ̂ ̂ Thống kê tỉ likelihood λ = ̂ ̂ = ∏ ̂ ̂ Ta có ln ̂ ] = ln[ = ) = ln ̂ = ∑ ̂ ̂ Suy ra: −2 lnλ = −2 (ln ̂ − ln ̂ ) = −2 ∑ ̂ ̂ Thí dụ 1: Tuổi Bệnh Động mạch vành - CHD Dữ liệu thu thập, thống kê bảng sau: có CHD, n = 100 người = 43 người bị CHD Mơ hình hồi qui logistic, log-likelihood trường hợp khơng có biến độc lập là: 28 = 57 người không bị ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION lnŶ Dược = TP.Hồ Chí Minh Bản quyền tài liệu thuộc Thư viện Đại học = 43ln43 + 57ln57 – 100ln100 = 68.33149 T.S CHU VĂN THỌ Trong bảng 3, log-likelihood trường hợp có biến độc lập là: ln ̂ = Do 53.67656 −2 lnλ = −2 (ln ̂ − ln ̂ ) = −2( 68.33149 + 53.67656) = 29.30986 Giá trị p-value tương ứng với phép kiểm P( (1) > 29.30986) < 0.001 Do đó, ta bác bỏ mức ý nghĩa = 0.001 kết luận AGE biến có ý nghĩa việc tiên liệu CHD , Model Summary Step -2 Log likelihood 104.836 Cox & Snell R Nagelkerke R Square Square 268 361 a a Estimation terminated at iteration number because parameter estimates changed by less than 001 Model if Term Removed Variable Step AGE Model Log Change in -2 Likelihood Log Likelihood -68.029 31.222 df Sig of the Change 000 Thí dụ 2: Nghiên cứu Trọng lƣợng trẻ sơ sinh thấp - LOW Dữ liệu thu thập trung tâm Y khoa Baystate, n = 189 ca sinh sản phụ, có trọng lượng trẻ sơ sinh thấp = 130 ca sinh có trọng lượng trẻ sơ sinh bình thường = 59 ca sinh có Mơ hình hồi qui logistic, log-likelihood trường hợp khơng có biến độc lập là: ln ̂ = = 59ln59 + 130ln130 – 189ln189 = 117.336 Trong bảng 6, log-likelihood trường hợp có biến độc lập là: ln ̂ = 111.286 Do −2 lnλ = −2( 117.336 + 111.286) = 12.099 Giá trị p-value tương ứng với phép kiểm P( (5) > 12.099) = 0.034 Do đó, ta bác bỏ , mức ý nghĩa = 0.05 kết luận hay tất hệ số phương trình logistic khác không 4.2 29 ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION 4.2.1 Thống kê Wald (The Wald Statistic) Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh Gọi vectơ tham số vectơ tham số cần ước lượng Giả thiết hạn chế (hypothesis of restrictions) vectơ tham số giả thiết : c( ) = q (trong c( ) ký hiệu vectơ gồm tham số, vectơ tham số , vectơ q) Gọi ̂ MLE restrictions) không bị hạn chế ( ̂ be the vector of parameter estimates obtained without Nếu hạn chế đúng, giả thiết sai, c( ̂ ) ≠ q cách xấp xỉ, nghĩa là, c( ̂ ) = q Nếu giả thiết Thống kê Wald dịnh nghĩa là: Wald = ̂ (c( ̂ ) – q) (Avar( ̂ 4.2.2 Phân phối Thống kê Wald (Distribution of the Wald Statistic) Định lý: Trong điều kiện qui giả thiết , với mẫu lớn, thống kê Wald có phân phối chi-bình phƣơng, độ tự số tham số bị hạn chế vectơ tham số (nghĩa số phƣơng trình phƣơng trình ̂ = 0) Chú ý: Trong trường hợp vô hướng, dựa phân phối chuẩn tiệm cận MLE ̂ : ̂ ; ̂ ̂ N( Suy thống kê Z: Z = ) ̂ √ ̂ ̂ có phân phối chuẩn tắc tiệm cận Thống kê Wald bình phƣơng thống kê Z: Wald = ̂ ̂ ̂ = ̂ ̂ ̂ Ta có ̂ √ ̂ ̂ → N(0;1) ⇒ ( ̂ ) ̂ ̂ → (1) Do đó, thống kê Wald có phân phối chi-bình phƣơng tiệm cận, độ tự Trong điều kiện qui giả thiết : c( ̂ ) = (1) Luật định cho Wald để bác bỏ : ̂ = ̂ = , với mẫu lớn, thống kê Wald có phân phối , mức ý nghĩa α, Wald > (1) 4.2.3 Thống kê Wald mơ hình hồi qui logistic Tr gistic, thống kê Wald là: 30 ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh Wald = ̂ ( ̂ ̂ ̂ = ̂ ̂(̂ | ) ̂ = ̂ ̂ Thí dụ 3: Tuổi Bệnh Động mạch vành - CHD Kiểm định giả thiết :̂ =0 :̂ ≠0 ̂ Z = ̂̂ Table Variable AGE Variable z= AGE ̂ P> ̂̂ 4.61 < 0.001 Giá trị p-value hai đuôi (two tails) P(|Z| >4.61) < 0.001, bác bỏ , mức ý nghĩa α = 0.001 Thí dụ 4: Nghiên cứu Trọng lƣợng trẻ sơ sinh thấp (The Low Birth Weight Study) Kiểm định giả thiết ̂ ̂ ̂ ̂ :̂ : At least one of the above ̂ ≠ = ̂ ̂̂ , với j = 1,2,3,4,5 Table AGE, LWT, Variable AGE LWT = , ̂ ̂̂ 0.71 2.18 2.02 1.20 0.30 FTV , FTV P>| | 0.480 0.029 0.044 0.232 0.768 Giá trị p-value hai đuôi cho cột thứ bảng Ta kết luận biến LWT, biến biến (RACE) có ý nghĩa, biến AGE biến FTV khơng có ý nghĩa, mức ý nghĩa = 0.05 Mục tiêu tìm mơ hình hồi qui logistic thích hợp nhất, với số tham số tối thiểu có ý nghĩa, nghiên cứu trọng lượng trẻ sơ sinh thấp Bước tiếp theo, ta loại bỏ hai biến AGE FTV khơng có ý nghĩa, cịn giữ lại ba biến có ý nghĩa LWT, mơ hình hồi qui logistic thích hợp Table Maximum Likelihood Estimators for a Multiple Logistic Regression Model Using Variables LWT, and Variable MLEs Std Err 0.0064 31 z 2.36 P> 0.018 ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION 1.081 0.4881 Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh 0.481 0.3567 Constant 0.806 0.8452 2.22 1.35 0.95 0.027 0.178 0.340 Log-Likelihood = 111.630 Trong mơ hình hồi qui logistic biến AGE, FTV, LWT, Trong mơ hình hồi qui logistic biến LWT, , , , bảng cho: ln ̂ = , bảng cho: ln ̂ = 111.286 111.630 Hiệu số log-Likelihood hai mơ hình logistic cho thống kê: −2 lnλ = −2 (ln ̂ Với giả thiết : − ln ̂ ) = −2 ( 111.630 + 111.286) = 0.688 = 0, thống kê −2 lnλ có phân phối chi-bình phương, độ tự = (2) > 0.688) = 0.709 Giá trị p-value lớn 0.05, nên ta bác bỏ Giá trị p-value P( kết luận mơ hình hồi qui logistic biến LWT, , thích hợp tốt mơ hình hồi qui logistic biến AGE, FTV, LWT, , 4.2.4 Chú ý dùng thống kê Z đánh giá ý nghĩa hệ số Ta cần thận trọng dùng thống kê Z đánh giá ý nghĩa biến Thí dụ, hai biến thiết kế có thống kê Z, với |z| > 2, ta kết luận hai biến thiết kế có ý nghĩa mơ hình hồi qui logistic Mặt khác, biến thiết kế có thống kê Z, với |z| = 3, biến thiết kế có thống kê Z, với |z| = 0.1, ta khơng thể đánh giá mức ý nghĩa hai biến thiết kế mô hình Thí dụ 7: Nghiên cứu Trọng lƣợng trẻ sơ sinh thấp (The Low Birth Weight Study) Cụ thể, bảng 9, hai biến thiết kế có thống kê Z, với |z| 2.22 1.35 Ta đánh giá mức ý nghĩa hai biến thiết kế mơ hình ? Ta có, log-likelihood mơ hình hồi qui logistic biến LWT, , là: ln ̂ = Mặt khác, log-likelihood mơ hình hồi qui logistic có biến LWT là: ln ̂ 111.630 = 114.345 Hiệu số log-Likelihood hai mơ hình logistic cho thống kê: −2 lnλ = −2 (ln ̂ Với giả thiết : − ln ̂ ) = −2 ( 114.345 + 111.630) = 5.43 = 0, thống kê −2 lnλ có phân phối chi-bình phương, độ tự = Giá trị p-value P( (2) > 5.43) = 0.066 Giá trị p-value lớn 0.05, nên ta bác bỏ kết luận mơ hình hồi qui logistic có biến LWT thích hợp tốt mơ hình hồi qui logistic biến LWT, , Vậy mơ hình hồi qui logistic, RACE bị loại, cần biến LWT Tuy nhiên, mặt lâm sàng, RACE biết biến quan trọng Do đó, trường hợp này, định loại hay giữ biến RACE mơ hình hồi qui logistic cần tham khảo ý kiến chuyên gia 4.3 Ƣớc lƣợng khoảng tin cậy (Confidence Interval Estimation) 32 ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION 4.3.1 Mơ hình hồi qui logistic đơn biến: Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh Ƣớc lƣợng khoảng tin cậy, độ tin cậy 100( )%, hệ số độ dốc (the slope coefficient) là: ̂ ̂ ), ̂ ƣớc lƣợng khoảng tin cậy, độ tin cậy 100( )%, hệ số chặn (the intercept) : ̂ ̂ ), ̂ giá trị lớn khoảng 100( Chẳng hạn, với độ tin cậy 95%, )% phân phối chuẩn tắc = 2.58) ̂ ) ước lượng = 1.96; với độ tin cậy 99%, độ lệch chuẩn tham số ước lượng Gọi ̂ = (̂ , ̂ ) (ký hiệu ) Gọi logit tổ hợp tuyến tính mơ hình hồi qui logistic Ƣớc lƣợng logit: ̂ ̂ = log =̂ +̂ ̂ Ƣớc lƣợng xác suất logistic (the logistic probability) : ̂ ̂ ̂ = = ̂ ̂ ̂ ̂ Ƣớc lƣợng phƣơng sai ƣớc lƣợng logit (the estimator of the variance of the estimator of the logit): ̂ (̂ ) = ̂ (̂ ) + ̂ (̂ ) + ̂ (̂ , ̂ ) Ƣớc lƣợng khoảng tin cậy logit, độ tin cậy 100( 100( giá trị lớn khoảng )%, với )% phân phối chuẩn tắc: ̂̂ ̂ (̂ ̂ )=̂ Ƣớc lƣợng khoảng tin cậy xác suất logistic, độ tin cậy 100( )% : ̂̂ ̂ ̂̂ ̂ 4.3.2 Mơ hình hồi qui logistic đa biến: Gọi ̂ = (̂ , ̂ , , ̂ ) =( , , , ) (ký hiệu Ƣớc lƣợng logit: 33 =( , ,…, )) ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION ̂ ̂ Minh Bản quyền tài liệu thuộc Thư viện ̂ Đại=học logY Dược TP.Hồ= Chí +̂ +̂ ̂ +…+̂ Ƣớc trị phƣơng sai ƣớc lƣợng logit: ̂ (̂ ̂ ̂ )=∑ + ∑ ̂ ̂ ̂ , ∑ Ƣớc trị phƣơng sai ƣớc lƣợng logit đƣới dạng ma trận: ) = ̂ (̂ ̂ (̂ = Thí dụ 5: Tuổi Bệnh Động mạch vành - CHD Theo bảng 3, ước lượng khoảng tin cậy, độ tin cậy 95%, hệ số độ dốc (the slope coefficient) : ̂ ̂ ) = 0.111 ̂ 1.96x0.0241 = (0.064 , 0.158), ước lượng khoảng tin cậy, độ tin cậy 95%, hệ số chặn (the intercept) : ̂ ̂ )= ̂ 5.309 1.96x1.1337 = ( 7.531 , 3.087) Table 10 Estimated Covariance Matrix of the Estimated Coefficients in Table AGE 0.000579 0.026677 AGE Constant Ước lượng logit: ̂ = log ̂ = ̂ +̂ ̂ = Constant 1.28517 +0 , ước lượng xác suất logistic: ̂ ̂ = ̂ = Suy ước lượng logit người 50 tuổi: ̂ = +0 x50 = 0.24, Theo bảng 10, ước lượng phương sai ước lượng logit người 50 tuổi: ̂ (̂ ) = ̂ (̂ ) + = 1.28517 + ̂̂ ̂ ( ̂ ) + 2x50 ̂ ( ̂ , ̂ ) x0.000579 100x0.026677 = 0.065 )=(̂ ̂ = 0.2549 Ước lượng khoảng tin cậy logit, độ tin cậy 95%, 24 34 = 1.96, theo phân phối chuẩn tắc: 1.96x0.2549 = ( 0.26 , 0.74) ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh Ước trị xác suất người 50 tuổi có CHD: ̂ ̂ = = ̂ = 0.56 Ước lượng khoảng tin cậy xác suất logistic người 50 tuổi có CHD, độ tin cậy 95% : ̂̂ ̂ ̂ ̂ ̂ ̂ Giá trị ̂ =( , )=( , 0.677) = 0.56 ước lượng tỉ lệ người 50 tuổi, có CHD dân số Ước lượng khoảng tin cậy tỉ lệ người 50 tuổi, có CHD dân số, từ 0.435 đến 0.677, với độ tin cậy 95% Variables in the Equation B AGE Step S.E Wald df Sig Exp(B) 116 025 22.075 000 1.123 -5.621 1.174 22.911 000 004 95% C.I.for EXP(B) Lower Upper 1.070 1.179 a Constant a Variable(s) entered on step 1: AGE Thí dụ 6: Nghiên cứu Trọng lƣợng trẻ sơ sinh thấp - LOW Theo bảng 9, ước lượng logit sản phụ nặng 150 pound, da trắng: ̂ = 0.806 +1 + 0= , ước lượng xác suất phụ nữ nặng 150 pound, da trắng, sinh có trọng lượng thấp: ̂ = = 0.191 Table 11 Estimated Covariance Matrix of the Estimated Coefficients in Table LWT Constant LWT 0.000041 -0.000647 0.000036 -0.005211 Constant 0.2382 0.0532 0.0226 0.1272 -0.1035 0.7143 Theo bảng 11, ước lượng phương sai ước lượng logit phụ nữ nặng 150 pound, da trắng: ̂ ( ̂ LWT = 150, 2x = 0, = 0)) ̂ ) ̂ ( ̂ ) + 2x1x150 ̂ ( ̂ , ̂ ) + ̂ ( ̂ , ̂ ) + 2x150x0 ̂ ( ̂ , ̂ ) + 2x150x0 ̂ ( ̂ , ̂ ) + 2x0x0 ̂ ( ̂ , ̂ ) 35 ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC REGRESSION Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh = 0.7143 + ̂ ̂ LWT = 150, - 2x1x150x0.005211 = 0.0768 = 0)) = ( ̂ ( ̂ LWT = 150, = 0, = 0, = 0) Ước lượng khoảng tin cậy logit, độ tin cậy 95%, ̂ LWT = 150, = 0, = 0) 1.96 ̂ ̂ LWT = 150, = = 0, = 0.2771 = 1.96, theo phân phối chuẩn tắc: = 0)) 1.96x0.2771 = ( 1988 , 0.901) Ước lượng khoảng tin cậy xác suất logistic phụ nữ nặng 150 pound, da trắng, sinh trọng lượng thấp, độ tin cậy 95% : ( , )=( , 0.289) Ước lượng khoảng tin cậy tỉ lệ phụ nữ nặng 150 pound, da trắng, sinh trọng lượng thấp, dân số, từ 0.120 đến 0.289, với độ tin cậy 95% Hết TS CHU VĂN THỌ Bộ môn Toán - Khoa KHCB Đại học Y Dƣợc Tp HCM 36 ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh REFERENCES Adam Merberg and Steven J Miller (2008) The Cramer-Rao Inequality Course Notes for Math 162: Mathematical Statistics David W.Hosmer and Stanley Lemeshow (2000) Applied Logistic Regression Second Edition A Wiley Interscience Publication John Wiley & Sons, Inc, Newyork Eduardo Rossi (2010) Maximum Likelihood Asymptotic Theory Econometria Finanziaria EdvinDeadman and Samuel D.Relton Taylor’s theorem for matrix functions with applications to condition number estimation Eric Zivot (2009) Maximum Likelihood Estimation Greene Maximum Likelihood Estimation Chapter16 - 2140242 Book Guy Lebanon.(2009) Asymptotic Efficiency of the Maximum Likelihood Estimator Jason Andrew Benedict (2016) Comparing the Hosmer-Lemeshow Goodness of Fit Test With Varying Number of Groups to the Calibration Belt in Logistic Regression Models Presented in Partial Fulfillment for the Degree Master of Science, The Ohio State University Kurt Bryan Taylor's Theorem in One and Several Variables MA 433 10 Marcelo J Moreira (2003) A Conditional Likelihood Ratio Test for Structural Models Econometrica, Vol 71, No 4, 1027–1048 Handbook of Econometrics, Volume II, Edited by Z Griliches and M.D Intriligator Elsevier Science Publishers BV.1984 11 Mark Kelbert and Pavel Mozgunov (2017) Generalization of Cramer-Rao and Bhattacharyya inequalities for the weighted covariance matrix Mathematical Communications 25 Math 22, 25–40 12 Monica Billio, Alain Monfort, and Christian P Robert The Simulated Likelihood Ratio Method CNAM-CREST and Universite Paris Dauphine, Paris 13 Moulinath Banerjee (2005) Likelihood Ratio Tests Under Local Alternatives in Regular Semiparametric Models Statistica Sinica 15, 635-644 14 Nathaniel E Helwig (2017) Data, Covariance, and Correlation Matrix University of Minnesota (Twin Cities) 15 Paul Kounche (supervised by Prof Ralf Korn) (2008) The Likelihood Ratio Method University of Kaiserslautern 21 Robert F Engle Wald Likelihood Ratio, and Lagrange Multiplier Tests in Econometrics University of California 22 Roger Koenker (2017) Consistency and Asymptotic Efficiency of the MLE Lecture 9, Econ 574 23 37 ĐHYD TP HCM-KHOA KHCB THE MULTIPLE LOGISTIC REGRESSION T.S CHU VĂN THỌ Bản quyền tài liệu thuộc Thư viện Đại học Y Dược TP.Hồ Chí Minh 24 Scott A Czepiel Maximum Likelihood Estimation of Logistic Regression Models: Theory and Implementation 25 Susan Thomas (2008) Likelihood Function IGIDR, Bombay 26 T S Ferguson.(1996) A Course in Large Sample Theory Chapman & Hall 27 U Grenander and M Miller (2007) Pattern Theory: From Representation to Inference Oxford University Press Hết 38 ... |x)] = Var(S( | )) = E[S( | )( ]= = I( | ) CM: 1) Vì E[S( | )] = 0, nên E[S( |x)] = ∑ = 2) Vì E[S( |x)] = 0, nên Var(S( | )) = E[S( | )( Ta có E[S( | )( ]= ∑ ] ∑ E[S( | )](E[ = E[S( | )( ∑ ] ,... lượng hồi qui logistic, với biến = ( (AGE), (LWT), biến = ( (AGE), (LWT), ( ), ( ), (FTV))), là: +̂ 26 +̂ +̂ ( ), ( ), (FTV)) (ký hiệu ĐHYD TP HCM-KHOA KHCB T.S CHU VĂN THỌ THE MULTIPLE LOGISTIC. .. tin, ký hiệu I( |x), ma trận −E[H( |x)]: ∑ ∑ I( |x) = −E[H( |x)] = ∑ ( Ma trận Thông tin tƣơng ứng với ∑ ) , ký hiệu I( | ), ma trận −E[H( | )]: I( | ) = −E[H( | )] = ( Ta có ) I( |x) = ∑ 1.8