Hồi quy logistic

35 9 0
Hồi quy logistic

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM - - ĐỀ TÀI: HỒI QUY LOGISTIC Giảng viên hướng dẫn : TS Tôn Thất Tú Sinh viên thực : Nguyễn Thị Hoa Lớp : 17CTUD Đà Nẵng, 12/2020 Tai ngay!!! Ban co the xoa dong chu nay!!! 16990082186861000000 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM - - ĐỀ TÀI: HỒI QUY LOGISTIC Giảng viên hướng dẫn : TS Tôn Thất Tú Sinh viên thực : Nguyễn Thị Hoa Lớp : 17CTUD MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU CHƯƠNG I: CƠ SỞ LÝ THUYẾT A XÁC SUẤT Biến ngẫu nhiên Phân phối rời rạc Ước lượng tham số Phương pháp ước lượng hợp lý cực đại B PHẦN MỀM R VÀ R-STUDIO .8 Lịch sử đời Ứng dụng Các thư viện câu lệnh dùng CHƯƠNG 2: BÀI TOÁN HỒI QUY LOGISTIC .11 Lý dùng toán hồi quy Logistic 11 Xây dựng mơ hình lý thuyết 11 Sai số dự báo 13 Khảo sát ảnh hưởng biến độc lập đến biến phụ thuộc 16 Ứng dụng mơ hình liệu Titanic 16 PHỤ LỤC 28 KẾT LUẬN .32 TÀI LIỆU THAM KHẢO .33 ĐH Sư phạm – ĐH Đà Nẵng Khóa luận tốt nghiệp LỜI CẢM ƠN Lời khóa luận tác giả xin gửi lời cảm ơn sâu sắc đến thầy Tôn Thất Tú tận tình hướng dẫn tác giả suốt q trình thực để tác giả hồn thành khóa luận Tác giả xin gửi lời cảm ơn chân thành đến tất thầy tận tình dạy bảo tác giả suốt thời gian tác giả học tập Khoa Toán trường Đại học Sư phạm – Đại học Đà Nẵng Đồng thời tác giả xin gửi lời cảm ơn đến bạn lớp 17CTUD nhiệt tình giúp đỡ tác giả trình học tập lớp Vì thời gian kiến thức cịn hạn chế nên thân cố gắng luận văn tránh khỏi thiếu sót Tác giả kính mong nhận ý kiến đóng góp q báu từ thầy bạn để khóa luận hồn thiện Tác giả Nguyễn Thị Hoa SV: Nguyễn Thị Hoa – 17CTUD ĐH Sư phạm – ĐH Đà Nẵng Khóa luận tốt nghiệp MỞ ĐẦU Lý chọn đề tài Thống kê ngành khoa học nghiên cứu phương pháp điều tra thu thập liệu, xếp, trình bày liệu xử lý liệu nhằm rút thơng tin hữu ích tổng thể nghiên cứu Ngày nay, với phát triển công nghệ thông tin, việc thu thập liệu tính tốn người trở nên dễ dàng Chính vậy, ngành thống kê có điều kiện phát triển mạnh mẽ có nhiều ứng dụng hầu hết lĩnh vực đời sống xã hội Một tốn điển hình thống kê toán phân lớp Bài toán mơ tả đơn giản sau: Giả sử ta có K lớp đánh số từ đến K mẫu gồm n đối tượng với đặc điểm chúng biết chúng thuộc lớp Bài toán phân lớp đặt ta có đối tượng với đặc điểm chúng ta dự đốn chúng thuộc lớp hay khơng? Bài tốn có ứng dụng rộng rãi sống, chẳng hạn dùng để phân loại sản phẩm tự động, phân loại email, phân loại video, … Về chất, toán hồi quy với biến đầu nhận K giá trị Khi K người ta thường gọi hồi quy nhị phân hồi quy logistic Trong lịch sử hàng hải vụ đắm tàu Titanic xem vụ đắm tàu thương mại thảm khốc Vào ngày 15 tháng năm 1912, chuyến mình, tàu RMS Titanic coi “khơng thể chìm” bị chìm sau va chạm với tảng băng trơi Thật khơng may, khơng có đủ thuyền cứu sinh cho tất người tàu nên điều dẫn đến chết 1502 số 2224 hành khách đoàn thủy thủ Bộ liệu liên quan đến thông tin nạn nhân qua đời người may mắn sống sót cơng bố nhiều trang website, chẳng hạn địa https://www.kaggle.com/c/titanic/data Sau nghiên cứu liệu, tác giả nhận thấy có số yếu tố may mắn liên quan đến việc sống sót, số nhóm người có khả sống sót cao nhóm khác Điều cho thấy thông tin hành khách giúp ta phán đốn khả sống sót họ Hồi quy logistic phù hợp để sử dụng xây dựng mơ hình tốn học dự đốn khả sống sót hành khách dựa thông tin cá nhân cung cấp Với lý trên, tác giả chọn đề tài “Hồi quy logistic” để làm đề tài khóa luận Bên cạnh việc trình bày lý thuyết mơ hình hồi quy logistic, tác SV: Nguyễn Thị Hoa – 17CTUD Khóa luận tốt nghiệp ĐH Sư phạm – ĐH Đà Nẵng giả ứng dụng mơ hình hồi quy để phân tích liệu vụ đắm tàu Titanic với hỗ trợ phần mềm thống kê R Mục đích nghiên cứu Tìm hiểu hồi quy logistic ứng dụng để dự báo khả sống sót hành khách tàu Titanic Đối tượng nghiên cứu Hồi quy logistic liệu vụ đắm tàu Titanic Phạm vi nghiên cứu - Hồi quy logistic ứng dụng để phân tích liệu tài Titanic - Sử dụng tỉ lệ dự báo làm số việc xác định ngưỡng xác suất dùng để phân lớp Phương pháp nghiên cứu - Nghiên cứu lý thuyết hồi quy logistic, tìm hiểu việc sử dụng phần mềm R phân tích thống kê - Tìm hiểu liệu nghiên cứu - Đọc tài liệu, trao đổi với giáo viên hướng dẫn Ý nghĩa khoa học thực tiễn Khóa luận cung cấp số kết phân tích thống kê liệu vụ đắm tàu Titanic, cho người đọc thấy yếu tố ảnh hưởng đến khả sống sót hành khách tàu Khóa luận tài liệu tham khảo tốt cho bạn sinh viên ngành Toán học Thống kê mong muốn tìm hiểu ứng dụng Thống kê sống Cấu trúc khóa luận Trong đề tài này, chúng tơi trình bày cách sử dụng phương pháp hồi quy Logistic để dự báo sống sót hành khách tàu Titanic Nội dung đề tài trình bày chương Ngồi ra, luận văn có Lời cảm ơn, Mục lục, Mở đầu, Kết luận, Tài liệu tham khảo Chương trình bày kiến thức sở bao gồm: Xác suất Phần mềm R R-Studio Chương 2, trình bày tốn hồi quy Logistic bao gồm: lý dùng toán hồi quy Logistic, cách xây dựng mơ hình Logistic lý thuyết, sai số dự báo mơ hình, khảo sát ảnh hưởng biến độc lập đến biến phụ thuộc ứng dụng mơ hình Logistic phân tích liệu Titanic SV: Nguyễn Thị Hoa – 17CTUD ĐH Sư phạm – ĐH Đà Nẵng Khóa luận tốt nghiệp CHƯƠNG I: CƠ SỞ LÝ THUYẾT A XÁC SUẤT Biến ngẫu nhiên Tập tất kết xảy phép thử gọi khơng gian mẫu, kí hiệu Ω Mỗi tập không gian mẫu gọi biến cố Một biến cố xảy thực phép thử kết thực phép thử rơi vào biến cố Hàm X xác định khơng gian mẫu Ω nhận giá trị ℝ gọi biến ngẫu nhiên với 𝑥 ∈ ℝ, tập hợp kết {𝜔: 𝑋(𝜔) < 𝑥} lập thành biến cố ngẫu nhiên Tập hợp giá trị X gọi miền giá trị X, kí hiệu 𝑋(Ω) Nói cách trực quan, biến ngẫu nhiên đại lượng nhận giá trị hày giá trị khác phụ thuộc vào kết phép thử Có loại biến ngẫu nhiên: • Biến ngẫu nhiên rời rạc: biến ngẫu nhiên có tập giá trị có số lượng hữu hạn vơ hạn đếm • Biến ngẫu nhiên liên tục: biến ngẫu nhiên thỏa điều kiện sau: o Tập giá trị tạo thành đoạn, khoảng hợp đoạn, khoảng o Với c ta có: 𝑃(𝑋 = 𝑐) = Phân phối rời rạc Hàm số thực 𝐹𝑋 (𝑥) = 𝑃(𝑋 < 𝑥) = ∑ 𝑃(𝑋 = 𝑥𝑖 ) , 𝑥 ∈ ℝ 𝑥𝑖 |z|) (Intercept) 6.6627956 0.5403996 12.329 < 2e-16 pclass2 -1.0904095 0.2738913 -3.981 6.86e-05 pclass3 -2.1212691 0.2770169 -7.658 1.90e-14 sex -2.4997135 0.1782620 -14.023 < 2e-16 age -0.0398274 0.0072709 -5.478 4.31e-08 sibsp -0.2752599 0.1000348 -2.752 0.00593 parch -0.0498876 0.1014835 -0.492 0.62301 fare 0.0003233 0.0024306 0.133 0.89418 embarkedQ -0.3810772 0.3313988 -1.150 0.25018 embarkedS -0.6780805 0.2101987 -3.226 0.00126 Signif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ SV: Nguyễn Thị Hoa – 17CTUD *** *** *** *** *** ** ** 24 Khóa luận tốt nghiệp ĐH Sư phạm – ĐH Đà Nẵng Từ bảng kết trên, thấy: - Các biến parch, fare embarkedQ khơng có ý nghĩa mặt thống kê (Pr>0.05) - 𝑝(𝑠𝑢𝑟𝑣𝑖𝑣𝑒𝑑 = 1|𝑝𝑐𝑙𝑎𝑠𝑠, 𝑠𝑒𝑥, 𝑎𝑔𝑒, 𝑠𝑖𝑏𝑠𝑝, 𝑝𝑎𝑟𝑐ℎ, 𝑓𝑎𝑟𝑒, 𝑒𝑚𝑏𝑎𝑟𝑘𝑒𝑑) = (1 + exp (−(6.66 − 1.09𝑝𝑐𝑙𝑎𝑠𝑠2 − 2.12𝑝𝑐𝑙𝑎𝑠𝑠3 − 2.49𝑠𝑒𝑥 − 0.04𝑎𝑔𝑒 − 0.27𝑠𝑖𝑏𝑠𝑝 − 0.05𝑝𝑎𝑟𝑐ℎ + 0.0003𝑓𝑎𝑟𝑒 − 0.38𝑒𝑚𝑏𝑎𝑟𝑘𝑒𝑑𝑄 − 0.69𝑒𝑚𝑏𝑎𝑟𝑘𝑒𝑑𝑆 )))−1 - Trong biến có ý nghĩa thống kê, biến sex có giá trị p thấp nhất, có độ lớn hệ số Estimate lớn cho thấy mối quan hệ chặt chẽ giới tính hành khách với xác suất sống sót họ Hệ số dự đoán mang giá trị âm, cho thấy tất biến khác không thay đổi, biến sex tăng đơn vị xác suất survived=1 tăng exp(−2.49) = 0.083 lần Điều đồng nghĩa, khả sống sót nam thấp so với nữ ➢ Sai số dự báo: o Chọn ngưỡng xác suất 𝑝 = 0.5 để phân loại: Confusion Matrix and Statistics pred actual 695 114 156 344 Accuracy : 0.7937 95% CI : (0.7708, 0.8154) No Information Rate : 0.6501 P-Value [Acc > NIR] : < 2e-16 Kappa : 0.556 Mcnemar's Test P-Value : 0.01259 Sensitivity : 0.8167 Specificity : 0.7511 Pos Pred Value : 0.8591 Neg Pred Value : 0.6880 Prevalence : 0.6501 Detection Rate : 0.5309 Detection Prevalence : 0.6180 Balanced Accuracy : 0.7839 'Positive' Class : SV: Nguyễn Thị Hoa – 17CTUD 25 ĐH Sư phạm – ĐH Đà Nẵng Khóa luận tốt nghiệp Ý nghĩa số tiêu chí thu từ ma trận nhầm lẫn là: - Mơ hình xác định 695 người sống sót xếp nhầm 114 người sống sót thành người chết, nghĩa mức độ xác PPV=85.91% (Pos Pred Value) - Mơ hình xác định 344 người chết xếp nhầm 156 người chết thành người sống sót, nghĩa mức độ xác NPV=68.80% (Neg Pred Value) - Mơ hình phân loại (659+344) tổng (659+114+156+344) quan sát, đạt mức độ xác tồn cục Accuracy =79.37% - Tỉ số người sống sót mà mơ hình xác định chia cho số người sống sót thực tế mẫu TPR=695/(695+156)=81.67% (Sensitivity = độ nhạy) - Tỉ số người chết mà mơ hình xác định chia cho số người chết thực tế mẫu TNR=344/(344+114)=75.11% (Specificity = độ đặc hiệu) - 𝐹1 = 2∗0.8176∗0.8591 0.8176+0.8591 = 0.8378 lớn nên cho rằng, độ hiệu mơ hình phân tích cao o Chọn ngưỡng dự báo theo tỉ lệ dự báo đúng: Lấy tỉ lệ dự báo làm tiêu chí đánh giá, lúc ta dùng phương pháp “thử chọn” để tìm ngưỡng xác suất tốt Cụ thể, ta cho ngưỡng xác suất p nhận giá trị khác đoạn [0,1] (chia đoạn [0,1] thành phần nhau) tính tỉ lệ dự báo tập huấn luyện tập kiểm tra Bằng cách vẽ đồ thị để quan sát, ta thu biểu đồ sau đây: SV: Nguyễn Thị Hoa – 17CTUD 26 ĐH Sư phạm – ĐH Đà Nẵng Khóa luận tốt nghiệp 0.4 0.6 NA (0.809, 0.714) 0.0 0.2 Sensitivity 0.8 1.0 Từ đồ thị trên, ta thấy rằng, ngưỡng 𝑝 = 0.6 liệu train test có tỉ lệ dự báo cao, nên chọn lại 𝑝 = 0.6 ngưỡng phân lớp cho sống chết hành khách (ở 𝑝 = 0.5 Accuracy =79.37%, với 𝑝 = 0.6 Accuracy = 80.29% cao hơn) ➢ Đồ thị ROC hệ số AUC: 1.0 0.8 0.6 0.4 0.2 0.0 Specificity Diện tích đường cong ROC AUC = 0.8433 hay AUC = 84.33% (sensitivity = 0.809, specificity = 0.714), vậy, mơ hình thu tốt để dự báo khả sống sót hành khách tàu Titanic SV: Nguyễn Thị Hoa – 17CTUD 27 ĐH Sư phạm – ĐH Đà Nẵng Khóa luận tốt nghiệp PHỤ LỤC Chương trình đầy đủ R-studio #doc du lieu titanic=read.csv("titanic.CSV", header = T, na.strings=c("")) str(titanic) #xem du lieu sapply(titanic, function(x) sum(is.na(x))) sapply(titanic, function(x) length(unique(x))) library(VIM) aggr(titanic, prop=c(FALSE, FALSE), numbers=TRUE) #anh huong cua bien pclass den bien survived (tab1=table(survived=titanic$survived, pclass=titanic$pclass)) barplot(tab1, beside = T, xlab = "pclass", ylab = "survived", col = c("white", "red")) abline(h=0) legend("topleft", c("not survived", "survived"), fill= c("white", "red"),cex = 1.2) #anh huong cua bien sex den bien survived (tab1=table(survived=titanic$survived, sex=titanic$sex)) barplot(tab1, beside = T, xlab = "sex", ylab = "survived", col = c("white", "red")) abline(h=0) legend("topleft", c("not survived", "survived"), fill= c("white", "red"), cex = 1.2) #anh huong cua bien age den bien survived #thay gia tri thieu cua age = gia tri trung binh titanic$age[is.na(titanic$age)]

Ngày đăng: 03/11/2023, 21:39

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan