Mục lục 1 GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN SPSS 3 1 1 Tiến hành 3 1 2 Kết quả 5 1 3 Nhận xét và giải thích 6 2 GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN R 9 2 1 Nhập dữ liệu vào R và xem cấu trúc của tập.
Tiểu luận GVHD: TS Nguyễn Đình Thuân Mục lục GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN SPSS .3 1.1.Tiến hành .3 1.2 Kết .5 1.3 Nhận xét giải thích .6 GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN R .9 2.1 Nhập liệu vào R xem cấu trúc tập liệu .9 2.2 Tiến hành thực 2.3 Đánh giá kết nhận xét: 10 GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN EXCEL 11 Tiểu luận GVHD: TS Nguyễn Đình Thuân Tập liệu cho tốn hồi quy Logistics: https://www.kaggle.com/ronitf/heart-diseaseuci/data Mơ tả toán: Bộ liệu nghiên cứu nhân tố ảnh hưởng đến khả mắc bệnh tim mạch, để từ đưa chuẩn đốn có biện pháp điều trị phù hợp Các yếu tố nghiên cứu hướng tới thông tin cá nhân người bệnh: - Tuổi(age) - Giới tính(sex) - Dạng kiểu đau ngực(cp) - Huyết áp(trestbps) - Cholestoral huyết thanh(chol) - Đường huyết(fbs) - Kết nghỉ ngơi điện tâm đồ(restecg) - Nhịp tim tối đa đạt được(thalach) - Tập thể dục gây đau thắt ngực(exang) - ST trầm cảm tập tthể dục liên quan đến nghỉ ngơi(oldpeak) - Độ dốc đoạn ST tập thể dục đỉnh(slope) - Lượng động mạch chủ(0-3) nội soi huỳnh quang (ca) - Khuyến khuyết tim (thal) GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN SPSS 1.1 Tiến hành Bước 1: Chọn Analyze Regression Binary Logistic… Tiểu luận GVHD: TS Nguyễn Đình Thn Bước 2: Chọn thuộc tính phụ thuộc vào Dependent: thuộc tính độc lập vào ô Covariates: Tiểu luận GVHD: TS Nguyễn Đình Thuân Bước 3: Chọn OK 1.2 Kết Tiểu luận GVHD: TS Nguyễn Đình Thuân 1.3 Nhận xét giải thích Dựa vào giá trị sig bảng Variable not in the equation, ta có sig chol fbs > 0.05 Nên ta tính toán lại logistic regression bỏ chol fbs khỏi Covariates Sau tính tốn lại, ta có kết quả: Tiểu luận GVHD: TS Nguyễn Đình Thuân Tiểu luận GVHD: TS Nguyễn Đình Thuân Ta thấy tất giá trị sig bảng Omnibus Tests of Model Coefficients < 0.05 (độ tin cậy 95%) nên mơ hình hồi quy có ý nghĩa Ý nghĩa bảng Classification Table: + Trong 138 trường hợp quan sát khơng bị bệnh tim, dự đốn có 108 trường hợp khơng mắc bệnh, tỉ lệ dự đoán 108/138 =78.3% + Trong 165 trường hợp quan sát mắc bệnh tim dự đốn có 151 trường hợp mắc bệnh, tỉ lệ dự đốn 151/165 = 91.5% Như tỉ lệ trung bình dự đốn là: 85.5% Từ bảng Variable in the equation ta có phương trình hồi quy: Log() = -0.09*age – 1.59*sex + 0.873*cp – 0.019*trestbps + 0.537*restecg + 0.021*thalach – 0.98*exang - 0.561*oldpeak + 0.565*slope – 0.753*ca – 0.936*thal + 2.797 Tiểu luận GVHD: TS Nguyễn Đình Thn GIẢI BÀI TỐN HỒI QUI LOGISTIC TRÊN R 2.1 Nhập liệu vào R xem cấu trúc tập liệu Tập liệu có 14 thuộc tính, có 303 dịng liệu Với mục tiêu cấn xét tới cột “target” đó: “target” = 1: có mắc bệnh tim, “target” = 0: khơng mắc bệnh Kiểm tra bệnh nhân có đầy đủ số liệu để thống kê: Chúng ta kiểm tra xem có bệnh nhân mắc bệnh tim: 2.2 Tiến hành thực - Xây dựng mơ hình Logistics sử dụng tất biến số: dùng lệnh glm(), đó: Chúng ta yêu cầu R phân tích theo mơ hình target hàm số với biến lại Luật phân phối nhị phân (binomial) luật phân phối chuẩn cho hồi qui logistic Do đó, family=” binomial” cần thiết cho R Tiểu luận GVHD: TS Nguyễn Đình Thuân 2.3 Đánh giá kết nhận xét: - Từ kết trên: + Biến có ý nghĩa biến có dấu hình ngơi sao, cịn biến cịn lại khơng có hay có khơng có ý nghĩa thống kê, loại bỏ mơ hình - Phần Call: Cho biết mơ hình phân tích Phần Deviance: phần thứ hai kết cho biết qua deviance, tức phần dư mơ hình Deviance giải thích phản ánh độ khác biệt mơ hình liệu (cũng tương tự mean square residual phân tích hồi qui tuyến tính Tiểu luận GVHD: TS Nguyễn Đình Thn vậy) Đối với mơ hình giá trị deviance khơng có ý nghĩa nhiều - Phần Coefficients: cung cấp ước số α (mà R đặt tên intercept) β (các biến age, sex,cp , trestbps, chol, fbs, restecg, exang, oldpeak, ca, thal, thalach ) sai số chuẩn (standard error) cho ước số: Với ước số âm(β) Estimate cho thấy mối liên hệ nguy bệnh tim với age, sex, trestbps, chol,exang, oldpeak, ca, thal mối liên hệ nghịch đảo: xác suất bị bệnh tim tăng giá trị giảm Kiểm định z (tính cách lấy ước số chia cho sai số chuẩn) cho thấy ảnh hưởng biến có ý nghĩa thống kê, trị số p < 0.05 Với ước số dương (β) Estimate cho thấy mối liên hệ nguy bệnh tim với cp, fbs, restecg, thalach, slope mối quan hệ thuận: : xác suất bị bệnh tim tăng giá trị tăng Mơ hình hồi quy logistics có dạng: log(P) = 3.45 - 0.005*x1 - 1.76*x2 + 0.86*x3 0.02*x4 - 0.005*x5 + 0.05*x6 + 0.47*x7 + 0.02*x8 - 0.98*x9 - 0.54*x10 + 0.58*x11 – 0.77*x12 – 0.9*x13 GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN EXCEL Kiểm chứng toán hồi quy Logistic Excel, kết đạt qua link này: https://drive.google.com/drive/folders/13tbE8lsSEGEvWnWvI8ZocNXcJSvkIdGc? usp=sharing 10 Tiểu luận GVHD: TS Nguyễn Đình Thn BẢNG PHÂN CƠNG CÔNG VIỆC Thành Viên Hồ Thị Ngọc Huyền - 17520596 Nguyễn Thị Cẩm Hoài - 17520499 Trương Thị Mỹ Linh – 17520692 Phạm Huỳnh Mỹ Hạnh - 17520443 Trà Thảo Nguyên - 17520831 Công việc Hồi qui Logistic SPSS Hồi qui Logistic R Viết báo cáo 11 Tiểu luận GVHD: TS Nguyễn Đình Thuân TÀI LIỆU THAM KHẢO [1] https://www.youtube.com/watch?v=FcxY-Cheb6Y [2] https://www.google.com/search?q=h%E1%BB%93i+quy+logistic+tr%C3%AAn+R&oq=h %E1%BB %93i+&aqs=chrome.0.69i59l2j35i39j69i57j46j69i61l3.5592j0j7&sourceid=chrome&ie=UTF-8 [3] http://www.bomonnoiydhue.edu.vn/upload/file/lstk15_logistic.pdf [4] Into the R language.pdf 12 ... 10 Tiểu luận GVHD: TS Nguyễn Đình Thn BẢNG PHÂN CƠNG CÔNG VIỆC Thành Viên Hồ Thị Ngọc Huyền - 17 520 596 Nguyễn Thị Cẩm Hoài - 17 520 499 Trương Thị Mỹ Linh – 17 520 6 92 Phạm Huỳnh Mỹ Hạnh - 17 520 443... Logistic… Tiểu luận GVHD: TS Nguyễn Đình Thn Bước 2: Chọn thuộc tính phụ thuộc vào Dependent: thuộc tính độc lập vào ô Covariates: Tiểu luận GVHD: TS Nguyễn Đình Thuân Bước 3: Chọn OK 1 .2 Kết Tiểu. .. tim: 2. 2 Tiến hành thực - Xây dựng mơ hình Logistics sử dụng tất biến số: dùng lệnh glm(), đó: Chúng ta yêu cầu R phân tích theo mơ hình target hàm số với biến lại Luật phân phối nhị phân