Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,2 MB
Nội dung
TRƯỜNG ĐẠI HỌC ĐẠI NAM KHOA CÔNG NGHỆ THÔNG TIN HỌC PHẦN: XÁC XUẤT THỐNG KÊ ĐỀ TÀI : HỒI QUY LOGISTIC VỚI R Giảng viên hướng dẫn : Nguyễn Văn Tuấn Sinh viên thực : 1/ Nguyễn Văn Tạo 2/ Vũ Đức Bằng 3/ Đào Quang Huy Lớp : CNTT 14-04 Hà nội, ngày 09 tháng 01 năm 2022 LỜI CẢM ƠN Nhóm em xin bày tỏ lòng cảm ơn đến thầy Nguyễn Văn Tuấn truyền tải kiến thức hướng dẫn chúng em trình học tập Dù phải học online thầy truyển tải đầy đủ kiến thức không quên phần tập thực hành để giúp chúng em hiểu rõ vấn đề, làm tiền đề để chúng em học tiếp mơn chun ngành Nhóm em cố gắng vận dụng kiến thức học học kỳ qua để hoàn thành báo cáo Nhưng kiến thức hạn chế khơng có nhiều kinh nghiệm thực tiễn nên khó tránh khỏi thiếu sót q trình nghiên cứu trình bày Rất kính mong góp ý thầy để báo cáo chúng em hoàn thiện hơn. Em xin chân thành cảm ơn! MỞ ĐẦU Trong xã hội ngày nay, thống kê ngày đóng vai trị quan trọng nhiều lĩnh vực, giúp nghiên cứu vấn đề kinh tế, xã hội sinh học (y tế, nông nghiệp, thủy sản…) thông qua việc thu thập, xử lý phân tích liệu phần mềm thống kê Hai vấn đề quan trọng thống kê là: (1) thống kê mô tả (2) thống kê suy diễn (dự báo) Một phương pháp thống kê dự báo quan trọng hồi quy, mơ hình thể mối quan hệ biến phụ thuộc (Y) với hay nhiều biến độc lập (Xi) liệu định lượng định tính Khi biến phụ thuộc (Y) biến định tính dạng nhị phân ta sử dụng mơ hình hồi quy Logistic Mơ hình dạng mở rộng mơ hình hồi quy tuyến tính xếp vào dạng mơ hình hồi quy phi tuyến Nhóm chúng em xin phép chọn đề tài: “ Hồi quy logistic với R ” Luận văn trình bày chi tiết sở lý thuyết, bước thực hành ví dụ minh họa R mơ hình hồi quy Logistic CHƯƠNG I HỒI QUY LOGISTIC 1/ Hồi quy logistic gì? Hồi quy logistic kỹ thuật thống kê giám sát để tìm xác suất biến phụ thuộc (Các lớp có biến) Hồi quy logistic sử dụng hàm gọi hàm logit , giúp suy mối quan hệ biến phụ thuộc biến độc lập cách dự đoán xác suất hội xảy Các hàm logistic (còn gọi hàm sigmoid ) chuyển đổi xác suất thành giá trị nhị phân sử dụng thêm cho dự đoán - Hồi quy logistic nhị phân: Biến phụ thuộc có hai kết / lớp có Ví dụ -Nam Nữ - Hồi quy Logistic đa thức: Biến phụ thuộc có hai kết / lớp có trở lên mà khơng cần xếp thứ tự Ví dụ: Dự đốn chất lượng thực phẩm (Tốt, Tuyệt vời Xấu) - Hồi quy logistic thông thường: Biến phụ thuộc có hai nhiều kết / lớp có với thứ tự Ví dụ: Xếp hạng từ đến 2/ Các giả định hồi quy logistic Ngay Hồi quy logistic thuộc mơ hình tuyến tính, không đưa giả định mô hình hồi quy tuyến tính, như: → Nó khơng yêu cầu mối quan hệ tuyến tính biến phụ thuộc độc lập → Các điều khoản lỗi khơng cần phải phân phối bình thường → Khơng bắt buộc phải có độ co giãn đồng Tuy nhiên, có số giả định riêng nó: +/ Nó giả định có tối thiểu khơng có đa cộng tuyến biến độc lập.Cách tốt để kiểm tra tính hợp lệ đa cộng tuyến thực VIF (Hệ số lạm phát phương sai) +/ Nó giả định biến độc lập liên quan tuyến tính đến nhật ký tỷ lệ cược.Nó kiểm tra phép thử Box-Tidwell +/ Nó giả định mẫu lớn để dự đốn tốt +/ Nó giả định quan sát độc lập với +/ Khơng có giá trị ảnh hưởng (ngoại lệ) yếu tố dự báo liên tục (biến độc lập).Điều kiểm tra với trợ giúp IQR, z-score trực quan hóa cách sử dụng trống vĩ cầm +/ Logistic Regression với lớp mà biến phụ thuộc nhị phân Logistic Regression có thứ tự yêu cầu biến phụ thuộc có thứ tự 3/ Tại khơng hồi quy tuyến tính cho phân loại? Như giới thiệu Logistic Regression để giải vấn đề phân loại, phân loại nhị phân vấn đề phân loại nhiều lớp, sử dụng Linear Regression? - Hồi quy tuyến tính dự đốn biến liên tục giá nhà đầu Hồi quy tuyến tính nằm khoảng từ âm vô đến dương vô - Vì, Giá trị dự đốn khơng phải giá trị xác suất mà giá trị liên tục cho lớp, nên khó để tìm ngưỡng phù hợp giúp phân biệt lớp - Giả sử ta gặp may với ngưỡng tìm ngưỡng phù hợp cho toán lớp nhị phân, Tuy nhiên, tốn nhiều lớp khơng đưa dự đốn mong muốn - Trong tốn đa lớp có n số lớp, Bây lớp gắn nhãn từ 0-n.Giả sử, có tốn lớp 0,1,2,3 lớp khơng mang khơng có thứ tự có ý nghĩa Tuy nhiên, chúng buộc phải thiết lập số loại quan hệ phần phụ thuộc phần độc lập đặc trưng - Hơn nữa, biến phụ thuộc coi số liên tục đường phù hợp qua giá trị trung bình điểm, cho giá trị liên tục vượt Tất vấn đề đề cập giải Logistic Regression.Thay vào đó, hồi quy Logistic để điều chỉnh dịng phù hợp nhất, đọng đầu hàm tuyến tính Trong công thức mơ hình logistic, b0 + b1X == , p 0,5, tương tự, b0 + b1X> , p hướng b0 + b1X data(BreastCancer, package = "mlbench") #Author DataFlair > b_canc = BreastCancer[complete.cases(BreastCancer),] > str(b_canc) Đầu ra: Giờ đây, chia liệu thành tập huấn luyện thử nghiệm với tập huấn luyện nắm giữ 70% liệu tập thử nghiệm bao gồm phần trăm lại > set.seed(100) > Train_Ratio Train_Data Test_Data