BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ

87 0 0
BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA    BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ ĐỀ TÀI 2 LỚP: L06 – NHÓM: CK14, HK222 GVHD: TS NGUYỄN KIỀU DUNG STT MSSV Sinh viên thực hiện Khoa 1 2111387 Họ và tên Cơ khí 2 2112479 Cơ khí 3 2113313 Nguyễn Văn Hùng Cơ khí 4 2112428 Đoàn Ngọc Bảo Trân Cơ khí 5 2113785 Cơ khí Nguyễn Hoài Hân Bạch Quang Tiến Bùi Trần Minh Khôi TPHCM, ngày 24 tháng 04 năm 2023 MỤC LỤC A- ĐỀ TÀI B- CƠ SỞ LÝ THUYẾT I Hồi quy .5 1 Giới thiệu mô hình hồi quy tuyến tính bội 5 2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội 6 II ANOVA một yếu tố 14 1 Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau 15 2 Kiểm tra các giả định của phân tích phương sai 21 3 Phân tích sâu ANOVA 23 C- HOẠT ĐỘNG 1 1.1 Đọc dữ liệu 29 1.2 Làm sạch dữ liệu (Data cleaning) .29 1.2.1 Kiểm tra dữ liệu bị khuyết và xử lí: 30 1.3 Thống kê mô tả .31 1.3.1 Làm rõ dữ liệu (Data visualization) 31 1.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểm thi cuối kỳ của học sinh 43 1.5 Chọn mô hình tốt nhất để giải thích cho biến độc lập G3 47 1.6 Kiểm tra các giả định (giả thiết) của mô hình 51 1.6.1 Kiểm định ANOVA .51 1.7 Ý nghĩa của mô hình 58 1.8 Dự báo và so sánh, nhận xét .63 D- HOẠT ĐỘNG 2 - KHOA CƠ KHÍ 1 Thực hiện 65 1.1 Đọc dữ liệu (Import data) 65 1.2 Làm sạch dữ liệu 66 1 1.3 Làm rõ dữ liệu (Data visualization) 66 1.3.1 Xây dựng các mô hình hồi qui tuyến tính 70 1.4 Dự báo 70 1.5 R – Code 81 TÀI LIỆU THAM KHẢO 84 2 A ĐỀ BÀI Đề tài 2 Hoạt động 1: Tập tin "diem _ so.csv" chứa thông tin về điểm toán của các em học sinh trung học thuộc hai trường học ở Bồ Đào Nha Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi cư trú, và một số hoạt động xã hội khác Dữ liệu được thu thập bằng cách sử dụng báo cáo của các trường và các kết quả khảo sát sinh viên Dữ liệu gốc được cung cấp tại: https:7/archive.ics.uei edu/n1/datasets/student+performance Các biến chính trong bộ dữ liệu: + G1: Điểm thì học kì 1 + G2: Diểm thì học kì 2 + G3: Diểm cuối khoá • studytime: Thời gian tự học trên tuần ( 1: ít hơn 2 giờ, 2: từ 2 - 5 giờ, 3: từ 5-10 giờ, 4: lớn hơn 10 giờ) • failures: số làn không qua môn ( 1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần) • absences: số lần nghĩ học • paid - Có tham gia các lớp học thêm môn Toán ngoài trường (có/không) • sex: Giới tính của học sinh (Nam/nữ) Các bước thực hiện: 1, Đọc dữ liệu (Import data): grade.csv 2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết) 3 Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị 4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến 3 điểm thi cuối kỳ của sinh viên 5 Thực hiện dự báo cho điểm Toán của học sinh Hoạt động 2: Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_ BTL,_xstk.xlsx" Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting) 4 B CƠ SỞ LÝ THUYẾT I Hồi quy "Hồi quy tuyến tính" là một phương pháp thống kê để hồi quy dữ liệu với biến phụ thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị liên tục hoặc là giá trị phân loại Nói cách khác "Hồi quy tuyến tính" là một phương pháp để dự đoán biến phụ thuộc (y) dựa trên giá trị của biến độc lập (x) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán giao thông ở một cửa hàng bán lẻ, dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số trang đã truy cập vào một website nào đó, dự đoán sự phụ thuộc của dòng điện vào điện áp v.v… Lưu ý: Ta có thể mở rộng cho dữ liệu có nhiều biến hơn, khi dữ liệu có m biến, ta sẽ trực quan hóa bằng ma trận có m cột và biểu diễn trong không gian m chiều Phân tích hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa biến phụ thuộc Y với một hay nhiều biến độc lập X Mô hình hóa sử dụng hàm tuyến tính (bậc 1) Các tham số của mô hình (hay hàm số) được ước lượng từ dữ liệu 1 Giới thiệu mô hình hồi quy tuyến tính bội Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau: Y = β1 + β2X2 + β3X3 + … + βkXk + u Trong đó: Y: biến phụ thuộc Xi: biến độc lập β1: hệ số tự do (hệ số chặn) βi: hệ số hồi quy riêng βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong 5 mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2, …., βk 2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội 2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) Với Y là biến phụ thuộc, X2, X3, …, Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi) Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui Hồi quy tổng thể PRF: * Y = E(Y|X) + U * E(Y|X) = F 2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function): Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước 6 lượng Trên một mẫu có n cá thể, gọi 𝑌̂ = 𝐹̂(𝑋2, 𝑋3, … , 𝑋𝑘) là hồi quy mẫu Với một cá thể mẫu Yi ≠ 𝐹̂ = 𝐹̂𝑋2,𝑖, 𝑋3,𝑖, … , 𝑋𝑘,𝑖) sinh ra ei = Yi - 𝐹̂ (𝑋2, 𝑋3, … , 𝑋𝑘); 𝑒𝑖 gọi là phần dư SRF Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau: 𝑦̂𝑖 = 𝛽̂1 + 𝛽̂2 𝑥2,𝑖+ + 𝛽̂3 𝑥3,𝑖+ ⋯ + 𝛽̂𝑘 𝑥𝑘,𝑖 Phần dư sinh ra 𝑒𝑖= 𝑦𝑖 - 𝑦̂𝑖 Kí hiệu: 𝛽̂𝑚 là ước lượng của 𝛽𝑚 Chúng ta trông đợi 𝛽̂𝑚 ước lượng không chênh lệch của 𝛽𝑚 phải là một ước lượng hiệu quả Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của 𝐹̂ và lấy giá trị quan sát của các tham số này là xấp xỉ cho tham số của F 2.3 Phương pháp bình phương cực tiểu (Ordinary Least Squares) Phương pháp bình phương cực tiểu được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ 2.3.1 Các giả thiết của phương pháp bình phương cực tiểu cho mô hình hồi quy tuyến tính bội Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn 7 giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương 7 pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE) Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS có phương sai bé nhất Các giả thiết như sau: 1/ Hàm hồi quy là tuyến tính theo các hệ số Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng: y = β1 + β2X2 + β3X3 + … + βkXk + u hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế 2/ E 𝒖𝒊 = 0: Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0 Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể 3/ Var (𝒖𝒊) = 𝛔𝟐: Phương sai bằng nhau và thuần nhất với mọi ui Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho: Var (𝑢𝑖) = E(𝑢𝑖2) = 𝛔𝟐 4/ 𝒖𝒊 phân phối chuẩn 8 Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng 5/ Giữa các 𝒖𝒊 thì độc lập với nhau 2.3.2 Ước lượng Ta đặt: 𝑦̂𝑖 ký hiệu giá trị thực của biến y tại quan sát i 𝑦̂𝑖 ký hiệu giá trị của hàm hồi quy mẫu 𝑒𝑖 ký hiệu phần dư 𝑦𝑖 - 𝑦̂𝑖 Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra 𝛽̂0, 𝛽̂1, …, 𝛽̂k Ta có: ∑ 𝑒𝑖2= ∑ (𝑦𝑖 – ( 𝛽̂1 + 𝛽̂2 𝑥2,𝑖+ + 𝛽̂3 𝑥3,𝑖+ ⋯ + 𝛽̂𝑘 𝑥𝑘,𝑖)2 Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau: ∂ ∑ 𝑒𝑖 = -2 ∑ (𝑦𝑖 – ( 𝛽 2 ̂1 + 𝛽̂2 𝑥2,𝑖+ + 𝛽̂3 𝑥3,𝑖+ ⋯ + 𝛽̂𝑘 𝑥𝑘,𝑖)) 𝑥1𝑖 = 0 ∂β̂1 ∂ ∑ 𝑒𝑖 = -2 ∑ (𝑦𝑖 – ( 𝛽 2 ̂1 + 𝛽̂2 𝑥2,𝑖+ + 𝛽̂3 𝑥3,𝑖+ ⋯ + 𝛽̂𝑘 𝑥𝑘,𝑖)) 𝑥2𝑖 = 0 ∂β̂2 9

Ngày đăng: 20/03/2024, 21:17