Báo cáo bài tập lớn Xác suất thống kê Mô hình hồi quy tuyến tính

43 8 0
Báo cáo bài tập lớn Xác suất thống kê Mô hình hồi quy tuyến tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Báo cáo bài tập lớn xác xuất thống kê có code lập trình Rstudio có phần chung và phần riêng (Giới thiệu Mô hình Hồi quy tuyến tính mô hình hồi quy tuyến tính bội) trường Đại học Bách Khoa TP.HCM (HCMUT) GVHD: thầy Hoàng Văn Hà

1 MỤC LỤC TÓM TẮT CÂU HỎI .3 CƠ SỞ LÝ THUYẾT Hồi quy Giới thiệu mơ hình hồi quy tuyến tính bội Ước lượng tham số mơ hình hồi quy tuyến tính bội I PHẦN CHUNG 13 Đọc liệu (Import Data) 13 Làm liệu (Data cleaning) 13 Làm rõ liệu (Data visualization) .17 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 22 Dự đoán (Prediction) 29 II PHẦN RIÊNG 32 Đọc liệu (Import data) 32 Làm liệu (Data cleaning) .33 Làm rõ liệu (Data visualization) 33 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models) .39 Dự báo (Prediction) 41 TÀI LIỆU THAM KHẢO .42 TÓM TẮT CÂU HỎI I Phần chung: Đề tài: Tập tin "diem_so.csv" chứa thông tin về điểm toán em học sinh trung học thuộc hai trường học ở Bồ Đào Nha Các thuộc tính liệu bao gồm điểm học sinh, nơi cư trú, số hoạt động xã hội khác Dữ liệu thu thập bằng cách sử dụng báo cáo trường kết khảo sát sinh viên Dữ liệu gốc cung cấp tại: https://archive.ics.uci.edu/ml/datasets/student+performance 1.Đọc liệu (Import Data) 2.Làm liệu (Data Cleaning) 3.Làm rõ liệu (Data visualization): 4.Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 5.Dự đốn (Prediction): II Phần riêng: Sinh viên tự tìm liệu thuộc về chun ngành Khuyến khích sinh viên sử dụng liệu thực tế sẵn có từ thí nghiệm, khảo sát, dự án chun ngành Ngồi sinh viên tự tìm kiếm liệu từ nguồn khác tham khảo kho liệu cung cấp tập tin “kho_du_lieu_BTL_xstk.xlsx” Sinh viên tự chọn phương pháp lý thuyết phù hợp để áp dụng phân tích liệu mình, phải đảm bảo phần: làm rõ liệu (data visualization) mơ hình liệu (model fitting) Trong ngành xây dựng nay, cơng trình xây dựng bê tơng đóng vai trị quan trọng việc cấu thành cơng trình, để có loại bê tơng tốt bê tơng cần có thành phần cấu tạo nên để đạt sức nén chịu lực tối ưu nhất Vì nhà nghiên cứu đã tiến hành thực nghiệm về thành phần cấu tạo nên bê tơng để có sức nén tối ưu Nhóm đã sử dụng phần thực nghiệm Concrete_Data.xls kho liệu XSTK Các biến liệu: • Cement: Xi măng (Kg hỗn hợp 1m3) • BF: Xỉ lị cao – Blast Furnsce Slag (Kg hỗn hợp 1m3) • WT: Nước – Water (Kg hỗn hợp 1m3) • Super: Phụ gia siêu dẻo – Superplasticizer (Kg hỗn hợp 1m3) • CA: Cốt liệu thô – Coarse Aggregate (Kg hỗn hợp 1m3) • FA.1: Cốt liệu mịn – Fine Aggregate (Kg hỗn hợp 1m3) • Age: Tuổi – Age (ngày) • CCS: Cường độ nén bê tơng – Concrete Compressive Strength (MPa) CƠ SỞ LÝ THUYẾT Hồi quy Hồi quy phương pháp thống kê để thiết lập mối quan hệ biến phụ thuộc nhóm tập hợp biến độc lập Mơ hình với biến phụ thuộc với hai nhiều biến độc lập gọi hồi quy bội (hay cịn gọi hồi quy đa biến) Ví dụ: Chi tiêu hộ gia đình về thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục,…; Lương người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,… Giới thiệu mơ hình hồi quy tuyến tính bội Mơ hình hồi quy tuyến tính bội có dạng tổng qt sau: Y = β1 + β2X2 + β3X3 + … + βkXk + u Trong đó: + Y: biến phụ thuộc + Xi: biến độc lập + β1: hệ số tự (hệ số chặn) + βi: hệ số hồi quy riêng βi đo lường tác động riêng phần biến Xi lên Y với điều kiện biến số khác mơ hình khơng đổi Cụ thể hơn, biến khác mơ hình khơng đổi, giá trị kỳ vọng Y tăng βi đơn vị Xi tăng đơn vị u: sai số ngẫu nhiên Như vậy, "Hồi quy tuyến tính" phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa giá trị biến độc lập (X) Thuật ngữ tuyến tính dùng để rằng chất thông số tổng thể β1 βi tuyến tính (bậc nhất) Nó sử dụng cho trường hợp chúng ta muốn dự đoán số lượng liên tục Ví dụ: dự đốn thời gian người dùng dừng lại trang số người đã truy cập vào website v.v Bằng liệu thu thập được, ta ước lượng hàm hồi quy tổng thể, ước lượng tham số tổng thể: β1, β2,…, βk Ước lượng tham số mơ hình hồi quy tuyến tính bội 2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) Với Y biến phụ thuộc, X2, X3,…, Xk biến độc lập, Y ngẫu nhiên có phân phối xác suất Suy ra: Tồn E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy, F(X2, X3,…, Xk)= E(Y|X2, X3,…, Xk) hàm hồi quy tổng thể Y theo X 2, X3,…, Xk Với cá thể i, tồn (X2,i, X3,i, …, Xk,i, Yi) Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui Hồi quy tổng thể PRF:  Y = E(Y|X) + U  E(Y|X) = F(X) 2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function) Do tổng thể, nên chúng ta khơng biết giá trị trung bình tổng thể biến phụ thuộc đúng ở mức độ Do chúng ta phải dựa vào liệu mẫu để ước lượng Trên mẫu có n cá thể, gọi Ŷ = F̂(X2, X3,…, Xk) hồi quy mẫu Với cá thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ei = Yi – F̂ (X2, X3,…, Xk); ei gọi phần dư SRF Ta có hàm hồi quy mẫu tổng quát viết dạng sau: ŷi = β̂1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i Phần dư sinh ra: ei = yi – ŷi Ký hiệu: β̂m ước lượng βm Chúng ta trông đợi β̂m ước lượng không chệch βm, hơn phải ước lượng hiệu Ước lượng SRF: chọn phương pháp để ước lượng tham số F qua việc tìm tham số F̂ lấy giá trị quan sát tham số làm giá trị xấp xỉ cho tham số F 2.3 Phương pháp bình phương nhỏ (Ordinary Least Squares) Phương pháp bình phương nhỏ nhất đưa bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng phương pháp cực tiểu tổng bình phương phần dư Do nói để có hồi quy thích hợp nhất, chúng ta chọn ước lượng có tung độ gốc độ dốc cho phần dư nhỏ 2.3.1 Các giả thiết phương pháp bình phương nhỏ nhất cho mơ hình hồi quy tuyến tính bội Phương pháp bình phương nhỏ nhất (OLS) phương pháp rất đáng tin cậy việc ước lượng tham số mơ hình, nhiên mơ hình ước lượng phải thỏa mãn giả thiết Khi thỏa mãn giả thiết, ước lượng bình phương nhỏ nhất (OLS) ước lượng tuyến tính khơng chệch có hiệu nhất ước lượng Vì phương pháp OLS đưa ước lượng khơng chệch tuyến tính tốt nhất (BLUE) Kết gọi Định lý Gauss – Markov, theo lý thuyết ước lượng OLS BLUE, nghĩa tất tổ hợp tuyến tính khơng chệch Y, ước lượng OLS có phương sai bé nhất Các giả thiết sau: 1) Hàm hồi quy tuyến tính theo hệ số Điều có nghĩa q trình thực hành hồi quy thực tế miêu tả bởi mối quan hệ dạng: y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u mối quan hệ thực tế viết lại ví dụ dạng lấy loga hai vế 2) E(ui) = : Kỳ vọng yếu tố ngẫu nhiên ui Trung bình tổng thể sai số bằng Điều có nghĩa có số giá trị sai số mang dấu dương số sai số mang dấu âm Do hàm xem đường trung bình nên giả định rằng sai số ngẫu nhiên bị loại trừ nhau, ở mức trung bình, tổng thể 3) Var(ui) = σ2 : Phương sai với ui Tất giá trị u phân phối giống với phương sai σ2, cho: Var(ui) = E(ui2) = σ2 4) ui phân phối chuẩn Điều rất quan trọng phát sinh khoảng tin cậy thực kiểm định giả thuyết phạm vi mẫu nhỏ Nhưng phạm vi mẫu lớn hơn, điều trở nên không mấy quan trọng 5) Giữa ui độc lập với 2.3.2 Ước lượng Ta đặt: yi ký hiệu giá trị thực biến y quan sát i ŷi ký hiệu giá trị hàm hồi quy mẫu ei ký hiệu phần dư yi – ŷi Hình Đồ thị hồi quy tuyến tính Do cực tiểu hóa Σ(yi – ŷi)2 tương đương với cực tiểu Σei2 từ tìm β̂0, β̂1,…, β̂k Ta có: Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))2 Chúng ta có thiết lập điều kiện bậc nhất cho phép tính tối thiểu sau: … ∂β̂k = -2Σ (yi-(β̂1+ β̂2x2i+ β̂3x3i+…+β̂kxki )) xki = Hệ phương trình mà chúng ta có gọi hệ phương trình chuẩn hồi quy mẫu Chúng ta giải k phương trình chuẩn để tìm k hệ số β̂ chưa biết β̂1, β̂2,…, β̂k gọi ước lượng bình phương nhỏ nhất 2.4 Độ phù hợp mơ hình Để biết mơ hình giải thích hay % biến động biến phụ thuộc, người ta sử dụng R2 Σ(yi – ӯ))2 = Σ[(yi – ŷi) + (ŷi – ӯ))]2 = Σ[ei + Ta có: (ŷi – ӯ))]2 = Σei2 + 2Σei(ŷi – ӯ)) + Σ(ŷi – ӯ))2 Đặt:  Σ(yi – ӯ))2 : TSS – Total Sum of Squares  Σ(ŷi – ӯ))2 : ESS – Explained Sum of Squares  Σei2 : RSS – Residual Sum of Squares Do Σei(ŷi – ӯ)) = ⇐ (Σeiŷi = 0; Σeiӯ) = 0) Ta viết: TSS = ESS + RSS Ý nghĩa thành phần:  TSS tổng bình phương tất sai lệch giá trị quan sát Y i giá trị trung bình  ESS tổng bình phương tất sai lệch giá trị biến phụ thuộc Y nhận từ hàm hồi quy mẫu giá trị trung bình chúng Phần đo độ xác hàm hồi quy  RSS tổng bình phương tất sai lệch giá trị quan sát Y giá trị nhận từ hàm hồi quy  TSS chia thành phần: phần ESS phần RSS gây Từ TTS = ESS + RSS, ta chia hai vế cho TSS, ta có: = ESS + RSS = Σ(ŷi – ӯ))2 + e Σ 2i TSS TSS Σ(yi- y̅) Σ(yi- y̅) R2 = ESSTSS =1 - RSSTSS = (Σ((Σy(i-yy̅i)- 2y̅))((Σy(i-y y̅î-) y̅))̂ 2) Tỷ số tổng biến thiên giải thích bởi mơ hình cho tổng bình phương cần giải thích gọi hệ số xác định, trị thống kê “good of fit” Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % toàn sai lệch Y với giá trị trung bình giải thích bằng mơ hình Khi người ta sử dụng R2 để đo phù hợp hàm hồi quy: ≤ R2 ≤  R2 cao nghĩa mơ hình ước lượng giải thích mức độ cao biến động biến phụ thuộc  Nếu R2 = 1, nghĩa đường hồi quy giải thích 100% thay đổi y  Nếu R2 = 0, nghĩa mơ hình khơng đưa thông tin về thay đổi biến phụ thuộc y Trong mơ hình hồi quy đa biến tỷ lệ toàn khác biệt biến y tất biến x2 x3 gây gọi hệ số xác định bội, ký hiệu R2 R2 = β̂2Σ(yi- y̅)(x2i- x̅2)+β̂3Σ2(yi- y̅)(x3i- x̅3) = 1- Σe2i Σ(yi- y̅) Σ(yi- y̅) 2.5 Khoảng tin cậy kiểm định hệ số hồi quy 2.5.1 Ước lượng khoảng tin cậy hệ số hồi quy Mục đích phân tích hồi quy khơng phải suy đoán về β 1, β2,…, βk mà phải kiểm tra chất phụ thuộc Do cần phải biết phân bố xác suất β 1, β2,…, βk Các phân bố phụ thuộc vào phân bố ui Với giả thiết OLS, ui có phân phối N (0, σ2) Các hệ số ước lượng tuân theo phân phối chuẩn: 10

Ngày đăng: 13/02/2024, 00:28