1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ Ước lượng các hệ số hồi quy trong mô hình hồi quy tuyến tính đơn

30 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 1,34 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ NHÓM GT.07 – ĐỀ TÀI 01 – HỌC KỲ 211 KHOA KỸ THUẬT GIAO THÔNG NGÀY NỘP : GVHD : STT 21/11/2021 ThS Nguyễn Kiều Dung TÊN SINH VIÊN MSSV Tổ Ngành học 01 Huỳnh Gia Hòa 2012244 L09-A GT-THK 02 Văn Viết Duy 2011582 L09-B GT-THK 03 Đoàn Tấn Thành 2014489 L09-C GT-THK 04 Phạm Minh Tín 2014753 L09-C GT-THK Ký tên Thành phố Hồ Chí Minh, 2021 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat MỤC LỤC – PHẦN – CƠ SỞ LÝ THUYẾT 1 Khái niệm Giả định sai số ngẫu nhiên Ước lượng hệ số hồi quy mơ hình hồi quy tuyến tính đơn Độ đo biến thiên liệu Hệ số xác định Phân tích tương quan Khoảng tin cậy cho hệ số hồi quy – PHẦN – BÀI TẬP ỨNG DỤNG I Phần chung Đọc liệu (Import Data): Làm liệu (Data Cleaning): (a) Trích xuất liệu (b) Kiểm tra liệu khuyết Làm rõ liệu (Data Visualization) (a) Chuyển đổi biến (b) Thống kê mô tả : Thống kê mẫu (c) Thống kê mô tả : Dùng đồ thị 10 Xây dựng mơ hình hồi quy tuyến tính 14 Dự báo (Prediction) 17 II Phần riêng 18 Đọc liệu (Import Data): 18 Làm liệu (Data Cleaning): 18 Làm rõ liệu (Data Visualization) 19 (a) Thống kê biến liên tục 19 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat (b) Thống kê biến phân loại 19 (c) Vẽ đồ thị phân phối 20 Xây dựng mơ hình hồi quy tuyến tính 23 Dự báo (Prediction) 26 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat CƠ SỞ LÝ THUYẾT – PHẦN – Lý thuyết hồi quy tuyến tính đơn Khái niệm Một mơ hình thống kê tuyến tính đơn (Simple linear regression model) liên quan đến biến ngẫu nhiên Y biến giải thích X phương trình có dạng: Y =  + 1 X +  Trong đó: +  , 1 tham số chưa biết, gọi hệ số hồi quy + X biến độc lập, giải thích cho Y +  thành phần sai số,  giả sử có phân phối chuẩn với E (  ) = Var (  ) =  Với ( x1 , y1 ) , , ( xn , yn ) n cặp giá trị quan trắc mẫu ngẫu nhiên kích thước n , từ phương trình ta có: yi =  + 1 xi +  i (*) Giả định sai số ngẫu nhiên Các sai số ngẫu nhiên  i , i = 1, 2,3, , n mơ hình (*) giả sử thỏa điều kiện sau: + Các sai số  i độc lập với + E (  i ) = Var (  i ) =  + Các sai số có phân phối chuẩn:  i N ( 0,  ) với phương sai không đổi Với quan trắc X biết, E (Y | X ) =  + 1 X , từ suy Y N (  + 1 X , ) Ước lượng hệ số hồi quy mơ hình hồi quy tuyến tính đơn Phương trình hồi quy tuyến tính Y theo X với hệ số ước lượng (fitted regression line) có dạng: yˆ = ˆ0 + ˆ1 x Trong đó: ˆ0 ˆ1 hệ số ước lượng cho  1 , tìm từ phương pháp bình phương cực tiểu (method of least squares) Đây đường thằng hồi quy mẫu, xấp xỉ tốt TIEU LUAN MOI download : skknchat123@gmail.com moi nhat qua điểm liệu Dựa vào phương pháp bình phương cực tiểu, hệ số ước lượng tính sau: ˆ1 = S xy ˆ ; 0 = y − ˆ1 x S xx Với S xx S xy xác định bởi: n S xx =  ( xi − x ) i =1  n    xi  n =  xi −  i =1  n i =1  n  n    xi   yi  n n S xy =  ( xi − x )( yi − y ) =  xi yi −  i =1  i =1  n i =1 i =1 Các ước lượng ˆ0 ˆ1 tìm gọi ước lượng bình phương bé Phương trình hồi quy Yˆ = ˆ0 + ˆ1 X gọi đường thẳng bình phương bé nhất, thỏa tính chất sau: n + SSE =  ( yi − yˆi ) đạt giá trị bé nhất, với SSE tổng bình phương sai số (Sum of i =1 Squares for Errors) n n i =1 i =1 + SE =  ( yi − yˆi ) =  ei = , với SE tổng sai số (Sum of Errors) Cách trình bày khác tốn ước lượng hệ số hồi quy mơ hình hồi quy tuyến tính đơn Phương trình hồi quy mẫu Y theo X có dạng: yˆ = ˆ0 + ˆ1 x Trong đó: n xy − x y ˆ ˆ1 = ;  = y − ˆ1 x với xy = sˆx x y i i =1 i n Độ đo biến thiên liệu Tổng bình phương tồn phần (Total Sum of Squares), kí hiệu SST n SST =  ( yi − y ) i =1 TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Ý nghĩa: Đo biến thiên giá trị yi xung quanh giá trị trung tâm liệu y Tổng bình phương hồi quy (Regression Sum of Squares), kí hiệu SSR n SSR =  ( yˆi − y ) i =1 Ý nghĩa: Giải thích biến thiên liên quan đến mối quan hệ tuyến tính X Y Tổng bình phương sai số (Error Sum of Squares), kí hiệu SSE n SSE =  ( yi − yˆi ) i =1 Ý nghĩa: Giải thích biến thiên yếu tố khác (không liên quan đến mối quan hệ tuyến tính X Y Ta có: SST = SSR + SSE Hệ số xác định TIEU LUAN MOI download : skknchat123@gmail.com moi nhat Hệ số xác định (coefficient of determination) tỷ lệ tổng biến thiên biến phụ thuộc gây biến thiên biến độc lập (biến giải thích) so với tổng biến thiên toàn phần Hệ số xác định thường gọi R - bình phương (R-squared), ký hiệu R Cơng thức tính: R = SSR SST Hệ số xác định mơ hình hồi quy cho phép ta đánh giá mơ hình tìm có giải thích tốt cho mối liên hệ biến phụ thuộc Y biến phụ thuộc X hay không? Phân tích tương quan Phân tích tương quan (Correlation Analysis) dùng để đo độ mạnh mối liên hệ tuyến tính hai biến ngẫu nhiên Ta thường sử dụng: hiệp phương sai hệ số tương quan để phân tích tương quan Xét hai biến ngẫu nhiên X , Y , hiệp phương sai (Covariance) X Y , ký hiệu Cov ( X , Y ) , định nghĩa sau: Cov ( X , Y ) = E ( XY ) − E ( X ) E (Y ) Và hệ số tương quan (Correlation coefficient) hai biến ngẫu nhiên X Y , ký hiệu  XY , xác định sau:  XY = Cov ( X , Y ) Var ( x ) Var (Y ) Với mẫu ngẫu nhiên cỡ n : ( X i , Yi ) , i = 1, , n Hệ số tương quan mẫu, ký hiệu rXY , xác định sau: rXY = S XY S XX SYY Hệ số xác định R mơ hình hồi quy tuyến tính đơn với bình phương hệ số tương quan mẫu: R = rXY Khoảng tin cậy cho hệ số hồi quy ( ) Khoảng tin cậy cho hệ số chặn  : ˆ0 −  0 ; ˆ0 +  0 Trong đó:  0 = tn − ( ) Khoảng tin cậy cho hệ số góc 1 : ˆ1 −  1 ; ˆ1 +  1 Trong đó:  1 = tn − SSE.x sˆX n ( n − ) SSE sˆX n ( n − ) TIEU LUAN MOI download : skknchat123@gmail.com moi nhat BÀI TẬP ỨNG DỤNG – PHẦN – I Phần chung Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đô la) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu cịn bao gồm thuộc tính mơ tả chất lượng nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction Các biến liệu: • price: Giá nhà bán • floors: Số tầng ngơi nhà phân loại từ 1-3.5 • condition: Điều kiện kiến trúc nhà từ − 5, 1: tệ 5: tốt • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4 • sqft_above: Diện tích ngơi nhà • sqft_living: Diện tích khn viên nhà • sqft_basement: Diện tích tầng hầm Câu hỏi: Đọc liệu (Import Data): Dùng lệnh gia_nha

Ngày đăng: 25/10/2022, 15:51

w