1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Tiểu luận) báo cáo bài tập lớn môn xác suất thống kê

77 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH - - BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ MSMH: MT2013 GVHD: Nguyễn Bá Thi LỚP: L14 NHÓM: 19 HỌ TÊN: Lê Đình Huy MSSV: 2113481 TP.HCM, tháng 11 năm 2022 Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 Lời cảm ơn Lời đầu tiên, nhóm chúng em xin gửi lời cám ơn sâu sắc đến thầy Nguyễn Bá Thi, giảng viên hướng dẫn nhóm hồn thành đề tài Nhờ giảng tâm huyết thầy mà nhóm chúng em nắm sở lý thuyết để hoàn thành báo cáo theo thời hạn giao Nhóm chúng em xin gửi lời cám ơn đến ý kiến đóng góp, giúp đỡ thầy cô, bạn bè để báo cáo hồn thiện Nhóm xin chân thành cám ơn đến hợp tác làm việc, tương trợ để hoàn thành báo cáo kịp thời hạn hồn thiện thành viên nhóm Do chưa có nhiều kinh nghiệm làm việc phần mềm RStudio, hạn chế mặt kiến thức chắn khơng tránh khỏi thiếu sót Rất mong nhận nhận xét, ý kiến đóng góp, phê bình từ phía thầy để báo cáo hồn thiện Lời cuối cùng, nhóm xin gửi lời cám ơn đến người hỗ trợ nhóm trình làm báo cáo 2|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 MỤC LỤC Lời cảm ơn I PHẦN CHUNG 1 Hồi quy tuyến tính bội 1.1 Đề 1.2 Cơ sở lý thuyết 1.2.1 Tổng quan mơ hình hồi quy tuyến tính bội 1.2.2 Một số hàm hồi quy tuyến tính 1.2.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) 1.2.2.2 Hàm hồi quy mẫu (SRF - Sample Regression Function) 1.2.3 Các giả thiết phương pháp bình phương nhỏ cho mơ hình hồi quy tuyến tính bội 1.2.4 Độ phù hợp mơ hình 1.2.5 Ước lượng khoảng tin cậy kiểm định hệ số hồi quy 1.2.5.1 Ước lượng khoảng giá trị ước lượng khoảng 1.2.5.2 Kiểm định giả thiết 1.2.6 Kiểm định mức độ ý nghĩa chung mơ hình (trường hợp đặc biệt kiểm định WALD) 1.2.6.1 Khái quát kiểm định WALD 1.2.6.2 Kiểm định ý nghĩa mơ hình 1.3 Thực 1.3.1 Đọc liệu (Import Data) 1.3.2 Làm liệu 1.3.3 Làm rõ liệu (Data visualization) 1.3.4 Xây dựng mơ hình hồi quy tuyến tính 17 1.3.5 Dự báo (Predictions) 22 ANOVA 23 3|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 2.1 Đề 23 2.2 Cơ sở lý thuyết 23 2.2.1 Phân tích phương sai yếu tố 23 2.2.2 Phân tích phương sai hai yếu tố 28 2.3 Thực 34 2.3.1 Đọc file liệu, thực thống kê mô tả kiểm định 34 2.3.2 Phân tích phương sai nhân tố (one way ANOVA) 42 2.3.2 Phân tích phương sai hai nhân tố (two way ANOVA) 50 II PHẦN RIÊNG 55 Giới thiệu đề tài 55 Cơ sở lý thuyết 56 2.1 Thống kê mô tả 56 2.1.1 Trung bình cộng 56 2.1.2 Trung vị 56 2.1.3 Độ lệch chuẩn 56 2.1.4 Giá trị nhỏ 56 2.1.5 Giá trị lớn 56 2.1.6 Biểu đồ hist 56 2.1.7 Biểu đồ boxplot 56 2.1.8 Biểu đồ paris 56 2.1.9 Hồi quy tuyến tính 56 2.2 Các lệnh dùng Rstudio 56 Thực 57 3.1 Làm rõ liệu 57 3.1.1 Đọc liệu 57 3.1.2 Làm liệu 57 3.1.3 Làm rõ liệu 58 3.2 Mơ hình liệu 64 4|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 3.2.1 Xây dựng mơ hình hồi quy tuyến tính 65 3.2.2 Dự đốn so sánh khoảng tin cậy 69 TÀI LIỆU THAM KHẢO 71 5|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 I PHẦN CHUNG Hồi quy tuyến tính bội 1.1 Đề Bài tập Tập tin "gia_nha.csv" chứa thông tin giá bán thị trường (đơn vị đôla) 21613 nhà quận King nước Mỹ khoảng thời gian từ tháng 5/2014 đến 5/2015 Bên cạnh giá nhà, liệu cịn bao gồm thuộc tính mô tả chất lượng nhà Dữ liệu gốc cung cấp tại: https://www.kaggle.com/ harlfoxem/housesalesprediction price: Giá nhà bán sqft_living15: Diện tích trung bình 15 ngơi nhà gần khu dân cư floors: Số tầng nhà phân loại từ - 3.5 condition: Điều kiện kiến trúc nhà từ - 5, 1: tệ 5: tốt sqft_above: Diện tích ngơi nhà sqft_living: Diện tích khn viên nhà 1.2 Cơ sở lý thuyết 1.2.1 Tổng quan mơ hình hồi quy tuyến tính bội “Hồi quy tuyến tính bội” mơ hình với biến phụ thuộc với hai nhiều biến độc lập: = + + 1 + 2 + ⋯ ++ Trong đó: + : Biến phụ thuộc : Biến độc lập + 1: Hệ số tự (Hệ số chặn) + : Hệ số hồi quy riêng 1|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 1.2.2 Một số hàm hồi quy tuyến tính 1.2.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) Hàm hồi quy tổng thể hàm số thể mối quan hệ trung bình biến phụ thuộc biến độc lập, xác định toàn tổng thể Giả thiết: + 2, 3, … , biến độc lập + + Y biến phụ thuộc vào X Y biến ngẫu nhiên có phân phối xác suất cụ thể ⇒ Tồn ( | 2, 3, … , ) = giá trị xác định ⇒ Do vậy, ( 2, 3, … , ) = ( | 2, 3, … , ) hàm hồi quy tổng thể Y theo 2, 3, …, Với cá thể I, tồn ( 2, , )⇒ Ta có: = ( 2, 3, … , 3, ,…, , = ⇒ − , ) = ( | 2, 3, … , )+ Vậy hàm hồi quy tơng thể PRF có dạng: Y = E(Y|X) + U E(Y|X) = F(X) 1.2.2.2 Hàm hồi quy mẫu (SRF - Sample Regression Function) Hàm hồi quy mẫu hàm số thể mối quan hệ trung bình biến phụ thuộc biến độc lập, xác định toàn mẫu Ta xét mẫu có n cá thể, gọi = ( 2, 3, … , ) hồi quy mẫu Với cá thể mẫu ≠ ( 2, , 3, , … , , , ) sinh − − ( 2, 3, … , ); gọi phần dư SRF Ta có hàm hồi quy mẫu tổng quát viết dạng sau: = + 2, + 3, +⋯+ , = − Với ước lượng , phần dư 2|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 Giả thiết ước lượng không chệch , phải ước lượng hiệu Ước lượng SRF: chọn phương pháp để ước lượng tham số F qua việc tìm tham số F lấy giá trị quan sát tham số làm giá trị xấp xỉ cho tham số F 1.2.3 Các giả thiết phương pháp bình phương nhỏ cho mơ hình hồi quy tuyến tính bội Thứ nhất, hàm hồi quy tuyến tính theo tham số Hồi quy thực tế miêu tả dạng: = 0+ 1 + 2 +⋯+ + mối quan hệ thực tế viết lại ví dụ dạng lấy loga hai vế Thứ hai, kỳ vọng yếu tố ngẫu nhiên Trung bình tổng thể sai số Điều có nghĩa có số giá trị sai số mang dấu dương số sai số mang dấu âm Do hàm xem đường trung bình nên giả định sai số ngẫu nhiên bị loại trừ nhau, mức trung bình, tổng thể Thứ ba, sai số độc lập với Thứ tư, sai số có phương sai nhau: tất giá trị u phân phối giống với phương sai , cho ( )= ( 2 )= Thứ năm, sai số có phân phối chuẩn: điều quan trọng phát sinh khoảng tin cậy thực kiểm định giả thuyết phạm vi mẫu nhỏ Nhưng phạm vi mẫu lớn hơn, điều trở nên không quan trọng 1.2.4 Độ phù hợp mơ hình 3|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 Để biết mơ hình giải thích hay % biến động biến 2 phụ thuộc, người ta sử dụng , đo tỷ lệ hay số % toàn sai lệch Y với giá trị trung bình giải thích mơ hình Khi người ta sử dụng để đo phù hợp hàm hồi quy Đặt: ∑( − ∑( − ∑ ) : TSS – Tổng số bình phương (Total Sum of Squares) ) : ESS – Giải thích tổng bình phương (Explained Sum of Squares) : RSS – Tổng bình phương cịn lại (Residual Sum of Squares) Từ∑ =0, =0⇒∑ ( − )=0 Từ TSS = ESS + RSS ta chia hai vế cho TSS ∑( = Ý nghĩa thành phần: + − ) = ∑( − )2 ∑ + ∑( − ) + TSS tổng bình phương tất sai lệch giá trị quan sát Yi giá trị trung bình + ESS tổng bình phương tất sai lệch giá trị biến phụ thuộc Y nhận từ hàm hồi quy mẫu giá trị trung bình chúng Phần đo độ xác hàm hồi quy + RSS tổng bình phương tất sai lệch giá trị quan sát Y giá trị nhận từ hàm hồi quy + TSS chia thành phần: phần ESS phần RSS gây + 0≤ ≤1 2 + cao nghĩa mơ hình ước lượng giải thích mức độ cao biến động biến phụ thuộc 4|Page Giảng viên hướng dẫn: Nguyễn Bá Thi Bài tập lớn Xác suất Thống kê nhóm 19 – lớp L14 + Nếu = 1, nghĩa đường hồi quy giải thích 100% thay đổi y + Nếu = 0, nghĩa mơ hình khơng đưa thơng tin thay đổi biến phụ thuộc y 1.2.5 Ước lượng khoảng tin cậy kiểm định hệ số hồi quy 1.2.5.1 Ước lượng khoảng giá trị ước lượng khoảng Ước lượng phương sai sai số dựa vào phần dư bình phương tối thiểu Trong k số hệ số có phương trình hồi quy đa biến: 2= + Ước lượng phía ta tìm ∑ − ( − ) thỏa mãn: − (− ( − )) ≤ ≤ ( ( − )) ( ) 2 + Khoảng tin cậy − là: [ − 2( − ) ( ); + ( − ) ( )] 1.2.5.2 Kiểm định giả thiết Kiểm định biến giải thích có thực ảnh hưởng đến biến phụ thuộc hay không Nói cách khác hệ số hồi quy có ý nghĩa thống kê hay khơng Có thể đưa giả thiết , chẳng hạn = ∗ Nếu giả thiết thì: ( 5|Page Giảng viên hướng dẫn: Nguyễn Bá Thi

Ngày đăng: 28/09/2023, 20:27

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w