Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
1,78 MB
Nội dung
ĐẠ I HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ NHÓM GT.07 – ĐỀ TÀI KHOA KỸ THUẬT NGÀY NỘP : GVHD : ThS Nguy STT TÊN SINH VIÊN 01 Huỳnh Gia Hòa 02 Văn Viết Duy 03 Đồn Tấn Thành 04 Phạm Minh Tín Thành phố Hồ Chí Minh, 2021 MỤC LỤC – PHẦN – CƠ SỞ LÝ THUYẾT 1 Khái niệm Giả định sai số ngẫu nhiên Ước lượng hệ số hồi quy mơ hình hồi quy tuyến tính đơn .1 Độ đo biến thiên liệu Hệ số xác định Phân tích tương quan Khoảng tin cậy cho hệ số hồi quy – PHẦN – BÀI TẬP ỨNG DỤNG I Phần chung Đọc liệu (Import Data): .5 Làm liệu (Data Cleaning): (a) Trích xuất liệu (b) Kiểm tra liệu khuyết Làm rõ liệu (Data Visualization) .7 (a) Chuyển đổi biến (b) Thống kê mô tả : Thống kê mẫu (c) Thống kê mô tả : Dùng đồ thị 10 Xây dựng mơ hình hồi quy tuyến tính 14 Dự báo (Prediction) 17 II Phần riêng 18 Đọc liệu (Import Data): 18 Làm liệu (Data Cleaning): .18 Làm rõ liệu (Data Visualization) .19 (a) Thống kê biến liên tục .19 (b) Thống kê biến phân loại 19 (c) Vẽ đồ thị phân phối 20 Xây dựng mơ hình hồi quy tuyến tính 23 Dự báo (Prediction) 26 –PHẦN1– CƠ SỞ LÝ THUYẾT Lý thuyết hồi quy tuyến tính đơn Khái niệm Một mơ hình thống kê tuyến tính đơn (Simple linear regression model) liên quan đến biến ngẫu nhiên Y biến giải thích X phương trình có dạng: Trong đó: + + X ,1 + Với (x1 , y1 ), , (xn , yn từ phương trình ta có: t ) E () ngẫu nhiên kích ( )= n, thước Giả định sai số ngẫu nhiên n mơ hình (*) Các sai số giả sử thỏa ngẫu nhiên i , i điều kiện = 1, 2, 3, , sau: + Các sai số i độc lập với +E (i N (0, ) với phương ) = sai không đổi Với quan trắc + Các sai số có phân phối chuẩn: i Y E (Y | X ) = ã + bi X , từ suy ết , Ước lượng hệ số hồi quy mơ hình hồi quy tuyến tính đơn X đ Phương trình hồi quy tuyến tính Y theo X với hệ số ước lượng (fitted regression line) có dạng: yˆ = ˆ + ˆ 1x Trong đó: lượng cho pháp bình ˆ 0 ˆ hệ số ước , tìm từ phương phương cực tiểu (method of least squares) Đây đường thằng hồi quy mẫu, xấp xỉ tốt qua điểm liệu Dựa vào phương pháp bình phương cực tiểu, hệ số ước lượng tính sau: Với Sxx Sxy Các ước lượng ˆ trình hồi quy Y sau: n + SSE = ( yi i=1 Squares for Errors) n + SE = ( yi i =1 Cách trình bày khác tốn ước lượng hệ số hồi quy mơ hình hồi quy tuyến tính đơn Phương trình hồi quy mẫu Y theo X có dạng: Độ đo biến thiên liệu xy = Tổng bình phương tồn phần (Total Sum of Squares), kí hiệu SST n SST = i=1 ( yi − Ý nghĩa y : Đo biến thiên giá trị Tổng bình phương hồi quy (Regression Sum of Squares), kí hiệu SSR Nhận xét: Kết cho thông tin hệ số góc biến độc lập chúng tác động đên biến price.log Xét dòng Signif.codes, ta thấy R đánh giá mức ý nghĩa 19 biến độc lập *** (Quy đổi tức mức ý nghĩa gần tất nhiên nhỏ 5% theo yêu cầu đề bài) Kết luận: Các hệ số hồi quy khác đáng kể, có ảnh hưởng đến biến price.log, nên không loại biến khỏi mô hình Có thể hiểu Signif.codes mức độ quan trọng biến Biến đánh giá cao quan trọng khơng thể bỏ qua sai số tiêu chuẩn (Residuals standard error) 0.3698 Từ ta suy phương trình hồi quy tuyến tính biến Price sau: price.log = 7.427 + 0.0002004*sqft_basement + 0.3144*sqft_above.log + 0.3702*sqft_ living.log + 0.117 *floors + 0.06996*condition + 0.1224*view Nhóm xây dựng thêm mơ hình M2 dựa biến độc lập M1 khơng xét đến biến condition • Mơ hình M2 với câu lệnh M2 = lm(price.log~sqft_basement + floors + sqft_ above.log + sqft_living.log) 15 Sử dụng lệnh anova() để xuất mô hình hồi quy hợp lý từ mơ hình M1 M2 • Giả thiết: H : M1 M2 có hiệu nhau; H : M1 M2 có hiệu khác Nhận thấy giá trị Pr( F ) 2.2 Nhận xét: Từ bảng summary (M1), ta biết hệ số hồi quy ứng với biến mơ hình M1 có ý nghĩa thống kê, tức biến ảnh hưởng đến giá trị giá nhà Nhận thấy R-squared mơ hình M1 0.5069 lớn R-squared mơ hình M2 0.5 Có nghĩa mơ hình M1 giúp giải thích khoảng 50.69% biến động biến price.log, mơ hình M2 giải thích khoảng 50% biến động price.log Do ta chọn mơ hình M1 mơ hình hợp lí 16 Như kết luận mơ hình M1 cho biết nhiều yếu tố tác động lên giá nhà Vì mơ hình M2 loại bỏ biến condition nên gây sai số lên giá nhà Kết luận: Mô hình M1 hợp lý Dự báo (Prediction) • Thực khai báo biến x1, x2 dự báo price.log giá trị trung bình giá trị cao biến • Dùng lệnh predict() để thực dự đốn So sánh khoảng tin cậy, có nhận xét sau: o Với thuộc tính x1, giá trị dự đoán giá nhà 13.53946 với khoảng tin cậy (13.51234; 13.56658) o Với thuộc tính x2, giá trị dự đoán giá nhà 15.72536 với khoảng tin cậy (15.06636; 15.84435) o Độ dài tin cậy x2 (upr-lwr) 0.23799 lớn x1 (upr-lwr) 0.05424 Sự chênh lệch lớn nên thuộc tính x1 đáng tin cậy 17 Phần riêng AI Tập tin "airfoil_self_noise.csv" chứa thông tin tiếng ồn phát từ cánh máy bay Dữ liệu gốc cung cấp tại: https://archive.ics.uci.edu/ml/datasets/airfoil+self-noise Các biến liệu: • frequency: Tần số dao động (Hz) • angle of attack: Góc (độ) • chord length: Độ dài hợp âm (m) • free-stream velocity: Vận tốc gió (m/s) • suction side displacement thickness: Độ dày dịch chuyển phía bên hút (m) • scaled sound pressure level: Mức áp suất âm chia tỉ lệ (dB) Đọc liệu (Import Data): • Dùng lệnh airfoil_ self_noise F) < 2,2 10−16 < = 0,05 nên bác bỏ giả thiết H0, tức chấp nhận mơ hình MF1 MF2 khác 25 Nhận xét: Nhận thấy R-squared mơ hình MF1 0.5157 lớn R-squared mơ hình MF2 0.4846 Có nghĩa mơ hình giúp giải thích khoảng 51.57% biến động biến SPL, mơ hình giải thích khoảng 48.46% biến động SPL Do ta chọn mơ hình MF1 mơ hình hợp lí Dự báo (Prediction) • Thực khai báo x1, x2 dự báo SPL giá trị trung bình giá trị cao biến • Dùng lệnh predict() để thực dự đốn So sánh khoảng tin cậy, có nhận xét sau: o Dự báo mức áp suất âm giá trị trung bình biến SPL 124.8359 dB, khoảng ước lượng (124.5926; 125.0793) o Dự báo mức áp suất âm giá trị lớn biến SPL 85.4611 dB, khoảng ước lượng (83.3768; 87.5454) 26 o Độ dài khoảng dự báo x1 < x2 (0.4867 < 4.1686) nên dự báo giá trị trung bình biến đáng tin cậy 27 ... trắc + Các sai số có phân phối chuẩn: i Y E (Y | X ) = ã + bi X , từ suy ết , Ước lượng hệ số hồi quy mô hình hồi quy tuyến tính đơn X đ Phương trình hồi quy tuyến tính Y theo X với hệ số ước lượng. .. tiểu, hệ số ước lượng tính sau: Với Sxx Sxy Các ước lượng ˆ trình hồi quy Y sau: n + SSE = ( yi i=1 Squares for Errors) n + SE = ( yi i =1 Cách trình bày khác tốn ước lượng hệ số hồi quy mơ hình hồi. .. Khái niệm Giả định sai số ngẫu nhiên Ước lượng hệ số hồi quy mơ hình hồi quy tuyến tính đơn .1 Độ đo biến thiên liệu Hệ số xác định Phân tích tương