1. Trang chủ
  2. » Tất cả

Bài tập lớn xác suất thống kê 2 cơ sở lý thuyết mô hình hồi quy bội

47 47 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BỘ MÔN TOÁN ỨNG DỤNG Bài tập lớn Xác suất Thống kê Nhóm 12 Lớp L05 Chủ đề 6 TA Nguyễn Thị Mộng Ngọc STT Họ và tên MSSV Lớp Khoa 1 Nguyễn[.]

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BỘ MƠN TỐN ỨNG DỤNG Bài tập lớn Xác suất - Thống kê Nhóm: 12 - Lớp: L05 - Chủ đề: TA: Nguyễn Thị Mộng Ngọc STT Họ tên Nguyễn Kế Bửu (Nhóm trưởng) Nguyễn Thị Thu Hằng Nguyễn Đức Thanh Vũ Thị Lý Nguyễn Cao Trung Nghĩa MSSV 2010942 2013104 1915092 2013731 2012519 Lớp L05 L05 L05 L05 L05 Tp HỒ CHÍ MINH, 25/05/2022 Khoa Khoa học kĩ thuật máy tính Khoa Cơ Khí Khoa Kỹ thuật xây dựng Khoa Cơ Khí Khoa học kĩ thuật máy tính Trường Đại học Bách Khoa thành phố Hồ Chí Minh Mục Lục Bảng phân cơng cơng việc Cơ 2.1 2.2 2.3 sở lý thuyết: Mơ hình hồi quy bội Định nghĩa Các giả thiết mơ hình hồi quy bội Phương pháp ước lượng mơ hình hồi quy (OLS) 2.4 Độ phù hợp hàm hồi quy 2.4.1 Hệ số xác định bội 2.4.2 Hệ số xác định hiệu chỉnh bội – Phương pháp bình phương nhỏ Hoạt động 3.1 Đề 3.2 Thực 3.2.1 Đọc liệu (Import data) 3.2.2 Làm liệu (Data cleaning) 3.2.3 Làm rõ liệu: (Data visualization) 3.2.3.a Đối với biến liên tục 3.2.3.b Đối với biến phân loại 3.2.3.c Vẽ đồ thị phân phối biến G3 3.2.3.d Vẽ phân phối biến G3 cho nhóm phân loại biến sex, studytime, failures, paid 3.2.3.e Vẽ phân phối biến G3 theo biến G2, G1, Absences 3.2.4 Xây dựng mơ hình hồi quy tuyến tính 3.2.4.a Thực thi mô hình hồi quy tuyến tính bội 3.2.4.b Kiểm định hệ số hồi quy 3.2.4.c Xây dựng mơ hình 3.2.4.d So sánh mơ hình 3.2.4.e Kiểm tra giả định mơ hình 3.2.5 Thực dự báo cho điểm Toán học sinh 3.2.5.a Thống kê tỷ lệ đạt (G3 ≥ 10) không đạt (G3 < 10) 3.2.5.b Dự đoán điểm G3 3.2.5.c Bảng so sánh kết dự báo pred_G3 với kết thực tế biến G3 Hoạt động 4.1 Đề 4.2 Thực 4.2.1 Đọc liệu (Import data) 4.2.2 Làm liệu (Data cleaning) 4.2.3 Làm rõ liệu: (Data visualization) 4.2.3.a Thống kê mô tả cho biến định lượng 4.2.3.b Thống kê mô tả cho biến phân loại 4.2.3.c Biểu đồ phân phối tần số lifetime 4.2.3.d Phân phối lifetime cho nhóm phân loại 4.2.4 Xây dựng mơ hình hồi quy tuyến tính 4.2.4.a Thực thi mơ hình hồi quy tuyến tính bội Báo cáo Bài tập lớn Xác suất - Thống kê biến 5 7 8 9 10 11 11 12 13 14 17 18 18 19 19 21 22 23 23 24 25 26 26 27 27 27 28 28 28 29 30 33 33 Page 1/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh 35 36 37 38 Phụ lục 5.1 Code R hoạt động 5.2 Code R hoạt động 40 40 43 4.2.5 4.2.4.b Xây dụng mơ hình 4.2.4.c So sánh mơ hình 4.2.4.d Kiểm tra giả định mơ hình Thực dự báo cho điểm Toán học sinh Báo cáo Bài tập lớn Xác suất - Thống kê Page 2/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 20 Bảng giá trị thống kê mô tả Bảng tần số biến phân loại Đồ thị phân phối G3 Đồ thị phân phối G3 theo biến sex Đồ thị phân phối G3 theo biến studytime Đồ thị phân phối G3 theo biến failures Đồ thị phân phối G3 theo biến paid Đồ thị phân phối G3 theo biến G2 Đồ thị phân phối G3 theo biến G1 Đồ thị phân phối G3 theo biến absences Đồ thị phần dư mô hình Thống kê tỷ lệ đạt không đạt Đồ thị phân phối biến lifetime Đồ thị phân phối lifetime theo biến broken Đồ thị phân phối lifetime theo biến team Đồ thị phân phối lifetime theo biến provider Đồ thị phân phối lifetime theo biến pressureInd Đồ thị phân phối lifetime theo biến moistureInd Đồ thị phân phối lifetime theo biến temperatureInd Đồ thị phần dư mơ hình Báo cáo Bài tập lớn Xác suất - Thống kê 13 13 14 15 15 16 16 17 17 18 23 24 29 30 31 31 32 33 34 37 Page 3/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh Bảng phân cơng cơng việc STT Họ tên MSSV Nguyễn Kế Bửu 2010942 Nguyễn Thị Thu Hằng Nguyễn Đức Thanh 2013104 1915092 Vũ Thị Lý 2013731 Nguyễn Cao Trung Nghĩa 2012519 Báo cáo Bài tập lớn Xác suất - Thống kê Cơng việc - Mơ hình liệu thực dự báo Hoạt động 22 - Hỗ trợ phần thống kê mô tả Hoạt động - Làm phần 1,2,3 Hoạt động - Hỗ trợ làm Hoạt động - Dựa theo R-script để viết báo cáo phần Hoạt động - Soạn phần Cơ sở lý thuyết - Tổng hợp báo cáo làm Latex - Viết R-script cho Hoạt động % Công việc 20% 20% 20% 20% 20% Page 4/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh Cơ sở lý thuyết: Mơ hình hồi quy bội 2.1 Định nghĩa Mơ hình hồi quy bội mơ hình hồi quy đó: biến phụ thuộc Y phụ thuộc vào (k − 1) biến độc lập X2 , X3 , , Xk có dạng sau: Hàm hồi quy tổng thể: E(Y |X2 , X3 , , Xk ) = β1 + β2 X2 + β3 X3 + + βk Xk Mơ hình hồi quy tổng thể: Y = β1 + β2 X2 + β3 X3 + + βk Xk + u Trong đó: • u sai số ngẫu nhiên, đại diện cho yếu tố có tác động đến Y không đưa vào mô biến số • β1 hệ số tự (hệ số chặn), giá trị trung bình Y Xj = • βj hệ số hồi quy riêng (hay hệ số góc), thể ảnh hưởng riêng biến độc lập Xj lên trung bình Y biến khác giữ không đổi Cụ thể, Xj tăng giảm đơn vị, điều kiện biến độc lập khác khơng đổi, Y trung bình thay đổi βj đơn vị Có thể nhận thấy ba trường hợp xảy hệ số góc: – Hệ số βj > 0: Mối quan hệ Y Xj thuận chiều, nghĩa Xj tăng (hoặc giảm) điều kiện biến độc lập khác khơng đổi Y tăng (hoặc giảm) – Hệ số βj < 0: Mối quan hệ Y Xj ngược chiều, nghĩa Xj tăng (hoặc giảm) điều kiện biến độc lập khác khơng đổi Y giảm (hoặc tăng) – Hệ số βj = 0: cho Y Xj khơng có tương quan với nhau, cụ thể Y khơng phụ thuộc vào Xj Xj không thực ảnh hưởng tới Y Dựa vào kết ước lượng với mẫu cụ thể, ta đánh giá mối quan hệ biến phụ thuộc biến độc lập mơ hình cách tương đối Dù mơ hình có nhiều biến độc lập tồn yếu tố tác động đến biến phụ thuộc không đưa vào mơ hình nhiều lý (khơng có số liệu khơng muốn đưa vào) Do mơ hình tồn sai số ngẫu nhiên đại diện cho yếu tố khác biến Xj (j = 2, 3, , k) có tác động đến Y khơng đưa vào mơ biến số 2.2 Các giả thiết mơ hình hồi quy bội Giả thiết 1: Việc ước lượng dựa sở mẫu ngẫu nhiên Giả thiết 2: Kỳ vọng sai số ngẫu nhiên giá trị (X2i , X3i , , Xki ) 0: E(ui |(X2i , X3i , , Xki ) = Giả thiết 3: Phương sai sai số ngẫu nhiên giá trị (X2i , , Xki ) var(u|(X2i , X3i , , Xki ) = σ Từ giả thiết ta nói sai số ngẫu nhiên (u) tuân theo phân phối chuẩn Giả thiết 4: Giữa biến độc lập Xj khơng có quan hệ cộng tuyến hồn hảo, nghĩa khơng tồn số λ2 , λ3 , , λk không đồng thời cho: λ2 X2 + λ3 X3 + + λk Xk = Ta thấy biến Xj (j = 2, 3, , k) có quan hệ cộng tuyến tính hồn hảo có biến biến suy từ biến cịn lại Do đó, giả thiết đưa để loại trừ tình Báo cáo Bài tập lớn Xác suất - Thống kê Page 5/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh 2.3 Phương pháp ước lượng mơ hình hồi quy bội – Phương pháp bình phương nhỏ (OLS) Xét mơ hình k biến: Y = β1 + β2 X2 + β3 X3 + + βk Xk + u Giả sử có mẫu quan sát với giá trị thực tế (Yi , X2i , X3i , , Xki ) với i = 1, 2, , n ta sử dụng thông tin từ mẫu để xây dựng ước lượng cho hệ số Bj (j = 1, 2, , k) kí hiệu βˆj (j = 1, 2, , k) Khi hàm hồi quy mẫu viết sau: Yˆ = βˆ1 + βˆ2 X2 + βˆ3 X3 + + βˆk Xk Hay quan sát hàm hồi quy viết thành: Yˆi = βˆ1 + βˆ2 X2i + βˆ3 X3i + + βˆk Xki Đặt ei = Yˆi − Yi phần dư giá trị ước lượng giá trị thực tế Khi đó: n X e2i = X (Yi − βˆ1 − βˆ2 X2 − βˆ3 X3 − − βˆk Xk )2 i=1 = βˆ1 βˆk X (Yi − βˆ1 − βˆ2 X2 − βˆ3 X3 − − βˆk Xk )2 Khi dễ thấy βˆ1 , βˆ2 , βˆ3 , , βˆk nghiệm hệ phương trình sau:  Pn ˆ ˆ ˆ ˆ  i=1 (Yi − β1 − β2 X2 − β3 X3 − − βk Xk ) =    Pn X (Y − βˆ − βˆ X − βˆ X − − βˆ X ) = 2 3 k k i=1 i     Pn ˆ ˆ ˆ ˆ i=1 Xk (Yi − β1 − β2 X2 − β3 X3 − − βk Xk ) = Với điều kiện số quan sát mẫu lớn số hệ số hồi quy cần ước lượng giả thiết thỏa mãn hệ phương trình có nghiệm Việc giải hệ phương trình dễ dàng qua phầm mềm thống kê số biến không lớn Các giá trị ước lượng phương pháp OLS dựa số liệu mẫu cụ thể xem ước lượng điểm hệ số tổng thể Với mơ hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình để tìm ước lượng hệ số βˆj (j = 1, 2, 3, , k) trở nên khó khăn so với mơ hình hồi quy biến ta có kết với giúp phần mềm thống kê Từ kết ước lượng trên, ta khai thác thông tin để đánh giá tác động biến độc lập thay đổi biến phụ thuộc thông qua ý nghĩa hệ số hồi quy Khi giả thiết từ đến thỏa mãn ước lượng thu từ phương pháp OLS ước lượng tuyến tính, khơng chệch có phương sai nhỏ lớp ước lượng tuyến tính khơng chệch Hay nói cách khác, giả thiết từ đến thỏa mãn ước lượng OLS ước lượng tốt lớp ước lượng tuyến tính khơng chệch Báo cáo Bài tập lớn Xác suất - Thống kê Page 6/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh 2.4 Độ phù hợp hàm hồi quy 2.4.1 Hệ số xác định bội Ký hiệu: • T SS = Pn = Pn − Y )2 : Tổng bình phương độ lệch tồn phần • RSS = Pn i=1 (ei ) = Pn − Yˆ )2 : Tổng bình phương phần dư • ESS = Pn = Pn i=1 (yi ) i=1 (yˆi ) i=1 (Yi i=1 (Yi ˆ − Y )2 : Tổng bình phương độ lệch phần hồi quy i=1 (Yi T SS = ESS + RSS Định nghĩa: Hệ số xác định hàm hồi quy, ký hiệu R2 , xác định bởi: RSS ESS =1− T SS T SS Do T SS, ESS, RSS không âm, nên từ biểu thức thấy ≤ R ≤ Giá trị R2 đo phù hợp mơ hình (hàm hồi quy) với số liệu mẫu Ta kỳ vọng mơ hình có độ phù hợp cao với số liệu mẫu phù hợp tổng thể Ý nghĩa: Với mơ hình hồi quy k biến, R2 có ý nghĩa sau: R2 = • R2 tỷ lệ thay đổi biến phụ thuộc giải thích biến độc lập mơ hình • R2 thể mức độ tương quan tuyến tính biến phụ thuộc với biến độc lập Cụ thể, với ≤ R ≤ 1, ta có hai trường hợp đặc biệt: – R2 = nghĩa 100% thay đổi biến phụ thuộc giải thích biến độc lập mơ hình – R2 = nghĩa biến độc lập không giải thích chút thay đổi biến phụ thuộc Rõ ràng, thực tế, xem xét mối quan hệ biến thông qua mơ hình hồi quy R2 thường nằm khoảng (0, 1) nhiều 2.4.2 Hệ số xác định hiệu chỉnh Một tính chất quan trọng R2 tăng ta đưa thêm biến độc lập vào mơ hình Dễ dàng thấy T SS khơng phụ thuộc vào số biến giải thích mơ hình RSS lại giảm Do đó, tăng số biến biến độc lập mơ hình R2 tăng Như vậy, việc đưa thêm biến số vào mơ hình nói chung làm gia tăng R2 , khơng kể có giúp giải thích thêm cho biến phụ thuộc hay không Điều ngụ ý R2 chưa phải thước đo tốt muốn so sánh mơ hình với số biến khác Để giải vấn đề thiếu sót này, ta xem xét khái niệm R2 hiệu chỉnh, ký hiệu R n−1 xác định sau: R = 1(1 − R2 ) n−k Khi số biến độc lập (k – 1) tăng lên R tăng lên tăng chậm so với R2 Giá trị R thường sử dụng thay R2 so sánh hai mơ hình có biến phụ thuộc số lượng biến độc lập khác Trong thực tế, R dùng nhiều R2 dể đưa kết lạc quan q mức cho phù hợp mơ hình hồi quy số biến giải thích lớn nhiều số lượng biến quan sát Tuy nhiên, toán R đưa mức độ phù hợp mơ hình hồi quy cách xác mà phải dựa vào đặc trưng toán cụ thể mà tính tốn cho phù hợp Báo cáo Bài tập lớn Xác suất - Thống kê Page 7/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh Hoạt động 3.1 Đề Tập tin "diem_so.csv" chứa thơng tin điểm tốn em học sinh trung học thuộc hai trường học Bồ Đào Nha Các biến liệu: • G1: Điểm thi học kì • G2: Điểm thi học kì • G3: Điểm cuối khố • studytime: Thời gian tự học tuần ( - giờ, - từ đê giờ, - từ - 10 giờ, or - lớn 10 giờ) • failures: số lần khơng qua mơn (1, 2, 3, nhiều lần) • absences: số lần nghỉ học • paid: Có tham gia lớp học thêm mơn Tốn ngồi trường (có/khơng) • sex: Giới tính học sinh (Nam/nữ) Các bước thực hiện: Đọc liệu (Import data): "diem_so.csv" Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) a) Chuyển đổi biến (nếu cần thiết) b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị Xây dựng mơ hình hồi quy tuyến tính để đánh giá nhân tố ảnh hưởng đến điểm thi cuối kỳ sinh viên Thực dự báo cho điểm Toán học sinh Báo cáo Bài tập lớn Xác suất - Thống kê Page 8/46 Trường Đại học Bách Khoa thành phố Hồ Chí Minh 3.2 Thực 3.2.1 Đọc liệu (Import data) Đọc liệu "diem_so.csv" #Dua du lieu vao R, luu vao diem_so diem_so

Ngày đăng: 21/02/2023, 04:57

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w