I. CƠ SỞLÝ THUYẾT .......................................................................................1 1. HỒI QUY TUYẾN TÍNH ................................................................................1 1.1 Mô hình hồi quy tuyến tính bội .....................................................................1 1.2 Đánh giá sựphù hợp của mô hình ................................................................. 1 1.3 Phương pháp bình phương cực tiểu ...............................................................5 1.4 Các giả định của mô hình hồi quy ................................................................. 6 a. Hàm hồi quy là tuyến tính theo các tham số ..................................................6 b. E =(
lOMoARcPSD|2935381 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA CÔNG NGHỆ VẬT LIỆU BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ HK221 NHÓM 10 - ĐỀ TÀI 02 Giảng viên hướng dẫn: Nguyễn Bá Thi STT Sinh viên thực Mã số sinh viên Hồ Thái Khôi 2113792 Lê Minh Quang 2114502 Nguyễn Lê Đăng 2113181 Lê Thị Thảo Ly 2114001 Nguyễn Văn Thắng 2114838 Trần Thị Kim Thơ 2114925 Nguyễn Trần Quỳnh Nguyên 2114231 Thành phố Hồ Chí Minh – 2022 GVC.ThS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) lOMoARcPSD|2935381 LỜI CẢM ƠN Lời đầu tiên, nhóm 10 xin gửi đến thầy Nguyễn Bá Thi, giảng viên hướng dẫn cho nhóm hồn thành đề tài này, lời tri ân sâu sắc Nhờ có giảng nhiệt tình tâm huyết thầy lớp mà chúng em nắm sở lý thuyết cách khoa học, cụ thể để hoàn thành báo cáo theo thời gian mà thầy giao Bên cạnh đó, nhóm 10 xin chân thành cảm ơn hỗ trợ, tương tác lẫn thành viên nhóm Qua q trình làm việc nhóm chúng em dần hiểu rõ hơn, lẽ mà người ln đồn kết giúp đỡ lẫn học tập lẫn công việc Do chưa có kinh nghiệm làm việc nhiều phần mềm Rstudio, hạn chế mặt kiến thức, chắn khơng tránh khỏi thiếu sót Rất mong nhận nhận xét, ý kiến đóng góp lời khuyên từ phía thầy để báo cáo nhóm chúng em trở nên hồn thiện Lời cuối cùng, nhóm 10 xin gửi lời cảm ơn sâu sắc tới người bạn hỗ trợ nhóm trình làm báo cáo thời gian qua GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) i lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 MỤC LỤC I CƠ SỞ LÝ THUYẾT 1 HỒI QUY TUYẾN TÍNH 1.1 Mơ hình hồi quy tuyến tính bội 1.2 Đánh giá phù hợp mơ hình 1.3 Phương pháp bình phương cực tiểu 1.4 Các giả định mô hình hồi quy a Hàm hồi quy tuyến tính theo tham số b E =(𝛜𝐢) = :Kỳ vọng yếu tố ngẫu nhiên c Cov (𝛜𝐢 , 𝛜𝐣) = 0: Khơng có tương quan 𝛜𝐢 d Cov (𝝐𝒊 , 𝒙𝟏 = 𝟎): ϵ X khơng có tương quan với e Var (𝝐𝒊 = 𝝈𝟐 ): Phương sai với 𝝐𝒊 f 𝝐𝒊 phân phối chuẩn g Giữa 𝒙𝟐, 𝒙𝟑, , 𝒙𝒌 khơng có quan hệ tuyến tính 2.ANOVA 2.1 Lý thuyết ANOVA (Phân tích phương sai) 2.2 Phân tích phương sai yếu tố a Trường hợp k tổng thể có phân phối chuẩn phương sai b Kiểm tra giả định phân tích phương sai 11 c Phân tích sâu ANOVA 12 2.3 Phân tích phương sai hai yếu tố 14 a Trường hợp có quan sát mẫu ô 14 b Trường hợp có nhiều quan sát ô 17 c Phân tích sâu ANOVA hai yếu tố 21 II CHỦ ĐỀ CHUNG 22 HOẠT ĐỘNG 1: HỒI QUY TUYẾN TÍNH 22 1.1 Đề 22 1.2 Thực .25 GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) ii lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 1.2.1 Đọc liệu (Import data) .25 1.2.2 Làm liệu (Data cleaning) 25 1.2.3 Làm rõ liệu: (Data visualization) .27 1.2.4 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models) 39 1.2.5 Dự báo (Predictions) 45 HOẠT ĐỘNG 2: ANOVA 49 2.1 Đề 49 2.2 Thực .51 2.2.1 Đọc file liệu, thực thống kê mô tả kiểm định .51 2.2.2 Phân tích phương sai nhân tố (one way ANOVA) 57 2.2.3 Phân tích phương sai hai nhân tố (two way ANOVA) 67 III CHỦ ĐỀ RIÊNG 70 Lý chọn đề tài .70 Nội dung đề tài 70 2.1 Đề tài 70 2.2 Thực .72 2.2.1 Đọc liệu (Import data) .72 2.2.2 Làm liệu (Data cleaning) 72 2.2.3 Làm rõ liệu 73 2.2.4 Phân tích nhân tố ảnh hưởng đến YTS: 87 2.2.5 Phân tích nhân tố ảnh hướng đến UTS 93 2.2.6 Phân tích nhân tố ảnh hướng đến EL 99 GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) iii lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 ĐỀ TÀI 02 I CƠ SỞ LÝ THUYẾT HỒI QUY TUYẾN TÍNH 1.1 Mơ hình hồi quy tuyến tính bội Mơ hình hồi quy tuyến tính bội có dạng tổng quát sau: Trong đó: 𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽 3𝑋3 + + 𝛽𝑘 𝑋𝑘 + 𝜖𝑖 + 𝛽0 : hệ số tung độ góc + 𝛽1 : hệ dốc Y theo biến 𝑋1 biến 𝑋2 , 𝑋3 , , 𝑋𝑘 không đổi +𝛽3 : hệ dốc Y theo biến 𝑋3 biến 𝑋1 , 𝑋2 , , 𝑋𝑘 không đổi + 𝛽𝑘 : hệ dốc Y theo biến 𝑋𝑘 biến𝑋1 , 𝑋2 , , 𝑋𝑘 không đổi + 𝜖𝑖 : thành phần ngẫu nhiên (yếu tố nhiễu), có kì vọng phương sai khơng đổi 𝜎 Giả sử có mẫu quan sát với giá trị thực tế (𝑌𝑖 , 𝑋2𝑖 , 𝑋𝑘𝑖 ) với (i = 1, 2, 3, k) Ta sử dụng thông tin từ mẫu để xây dựng ước lượng cho hệ số 𝛽𝑗 (với j = 1, 2, 3, k) Từ giá trị ước lượng viết thành hàm hồi quy mẫu sau: ̂0 + 𝛽 ̂1 𝑋1 + 𝛽 ̂2 𝑋2 + … + 𝛽 ̂3 𝑋𝑘 𝑌̂ = 𝛽 ̂𝑖 giá trị ước lượng cho 𝑌𝑖 sai lệch hai giá trị gọi Trong 𝑌 phần dư 1.2 Đánh giá phù hợp mơ hình Có số phương pháp thống kê để tiến hành đánh giá phù hợp mơ hình là: tính tốn hệ số xác định, dùng thống kê F để đánh giá mức ý nghĩa tồn diện mơ hình, tính tốn sai số chuẩn ước lượng đánh giá ý nghĩa biến độc lập Tính tốn hệ số xác định bội Khi có nhiều biến độc lập mơ hình R2 sử dụng để xác định phần biến thiên biến phụ thuộc tất biến độc lập mơ hình, nhiên GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) lOMoARcPSD|2935381 Nhóm 10 – Đề tài 02 Báo cáo Bài tập lớn Xác suất thống kê lúc R2 gọi hệ số xác định bội, công thức tính tốn hệ số xác định bội sau: R2 = SSR SST Cụ thể trường hợp R2 = 0.82 ta kết luận 82% biến thiên giá trị biến phụ thuộc giải thích mối liên hệ tuyến tính biến phụ thuộc với biến độc lập mơ hình, nhiên khơng phải tất biến độc lập có tầm quan trọng ngang khả giải thích cho biến thiên biến phụ thuộc mơ hình Hệ số xác định hiệu chỉnh Hệ số xác định hiệu chỉnh ký hiệu 𝑅𝑎𝑑𝑗 cách khác để đo lường tỷ lệ phần trăm biến thiên giải thích biến phụ thuộc mà có tính đến mối liên hệ cỡ mẫu số biến độc lập mơ hình hồi quy bội, cơng thức sau: 𝑅𝑎𝑑𝑗 = − (1 − 𝑅 2) ( 𝑛−𝑘 ) 𝑛−𝑘−1 Trong n cỡ mẫu, k số biến độc lập mơ hình Vì lại xem sét hệ số xác định hiệu chỉnh: người ta thấy mơ hình hồi quy, việc đưa thêm biến độc lập vào mơ hình ln làm tăng 𝑅 , chí biến độc lập đưa vào khơng có mối liên hệ có mối liên hệ khơng đáng kể với biến phụ thuộc Nếu số biến độc lập lớn so với cỡ mẫu 𝑅 thổi phồng khả giải thích cho biến phụ mơ hình cách sai lệch Sự gia tăng 𝑅 khơng bù đắp sai sót thêm bậc tự thêm biến, 𝑅𝑎𝑑𝑗 có tính đến chi phí đỉnh chỉnh giá trị 𝑅𝑎𝑑𝑗 theo cách phù hợp Khi biến độc lập thêm vào đóng góp xứng đáng vào khả giải thích cho biến phụ thuộc 𝑅𝑎𝑑𝑗 ln ln giảm 𝑅 tăng Điều cho thấy với mơ hình hồi quy đa biến, số biến độc lập lớn tương quan với cỡ mẫu ta nên dùng 𝑅𝑎𝑑𝑗 để đánh giá khả giải thích mơ hình Vì thông thường đánh giá độ phù hợp mơ hình hồi quy bội, bên cạnh thơng tin 𝑅 người ta dùng thêm thông tin 𝑅𝑎𝑑𝑗 để tham khảo GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Đánh giá ý nghĩa toàn diện mơ hình Mơ hình hồi quy ta xây dụng dựa liệu mẫu lấy từ tổng thể bị ảnh hưởng sai số lấy mẫu Cho nên cần kiểm định ý nghĩa thống kê tồn mơ hình Ta dựng giả thuyết sau: 𝐻0 ∶ 𝛽1 = 𝛽2 = 𝛽𝑘 (ℎ𝑎𝑦 𝑅 = 0) 𝐻1 ∶ ∄𝑗 ≠ (ℎ𝑎𝑦 𝑅 ≠ 0) Nếu giả thuyết 𝐻0 đúng, nghĩa tất hệ số độ dốc đồng thời mơ hình hồi quy xây dựng khơng có tác dụng việc dự đốn hay mô tả biến phụ thuộc Đại lượng F thống kê (trong bảng ANOVA) số thống kê sử dụng để kiểm định giả thuyết ý nghĩa tồn diện mơ hình hồi quy, cơng thức đại lượng F hình thành sau: 𝑆𝑆𝑅 𝐾 𝐹= 𝑆𝑆𝐸 𝑛−𝑘−1 Trong SSR tổng bình phương hồi quy (Regression Sum of Squares), SSE tổng bình phương sai số (Error Sum of Squares), n k cỡ mẫu biến độc lập Chú ý để định ta phải tra bảng thống kê F tìm giá trị giới hạn tương ứng với mức ý nghĩa ta chọn trước Mà muốn tra bảng F ta phải có thêm thơng tin bậc tự tử số mẫu số, ta quy ước bật tự tử số k bậc tự mẫu số (n = k = 1) Từ đây, ta có quy trình đánh giá ý nghĩa tồn diện mơ sau: Bước 1: Đặt giả thuyết: H0 = 𝛽1 = 𝛽2 = = 𝛽𝑘 𝐻1 ∶ ∄𝛽𝑗 ≠ Bước 2: Chọn độ tin cậy cho kiểm định từ có mức ý nghĩa α Bước 3: Với bậc tự xác định trên, tra bảng phân phối F ta giá trị F tới hạn Bước 4: So sánh giá trị F kiểm định tính theo cơng thức giá trị F tới hạn Bước 5: Kết luận GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) lOMoARcPSD|2935381 Nhóm 10 – Đề tài 02 Báo cáo Bài tập lớn Xác suất thống kê Nếu F kiểm định > F tới hạn, ta kết luận mơ hình hồi quy bội với biến độc lập ta đưa vào giải thích cách có ý nghĩa cho biến thiên giá trị biến phụ thuộc Tính tốn sai số chuẩn ước lượng: Mục tiêu việc xây dựng mơ hình hồi quy để xác định giá trị biến phụ thuộc biết trước giá trị cụ thể biến độc lập Một số thống kê cho thấy mô hình hồi quy thực mục tiêu tốt đến đâu lệch chuẩn mơ hình hồi quy (cịn gọi tên Sai số chuẩn ước lượng) Giá trị ước lượng từ thông tin mẫu độ lệch chuẩn mơ hình hồi quy (sai số chuẩn ước lượng) tính tốn sau đây: 𝑠𝑌/𝑋 = √ 𝑆𝑆𝐸 𝑛−𝑘−1 Trong n: cỡ mẫu, k: biến độc lập mơ hình Sai số chuẩn ước lượng đo lường phân tán giá trị thực tế đo lường biến phụ thuộc quanh giá trị biến phụ thuộc dự đoán đường hồi quy Đánh giá ý nghĩa của biến độc lập riêng biệt: Ở kiểm định F, giả sử H1 chấp nhận ta kết luận mơ hình tồn diện có ý nghĩa Điều có ý nghĩa có biến độc lập mơ hình giải thích cách có ý nghĩa cho biến thiên phụ thuộc Tuy nhiên điều ý nghĩa tất biến độc lập đưa vào mơ hình có ý nghĩa, để xác định biến độc lập có ý nghĩa kiểm định giả thuyết sau: 𝐻0 : 𝛽1 = 𝐻1 ∶ ∄𝛽𝑗 ≠ Chúng ta dùng kiểm định t để kiểm định nghĩa hệ số hồi quy với độ tin cậy chọn trước, t xác định công thức: 𝑡= 𝑏𝑗 − 𝑠𝑏 𝑗 Trong bj hệ số dốc mơ hình hồi quy mẫu cho biến độc lập thứ j, 𝑠𝑏 𝑗 sai số chuẩn ước lượng lượng hệ số độ dốc biến độc lập thứ j Giá trị t tính GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) lOMoARcPSD|2935381 Nhóm 10 – Đề tài 02 Báo cáo Bài tập lớn Xác suất thống kê toán so sánh với giá trị t tới hạn tra tùa bảng phân phối student với 𝛼 (n − k − 1) bậc tự mức ý nghĩa 1.3 Phương pháp bình phương cực tiểu Phương pháp bình phương cực tiểu đưa nhà Toán học Đức Carl Friedrich Gauss- phương pháp ước lượng hồi quy tuyến tính phổ biến Với tổng thể, sai số (error) kí hiệu e, cịn mẫu nghiên cứu lúc gọi phần dư kí hiệu 𝜖 Biến thiên phần dư tính tổng bình phương tất phần dư cộng lại Nguyên tắc phương pháp hồi quy OLS làm cho biến thiên phần dư phép hồi quy nhỏ Khi biểu diễn mặt phẳng Oxy, đường hồi quy đường thẳng qua đám đơng điểm liệu mà đó, khoảng cách từ điểm liệu (tuyệt đối 𝜖 đến đường hồi quy ngắn nhất) Từ đồ thị scatter biểu diễn mối quan hệ biến độc lập biến phụ thuộc, điểm liệu nằm phân tán có xu hướng chung tạo thành đường thẳng Chúng ta có nhiều đường thẳng Và có nhiều đường thẳng hồi quy qua đám đông điểm liệu đường nhất, vấn đề phải chọn đường thẳng mô tả sát xu hướng liệu Bình phương nhỏ OLS tìm đường thẳng dựa ngun tắc cực tiểu hóa khoảng cách từ điểm liệu đến đường thẳng Trong hình đường màu đỏ đường hồi quy OLS GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 1.4 Các giả định mơ hình hồi quy a Hàm hồi quy tuyến tính theo tham số Điều có nghĩa q trình thực hành hồi quy thực tế miêu tả mối quan hệ dạng: 𝑌 = 𝛽1 + 𝛽2 × 𝑋2 + 𝛽3 × 𝑋3 + 𝛽4 × 𝑋4 + + 𝛽𝑘 × 𝑋𝑘 + 𝜖 mối quan hệ thực viết lại ví dụ dạng lấy loga hai vế b E =(𝛜𝐢 ) = :Kỳ vọng yếu tố ngẫu nhiên Trung bình tổng thể sai số Điều có nghĩa có số giá trị sai số mang dấu dương số mang dấu âm Do hàm xem đường trung bình nên giả định sai số ngẫu nhiên bị loại trừ nhau, mức trung bình tổng thể c Cov (𝛜𝐢 , 𝛜𝐣 ) = 0: Khơng có tương quan 𝛜𝐢 Khơng có tương quan quan sát yếu tố sai số Nếu ta xem xét chuỗi số liệu thời gian (dữ liệu thu nhập từ nguồn nhiều khoảng thời gian khác nhau), yếu tố sai số εi khoảng thời gian khơng có tương quan với yếu tố sai số khoảng thời gian trước d Cov (𝝐𝒊 , 𝒙𝟏 = 𝟎): ϵ X khơng có tương quan với Khi biến giải thích lớn hay nhỏ yếu tố sai số khơng thay đổi theo e Var (𝝐𝒊 = 𝝈𝟐 ): Phương sai với 𝝐𝒊 Tất giá trị 𝜖𝑖 phân phối giống với 𝜎 , cho: Var (𝜖𝑖 ) = E (𝜖 2𝑖 ) = 𝜎 f 𝝐𝒊 phân phối chuẩn Điều quan trọng phát sinh khoảng tin cậy thực kiểm định giả thuyết phạm vi mẫu nhỏ Nhưng phạm vi mẫu lớn hơn, điều trở nên không quan trọng g GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) lOMoARcPSD|2935381 Nhóm 10 – Đề tài 02 Báo cáo Bài tập lớn Xác suất thống kê Đồ thị thứ GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 91 lOMoARcPSD|2935381 Nhóm 10 – Đề tài 02 Báo cáo Bài tập lớn Xác suất thống kê Đồ thị thứ tư Nhận xét: Đồ thị thứ (Residuals vs Fitted) vẽ giá trị dự báo với giá trị thặng dư (sai số) tương ứng, dùng để kiểm tra giả định sai số có kỳ vọng tính đồng phương sai sai số Dựa đồ thị ta thấy đường màu đỏ không nằm sát đường y = nên giả định sai số có kỳ vọng khơng thỗ mãn Các sai số phân tán khơng ngẫu nhiên dọc theo đường màu đỏ, nên giả định phương sai sai số số không thoả mãn Đồ thị thứ (Normal Q-Q) vẽ giá trị sai sai số chuẩn hoá, cho phép kiểm tra giả định phân phối chuẩn sai số Dựa đồ thị ta thấy sai số đa phần không tập trung nằm đường thẳng kỳ vọng phân phối chuẩn nên giả định phân phối chuẩn sai số khơng thỗ mãn GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 92 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Đồ thị thứ (Scale - Location) vẽ bậc hai giá trị thặng dư chuẩn hóa với giá trị dự báo, dùng để kiểm tra giả định phương sai sai số số Dựa đồ thị ta thấy, sai số phân tán không ngẫu nhiên dọc theo đường màu đỏ nên giả định phương sai sai số số không thoả mãn Đồ thị thứ (Residuals vs Leverage) cho phép xác định điểm có ảnh hưởng cao (influential observations), chúng có diện liệu Những điểm có ảnh hưởng cao điểm outliers, điểm gây nhiều ảnh hưởng phân tích liệu Dựa đồ thị ta thấy có quan trắc thứ 127, 128, 153 điểm có ảnh hưởng cao liệu Tuy nhiên ta quan sát thấy cá điểm chưa vượt qua đường thẳng khoảng cách Cook (đường thẳng đứt nét màu đỏ Cook’s distance) Do vậy, điểm có ảnh hưởng cao liệu Do ta khơng cần phải loại bỏ phân tích 2.2.5 Phân tích nhân tố ảnh hướng đến UTS Trong đó: Biến phụ thuộc: UTS Biến độc lâp: biến Mn, Al, Zn, Sn, Ca, ET, ES, ER Mơ hình biểu diễn sau: 𝑈𝑇𝑆 = 𝛽0 + 𝛽1 𝑀𝑛 + 𝛽2 𝐴𝑙 + ⋯ + 𝛽7 𝐸𝑆 + 𝛽8 𝐸𝑅 + ϵ Thực ước lượng hệ số 𝛽𝑖 , với i = 0, 1, 2, …, GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 93 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Xây dựng mơ hình: CODE R: Nhận xét: Kiểm định hệ số hồi quy: - Giả thuyết 𝐻0 : hệ số hồi quy 𝛽𝑖 ý nghĩa thống kê, : 𝛽𝑖 = 0, i=0,1,2, , - Giả thuyết 𝐻1: hệ số hồi quy 𝛽𝑖 có ý nghĩa thống kê, 𝛽𝑖 ≠ 0, i=0,1,2, , - Vì pvalue ứng với ET lớn mức ý nghĩa 5% nên ta chưa bác bỏ 𝐻0 Tức hệ số hồi quy ứng với biến khơng có ý nghĩa thống kê - Vì pvalue ứng với biến lại bé mức ý nghĩa 5% nên ta bác bỏ 𝐻0 Tức hệ số hồi quy ứng với biến cịn lại có ý nghĩa thống kê - Vì hệ số hồi quy ứng với biến ET khơng có ý nghĩa nên ta tiếp tục xây dựng mơ hình thứ loại bỏ biến ET: GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 94 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Ta xây dựng model mơ hình loại ảnh hưởng ET từ model 3: CODE R: Tiến hành sử dụng ANOVA thể tương quan mơ hình CODE R: GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 95 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Giả thuyết 𝐻0 : Hai mơ hình 3, hiệu Giả thuyết 𝐻1: Hai mơ hình 3, hiệu khác Vì pr(>F) = 0.5982 lớn mức ý nghĩa 5%, nên ta chưa bác bỏ 𝐻0 Hai mơ hình hiệu Vì 𝑅 hiệu chỉnh mơ hình lớn 𝑅 hiệu chỉnh mơ hình nên ta chọn mơ hình hiệu Ta vẽ biểu đồ để kiểm tra giả định: CODE R: GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 96 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) Nhóm 10 – Đề tài 02 97 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Nhận xét: Đồ thị thứ (Residuals vs Fitted) vẽ giá trị dự báo với giá trị thặng dư (sai số) tương ứng, dùng để kiểm tra giả định sai số có kỳ vọng tính đồng phương sai sai số Dựa đồ thị ta thấy đường màu đỏ không nằm sát đường y = nên giả định sai số có kỳ vọng khơng thỗ mãn Các sai số phân tán không ngẫu nhiên dọc theo đường màu đỏ, nên giả định phương sai sai số số không thoả mãn Đồ thị thứ (Normal Q-Q) vẽ giá trị sai sai số chuẩn hoá, cho phép kiểm tra giả định phân phối chuẩn sai số Dựa đồ thị ta thấy sai số đa phần tập trung nằm đường thẳng kỳ vọng phân phối chuẩn nên giả định phân phối chuẩn sai số thoã mãn Đồ thị thứ (Scale - Location) vẽ bậc hai giá trị thặng dư chuẩn hóa với giá trị dự báo, dùng để kiểm tra giả định phương sai sai số số GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 98 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Dựa đồ thị ta thấy, sai số phân tán không ngẫu nhiên dọc theo đường màu đỏ nên giả định phương sai sai số số không thoả mãn Đồ thị thứ (Residuals vs Leverage) cho phép xác định điểm có ảnh hưởng cao (influential observations), chúng có diện liệu Những điểm có ảnh hưởng cao điểm outliers, điểm gây nhiều ảnh hưởng phân tích liệu Dựa đồ thị ta thấy có quan trắc thứ 52, 53, 128 điểm có ảnh hưởng cao liệu Tuy nhiên ta quan sát thấy cá điểm chưa vượt qua đường thẳng khoảng cách Cook (đường thẳng đứt nét màu đỏ Cook’s distance) Do vậy, khơng có điểm có ảnh hưởng cao liệu Do ta khơng cần phải loại bỏ phân tích 2.2.6 Phân tích nhân tố ảnh hướng đến EL Trong đó: Biến phụ thuộc: EL Biến độc lâp: biến Mn, Al, Zn, Sn, Ca, ET, ES, ER Mơ hình biểu diễn sau: 𝐸𝐿 = 𝛽0 + 𝛽1 𝑀𝑛 + 𝛽2 𝐴𝑙 + ⋯ + 𝛽7 𝐸𝑆 + 𝛽8 𝐸𝑅 + 𝜖 Thực ước lượng hệ số 𝛽𝑖 , với i = 0, 1, 2, …, GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 99 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Xây dựng mơ hình: CODE R: Nhận xét: Kiểm định hệ số hồi quy: Giả thuyết 𝐻0 : hệ số hồi quy 𝛽𝑖 khơng có ý nghĩa thống kê, 𝛽𝑖 = 0, i=0,1,2, , Giả thuyết 𝐻1: hệ số hồi quy 𝛽𝑖 khơng có ý nghĩa thống kê, : 𝛽𝑖 ≠ 0, i=0,1,2, , Vì pvalue ứng với Mn, ES, ER lớn mức ý nghĩa 5% nên ta chưa bác bỏ 𝐻0 Tức hệ số hồi quy ứng với biến khơng có ý nghĩa thống kê Vì pvalue ứng với biến cịn lại bé mức ý nghĩa 5% nên ta bác bỏ 𝐻0 Tức hệ số hồi quy ứng với biến cịn lại có ý nghĩa thống kê Vì hệ số hồi quy ứng với biến Mn, ES, ER khơng có ý nghĩa nên ta tiếp tục xây dựng mơ hình thứ loại bỏ biến Mn, ES, ER: GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 100 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Ta xây dựng model mơ hình bỏ biến Mn, ER, ES từ model 5: CODE R: Tiến hành sử dụng ANOVA để quan sát tương quan mơ hình: CODE R: GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 101 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Giả thuyết 𝐻0 : Hai mơ hình 5, hiệu Giả thuyết 𝐻1: Hai mô hình 5, hiệu khác Vì pr(>F) = 0.2733 lớn mức ý nghĩa 5%, nên ta chưa bác bỏ 𝐻0 Hai mơ hình hiệu Vì 𝑅 hiệu chỉnh mơ hình lớn 𝑅 hiệu chỉnh mơ hình nên ta chọn mơ hình hiệu Ta vẽ biểu đồ để kiểm tra giả định: CODE R: GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 102 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) Nhóm 10 – Đề tài 02 103 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Nhận xét: Đồ thị thứ (Residuals vs Fitted): vẽ giá trị dự báo với giá trị thặng dư (sai số) tương ứng, dùng để kiểm tra giả định sai số có kỳ vọng tính đồng phương sai sai số Dựa đồ thị ta thấy đường màu đỏ không nằm sát đường y = nên giả định sai số có kỳ vọng khơng thỗ mãn Các sai số phân tán không ngẫu nhiên dọc theo đường màu đỏ, nên giả định phương sai sai số số không thoả mãn Đồ thị thứ (Normal Q-Q): vẽ giá trị sai sai số chuẩn hoá, cho phép kiểm tra giả định phân phối chuẩn sai số Dựa đồ thị ta thấy sai số đa phần không tập trung nằm đường thẳng kỳ vọng phân phối chuẩn nên giả định phân phối chuẩn sai số khơng thỗ mãn Đồ thị thứ (Scale - Location): vẽ bậc hai giá trị thặng dư chuẩn hóa với giá trị dự báo, dùng để kiểm tra giả định phương sai sai số số GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 104 lOMoARcPSD|2935381 Báo cáo Bài tập lớn Xác suất thống kê Nhóm 10 – Đề tài 02 Dựa đồ thị ta thấy, sai số phân tán không ngẫu nhiên dọc theo đường màu đỏ nên giả định phương sai sai số số không thoả mãn Đồ thị thứ (Residuals vs Leverage): cho phép xác định điểm có ảnh hưởng cao (influential observations), chúng có diện liệu Những điểm có ảnh hưởng cao điểm outliers, điểm gây nhiều ảnh hưởng phân tích liệu Dựa đồ thị ta thấy có quan trắc thứ 181, 173, 126 điểm có ảnh hưởng cao liệu Tuy nhiên ta quan sát thấy cá điểm chưa vượt qua đường thẳng khoảng cách Cook (đường thẳng đứt nét màu đỏ Cook’s distance) Do vậy, khơng có điểm có ảnh hưởng cao liệu Do ta khơng cần phải loại bỏ phân tích Kết luận: Cả mơ hình hồi quy tuyến tính ta tìm chưa thực tốt để thực dự báo ⇒ ta cần tìm mơ hình phù hợp khác để dự báo cho biến YTS, UTS EL Các nhân tố ảnh hưởng YTS: Mn, Ca, Sn, ES, ER Các nhân tố ảnh hưởng UTS: Mn, Al, Zn, Ca, Sn, ES, ER Các nhân tố ảnh hưởng EL: Al, Zn, Ca, Sn, ET GVHD.TS Nguyễn Bá Thi Downloaded by EBOOKBKMT VMTC (nguyenphihung1009@gmail.com) 105