Báo cáo bài tập lớn môn xác xuất thống kê

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	69
Dung lượng	2,96 MB

Nội dung

Nhập làm liệu, thực thống kê mô tả 20 Phân tích phương sai nhân tố (one way ANOVA) 21 XỬ LÝ SỐ LIỆU BÀI TẬP 21 Nhập làm liệu, thực thống kê mô tả 21 Phân tích phương sai nhân tố (oneway ANOVA) 37 B PHẦN RIÊNG ĐỀ BÀI: 49 CÂU HỎI: 49 Đọc liệu 49 Làm liệu (Data cleaning) 49 Làm rõ liệu (Data visualization) 49 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 51 Dự báo (Predictions) 51 LÝ DO CHỌN ĐỀ TÀI Error! Bookmark not defined XỬ LÝ SỐ LIỆU 52 Đọc liệu 52 Làm liệu (Data cleaning) 52 Làm rõ liệu (Data visualization): 53 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 61 Dự báo (Predictions) 66 Kết luận: 69 A PHẦN CHUNG YÊU CẦU ‑ Trình bày lý thuyết ANOVA ‑ Xử lý số liệu tập LÝ THUYẾT VỀ ANOVA (PHÂN TÍCH PHƯƠNG SAI) Mục tiêu phân tích phương sai (Analysis of Variance - ANOVA) so sánh trung bình nhiều nhóm (tổng thể) dựa trị trung bình mẫu quan sát từ nhóm thông qua kiểm định giả thuyết kết luận trung bình tổng thể Trong nghiên cứu, phân tích phương sai dùng công cụ để xem xét ảnh hưởng yếu tố nguyên nhân (định tính) đến yếu tố kết (định lượng) Ví dụ nghiên cứu ảnh hưởng thời gian tự học đến kết học tập sinh viên Nếu thời gian tự học sinh viên thu thập dạng liệu định tính (dưới giờ/ tuần, - 18 giờ/ tuần, 18 giờ/ tuần); kết học tập sinh viên liệu định lượng (điểm trung bình học tập), phân tích phương sai phương pháp phù hợp có nhóm cần so sánh trị trung bình Nếu chứng minh nhóm sinh viên có mức độ thời gian tự học khác có kết điểm trung bình học tập nhau, kết luận ảnh hưởng yếu tố thời gian tự học đến yếu tố kết học tập nhóm sinh viên có thời gian tự học khác Nếu qua phân tích phương sai thấy nhóm sinh viên có kết điểm trung bình khác nhau, nhóm có thời gian tự học nhiều

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT HÓA HỌC BÁO CÁO BÀI TẬP LỚN 02 MÔN XÁC XUẤT THỐNG KÊ HỌC KÌ 202 GVHD: Nguyễn Kiều Dung Nhóm: 04 Nhóm sinh viên thực hiện: STT HỌ VÀ TÊN MSSV LỚP NGÀNH Đặng Thị Ngọc Huyền 1913584 L04A Kỹ Thuật Hóa Học Nguyễn Dĩ Khang 1913696 L04B Kỹ Thuật Hóa Học Nguyễn Mai Tấn Thành 1915149 L04B Kỹ Thuật Hóa Học Tạ Ngọc Khánh Thy 1915453 L04B Kỹ Thuật Hóa Học Lê Trọng Tín 1915514 L04B Kỹ Thuật Hóa Học Nguyễn Việt Tú Anh 1912604 L12A Kỹ Thuật Hóa Học Phạm Thanh Thảo Nguyên 1914396 L13C Kỹ Thuật Hóa Học Thành phố Hồ Chí Minh - 2021 KÝ TÊN MỤC LỤC A PHẦN CHUNG YÊU CẦU LÝ THUYẾT VỀ ANOVA (PHÂN TÍCH PHƯƠNG SAI) PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ 1.1 Trường hợp k tổng thể có phân phối bình thường phương sai 1.2 Kiểm tra giả định phân tích phương sai 10 1.3 Phân tích sâu ANOVA 11 PHÂN TÍCH PHƯƠNG SAI HAI YẾU TỐ 12 2.1 Trường hợp có quan sát mẫu ô 13 2.2 Trường hợp có nhiều quan sát ô 16 2.3 Phân tích sâu ANOVA hai yếu tố 19 BÀI TẬP SỐ 19 ĐỀ BÀI 19 CÂU HỎI 20 Nhập làm liệu, thực thống kê mô tả 20 Phân tích phương sai nhân tố (one way ANOVA) 21 XỬ LÝ SỐ LIỆU BÀI TẬP 21 Nhập làm liệu, thực thống kê mô tả 21 Phân tích phương sai nhân tố (oneway ANOVA) 37 B PHẦN RIÊNG ĐỀ BÀI: 49 CÂU HỎI: 49 Đọc liệu 49 Làm liệu (Data cleaning) 49 Làm rõ liệu (Data visualization) 49 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 51 Dự báo (Predictions) 51 LÝ DO CHỌN ĐỀ TÀI Error! Bookmark not defined XỬ LÝ SỐ LIỆU 52 Đọc liệu 52 Làm liệu (Data cleaning) 52 Làm rõ liệu (Data visualization): 53 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) 61 Dự báo (Predictions) 66 Kết luận: 69 A PHẦN CHUNG YÊU CẦU ‑ Trình bày lý thuyết ANOVA ‑ Xử lý số liệu tập LÝ THUYẾT VỀ ANOVA (PHÂN TÍCH PHƯƠNG SAI) Mục tiêu phân tích phương sai (Analysis of Variance - ANOVA) so sánh trung bình nhiều nhóm (tổng thể) dựa trị trung bình mẫu quan sát từ nhóm thông qua kiểm định giả thuyết kết luận trung bình tổng thể Trong nghiên cứu, phân tích phương sai dùng công cụ để xem xét ảnh hưởng yếu tố nguyên nhân (định tính) đến yếu tố kết (định lượng) Ví dụ nghiên cứu ảnh hưởng thời gian tự học đến kết học tập sinh viên Nếu thời gian tự học sinh viên thu thập dạng liệu định tính (dưới giờ/ tuần, - 18 giờ/ tuần, 18 giờ/ tuần); kết học tập sinh viên liệu định lượng (điểm trung bình học tập), phân tích phương sai phương pháp phù hợp có nhóm cần so sánh trị trung bình Nếu chứng minh nhóm sinh viên có mức độ thời gian tự học khác có kết điểm trung bình học tập nhau, kết luận ảnh hưởng yếu tố thời gian tự học đến yếu tố kết học tập nhóm sinh viên có thời gian tự học khác Nếu qua phân tích phương sai thấy nhóm sinh viên có kết điểm trung bình khác nhau, nhóm có thời gian tự học nhiều (trên 18 giờ/ tuần) có kết học tập cao nhóm cách có ý nghĩa thống kê, kết luận rút thời gian tự học khác có ảnh hưởng đến kết học tập Trong chương đề cập đến hai mơ hình phân tích phương sai: phân tích phương sai yếu tố hai yếu tố Cụm từ yếu tố ám số lượng yếu tố nguyên nhân ảnh hưởng đến yếu tố kết nghiên cứu Vậy với ví dụ vừa nêu ta có yếu tố nguyên nhân thời gian tự học ảnh hưởng đến yếu tố kết học tập nên ta có loại phân tích phương sai yếu tố PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ Phân tích phương sai yếu tố (One way ANOVA) phân tích ảnh hưởng yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến yếu tố kết (dạng biến định lượng) nghiên cứu Ví dụ xem xét ảnh hưởng thời gian tự học sinh viên đến kết học tập Như phân tích trên, vào thời gian tự học ta có nhóm sinh viên cần so sánh điểm trung bình học tập nhóm giờ/ tuần, nhóm - 18 giờ/ tuần, nhóm 18 giờ/ tuần, nhóm thể cấp độ yếu tố yếu tố thời gian tự học Xét rộng ra, nhóm sinh viên mẫu đại diện tổng thể sinh viên với thời gian tự học khác nhau, mục đích tìm hiểu xem điểm trung bình học tập tổng thể thực giống hay khác để kết luận liệu có hay khơng ảnh hưởng yếu tố thời gian tự học đến kết học tập sinh viên Ta vào lý thuyết sau: 1.1 Trường hợp k tổng thể có phân phối bình thường phương sai Giả sử muốn so sánh trung bình k tổng thể (với ví dụ k = 3) dựa mẫu ngẫu nhiên độc lập gồm n1, n2, n3,…, nk quan sát từ k tổng thể Cần ghi nhớ ba giả định sau nhóm tổng thể tiến hành phân tích ANOVA - Các tổng thể có phân phối bình thường - Các phương sai tổng thể - Các quan sát lấy mẫu độc lập Nếu trung bình tổng thể ký hiệu 𝜇1 , 𝜇2 , , 𝜇𝑘 giả định đáp ứng, mơ hình phân tích phương sai yếu tố ảnh hưởng mô tả dạng kiểm định giả thuyết sau: H0: 𝜇1 = 𝜇2 = = 𝜇𝑘 Giả thuyết H0 cho trung bình k tổng thể (về mặt nghiên cứu liên hệ giả thuyết cho yếu tố ngun nhân khơng có tác động đến vấn đề ta nghiên cứu) Và giả thuyết đối là: H1: Tồn cặp trung bình tổng thể khác Hai giả định để tiến hành phân tích phương sai mơ tả hình đây, bạn thấy ba tổng thể có phân phối bình thường với mức độ phân tán tương đối giống nhau, ba vị trí chênh lệch chúng cho thấy ba trị trung bình khác Rõ ràng bạn thực có giá trị tổng thể biểu diễn phân phối chúng hình bạn khơng cần phải làm mà kết luận bạn bác bỏ H0, hay tổng thể có trị trung bình khác Nhưng bạn có mẫu đại diện quan sát, nên để kiểm định giả thuyết này, ta thực bước sau: Bước 1: Tính trung bình mẫu nhóm (xem đại diện tổng thể) Trước hết ta xem cách tính trung bình mẫu từ quan sát k mẫu ngẫu nhiên độc lập (ký hiệu 𝑥̅1 , ̅̅̅, 𝑥2 , ̅̅̅) 𝑥𝑘 trung bình chung k mẫu quan sát (ký hiệu 𝑥̅ ) từ trường hợp tổng quát sau: Bảng số liệu tổng quát thực phân tích phương sai Tổng thể … k X11 X21 … Xk1 X12 X22 … Xk2 … … … … 𝑋1𝑛1 𝑋2𝑛2 … 𝑋𝑘𝑛𝑘 Tính trung bình mẫu nhóm 𝑥̅1 , ̅̅̅, 𝑥2 , ̅̅̅ 𝑥𝑘 theo công thức: 𝑛 𝑥̅𝑖 = 𝑖 𝑥 ∑𝑗=1 𝑖𝑗 𝑛𝑖 (i = 1, 2, …, k) Và trung bình chung k mẫu (trung bình chung toàn mẫu khảo sát): 𝑥̅ = ∑𝑘𝑖=1 𝑛𝑖 𝑥̅𝑖 ∑𝑘𝑖=1 𝑛𝑖 Dĩ nhiên bạn tính trung bình chung k mẫu theo cách khác là: cộngt tất 𝑥𝑖𝑗 bảng 9.1 lại đem chia cho ∑ 𝑛𝑖 , với (i = 1, 2,…,k) Kết nhau: Bước 2: Tính tổng chênh lệch bình phương (hay gọi tắt tổng bình phương) Tính tổng chênh lệch bình phương nội nhóm 𝑆𝑆𝑊 tổng chênh lệch bình phương nhóm 𝑆𝑆𝐺 ⚫ Tổng chênh lệch bình phương nội nhóm (SSW) tính cách cộng chênh lệch bình phương giá trị quan sát với trung bình mẫu nhóm, sau lại tính tổng cộng kết tất nhóm lại SSW phản ánh phần biến thiên yếu tố kết ảnh hưởng yếu tố khác, yếu tố nguyên nhân nghiên cứu (là yếu tố dùng để phân biệt tổng thể/ nhóm so sánh) Tổng chênh lệch bình phương nhóm tính theo cơng thức: 𝑛 𝑖 Nhóm 1: 𝑆𝑆1 = ∑𝑗=1 (𝑥1𝑗 − 𝑥̅1 )2 𝑛 𝑖 Nhóm 2: 𝑆𝑆2 = ∑𝑗=1 (𝑥2𝑗 − ̅̅̅) 𝑥2 Tương tự ta tính nhóm thứ k 𝑆𝑆𝑘 Vậy tổng chênh lệch bình phương nội nhóm tính sau: SSW = 𝑆𝑆1 + 𝑆𝑆2 + … + 𝑆𝑆𝑘 Hay viết tổng qt theo cơng thức ta có: 𝑛 𝑖 SSW = ∑𝑘𝑖=1 ∑𝑗=1 (𝑥𝑖𝑗 − 𝑥̅𝑖 )2 ⚫ Tổng chênh lệch bình phương nhóm (SSG) tính cách cộng chênh lệch lấy bình phương trung bình mẫu nhóm với trung bình chung k nhóm (các chênh lệch nhân thêm với số quan sát tương ứng nhóm) SSG phản ánh phần biến thiên yếu tố kết ảnh hưởng yếu tố nguyên nhân nghiên cứu SSG = ∑ki=1 ni (xi - x) ⚫ Tổng chênh lệch bình phương tồn SST tính cách cộng tổng chênh lệch lấy bình phương giá trị quan sát tồn mẫu nghiên cứu (xij) với trung bình toàn (𝑥) SST phản ánh biến thiên yếu tố kết ảnh hưởng tất nguyên nhân n i SST = ∑ki=1 ∑j=1 (xij - x) Có thể dễ dàng chứng minh tổng chênh lệch bình phương tồn tổng cộng tổng chênh lệch bình phương nội nhóm tổng chênh lệch bình phương nhóm SST = SSW + SSG Như cơng thức cho thấy, SST toàn biến thiên yếu tố kết phân tích thành hai phần: phần biến thiên yếu tố nghiên cứu tạo (SSG) phần biến thiên lại yếu tố khác không nghiên cứu tạo (SSW) Nếu phần biến thiên yếu tố nguyên nhân xét tạo “đáng kể” so với phần biến thiên yếu tố khác không cét tạo ra, có sở để bác bỏ H0 kết luận yếu tố nguyên nhân nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết Bước 3: Tính phương sai (là trung bình chênh lệch bình phương) Các phương sai tính cách lấy tổng chênh lệch bình phương chia cho bậc tự tương ứng Tính phương sai nội nhóm (MSW) cách lấy tổng chênh lệch bình phương nội nhóm (SSW) chia cho bậc tự tương ứng n – k (n số quan sát, k số nhóm so sánh) MSW ước lượng phần biến thiên yếu tố kết yếu tố khác gây 𝑀𝑆𝑊 = 𝑆𝑆𝑊 𝑛−𝑘 Tính phương sai nhóm (MSG) cách lấy tổng chênh lệch bình phương nhóm chia cho bậc tự tương ứng k-1 MSG ước lượng phần biến thiên yếu tố kết yếu tố nguyên nhân nghiên cứu gây 𝑀𝑆𝐺 = 𝑆𝑆𝐺 𝑘−1 Bước 4: Kiểm định giả thuyết Giả thuyết k trung bình tổng thể đinh dựa tỉ số hai phương sai: phương sai nhóm (MSG) phương sai nội nhóm (MSW) Tỉ số gọi tỉ số F tn theo định luật Fisher – Snedecor với bậc tự k-1 tử số n-k mẫu số 𝐹= 𝑀𝑆𝐺 𝑀𝑆𝑊 Ta bác bỏ giả thuyết H0 cho trị trung bình k tổng thể khi: F > F(k-1;n-k);α F(k-1;n-k);α giá trị trị giới hạn tra từ bảng số với bậc tự k-1 tra theo hàng n-k tra theo cột đầu tiên, nhớ chọn bảng với mức ý nghĩa phù hợp Sau dạng bảng kết ttongr quát ANOVA phân tích chương tình Excell hay SPSS Nguồn biến Tổng chênh lệch bình thiên phương Giữa nhóm Trong nội nhóm Tồn Bậc tự Phương sai SSG k-1 𝑀𝑆𝐺 = 𝑆𝑆𝐺 𝑘−1 SSW n-k 𝑀𝑆𝑊 = 𝑆𝑆𝑊 𝑛−𝑘 SST n-1 Tỉ số F 𝐹= 𝑀𝑆𝐺 𝑀𝑆𝑊 1.2 Kiểm tra giả định phân tích phương sai Chúng ta kiểm tra nhanh giả định đồ thị Histogram phương pháp tốt để kiểm tra giả định phân phối bình thường liệu địi hỏi số lượng quan sát lớn Biểu đồ thân hay biểu đồ hộp râu thay tốt tình số quan sát Nếu công cụ đồ thị cho thấy tập liệu mẫu phù hợp với phân phối bình thường ta xem giả định phân phối bình thường thỏa mãn Một phương pháp kiểm định tham số chắn cho giả định phương sai kiểm định Levene phương sai tổng thể Kiểm định xuất phát từ giả thyết sau H0: 12 = 22 = … = k2 H1: Không phải tất phương sai Để định chấp nhận hay bác bỏ H0 ta tính tốn giá trị kiểm định F theo công thức Fmax = S2max S2min Trong S2max phương sai lớn nhóm nghiên cứu S2min phương sai nhỏ nhóm nghiên cứu Giá trị F tính được đem so sánh với giá trị F(k; df);  tra từ bảng phân phối Hartley Fmax Trong đó, k số nhóm so sánh, bậc tự df tính theo cơng thức df = (𝑛 – 10 Nhận xét: dựa đồ thị ta thấy kích thước phần cặn lớn nằm khoảng 1-3 A0 thấp 21 A0 c) Dùng lệnh pairs ( ) vẽ phân phối biến RMSD theo biến F1, F2, F3, F4, F5, F6, F8, F9 - Input: pairs(RMSD ~ F1,main = "pairs of RMSD for F1",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F1 - Input: pairs(RMSD ~ F2,main = "pairs of RMSD for F2",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F2 - Input: pairs(RMSD ~ F3,main = "pairs of RMSD for F3",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F3 - Input: pairs(RMSD ~ F4,main = "pairs of RMSD for F4",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F4 - Input: pairs(RMSD ~ F5,main = "pairs of RMSD for F5",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F5 - Input: pairs(RMSD ~ F6,main = "pairs of RMSD for F6",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F6 - Input: pairs(RMSD ~ F7,main = "pairs of RMSD for F7",data=df) 55 Giải thích: vẽ phân phối biến RMSD theo biến F7 - Input: pairs(RMSD ~ F8,main = "pairs of RMSD for F8",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F8 - Input: pairs(RMSD ~ F9,main = "pairs of RMSD for F9",data=df) Giải thích: vẽ phân phối biến RMSD theo biến F9 - Output: 56 57 58 59 60 Nhận xét: dựa đồ thị phân tán, ta nhận thấy RMSD có mối quan hệ tuyến tính với F3, nói rõ đồng biến Tuy nhiên biến cịn lai khơng có quan hệ tuyến tính Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models) Chúng ta muốn biết có yếu tố tác động đến kích thước phần cặn a) Xét mô hình hồi quy tuyến tính bao gồm biến RSMD biến phụ thuộc tất biến lại biến độc lập Hãy dùng lệnh lm( ) để thực thi mô hình hồi quy tuyến tính bội - Input: protein |t|)): Pr(>|t|) > mức ý nghĩa  => Chưa bác bỏ giả thiết H0, tức hệ số hồi quy tương ứng với biến khơng có ý nghĩa thống kê, ta loại biến khỏi mơ hình Dựa vào kết quả, ta có: Pr(>|t|) hệ số ứng với biến nhỏ mức ý nghĩa 5% nên ta bác bỏ giả thiết H0, chấp nhận giả thiết H1 Do hệ số ứng với biến có ý nghĩa thống kê Vì vậy, ta khơng cần loại bỏ biến khỏi mơ hình c) Từ mô hình hồi quy tuyến tính ta có kết luận tác động yếu tố tính chất vật lý đến kích thước phần cặn? Để đánh giá tác động biến lên kích thước phần cặn, ta quan tâm hệ số hồi quy P-value tương ứng Ta thấy P-value tương ứng với F1, F2, F3, F4, F5, F6, F7, F8, F9 < 2.10-6, điều nói lên ảnh hưởng biến có ý nghĩa lớn lên biến kích thước phần cặn RMSD Biến F5 có ảnh hưởng lớn đến biến RMSD so với biến lại Mặt khác, hệ số hồi quy biến dự báo xem ảnh hưởng trung bình lên biến phụ thuộc kích thước phần cặn tăng thêm đơn vị biến dự báo đó, giả sử biến dự báo khác không đổi Cụ thể hơn, hệ số hồi quy tương ứng với F1 = 1,572.10-3 tương ứng với F1 tăng đơn vị Ao ta kỳ vọng kích thước phần cặn tăng 1,572.10-3 Ao (giả sử biến dự báo cịn lại khơng đổi) Tương tự với biến cịn lại d) Từ mô hình hồi quy vẽ đồ thị biểu thị sai số hồi quy giá trị dự báo Nêu ý nghĩa nhận xét - Input: 62 plot (protein, which = 1) Giải thích: Vẽ đồ thị sai số hồi quy sai số dự báo - Output: Nhận xét: Đồ thị vẽ giá trị dự báo giá trị thặng dư (sai số) tương ứng Dựa vào đồ thị ta thấy, đường thẳng màu đỏ đồ thi đường cong, tức mối quan hệ biến dự báo X biến phụ thuộc Y xem chưa tuyến tính, chưa thỏa mãn giả định tuyến tính liệu Ngồi giá trị thặng dư (sai số) phân tán không xung quang đường thẳng y=0 (ngoại trừ số điểm ngoại lai), chứng tỏ phương sai sai số không số, vi phạm giả định mơ hình hồi quy Ta vẽ thêm biểu đồ để kiểm tra giả định mơ hình hồi quy: - Input: plot(protein) Giải thích: vẽ đồ thị để kiểm tra giả định mơ hình hồi quy - Output: 63 Nhận xét: đồ thị Đồ thị 2: đồ thị kiểm tra giá trị phân phối chuẩn sai số Nếu điểm thặng dư nằm đường thẳng điều kiện phân phối chuẩn thỏa mãn 64 Ta nhận thấy giá trị thặng dư tập trung theo đường thẳng, khoảng đầu cuối có vài giá trị lệch khỏi đường thẳng Tuy nhiên, không đáng kể, ta xem giả định phân phối chuẩn sai số đáp ứng Đồ thị 3: vẽ bậc giá trị thặng dư chuẩn hóa giá trị dự báo, dùng để kiểm tra giả định thứ (phương sai sai số số- tương tự đò thị 1) Nếu đường màu đỏ đồ thị đường thẳng nằm ngang giá trị thặng dư phân tán quanh đường thẳng giả định thỏa mãn Nếu đường màu đỏ có độ dốc (hoặc cong) điểm thặng dư phân tán không xung quanh đường thẳng giả định thứ bị vi phạm Dựa vào đồ thị ta thấy đường màu đỏ đồ thị đường cong giá trị thặng dư không phân tán Đồ thị cho ta thấy giả định tính đồng phương sai bị vi phạm 65 Đồ thị 4: cho phép xác định ảnh hưởng cao, chúng có diện liệu Những điểm ảnh hưởng cao điểm outlines, điểm gây nhiễu gây ảnh hưởng nhiều việc phân tích Nếu ta thấy đường màu đỏ đứt nét (Cook’s distance) có số điểm vượt qua đường khoảng cách này, nghĩa điểm có ảnh hưởng cao Nếu khơng có điểm vượt qua nó, nghĩa khơng có điểm thực có ảnh hưởng cao Dựa vào đồ thị, ta thấy quan trắc thứ 36240, 23637, 41818 điểm có ảnh hưởng cao liệu Tuy nhiên điểm chưa vượt qua đường khoảng cách Cook Do điểm chưa thật ảnh hưởng cao, ta khơng cần loại bỏ chúng phân tích Dự báo (Predictions) a) Từ mơ hình dùng lệnh predict( ) để dự báo kích thước phần cặn thuộc tính sau: 66 X1: F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9) X2: F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9) - Input: X1 = data.frame(F1 = mean(df$F1), F2 = mean(df$F2), F3 = mean(df$F3),F4 = mean(df$F4),F5 = mean(df$F5),F6 = mean(df$F6),F7 = mean(df$F7),F8 = mean(df$F8),F9 = mean(df$F9)) Giải thích: tạo thuộc tín X1 - Input: predict_X1 = predict(protein, X1, interval = "confidence") predict_X1 Giải thích: dự báo kích thước phần cặn thuộc tính X1 - Output: - Input: X2 = data.frame(F1 = max(df$F1), F2 = max(df$F2), F3 = max(df$F3),F4 = max(df$F4),F5 = max(df$F5),F6 = max(df$F6),F7 = max(df$F7),F8 = max(df$F8),F9 = max(df$F9)) Giải thích: tạo thuộc tín X2 predict_X2 = predict(protein, X2, interval = "confidence") predict_X2 67 Giải thích: dự báo kích thước phần cặn thuộc tính X2 - Output: b) So sánh khoảng tin cậy cho giá trị dự báo - Input: pred = data.frame(rbind(predict_X1,predict_X2)) Giải thích: Tạo bảng thể dự báo giá nhà thuộc tính X1,X2 - Input: rownames(pred) = c("X1","X2") Giải thích: đổi tên dịng thành X1, X2 - Input: pred$range=pred$upr-pred$lwr pred - Output: Nhận xét: với khoảng tin cậy 95% ta thấy độ dài khoảng tin cậy giá trị dự báo X1 < X2 nên ta kết luận với tập liệu X1, ta thu giá trị dự báo xác so với X2 68 Kết luận: Từ mục (4) ta thấy mơ hình ta xây dựng chưa thực phù hợp việc vi phạm nhiều giả định hồi quy, hệ số R-Squared = 0,2823 bé nên thay đổi biến RMSD giải thích biến độc lập q Do mơ hình ta xây dựng chưa thực phù hợp để dự đốn cho RMSD Có thể phân tích toán ta nhận thấy biến F1, F2, F3, F4, F5, F6, F7, F8, F9 ảnh hưởng lớn đến biến RMSD, dù xây dựng mơ hình hồi quy chưa thật tốt dẫn đến kết dự báo khơng xác 69 ... chia tập liệu thành hai tập: Một tập khơng có giá trị bị thiếu cho biến tập khác có giá trị bị thiếu Tập liệu trở thành tập liệu huấn luyện mơ hình tập liệu thứ hai có giá trị bị thiếu tập liệu... gian tự học nhiều (trên 18 giờ/ tuần) có kết học tập cao nhóm cách có ý nghĩa thống kê, kết luận rút thời gian tự học khác có ảnh hưởng đến kết học tập Trong chương đề cập đến hai mô hình phân... bày bảng phân tích phương sai báo cáo Cho kết luận XỬ LÝ SỐ LIỆU BÀI TẬP Nhập làm liệu, thực thống kê mô tả (a) Trong R, sử dụng lệnh read.table để đọc liệu từ tập tin flights.rda Chú ý hàng

Ngày đăng: 08/01/2022, 21:49