Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
39
Dung lượng
822,49 KB
Nội dung
Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành Phố Hồ Chí Minh -oOo - MƠN HỌC XÁC SUẤT THỐNG KÊ BÀI TẬP LỚN SỐ Lớp L13 NHĨM 13 HK211 GVHD: NGUYỄN ĐÌNH HUY HỌ VÀ TÊN SINH VIÊN : BÙI XUÂN PHONG MSSV : 2014113 KHOA : MƠI TRƯỜNG VÀ TÀI NGUN TP.Hồ Chí Minh, năm 2021 DANH SÁCH SINH VIÊN THỰC HIỆN STT Phan Ngọc Thanh MỤC LỤC LỜI CẢM ƠN I HOẠT ĐỘNG 1.Đề bài: 2 Thực 2.1 Đọc liệu: 2.1 Làm liệu (Data cleaning) 2.2 Làm rõ liệu: (Data visualization) 2.3 t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks 2.4 ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân 2.5 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weight.loss? 17 III HOẠT ĐỘNG 20 1.Giới thiệu liệu 20 Đoc liệu (Import data): 21 Làm liệu (Data cleaning): 21 Làm rõ liệu (Data visualization): 22 Xây dưng mơ hình hồi quy tuyến tính (Fitting linear regression models): 29 KẾT LUẬN 32 Tài liệu tham khảo 32 DANH MỤC HÌNH ẢNH Hình 1: code R kết đọc tệp tên xem dòng tệp tin Hình 2: code R kết kiểm tra liệu khuyết tệp tin Hình : code R kết xố quan sát chứa liệu khuyết Hình : code R kết tạo thêm biến weight.loss Hình 5: code R kết thực thống kê mô tả cho biến pre.weight, weight6weeks, weight.loss theo nhóm chế độ ăn kiêng (Diet) Hình : code R kết thống kê số lượng nam Hình : code R kết thống kê người tham gi Hình Hình 8: code R kết vẽ đồ thị Histogram cho : code R kết vẽ đồ thị Boxplot thể phân phối theo giới tính (gender) Hình 10: code R kết vẽ đồ thị Boxpl theo chế độ ăn kiêng (Diet) Hình 11: code R kết thực kiểm đ Hình 12 : code R kết thực kiểm giả định phân phối c giảm chế độ ăn kiêng đồ thị Hình 13 : code R kết thực kiểm giả định phân phối c giảm chế độ ăn kiêng phương pháp kiểm định Hình 14 : code R kết thực kiểm giả định phân phối c giảm chế độ ăn kiêng đồ thị Hình 15 : code R kết thực kiểm giả định phân phối c giảm chế độ ăn kiêng phương pháp kiểm định Hình 16 : code R kết thực kiểm giả định phân phối c giảm chế độ ăn kiêng đồ thị Hình 17 : code R kết thực kiểm giả định phân phối c giảm chế độ ăn kiêng phương pháp kiểm định Hình 18 : code R kết thực kiểm Hình 19 : code R kết thực ANOV Hình 20 : code R kết thực so sán Hình 21 : code R kết thực ANOV Hình 22 : code R kết vẽ đồ thị phân t Hình 23 : Biểu đồ FWI Hình 24 : Phân phối FWI nhiệt độ Hình 25 : Phân phối FWI độ ẩm tương đối Hình 26 : Phân phối FWI tốc độ gió Hình 27 : Phân phối FWI lượng mưa LỜI CẢM ƠN Xác suất thống kê môn học đại cương có tầm quan trọng sinh viên nói chung sinh viên nhóm ngành Khoa học Kỹ thuật nói chung Do đó, việc dành cho mơn học khối lượng thời gian định thực hành điều tất yếu để giúp sinh viên có sở vững kiến thức kỹ cần thiết cho môn học chuyên ngành công việc sau Sự phát triển đời tốn tin nói chung phần mềm R Studio, ngơn ngữ R nói riêng hỗ trợ nhiều q trình học tập nghiên cứu mơn Xác suất thống kê Việc phân tích xử lý số liệu rút ngắn có hiệu cao Vì mà việc tìm hiểu R Studio ngôn ngữ R việc thực hành môn học Xác suất thống kê quan trọng có tính cấp thiết Ở tập lớn này, nhóm thực nội dung: “Phân tích phương sai Anova phân tích liệu mẫu” Đây phương pháp phân tích liệu mẫu phổ biến để so sánh, đối sánh sai khác, chênh lệch giá trị đại lượng nhóm quần thể thống kê, từ rút mức độ tác động nhân tố đến quần thể Trong suốt trình thực tập, nhóm nhận nhiều quan tâm, ủng hộ giúp đỡ tận tình thầy cô, anh chị em bạn bè I HOẠT ĐỘNG 1.Đề bài: Tập tin Diet.csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu chế độ ăn kiêng việc giảm cân nặng người trưởng thành Một người tham gia áp dụng ba chế độ ăn kiêng khác vòng tuần lễ Cân nặng người tham gia ghi nhận trước sau kết thúc thử nghiệm để đánh giá hiệu chế độ ăn kiêng Các biến liệu: Person: số thứ tự người tham gia thử nghiệm gender: giới tính người tham gia (1 = nam, = nữ) Age: tuổi (năm) Height: chiều cao (cm) pre.weight: cân nặng trước áp dụng chế độ ăn kiêng (kg) Diet: chế độ ăn kiêng (3 chế độ khác nhau) weight6weeks: cân nặng sau tuần ăn kiêng Các bước thực hiện: 1.Đọc liệu (Import data): "Diet.csv" 2.Làm liệu (Data cleaning): NA (dữ liệu khuyết) 3.Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị 4.t.test: Dùng kiểm định phù hợp cho hai biến pre.weight weight6weeks 5.ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA nhân tố: ANOVA hai nhân tố: Chế dộ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weightloss? 2 Thực 2.1 Đọc liệu: Đọc tập tin “Diet.csv” Hình 1: code R kết đọc tệp tên xem dòng tệp tin 2.2 Làm liệu (Data cleaning) Kiểm tra liệu khuyết tập tin Hình 2: code R kết kiểm tra liệu khuyết tệp tin Nhận xét: Biến gender có chứa hai liệu khuyết dòng dòng người tham gia thứ 25 26 Vì có người 78 người không xác định giới tính (chiếm tỉ lệ 2.56% nhỏ) nên ta loại bỏ quan sát chứa liệu khuyết Hình : code R kết xoá quan sát chứa liệu khuyết 2.3 Làm rõ liệu: (Data visualization) Tạo biến weight.loss = pre.weight - weight6weeks thể lượng cân nặng giảm tham gia thực chế độ ăn kiêng Hình : code R kết tạo thêm biến weight.loss Thực tính giá trị thống kê mô tả cho biến pre.weight, weight6weeks, weight.loss theo nhóm chế độ ăn kiêng (Diet) Hình 5: code R kết thực thống kê mô tả cho biến pre.weight, weight6weeks, weight.loss theo nhóm chế độ ăn kiêng (Diet) Thống kê số lượng nam nữ tham gia Hình : code R kết thống kê số lượng nam nữ tham gia Thống kê số lượng người tham gia chế độ ăn kiêng Hình : code R kết thống kê người tham gia chế độ ăn kiêng + Mức ý nghĩa quan sát: + p − valuea = 0.82062 + p − valueb = 0.00546 + p − valueab = 0.04884 Đối với nhóm (nhân tố A - cụ thể nhân tố giới tính): Dựa vào p − valuea = 0.82062 lớn mức ý nghĩa α = 5% nên ta chưa đủ sở để bác bỏ giả thuyết H0a Ngồi ra, ta dựa vào fa = MSG/MSE = 0.052 < ngưỡng fα;a−1;ab(n−1) = f0.05;1;70 = 3.9778 nên ta đưa kết luận chưa đủ sở để bác bỏ giả thuyết H 0a Vậy giới tính khơng ảnh hưởng đến việc giảm cân Đối với khối (nhân tố B - cụ thể nhân tố chế độ ăn kiêng): Dựa vào p − valueb = 0.00546 bé mức ý nghĩa α = 5% nên ta bác bỏ giả thuyết H0b Ngồi ta, ta dựa vào fb = MSB/MSE = 5.619 > ngưỡng fα; b−1; ab(n−1) = f0.05;2;70 = 3.1277 nên ta đưa kết luận bác bỏ giả thuyết H0b Vậy chế độ ăn kiêng có ảnh hưởng đến việc giảm cân Đối với tương tác A B (cụ thể tương tác giới tính chế độ ăn kiêng): Dựa vào p − valueab = 0.04884 bé mức ý nghĩa α = 5% nên ta bác bỏ giả thuyết H0ab Ngồi ta, ta dựa vào fab = MSI/MSE = 3.153 < ngưỡng fα;(a−1).(b−1);ab(n−1) = f0.05;2;70 = 3.1277 nên ta đưa kết luận bác bỏ giả thiết H0ab Vậy có tương tác giới tính chế độ ăn kiêng Ngồi ra, ta vẽ đồ thị để đánh giá tương tác 19 Hình 22 : code R kết vẽ đồ thị phân tích tương tác Nhận xét: Ta nhận thấy đường thẳng đồ thị cắt nhau, tức có tương tác giới tính phương pháp ăn kiêng III HOẠT ĐỘNG Giới thiệu liệu Nội dung liệu: Thống kê tập hợp liệu việc cháy rừng Algeria, cụ thể vùng Bejaia nằm phía đơng bắc Algeria Lý chọn liệu: Đây đề tài quan tâm khoa môi trường, đặc biệt nạn cháy rừng, việc ảnh hưởng lớn đến tài nguyên rừng, gây mát nguồn nguyên liệu tự nhiên, thiệt hại động vật, bên cạnh ta cịn thấy lượng chất thải cháy rừng xảy gây ô nhiễm phần môi trường, ảnh hưởng đến sinh sống người dân khu vực quanh Mơ tả: Khoảng thời gian thống kê từ tháng năm 2012 đến tháng năm 2012 Các biến liệu: 20 Temperature: Nhiệt độ (ooC) RH: Độ ẩm tương đối (%) Ws: Tốc độ gió: (km/h) Rain: lượng mưa ngày (mm) FWI: số thời tiết báo cháy Đoc liệu (Import data): Ta dùng lệnh read_excel để đoc tệp tin: library(readxl) #Yêu cầu đọc gói lệnh 'readxl' để sử dụng hàm 'read_excel' Forest_fires |t|) #(Intercept) -26.12257 9.03194 -2.892 0.00456 ** ## RH ## Ws ## Rain ## Temperature 0.98822 0.19407 5.092 1.37e-06 *** # #Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' # #Residual standard error: 4.923 on 117 degrees of freedom #Multiple R-squared: 0.4175, Adjusted R-squared: 0.3976 #F-statistic: 20.97 on and 117 DF, p-value: 4.716e-13 29 5.2 Dựa vào kết mơ hình hồi quy tuyến tính trên, để lựa chọn biến loại khỏi mơ hình tương ứng với mức tin cậy 5%, ta đặt: Giả thuyết H0: Hệ số hồi quy khơng có ý nghĩa thống kê Đối thuyết H1: Hệ số hồi quy có ý nghĩa thống kê Nhận xét: Dưa vào kết mơ hình tuyến tính, Pr(>|t|) ứng với biến WS, Temperature bé 0,05 nên ta bác bỏ H0 chấp nhận H1, hệ số ứng với biến có ý nghĩa thống kê Ngược lai Pr(>|t|) ứng với biến Rain, RH lớn 0,05 nên ta chấp nhận H0, hệ số ứng với biến Rain, RH khơng có ý nghĩa thống kê Do ta loai biến Rain RH khỏi mô hinh 5.3 Xét mô hinh tuyến tính bao gồm biến FWI biến phụ thuộc nhưng: Mơ hình M1 chứa tất biến cịn lai biến độc lập Mơ hình M2 loại bỏ biến Rain từ mơ hình M1 Ta dùng lệnh lm để thực thi mô hinh hồi quy tuyến tính bội M2: M2 = lm(FWI~ RH + Ws + Temperature, data = Forest_fires) summary(M2) #Tóm tắt kết mơ hình M2 ## #Call: #lm(formula = FWI ~ RH + Ws + Temperature, data = Forest_fires) # #Residuals: ## Min 1Q Median 3Q Max #-10.9733 -3.4381 -0.0843 3.3733 17.9176 # #Coefficients: # Estimate Std Error t value Pr(>|t|) #(Intercept) -27.36759 8.83845 -3.096 0.00245 ** ## RH ## Ws ## Temperature 1.03901 0.17980 5.779 6.25e-08 *** ## 30 #Signif codes: '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' # #Residual standard error: 4.913 on 118 degrees of freedom #Multiple R-squared: 0.4151, Adjusted R-squared: 0.4002 #F-statistic: 27.91 on and 118 DF, p-value: 1.033e-13 Sử dụng lệnh anova để chon mô hinh hợp lý anova(M1,M2) #Analysis of Variance Table # #Model 1: FWI ~ RH + Ws + Rain + Temperature #Model 2: FWI ~ RH + Ws + Temperature ## Res.Df RSS Df Sum of SqF Pr(>F) ## 117 2835.6 ## 118 2847.7 -1 -12.03 Ta đặt giả thiết: Giả thuyết H0: Hai mơ hình M1 M2 hiệu giống Đối thuyết H1: Hai mơ hình M1 M2 hiệu khác Nhận xét: Dựa vào kết phân tích ANOVA hai mơ hình M1 M2, ta thu giá trị Pr(>F) = 0,4825 Chon mức ý nghĩa 0,05, Pr(>F) > 0,05 => mơ hình có hiệu nhau, ta dưa vào hệ số R2R2 hiệu chỉnh, ta thấy R2R2 hiệu chỉnh mơ hình M2 = 0,4002 lớn so với mô hinh M1 = 0,3976 Vi vậy, kết phân tích ANOVA cho biết mơ hình M1 M2 ta kết luận mơ hình M2 tốt M1 5.4 Mơ hinh hồi quy tuyến tính ta chọn hợp lý câu c mơ hình M2 Ta suy luận tác động biến lên số FWI: Ta có Pr(>|t|) biến Temperature, RH, Ws bé, nên biến có ý nghĩa thống kê cao biến FWI, có nghĩa thay đổi biến có ảnh hưởng nhiều đến sư thay đổi số thời tiết báo cháy FWI Ngoài ra, dưa vào hệ số hồi quy ứng với biến Temperature, RH, Ws ta nhận thấy sư ảnh hưởng biến lên biến FWI Cụ thể: hệ số ứng với biến Temperature = 1,03901, tức biến Temperature tăng thêm đơn vị (tinh theo 31 biến Temperature) ta kỳ vong biến FWI tăng thêm 1,03901 đơn vị (tinh theo biến FWI) (giả sử biến lai không thay đổi) Tương tư, hệ số ứng với biến RH = -0,09368 / Ws = 0,43229, tức biến RH / Ws tăng thêm đơn vị (tính theo biến RH / Ws) thi ta kỳ vọng biến FWI giảm 0,09368 đơn vị tăng thêm 0,43229 đơn vị (tinh theo biến FWI) (giả sử biến cịn lai khơng thay đổi) 5.5 Từ mơ hình M2, ta dùng lệnh plot để vẽ đồ thị biểu thị sai số hồi quy (residuals) giá trị dự báo (fitted values): plot(M2, which=1) KẾT LUẬN Với đề tài “Phân tích phương sai Anova phân tích liệu mẫu” sử dụng ngơn ngữ lập trình R để xử lý liệu thống kê chế độ ăn kiêng nhóm đối tượng, nhóm chúng tơi có nhìn trực quan cách trích xuất liệu, xử lý phân tích liệu thơ, biến chúng thành nguồn liệu có giá trị sử dụng lâu dài, hay khái qi hóa tình hình chung đưa tiên đốn tập liệu Bên cạnh việc tìm hiểu phần mềm R sử dụng RStudio để ứng dụng vào bước tính tốn phân tích vẽ đồ thị giúp cho chúng tơi có thêm kỹ lập trình, biết cách xếp trình tự thực công việc cần làm gặp vấn đề có thêm cơng cụ hỗ trợ việc tính tốn giải vấn đề phức tạp nhờ có trợ giúp máy tính Việc hợp tác thực đề tài nâng cao khả làm việc nhóm tinh thần trách nhiệm công việc Tài liệu tham khảo 1.Nguyễn Kiều Dung, Bài giảng Xác suất Thống kê 32 Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân tích số liệu, 2019 3.Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi, Giáo trình Xác suất Thống kê, 2018 4.Introductory Statistics with R, J Jambers – D.Hand – W.Hardle 5.Applied Statistics with R, 2020 6.TS Nguyễn Cảnh Huy, Bài giảng môn học Kinh tế Lượng 7.Chu Nguyễn Mộng Ngọc, Hoàng Trọng, Thống kê Ứng dụng Nguồn liệu hoạt động 2: https://archive.ics.uci.edu/ml/datasets/Algerian+Forest+Fires+Dataset 33 ... nhiệm công việc Tài liệu tham khảo 1.Nguyễn Kiều Dung, Bài giảng Xác suất Thống kê 32 Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân tích số liệu, 2019 3. Nguyễn Đình Huy... Median 3Q Max #-10.9 733 -3. 438 1 -0.08 43 3 .37 33 17.9176 # #Coefficients: # Estimate Std Error t value Pr(>|t|) #(Intercept) -27 .36 759 8. 838 45 -3. 096 0.00245 ** ## RH ## Ws ## Temperature 1. 039 01... ? ?Phân tích phương sai Anova phân tích liệu mẫu? ?? Đây phương pháp phân tích liệu mẫu phổ biến để so sánh, đối sánh sai khác, chênh lệch giá trị đại lượng nhóm quần thể thống kê, từ rút mức độ tác