Nhìn vào dataframe của data, ta nhận ra rằng giá trị của biến gender được liệt kê với giá trị 0 trước 1 sau, và sẽ lặp lại khi biến Diet thay đổi giá trị... Thay 0=Nữ và 1= Nam cho cột g
Trang 1Đ i H c Qu c Gia Thành Ph H Chí Minh ại Học Quốc Gia Thành Phố Hồ Chí Minh ọc Quốc Gia Thành Phố Hồ Chí Minh ốc Gia Thành Phố Hồ Chí Minh ốc Gia Thành Phố Hồ Chí Minh ồ Chí Minh
Tr ường Đại Học Bách Khoa TPHCM ng Đ i H c Bách Khoa TPHCM ại Học Quốc Gia Thành Phố Hồ Chí Minh ọc Quốc Gia Thành Phố Hồ Chí Minh
BÀI T P L N MÔN: XÁC SU T TH NG KÊ ẬP LỚN MÔN: XÁC SUẤT THỐNG KÊ ỚN MÔN: XÁC SUẤT THỐNG KÊ ẤT THỐNG KÊ ỐNG KÊ
Đ TÀI 3 Ề TÀI 3
Gi ng viên : Hoàng Văn Hà ảng viên : Hoàng Văn Hà
Tr ương Gia Kiệt ng Gia Ki t ệt 2013584
Nguy n Hoàng B o Hân ễn Hoàng Bảo Hân ảo Hân 2010246
Nguy n Th Thanh Tuy n ễn Hoàng Bảo Hân ị Vân Anh ền 2010760
Trang 2BÁO CÁO PHÂN CÔNG NHIỆM VỤ CỦA NHÓM 3
word
3 Nguy n Hoàng B o Hân ễn Hoàng Bảo Hân ảo Hân 2010246 Hoạt động 2
4 Nguy n Th Thanh Tuy n ễn Hoàng Bảo Hân ị Vân Anh ền 2010760 Hoạt động 2
Nhóm trường
Trương Gia Kiệt
Email : kiet.truonggiakiet14@hcmut.edu.vn
SĐT : 0344311893
Mục lục
Trang 4Hoạt động 1
1)Đọc dữ liệu , khai biến và làm sạch dữ liệu trong R
Sau khi đọc bảng dữ liệu ta nhận xét rằng dữ liệu bao gồm 78 đối tượng tham gia và có
7 biến bao gồm :
- Person: số thứ tự của người tham gia thử nghiệm
- gender: giới tính của người tham gia (1 = nam, 0 = nữ)
- Age: tuổi (năm)
- Height: chiều cao (cm)
- pre.weight: cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
- Diet: chế độ ăn kiêng (3 chế độ khác nhau)
- weight6weeks: cân nặng sau 6 tuần ăn kiêng
Ta khai biến trong R:
Ta nhận thấy trong bảng dữ liệu ở đối tượng 25 và 26 còn trống ô ở mục gender do đó
ta cần gán giá trị cho nó Nhìn vào dataframe của data, ta nhận ra rằng giá trị của biến gender được liệt kê với giá trị 0 trước 1 sau, và sẽ lặp lại khi biến Diet thay đổi giá trị
Trang 5Với logic này, đề xuất gán các giá trị NA tại ô thứ 25, 26 của biến gender bằng
giá trị 0 Thay 0=Nữ và 1= Nam cho cột gender.ta được bảng dữ liệu data hoàn chỉnh trong R như sau:
Trang 72) Làm rõ dữ liệu
Ta thực hiện phân tích mẫu dựa trên yếu tố về giới tính và so sánh về số lượng qua biểu đồ barplot:
Trang 8Tính toán các Thống kê mô tả của mẫu:
Dùng các lệnh summary và desc
R không có hàm tính sai số chuẩn, và trong hàm summary, R cũng không cung cấp độ lệch chuẩn Để có các số này, chúng ta có thể tự viết một hàm đơn giản (hãy gọi là desc) như sau:
desc <- function(x)
{ av <- mean(x) sd <- sd(x) se <- sd/sqrt(length(x)) c(MEAN=av, SD=sd, SE=se) }
Trang 9Ta thực hiện vẽ đồ thị của các biến trong data như sau:
Trang 10Ta tiếp đến phân loại ra ba chế độ ăn khác nhau:
Ta có ba bảng liệt kê mỗi chết độ ăn như sau:
Trang 12Đồ thị của 3 chế độ ăn trên đường tròn :
Trang 13Tính toán thống kê của 3 chế độ ăn thông qua lệnh summary.dataframe:
Tiếp đến ta so sánh sự hiệu quả giữa 3 chế độ ăn ( thông qua lượng cân nặng mất đi
= cân nặng trước khi tham gia – cân nặng sau 6 tuần) Thực hiện các câu lệnh để tìm cân nặng mất đi( weightloss) và sử dụng biểu đồ boxplot để so sánh:
Trang 14NHẬN XÉT
CÂN NẶNG GIẢM ĐƯỢC THÔNG QUA CHẾ ĐỘ 1:
- Có 25% cân nặng giảm ít hơn hoặc bằng 2
- Có 50% cân nặng giảm ít hơn hoặc bằng 3
- Có 75% cân nặng giảm ít hơn hoặc bằng 4
- Cân nặng giảm nhiều nhất khoảng 7 (IQR ≈ 2)
- Cân nặng giảm ít nhất khoảng -1
- Có thể có các giá trị ngoại vi trên giá trị cao nhất
CÂN NẶNG GIẢM ĐƯỢC THÔNG QUA CHẾ ĐỘ 2:
- Có 25% cân nặng giảm ít hơn hoặc bằng 1.9
- Có 50% cân nặng giảm ít hơn hoặc bằng 3.4
- Có 75% cân nặng giảm ít hơn hoặc bằng 4.2
- Cân nặng giảm nhiều nhất khoảng 7.65 (IQR ≈ 2.3)
- Cân nặng giảm ít nhất khoảng -1.55
CÂN NẶNG GIẢM ĐƯỢC THÔNG QUA CHẾ ĐỘ 3:
- Có 25% cân nặng giảm ít hơn hoặc bằng 3.5
- Có 50% cân nặng giảm ít hơn hoặc bằng 5.5
- Có 75% cân nặng giảm ít hơn hoặc bằng 7
- Cân nặng giảm nhiều nhất khoảng 12.25 (IQR ≈ 3.5)
- Cân nặng giảm ít nhất khoảng -1.75
Trang 153) Dùng kiểm định t.test cho hai biến pre.weight và weight6weeks
Trang 164) ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả
nhất trong việc giảm cân.
Chúng ta cần kiểm tra nhân tố chính đó là Diet bao gồm 3 mức : chế độ ăn kiêng 1,2
và 3 (diet_1,diet_2,diet_3).Để xác đinh chế độ ăn kiêng nào hiệu quả nhất chúng ta cần phải dựa vào biến weightloss ở 3 chế độ
Lập bảng phương sai ANOVA với x là lượng cân giảm và group là nhóm, ta được bảng dữ liệu như bên dưới :
Trang 17Phân tích anova bảng dữ liệu bằng lệnh aov ta xác định được các giá trị như: sự biến thiên giữa các nhóm (SSB), sự biến thiên trong từng nhóm (SSW) , trung bình phương giữa các nhóm và trong từng nhóm , thống kê F:
So sánh sự hiệu quả giữa 3 chế độ ăn trông qua biến cân nặng trung bình giữa 3 chế độ
và LSD
Trang 185) ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nào đến việc giảm cân weightlost