Phân tích phương sai một yếu tố
• Giả sử nhân tố A có k mức X 1 , X 2 , … , X k với X j có
- Phân phối chuẩn N(a, σ 2 ) với trung bình tương ứng là a 1 , a 2 , … , a k chưa biết
- Các tổng thể có phương sai bằng nhau
- Các mẫu quan sát được lấy độc lập
• Với mức ý nghĩa α hãy kiểm định giả thiết
Thứ tự quan sát 1 2 ⋯ 𝑘 Tổng
Trung bình mẫu từng nhóm 𝑥̅̅̅ 𝑘 𝑥̅ =1
Tổng bình phương chênh lệch trong nội bộ các nhóm ∑(𝑥 𝑖𝑘 − 𝑥̅̅̅) 𝑘 2
Các nhóm SSG 𝑘 − 1 MSG = SSG k − 1
Nội bộ nhóm SSW 𝑛 − 𝑘 MSW = SSW MSW n − k
- SSG: Phần biến thiên của g.trị X do các mức độ của yếu tố đang xem xét tạo ra
- SSW: Phần biến thiên của g.trị X do các mức độ của yếu tố không được xem xét tạo ra
- SST: Tổng các biến thiên của giá trị X do tất cả các yếu tố tạo ra
- BPCL: Bình phương chênh lệch
- TCKĐ: Tiêu chuẩn kiểm định
Phân tích phương sai 2 yếu tố không lặp
• Phân tích nhằm đánh giá sự ảnh hưởng của 2 yếu tố A và B trên các giá trị quan sát
Giả sử yếu tố A có n mức a 1 , a 2 , … , a n (yếu tố hàng)
B có m mức b 1 , b 2 , … , b m (yếu tố cột)
Tổng bình phương chênh lệch giữa các nhóm 𝑛 𝑘 × (𝑥̅̅̅ − 𝑥̅) 𝑘 2 𝑆𝑆𝐺 = ∑ 𝑛 𝑗 × (𝑥̅ − 𝑥̅) 𝑗 2
Tổng bình phương chênh lệch toàn bộ 𝑆𝑆𝑇 = ∑ ∑(𝑥 𝑖𝑗 − 𝑥̅) 2
• Với mức ý nghĩa α hãy kiểm định giả thiết
+ Trung bình nhân tố hàng bằng nhau
+ Trung bình nhân tố cột bằng nhau
+ Không có sự tương tác giữa cột và hàng
• Tiến hành tính toán theo bảng dưới đây
- 𝐹 𝐴 > 𝐹 𝛼 (𝑛 − 1; (𝑛 − 1)(𝑚 − 1)) thì bác bỏ yếu tố A (hàng)
- 𝐹 𝐵 > 𝐹 𝛼 (𝑚 − 1; (𝑛 − 1)(𝑚 − 1)) thì bác bỏ yếu tố B (cột)
Phân tích phương sai hai yếu tố có lặp
Tương tự phân tích phương sai hai yếu tố không lặp, chỉ khác mỗi mức (𝑎 𝑖 , 𝑏 𝑗 ) đều có sự lặp lại 𝑟 lần thí nghiệm và ta khảo sát thêm sự tương tác 𝐹 𝐴𝐵 giữa hai nhân tố A và B
Sai số SSW (𝑛 − 1)(𝑚 − 1) MSW = SSW
• Xử lý mẫu: Tính tổng hàng và tổng cột
Nguồn SS df MS TCKĐ
- 𝐹 𝐴 > 𝐹 𝛼 (𝑛 − 1; 𝑛𝑚(𝑟 − 1)) thì bác bỏ yếu tố A (hàng)
- 𝐹 𝐵 > 𝐹 𝛼 (𝑚 − 1; 𝑛𝑚(𝑟 − 1)) thì bác bỏ yếu tố B (cột)
- 𝐹 𝐴𝐵 > 𝐹 𝛼 ((𝑛 − 1)(𝑚 − 1); 𝑛𝑚(𝑟 − 1)) thì có sự tương tác giữa A và B ĐỀ BÀI
Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng thành Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong vòng 6 tuần lễ Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng Chi tiết về bộ dữ liệu như sau:
- Tổng số người tham gia: 78
1 Person = số thứ tự của người tham gia thử nghiệm
2 gender = giới tính của người tham gia (1 = nam, 0 = nữ)
5 pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
6 Diet = chế độ ăn kiêng (3 chế độ khác nhau)
7 weight6weeks = cân nặng sau 6 tuần ăn kiêng
Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định
(a) Đọc dữ liệu vào R và tính toán các giá trị thống kê mô tả cho các biến gender,
Age, Height, pre.weight và weight6weeks theo từng nhóm chế độ ăn kiêng tương ứng
(b) Biến gender có chứa hai giá trị khuyết (NA = Not Available) của người tham gia thứ 25 và 26 Hãy đề xuất một phương pháp để thay thể hai giá trị khuyết này
(c) Tạo biến weight.loss = preweight – weight6weeks Hãy vẽ biểu đồ boxplot cho biến weight.loss tương ứng theo 3 chế độ ăn kiêng Dựa trên các biểu đồ boxplot vừa vẽ, đưa ra nhận xét về 3 chế độ ăn kiêng
(d) Dựa trên hai biến pre.weight và weight6weeks, hãy thực hiện một kiểm định t theo cặp (paired t-test) để đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân nặng?
Phân tích phương sai một nhân tố (one way ANOVA)
(a) Trình bày mô hình phân tích phương sai một nhân tố, phát biểu các giả thiết và đối thuyết và nêu các giả định của mô hình cần kiểm tra
(c) Thực hiện kiểm tra giả định của mô hình (giả định về phân phối chuẩn, tính đồng nhất của phương sai) Gợi ý: có thể sử dụng phân tích thặng dư kết hợp với việc sử dụng đồ thị QQ-plot, kiểm định Shapiro-Wilk để kiểm tra giả định về phân phối chuẩn, kiểm định Levene hay Bartlett để kiểm tra giả định về tính đồng nhất của các phương sai
(c) Thực hiện phân tích ANOVA một nhân tố Trình bảy bảng phân tích phương sai trong báo cáo Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân
(d) Thực hiện các so sánh bội (multiple comparisons) sau phân tích phương sai Phương pháp ăn kiêng nào có hiệu quả tốt nhất trong việc giảm cân?
Phân tích phương sai hai nhân tố (two way ANOVA)
(a) Thực hiện phân tích phương sai hai nhân tố để xem xét liệu chế độ ăn kiêng và giới tính ảnh hưởng như thế nào đến sự giảm cân?
( b) Phân tích sự tương tác giữa chế độ ăn kiêng và giới tính đến sự giảm cân
XỬ LÝ SỐ LIỆU BÀI TẬP 3
1 Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định a Đọ c d ữ li ệ u và tính toán th ố ng kê mô t ả
- Để đọc dữ liệu “Diet.csv” được lưu trong ổ đĩa N dùng lệnh: read.csv(“N:/Diet.csv”).Đặt tên cho dữ liệu là “df” cho dễ sử dụng các thao tác xử lý dữ liệu sau bằng lệnh: df= read.csv(“N:/Diet.csv”)
- Lệnh attach(df): dùng để lấy thông tin từ dữ liệu “df”
(*) Tính thống kê mô tả theo từng nhóm chế độ ăn kiêng
- Thống kê mô tả gồm các đại lượng: trung bình, trung vị, phương sai, giá trị nhỏ nhất (GTNN) và giá trị lớn nhất (GTLN)
- Thống kê mô tả theo nhóm chế độ ăn kiêng 1 (Diet 1)
+ Lọc bảng dữ liệu “df” chỉ gồm chế độ ăn kiêng 1, bảng vừa lọc có tên
“Diet1”: Diet1=subset(df,Diet==1)
+ Để sử dụng thông tin bảng “Diet1” để tính thống kê mô tả dùng lệnh: attach(Diet1)
+ Trung bình: dùng lệnh mean(biến cần tính) mean=c(mean(gender),mean(Age),mean(Height),mean(pre.weight
+ Trung vị: dùng lệnh median(biến cần tính) median=c(median(gender),median(Age),median(Height),median( pre.weight),median(weight6weeks)) + Phương sai: dùng lệnh sd(biến cần tính)
13 sd=c(sd(gender),sd(Age),sd(Height),sd(pre.weight),sd(weigh t6weeks))
+ GTNN: dùng lệnh min(biến cần tính) min=c(min(gender),min(Age),min(Height),min(pre.weight),min
+ GTLN: dùng lệnh max(biến cần tính) max=c(max(gender),max(Age),max(Height),max(pre.weight),max
(weight6weeks)) + Lệnh c(biến) : dùng để xếp các giá trị theo cột
+ Lệnh Diet1 6.9125) nên lấy giá trị gần 6.9125 là 6 để vẽ râu trên; khi đó 9 trở thành giá trị ngoại biên)
- Cách tính giá trị cao và giá trị thấp
+ Khoảng biến thiên tứ phân vị: 𝐼𝑄𝑅 = 𝑄 3 − 𝑄 1
+ Sử dụng chế độ ăn kiêng 1: 25% người giảm được tối đa 1.975 (𝑘𝑔); 75% giảm được tối đa 6 (𝑘𝑔)
+ Sử dụng chế độ ăn kiêng 2: 25% người giảm được tối đa 1.7 (𝑘𝑔); 75% giảm được tối đa 4.5 (𝑘𝑔)
+ Sử dụng chế độ ăn kiêng 3: 25% người giảm được tối đa 3.45 (𝑘𝑔); 75% giảm được tối đa 7 (𝑘𝑔)
- So sánh: Chế độ ăn kiêng 3 có hiệu quả cao hơn 2 chế độ còn lại d Ki ểm đị nh t-test cho pre.weight và weight6weeks
- Trước hết, mô hình giả định của t-test là các biến cần kiểm tra phải tuân theo phân phối chuẩn, do đó ta có thể dùng shapiro.test hoặc QQ-plot để thực hiện kiểm tra phân phối chuẩn
- Ở code, chọn kiểm định shapiro.test cho pre.weight và weight6weeks shapiro.test(pre.weight) shapiro.test(weight6weeks)
- Kết quả: pre.weight tuân theo phân phối chuẩn còn weight6weeks thì không (do giá trị P-value >0.05 thì chấp nhận 𝐻 0 với 𝐻 0 là tuân theo phân phối chuẩn)
- Do đó ta có thể sử dụng kiểm định phi tham số Wilcox để tránh t-test không có ý nghĩa thống kê
17 wilcox.test(pre.weight,weight6weeks,paired = TRUE)
- Wilcox cho thấy p-value rất nhỏ so với 0.05 chứng tỏ việc giảm cân theo chế độ ăn kiêng nói chung có ý nghĩa thống kê
- Sau đó ta có thể sử dụng kiểm định t-test để đem lại kết quả giảm cân rõ ràng hơn: t.test(pre.weight,weight6weeks,paired=TRUE)
+ Chế độ ăn kiêng nói chung làm giảm 3.8 (kg)
+ Với khoảng tin cậy là (3.3; 4.4)
+ Và trị số p-value cũng rất bé so với 0.05 chứng tỏ giá trị này cũng có ý nghĩa thống kê, không khác biệt so với Wilcox
2 Phân tích phương sai một nhân tố (one way ANOVA) a Mô hình phân tích phương sai, giả – đố i thuy ế t và gi ả đị nh mô hình c ầ n ki ể m
(*) Giả – đối thuyết của mô hình
- Ở câu (c) đề bài yêu cầu ta phân tích sự hiệu quả của các chế độ ăn kiêng đối với việc giảm cân, thông qua đó ta sẽ thực hiện kiểm tra số cân giảm trung bình tương ứng đối với ba chế độ có sự khác biệt hay không Ta gọi số cân nặng trung bình tương ứng ba chế độ ăn kiêng là 𝜇 𝑖 với 𝑖 = 1, 2, 3
+ 𝐻 1 : ∃ ít nhất một sự khác biệt giữa các 𝜇 𝑖
(*) Mô hình phân tích phương sai
- Ta gọi, số cân nặng giảm được của người tham gia thử nghiệm 𝑖 sử dụng chế độ ăn kiêng 𝑗 (với 𝑗 = 1, 2, 3) là 𝑥 𝑖𝑗
- Phát biểu mô hình phân tích phương sai như sau: 𝑥 𝑖𝑗 = 𝜇 + 𝛼 𝑗 + 𝜀 𝑖𝑗
Hay có thể cụ thể hơn: 𝑥 𝑖1 = 𝜇 + 𝛼 1 + 𝜀 𝑖1
- Tức là, số cân nặng giảm được của bất kì người tham gia thử nghiệm nào bằng giá trị số cân nặng giảm được trung bình của toàn bộ mẫu (𝜇) cộng/trừ cho ảnh hưởng của chế độ ăn kiêng được đo bằng hệ số ảnh hưởng 𝛼 𝑖 và sai số
𝜀 𝑖𝑗 Một giả định khác được đặt ra là sai số 𝜀 𝑖𝑗 phải tuân theo phân phối chuẩn
(*) Giả định của mô hình cần kiểm tra
- Số cân nặng giảm được theo chế độ ăn kiêng tuân theo phân phối chuẩn
- Phương sai số cân nặng giảm được theo chế độ ăn kiêng là bằng nhau
- Số cân nặng giảm được được lấy độc lập b Th ự c hi ệ n ki ể m tra gi ả đị nh mô hình Để kiểm định phân phối chuẩn cho việc kiểm tra sự khác biệt về cân nặng giảm được tương ứng với 3 chế độ ăn kiêng, ta cần tạo ra 3 giá trị weightloss tương ứng với 3 chế độ khác nhau: wl1