Khi kết quả phân tích ANOVA cho thấy có sự sai khác có ý nghĩa thống kê (P < 0,05) giữa các nghiệm thức thì tiến hành so sánh cặp đôi (pairwise comparison) để tìm sự khác nhau có ý nghĩa giữa các giá trị trung bình cụ thể nào. Với kiểm định 2 phía ta có giả thiết H0: 1 = 2 =... = a và đối thiết H1: 12 ...a ( là trung bình của quần thể ở công thức thứ 1, 2,..., a). Khi kết quả phân tích ANOVA cho thấy P <0,05,
có nghĩa là H0 bị bác bỏ vì có ít nhất hai giá trị trung bình sai khác nhau. Lúc đó đối thiết H1 đƣợc chấp nhận và so sánh cặp đôi sẽ cho phép tìm đƣợc sự khác nhau cụ thể giữa các giá trị trung bình của các nghiệm thức 1, 2,..., a.
Có nhiều phƣơng pháp so sánh cặp đôi khác nhau, trong đó một số phƣơng pháp so sánh cặp đôi thƣờng đƣợc sử dụng nhƣ kiểm định Student-Newman-Keuls, LSD (Least Significant Difference), Tukey, Scheffe, kiểm định đa phạm vi Duncan. Việc lựa chọn kiểm định nào tùy thuộc vào đặc điểm của bộ dữ liệu và yêu cầu về tính chắc chắn của sự sai khác.
Xét một thí nghiệm có một yếu tố thí nghiệm với 4 công thức thí nghiệm (a = 4), sẽ có tổng số 6 lần so sánh cặp. Nếu mỗi lần so sánh một cặp với sai số P = 0,05; sai số của toàn bộ 6 phép thử sẽ có sai số là 1 – (1 – 0,05)6 = 0,24.
Với thí nghiệm có a nghiệm thức và mỗi phép so sánh cặp với sai số là thì a*
là mức ý nghĩa tổng số (overall significance level) hoặc sai số của thí nghiệm (experimental wise error rate) hoặc sai số của toàn bộ các phép thử (family error rate). Sai số của toàn bộ phép thử đƣợc tính toán nhƣ thế nào?
Ví dụ: Nếu sai số của một cặp so sánh là = 0,05 và có a = 4 ta sẽ có m = 6 cặp so sánh. Nhƣ vậy sai số của 6 phép thử sẽ là 1– (1 –)m = 1 – (1 – 0,05)6 = 0,264908. Nghĩa là xác suất bác bỏ giả thiết H0 khi nó đúng là 26,4908% (sai lầm loại I).
Sau đây là một số lƣu ý khi dùng các phƣơng pháp so sánh cặp đôi khác nhau:
Kiểm định LSD – Chỉ sử dụng để so sánh giữa các cặp đã đƣợc thiết kế trƣớc khi thực hiện thí nghiệm. Không phù hợp để:
(1) Kiểm định LSD không phù hợp để so sánh nhiều công thức thí nghiệm vì khi có nhiều nghiệm thức thì số cặp để so sánh sẽ tăng lên rất nhanh (5 nghiệm thức có 10 cặp để so sánh, 10 nghiệm thức có 45 cặp so sánh, 15 nghiệm thức có 105 cặp).
(2) Kiểm định LSD không phù hợp để so sánh số cặp nhiều hơn số bậc tự do của công thức thí nghiệm (a – 1). Ví dụ thí nghiệm có 4 công thức (a = 4) thì số cặp có thể so sánh tối đa là 4 – 1 = 3.
(3) Nếu muốn kết luận có sự sai khác giữa 2 giá trị trung bình (i và j) thì
i - j > LSD, trong đó /2,dfe 1 1
i j
LSD t
n n
. LSD đƣợc xác định dựa vào giá trị t ở mức
/2, bậc tự do của sai số ngẫu nhiên (dfe) và dung lƣợng mẫu (n) ở công thức thứ i và j. (4) LSD bị chỉ trích vì sự kiểm soát không hiệu quả đối với sai lầm loại I.
Kiểm định Tukey – Đƣợc sử dụng để so sánh cặp. Sử dụng Tukey-HSD (Honest Significant Difference) trong trƣờng hợp dung lƣợng mẫu bằng nhau và Tukey-Kramer trong trƣờng hợp dung lƣợng mẫu không bằng nhau. Kiểm định Tukey-HSD đƣợc nhiều phần mềm xử lý số liệu áp dụng cho cả trƣờng hợp dung lƣợng mẫu không bằng nhau vì
vậy nhiều tài liệu không còn phân biệt giữa Tukey-HSD và Tukey-Kramer. Trong phần mềm SAS cũng chỉ có option Tukey, không có lựa chọn cho Tukey-HSD hay Tukey- Kramer. Phép kiểm định Tukey phù hợp trong trƣờng hợp chỉ so sánh giữa các cặp với nhau.
- Giá trị tới hạn đối với kiểm định Tukey-HSD trong trƣờng hợp dung lƣợng mẫu bằng nhau: CRq, ,p dfe MSE n/ ;
- Giá trị tới hạn của kiểm định Tukey-Kramer trong trƣờng hợp dung lƣợng mẫu
không bằng nhau: , , 1 1 2 dfa dfe i j MSE CR q n n .
Trong đó p là giá trị trong bảng Tukey tƣơng ứng ở mức , bậc tự do của nghiệm thức (dfa), bậc tự do sai số ngẫu nhiên (dfe), sai số ngẫu nhiên (MSE) và dung lƣợng mẫu (n) ở nghiệm thức i và j.
Giá trị tới hạn trong kiểm định Tukey với trƣờng hợp dung lƣợng mẫu bằng nhau luôn là một giá trị cố định; ngƣợc lại khi dung lƣợng mẫu không bằng nhau giá trị CR sẽ thay đổi theo từng cặp so sánh.
Tukey là phép thử dùng để so sánh tất cả các cặp có thể trong thí nghiệm, hay đƣợc sử dụng vì sai lầm loại I luôn đƣợc kiểm soát (αFWE <0,05) và độ mạnh của phép thử (1 – ) cao hơn so với các phép thử trong tình huống tƣơng tự. Mặc dù vậy, đối với các thí nghiệm mà không cần so sánh tất cả các cặp có thể trong thí nghiệm thì có thể sử dụng các phép thử khác nhƣ Dunnett hoặc Bonferroni.
Kiểm định Dunnett – Là phép thử có cách tiếp cận tƣơng tự nhƣ đối với trƣờng hợp Tukey. Tuy nhiên phép thử này đƣợc sử dụng trong trƣờng hợp so sánh các công thức thí nghiệm với đối chứng đƣợc so sánh.
Kiểm định Bonferoni – Là phƣơng pháp so sánh đơn giản và kiểm soát tốt sai lầm loại I. Nhƣợc điểm của phƣơng pháp này là tính bảo thủ và sai lầm loại II lớn. Bonferoni luôn kiểm soát đƣợc sai số của thí nghiệm ở mức FWE (thƣờng = 0,05). Sai số của từng phép so sánh cặp sẽ là B = FEW/m Nếu số cặp so sánh (m) lớn thì B
sẽ rất bé. Sự chặt chẽ của phƣơng pháp này chính là điểm yếu vì khi B bé (nếu m tăng lên) thì cơ hội tìm thấy sự sai khác giữa 2 nghiệm thức sẽ giảm xuống mặc dù có sự sai khác thật sự giữa 2 nghiệm thức.
Kiểm định Duncan – Phù hợp để so sánh tất cả các cặp có thể. Nếu đối với phƣơng pháp LSD chỉ có một giá trị LSD duy nhất để so sánh tất cả các cặp thì Duncan lại có từng giá trị DMRT (Duncan’s Multiple Range Test) cụ thể cho từng cặp nhất định. Rp r, ,p v MSE n/ ; trong đó r là giá trị trong bảng Duncan tƣơng ứng ở mức , khoảng cách giữa 2 giá trị trung bình (p), bậc tự do sai số ngẫu nhiên (dfe), sai số ngẫu nhiên (MSE) và dung lƣợng mẫu trong một nghiệm thức (n).
Kiểm định Scheffe: Có 3 bƣớc đƣợc áp dụng để so sánh cặp đôi theo phƣơng pháp của Scheffe gồm:
(1) Xác định giá trị (tuyệt đối) sai khác giữa các nghiệm thức d (2) Xác định giá trị Scheffe (CR) , , 1 1 1 dfa dfe i j CR a F MSE n n ,
Trong đó, a: số công thức thí nghiệm, giá trị F ở α: mức độ sai khác (thƣờng đƣợc chọn 0,05), dfa và dfe là bậc tự do của nghiệm thức (a – 1) và bậc tự do của sai số ngẫu nhiên (n1 + n2 + ... + na – a), MSE: trung bình bình phƣơng của sai số ngẫu nhiên, ni và nj là dung lƣợng mẫu tƣơng ứng ở công thức i và j.
(3) Thể hiện sự sai khác giữa các nghiệm thức. Nếu giá trị chênh lệch giữa 2 nghiệm thức (d) bé hơn giá trị lý thuyết (CR) ta sẽ có kết luận không có sự sai khác giữa 2 nghiệm thức này
Phép kiểm định Tukey đƣợc sử dụng rộng rãi hơn Scheffe. Sử dụng kiểm định Tukey, xác suất bác bỏ H0 cao hơn nhƣng xác suất mắc sai lầm loại I cũng cao hơn. Với Scheffe, xác suất bác bỏ giả thuyết H0 thấp hơn nhƣng xác suất mắc sai lầm cũng thấp hơn.
Nếu kiểm định Tukey chỉ có thể so sánh các cặp với nhau thì kiểm định Scheffe, ngoài so sánh các cặp với nhau còn có thể dùng để so sánh các tƣơng phân (contrast), tức là các tổ hợp tuyến tính của các nghiệm thức.
Phép kiểm định nào phù hợp để so sánh các nghiệm thức trong một thí nghiệm? Bạn đọc có thể tham khảo một số gợi ý sau:
- So sánh tất cả các cặp với nhau (pairwise)
+ Dung lƣợng mẫu bằng nhau giữa các nghiệm thức: kiểm định Tukey
+ Dung lƣợng mẫu không bằng nhau giữa các nghiệm thức: kiểm định Tukey- Kramer or Scheffé
- So sánh một số công thức với nhau (not pairwise) + Với nhóm đối chứng: kiểm định Dunnett
+ Với một số công thức dự kiến trƣớc: kiểm định Bonferroni + Với một số công thức không dự kiến trƣớc: kiểm định Scheffé
Các trƣờng hợp so sánh cặp đôi có thể thấy đƣợc trong các ví dụ phân tích ANOVA với các mô hình khác nhau ở trong mục 2.2.3.