Phân tích phương sai (Analysis of Variance)- 123docz.net

100 L, thay nước % mỗi ngàỵ Tổng cộng có 36 con tơm Sú mẹ và 52 con tôm Mũ ni ñỏ ñược sử dụng cho nghiên cứu nàỵ Khi cho tôm ăn, người nghiên cứu cho vào mỗi bể một miếng mực tươi và một con nghêụ Sau

3.4.5 Phân tích phương sai (Analysis of Variance)

ANOVA ựược coi là công cụ mạnh và ựa năng nhất trong thiết kế thắ nghiệm và xử lý số liệụ ANOVA ựược xây dựng nhằm mục ựắch so sánh trung bình của nhiều hơn 2 tổng thể cùng một lúc. Khả năng ứng dụng của ANOVA là rất lớn. Ta có thể dùng ANOVA ựể xử lý số liệu của các thắ nghiệm thuộc dạng ựiều khiển (manipulative) hay ựo ựạc Ờ mô tả (measurative) hoặc so sánh (comparative) một khi giả thuyết ựược xác lập và mẫu ựược thu ựúng cách. ANOVA cịn có khả năng giúp phát hiện các tương tác hay quá trình sinh học vắ dụ như cạnh tranh, quan hệ giữa vật dữ với con mồi, tái sản xuất, di cư, v.v. Các tương tác hoặc quá trình này thường thay ựổi rất lớn theo cả thời gian và không gian.

Cho tất cả các phân tắch phương sai, giả thuyết chủ ựạo là sẽ có sự khác biệt giữa các giá trị trung bình của một nhóm các tổng thể khác nhau trong phạm vi nghiên cứụ Vì thế H0 sẽ là: ộ1 = ộ2 Ầ = ội Ầ = ộa (=ộ). đối thuyết H1 sẽ ựược chấp nhận nếu có bất cứ sự khác biệt nào trong số các

giá trị trung bình đang ựược xem xét. Lưu ý, giả thuyết H1 khơng nói là tất cả các giá trị trung bình ựều khác nhaụ Nếu giả thuyết H0 bị phản bác (tức là có ắt nhất hai giá trị trung bình khác nhau có ý nghĩa), lúc ựó ta mới tiến hành so sánh các trung bình với nhau ựể xem tổng thể nào khác tổng thể nào bằng post-hoc tests như Turkey, LSD hoặc Duncan. Thắ nghiệm ựơn giản dựa trên H0 này gọi là thắ nghiệm 1 yếu tố (single-factor hoặc one-factor experiment). Mỗi một tổng thể ựại diện cho 1 nghiệm thức chịu tác ựộng của 1 yếu tố ở một mức (level) nhất ựịnh. Các dạng ANOVA phức tạp hơn như two-way ANOVA, nested ANOVA, v.v. sẽ ựược áp dụng cho các thắ nghiệm với thiết kế phức tạp hơn.

để nắm ựược cơ chế xây dựng ANOVA, ựọc Underwood (2005). Về nguyên tắc, ANOVA tách sự khác biệt quan sát ựược giữa các tổng thể ra làm nhiều thành phần nhỏ hơn. Phương trình tuyến tắnh ựược biểu diễn dưới dạng Xij = ội + eij. Trong đó ội là giá trị trung bình của tổng thể từ đó mẫu

i ựược thu; Xij = lần lặp thứ j trong mẫu i. Còn eij một hàm của biến ựộng của tổng thể, nó ước lượng khoảng cách giữa trung bình của mẫu i (kắch thước là j) và trung bình của tổng thể. Nếu giả thuyết H0 sai, các trung bình sẽ khác nhau một giá trị là Ai. Vì thế phương trình tuyến tắnh sẽ là Xij = ội +Ai

+ eij. Bỏ qua các dẫn dắt, lý luận rắc rối về toán học Ờ ta hiểu giá trị tắnh được của trung bình tất cả

các quan sát sẽ là:

X = ộ + A + e

trong ựó X : trung bình của tất cả các quan sát

ộ: trung bình của các mẫu

A : trung bình khác biệt giữa các mẫu của từng tổng thể với trung bình chung e : trung bình của ựộ lệch gây ra do sai số thu mẫu (nếu thu chuẩn sẽ bằng 0).

Như vậy, với giả thuyết H0 thì A sẽ bằng zero (vì các trung bình mẫu ựều bằng trung bình chung). Lúc ựó các trung bình mẫu chỉ khác nhau bởi e tức là sai số do thu mẫu (mặc dù phương pháp thu mẫu ựã ựược chuẩn hoá nhưng tắnh ựại diện của mẫu thu cho tổng thể quan tâm lại không giống nhau). Nếu như việc thu mẫu khơng có sai số thì e sẽ là zerọ

Nếu số lần lặp hay kắch thước mẫu (n) của các nghiệm thức bằng nhau thì gọi là cân bằng (balanced design). Việc sử dụng ANOVA ựể phân tắch khơng gặp rắc rối gì cả. Khi số lần lặp khơng bằng nhau giữa các nghiệm thức thì gọi là bất cân bằng (unbalanced design). Việc tắnh tốn sẽ phức tạp hơn nhiều khi thực hiện kiểm ựịnh này và ựộ chắnh xác sẽ giảm. Tuy nhiên, trong thực tế ta hay gặp trường hợp này vì vật làm thắ nghiệm có thể chết trước khi kết thúc thắ nghiệm hoặc trục trặc xảy ra trong quá trình làm thắ nghiệm bác bỏ tắnh hợp lệ của một số ựơn vị thắ nghiệm. Tuy nhiên, phải tìm mọi cách ựể tránh trường hợp kắch thước mẫu lệch quá nhiều vì sẽ ảnh hưởng ựến việc ước lượng mức ựộ biến ựộng giữa các tổng thể và trong một tổng thể. Giả ựịnh của ANOVA là mức ựộ biến ựộng của các tổng thể là như nhaụ Khi thực hiện một thắ nghiệm có 5 nghiệm thức mà số lần lặp (n) của từng nghiệm thức từ 1 ựến 5 là: 5, 5, 10, 10 và 20 thì so sánh giữa nghiệm thức 3, 4 và 5 hoặc 1,2 với 3 sẽ chắnh xác hơn là giữa nghiệm thức 1, 2 với 3 hoặc 5. Cốt lõi của thiết kế thắ nghiệm nằm ở kắch thước mẫu và ựảm bảo mẫu ựược thu một cách ựộc lập. Kắch thước mẫu càng lớn càng tốt. Kắch thước mẫu nhỏ, độ chắnh xác thấp và gặp nhiều rắc rối trong phân tắch số liệu và kết luận.

Hiện nay việc kiểm tra các giả ựịnh của ANOVA và tắnh tốn trở nên dễ dàng với sự trợ giúp của các phần mềm thống kê. Các giả ựịnh của ANOVA bao gồm:

(1) Số liệu phải ựược thu một cách ựộc lập (independent data)

(2) Phương sai của các tổng thể phải ựồng nhất (homogeneity of variance) (3) Số liệu phải có phân phối chuẩn (normal distribution).

Theo thứ tự này, giả ựịnh một là quan trọng nhất và tuyệt đối khơng ựược vi phạm. Giả ựịnh này phụ thuộc vào cách thức mà người nghiên cứu thu thập số liệụ Trong hai giả định cịn lại thì giả ựịnh 2 quan trọng hơn giả ựịnh 3 nhiềụ Nếu số liệu thực khơng có phân phối chuẩn ta có thể chuyển dạng để chúng có phân phối chuẩn (xem 3.5.2). Phân tắch phương sai rất mạnh và không bị ảnh hưởng nhiều bởi giả ựịnh 3 ngay cả khi số nghiệm thức và số lần lặp lại khơng lớn. Cịn nếu thắ nghiệm có qui mơ lớn, số lần lặp lại cao, thiết kế cân đối thì khơng có gì ựáng ngạị Thơng thường các số liệu có phân phối khơng chuẩn là vì mẫu ựược thu từ quần thể có phân phối theo dạng ựa ựỉnh (multimodal). Việc cần thiết là phải tách phân phối này ra làm nhiều phần và tiến hành nghiên cứu từng phần 1. đó chắnh là lý do trước khi nghiên cứu, bao giờ cũng phải tìm hiểu kỹ về ựối tượng và dự tắnh các tình huống có thể xảy ra ựể có hướng giải quyết.

Trong thực tế có khá nhiều nghiên cứu khơng đảm bảo ựược giả ựịnh 2. Các yếu tố như kinh phắ, hạn chế về thời gian công sức là những nguyên nhân chắnh khiến một số người nghiên cứu bỏ qua giả ựịnh hết sức quan trọng nàỵ Vấn đề khơng ựơn giản là phân tắch phương sai trở nên không hợp lệ mà ựề tài nghiên cứu cũng sẽ khơng có ý nghĩa vì phương pháp thu mẫu khơng hợp lý. Theo Underwood (2005) có 4 dạng số liệu không ựộc lập gây ra do

ạ tương quan thuận trong cùng mẫu, b. tương quan nghịch trong cùng mẫu, c. tương quan nghịch giữa các mẫu và d. tương quan thuận giữa các mẫụ

Với số liệu thuộc dạng thứ (i) và (iii) xác suất ựể bác bỏ giả thuyết ựúng H0 cao hơn rất nhiều, có thể tới 48% cho dạng (i) và 18% cho dạng (iii). Xác suất ựể bác bỏ một giả thuyết ựúng (sai lầm loại I) ựược qui ước ở mức 5%. Khi số liệu thu ựược thuộc dạng (ii) và (iv), xác suất mắc phải sai lầm loại II (tức là chấp nhận giả thuyết sai H0) sẽ lớn hơn nhiềụ

đỌC THÊM: Biện pháp tránh thu số liệu khơng độc lập Số liệu gọi là ựộc lập nếu việc ựo ựạc giá trị này khơng có liên quan hay ảnh hưởng ựến việc ựo ựạc một giá trị khác. để tránh thu số liệu khơng độc lập ta nên:

Ớ Tìm hiểu kỹ về ựối tượng nghiên cứụ Luôn luôn ghi nhớ trong ựầu về nguy cơ thu mẫu khơng độc lập. Không sử dụng một ựơn vị thắ nghiệm lặp ựi lặp lại cho nhiều nghiệm thức.

Ớ Trong một số trường hợp, liên quan giữa các ựơn vị thắ nghiệm là ựiều không thể tránh khỏị Vắ dụ như tôm mẹ thu từ vùng biển Vũng Tàu, cho dù có được phân bổ vào nhiều nghiệm thức khác nhau chúng ựều chịu ảnh hưởng của các chất thải dầu khắ trong vùng phân bố, vì thế có liên quan ựến nhaụ Khi đó, kết luận chỉ có thể áp dụng cho tôm ở Vũng Tàu mà thôị Không ựúng với tôm từ chỗ khác (chú ý hạn chế phạm vi kết luận). Muốn phát hiện ra yếu tố kết nối các ựơn vị thắ nghiệm, ta phải tiến hành làm thắ nghiệm so sánh với các khu vực khác (giả thuyết H0 là khơng có sự khác biệt) chứ khơng nên dùng kết quả ựể kết luận cho tôm ở Khánh Hòa hay Kiên Giang.

Ớ Nếu chưa biết nhiều về ựối tượng thì có thể làm thắ nghiệm thắ ựiểm ựể tìm hiểu thêm trước khi tiến hành nghiên cứụ

để kiểm tra tắnh đồng nhất của phương sai (giả ựịnh 2) ta có thể dùng kiểm ựịnh BartlettỖs. Tuy nhiên cần lưu ý là kiểm ựịnh này rất nhạy với các số liệu khơng có phân phối chuẩn (nó sẽ báo kết quả là phương sai khơng đồng nhất). Vì thế ta nên kiểm tra giả ựịnh 3 trước và chuyển dạng nếu cần thiết ựể số liệu có phân phối chuẩn trước khi thực hiện kiểm ựịnh BartlettỖs. Theo Underwood (2005) thì nên sử dụng kiểm ựịnh Cochran. Kiểm ựịnh này dùng tỉ lệ giữa phương sai lớn nhất với tổng phương sai: CochranỖs C = si2max / ∑ = a i i s 1 2

với ựiều kiện là kắch thước mẫu phải như nhau, ựộ tự do là (n Ờ 1). Cả 2 kiểm ựịnh này đều có trong các phần mềm thống kê. Nếu kiểm ựịnh có ý nghĩa (có nghĩa là phương sai khơng ựồng nhất thì khơng nên dùng ANOVA ựể phân tắch số liệu).

Sau khi ựã kiểm tra các giả ựịnh trên, ta có thể yên tâm thực hiện phân tắch phương saị Ngoài 3 giả ựịnh ựã ựề cập, cịn có một giả ựịnh chung nữa cho ANOVA trong một số trường hợp khi người làm nghiên cứu muốn so sánh mức ựộ ảnh hưởng của các nghiệm thức khác nhaụ Giả ựịnh chung này khơng đề cập ựến tắnh hợp lý của kiểm ựịnh ANOVA mà ựề cập ựến tắnh hợp lý của kết luận rút ra từ kết quả của kiểm ựịnh (Underwood 2005). Giả sử nếu ta so sánh mức ựộ ảnh hưởng của 4 nghiệm thức bằng cách xem xét khác biệt giữa trung bình của từng nghiệm thức với trung bình chung của tất cả các nghiệm thức thì sẽ saị Bởi vì sai số trong thu mẫu và nghiên cứu có thể làm sai lệch trung bình chung. Trong trường hợp này, một nghiệm thức thực sự có tác động tốt có thể biến thành xấu nếu hiệu của trung bình nghiệm thức với trung bình trung là âm. để so sánh ựược hợp lý, ta phải có một nghiệm thức ựối chứng (khơng chịu tác ựộng của yếu tố nghiên cứu) và so sánh các nghiệm thức với nó. Vắ dụ ta làm thử nghiệm nuôi cá Bớp với 4 loại thức ăn viên. Nếu chỉ thiết kế 4 nghiệm thức ta sẽ so sánh ựược loại nào trong 4 loại trên là tốt nhất nhưng không kết luận ựược hiệu quả của từng loại thức ăn viên. để làm ựược ựiều này ta phải có một nghiệm thức ựối chứng (thức ăn thông dụng để ni cá Bớp) là cho cá ăn bằng cá tạp và so 4 nghiệm thức trên với ựối chứng này về tốc ựộ tăng trưởng, mức ựộ phân ựàn, tỉ lệ sống hay hàm lượng lipid trong thịt cá, v.v.

Phân tích phương sai (Analysis of Variance)

Xây dựng mơ hình lý thuyết

Xây dựng mô hình lý thuyết