Sau khi lập trình đầy đủ số liệu để tạo file mẫu sample, xử lý bằng lệnh RUN với thời gian rất nhanh, chỉ một vài giây cho tất cả các cách xử lý 1 lần như: phân tích phương sai, xếp nhóm
Trang 2Dữ liệu lập trình trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9 hàng với 24
từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file word, excel, là dạng lưu trữ số liệu thống kê phổ biến nhất Ngoài ra có thể sử dụng số liệu lưu trữ từ file text, file của SAS để phân tích thống kê Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã hóa bằng số hay tên giống cây trồng, tên phương pháp, xử lý nhiều chỉ tiêu rất thuận tiện trong file mẫu word
Sau khi lập trình đầy đủ số liệu để tạo file mẫu (sample), xử lý bằng lệnh RUN với thời gian rất nhanh, chỉ một vài giây cho tất cả các cách xử lý 1 lần như: phân tích phương sai, xếp nhóm các nghiệm thức của các yếu tố, tính ma trận tương tác các yếu tố, vẽ đồ thị… Kết quả phân tích được giải thích rất rõ ràng về so sánh các nghiệm thức và xếp nhóm (grouping) theo
ký tự A, B cho yếu tố có hai nghiệm thức và A, B, C, D, E cho yếu tố có nhiều nghiệm thức Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều thể hiện rõ trong bảng ANOVA.
Quyển sách này trình bày một số phương pháp xử lý số liệu thí nghiệm thông dụng trong ngành nông sinh học liên quan đến khoa học cây trồng, căn cứ trên các bài tập mẫu bao gồm các phương thức xử lý ANOVA, tương quan, hồi qui thực hiện cho thí nghiệm phổ biến nhất Các bài tập mẫu thống kê về các lĩnh vực khác như y học, hóa học, xã hội, cơ học … có thể tham khảo trong chương trình của phần mềm SAS (phần Help > Using this windows > Sample SAS Programs and Applications) Ngoài ra SAS có thể xử lý số liệu với nhiều lệnh, bắt đầu từ thanh công cụ với lệnh Solutions > Analysis > Analyst > Open với file Excel, file SAS> Statistics > ANOVA
Rất mong được sự góp ý để quyển sách được sử dụng thuận tiện hơn
Các góp ý xin gửi về: PGS.TS Lê Quang Hưng
Khoa Nông học, Đại học Nông Lâm TP HCM Liên hệ E-mail: lqlqhung@yahoo.com
Trân trọng,
Tác giả Update: 29-7-09, 86 tr
Mục lục
Chương 1 PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION)
1
Trang 31.3 Tạo file word mẫu (sample) 4
1.7 Phương thức tạo file mẫu cho thí nghiệm hai yếu tố 10
Chương 2 THÍ NGHIỆM BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN (Completely Randomized Design, CRD)
Chương 3 THÍ NGHIỆM KHỐI ĐẦY ĐỦ NGẪU NHIÊN (Randomized Complete Block Design, RCBD)
TƯƠNG QUAN VÀ HỒI QUI
Trang 4Mục tiêu của phân tích ANOVA (ANalysis Of VAriance) là xác định các nghiệm thức có ý nghĩa khi giá trị tính F nhỏ hơn mức xác suất (probability) p < 0,05 hay p < 0,01 là mức thường dùng trong nông nghiệp, sinh học Sau đó các nghiệm thức được xếp nhóm (grouping, SAS, 2004; homogeneous grouping: nhóm tương đồng (NRCS, 2007) với các ký tự A, B cho hai nghiệm thức và A, B, C, D, E cho nhiều nghiệm thức là để so sánh sai khác và chọn được nghiệm thức phù hợp của thí nghiệm Đối với thí nghiệm nhiều yếu tố, cần có so sánh tương tác (interaction) của các yếu tố Các mẫu bài tập được tạo ra từ file excel và word để dễ sử dụng và lưu số liệu ở dạng doc, xls, sas
1.2 Nguồn số liệu theo dõi thí nghiệm:
Số liệu được thu thập, xử lý và lưu từ file excel tùy theo kiểu bố trí thí nghiệm Thí dụ so sánh năng suất (kg/ô 20 m2) năm giống cải ngọt lần lượt là G22, Z15, X31, K14, D25, có thể ghi bằng số nghiệm thức là 1, 2 , 3, 4, 5; hoặc ghi tên giống; được bố trí thí nghiệm kiểu khối đầy đủ hoàn toàn ngẫu nhiên (Randomized Complete Block Design) bốn khối (I, II, III, IV) Năm nghiệm thức thí nghiệm được ghi bằng tên giống trong file excel, khối ghi trước, nghiệm thức ghi sau
Sơ đồ thí nghiệm Chiều biến thiên
Cách ghi số liệu lưu trong file excel
khoi nthuc nsuat
Trang 5- Tạo file mẫu word
- Xử lý với chương trình thống kê SAS
- Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì chọn xếp nhóm cho phù hợp Ghi ký tự vào các trị trung bình của nghiệm thức để xếp nhóm Nếu p > 0,05 các nghiệm thức không khác nhau (ns, non- significant)
- Ghi LSD (khác biệt có nghĩa nhỏ nhất), xác suất p và CV%
1.3 Tạo file word mẫu (sample): file mẫu là file thông dụng để xử lý bằng chương trình SAS với các lệnh (command) ANOVA và xếp nhóm File word mẫu được sử dụng và xử
lý cho nhiều file và nhiều chỉ tiêu có thể một lần trong SAS Có thể sử dụng file excel để tạo file mẫu File word mẫu gồm ba phần: (1) nhập lệnh khai biến, (2) nhập số liệu từ excel (hoặc trực tiếp, từ các file khác) và (3) nhập lệnh xử lý ANOVA và xếp nhóm.
Thí nghiệm kiểu khối đầy đủ ngẫu nhiên đơn yếu tố, theo dõi năng suất của năm giống cải ngọt (kg/ô 20 m2), trồng trên bốn khối Tổng số ô là 4 x 5 = 20 ô
Các lệnh xử lý như sau:
- DATA: tên file, ghi từ một đến nhiều chữ như DATA; hay DATA CAI NGOT;
- INPUT: chọn ký hiệu cho input, chỉ ghi một ký tự hay một từ, tối đa là tám ký tự Nếu nhiều
từ cần có gạch nối dài, hoặc xác định độ dài length$10 (mười ký tự) Nếu dùng bảng hàng ngang có các biến nối tiếp, ghi:
INPUT T Y@@;
Datalines; (thay cho cards;)
* Cách 1: K (Khối), T (nghiệm thức), Y (năng suất), có cách một khoảng hoặc dấu $ như
INPUT K T Y ; hay INPUT K $ T $ Y ;
* Cách 2: ghi thẳng một từ cho một biến số: INPUT KHOI NTHUC NSUAT ;
riêng PROC GLM; được sử dụng kết hợp tính ANOVA và so sánh tương tác các yếu tố
- CLASS: xếp loại các biến dùng phân tích, gồm có khối (K) và nghiệm thức (T),
CLASS K T;
- MODEL: mô hình phân tích năng suất (Y) = khối (K) và nghiệm thức (T)
MODEL Y = K T;
- MEANS: liệt kê các giá trị trung bình nghiệm thức (T) MEANS T;
- LSD ALPHA = 0.01: xếp nhóm các giá trị trung bình nghiệm thức ở mức alpha = 0.01 Có thể chọn DUNCAN khi trên năm giá trị trung bình nghiệm thức Alpha chọn ở mức alpha = 0.05 hay alpha = 0.01 Nếu ghi LSD; mặc định xếp nhóm ở mức p = 0.05 Nếu muốn chọn cả hai, ghi đồng thời: MEANS T / LSD ALPHA = 0.05;
Trang 6Lưu ý: sau mỗi lệnh, kết thúc bằng dấu ;
Trình tự nhập số liệu được sử dụng ký tự đơn giản và giải thích như sau:
DATA; (DATA: tên dữ liệu, ghi thêm tên và kết thúc bằng dấu ;)
INPUT K $ T $ Y; (INPUT: nhập biến và có ký tự $ cách khoảng và dấu;) CARDS; (CARDS: lệnh nhập số liệu, kết thúc bằng dấu;)
(Copy và paste chỉ có phần số từ file excel trên)
; (dấu ; cho biết đã ghi xong số liệu)
PROC ANOVA; (Xử lý ANOVA)
CLASS K T; (Xếp loại các biến dùng xử lý)
MODEL Y = K T; (Mô hình biến phụ thuộc bảng ANOVA)
MEANS T / LSD ALPHA=0.01; (Xếp hạng các trung bình theo alpha)
TITLE ‘NANG SUAT’; (Đặt tên của chỉ tiêu theo dõi)
RUN; (Lệnh xử lý)
Tóm lại các lệnh (command, code) phân tích thống kê cho cách 1 như sau:
DATA;
INPUT K $ T $ Y;
CARDS;
……Số liệu từ bảng excel ;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.0 5 ;
TITLE ‘NANG SUAT’;
RUN; Input cách 2 như sau : DATA;
INPUT KHOI NTHUC NSUAT;
CARDS; ……
;
PROC ANOVA;
CLASS KHOI NTHUC;
MODEL NSUAT = KHOI NTHUC;
MEANS NTHUC / LSD ALPHA=0.05;
TITLE ‘NANG SUAT’;
RUN;
5
Trang 7* Ghi chú về xếp hạng các nghiệm thức:
- Thí nghiệm từ hai đến năm nghiệm thức chọn so sánh Fisher’s LSD test, ghi:
MEANS NTHUC / LSD; kết quả xếp nhóm mặc định với APHA = 0.05; Least Significant Difference (sai biệt nhỏ nhất có nghĩa) Xếp nhóm ở mức khác biệt p = 0,01 nếu ghi ALPHA = 0.01
- Thí nghiệm từ sáu nghiệm thức trở lên chọn Duncan test, ghi:
MEANS NTHUC / DUNCAN; kết quả xếp nhóm mặc định với APHA = 0.05 (Trịnh Công Thành, 2003) Trắc nghiệm đa đoạn Duncan (Duncan’s Multiple Range Test) xếp nhóm ở mức khác biệt p = 0,01 nếu ghi ALPHA = 0.01 Duncan’s Multiple Range Test xếp nhóm toàn thí nghiệm khi trên bốn nghiệm thức.
1.4 Xử lý số liệu với SAS
- Mở chương trình (ex: SAS v.8, v.9), giao diện có các phần cho xử lý thống kê như Program editor, Log, Ouput ở thanh bar phía dưới cùng Chọn (click) phần Program editor.
Hình 1.1 Giao diện của SAS version 8
- Copy file word mẫu và patse vào phần Program editor
- Có thể mở trực tiếp dạng file lưu từ sas hoặc word txt
6
Trang 8Hình 1.2 Program Editor để chuyển số liệu từ file word mẫu
File word mẫu để phân tích ANOVA, khối đầy đủ ngẫu nhiên, năm nghiệm thức, bốn khối.
Ký hiệu: K (Khối), T (nghiệm thức), Y (năng suất cải ngọt kg/ô 20 m2) Trình tự xử lý:
- Chuyển file mẫu (copy và paste) từ DATA đến RUN; vào Program Editor
Trang 9MODEL Y = K T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘NANG SUAT THUC THU’;
RUN;
thay mức alpha=0.05 hay alpha=0.01 sau khi đã xem kết quả bảng ANOVA, và tựa đề (title) khi nhập số cho các chỉ tiêu khác.
NANG SUAT THUC THU The ANOVA Procedure
Class Level Information
Class Levels Values
K 4 1 2 3 4
T 5 D25 G22 K14 X31 Z15
Number of observations 20
NANG SUAT THUC THU
The ANOVA Procedure
NANG SUAT THUC THU
The ANOVA Procedure
t Tests (LSD) for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 2.748135
Critical Value of t 3.05454
Least Significant Difference 3.5806
Means with the same letter are not significantly different
Trang 10C
D C 8.280 4 G22
D
D 7.158 4 X31
1 5 Giải thích kết quả: Xem bảng ANOVA
The ANOVA Procedure
Significant Difference = 3,5806 (t Tests (LSD) for NSUAT).
1.6 Trình bày kết quả:
Bảng 1.1 Năng suất thực thu của năm giống cải ngọt
Giống Năng suất (kg/ô 20m2 )
Ghi chú: Các trung bình cùng ký tự không khác biệt có nghĩa ở mức xác suất p< 0,01
Giải thích: xếp nhóm theo ký tự có thể chia nhóm khác biệt trung bình các nghiệm thức theo thứ tự từ cao đến thấp bốn nhóm là A , B, C và D Năng suất cao nhất là giống D25, tiếp theo
là giống X15, thấp nhất là giống X31
1.7 Phương thức tạo file mẫu cho thí nghiệm hai yếu tố
Thí nghiệm khảo sát năng suất đậu (kg/ô) với hai lượng phân lân (P1 = không bón lân, P2 = 25 kg/ha) và ba khoảng cách hàng (S1 = 45 cm, S2 = 90 cm, S3 = 135 cm) Ký hiệu K (khối I, II, III), P (lân), S (khoảng cách hàng), Y (năng suất/ô), phỏng theo bài tập trang 86 (Petersen, 1994)
Sơ đồ thí nghiệm
60 S1 P1 65 S3 P2 66 S3 P1 59 S1 P2 56 S2 P2 62
9
Trang 11Trình tự phân tích: a Tạo file mẫu xử lý ANOVA và xếp nhóm nghiệm thức S và P
b Tính xác suất p so sánh tương tác hai yếu tố S*P theo Dunnett test
c Ghi kết quả phân tích vào bảng.
1.7 1 Tạo file mẫu tính tương tác, không xếp nhóm các nghiệm thức trung bình của S
MEAN S*P / DUNCAN ALPHA=0.01;
LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
RUN;
1.7 2 Tạo file mẫu tính tương tác, xếp nhóm các nghiệm thức trung bình của S và P.
10
Trang 12Ghi thêm cột SP (yếu tố tương tác khoảng cách hàng và lượng phân lân để xếp nhóm khi tương tác S*P có nghĩa) Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo Dunnett test, xếp nhóm các trung bình nghiệm thức của các yếu tố như sau:
MEAN S*P / DUNCAN ALPHA=0.01;
LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
Class Level Information
Class Levels Values
Trang 13Error Degrees of Freedom 10
Error Mean Square 6.733333
Critical Value of t 3.16927
Least Significant Difference 4.748
Means with the same letter are not significantly different
Error Degrees of Freedom 10
Error Mean Square 6.733333
Critical Value of t 3.16927
Least Significant Difference 3.8768
Means with the same letter are not significantly different
Trang 14Least Squares Means
Adjustment for Multiple Comparisons: Dunnett
Phương pháp so sánh Dunnett test cho thấy: các tương tác S1P1, S2P1, S3P1 và S3P2 có ảnh hưởng như nhau đến năng suất (p từ 0,2208 đến 0,8899) Tương tác ảnh hưởng độc lập là S1P2 (p = 0,0013) và S2P2 (p = 0,0301)
2 YEU TO
The GLM Procedure
Class Level Information
Class Levels Values
Trang 15Source DF Type III SS Mean Square F Value Pr > F
K 2 417.3333333 208.6666667 30.99 <.0001
SP 5 267.3333333 53.4666667 7.94 0.0029
2 YEU TO
The GLM Procedure
Duncan's Multiple Range Test for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 6.733333
Number of Means 2 3 4 5 6
Critical Range 6.714 6.997 7.175 7.298 7.387
Means with the same letter are not significantly different
Duncan Grouping Mean N SP
Bảng 1.2 Năng suất đậu (kg/ô) do ảnh hưởng khoảng cách hàng và lượng lân
Yếu tố lân Yếu tố khoảng cách hàng Trung bình yếu tố lân
S1 = 45 cm S2 = 90 cm S3 = 135 cm P1= 0 kg/ha 59,33 a 57,67 a 55,00 a 57,33 A
tự là A và B trong đó năng suất cao nhất 59,33 kg/ô
- Có tương tác của khoảng cách hàng và lân S*P đến năng suất (F = 10,99 với p = 0,003) Năng suất ô chịu tác động của lân và khác biệt có nghĩa ở hai lượng lân
- So sánh giá trị xác suất p các nghiệm thức trung bình tương tác theo Dunnett cho thấy tương tác khoảng cách hàng với bón lân cho năng suất cao nhất là 59,33 kg/ô của tương tác S1P1 (khoảng cách hàng 45 cm và không bón lân) có ảnh hưởng giống như S2P1(khoảng cách hàng
90 cm và không bón lân) có p = 0,8899, giống như S3P1 (khoảng cách hàng 135 cm và không
14
Trang 16bón lân) với p = 0,2208 và khoảng cách 135 cm với lượng lân 25 kg/ha (S3P2 với p = 0,8899) Tương tác ảnh hưởng độc lập là bón lân với khoảng cách hàng 45 cm (S1P2 với p = 0,0013) và
90 cm (S2P2 với p = 0,0301).
Ghi chú : phân tích tương tác các giá trị dựa trên số trung bình bình phương nhỏ nhất:
- Khác biệt means và lsmeans:
Số trung bình (means) = tổng số các giá trị / số giá trị (theo số học).
Số trung bình bình phương nhỏ nhất (lsmeans) = tổng số các giá trị kết hợp tuyến
tính / số giá trị, được dùng để so sánh tương tác A*B, A*B*C
Nếu số giá trị đầy đủ trong bố trí thí nghiệm nhiều yếu tố, số trung bình bằng với số trung bình bình phương nhỏ nhất.
Nếu thiếu một số giá trị, số trung bình khác với số trung bình bình phương nhỏ nhất Xem số liệu bảng sau:
Số trung bình sẽ là:
Số trung bình bình phương nhỏ nhất:
Nhưng thiếu 1 số như bảng sau:
Số trung bình = (4 + 6 + 2 + + 4 + 2 + 3)/8 = 3,625.
Trái lại, số trung bình bình phương nhỏ nhất = (4 + 4 + 3)/3 = 3,667.
- Nếu quan tâm đến so sánh nhiều giá trị độc lập và không quan tâm đến nhiều tương tác,
sử dụng t test lặp lại với LSD
- Nếu quan tâm đến so sánh tất cả các giá trị từng cặp, áp dụng Tukey test hoặc so sánh tất cả giá trị với một giá trị đối chứng thì sử dụng Dunnett test để có tương tác rõ nhất (SAS, 2004)
- So sánh giá trị p điều chỉnh giải thích tương tác của A*B , căn cứ trên giả thiết căn bản là
nhiều trị số với nhau, giá trị p điều chỉnh (adjusted p-value) là giá trị mức sai số chung nhỏ nhất (FWE, Familywise Error Rate) để bác bỏ giả thiết trên (Westfall, 2008)
15
Trang 17Giải thích so sánh nhiều giá trị:
- Khi so sánh, nếu không bác bỏ giả thiết null H0: các trị số giống nhau
- Duncan multiple range test (DMRT) sử dụng so sánh t test cho nhiều giá trị trung bình
1.8 Ý nghĩa các từ và chuyển đổi giá trị
- SD (Standard deviation, độ lệch chuẩn): mức độ biến động của dãy A so với dãy B, mặc dù hai giá trị trung bình của hai dãy bằng nhau.
- CV (Coefficience of variance, hệ số biến thiên): so sánh mức biến động của nhiều mẫu.
- SE (Standard error, sai số chuẩn): sai số của tổng các giá trị.
- Chia tổ: chia nhỏ thành tổ khi có số liệu thu thập lớn Áp dụng công thức K = 5log n.
Ex: có 50 cây, K = 5log 50 = 8,49; chọn tám tổ Khoảng cách tổ C = (Xmax-Xmin)/K
Tổ một: 3- 4,4 ; tổ hai: 4,5-5,9 ; tổ ba: 6 -7,4 … (Phạm Chí Thành, 1976).
Chuyển đổi giá trị (transformation) rất cần để so sánh khác biệt các giá trị trung bình, vì không chuyển giá trị, thống kê không khác biệt với LSD lớn, nhưng chuyển đổi giá trị thì thống kê có khác biệt có nghĩa vì LSD nhỏ (Clewer, 2001)
- Số liệu là đơn vị số x từ 1 đến 35, chuyển sang yi = ln (xi), (Clewer, 2001).
- Số liệu là đơn vị số có x = 0,02 cộng 1 vào các trị số và đổi sang yi = log (xi+1), lưu ý phải
có giá trị giả định lớn hơn 1 mới tính log được Vì có số “0” nên cần giả định (assumption) để tính số hợp lý (Phạm Chí Thành, 1976 và Clewer, 2001)
Trọng lượng khô của lúa cỏ (red rice) trong thí nghiệm ba nghiệm thức từ 0,08 đến 32 g/m2, được đổi số liệu sang log (x+1) trước khi thống kê so sánh LSD (Catala, 1993)
- số liệu là % với trị số x từ 0 - 30 ( sau khi cộng thêm 0,5 hoặc 1 cho các giá trị (Phạm Chí
Chuyển đổi số liệu sang √(x + 0,5) đối với chỉ số bệnh từ 1,05 đến 2,98 theo thí nghiệm của Taa và ctv (2002).
- số liệu là % với trị số x từ 40 - 70% không cần chuyển đổi vì kết quả thống kê không khác
giữa số nguyên và số liệu chuyển đổi.
- số liệu là % với trị số x từ 1 đến 100, chuyển sang góc (angular) yi = arcsin√ % , thường gặp trong việc tính tỉ lệ nảy mầm, tỉ lệ ra rễ với tác động của chất điều hòa sinh trưởng, tỉ lệ nấm bệnh
Thí nghiệm khảo sát tỉ lệ nảy mầm của hạt Echinacea purpurea từ 4 đến 82% được chuyển sang góc arcsin√ % ( Qu và ctv, 2005).
Lưu ý chuyển đổi trong excel:
Trang 18- Ô cơ sở cho cây nhỏ: 20-40 cây, cà phê: 4 cây, cây ăn quả nhỏ: 10-20 cây, rau: 20-30 m2, thuốc BVTV: 10 m2 Thí nghiệm sản xuất: 100 m2 Sai số (e) cho 1 m2 = 19,6%, 10 m2 = 7,5%,
20 m2 = 2,9%, 50 m2 = 1,3% (Phạm Chí Thành, 1976).
- Lặp lại (n): bốn lần là phù hợp, tối thiểu là ba lần, cần xác định n = ((V%)/(e%))2 Thí nghiệm năm loại đất cho năng suất cải có sai số chuẩn (SE) của trị số trung bình với ba lần lặp lại là 2,83; bốn lần lặp lại là 2,45 và năm lần lặp lại là 2,20 (Petersen, 1994).
Chương 2
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM BỐ TRÍ
HOÀN TOÀN NGẪU NHIÊN (Completely Randomized Design, CRD)
2.1 Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố
Áp dụng trong điều kiện đồng nhất về môi trường, độ dốc, ánh sáng, độ phì nhiêu của đất, bố trí trong phòng thí nghiệm
Tiện lợi của phương pháp này là các nghiệm thức có số lần lặp lại khác nhau, nhưng hạn chế là
ít chính xác khi đơn vị thí nghiệm trong nghiệm thức không đồng nhất Để khắc phục điều này, cần tăng nhiều số lần lặp lại và kích thước ô phải lớn, do đó tốn kém hơn (Clewer, 2001)
Thí nghiệm dòng vi khuẩn ảnh hưởng hàm lượng đạm trên cỏ xa trục thảo.
trifolii với hỗn hợp năm dòng vi khuẩn Rhizobium meliloti (phỏng theo bài tập 2, phương pháp
so sánh nhiều cách xếp hạng, xếp số theo hàng ngang với cách nhập số liệu là datalines, SAS, 1999) Tương tự, xếp số liệu theo hàng dọc cho kết quả xử lý như nhau.
data;
input T $ N @@;
datalines;
3DOK5 17.7 3DOK5 24.8 3DOK5 27.9 3DOK5 25.2 3DOK5 24.3
3DOK4 17 3DOK4 19.4 3DOK4 9.1 3DOK4 11.9 3DOK4 15.8
3DOK7 20.7 3DOK7 21 3DOK7 20.5 3DOK7 18.8 3DOK7 18.6
3DOK13 14.3 3DOK13 14.4 3DOK13 11.8 3DOK13 11.6 3DOK13 14.2
COMPOS 17.3 COMPOS 19.4 COMPOS 19.1 COMPOS 16.9 COMPOS 20.8
Trang 19The ANOVA Procedure
Class Level Information
Class Levels Values
T 6 3DOK1 3DOK13 3DOK4 3DOK5 3DOK7 COMPOS
The ANOVA Procedure
Tukey's Studentized Range (HSD) Test for N
NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type
II error rate than REGWQ
Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867
Critical Value of Studentized Range 4.37265
Minimum Significant Difference 6.7142
Means with the same letter are not significantly different
Tukey Grouping Mean N T
The ANOVA Procedure
Waller-Duncan K-ratio t Test for N
NOTE: This test minimizes the Bayes risk under additive loss and certain other assumptions
18
Trang 20Kratio 100
Error Degrees of Freedom 24
Error Mean Square 11.78867
F Value 14.37
Critical Value of t 1.91873
Minimum Significant Difference 4.1665
Means with the same letter are not significantly different
Waller Grouping Mean N T
The ANOVA Procedure
Duncan's Multiple Range Test for N
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867
Number of Means 2 3 4 5 6
Critical Range 4.482 4.707 4.852 4.954 5.031
Means with the same letter are not significantly different
Duncan Grouping Mean N T
Error Degrees of Freedom 24
Error Mean Square 11.78867
Critical Value of t 2.06390
Least Significant Difference 4.4818
Means with the same letter are not significantly different
19
Trang 21t Tests (LSD) for Nitrogen Least Significant Difference 4,4818
khi có nhiều so sánh các nghiệm thức
Giải thích: tổng độ tự do của thí nghiệm là 6 - 1 = 5, F tính của thí nghiệm là 14,37 với p < 0,0001 Hàm lượng đạm thay đổi và có khác biệt thống kê được chọn ở mức p< 0,05 do tác động của sáu dòng vi khuẩn Xếp nhóm theo Tukey test khác với các cách khác Xếp nhóm theo Waller, Duncan và t test LSD như nhau, xếp nhóm các trung bình chia thành năm nhóm theo ký tự từ cao đến thấp là A, B, C, D, và E Xếp nhóm theo Duncan test cho thấy hàm lượng đạm tích lũy do 3DOK1 cao nhất, khác biệt có nghĩa với các dòng vi khuẩn khác, thấp nhất là 3DOK13
Hiện có trên 20 giá trị so sánh khác biệt các nghiệm thức (Kuehl, 2000; Clewer, 2001), nhưng phổ biến là các cách trên Xếp nhóm theo Duncan test được dùng phổ biến hiện nay
2.2 Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố không cân đối
A và B được thiết kế theo sơ đồ như sau:
Trang 22Class Level Information
Class Levels Values
Error Degrees of Freedom 3
Error Mean Square 2
Critical Value of t 3.18245
Least Significant Difference 3.4374
Harmonic Mean of Cell Sizes 3.428571
NOTE: Cell sizes are not equal
21
Trang 23Means with the same letter are not significantly different.
t Grouping Mean N A
A 18.333 3 A2
B 11.500 4 A1
Giải thích:
- Tổng độ tự do của thí nghiệm là n - 1 = 7 - 1 = 6 F test toàn thí nghiệm là 15,29 v ới xác suất
p = 0,0253, chứng tỏ có khác biệt trong 4 trung bình nghiệm thức.
= Sum of Squares, tổng bình phương) bằng nhau, nhưng trong thí nghiệm không cân đối này,
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM
KHỐI ĐẦY ĐỦ NGẪU NHIÊN (Randomized Complete Block Design, RCBD)
3.1 Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố
Đây là kiểu bố trí phổ biến nhất trong nghiên cứu nông nghiệp Áp dụng cho việc so sánh các giống, loại phân bón trong điều kiện đất đai, ngoại cảnh tương đối ít đồng nhất Thường có chiều biến thiên của hướng dốc hoặc hướng ánh sáng, độ phì đất, pH, cần điều chỉnh ô phù hợp
về kích thước, chiều dài ô Kiểu RCBD giảm sai số thí nghiệm, nhưng chịu ảnh hưởng của khối
Thí nghiệm so sánh năng suất tươi (kg/ô 36m2) của 6 giống đậu Hà Lan trong 4 khối, sử dụng ký tự thay tên giống (Barnard, 1994)
Bố trí thí nghiệm theo khối đầy đủ hoàn toàn ngẫu nhiên, bốn lần lặp lại, sáu nghiệm thức Tổng số ô = 4x6 = 24 ô (k = khối; t = nghiệm thức, tên giống; y = năng suất) Sơ đồ thí
nghiệm như sau:
Trang 24means t /duncan alpha=0.01;
title 'Thi nghiem 1 yeu to RCBD';
run;
Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Class Level Information
Class Levels Values
k 4 1 2 3 4
t 6 a b c d e f
Number of observations 24
Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F Model 8 497.3300000 62.1662500 16.42 <.0001 Error 15 56.7950000 3.7863333
Trang 25k 3 52.8950000 17.6316667 4.66 0.0171
t 5 444.4350000 88.8870000 23.48 <.0001
Thi nghiem 1 yeu to RCBD
The ANOVA Procedure
Duncan's Multiple Range Test for y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.01
Error Degrees of Freedom 15
Error Mean Square 3.786333
3.2 Kiểu ô vuông la tinh (Latin square)
Áp dụng khi có biến thiên hai chiều của các nghiệm thức và cần được khảo sát theo hai hướng,
thường là bố trí theo hàng và cột Bài tập: thí nghiệm khảo sát tăng giảm chiều cao lúa mì theo
tiêu chuẩn do máy gặt trên sáu lô Thứ tự ô (I, II, III, IV, V, VI) trên các khu vực A, B, C, D,
E, F (Barnard, 1994) Chiều cao chồi so sánh với chiều cao thực sự (cm).
Trang 26MEANS T / DUNCAN ALPHA=0.01;
TITLE ‘CHIEU CAO LUA MI’;
RUN;
CHIEU CAO LUA MI
The ANOVA Procedure
Class Level Information
Class Levels Values
H 6 1 2 3 4 5 6
C 6 1 2 3 4 5 6
T 6 a b c d e f
Number of observations 36
CHIEU CAO LUA MI
The ANOVA Procedure
25
Trang 27CHIEU CAO LUA MI
The ANOVA Procedure
Duncan's Multiple Range Test for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.01
Error Degrees of Freedom 20
Error Mean Square 3.328167
Number of Means 2 3 4 5 6
Critical Range 2.997 3.126 3.211 3.273 3.321
Means with the same letter are not significantly different
Duncan Grouping Mean N T
3.3 Khối đầy đủ ngẫu nhiên hai yếu tố có tương tác (interaction)
Kiểu thí nghiệm căn bản này thực hiện để tìm tác động đồng thời của hai yếu tố cần khảo sát.
Thí nghiệm hai yếu tố, yếu tố A có ba nghiệm thức, yếu tố B có năm nghiệm thức
Thí nghiệm bố trí trên ba khối đầy đủ ngẫu nhiên, khảo sát năng suất cải dầu Y (kg/ô) do ảnh hưởng ba nồng độ chất điều hòa sinh trưởng (S1, S2, S3) và năm lượng đạm (D1, D2, D3, D4, D5), số liệu trích dẫn từ trang 168 của Clewer (2001)
Có hai bước: (1) xử lý ANOVA bằng PROC GLM (General Linear Model), xếp nhóm các nghiệm thức của yếu tố S, D So sánh tương tác LSMEAN bằng: LSMEANS S*D/PDIFFADJUST=DUNNETT; (2) tính khác biệt tương tác của yếu tố S*D dựa trên so sánh giá trị xác suất điều chỉnh (adjust p-values) của PDIFF ADJUST=DUNNETT
File mẫu xử lý ANOVA và xếp nhóm các nghiệm thức của yếu tố S và D mã hóa bằng số
26
Trang 28* Lưu ý sử dụng dấu $ để cách các biến số Mã hóa bằng chữ với khối (K), nồng độ chất điều hòa sinh trưởng (S) và lượng đạm (D), năng suất cải dầu Y (kg/ô)
DATA;
INPUT K $ S $ D $ SD $ Y;
CARDS;
; PROC GLM;
CLASS K S D;
MODEL Y = K S D S*D;
MEAN S/LSD;
MEAN D/LSD ALPHA=0.01;
MEAN S*D/ DUNCAN ALPHA=0.01;
LSMEANS S*D / PDIFF ADJUST=DUNNETT ALPHA=0.01;
K 3 1 2 3
S 3 1 2 3
D 5 1 2 3 4 5 Number of observations 45 The SAS System The GLM ProcedureDependent Variable: Y
Sum of Source DF Squares Mean Square FValue Pr > F
Model 16 3.73866667 0.23366667 11.91 <.0001
Error 28 0.54933333 0.01961905 Corrected Total 44 4.28800000
R-Square Coeff Var Root MSE Y Mean
0.871891 11.11651 0.140068 1.260000
Source DF Type I SS Mean Square FValue Pr > F
K 2 0.06400000 0.03200000 1.63 0.2138
S 2 0.16933333 0.08466667 4.32 0.0232
D 4 2.49022222 0.62255556 31.73 <.0001
S*D 8 1.01511111 0.12688889 6.47 <.0001
Source DF Type III SS Mean Square F Value Pr > F
Trang 29Error Degrees of Freedom 28
Error Mean Square 0.019619
Critical Value of t 2.04841
Least Significant Difference 0.1048
Means with the same letter are not significantly different
Error Degrees of Freedom 28
Error Mean Square 0.019619
Critical Value of t 2.76326
Least Significant Difference 0.1825
Means with the same letter are not significantly different
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett
Trang 30The GLM Procedure
Class Level Information
Class Levels Values
K 3 1 2 3
SD 15 S1D1 S1D2 S1D3 S1D4 S1D5 S2D1 S2D2 S2D3 S2D4 S2D5 S3D1 S3D2 S3D3 S3D4 S3D5 Number of observations 45
The SAS System
Duncan's Multiple Range Test for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate Alpha 0.01
Error Degrees of Freedom 28
Error Mean Square 0.019619
Number of Means 2 3 4 5 6 7 8
Critical Range .3160 3296 3387 3453 3505 3547 3582
Number of Means 9 10 11 12 13 14 15
Critical Range .3611 3636 3658 3678 3695 3710 3723
Means with the same letter are not significantly different
Duncan Grouping Mean N SD
Trang 31Trung bình nồng
độ chất điều hòa sinh trưởng (S)
* Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với nồng độ chất điều
hòa sinh trưởng: p<0,05; lượng đạm: p<0,01; tương tác nồng độ chất điều hòa sinh trưởng và lượng đạm: p<0,01; CV = 11,12%.
Giải thích:
- Kết quả xếp nhóm có thể chia các giá trị trung bình từ cao đến thấp của yếu tố tương tác SD làm bảy nhóm theo ký tự A, B, … G; trong đó giá trị trung bình cao nhất là 1,93 kg/ô của tương tác S1D4, thấp nhất là 0,83 kg/ô của tương tác S2D1
- Tương tác của hai yếu tố nồng độ chất điều hòa sinh trưởng và lượng đạm S*D (F = 6,47 với
p < 0,0001) ảnh hưởng rất có nghĩa đến năng suất cải dầu Bảng so sánh giá trị xác suất p các trung bình tương tác Dunnett cho thấy tương tác chất điều hòa sinh trưởng và lượng đạm ảnh hưởng độc lập lớn nhất đến năng suất cải dầu là tương tác S1D4 (p < 0,0001), tiếp theo là S2D5 (p < 0,0001), S3D4 (p = 0,0017), và các tương tác S1D3, S3D3, S2D4 và S2D3 Các tương tác có ảnh hưởng như nhau ( p > 0,05) và năng suất thấp là tương tác S3D2, S3D5, S1D2, S1D5, S3D1, S1D1, S2D1, S2D2
3.4 Thí nghiệm lô phụ (Split plot) có tương tác (interaction)
Thí nghiệm kết hợp các nghiệm thức thành nhóm trong một yếu tố lô chính gọi là kiểu thí
nghiệm lô phụ (split plot design) Tùy cách chọn yếu tố nào là chính hay phụ, nhưng áp dụng
phổ biến nhất với yếu tố A thường là lô chính (main plot factor) hay là lô lớn (large plots) như cày đất, tưới nước; lô phụ B (subplot factor) hay là lô nhỏ (small plots) như phân bón, giống
30
Trang 32(Clewer, 2001) Yếu tố B được xếp theo lô phụ được xem như là yếu tố để khảo sát so với các giá trị trung bình trong ảnh hưởng của tương tác khối với yếu tố A (K*A), để tính tương tác của tất cả các lô Tương tác của lô phụ được so sánh với sai số thí nghiệm residual (SAS, 1999).
Phải có test giả thiết: TEST H = A E = K*A; (giả thiết null, không khác nhau).
Sơ đồ thí nghiệm chung như sau:
Thí nghiệm khảo sát năng suất cỏ kg/ô (Y) do yếu tố chu kỳ xén cỏ và giống cỏ, xác suất thống
kê được chọn trước là p = 0,05 (NCRS 2007, trang 52)
Tên chu kỳ xén cỏ và giống có thể sử dụng mã hóa bằng số và nguyên tên giống.
Bài tập sử dụng mã hóa bằng số như sau:
Yếu tố D lô chính: ba nghiệm thức về chu kỳ xén cỏ là D1: 30 ngày, D2: 45 ngày, D3: 60 ngày Yếu tố V lô phụ: bốn giống là V1: Jackson, giống V2: Highlander, giống V3: San Macros, giống V4: Medina
Yếu tố DV: yếu tố tương tác của hai yếu tố D và V.
Bố trí thí nghiệm trên ba khối đầy đủ, ngẫu nhiên (K: 1, 2, 3).
Trang 33lsmeans D*V/pdiff=control adjust=dunnett;
title‘SPLIT PLOT P 52 statistix’;
Class Level Information
Class Levels Values
Trang 34Tests of Hypotheses Using the Type III MS for K*D as an Error Term
Source DF Type III SS Mean Square F Value Pr > F
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 317.18
Means with the same letter are not significantly different
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 366.25
Means with the same letter are not significantly different
t Grouping Mean N V
33
Trang 35Least Squares Means
Adjustment for Multiple Comparisons: Dunnett
Class Level Information
Class Levels Values
K 3 1 2 3
DV 12 D1V1 D1V2 D1V3 D1V4 D2V1 D2V2 D2V3 D2V4 D3V1 D3V2 D3V3 D3V4 Number of observations 36
SPLIT PLOT P 52 statistix
The GLM Procedure
Dependent Variable: Y
Sum of
34
Trang 36Source DF Squares Mean Square F Value Pr > F
Duncan's Multiple Range Test for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate Alpha 0.05
Error Degrees of Freedom 22
Error Mean Square 140400.8
Number of Means 2 3 4 5 6 7 8 9 10 11 12
Critical Range 634.5 666.2 686.5 700.8 711.3 719.5 725.9 731.0 735.2 738.6 741.4 Means with the same letter are not significantly different
Duncan Grouping Mean N DV
Trang 37- Kết quả xếp nhóm tương tác các nghiệm thức của yếu tố DV có thể chia làm bảy nhóm: A, B,
C, G (NCRS, 2007) trong đó năng suất cao nhất ở 60 ngày xén cỏ là V2 (Highlander), tiếp theo là V1(Jackson), thấp nhất là ở 30 ngày xén cỏ với giống V3 (San Macros) và V4 (Medina)
- Tương tác của D*V rất có nghĩa (F = 5,54 với p = 0,0021)
- Căn cứ vào bảng so sánh xác suất p các trung bình tương tác Dunnett, tương tác chu kỳ xén
cỏ D1(30 ngày) với 4 giống cỏ có ảnh hưởng như nhau vì có p > 0,05 cũng như tương tác D2V4 (chu kỳ xén cỏ 45 ngày,giống Medina)
Tương tác chu kỳ xén cỏ D2 (45 ngày) với các giống Jackson, Highlander và San Macros ảnh hưởng độc lập cũng như chu kỳ xén cỏ D3 (chu kỳ xén cỏ 60 ngày) tương tác với bốn giống
cỏ đều có p < 0,0001 và trong đó năng suất cao nhất là tương tác D3V2 (chu kỳ xén cỏ 60 ngày, giống Highlander) với năng suất 11855,7 (kg/ô)
Trình bày kết quả như sau:
Bảng 3.2 Ảnh hưởng của chu kỳ xén cỏ và giống đến năng suất cỏ (kg/ô)
Giống (V) Chu kỳ xén cỏ (D) V1
(Jackson) (Highlander) V2 (San Macros) V3 (Medina) V4 Trung bình chu kỳ xén cỏ D1 (30 ngày) 6751,0 fg 6789,0 fg 6544,7 g 6515,3 g 6650,0 C D2 (45 ngày) 8808,0 e 9583,0 d 8779,0 e 7282,0 f 8613,0 B D3 (60 ngày) 11337,0 ab 11855,7 a 10500,3 c 10784,3 bc 11119,3 A Trung bình giống 8965,3 B 9409,2 A 8608,0 B 8193,9 C
Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với p < 0,05 cho yếu tố
D, yếu tố V, tương tác D*V; CV = 4,21%
Bài tập sử dụng tên giống và chu kỳ xén cỏ (NCRS 2007, trang 52), so sánh tương tác LSMEANS với Tukey test
Chu kỳ xén cỏ: 30da = 30 ngày, Jackson = giống cỏ
Lưu ý: GIONG$15 và XENCOGIONG$20 là ghi độ dài tên nghiệm thức khi có số ký tự trên 8.
Kết quả giống như phần mã hóa bằng số, được rút gọn cho các phần xếp nhóm, so sánh tương tác Tukey test như sau:
DATA;
INPUT KHOI XENCO $ GIONG$15 NSUAT XENCOGIONG$20.;
Cards;
1 30da Jackson 6789 30da Jackson
1 30da Highlander 6578 30da Highlander
1 30da San Macros 6589 30da San Macros
1 30da Medina 6534 30da Medina
2 30da Jackson 6743 30da Jackson
2 30da Highlander 6789 30da Highlander
2 30da San Macros 6700 30da San Macros
2 30da Medina 6500 30da Medina
36
Trang 383 30da Jackson 6721 30da Jackson
3 30da Highlander 7000 30da Highlander
3 30da San Macros 6345 30da San Macros
3 30da Medina 6512 30da Medina
1 45da Jackson 8812 45da Jackson
1 45da Highlander 9500 45da Highlander
1 45da San Macros 7816 45da San Macros
1 45da Medina 6956 45da Medina
2 45da Jackson 8745 45da Jackson
2 45da Highlander 9654 45da Highlander
2 45da San Macros 8721 45da San Macros
2 45da Medina 6956 45da Medina
3 45da Jackson 8867 45da Jackson
3 45da Highlander 9595 45da Highlander
3 45da San Macros 9800 45da San Macros
3 45da Medina 7934 45da Medina
1 60da Jackson 11345 60da Jackson
1 60da Highlander 11999 60da Highlander
1 60da San Macros 10456 60da San Macros
1 60da Medina 10009 60da Medina
2 60da Jackson 11099 60da Jackson
2 60da Highlander 11678 60da Highlander
2 60da San Macros 10678 60da San Macros
2 60da Medina 10999 60da Medina
3 60da Jackson 11567 60da Jackson
3 60da Highlander 11890 60da Highlander
3 60da San Macros 10367 60da San Macros
3 60da Medina 11345 60da Medina
;
proc glm;
class KHOI XENCO GIONG;
model NSUAT = KHOI XENCO KHOI*XENCO GIONG XENCO*GIONG;
test h=XENCO e=KHOI*XENCO;
means XENCO GIONG XENCO*GIONG/lsd alpha=0.05;
lsmeans XENCO * GIONG /pdiff adjust=tukey;
title‘SPLIT PLOT P 52 statistix’;
run;
proc GLM;
class KHOI XENCOGIONG;
model NSUAT = KHOI XENCOGIONG;
means XENCOGIONG /Duncan alpha=0.05;
run;
SPLIT PLOT P 52 statistix
The GLM Procedure
Class Level Information
Class Levels Values
KHOI 3 1 2 3
XENCO 3 30da 45da 60da
GIONG 4 Highlander Jackson Medina San Macros
Number of observations 36
37
Trang 39SPLIT PLOT P 52 statistix
Tests of Hypotheses Using the Type III MS for KHOI*XENCO as an Error Term
Source DF Type III SS Mean Square F Value Pr > F
XENCO 2 120440064.9 60220032.4 384.08 <.0001
SPLIT PLOT P 52 statistix
The GLM Procedure
t Tests (LSD) for NSUAT
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 317.18
Means with the same letter are not significantly different
t Grouping Mean N XENCO
Trang 40The GLM Procedure
t Tests (LSD) for NSUAT
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 366.25
Means with the same letter are not significantly different
t Grouping Mean N GIONG
Level of Level of
XENCO GIONG N Mean Std Dev
60da San Macros 3 10500.3333 160.169702
SPLIT PLOT P 52 statistix
The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Tukey
60da San Macros 10500.3333 12
Least Squares Means for effect XENCO*GIONG
Pr > |t| for H0: LSMean(i)=LSMean(j)
Dependent Variable: NSUAT
39