Giới thiệu về phương pháp khảo sát mẫu ðể nghiên cứu về một chỉ số nào đĩ trên các cá thể của một tổng thể với rất nhiều cá thể, cĩ thể tiến hành theo hai cách.. Cách 2: ðiều tra một m
Trang 1TRƯỜNG ðẠI HỌC NÔNG NGHIỆP HÀ NỘI
PGS TS Nguyễn Hải Thanh −−−− ThS ðỗ ðức Lực
XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần mềm Excel và SAS
(Bài giảng cho dự án CNTT)
HÀ NỘI, THÁNG 10 NĂM 2008
Trang 2Phần 1
Xử lý dữ liệu thống kê nơng nghiệp trong Excel
Phần mềm Excel cho phép phân tích dữ liệu nĩi chung, dữ liệu sinh học và nơng
nghiệp nĩi riêng, một cách khá hiệu quả thơng qua việc sử dụng menu Tools> Data
Analysis (nếu khơng cĩ mục này thì chọn Tools> Add-in > Analysis ToolPak để cài đặt
thêm) Sau đây là một số cơng cụ xử lý số liệu thống kê mà Excel cung cấp
1 Giới thiệu về phương pháp mẫu và thống kê mơ tả
1.1 Giới thiệu về phương pháp khảo sát mẫu
ðể nghiên cứu về một chỉ số nào đĩ trên các cá thể của một tổng thể với rất nhiều
cá thể, cĩ thể tiến hành theo hai cách Cách 1: ðiều tra chỉ số đĩ trên tất cả các cá thể của tổng thể; cách này địi hỏi chi phí cao, tốn kém thời gian, nhiều khi khơng khả thi Cách 2:
ðiều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu điều tra được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đốn
thống kê về chỉ số đĩ cho tồn bộ tổng thể Cách 2 cĩ thể được gọi là phương pháp thống
kê tốn học, hay cịn gọi là phương pháp khảo sát mẫu
Tổng quát hơn, phương pháp khảo sát mẫu được áp dụng khi cần nghiên cứu một
số chỉ số nào đĩ cũng như các mối liên quan của chúng trên các cá thể của tổng thể
Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một tổng thể Xét một mẫu ngẫu nhiên dung lượng n của X là (X1, X2, , Xn) trong đĩ Xi, i = 1,
2, …, n, là các biến ngẫu nhiên độc lập thu được từ X ðể đơn giản chúng ta gọi mẫu này
là mẫu lý thuyết Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x1, x2, , xn) trong đĩ xi là giá trị đo được của Xi thu được từ kết quả của thực nghiệm
ðại lượng thống kê
n
1
X= (X1+X2 + + Xn) được gọi là trung bình mẫu lý thuyết
và được lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) được coi là số đặc trưng cho
trung bình chung của chỉ số X ðây là một ước lượng rất tốt với các tính chất: khơng
vững của ước lượng, khi dung lượng mẫu khá lớn, độ lệch giữa trung bình chung và trung
bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm
Tương tự, đại lượng thống kê: Sˆ =2
n
n
1 i
i X)X(
∑
=
− được gọi là phương sai mẫu lý
thuyết chưa hiệu chỉnh, cịn đại lượng thống kê S2 =
1n
1
−
2 n
1 i
i X)X(
∑
=
− gọi là phương sai
mẫu đã hiệu chỉnh Chúng đều được lấy làm ước lượng cho phương sai V(X) của X với V(X) được coi là số đặc trưng cho độ biến động của chỉ số X xung quanh E(X) Trong khi
Trang 3phương sai mẫu lý thuyết chưa hiệu chỉnh chỉ có tắnh chất vững, thì phương sai mẫu lý
thuyết ựã hiệu chỉnh lại có cả ba tắnh chất không chệch, vững và hiệu quả
i x)x(
1
−
2 n
1 i
i x)x(
∑
=
− cũng ựược gọi là phương sai mẫu thực nghiệm ựã
hiệu chỉnh tương ứng với mẫu thực nghiêm ựã có SẼ và sẼ ựược gọi là các ựộ lệch chuẩn mẫu lý thuyết và thực nghiệm chưa hiệu chỉnh, còn S và s gọi là ựộ lệch chuẩn mẫu lý
thuyết và thực nghiệm ựã hiệu chỉnh
1.2 Thống kê mô tả
Sau khi có số liệu mẫu thực nghiệm, có thể sử dụng chức năng thống kê mô tả trong phân tắch số liệu của Excel ựể tắnh các số ựặc trưng mẫu của mẫu thực nghiệm như trung bình, ựộ lệch chuẩn, sai số chuẩn, trung vị, mode Số liệu tắnh toán ựược bố trắ theo cột hoặc theo hàng
a Các bước thực hiện trong Excel
Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau
trong hộp thoại:
- Input range: miền dữ liệu kể cả nhãn
- Grouped by: Column (số liệu theo cột)
- Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng ựầu
- Confidence level for mean: 95% ( ựộ tin cậy 95%)
- K-th largest: 1 (1 Số lớn nhất, 2 số lớn nhì )
- K-th smallest: 1 (1 Số nhỏ nhất, 2 số nhỏ nhì )
- Output range: miền ra
- Summary Statistics: đánh dấu √ nếu muốn hiện các thống kê cơ bản
Vắ dụ 1: Khảo sát về các ựặc tắnh của lúa ta thu ựược bốn cột số liệu: dài bông (cm), P1000
(trọng lượng 1000 hạt), số bông/một cây, năng suất Số liệu ựược bố trắ như trong hình I.1
Chọn Tools>Data Analysis>Descriptive Statistics, sau ựó khai báo hộp thoại
Hình I.1 Bảng số liệu khảo sát về lúa và khai báo hộp thoại
Trang 4Kết quả thu ñược cho trong hình I.2
Hình I.2 Kết quả thống kê mô tả về các ñặc tính của lúa
b Phân tích các kết quả thu ñược
Một số nhận xét sơ bộ trên các thống kê thu ñược như sau:
- Mean cho ta giá trị trung bình của dãy số
- Standard error cho ta biết tỷ số ñộ lệch chuẩn mẫu /căn bậc hai của n
- Median cho giá trị ñiểm giữa của dãy số
Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân ñối Trong ví dụ 1 các cột số liệu là cân ñối trừ cột “số bông” hơi bị lệch
- Mode cho biết giá trị xảy ra nhiều nhất trên mẫu
- Phương sai mẫu hay ñộ lệch chuẩn mẫu (ñã hiệu chỉnh) cho ta biết ñộ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung
- Kurtosis ñánh giá ñường mật ñộ phân phối của dãy số liệu có nhọn hơn hay tù hơn ñường mật ñộ chuẩn tắc Nếu trong khoảng từ -2 ñến 2 thì có thể coi số liệu xấp xỉ chuẩn
- Skewness ñánh giá ñường phân phối lệch trái hay lệch phải Nếu trong khoảng
từ -2 ñến 2 thì có thể coi số liệu cân ñối gần như số liệu trong phân phối chuẩn tắc
- Confidence Level ñược hiểu là nửa ñộ dài khoảng tin cậy Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean- m , Mean+m) Trong ví
dụ 1, hình I.2., ta có khoảng tin cậy 95% của “dài bông” là: ( 26.4- 0.55 , 26.4 +0.55), tức
2 n−
tα
n
s], trong ñó
1 ,
2 n−
tα là phân vị mức 1 − α/2 của phân phối Student với bậc tự do n −1
Trang 52 Tổ chức ñồ
Tần số xuất hiện của số liệu trong các khoảng cách ñều nhau cho phép phác hoạ biểu ñồ tần số, còn gọi là tổ chức ñồ ðể vẽ tổ chức ñồ cần phải tiến hành phân tổ / nhóm
số liệu
2.1 Tạo miền phân tổ
ðể tiến hành phân tổ số liệu (tạo Bin), cần thực hiện các bước sau:
- Dùng các hàm Min, Max ñể xác ñịnh giá trị nhỏ nhất và giá trị lớn nhất
- ðịnh ra giá trị cận dưới và giá trị cận trên của miền phân tổ
- Ghi giá trị cận dưới vào ô ñầu của miền phân tổ và bôi ñen toàn miền này
- Chọn Edit > Fill > Series ñể khai báo các mục:
+ Trong mục Series in chọn Columns ( dữ liệu theo cột)
+ Trong mục Type chọn Linear ( dữ liệu tăng theo cấp số cộng)
+ Trong Step value: nhập giá trị bước tăng
+ Trong Stop value: nhập giá trị cận trên
+ OK
Ví dụ 2: Dựa trên 30 số liệu về chiều dài cá ta tạo miền phân tổ (Bin) như trên hình I.3 với
miền phân tổ từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là 55, giá trị bước tăng 5
Hình I.3 Tạo miền Bin cho các số liệu về chiều dài cá
2.2 Vẽ tổ chức ñồ
a Các bước thực hiện
Chọn Tools> Data Analysis> Histogram ñể khai báo các mục:
- Input range: miền dữ liệu
- Input Bin: miền phân tổ
- Labels : nhãn ở hàng ñầu nếu có
Trang 6- Pareto: tần số sắp xếp giảm dần
- Cumulative Percentage: Tần suất cộng dồn %
- Chart output: Biểu ñồ
- Nhìn vào hình I.5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất Ngoài ra, hình dạng của tổ chức ñồ còn cho biết: dãy số liệu khảo sát ñược về chiều dài của
cá có thể coi là tuân theo luật chuẩn
Trang 73 Tắnh hệ số tương quan và tìm phương trình hồi qui
3.1 Tắnh hệ số tương quan
Excel cho phép tắnh hệ số tương quan ựơn giữa các biến sắp xếp thành một bảng gồm n hàng, n cột (mỗi cột là 1 biến)
a Các bước thực hiện
Chọn Tools>Data Analysis>Correlation và khai báo các mục:
- Input range: miền dữ liệu kể cả nhãn
- Grouped by: Column (số liệu theo cột)
- Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng ựầu
- Output range: miền ra
- OK
Vắ dụ 3: để nghiên cứu mối tương quan giữa các ựặc tắnh dài bông, số hạt, số bông với
năng suất lúa, cần thực hiện các bước sau:
- Chọn Tools>Data analysis>Correlation
- Khai báo các mục (xem hình I.6)
Hình I.6 Các bước khai báo khi tắnh hệ số tương quan
- Kết quả thu ựược trên bảng I.1
Bảng I.1 Kết quả tắnh hệ số tương quan
Dài bông 1
P1000 0.233314 1
Số bông -0.22056 0.340772 1
Năng suất 0.200805 0.66632 0.661379 1
Trang 8b Phân tắch kết quả
- Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột
- Hệ số tương quan âm ( < 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa Ộdài bôngỢ và Ộsố bôngỢ là nghịch biến)
- Các hệ số tương quan có giá trị tuyệt ựối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tắnh mạnh giữa hai biến (tương quan giữa Ộnăng suấtỢ và ỘP1000Ợ có thể tạm coi là tương quan tuyến tắnh mạnh)
3.2 Tìm phương trình hồi quy
Excel cho phép tìm phương trình hồi quy tuyến tắnh ựơn y = a+ bx và hồi quy tuyến tắnh bội y = a0 + a1x1 + a2x2 + + anxn Các biến ựộc lập chứa trong n cột, biến phụ thuộc y ựể trong một cột, các giá trị tương ứng giữa biến ựộc lập và biến phụ thuộc ựược xếp trên cùng một hàng
a Các bước thực hiện
Chọn Tools>Data Analysis>Regression và khai báo các mục:
- Input y range: miền dữ liệu biến y
- Input x range: miền dữ liệu các biến x
- Label: đánh dấu √ vào ô này nếu có nhãn ở hàng ựầu
- Confidence level : 95% ( ựộ tin cậy 95%)
- Constant in zero: đánh dấu √ nếu hệ số tự do a0 = 0
- Output range: miền xuất kết quả
- Residuals : đánh dấu √ vào ô này ựể hiện phần dư hay sai lệch giữa y thực nghiệm và y theo hồi quy
- Standardized residuals: đánh dấu √ ựể hiện phần dư ựã chuẩn hoá
- Residuals plot: đánh dấu √ ựể hiện ựồ thị phần dư
- Line fit plots: đánh dấu √ ựể hiện ựồ thị các ựường dự báo
- Normal probability plot: đánh dấu √ ựể hiện ựồ thị phần dư ựã chuẩn hoá
- OK
Vắ dụ 4: Tìm phương trình hồi qui y= a0 + a1x1 + a2yx2 + a3x3 của năng suất lúa y phụ thuộc tuyến tắnh vào ựộ dài bông (x1), trọng lượng 1000 hạt (x2) và số bông / một cây (x3) với các số liệu cho trong hình I.7
Chọn Tools>Data Analysis>Regression và khai báo các mục như trên hình I.7 ựể
thu ựược kết quả như trên hình I.8
b Phân tắch kết quả
- Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến tắnh là thắch hợp (ngược lại nên tìm mô hình khác) Trong vắ dụ 4 hệ số tương quan bội là 0.8375 nên mô hình tuyến tắnh ựược coi là thắch hợp
- Hệ số tương quan R square trong vắ dụ 4 là 0.7014 cho biết 70.14% sự biến ựộng của y là do các yếu tố x1, x2, x3 gây nên Hệ số Adjusted R square là 62.00% không sát gần với R square chứng tỏ không phải tất cả các biến ựưa vào là thực sự cần thiết
Trang 9- F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất ý nghĩa 0.05 nên phương trình hồi quy tuyến tính ñược chấp nhận
- Nhìn vào các hệ số của các biến ta viết ñược ñường hồi quy dự báo Trong ví dụ
4 phương trình hồi quy là: y = − 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3 Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là không ñáng tin cậy, vì xác suất tương ứng > 0.05 (mức ý nghĩa ñã chọn) Trong trường hợp này, cần tiến hành lọc bớt biến x1 ñể ñược ñường hồi quy với các hệ số ñều có ý nghĩa
Hình I.7 Khai báo ñể tìm phương trình hồi quy
Hình I.8 Kết quả tìm phương trình hồi quy
Trang 104 Phân tích phương sai
Phân tích phương sai là cơng cụ chủ yếu để phân tích các số liệu khi theo dõi ảnh hưởng của các nhân tố (factor) trong thí nghiệm và ảnh hưởng tương tác của chúng lên một (hay nhiều) chỉ số đầu ra ðể thu thập số liệu, thí nghiệm cần được thiết kế phù hợp với mục
đích nghiên cứu và điều kiện cụ thể nơi tiến hành thí nghiệm ðể phân tích một nhân tố,
thí nghiệm thường được thiết kế theo kiểu hồn tồn ngẫu nhiên, kiểu khối hồn tồn ngẫu nhiên, hay ơ vuơng La tinh ðể phân tích hai nhân tố, thí nghiệm được bố trí theo kiểu trực giao, kiểu chia ơ lớn, ơ vừa, ơ nhỏ, hoặc kết hợp vừa chia băng vừa chia ơ Từ ba nhân tố trở lên thì cần bố trí thí nghiệm sao cho mỗi nhân tố cĩ hai mức hay mỗi nhân tố cĩ ba mức
4.1 Phân tích phương sai một nhân tố
Phân tích phương sai một nhân tố được sử dụng để phân tích số liệu khi theo dõi
ảnh hưởng của các mức của nhân tố tới kết quả, như ảnh hưởng của các cơng thức cho ăn đến năng suất thịt lợn, ảnh hưởng của các cơng thức phun thuốc sâu đến tỷ lệ sâu bệnh
ðể phân tích phương sai một nhân tố cần thiết kế thí nghiệm kiểu hồn tồn ngẫu
nhiên, mỗi mức lặp lại một số lần, số lần lặp của các mức của nhân tố khơng cần phải bằng nhau
Thiết kế thí nghiệm một nhân tố hồn tồn ngẫu nhiên (CRD) Gọi k mức của
nhân tố hay k cơng thức cần tiến hành là T1, T2 , Tk Chẳng hạn trong thí nghiệm xem xét ảnh hưởng của 11 loại thuốc phịng sâu bệnh tới năng suất của một giống lúa, nhân tố ở
đây chỉ gồm một yếu tố cĩ 11 mức là 11 loại thuốc nên k = 11 Mỗi loại thuốc được thử
nghiệm trên một số ơ thí nghiệm (hay đơn vị thí nghiệm), mỗi ơ được coi là một lần lặp Nếu thí nghiệm 5 giống lúa và 11 loại thuốc trên và chỉ xét tác động chung của tổ hợp giống và thuốc (Gi× Pj) tới năng suất lúa thì cĩ thí nghiệm một nhân tố với k = 5× 11 = 55 cơng thức thí nghiệm Số ơ thí nghiệm (hay số lần lặp) cho mỗi cơng thức cĩ thể chọn tuỳ
ý, khơng nhất thiết phải bằng nhau
Phân tích phương sai một nhân tố được tiến hành với các dữ liệu được sắp thành nhiều nhĩm, mỗi nhĩm là các lần lặp của một mức của nhân tố, nhằm tách biệt các phương sai theo hai nguồn biến động nhân tố và sai số Với i = 1, 2, …, k, mỗi cơng thức Ti được
thực hiện trên ni ơ thí nghiệm, các kết quả thực nghiệm xij được coi như một mẫu thực
nghiệm đối với biến ngẫu nhiên Xi Dựa vào kết quả thực nghiệm cần đưa ra suy đốn về việc các trung bình mi của các biến Xi là như nhau (tức là các cơng thức khơng ảnh hưởng
gì đáng kể tới chỉ số cần khảo sát) hay là khác nhau Cĩ nhiều kiểu thiết kế thí nghiệm để giải quyết bài tốn này Giả sử nhân tố cĩ a mức, mức i được lặp lại ni lần, như vậy tổng
số cĩ n = ∑ ni quan sát, hay cịn nĩi là cĩ n ơ thí nghiệm Nếu bố trí n ơ thí nghiệm hồn
tồn ngẫu nhiên ta cĩ thiết kế thí nghiệm hồn tồn ngẫu nhiên (completely randomized
design) Khi tiến hành thí nghiệm kiểu này phải dùng n phiếu ghi từ 1 đến n, rút thăm ngẫu nhiên n1 phiếu để cĩ các ơ thí nghiệm đối với cơng thức 1, rút tiếp n2 phiếu để cĩ các ơ thí nghiệm đối với cơng thức 2, ., nk ơ cuối cùng là của cơng thức k Việc rút thăm ngẫu nhiên được thực hiện trên tồn bộ các ơ thí nghiệm
Việc tính tốn và kết luận dựa trên mơ hình: xij = µ + αi + eij (i = 1, …, k và j = 1, , ni), với xij là kết quả của lần lặp thứ j của mức i, µ là trung bình chung, αi là ảnh hưởng của mức i của nhân tố, cịn eij là sai số ngẫu nhiên xij cĩ trung bình mi = µ +αi Các sai số
Trang 11eij ñược giả thiết là ñộc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ2
Các αi ñược coi là thoả mãn ñiều kiện
k i
i 1 =
α
∑ = 0
a Các bước thực hiện
Số liệu ñược ñiền theo cột hoặc theo hàng (nếu vào theo hàng thì mỗi hàng ứng
với một mức của nhân tố), ô ñầu tiên ghi tên mức, các ô tiếp theo ghi số liệu Chọn Tools>
Data Analysis > Anova: Single Factor và khai báo:
- Input range: Khai báo miền dữ liệu vào (một chữ nhật bao trùm toàn bộ các ô chứa tên mức và toàn bộ các số liệu)
- Grouped by: Column (số liệu theo cột) hoặc row (số liệu theo hàng)
- Label in First column : nhãn hàng ñầu
Ví dụ 5: Thí nghiệm ảnh hưởng của các loại thuốc ñến năng suất lúa (11 loại thuốc là T1
ñến T11, 4 cột số liệu là năng suất thu ñược), số liệu thu ñược cho trong bảng I.2., các
lệnh thực hiện trong Excel ñược minh hoạ trong hình I.9., còn kết quả cho trong bảng I.3
Bảng I.2 Ảnh hưởng của các loại thuốc ñến năng suất (ns) lúa
Loại thuốc NS ô 1 NS ô 2 NS ô 3 NS ô 4
T1 3.187 4.61 3.562 3.217 T2 3.39 2.875 2.775
T3 2.797 3.001 2.505 3.49 T4 2.832 3.103 3.448 2.255 T5 2.233 2.743 2.727
T6 2.952 2.272 2.47 T7 2.858 2.895 2.458 1.723 T8 2.308 2.335 1.957
T9 2.013 1.788 2.248 2.115 T10 3.202 3.06 2.24 2.69 T11 1.192 1.652 1.075 1.03
OK
Trang 12Hình I.9 Thực hiện phân tích phương sai một nhân tố trong Excel
Bảng I.3 Kết quả phân tích phương sai
Trang 13Từ bảng I.3 ta kết luận các công thức có tác ñộng khác nhau tới năng suất lúa Giải thích: Như ñã nói ở trên, phân tích phương sai một nhân tố tách biệt các phương sai theo hai nguồn biến ñộng nhân tố và sai số Theo bảng I.3, ta có:
- Tổng sai lệch giữa các nhóm do các mức của nhân tố tạo nên là SST (sum of
- Tổng sai lệch trong từng nhóm do các sai số eij gây nên là SSE (sum of squares
error) = k n i ( )
2 ij
Với các giả thiết ñã nêu, có thể chứng minh ñược ñại lượng thống kê F = MSSB/MSSE (ñối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
n−k) Do ñó, nếu F thực nghiệm = 8.54171 > F lý thuyết = f (0.05; 10, 29) = 2.1768 thì giả thuyết “các công thức sử dụng thuốc không ảnh hưởng tới năng suất (trung bình) của lúa”
bị bác bỏ ở mức ý nghĩa α = 0.05 ðiều này có nghĩa là các công thức sử dụng thuốc có tác
ñộng khác nhau tới năng suất lúa
Ngoài ra, từ bảng I.3 có thể nhận xét rằng công thức T1 cho năng suất cao nhất.Tuy nhiên, ñể kết luận chính xác hơn về ñiều này cần so sánh trung bình giữa các nhóm
Bảng I.4 So sánh trung bình giữa các nhóm
T1 4 14.576 3.6440 T2 3 9.040 3.0133 0.6307 T3 4 11.793 2.9483 0.6958 T4 4 11.638 2.9095 0.7345 T10 4 11.192 2.7980 0.8460 T5 3 7.703 2.5677 1.0763 T6 3 7.694 2.5647 1.0793 T7 4 9.934 2.4835 1.1605 T8 3 6.600 2.2000 1.4440 T9 4 8.164 2.0410 1.6030 T11 4 4.949 1.2373 2.4068
Phần mềm Excel không cho phép so sánh các trung bình của các nhóm ứng với các mức của nhân tố (các công thức) Tuy nhiên, nếu cần so sánh trung bình mi (với ni lần lặp) với trung bình mj (nj lần lặp) người dùng có thể tự tính thêm LSD (Least Significance Difference) theo công thức LSD = tα,df × SQRT(s2(1/ni + 1/nj)), trong ñó s2 là phương sai chung ñược ước lượng bởi trung bình sai số bình phương trong nội bộ nhóm (MS within
Trang 14groups), α = 1-p, và tα , df là giá trị t của bảng Student ứng với mức ý nghĩa α và df bậc tự
do tα , df có thể tìm ñược bằng cách tra bảng số hay bằng hàm TINV trong Excel
Trong ví dụ 5, ñể so sánh ảnh hưởng của thuốc T1, T2 ñến năng suất lúa, trước hết cần tính trị tuyệt ñối | m1- m2| của hiệu các năng suất trung bình m1, m2 khi sử dụng 2 loại thuốc trên (chính bằng 0.6307, xem bảng I.4) Ứng với t = t(0.05 , 29) = 2.045 (tra từ bảng Student)có s2= 0.17682 LSD ñược tính cho các trường hợp ri, rj bằng 3 hoặc 4 như sau:
LSD= 2.045 × SQRT( 0.17682×(1/3+1/4) = 0.656739049;
LSD= 2.045 × SQRT( 0.17682×(1/4+1/4) = 0.608022212;
LSD= 2.045 × SQRT( 0.17682×(1/3+1/3) = 0.702083575
Trong trường hợp tính ảnh hưởng của thuốc T1, T2 tới năng suất trung bình của lúa
ta có: | m1- m2| = 0.6307 <LSD = 0.656739049 nên công thức T1, T2 không khác nhau rõ rệt Các kết quả tính toán tương tự ñược ghi trong bảng I.3 cho thấy công thức T1 và T2 là không khác nhau rõ rệt, công thức T1 khác các công thức từ T3 ñến T11 Tương tự có thể
so sánh công thức T2 với các công thức từ T3 ñến T11 Công thức T1 cho năng suất cao nhất là tốt nhất, công thức T11 cho năng suất nhỏ nhất là kém nhất
4.2 Phân tích phương sai hai nhân tố không tương tác
Khi phân tích phương sai hai nhân tố A và B có thể xảy ra các hai trường hợp: trường hợp A và B không tương tác (biến ñộng gây nên bởi tác ñộng ñồng thời của A và B gần sát 0) và trường hợp A và B tương tác (nếu trái lại) Phân tích phương sai một nhân tố
bố trí kiểu khối hoàn toàn ngẫu nhiên ñược coi là trường hợp riêng của phân tích phương sai hai nhân tố không tương tác (nhân tố khối là nhân tố thứ hai không tương tác với nhân
Việc chia khối thí nghiệm nói chung phụ thuộc vào ñịa ñiểm thí nghiệm Chẳng hạn, cần chia khối thẳng góc với một hướng biến ñộng có ảnh hưởng ñến kết quả thí nghiệm như hướng gió, hướng chảy của nước ngầm, hướng nắng, hướng dốc, hướng thay
ñổi của ñộ phì của ñất sao cho mỗi công thức có mặt một lần ở một mức của biến ñộng
Việc chia khối thí nghiệm cũng có thể phụ thuộc vào thời gian tiến hành thí nghiệm với các tác ñộng của thời tiết Nếu mỗi ngày chỉ làm ñược k thí nghiệm và ta chỉ có r ngày ñể làm tất cả các thí nghiệm, thì cần phải phân chia việc thực hiện các thí nghiệm ra r ngày, như vậy ở ñây ngày là khối
Một cái lợi nữa là trong thiết kế thí nghiệm RCBD có thể chọn khối khác nhau về không gian hoặc khác nhau về thời gian (nhưng không ñược khác nhau quá xa ñến mức có
sự thay ñổi ñiều kiện thí nghiệm) Do ñó, kết luận rút ra có tính khái quát cao hơn khi so với kết luận ñạt ñược trong thiết kế thí nghiệm hoàn toàn ngẫu nhiên (tập trung toàn bộ các thí nghiệm vào một nơi hay cùng một thời gian)
Trang 15Việc tính toán và kết luận dựa trên mô hình: xij = µ + αi + βj + eij (i = 1, …, k và j =
1, , r), với xij là kết quả của mức i ở khối j, µ là trung bình chung, αi là ảnh hưởng của mức i của nhân tố, βj là ảnh hưởng của khối j, còn eij là sai số ngẫu nhiên Các sai số eijñược giả thiết là ñộc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ2
Các tham số αi và βj ñược coi là thoả mãn ñiều kiện
k i
i 1 =
α
r j
Chọn Tools >Data Analysis >Anova: Two Factor Without Replication sau ñó khai báo tiếp
các thông tin trong hình I.10 và kích OK
Hình I.10 Hộp thoại khai báo ñể phân tích phương sai không tương tác
Ví dụ 6: Bố trí thí nghiệm phân tích nhân tố 1 (có bốn mức) theo khối hoàn toàn ngẫu
nhiên (nhân tố 2 có bốn khối), ta thu ñược các số liệu như trong bảng I.5
Bảng I.5 Số liệu phân tích một nhân tố theo khối ngẫu nhiên
Khối 1 Khối 2 Khối 3 Khối 4 Mức 1 47 52 62 51