Giáo trình xử lý thống kê nông nghiệp

Giới thiệu về phương pháp khảo sát mẫu ðể nghiên cứu về một chỉ số nào đĩ trên các cá thể của một tổng thể với rất nhiều cá thể, cĩ thể tiến hành theo hai cách.. Cách 2: ðiều tra một m

Trang 1

TRƯỜNG ðẠI HỌC NÔNG NGHIỆP HÀ NỘI

PGS TS Nguyễn Hải Thanh −−−− ThS ðỗ ðức Lực

XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP

với phần mềm Excel và SAS

(Bài giảng cho dự án CNTT)

HÀ NỘI, THÁNG 10 NĂM 2008

Trang 2

Phần 1

Xử lý dữ liệu thống kê nơng nghiệp trong Excel

Phần mềm Excel cho phép phân tích dữ liệu nĩi chung, dữ liệu sinh học và nơng

nghiệp nĩi riêng, một cách khá hiệu quả thơng qua việc sử dụng menu Tools> Data

Analysis (nếu khơng cĩ mục này thì chọn Tools> Add-in > Analysis ToolPak để cài đặt

thêm) Sau đây là một số cơng cụ xử lý số liệu thống kê mà Excel cung cấp

1 Giới thiệu về phương pháp mẫu và thống kê mơ tả

1.1 Giới thiệu về phương pháp khảo sát mẫu

ðể nghiên cứu về một chỉ số nào đĩ trên các cá thể của một tổng thể với rất nhiều

cá thể, cĩ thể tiến hành theo hai cách Cách 1: ðiều tra chỉ số đĩ trên tất cả các cá thể của tổng thể; cách này địi hỏi chi phí cao, tốn kém thời gian, nhiều khi khơng khả thi Cách 2:

ðiều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu điều tra được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đốn

thống kê về chỉ số đĩ cho tồn bộ tổng thể Cách 2 cĩ thể được gọi là phương pháp thống

kê tốn học, hay cịn gọi là phương pháp khảo sát mẫu

Tổng quát hơn, phương pháp khảo sát mẫu được áp dụng khi cần nghiên cứu một

số chỉ số nào đĩ cũng như các mối liên quan của chúng trên các cá thể của tổng thể

Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một tổng thể Xét một mẫu ngẫu nhiên dung lượng n của X là (X1, X2, , Xn) trong đĩ Xi, i = 1,

2, …, n, là các biến ngẫu nhiên độc lập thu được từ X ðể đơn giản chúng ta gọi mẫu này

là mẫu lý thuyết Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x1, x2, , xn) trong đĩ xi là giá trị đo được của Xi thu được từ kết quả của thực nghiệm

ðại lượng thống kê

n

1

X= (X1+X2 + + Xn) được gọi là trung bình mẫu lý thuyết

và được lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) được coi là số đặc trưng cho

trung bình chung của chỉ số X ðây là một ước lượng rất tốt với các tính chất: khơng

vững của ước lượng, khi dung lượng mẫu khá lớn, độ lệch giữa trung bình chung và trung

bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm

Tương tự, đại lượng thống kê: Sˆ =2

n

1 i

i X)X(

∑

=

− được gọi là phương sai mẫu lý

thuyết chưa hiệu chỉnh, cịn đại lượng thống kê S2 =

1n

1

−

2 n

1 i

i X)X(

∑

=

− gọi là phương sai

mẫu đã hiệu chỉnh Chúng đều được lấy làm ước lượng cho phương sai V(X) của X với V(X) được coi là số đặc trưng cho độ biến động của chỉ số X xung quanh E(X) Trong khi

Trang 3

phương sai mẫu lý thuyết chưa hiệu chỉnh chỉ có tắnh chất vững, thì phương sai mẫu lý

thuyết ựã hiệu chỉnh lại có cả ba tắnh chất không chệch, vững và hiệu quả

i x)x(

1

−

2 n

1 i

i x)x(

∑

=

− cũng ựược gọi là phương sai mẫu thực nghiệm ựã

hiệu chỉnh tương ứng với mẫu thực nghiêm ựã có SẼ và sẼ ựược gọi là các ựộ lệch chuẩn mẫu lý thuyết và thực nghiệm chưa hiệu chỉnh, còn S và s gọi là ựộ lệch chuẩn mẫu lý

thuyết và thực nghiệm ựã hiệu chỉnh

1.2 Thống kê mô tả

Sau khi có số liệu mẫu thực nghiệm, có thể sử dụng chức năng thống kê mô tả trong phân tắch số liệu của Excel ựể tắnh các số ựặc trưng mẫu của mẫu thực nghiệm như trung bình, ựộ lệch chuẩn, sai số chuẩn, trung vị, mode Số liệu tắnh toán ựược bố trắ theo cột hoặc theo hàng

a Các bước thực hiện trong Excel

Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau

trong hộp thoại:

- Input range: miền dữ liệu kể cả nhãn

- Grouped by: Column (số liệu theo cột)

- Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng ựầu

- Confidence level for mean: 95% ( ựộ tin cậy 95%)

- K-th largest: 1 (1 Số lớn nhất, 2 số lớn nhì )

- K-th smallest: 1 (1 Số nhỏ nhất, 2 số nhỏ nhì )

- Output range: miền ra

- Summary Statistics: đánh dấu √ nếu muốn hiện các thống kê cơ bản

Vắ dụ 1: Khảo sát về các ựặc tắnh của lúa ta thu ựược bốn cột số liệu: dài bông (cm), P1000

(trọng lượng 1000 hạt), số bông/một cây, năng suất Số liệu ựược bố trắ như trong hình I.1

Chọn Tools>Data Analysis>Descriptive Statistics, sau ựó khai báo hộp thoại

Hình I.1 Bảng số liệu khảo sát về lúa và khai báo hộp thoại

Trang 4

Kết quả thu ñược cho trong hình I.2

Hình I.2 Kết quả thống kê mô tả về các ñặc tính của lúa

b Phân tích các kết quả thu ñược

Một số nhận xét sơ bộ trên các thống kê thu ñược như sau:

- Mean cho ta giá trị trung bình của dãy số

- Standard error cho ta biết tỷ số ñộ lệch chuẩn mẫu /căn bậc hai của n

- Median cho giá trị ñiểm giữa của dãy số

Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân ñối Trong ví dụ 1 các cột số liệu là cân ñối trừ cột “số bông” hơi bị lệch

- Mode cho biết giá trị xảy ra nhiều nhất trên mẫu

- Phương sai mẫu hay ñộ lệch chuẩn mẫu (ñã hiệu chỉnh) cho ta biết ñộ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung

- Kurtosis ñánh giá ñường mật ñộ phân phối của dãy số liệu có nhọn hơn hay tù hơn ñường mật ñộ chuẩn tắc Nếu trong khoảng từ -2 ñến 2 thì có thể coi số liệu xấp xỉ chuẩn

- Skewness ñánh giá ñường phân phối lệch trái hay lệch phải Nếu trong khoảng

từ -2 ñến 2 thì có thể coi số liệu cân ñối gần như số liệu trong phân phối chuẩn tắc

- Confidence Level ñược hiểu là nửa ñộ dài khoảng tin cậy Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean- m , Mean+m) Trong ví

dụ 1, hình I.2., ta có khoảng tin cậy 95% của “dài bông” là: ( 26.4- 0.55 , 26.4 +0.55), tức

2 n−

tα

n

s], trong ñó

1 ,

2 n−

tα là phân vị mức 1 − α/2 của phân phối Student với bậc tự do n −1

Trang 5

2 Tổ chức ñồ

Tần số xuất hiện của số liệu trong các khoảng cách ñều nhau cho phép phác hoạ biểu ñồ tần số, còn gọi là tổ chức ñồ ðể vẽ tổ chức ñồ cần phải tiến hành phân tổ / nhóm

số liệu

2.1 Tạo miền phân tổ

ðể tiến hành phân tổ số liệu (tạo Bin), cần thực hiện các bước sau:

- Dùng các hàm Min, Max ñể xác ñịnh giá trị nhỏ nhất và giá trị lớn nhất

- ðịnh ra giá trị cận dưới và giá trị cận trên của miền phân tổ

- Ghi giá trị cận dưới vào ô ñầu của miền phân tổ và bôi ñen toàn miền này

- Chọn Edit > Fill > Series ñể khai báo các mục:

+ Trong mục Series in chọn Columns ( dữ liệu theo cột)

+ Trong mục Type chọn Linear ( dữ liệu tăng theo cấp số cộng)

+ Trong Step value: nhập giá trị bước tăng

+ Trong Stop value: nhập giá trị cận trên

+ OK

Ví dụ 2: Dựa trên 30 số liệu về chiều dài cá ta tạo miền phân tổ (Bin) như trên hình I.3 với

miền phân tổ từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là 55, giá trị bước tăng 5

Hình I.3 Tạo miền Bin cho các số liệu về chiều dài cá

2.2 Vẽ tổ chức ñồ

a Các bước thực hiện

Chọn Tools> Data Analysis> Histogram ñể khai báo các mục:

- Input range: miền dữ liệu

- Input Bin: miền phân tổ

- Labels : nhãn ở hàng ñầu nếu có

Trang 6

- Pareto: tần số sắp xếp giảm dần

- Cumulative Percentage: Tần suất cộng dồn %

- Chart output: Biểu ñồ

- Nhìn vào hình I.5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất Ngoài ra, hình dạng của tổ chức ñồ còn cho biết: dãy số liệu khảo sát ñược về chiều dài của

cá có thể coi là tuân theo luật chuẩn

Trang 7

3 Tắnh hệ số tương quan và tìm phương trình hồi qui

3.1 Tắnh hệ số tương quan

Excel cho phép tắnh hệ số tương quan ựơn giữa các biến sắp xếp thành một bảng gồm n hàng, n cột (mỗi cột là 1 biến)

Chọn Tools>Data Analysis>Correlation và khai báo các mục:

- Input range: miền dữ liệu kể cả nhãn

- Grouped by: Column (số liệu theo cột)

- Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng ựầu

- Output range: miền ra

- OK

Vắ dụ 3: để nghiên cứu mối tương quan giữa các ựặc tắnh dài bông, số hạt, số bông với

năng suất lúa, cần thực hiện các bước sau:

- Chọn Tools>Data analysis>Correlation

- Khai báo các mục (xem hình I.6)

Hình I.6 Các bước khai báo khi tắnh hệ số tương quan

- Kết quả thu ựược trên bảng I.1

Bảng I.1 Kết quả tắnh hệ số tương quan

Dài bông 1

P1000 0.233314 1

Số bông -0.22056 0.340772 1

Năng suất 0.200805 0.66632 0.661379 1

Trang 8

b Phân tắch kết quả

- Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột

- Hệ số tương quan âm ( < 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa Ộdài bôngỢ và Ộsố bôngỢ là nghịch biến)

- Các hệ số tương quan có giá trị tuyệt ựối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tắnh mạnh giữa hai biến (tương quan giữa Ộnăng suấtỢ và ỘP1000Ợ có thể tạm coi là tương quan tuyến tắnh mạnh)

3.2 Tìm phương trình hồi quy

Excel cho phép tìm phương trình hồi quy tuyến tắnh ựơn y = a+ bx và hồi quy tuyến tắnh bội y = a0 + a1x1 + a2x2 + + anxn Các biến ựộc lập chứa trong n cột, biến phụ thuộc y ựể trong một cột, các giá trị tương ứng giữa biến ựộc lập và biến phụ thuộc ựược xếp trên cùng một hàng

Chọn Tools>Data Analysis>Regression và khai báo các mục:

- Input y range: miền dữ liệu biến y

- Input x range: miền dữ liệu các biến x

- Label: đánh dấu √ vào ô này nếu có nhãn ở hàng ựầu

- Confidence level : 95% ( ựộ tin cậy 95%)

- Constant in zero: đánh dấu √ nếu hệ số tự do a0 = 0

- Output range: miền xuất kết quả

- Residuals : đánh dấu √ vào ô này ựể hiện phần dư hay sai lệch giữa y thực nghiệm và y theo hồi quy

- Standardized residuals: đánh dấu √ ựể hiện phần dư ựã chuẩn hoá

- Residuals plot: đánh dấu √ ựể hiện ựồ thị phần dư

- Line fit plots: đánh dấu √ ựể hiện ựồ thị các ựường dự báo

- Normal probability plot: đánh dấu √ ựể hiện ựồ thị phần dư ựã chuẩn hoá

- OK

Vắ dụ 4: Tìm phương trình hồi qui y= a0 + a1x1 + a2yx2 + a3x3 của năng suất lúa y phụ thuộc tuyến tắnh vào ựộ dài bông (x1), trọng lượng 1000 hạt (x2) và số bông / một cây (x3) với các số liệu cho trong hình I.7

Chọn Tools>Data Analysis>Regression và khai báo các mục như trên hình I.7 ựể

thu ựược kết quả như trên hình I.8

b Phân tắch kết quả

- Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến tắnh là thắch hợp (ngược lại nên tìm mô hình khác) Trong vắ dụ 4 hệ số tương quan bội là 0.8375 nên mô hình tuyến tắnh ựược coi là thắch hợp

- Hệ số tương quan R square trong vắ dụ 4 là 0.7014 cho biết 70.14% sự biến ựộng của y là do các yếu tố x1, x2, x3 gây nên Hệ số Adjusted R square là 62.00% không sát gần với R square chứng tỏ không phải tất cả các biến ựưa vào là thực sự cần thiết

Trang 9

- F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất ý nghĩa 0.05 nên phương trình hồi quy tuyến tính ñược chấp nhận

- Nhìn vào các hệ số của các biến ta viết ñược ñường hồi quy dự báo Trong ví dụ

4 phương trình hồi quy là: y = − 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3 Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là không ñáng tin cậy, vì xác suất tương ứng > 0.05 (mức ý nghĩa ñã chọn) Trong trường hợp này, cần tiến hành lọc bớt biến x1 ñể ñược ñường hồi quy với các hệ số ñều có ý nghĩa

Hình I.7 Khai báo ñể tìm phương trình hồi quy

Hình I.8 Kết quả tìm phương trình hồi quy

Trang 10

4 Phân tích phương sai

Phân tích phương sai là cơng cụ chủ yếu để phân tích các số liệu khi theo dõi ảnh hưởng của các nhân tố (factor) trong thí nghiệm và ảnh hưởng tương tác của chúng lên một (hay nhiều) chỉ số đầu ra ðể thu thập số liệu, thí nghiệm cần được thiết kế phù hợp với mục

đích nghiên cứu và điều kiện cụ thể nơi tiến hành thí nghiệm ðể phân tích một nhân tố,

thí nghiệm thường được thiết kế theo kiểu hồn tồn ngẫu nhiên, kiểu khối hồn tồn ngẫu nhiên, hay ơ vuơng La tinh ðể phân tích hai nhân tố, thí nghiệm được bố trí theo kiểu trực giao, kiểu chia ơ lớn, ơ vừa, ơ nhỏ, hoặc kết hợp vừa chia băng vừa chia ơ Từ ba nhân tố trở lên thì cần bố trí thí nghiệm sao cho mỗi nhân tố cĩ hai mức hay mỗi nhân tố cĩ ba mức

4.1 Phân tích phương sai một nhân tố

Phân tích phương sai một nhân tố được sử dụng để phân tích số liệu khi theo dõi

ảnh hưởng của các mức của nhân tố tới kết quả, như ảnh hưởng của các cơng thức cho ăn đến năng suất thịt lợn, ảnh hưởng của các cơng thức phun thuốc sâu đến tỷ lệ sâu bệnh

ðể phân tích phương sai một nhân tố cần thiết kế thí nghiệm kiểu hồn tồn ngẫu

nhiên, mỗi mức lặp lại một số lần, số lần lặp của các mức của nhân tố khơng cần phải bằng nhau

Thiết kế thí nghiệm một nhân tố hồn tồn ngẫu nhiên (CRD) Gọi k mức của

nhân tố hay k cơng thức cần tiến hành là T1, T2 , Tk Chẳng hạn trong thí nghiệm xem xét ảnh hưởng của 11 loại thuốc phịng sâu bệnh tới năng suất của một giống lúa, nhân tố ở

đây chỉ gồm một yếu tố cĩ 11 mức là 11 loại thuốc nên k = 11 Mỗi loại thuốc được thử

nghiệm trên một số ơ thí nghiệm (hay đơn vị thí nghiệm), mỗi ơ được coi là một lần lặp Nếu thí nghiệm 5 giống lúa và 11 loại thuốc trên và chỉ xét tác động chung của tổ hợp giống và thuốc (Gi× Pj) tới năng suất lúa thì cĩ thí nghiệm một nhân tố với k = 5× 11 = 55 cơng thức thí nghiệm Số ơ thí nghiệm (hay số lần lặp) cho mỗi cơng thức cĩ thể chọn tuỳ

ý, khơng nhất thiết phải bằng nhau

Phân tích phương sai một nhân tố được tiến hành với các dữ liệu được sắp thành nhiều nhĩm, mỗi nhĩm là các lần lặp của một mức của nhân tố, nhằm tách biệt các phương sai theo hai nguồn biến động nhân tố và sai số Với i = 1, 2, …, k, mỗi cơng thức Ti được

thực hiện trên ni ơ thí nghiệm, các kết quả thực nghiệm xij được coi như một mẫu thực

nghiệm đối với biến ngẫu nhiên Xi Dựa vào kết quả thực nghiệm cần đưa ra suy đốn về việc các trung bình mi của các biến Xi là như nhau (tức là các cơng thức khơng ảnh hưởng

gì đáng kể tới chỉ số cần khảo sát) hay là khác nhau Cĩ nhiều kiểu thiết kế thí nghiệm để giải quyết bài tốn này Giả sử nhân tố cĩ a mức, mức i được lặp lại ni lần, như vậy tổng

số cĩ n = ∑ ni quan sát, hay cịn nĩi là cĩ n ơ thí nghiệm Nếu bố trí n ơ thí nghiệm hồn

tồn ngẫu nhiên ta cĩ thiết kế thí nghiệm hồn tồn ngẫu nhiên (completely randomized

design) Khi tiến hành thí nghiệm kiểu này phải dùng n phiếu ghi từ 1 đến n, rút thăm ngẫu nhiên n1 phiếu để cĩ các ơ thí nghiệm đối với cơng thức 1, rút tiếp n2 phiếu để cĩ các ơ thí nghiệm đối với cơng thức 2, ., nk ơ cuối cùng là của cơng thức k Việc rút thăm ngẫu nhiên được thực hiện trên tồn bộ các ơ thí nghiệm

Việc tính tốn và kết luận dựa trên mơ hình: xij = µ + αi + eij (i = 1, …, k và j = 1, , ni), với xij là kết quả của lần lặp thứ j của mức i, µ là trung bình chung, αi là ảnh hưởng của mức i của nhân tố, cịn eij là sai số ngẫu nhiên xij cĩ trung bình mi = µ +αi Các sai số

Trang 11

eij ñược giả thiết là ñộc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ2

Các αi ñược coi là thoả mãn ñiều kiện

k i

i 1 =

α

∑ = 0

Số liệu ñược ñiền theo cột hoặc theo hàng (nếu vào theo hàng thì mỗi hàng ứng

với một mức của nhân tố), ô ñầu tiên ghi tên mức, các ô tiếp theo ghi số liệu Chọn Tools>

Data Analysis > Anova: Single Factor và khai báo:

- Input range: Khai báo miền dữ liệu vào (một chữ nhật bao trùm toàn bộ các ô chứa tên mức và toàn bộ các số liệu)

- Grouped by: Column (số liệu theo cột) hoặc row (số liệu theo hàng)

- Label in First column : nhãn hàng ñầu

Ví dụ 5: Thí nghiệm ảnh hưởng của các loại thuốc ñến năng suất lúa (11 loại thuốc là T1

ñến T11, 4 cột số liệu là năng suất thu ñược), số liệu thu ñược cho trong bảng I.2., các

lệnh thực hiện trong Excel ñược minh hoạ trong hình I.9., còn kết quả cho trong bảng I.3

Bảng I.2 Ảnh hưởng của các loại thuốc ñến năng suất (ns) lúa

Loại thuốc NS ô 1 NS ô 2 NS ô 3 NS ô 4

T1 3.187 4.61 3.562 3.217 T2 3.39 2.875 2.775

T3 2.797 3.001 2.505 3.49 T4 2.832 3.103 3.448 2.255 T5 2.233 2.743 2.727

T6 2.952 2.272 2.47 T7 2.858 2.895 2.458 1.723 T8 2.308 2.335 1.957

T9 2.013 1.788 2.248 2.115 T10 3.202 3.06 2.24 2.69 T11 1.192 1.652 1.075 1.03

OK

Trang 12

Hình I.9 Thực hiện phân tích phương sai một nhân tố trong Excel

Bảng I.3 Kết quả phân tích phương sai

Trang 13

Từ bảng I.3 ta kết luận các công thức có tác ñộng khác nhau tới năng suất lúa Giải thích: Như ñã nói ở trên, phân tích phương sai một nhân tố tách biệt các phương sai theo hai nguồn biến ñộng nhân tố và sai số Theo bảng I.3, ta có:

- Tổng sai lệch giữa các nhóm do các mức của nhân tố tạo nên là SST (sum of

- Tổng sai lệch trong từng nhóm do các sai số eij gây nên là SSE (sum of squares

error) = k n i ( )

2 ij

Với các giả thiết ñã nêu, có thể chứng minh ñược ñại lượng thống kê F = MSSB/MSSE (ñối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,

n−k) Do ñó, nếu F thực nghiệm = 8.54171 > F lý thuyết = f (0.05; 10, 29) = 2.1768 thì giả thuyết “các công thức sử dụng thuốc không ảnh hưởng tới năng suất (trung bình) của lúa”

bị bác bỏ ở mức ý nghĩa α = 0.05 ðiều này có nghĩa là các công thức sử dụng thuốc có tác

ñộng khác nhau tới năng suất lúa

Ngoài ra, từ bảng I.3 có thể nhận xét rằng công thức T1 cho năng suất cao nhất.Tuy nhiên, ñể kết luận chính xác hơn về ñiều này cần so sánh trung bình giữa các nhóm

Bảng I.4 So sánh trung bình giữa các nhóm

T1 4 14.576 3.6440 T2 3 9.040 3.0133 0.6307 T3 4 11.793 2.9483 0.6958 T4 4 11.638 2.9095 0.7345 T10 4 11.192 2.7980 0.8460 T5 3 7.703 2.5677 1.0763 T6 3 7.694 2.5647 1.0793 T7 4 9.934 2.4835 1.1605 T8 3 6.600 2.2000 1.4440 T9 4 8.164 2.0410 1.6030 T11 4 4.949 1.2373 2.4068

Phần mềm Excel không cho phép so sánh các trung bình của các nhóm ứng với các mức của nhân tố (các công thức) Tuy nhiên, nếu cần so sánh trung bình mi (với ni lần lặp) với trung bình mj (nj lần lặp) người dùng có thể tự tính thêm LSD (Least Significance Difference) theo công thức LSD = tα,df × SQRT(s2(1/ni + 1/nj)), trong ñó s2 là phương sai chung ñược ước lượng bởi trung bình sai số bình phương trong nội bộ nhóm (MS within

Trang 14

groups), α = 1-p, và tα , df là giá trị t của bảng Student ứng với mức ý nghĩa α và df bậc tự

do tα , df có thể tìm ñược bằng cách tra bảng số hay bằng hàm TINV trong Excel

Trong ví dụ 5, ñể so sánh ảnh hưởng của thuốc T1, T2 ñến năng suất lúa, trước hết cần tính trị tuyệt ñối | m1- m2| của hiệu các năng suất trung bình m1, m2 khi sử dụng 2 loại thuốc trên (chính bằng 0.6307, xem bảng I.4) Ứng với t = t(0.05 , 29) = 2.045 (tra từ bảng Student)có s2= 0.17682 LSD ñược tính cho các trường hợp ri, rj bằng 3 hoặc 4 như sau:

LSD= 2.045 × SQRT( 0.17682×(1/3+1/4) = 0.656739049;

LSD= 2.045 × SQRT( 0.17682×(1/4+1/4) = 0.608022212;

LSD= 2.045 × SQRT( 0.17682×(1/3+1/3) = 0.702083575

Trong trường hợp tính ảnh hưởng của thuốc T1, T2 tới năng suất trung bình của lúa

ta có: | m1- m2| = 0.6307 <LSD = 0.656739049 nên công thức T1, T2 không khác nhau rõ rệt Các kết quả tính toán tương tự ñược ghi trong bảng I.3 cho thấy công thức T1 và T2 là không khác nhau rõ rệt, công thức T1 khác các công thức từ T3 ñến T11 Tương tự có thể

so sánh công thức T2 với các công thức từ T3 ñến T11 Công thức T1 cho năng suất cao nhất là tốt nhất, công thức T11 cho năng suất nhỏ nhất là kém nhất

4.2 Phân tích phương sai hai nhân tố không tương tác

Khi phân tích phương sai hai nhân tố A và B có thể xảy ra các hai trường hợp: trường hợp A và B không tương tác (biến ñộng gây nên bởi tác ñộng ñồng thời của A và B gần sát 0) và trường hợp A và B tương tác (nếu trái lại) Phân tích phương sai một nhân tố

bố trí kiểu khối hoàn toàn ngẫu nhiên ñược coi là trường hợp riêng của phân tích phương sai hai nhân tố không tương tác (nhân tố khối là nhân tố thứ hai không tương tác với nhân

Việc chia khối thí nghiệm nói chung phụ thuộc vào ñịa ñiểm thí nghiệm Chẳng hạn, cần chia khối thẳng góc với một hướng biến ñộng có ảnh hưởng ñến kết quả thí nghiệm như hướng gió, hướng chảy của nước ngầm, hướng nắng, hướng dốc, hướng thay

ñổi của ñộ phì của ñất sao cho mỗi công thức có mặt một lần ở một mức của biến ñộng

Việc chia khối thí nghiệm cũng có thể phụ thuộc vào thời gian tiến hành thí nghiệm với các tác ñộng của thời tiết Nếu mỗi ngày chỉ làm ñược k thí nghiệm và ta chỉ có r ngày ñể làm tất cả các thí nghiệm, thì cần phải phân chia việc thực hiện các thí nghiệm ra r ngày, như vậy ở ñây ngày là khối

Một cái lợi nữa là trong thiết kế thí nghiệm RCBD có thể chọn khối khác nhau về không gian hoặc khác nhau về thời gian (nhưng không ñược khác nhau quá xa ñến mức có

sự thay ñổi ñiều kiện thí nghiệm) Do ñó, kết luận rút ra có tính khái quát cao hơn khi so với kết luận ñạt ñược trong thiết kế thí nghiệm hoàn toàn ngẫu nhiên (tập trung toàn bộ các thí nghiệm vào một nơi hay cùng một thời gian)

Trang 15

Việc tính toán và kết luận dựa trên mô hình: xij = µ + αi + βj + eij (i = 1, …, k và j =

1, , r), với xij là kết quả của mức i ở khối j, µ là trung bình chung, αi là ảnh hưởng của mức i của nhân tố, βj là ảnh hưởng của khối j, còn eij là sai số ngẫu nhiên Các sai số eijñược giả thiết là ñộc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ2

Các tham số αi và βj ñược coi là thoả mãn ñiều kiện

k i

i 1 =

α

r j

Chọn Tools >Data Analysis >Anova: Two Factor Without Replication sau ñó khai báo tiếp

các thông tin trong hình I.10 và kích OK

Hình I.10 Hộp thoại khai báo ñể phân tích phương sai không tương tác

Ví dụ 6: Bố trí thí nghiệm phân tích nhân tố 1 (có bốn mức) theo khối hoàn toàn ngẫu

nhiên (nhân tố 2 có bốn khối), ta thu ñược các số liệu như trong bảng I.5

Bảng I.5 Số liệu phân tích một nhân tố theo khối ngẫu nhiên

Khối 1 Khối 2 Khối 3 Khối 4 Mức 1 47 52 62 51