Tin học ứng dụng trong ngành nông nghiệp part 2 ppsx

Trang 1

Bước 4 Tiến hành xử lý dữ liệu.,

- Kiểm tra giả thuyết thứ nhất là số liệu thu được tuân theo phân phối chuẩn bằng cách dùng thống kê mô tả và đồ thị ở dạng Boxplots để đánh giá Phân tích thống kê mô tả số liệu bằng cách chọn các muc trong menu Stat >

Basic Statistics > Display Descriptive Statistics Khi dé xuatt hiện hộp thoại

và cân khai báo các mục sau:

+ Variabie: C4 (cột chứa trọng lương tăng) + By variable: C3 (cột chứa tên công thức) + Graphs: chọn các dạng đồ thị + Chọn ÓK Trong cửa số kết quả sẽ xuất hiện kết quả sau: Descriptive Statistics Variable | cong thục | N Mean Median TrMean StDev trong 4 5 0.8900 0.9000 0.8900 0.0418 luong 2 5 042400 0.42000 |0.42400 ‘| 0.01817 3 5 0.7700 0.7500 0.7700 0.0837 tong thuc | SE Mean Minimum | Maximum {| Q1 a3 Variable | 4 0.0187 0.8500 | 09500 | 0.8500 | 0.9250 toon 2 0.00812 0.40000 | 0.45000 | 0.41000 | 0.44000 3 0.0374 0.7000 0.9000 0.7000 0.8500

Nhìn vào bảng kết quả trên ta nhận thấy 3 giá trị Mean, Median, TrMean (trung bình, trung vị, trung bình hiệu chỉnh) là rất gần nhau Như vậy, có thể coi phân phối là chuẩn Để có kết luận chính xác hơn ta có thể áp dụng phần kiểm tra tính chuẩn của các số liệu (ở đây không trình bày) Với

công thức 3 ta thu được kết quả trong hình I.14

Nhìn vào giá trị xác suất P = 0.33! > 0.02, ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận ở mức ý nghĩa 2%

Với công thức 2: giá trị P = 0.57 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Với công thức 1: giá trị P value = 0.27 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Như vậy cả ba công thức đều cho số liệu thoả mãn phân phối chuẩn

Trang 2

Descriptive Statistics Variable: trong luong sử 4s 0eeotiesniod separate ee ase ĐỘ were cc $e Son, wee, aah tbat 1 ' 1 \ 1 1 ' Minimum 0700000 = CN saver ee 0.0000 95% Confidence interval for Mu Maxine (0.990000 ES 3 os + se cer ate ¬ peewee Sor cone rer te

Hìnhi.14 Đồ thị thống kê mô ta trong Minitab

- Kiểm tra giả thuyết thứ hai: Các phương sai đồng nhất Chọn các mục trong menu Stat > ANOVA> Homogeneity of Variances (Test for Equal

Variances) Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau: + Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá) + Factor: cong thue (cột C3 chứa các công thức) + Chon OK Tư đó có kết quả như sau trong cửa số kết quả của Minitab: Homogeneity of Variance

Response trong luong

Factors cong thuc

ConfLvl 95.0000

Trang 3

Phân tích kết quả ta thấy giá tri xdc sudt P-value = 0.031> 0.02, nén ta chấp nhận giả thuyết các phương sai của ba công thức là đồng nhất ở mức ý

nghĩa 2% Như vậy điều kiện thứ hai của mô hình được thoả mãn, ta sẽ đi tiến hành phân tích phương sai

- Tiến hành phân tích phương sai một nhân tố: Bố trí 4 cột đữ liệu như

trên trong các cột CI, C2, C3 và C4 Dùng menu chọn các mục Stat > ANOVA > One-way Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục

như sau:

+ Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá)

+ Factor: cong thuc (cột C3 chứa các công thức)

+ Store residuals: chọn mục này để được cột phần dư (Residuals hay

sai số) giữa giá trị hiệu chỉnh và số liệu thực nhiệm (có tên là RESI trên bảng đữ liệu của Minitab )

+ Store fits: chon muc nay dé duoc cét s6 liệu hiệu chỉnh (có tên là ETTS trên bảng dữ liệu của Minitab)

+ Comparisons: trong mục này chọn mục FISHER để có so sánh F

(FISHER) về tỉ lệ sai lệch

+ Graphs: chon céc muc cé dé thi dang Dotplots of data (đồ thi dang điểm của số liệu), Boxplots of data (đồ thị dạng hộp của số liệu), Residuals plots (đồ thị của sai số phần dư bao gồm Histogram of residuals đồ thị tần số của sai số, Normal plots of residuals đồ thị sai số chuẩn hoá, Residuals

versus fits đồ thị sai số hiệu chỉnh, Residuals versus order đồ thị sai số theo thứ tự của số liệu)

+ Kết thúc chọn ÓOK

Từ đó ta có kết quả sau trong cửa số kết quả của Minitab:

One-way Analysis of Variance

Analysis of Variance for trong lu

Source DF $8 MS F P

cong thu 2 0.58545 0.29273 96.72 0,000 Error 12 0.03632 09,00303

Total 14 0.62177

Individual 95% CIs For Mean

Based on Pooled StDev

Trang 4

Level N Mean StDev 1 5 0.89000 0.04183 2 5 0.42400 0.01817 ( * -) 3 5 0.77000 0.08367 ( * ] ween ens trac nce te ronan te oe Pooled StDev = 0.05502 0.48 0.64 0,80

Fisher's pairwise comparisons Family error rate = 0.116 Individual error rate = 0.0500 Critical value = 2.179

Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F (thực nghiệm) =96.72 > F lý thuyết (2, 12, 0.5), hay giá trị xác suất P = 0 < 0.02 (mức ý nghĩa 2%), ta kết luận các công thức thử nghiệm có ảnh hưởng đến tăng trọng lượng của cá

2.2 Mơ hình khối hồn tồn ngẫu nhiên

Mơ hình hồn tồn ngẫu nhiên có những hạn chế sau: Thiết kế thí nghiệm hoàn toàn ngẫu nhiên đòi hỏi tất cả các đơn vị thử nghiệm là giống nhau trước khi phép thử nghiệm được áp dụng Trên thực tế thường không có đủ các đơn vị thử nghiệm đảm bảo cho điều này Nếu có biến sai số hệ thống trong các đơn vị thử nghiệm và chúng ta không chú ý tới điều này thì kết luận cuối cùng có thể không thật chuẩn xác Chẳng hạn xét một thiết kế thí nghiệm hoàn toàn ngẫu nhiên đã được dùng để đánh giá sản lượng một vụ thu hoạch lúa với ba phép thử nghiệm (công thức trồng trọt) A, B, C Giả sử rằng một phần của các mảnh ruộng ẩm ướt hơn vì ở gần một cái rạch nước Trong trường hợp này nếu dùng mô hình hoàn toàn ngẫu nhiên thì sẽ không

chính xác

Thiết kế khối hoàn toàn ngẫu nhiên sẽ khắc phục được các hạn chế của mơ hình hồn toàn ngẫu nhiên như đã nêu ở trên Trong mô hình khối hoàn toàn ngẫu nhiên, chúng ta cần nhóm các đơn vị thử nghiệm giống nhau thành một nhóm Những nhóm này được gọi là các khối Trong mỗi khối các phép thử nghiệm được tiến hành trên các đơn vị được chọn ngâu nhiên Chúng ta sử dụng thuật ngữ “khối hoàn toàn ngẫu nhiên” bởi vì mỗi khối chứa tất cả các phép thử nghiệm có thể có

a Yêu câu của mô hình

Trang 5

Cần kiểm tra hai giả thuyết: dữ liệu tuân theo phân phối chuẩn và các phương sai đồng nhất Với hai phép thử nghiệm (công thức thử nghiệm) và thiết kế mỗi khối có hai đơn vị thử nghiệm thì đó là thiết kế cặp đôi Lúc này, hai phép thử nghiệm được định vị ngẫu nhiên với mỗi một cặp (ví dụ dùng gieo đồng xu) và số liệu sẽ được phân tích bằng kiểm định t cặp đôi quen biết Khi có từ ba phép thử nghiệm trở lên, chúng ta dùng phân tích phương sai Mỗi khối sẽ chứa số đơn vị thử nghiệm bằng số phép thử nghiệm (hoặc là bội số của số phép thử nghiệm)

b Các bước tiến hành

Bước 1 Thiết kế thí nghiệm theo mơ hình khối hồn tồn ngẫu nhiên.Trước tiên phải xác định số công thức thử nghiệm, số khối Sau đó tạo ra dãy số ngẫu nhiên gắn với các đơn vị thử nghiệm trong khối

Bước 2 Tiến hành các phép thử nghiệm trên các đơn vị thử nghiệm đã

xác định ứng với các khối

Bước 3 Thu thập các dữ liệu trên đơn vị thử nghiệm theo yêu cầu phân tích, theo thời gian cần thiết

Bước 4 Tiến hành xử lý dữ liệu Trước hết cân kiểm tra hai giả thuyết của mơ hình hồn tồn ngẫu nhiên là: dữ liệu tuân theo phân phối chuẩn và phương sai của các nhóm là đồng nhất Sau đó tiến hành phân tích phương sai một nhân tố

Bước 5, Rút ra kết luận trên các kết qua thu được

Ví dụ 13 Nghiên cứu các loại thuốc ảnh hưởng đến số lượng bạch

cầu (1000 tế bào trên 1/1000 mm khối máu) Nhân tố khối: lứa đẻ (5 lứa đẻ),

nhân tố phép thử nghiệm: thuốc (4 công thức) Mô hình được diễn đạt như

sau: Đữ liệu (đếm tế bào) = (trung bình chung lượng tế bào) + (tác động của lứa đẻ) + (tác động cuả thuốc) + sai số

Mơ hình tốn là: y„ = +, +/,+£,, trong đó: ¿ = trung bình chung lượng tế bào, #z, = tác động của lứa dé i (i nhận giá trị từ 1 tới 5),

/, = tác động của thuốc j (nhận giá trị từ 1 tới 4), z„ = sai số ngẫu nhiên Bước I Thiết kế thí nghiệm theo khối hoàn toàn ngẫu nhiên

- Tạo cột số thứ tự trong cot Cl với tên cột là 'UNTT' (ứng với các phép thử nghiệm a, b, c, d), bằng cách dùng menu, chọn các mục Cac >

Moke Patterned Data > Arbitrary Set oƒ Nưmbers Khi đó sẽ xuất hiện hộp

thoại và cần khai báo các mục như sau:

Trang 6

+ Store patterned data in: C] (c6t chita sé tir 1 dén 4 ứng với 4 phép thử là 4 loại thuốc)

+ Arbitrary set of numbers: 1:4(gid tri số điển vào cột C1 từ 1 đến 4) + List each value: 1 (số lần lập mỗi gid tri)

+ List the whole sequence: I (s6 lan lap lai cac gid tri)

+ Kết thúc chọn ÓK

- Tạo cột số ngẫu nhiên ở cột C2 (với 4 phép thử nghiệm), cột này là

khối 1, bằng cách dùng Menu, chọn các mục Cale > Random Data >

Sample from Columns Khi đó sẽ xuất hiện hộp thoại và cần khai báo các

mục như sau:

+ Sample: 4 (tạo 4 mẫu)

+ Columns : CI (cot chita cdc thử nghiệm tương ứng) + Store samples in: C2 (cột chứa dấy số ngẫu nhiên) + Kết thúc chọn OK

- Tương tự như làm cho cột C2, tạo các cột số ngẫu nhiên cho các cột C3, C4, C5, Có cho các khối 2, 3, 4,5 Đạt tên cho C2 la ‘BLOCK 1’ , C3 la ‘BLOCK 2’ , C4 14 ‘BLOCK 3” , C5 la ‘BLOCK 4’ , C6 là 'BLOCK 5°

- Hiện dữ liệu trong các cột bằng cách dùng Menu, chọn các mục Manip > Diplay Data Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Kích chuột chọn các cột dữ liệu: C1, C2, C3, C4, C5, Có

Bước 2 Thực hiện các thử nghiệm theo mô hình đã in ra

Trang 7

- Nhập các dữ liệu trên vào các cột tương ứng trong cửa sổ nhập liệu

Sau đó xếp chồng dữ liệu trên 1 cột (Litter 1, rồi đến Litter 2 ) bằng cách

dùng menu, chọn các muc Manip > Stack/Unstack > Stack Columns .Khi đó sẽ xuất hiện hộp thoại và cần thực hiện các bước sau:

+ Kích chuột chọn các cột dữ liệu Litter 1, Litter 2, Litter 3, Litter 4 và

Litter 5

+ Store the stacked data in: C6 (dit liệu chồng trong cột C6) + Store subscripts in: C7 (chi số lứa đẻ trong cét C7) + Kết thtic chon OK

- Tạo một cột số C8 để ghi loại thuốc từ 1 đến 4 bang cach ding menu,

chon cdc muc Cale > Make Patterned Data > Arbitrary Set of Numbers

Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Store patterned data in: C8 (cột chứa số từ 1 tới 4 ứng với loại thuốc)

+ Arbitrary set of numbers: 1: 4 (giá trị số điển vào cột từ 1 đến 4)

+ List each value: } (s6 lan lap méi gié tri)

+ List the whole sequence: 5 (s6 lan lặp lại các giá trị cho 5 lứa đẻ) + Kết thúc chọn ÓK

~ Đặt tên cho các cột Có, C7, C8: gỗ vào các ô tên cét C6 ‘Count’, C7 ‘Litter’ và C8 ‘Drug’ Muén hiện dữ liệu, ta dùng menu, chọn các mục sau: Manip > Display Data .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Kích chuột chọn các cột dữ liệu: C6, C7, C8 + Kết thúc chọn ÓK

Bước 4 Tiến hành xử lý dữ liệu

- Kiểm tra hai giả thuyết của mô hình hoàn toàn ngẫu nhiên là dữ liệu theo phân phối chuẩn và phương sai của các nhóm đồng nhất theo các bước sau:

+ Kiểm tra tính chuẩn: đặt tên cot C9 la ‘RESID’, C10 1a ‘FIT? va vẽ

đổ thị sai số trong cột C9 dạng hộp bằng cách chọn Graph > Character

Trang 8

Graphs > Boxplot Can khai bio: Variable C9 (cột chứa sai số), By variable C8 (cột chứa loại thuốc) và chon OK để kết thúc Minitab sẽ cho đồ thị như sau: — + -RESID -0.36 -0.24 -0.12 0.00 0.12 0.24

Ta thấy sự phân bố xuất hiện đối xứng nên đữ liệu có tính chuẩn (khi

xem đồ thị sai số đã chuẩn hoá, nếu các điểm hầu như nằm trên một đường thẳng thì giả thuyết sai số tuân theo phân phối chuẩn)

+ Kiểm tra tính đồng nhất của phương sai: ta có thể kiểm tra tính đồng nhất của phương sai trong việc tính các thống kê cho sai số (cột C9) bằng

cach chon cdc muc Stat > Basic Statistics > Display Descriptive Statistics Khi đó xuất hiện hộp thoại và cần khai báo các mục: Variable C9 (cột chứa sai số), By variable C8 (cột chứa tên thuốc), va chon OK dé nhận được kết quả tính các thống kẽ Descriptive Statistics Variable Drug N Mean Median TrMean StDev RESID 1 5 -0.0000 0.0200 ~0.0000 0.1915 2 5 -0.0000 0.0460 -0.0000 0.1555 3 5 -0.0000 0.1050 -0.0000 0.2011 4 5 -0.000 0.105 -0.000 0.241 Variable Drug SEMean Minimum Maximum = Q1 Q3 RESID 1 0.0857 0.2550 0.2700 -0.1675 0.1576 ` 2 0.0696 -0.2550 0.1200 -0.1425 0.1200 3 0.0899 -0.3200 0.1800 _ -0.1950 9.1425 4 0.108 -0.320 0.280 0.245 0.192

Nhìn vào kết quả ta thấy độ lệch chugn mau (StDev) Ia gần bằng nhau, do vậy giả thuyết độ lệch chuẩn hay phương sai bằng nhau được chấp nhận

- Tiến hành phân tích phương sai cân đối bằng cách dùng menu, chọn

các mục §/at > ANOVA > Balanced ANOVA .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:

+ Responses: Count (cét C6 chứa số liệu)

+ Model: Litter, Drug (cột C7, C8 chứa lứa đề và thuốc)

Trang 9

+ Graphs: chon céc muc có đồ thị

+ Storage: chon Fits để được số liệu hiệu chinh, chon Residuals dé được cột sai số

- Kết quả phân tích phương sai như sau:

Analysis of Variance (Balanced Designs)

Factor Type Levels Values Litter fixed 5 1 2 3 4 5 Drug fixed 4 1 2 3 4 Analysis of Variance for Count Source DF ss MS F P Litter 4 6.4030 1.6007 30.16 0.000 Drug 3 ở 1/8455 0.6152 11.59 0.001 Error 12 0.6370 0.0531 Total 19 8.8855 Means Drug N Count 1 5 6.4200 2 5 5.7200 3 $ 6.0800 4 5 5.8600

Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F=30.16 >

F tý thuyết, hay giá trị xác suất P.= 0< 0.05 (mức ý nghĩa 5%), ta kết luận

các loại thuốc ảnh hưởng đến số lượng bạch cầu 2.3 Thiết kế nhân tố

Có thể tiến hành thiết kế nhân tố theo hai kiểu chính: kiểu đẩy đủ tổng quát (General Full Factorial Design) cho phép mỗi nhân tố có từ hai mức trở lên và kiểu hai mức (Two-Level Factorial Design), mỗi nhân tố chỉ có hai mức

Trang 10

Vi du 14 Xét vi du 13 và phương pháp giải quyết tat va ngdn gon hơn thông qua thiết kế nhân tố Chúng ta có thể thiết kế thí nghiệm khối hoàn toàn ngẫu nhiên theo kiểu thiết kế nhân tố đầy đủ tổng quát với hai nhân tố

không tương tác (không lặp)

a Tạo ra thiết kế nhân tổ đây đủ tổng quát

- Chon Stat > DOE > Factorial Design >Create Factorial Design - Chon General full factorial design Trong muc Number of factors nhập 2 (hai nhân tố: nhân tố A và nhân tố B)

- Trong muc Design nhap vao cot tén nhan té A 1a Litter, tên nhân tố B 1a cong thuc, nhap vao cot Number of levels các số 5 và 4 (các mức của

hai nhân tố) Trong mục Number of replicates nhập 1, nên ngầm định chỉ có một cột khối ngẫu nhiên giả (Blocks) Chú ý rằng nếu số lặp nhiều hơn 1, thì ta thật sự có từ hai khối ngẫu nhiên trở lên

- Trong mục Opon, đánh đấu Randomize runs và Store design in worksheet, trong muc Base for random data generator nhap s6 9 (luén nhap một số cố định làm hạt mầm cho hàm sinh số ngẫu nhiên) Kích OK trong

mỗi hộp thoại để nhận được thiết kế nhân tố cho hai nhân tố Litter và cong

thuc

Sau khi tiến hành các phép thử nghiệm trên các cá thể, ta nhập các số

liệu mau vao cét bachcau, chon Manip > Display Data sé c6é két qua sau trong cửa số kết quả của Minitab Nhu vay ching ta đã hoàn thành xong các bude 1,2 va 3 ở mục 2.2 trên day Chú ý rằng, ta cần hiểu con thứ 1 của lứa

1 ứng với công thức 2, con thứ 2 của lứa 1 ứng với công thức 4, con thir 1

của lứa 5 ứng với công thức 2, ., con thứ 5 của lứa 5 ứng với cơng thức Ì

(đây là cách làm tất để áp dựng các công thức một cách ngẫu nhiên trong

từng lứa đẻ)

Trong bảng trên, cột đầu là cột số thứ tự, cột thứ hai là cột thứ tự chuẩn tiến hành các phép thử nghiệm, cột thứ ba là cột thứ tự ngẫu nhiên tiến hành các thử nghiệm, cột thứ tư là cột Blocks (khối ngẫu nhiên chỉ dùng cho thiết kế thí nghiệm từ hai nhân tố trở lên theo kiểu khối hoàn toàn ngẫu nhiên,

trong trường hợp này không dùng đến), trong hai cột sau là các tổ hợp các

mức của (Litter, congthuc), cột cuối là cột các số liệu thực nghiệm thu được về bạch cầu (response)

Trang 11

g 2 StdOrder RunOrder Blocks Litter congthuc bachcau 1 2 1 1 1 2 6.7 2 18 2 1 5 2 5.8 3 4 3 1 1 4 6.7 4 3 4 1 1 3 T.1 5 1 5 1 1 1 71 € 20 6 1 5 4 5.3 7 14 1 1 4 2 5.1 8 9 8 1 3 1 6.9 9 7 9 1 2 3 5,8 10 10 10 1 3 2 5.9 13 6 11 1 2 2 5,1 12 12 12 1 3 4 5.7 13 15 13 1 4 3 5.0 14 13 14 1 4 1 5.6 15 19 15 + 5 3 6.2 16 16 16 1 4 4 5,2 17 5 17 1 2 + 6.1 18 11 18 1 3 3 6.2 19 8 19 1 2 4 5.4 20 17 20 1 5 1 6.4

b.Phân tích thiết kế nhân tố đây đủ tổng quát

- Mở tệp dữ liệu BACHCAU.MTW đã có trên đây

- Chon Stat > DOE > Factorial Design > Analyze Factorial Design - Trong muc Responses nhập cột bachcau

- Kích Graphs, tong muc Effects plots danh dấu Normal va Pare’ 10

Trong mục Aipha (mức ý nghĩa của kiểm định) nhập 0.05 Kích OK trong

mỗi hộp thoại để nhận được kết quả sau:

General Linear Model: bachcau versus Litter, cthuc

Factor Type Levels Values

Litter fixed 5 12345

cthuc fixed 4 1234

analysis of Variance for bacheau, using Adjusted SS for Tests

Trang 12

Có thể thấy các kết quả trên hoàn toàn trùng với các kết quả trong mục 2.2 ngoài ra, có thể kiểm tra giả thuyết về tính chuẩn của số liệu thông qua đồ thị kiểm tra tính chuẩn của phần dư (xem hình 1.15.)

Normal Probability Piot of the Residuals (response is bachcau) Normal Score ° 03 02 O41 0.0 01 02 0: Residual

Hình !.15 Đồ thị xác suất chuẩn của phần dư

‘Vi dụ 15 Phân tích phương sai ba nhân tố tương tác (có lặp) theo khối hoàn toàn ngẫu nhiên Cần thiết kế thí nghiệm theo 2 khối hoàn toàn ngẫu

nhiên với ba nhân tố để xem chúng có ảnh hưởng như thế nào dén nang suất (và cả chi phi) Nhan tố 1 có hai mức 20 và 50, nhân tố 2 có hai mức 150 và

200, nhân tố 3 có hai mức định tính A và B Trong trường hợp này, chúng ta

có thể tạo ra thiết kế nhân tố đầy đủ tổng quát giống như trong ví dụ vừa xét, lúc đó kết quả được đưa ra với hình thức tương tự (Mô hình tuyến tính tổng

quat General Linear Model và bảng phân tích Anova) Tuy vậy, chúng ta chọn cách sau đây:

Tạo ra thiết kế nhân tố đây đủ hai mức (vì mỗi nhân tố chỉ có hai mức) bằng cách:

- Chon Stat > DOE > Factorial Design > Create Factorial Design - Chon 2-level factorial (default generator) Trong myc Number of

Trang 13

- Trong muc Design chon Full ‘factorial va ttong muc Number of replicates nhap 2, trong muc Number of blocks nhap 2

- Trong muc Factor sita lai ten céc nhan to 1a Factorl, Factor2 và Factor3, nhập lại các mức của các nhân tố

- Trong muc Option, dinh dau Randomize runs va Store design in

worksheet, trong muc Base for random data generator nhập số 9 (luôn nhập

một số cố định làm hạt mâm cho hàm sinh số ngẫu nhiên) Kich OK trong mỗi hộp thoại để nhận được thiết kế nhân tố hai mức đầy đủ theo kiểu khối hoàn toàn ngẫu nhiên

Sau đó, nhập các số liệu thực nghiệm về năng suất và chỉ phí vào các cột tiếp theo, như minh hoạ trên hình I.16 43.2978 28 150 B 45.1631 33.0854 200 8 45.3297 35.2461 200 B 48.6720 37.4261 150 A 45.3932 - 28.7501 200 A 44,8891 «30.7473 200 A 49.0645 < 32.3437 180 B 43.0617 30.2104 150 A | 42.7636 27.5306 200 A ˆ 46.1831 © 31.0513 150 B 45.5991 32.6394 200 B 49.2040 36.8941 180 A 44.7592 29.3841 150 B 43.3937 30.5424 200 B 44,7077 34.6241 200 A 48.4665 31.7457 Bee SSN NNNNNN BxySsssssssssss

Hình I.16.Cửa số nhập liệu trong thiết kế đẩy đủ 2-mức khối hoàn toàn ngẫu nhiên

Tién hành phân tích thiết kế nhân tố đây đủ hai mức: - Mở tệp dữ liệu VSCP.MTW đã có trên đây

- Chon Stat > DOE > Factorial Design > Analyze Factorial Design

- Trong muc Responses nhap cot Nsuat

- Kich Graphs, trong muc Effects plots đánh dấu Normal va Pareto

Trong mục Aipha (mức ý nghĩa của kiểm định) nhập 0.05 Kích ÓK trong mỗi hộp thoại để nhận được kết quả sau:

Trang 14

Fractional Factorial Fit: nangsuat versus Factort, Factor2, Factor3

Estimated Effects and Coefficients for Nauat(coded Coef SE Coef units) T P 5592 0.09546 477.25 0.000 0484 0.09546 -0.51 0.628 4797 0.09546 15,50 0.000 3816 0.09546 14.47 0.000 0809 0.09546 0.85 0.425 4312 0.09546 4.52 0.003 0372 0.09546 0.39 0.708 0434 0.09546 -0.45 0.663 0115 0.09546 0.12 0.907 units) Ad} SS Adj MS F P 0.0374 0.0374 0.26 0.628 5.6780 21.8927 150.15 0.000 3.0273 1.0091 6.92 0.017 9.0021 0.0021 0.01 0.907 1.0206 0.1458 Alias Structure 1 Blocks = Factorl Factor2 Factor3 Factorl*Factor2 Factori*Factor3 Term Effect constant 45 Block -0 Factorl 2.9594 1 Factor2 2.7632 1, Factor3 0.1618 0 Factorl*Factor2 0.9624 0 Factori*Factor3 0.0744 0 Factor2*Factor3 ~0.0867 -~0 Factorl*Factor2*Factor3 0.0230 0 Analysis of Variance for Nsuat (coded Source DF seq SS Blocks 1 0.0374 Main Effects 3 65.6780 6 2-Way Interactions 3 3.0273 3-Way Interactions 1 0.0022 Residual Error 7 1.0206 Total 15 69.7656 Estimated Coefficients for Neuat using data in uncoded unite Term Coef Constant 39.4786 Block ~0.0483750 Factorl ~0.102585 Factor2 0.0150170 Factor3 0.48563 Factor1*Factor2 0.00114990 Factorl*Factor3 ~0.0028917 Factor2*Factor3 -0.00280900 FactorL*Factor2*Factor3 0.000030700 Factor2*Factor3 Factor1*Factor2*Factor3 Normal Probability Plot of the Standardized Effects

Trang 15

Pareto Chart of the Standardized Effects

(response is Nsuat, Alpha = 05)

9 5 10 18

Hình I.18 Biểu đồ Pareto các ảnh hưởng

Có thể giải thích ý nghĩa các kết quả như sau:

~ Bảng ước lượng (cho biết khoảng ước lượng 95% và kiểm định t mức ý nghĩa 5%) các hệ số ảnh hưởng của các nhân tố và tác động tương tác của chúng lên năng suất và bảng phân tích phương sai cho biết các ảnh hưởng của nhân tố khối và tác động tương tác kết hợp của cả ba nhân tố Factorl, Factor2, Factor 3 đều không có ý nghĩa Trong khi đó tổng tác động riêng rẽ của cả ba nhân tố và tổng tác động tương tác của từng cặp nhân tố lại có ý nghĩa (tuy vậy ảnh hưởng của riêng Factor 3 và của tác động tương tác của hai cặp Factor!*Factor3 và Factor2*Factor3 lại không đáng kể)

~ Hệ số ảnh hưởng của nhân tố khối không có ý nghĩa chứng tỏ dữ liệu thu thập theo khối không ảnh hưởng tới năng suất

- Đồ thị xác suất chuẩn của các ảnh hưởng quy chudn (Normal Probability Plot of the Standardized Effects) trén hinh 1.17 cho biết các nhân

16 A (Factor), B (Factor2) va tac động tương tác của chúng là đáng kể nhất,

vì chúng có hệ số ảnh hưởng quy chuẩn lớn và nằm cách xa đường thẳng dự báo Biểu đồ Pareto của các ảnh hưởng quy chuẩn (Pareto Chart of the Standardized Effects) trén hinh 1.18 cũng cho kết luận trên

Trang 16

3 Phân tích thống kê nhiều chiều

Minitab cung cấp các công cụ rất mạnh về phân tích dữ liệu nhiều chiều thu được khi chúng ta khảo sát và đo nhiều đặc tính của các cá thể trên một quần thể nhất định Tuỳ theo mục đích đẻ ra, chúng ta có thể lựa chọn phương pháp phân tích thống kê nhiêu chiều thích hợp:

- Phân tích cấu trúc (hiệp phương sai) của dữ liệu nhằm hiểu rõ về mối tương quan giữa các chiều của đữ liệu, từ đó có thể tìm cách rút gọn số chiều của dữ liệu Để làm điều này, chúng ta có thể sử dụng các công cụ của Minitab là Phân tích thành phần chính và Phân tích nhân tố (cần chú ý rằng thuật ngữ “nhân tố” ở đây có ý nghĩa khác với nội dung ở phần phân tích phương sai một nhân tố, hai nhân tố hay thiết kế nhân tố .)

- Các phương pháp phân nhóm các dữ liệu nhiều chiều bao gồm: Phân

loại (discriminant analyis), Phan cum dit liệu, Phân cum các biến và Phan

cụm K-trung bình

3.1 Phản tích thành phần chính

Để khảo sát một quần thể, chúng ta dùng phương pháp mẫu Chẳng hạn, như trong ví dụ 16, chọn ra một mẫu 14 cá thể, trên mỗi cá thể ta phí các chỉ số của năm đặc tính A, B, C, D và E Như vậy ở đây chúng ta quan

Trang 17

a Các bước thực hiện

~ Mở tiệp dữ liệu PTich_TPC.MTW bao gồm 5 cột dữ liệu A, B, exp

va E

- Chon Stat>Multivariate> Principal Components, - Trong muc Variables chon các cột dữ liệu

- Nếu muốn, ta có thể chọn một hoặc nhiều hơn các lựa chọn khác trong hộp thoại (như chon Correlation trong muc Type Matrix, chon Eigenvalue (Scree) plot trong muc Graph), sau đó kich OK

Minitab cho ta két qua sau như trên hình I.19 Principal Component Analysis: A, B, €, D, E Figenvalue Figenanalysis of the Correlation Matrix proportion 3.0269 0.606 1.291 0.258 0.5725 0.114 0.0954 0.0121 0.019 goad Cumulative 0.606 0.864 0.976 0.996 tone Pc2 Pca Pca Pcs 70.131 629 -0.549 0,008 0.551 0.606 -0.453 0.007 0.004 0.117 0.268 0.769 -310 0.455 -0.648 0,201 0.701 0.691 0.015 0.014 ate es Variable a Scree Plot of A-E Eigenvalue ‘Component Number Hình I.19 Các cửa sổ Minitab khi phân tích thành phần chính

Kết quả phân tích thành phan chính như sau:

Principal Component Analysis: A, B, C, D, E

Eigenanalysis of the Correlation Matrix

Trang 18

Eigenvalue 3.0289 1,2911 0.5725 0.0954 0.0121 Proportion 0.606 0.258 0.114 0.019 0.002 Cumulative 0.606 0.864 0.978 0.998 1,000 Variable Pel PC2 PC3 PC4 PCS A -0.558 -0.131 0.008 0.551 ~0 606 B -0.313 ~0.629 -0.549 -0.453 0.007 Cc -0.568 -0.004 0.117 0.268 0.769 D -0.487 0.310 0.455 -0.648 -0.201 E 0,174 -0,701 0.691 0.015 0.014

b Phân tích kết quả nhận được

‘Thanh phần chính PC] có phương sai (giá trị riêng) là 3.0289 và chiếm tới 60.6% của tổng phương sai Các hệ số của cột PCI cho biết: PCI = - 0.558A-0.313B-0.568C-0.487D+0.174E Chú ý rằng các hệ số của A, B, C,

D đều không sắt 0 Điều này có thể được cắt nghĩa (một cách chủ quan) như sau: Thành phần chính thứ nhất biểu diễn các mức của các đặc tính A, B, C dưới tác động ảnh hưởng của đặc tính D

Trong khi đó, thành phần chính thứ hai có phương sai là 1.2922 và chiếm tới 25.8% độ biến động của dữ liệu Nó phản ánh mức độ tương phản giữa đặc tính B và E đối với đặc tính D

Hai thành phần chính trên PCI và PC2 chiếm tới 97.8% độ biến động toàn phần, nên cấu trúc dữ liệu có thể được thể hiện phần lớn bởi hai chiều trên Các thành phần chính còn lại chiếm tỷ trọng biến động bé nên có thể bỏ qua Điều này cũng được thể hiện khá rõ trên biểu đồ các giá trị riêng

trong hình 1.14 (Seree plot of A-E)

Về mặt toán học, các thành phần chính PCI, PC2, PC3, PC4 và PC5

không tương quan với nhau (chúng có ma trận tương quan hay ma trận hiệp

phương sai dạng đường chéo chính) Nói cách khác, véc tơ ngẫu nhiên X đã được phân tích dưới dạng sau: X = E(X) + PVTX, trong đó Pc là ma trận với các cột là các vec tơ thành phần chính Trong trường hợp tổng quát phân tích thành phần chính, các giá trị riêng luôn có giá trị cố định, còn các véc tơ thành phân chính có thể thay đổi tuỳ theo thuật toán phân tích thành phần chính được sử dụng

3.2 Phân tích nhân tố

Trang 19

việc tổng hợp cấu trúc hiệp phương sai của dữ liệu với số chiều ít nhất Tuy nhiên, phân tích nhân tố chú trọng đặc biệt tới việc tìm ra các nhân tố ảnh hưởng nhiều nhất tới sự biến động toàn phần của đữ liệu

4 Phân tích nhân tố bằng phương pháp thành phần chính

Vi du 17, Cac dữ liệu như ví dụ 16 Cần thực hiện phân tích nhân tố bằng phương pháp thành phần chính Ta tiến hành các bước sau:

- Mỏ tệp Píích TPC.MTW

- Chon Stat>Muttivariate>Factor Analysis

- Trong muc Variables, chon A, B, C, D va E

- Kich vao Graph va chon Eigenvalue (Scree) plot Két thiic kich OK

trong mỗi hộp thoại Ta thu được kết qua sau:

Results for: PTich_TPC.MTW ,B,C,D,E

Factor Analysis:

Principal Component Factor Analysis of the Correlation Matrix Unrotated Factor Loadings and Communalities

Variable — Factor1 Factor2 Factor3 Factor4 Factor5 Communality A -0.972 -0.149 0.006 0.170 -0.067 1.000 B -0.545 -0.715 -0.415 -0.140 0.001 1.000 € -0.989 -0.005 0.089 0.083 0.085 1.000 D -0.847 0.352 0.344 -0.200 -0.022 1.000 E 0.303 -0.797 0.523 0.008 0.002 1,000 Variance 3.0289 1/2911 0.5725 0.0954 0.0121 5.0000 % Var 0.606 0.258 0.114 0.019 0.002 1.000

Factor Score Coefficients

Trang 20

Kết quả trên có thể được phân tích như sau:

- Số nhân tố được chọn là 5, do đó giá trị liên kết (Communality) cho

các đặc tính A, B, C, D và E đều là 1 Điều này có nghĩa là tỷ trọng % biến động của mỗi biến được giải thích bởi các nhân tố đã chọn đều là 100% Các

véc tơ nhân tố đếu có phương sai tương ứng giống như thu được trong phân

tích thành phần chính, và các phương sai này sẽ giải thích tỷ trọng % biến động do các nhân tố gây nên Ta thấy hai nhân tố đầu giải thích được tới 96.4% biến động của dữ liệu

- Đối với véc tơ nhân tố l ta có công thức: Factorl = PCIx 3.0289/ JPCI, với JPCH| là độ dài của véc tơ PC], Các công thức tương tự cũng

đúng với các nhân tố còn lại Tóm lại, các giá trị riêng (hay phương sai) của các véc tơ nhân tố đều bất buộc bằng 1, nên độ đài của các véc tơ nhân tố cũng chính bằng các phương sai tương ứng của các véc tơ thành phần chính Trong cac cot 6 phan Factor Score Coeficients, ta c6é các véc tơ nhân tố đã được chuẩn hoá (có độ dài bằng 1)

b Phân tích nhân tố sử dụng phương pháp hợp lý cực đại và phép quay

Theo định nghĩa, các véc tơ nhân tố phải có phương sai (giá trị riêng)

là 1, vì vậy chúng được xác định chính xác tới một phép biến đổi trực giao hay còn nói là một phép quay Trong phân tích nhân tố, sau khi thực hiện

phương pháp thành phần chính với số nhân tố không rút gọn (bằng 5 trong ví dụ trên), chúng ta sẽ rút gọn số nhân tố

Phương pháp hợp lý cực đại được sử dụng để tìm ra các nhân tố có ảnh hướng nhất tới biến động của dữ liệu, sau khi đã chọn ra số nhân tố cần để lại Đồng thời cần lựa chọn phép quay thích hợp (có bốn phương pháp quay, thông thường chọn varimax để cực đại hoá phương sai của các nhân tố hoặc equimax để các biến được tập trung chủ yếu vào một nhân tố)

Ví dụ 18 Ta dùng dữ liệu của ví dụ L7 và tiến hành phân tích nhân tố

Trang 21

- Trong muc Method of extraction chon Maximum likelihood - Trong muc Type of rotation chon Varimax

- Kich Graph, chon Loading plot for first 2 factors, khong chon Eigenvalue (Scree) plot Kich OK Kich Results, chon Sort loading Sau

cùng, kich OK trong mỗi hộp thoại để nhận được kết quả phân tích nhân tố Trên hình L20 là các cửa sổ Minitab khi phân tích nhân tố bằng

phương pháp hợp lý cực đại và phép quay Varimax Variance % Yar 2.9678 0.594 1.0159 0.203 3.9837 0.797 Rotated Factor Loadings and Couaunalities Vatimax Rotation Variable Factor! —Factor2 Communality a 0.718 0.673 0.968 B -0.052 0.967 0.938 Load Plot of A-E c 0.831 0.556 1.000 D 0.924 0.143 0.815 Loading Plot of AE : -0.415 0.173 0.202 Variance 2.2354 1.7483 3.9837 % Yer 0.447 0.350 0.797 Sorted Rotated Factor Loadings and Communelitie Second Factor Fist Factor

Hinh 1.20 Phan tích nhân tố với phép quay Varimax trong Minitab

Kết quả phân tích nhân tố lúc này như sau:

Results for: PTich_TPC.MTW Factor Analysis: A, B, C, D, E

Trang 22

Unrotated Factor Loadings and Communalities Variable > øa 0 Variance % Var Varimax Rotat: variable A moo D Variance % Var Variable oH pao Variance % Var Factor Score Coefficients Variable F zB Factor Factor2 Communality 0.971 0.160 0.968 0.494 0.833 0.938 1.000 0.000 1.000 0.848 -0.395 0.875 -0.249 0.375 0.202 2.9678 1.0159 3.9837 0.594 0.203 0.797 Rotated Factor Loadings and Communalities ion Factorl Factor2 Communality 0.718 0.673 0.968 -0.052 0.967 0.938 0.831 0.556 1.000 0.924 0.143 0.875 ~0.415 0.173 9.202 2.2354 1.7483 3.9837 0.447 0.350 0.797

Sorted Rotated Factor Loadings and Communalities Factorl Factor2 Communality 0.924 0.143 0.875 0.831 0.556 1.000 0.718 0.673 0.968 ~0.415 0.173 0.202 ~0.052 0.967 0.938 2.2354 1.7483 3.9837 0.447 0.350 0.797 actorl Factor2 ~0.165 0.246 -0.528 0.789 1.150 0.080 0.116 -0.173 ~0.018 0.027 nou ow

Kết quả trên bao gồm ba bảng phân tích nhân tố: không sử dụng phép quay, có sử dụng phép quay, sử dụng phép quay và sấp xếp lại với các ý

nghĩa như sau:

Trang 23

- Các nhân tố không quay (bảng đầu tiên) giải thích được 79.7% biến động toàn phần của đữ liệu Biến A có độ kết nối (communality) là 0.968 có nghĩa là A đực giải thích bởi hai nhân tố đã chọn ở mức 0.968 Tương tự ta cắt nghĩa được các giá trị kết nối khác Nói chung, các biến đều được biểu

diễn khá tốt thông qua hai nhân tố đã chọn trừ trường hợp biến E

- Các nhân tố thu được bằng phép quay Varimax (bảng thứ hai) cũng giải thích được tới 79.7% như ở bảng đầu, tuy nhiên sau khi quay các nhân tố trở nên cân bằng hơn về mức giải thích biến động của đữ liệu Nếu sắp xếp lại theo theo chiều toạ độ giảm dân của véc tơ nhân tố † thì ta có bảng thit ba Quan sat biéu dé Load Plot A-E trén hinh 1.20 có thể thấy nhân tố 1 có mức nạp các biến A, C và D cao, còn nhân tố 2 là các biến A, B và C, Như vậy, nhân tố I có thể coi là nhân tố phản ảnh mối quan hệ (A, C, D), còn nhân tố 2 phản ánh mối quan hệ (A, C, B) Trong khi đó tương quan (D, B) là tương đối yếu

~ Chuẩn hoá các véc tơ nhân tố ta có bảng hệ số điểm nhân tố đạt được

(factor score coefficients) Khi có bộ dữ liệu mới về véc tơ ngẫu nhiên X, ta

chỉ việc lấy các hệ số trên nhân với dữ liệu đã được quy gốc về véc tơ kỳ vọng để tính điểm đạt được của các nhân tố

3.3 Phân loại

Chúng ta sử dụng giải tích phân loại để phân loại các đữ liệu quan sát

được vào hai hay nhiều nhóm, nếu như đã có mẫu thực nghiệm với các nhóm

đã biết Minitab cho phép phân loại theo hai cách: Phân loại tuyến tính và

phân loại toàn phương Chúng ta đi sâu vào phân tích phân loại tuyến tính,

lúc này cần giả thiết rằng các nhóm đều có chung ma trận hiệp phương sai Ví dụ 19, Để phân loại cá hồi nguồn gốc từ Alaska hay từ Canada, người ta theo dõi 50 con gốc Alaska, 50 con gốc Canada và tiến hành đo

vòng tăng trưởng cho các giai đoạn chúng sống trong nước ngọt và nước

biển Số liệu mẫu thu thập được như sau:

Số Nguồn Nước Nước Số Nguồn Nước Nước

Trang 25

Tiến hành phân loại trong Minitab theo các bước: - Mở tệp dữ liệu EXH_MVAR.MTW

- Chon Stat > Multivariate > Discriminant Analysis

- Trong mục Group, chọn cot Nguon goc trong muc Predictor chon cde c6t Nuoc ngot và Nuoc bien Kích ÓOK để thu được kết quả sau trong

cửa sổ kết quả

Discriminant Analysis: Nguon goc versus Nuoc ngot, Nuoc bien

Linear Method for Response: Nguon go Predictors: Nuoc ngo Nuoc bie

Group Alaska Canada

Count 50 50

Summary of Classification

Put into «- True Group

Group Alaska Canada Alaska 44 1 Canada 6 49 Total N 50 50 N Correct 44 4g Proportion 0.880 0.980

Trang 26

Summary of Misclassified Observations

Observation True Pred Group Squared Probability

Group Group Distance

1+ Alaska Canada Alaska 3.544 0.428 Canada 2.960 0.572 2+ Alaska Canada Alaska 8.1131 0.019 Canada 0.2729 0.981 12 ** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 13 ** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 30 ** Alaska Canada Alaska 3.230 0.289 Canada 1.429 0.711 32 ** Alaska Canada Alaska 2.271 9.464 Canada 1.985 0.536 Wot Canada Alaska Alaska 2.045 0.948 Canada 7.849 0.052

- Việc phân loại như trên đã xác định đúng nguồn gốc của 93 con cá

Tỷ lệ xác định đúng cá hồi Alaska là 88%, cá hồi Canada là 98%

- Sử dụng hàm phân loại tuyến tính (có hai dạng) để tính chỉ số cho một con cá hồi mới bát lên, hàm nào cho giá trị lớn hơn thì phân loại cá vào

nhóm tương ứng Các phép tính này có thể được thực hiện đồng thời cho

nhiều con cá mới bằng các lệnh trong Minitab Lúc đó chỉ cần chọn lại Stat

> Multivariate > Discriminant Analysis, ttong muc Group, chon cot Nguon goc Trong muc Predictor chon các cột Nuoc ngọt và Nuoc bien Kích

Option, trong muc Predict group membership for chọn các cột số liệu mới

Chẳng hạn, với hai con cá mới với các số liệu khảo sát là (100, 400) và (200,

500) thì ta có kết quả phân loại là: Prediction for Test Observations

Trang 27

- Trong bang théng ké các trường hợp phân loại sai (Summary of

Misclassified Observations) có thống kê bảy trường hợp Chỉ số khoảng cách

của con số 1 là 3.544 và 2.960 tính tới trọng tâm của từng nhóm Alaska va

Canada Từ đó, tính ra xác suất (hậu nghiệm) để cá 1 thuộc vào nhóm Alaska và Canada là 0.428 và 0,572 Vì vậy, mặc dù cá 1 thuộc nhóm

Alaska nhưng vẫn được phân loại vào nhóm Canada Tương tự, ta có thể giải

thích về các trường hợp khác

3.4 Phân cụm đữ liệu

Khác với giải tích phân loại mục 3.3, ta thực hiện phân cụm dữ 1iệu khi các nhóm chưa được xác định trước

Ví dụ 20 Khảo sát lỗ loại thức ăn ta có các số liệu sau (các chỉ số

khảo sát là protein, carbohydrat, fat (chất béo), calories (năng lượng) và vitamin A) Loại thức ăn Protein Carbo Fat Calories VitaminA 1 6 19 1 110 0 2 3 23 0 100 25 3 2 26 0 110 25 4 6 21 6 110 25 5 2 25 0 110 25 6 3 28 1 120 25 1 2 24 9 110 100 8 3 23 1 110 25 9 3 23 1 110 100 10 1 1â 0 50 9 u 1 26 0 110 25 12 2 25 ọ 110 25 a Các bước thực hiện - Mở tệp dữ liệu CEREAL.MTW

- Chon Stat > Multivariate > Cluster Observations

- Trong muc Variables hoje Distance matrix chon cdc cot Protein, Carbo, Fat, Calories, Vitamin A

- Trong muc Linkage method, chon Complete Trong muc Distance measure chon Squared euclidean

Trang 28

+ Kich Standardize variables

- Trong muc Specify final partition by, chon Number of cluster va

nhập số 4

~ Chọn Show dendrogram

- Kích Customize Trong mục Tiie đánh vào BIEU DO PHAN NHOM CAC LOAI THUC AN Trong muc Type nhap s6 /, 2, 3 Trong muc Color, nhập số 7 Kích ØK trong từng hộp thoại để kết thúc và nhận được kết quả

sau trong cửa số kết quả của Minitab:

Cluster Analysis of Observations: Protein, Carbo, Fat, Calories, VitaminA

Standardized Variables, Squared Euclidean Distance, Complete Linkage Amalgamation Steps

Step Number of Similarity Distance Clusters New Number of obs,

clusters level level joined cluster in new cluster 1 11 100.00 0.000 5 12 5 2 2 10 99,82 9.064 3 5 3 3 3 9 98.79 0.435 3 11 3 4 4 8 94.68 1.913 6 8 6 2 5 ? 93.41 2.373 2 3 2 5 6 6 87.33 4.560 7 9 7 2 3 5 86.19 4.970 1 4 1 2 8 4 80.60 6.981 2 6 2 7 9 3 68.08 11.487 2 7 2 9 10 2 41.41 21.085 1 2 1 11 11 1 0.00 35.987 1 10 1 12 Final Partition Number of clusters: 4

Number of Within cluster Average distance Maximum distance

Trang 29

Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Cluster4 Grand centrd Protein 1.9283 ~0,3335 ~0.2030 -1.1164 0.0000 Carbo ~0.7587 0.5419 0.1264 -2.5289 ~0 0000 Fat 0.3385 -0.0967 - 0.3385 ~0.6770 0.0000 Calories 0,2803 0.2803 0.2803 -3.0834 ~0 0000 VitaminA ~0.6397 -0.2559 2.0471 -1,0235 ~0.0000

Distances Between Cluster Centroids

Clusterl Cluster2 Cluster3 Cluster4 Clusterl 0.0000 2.6727 3.5418 4.9896 Cluster2 2.6727 0.0000 2.3838 4.7208 Cluster3 3.5418 2.3838 0.0000 5.4460 Cluster4 4.9896 4.7205 5.4460 9.0000 BIEU DO PHAN NHOM CÁC LOẠI THUC AN Similarity 0.00 1 33.33 66.67 100.00 12 11 Observations

Hình I.21 Biểu đổ, phân nhóm cụm các loại thức ăn

- Tại mỗi bước hai nhóm được kết hợp với nhau Bảng kết hợp các

bước (amalgamation steps) cho biết tại từng bước hai nhóm nào hợp với

Trang 30

nhau, khoảng cách giữa chúng, mức độ tương tự của các dữ liệu, số thứ tự

mới của lớp vừa hình thành (số bé hơn trong hai số), số phần tử trong nhóm

mới và số các nhóm Qúa trình kết hợp này tiếp tục cho tới khi toàn bộ số

liệu hợp thành một nhóm cụm (xem thêm hình I.21)

- Phan tích cột ghi mức độ đồng dạng, ta thấy ban đâu các mức này giảm từ từ trong khoảng I tới 6 đơn vị, cho tới khi số nhóm được hình thành

là 4 Sau đó mức độ đồng dạng giảm mạnh tới 13 đơn vị Điều này cho biết rằng ta đã đạt tới phân hoạch hợp lý với 4 nhóm (xem biểu đồ phân nhóm)

~- Ngoài ra các bảng khác của cửa số kết quả còn cho biết khá rõ về tính chất của 4 nhóm số liệu co cụm đã thu được (tổng bình phương, khoảng cách trung trung bình và khoảng cách lớn nhất tới trọng tâm của từng nhóm),

các véc tơ từ trọng tâm của các nhóm tới trọng tam chung), khoảng cách giữa trọng tâm các nhóm

3.5 Phân cụm các biến

Mục đích của phân cụm các biến là sắp các biến vào các nhóm, chưa được xác định rõ ngay từ đầu, do đó có thể giảm được số các biến So với

phương pháp phân tích thành phần chính, các biến mới trong phương pháp này có thể được giải thích dễ hiểu hơn về mặt trực giác

Ví dụ 2L Tiến hành một nghiên cứu về ảnh hưởng của việc thay đổi

môi trường lên huyết áp Lấy mẫu thực nghiệm 39 người đàn ông trên 21

tuổi, và điều tra giá trị của các biến ngẫu nhiên sau: tuổi, số năm sau khi di cư, cân nặng, chiều cao, số đo (cằm, cánh tay, bắp chân), mạch, (áp tâm thu, áp trương thu) Mục đích của việc phân cụm các biến lúc này là tìm cách

Trang 31

11 33 12 33 13 34 14 35 15 35 16 36 17 36 18 37 19 37 20 38 21 38 22 38 23 38 24 39 25 39 26 39 27 41 28 41 29 41 30 42 31 43 32 43 33 43 34 44 35 44 ;6 45 37 47 38 50 39 34 Diastol 76 76 66 72 và phương pháp tính khoảng 60 74 78 74 13 10 15 18 12 15 16 17 10 18 11 11 21 24 14 25 32 12 25 26 10 19 18 10 43 40 75 80 72 66 66.5 59.1 64.0 69.5 64.0 56.5 57.0 55.0 57.0 58.0 59.5 61.0 57.0 57.5 74.0 72.0 62.5 68.0 63.4 68.0 69.0 73.0 64.0 65.0 71.0 60.2 55.0 70.0 87.0 120 68 62 70 trung binh (average linkage) 1622 1486 1578 1645 1648 1521 1547 1505 1473 1538 1513 1653 1566 1580 1647 1620 1637 1528 1647 1605 1625 1615 1640 1610 1572 1534 1536 1630 1542 78 78 84 84 Swe oo ae SSCSOWdvD BWUOWS 7.3 6.3 6.0 10.0 5.3 11.0 5.0 12.0 5.7 8.0 3.0 3.0 3.0 4.0 11.3 72 86 92 70 3.0 3.0 6.0 11.7

Về mặt toán học, cần thực hiện việc phân cụm vị tương quan d, = | - Đụ, Với Dị, 8.3 10.3 7.0 7.0 6.7 11,7 6.0 7.0 11.7 13.0 7.7 4.0 3.0 5.0 15.7 13.3 8.0 11.3 13.7 10,7 6,0 5.7 7.0 7,7 4.3 3.3 4.0 11,7 11.3 76 70 80 54 68 72 88 60 60 72 84 64 72 64 80 76 60 64 64 68 76 60 76 88 72 68 60 74 72 56 64 72 92 62 76 82 90 116 114 130 118 138 134 120 120 114 124 114 136 126 124 128 134 112 128 134 128 140 138 118 110 142 134 116 132 152 70 80 92 88 64 64 s0 ới độ do khoảng cách là hệ số tương quan mô men tích kiểu Pearson, cách giữa hai nhóm cụm kiểu khoảng cách

Trang 32

- Mở tệp dữ liệu AWDC.MTW

- Chon Stat > Multivariate > Cluster Variables

- Trong muc Variables hoac Distance matrix, chon tất cả các cột số liệu từ cột Age cho tới cột Diastol

- Trong mục Linkage method chon Average

- Chon Show dendrogram két thiic kich OK dé nhan duge két qua sau

trong cửa số kết quả của Minitab

Cluster Analysis of Variables: Age, Years, Weight, Height, Chin, Forearm, Calf,

Correlation Coefficient Distance, Average Linkage Amalgamation Steps

Step Number of Similarity Distance Clusters New Number of obs

Trang 33

- Trong méi bước kết hợp (amalgamation steps) hai biến được hợp với

nhau Bảng kết quả cho biết trong từng bước hai biến nào hợp với nhau,

khoảng cách giữa chúng, mức độ tương tự (similarity level) của các biến trong các nhóm cụm, số thứ tự mới của nhóm vừa hình thành (số bé hơn

trong hai số), số phần tử trong nhóm mới và số các nhóm Qúa trình kết hợp này tiếp tục cho tới khi toàn bộ số liệu hợp thành một nhóm Nếu chúng ta cần phân hoạch cuối cùng thì sẽ nhận được danh sách biến trong từng nhóm

- Biểu đồ phân cụm trên hình 1.22 minh hoạ cho các phân tích trên

đây Giả sử phân hoạch cuối cùng chứa năm nhóm cụm thì trên biểu đồ này có thể thấy các biến (cằm, cánh tay, báp chân) là tương tự nhau nên có thể kết hợp vào một nhóm, (tuổi, số năm sau khi di cư) cũng có thể hợp thành

một nhóm, (cân nặng, áp tâm thu, áp trương thu) cũng được coi là chứa các

thông tin tương tự Các biến mạch và chiều cao đứng riêng không cụm với

biến nào

3.6 Phân cụm K-trung bình

Phương pháp phân cụm K-trung bình được sử dụng nhằm phân cụm

các dữ liệu quan sát vào các nhóm chưa được xác định rõ từ đầu Phương pháp này được xây dựng dựa trên thuật toán MacQueen

Ví dụ 22 Trong một khu bảo tồn, có dữ liệu về 143 con gấu: (số hiệu, năm tuổi, tháng tuổi, giới, chiều cao, chiều đài đầu, cân nặng, cân nặng của đầu, vòng cổ, vòng ngực, số thứ tự cân đo, tên) Từ các chỉ số về chiều cao, chiều dài đầu, cân nặng, cân nặng của đầu, vòng cổ, vòng ngực, cần phân gấu thành ba nhóm: nhóm 1 gồm gấu loại nhỏ, nhóm 2 loại vừa và nhóm 3

loại lớn

4a Các bước thực hiện

- Mở tệp dữ liệu Bears.MTW

- Chon Cale > Make Patterned Data > Simple Set of Numbers

- Trong muc Store patterned data in, đánh vào tên cột đánh dấu ban dau 1a Initial Trong cdc muc From first value va To last value, nhap sé 0 trong muc List each value nhap s6 143 Kich OK

- Vào cửa số nhập liệu và gõ vào các s6 1, 2, 3 tai cdc hàng thứ 2, 78,

15 để đánh đấu các con gấu tiêu biểu cho loại nhỏ, vừa và to

Trang 34

- Chon Stat > Multivariate > Cluster K-Means

- Trong mục Vzriables chọn các cột tương ứng với các chỉ số chiều cao, chiều dài đâu, cân nặng, cân nặng của đầu, vòng CỔ, vòng ngực

- Để mô tả tính chất phân hoach (specify partition), chon Initial partition column va g6 vao tén cét (initial)

- Danh dau vao 6 Standardize variables

- Kich Storage Trong muc Cluster membership column, g5 vao tén Bears (Gấu) cho cột chứa cột số thứ tự của các nhóm cụm tương ứng Kích

OK để nhận được các bảng kết quả trên hình L23 (bảng đữ liệu ban đầu và phân nhóm cụm chỉ lấy một phần để minh hoa)

Cần chú ý rằng thay vào các bước 2 tới 7 chỉ cần làm như sau trong

trường hợp ta khởi tạo quá trình phân hoạch bằng cách chọn số nhóm cụm

của phân hoạch mong muốn chứ không phải bằng cách đánh dấu các phần tử tiêu biểu cho cách nhóm cụm:

- Trong mục Variables chọn các cột tương ứng với các chỉ số chiếu

cao, chiêu dài đâu, cân nặng, cân nặng của đâu, vòng cỔ, vòng ngực

- Dé mé tả tính chat phan hoach (Specify partition), chon Number of clusters va nhập vào số nhóm mong muốn, sau đó kich OK

K-means Cluster Analysis: Head.L, Head.W, Neck.G, Length, Chest.G, Weight

Standardized Variables Final Partition

Number of clusters: 3

Number of Within cluster Average distance Maximum distance

Trang 35

Distances Between Cluster Centroids

Clusterl Cluster2 Cluster3 Clusterl 0.0000 2.4233 5.8045 Cluster2 2.4233 0.0000 3.4388 Cluster3 5.8045 3.4388 0.0000 1 1 Alen 0 1 AT 2 88 0 OA Bota 1i rất I3 2.01 69 9 E0 71 H, 2Bs ñ 4 4 3 1 23 425 50 55 95 BO t0 3 Berta 0 2 4 3 5 2 120 60 180 20 HO 121 4 Berta 0 2 Ce TT M Tí oT 8 3 8 1 0U §§ 7 BO Se 2 ie 0 1 6 8 1.1.8 80.80 Ø5 60 3M 10w 03 %& 0ï! 1 590-70 80 DD 0.3 e 8 9 1 5 8) 30 70 MU M6 1 Ouny 0 3 8" U 1 B10 eo 20 T0 Ø 6 la 03 8 16 7 1 U0 !U BS 7 60 364 hatin off 18g 8U 9 1-65 15 20 BÚ Hồ 5 - 20A6 0-3 8.14 4 1 Ứ5 8 20 BÚ 80 8 30a 0 3 8 10 8 1 60 9Ú BÚ BÚ 40 # 4 Cate 3 a 1u R 7 185 RR 7 mn ®n tR 1 Roraldine 2 Hình I.23 Dữ liệu của tệp BEAR.MTW và kết quả phân nhóm cụm b Phân tích kết quả

- Việc phân cụm E-trung bình đã phân 143 con gấu vào ba nhóm cụm:

41 con thuộc nhóm bé, 67 nhóm vừa và 35 nhóm lớn

- Các bảng còn cho biết tổng bình phương sai số trong từng nhóm, khoảng cách từ phân tử tới trọng tâm của nhóm tương ứng, khoảng cách lớn nhất trong số đó, toạ độ của các trọng tâm quy chuẩn (quy về trọng tâm chung) của các điểm trọng tâm và khoảng cách giữa trọng tâm các nhóm

Trang 36

Ill UNG DUNG PHAN MEM FRONTIER 4.1 VA LIMDEP TRONG PHAN TICH DU LIEU KINH TE NONG NGHIỆP

1 Hàm cực biên và ứng dụng trong phân tích kinh tế

1.1 Sơ lược về hàm cực biên

Ham cue bién (frontier functions) la nhiing ham bao vé gidi han

Người khởi đầu ra phương pháp cực biên là Farrell (1957) Phương pháp cực biên được phát triển rất mạnh cả về phương pháp luận cũng như ứng dụng trong khoảng hai thập ky gần đây (nhất là sau bài viết của Aigner, Lovell, và Schmidt, 1977 va Green, 1980) Ham cuc biên bao gồm hầm sản xuất cực

biên, hàm chỉ phí cực biên và hàm lợi nhuận cực biên #fàm sản xuất cực

biên là hàm biểu hiện khả năng có thể đạt được mức đầu ra cao nhất với tổ

hợp số lượng các đầu vào đã cho Hâảm chỉ phí cực biên thể hiện mức chỉ phí

thấp nhất có thể để sản xuất một mức đầu ra xác định với giá các đầu vào

biết trước Tương tự, hàm lợi nhuận cực biên phản ánh mức lợi nhuận cao

nhất có thể đạt được với mức giá cả đầu vào và đầu ra đã biết trước Với giả thiết công nghệ và giá cả các yếu tố đầu vào, đầu ra không đổi, cực biên có nghĩa là cực đại hoá đầu ra (sản lượng hay lợi nhuận) hay cực tiểu hoá chỉ

phí Khái niệm cực biên trong trường hợp này có nghĩa là các hàm trên đặt ra một khoảng giới hạn cho các quan sát Ví dụ chúng ta có thể quan sat thấy

các điểm nằm dưới đường sản xuất cực biên (người sản xuất thường sản xuất dưới mức cao nhất có thể), nhưng không thể có điểm nằm cao hơn đường sản xuất cực biên Cũng tương tự ta sẽ không thấy có điểm nằm thấp hơn đường

chi phí cực biên

Có hai điểm khác biệt và cũng là lợi ích của hàm cực biên so với hàm trung bình" (ước lượng bằng phương pháp bình phương nhỏ nhất, OLS -

Ordinary Least Squares):

- Hàm “trưng bình" phản ánh “hình dạng" công nghệ của hãng hay người sản xuất trung bình, trong khi hàm cực biên chịu ảnh hưởng phần lớn bởi hãng hay người sản xuất có trình độ kỹ thuật cao nhất

- Ham cực biên phản ánh “công nghệ thực hành tốt nhất" (Best - Practice Technology) và dựa trên đó hiệu quả của hãng hay người sản xuất

Trang 37

Hàm cực biên nói chung, và nhất là hàm sản xuất cực biên được sử

dung rat nhiều trong việc ước lượng và tính toán hiệu quả kỹ thuật và hiệu

quả kinh tế Nhờ đó chúng ta có thể xác định hiệu quả kỹ thuật của từng

trang trại hay hộ nông dân, các nguyên nhân tại sao không có hiệu quả kỹ thuật hay hiệu quả kỹ thuật thấp Trong trường hợp hiệu quả kỹ thuật đạt

được cao, nếu chúng ta muốn nâng cao sản xuất thì nhất thiết phải đổi mới hay thay đổi công nghệ Đây là những cơ sở để để ra các chính sách cho sản xuất nói chung và sản xuất nông nghiệp nói riêng

1.2 Phân tích hiệu quả kinh tế và đường cực biên

Farell (1957) đã đưa ra khái niệm vẻ hiệu quả của một hãng bao gồm hai bộ phận cấu thành là hiệu quả kỹ thuật và hiệu quả phân bổ Hiệu quả kỹ thuật, phản ánh khả năng của hãng có thể tối đa hoá sản lượng đầu ra với một lượng đầu vào và công nghệ nhất định Hiệu quả phân bố, phản ánh khả năng của hãng sử dụng tổ hợp các đầu vào ở mức độ tốt nhất với mức giá và công nghệ sản xuất nhất định

Hiệu quả kinh tế nói chung (theo kinh tế thị trường) được định nghĩa là cực đại tổng thặng dư của cả người sản xuất (PS) và người tiêu dùng (CS) Vậy hiệu quả kinh tế của người sản xuất là cực đại thặng dư người sản xuất (PS) hay cực đại lợi nhuận (z) Trong nên kinh tế thị trường, người sản xuất nếu đạt được cực đại lợi nhuận thì có nghĩa là họ có hiệu quả kinh tế cao nhất Hiệu quả kinh tế (EE) bao gồm hai bộ phận: Hiệu quả kỹ thuật (TE) và hiệu quả phân bổ (AE) hay hiệu quả giá

Hiệu quả kỹ thuật (TE) được định nghĩa là khả năng của người sản xuất có thể sản xuất mức đầu ra tối đa với một tập hợp của các đầu vào và công nghệ cho trước Cần phân biệt sự khác nhau giữa hiệu quả kỹ thuật và

thay đổi công nghệ (tecanological change) Sự thay đổi công nghệ làm dịch

chuyển hàm sản xuất (dịch chuyển lên trên) hay dịch chuyển đường đồng lượng xuống phía dưới

Hiệu quả phân bổ (AE) hay còn gọi là hiệu quả giá là thước đo phản ánh mức độ thành công của người sản xuất trong việc lựa chọn tổ hợp các đầu vào tối ưu, nghĩa là tỷ số giữa sản phẩm biên của hai yếu tố đầu vào nào đó sẽ bằng tỷ số giá cả giữa chúng

Trang 38

Hiệu quả kinh tế !(EE) là mục tiêu của người sản xuất Nó là thước đo

phản ánh mức độ “thành công" của người sản xuất trong việc lựa chọn tổ hợp

đầu vào và đầu ra tối ưu EE được tính bằng tích của hiệu quả kỹ thuật và

hiệu quả phân bổ (EE = TE x AE)

Với mục tiêu cực đại lợi nhuận, người sản xuất nói chung và nông dân nói riêng phải (1) sản xuất một lượng đầu ra có thể cao nhất với một mức đầu vào đã cho (nghĩa là có hiệu quả kỹ thuật); (2) phải sử dụng tổ hợp các đầu vào hợp lý trên cơ sở mối quan hệ của giá cả từng đầu vào (nghĩa là có hiệu quả phân bổ đầu vào); và (3) phải sản xuất được tổ hợp đầu ra hợp lý với tập hợp các giá cả đã cho (nghĩa là có hiệu quả phân bổ đầu ra) Những

khái niệm này được biéu dién trén cdc hinh 1.24, 1.25 va 1.26

0 A' XJY

Hình I.24 Hiệu quả trong không gian đầu vào - đầu vào

Giả sử người sản xuất hay hộ nông dân sử dụng kết hợp hai đầu vào

X,va X, dé sin xuất ra sản phẩm Y thì hiệu quả kỹ thuat (TE) được xác định

theo đồ thị trên hình L24 Trục tung biểu diễn lượng dau vào X, trung bình

cần thiết để sản xuất ra một đơn vị sản phẩm Y, trục hoàng biểu diễn lượng

đầu vào X; trung bình cần thiết để sản xuất ta một đơn vị sản phẩm Y.SS là

đường đồng mức một đơn vị sản lượng Nếu hãng sản xuất nằm trên đường SS' thì đạt hiệu quả kỹ thuật tối uu AA’ la đường đồng mức chỉ phí P là

+ Nếu hiệu quả kinh tế được đo bằng tỷ số giữa kết quả và chi phi (H = Q/K) (theo quan niệm và các nghiên cứu trước đây), thì sẽ không cực đại lợi nhuận của người sản xuất và không phù hợp với lý thuyết kinh tế thị trường Chỉ tiêu H thường đùng để phản ánh “hiệu suất" hay nang suat (productivity)

Trang 39

mức kết hợp đầu vào cần thiết để sản xuất ra một đơn vị sản phẩm SS” của

người sản xuất Q là mức kết hợp đầu vào để sản xuất ra một đơn vị sản phẩm SS” đạt hiệu quả kỹ thuật tối ưu

Nếu hãng sử dụng tập hợp số lượng các đầu vào ở điểm P để sản xuất ra một đơn vị sản phẩm thì không đạt hiệu quả kỹ thuật tối đa và hãng cần cắt giảm khoảng đầu vào QP để vẫn sản xuất ra một đơn vị sản phẩm Y va

OQ =l- oP Điểm Q' là

OP OP

điểm hãng sản xuất vừa đạt hiệu quả kỹ thuật và hiệu quả phân bố Do vậy,

hiệu quả kỹ thuật được đo bằng TE: 7E = : : 2e Tà OR , 3 it ga hiệu quả phân bổ sẽ là: 4È = % „ Hiệu quả kinh tế được xác định như sau: 0Q, OR _ ÓR OP OQ OP EE= Y; y; xy, Y,

Hình ¡.25 Hiệu quả trong không gian đầu ra - đầu ra

Hình 1.25 phan ánh mối quan hệ đầu ra - đầu ra (không gian đầu ra - đầu ra) Đường PPF được gọi là đường giới hạn khả năng san xuất (production possibility frontier) Giả sử người sản xuất cần phân bổ nguồn lực hạn chế vào 2 sản phẩm Y, và Y; với giá sản phẩm tương ứng là P, và P;

Người sản xuất có thể lựa chọn sản xuất tại diém A với tập hợp đầu ra tương ứng Ia Y," va Y," Néu t6 hop đầu vào của người sản xuất được sử

dụng một cách có hiệu quả hơn thì khi đó họ có thể đạt được mức sản lượng

Trang 40

tTEo = TE, trong trường hợp hiệu suất quy mô cố định (Constant Returns to

Scale))

Mặc dù, điểm B là điểm có hiệu quả kỹ thuật, tuy nhiên trên đường

PPF ta có thể đạt được tổng doanh thu cao hơn nếu như sản xuất tại điểm C (điểm C có 'tỷ lệ chuyển đổi biên' (Marginal Rate of Transformation — MRT=MCY /MCY,) bang tỷ giá, p,/p, Trong trudng hợp này cần sản xuất nhiều Y, hơn và ít Y; đi sẽ tăng doanh thu Cùng mức doanh thu với điểm C là điểm D Hiệu quả doanh thu (RE) hay hiệu quả kinh tế theo quan hệ đầu ra, EEo sẽ được xác định bằng tỷ số OA/OD Hiệu quả ¡tàn bổ sản phẩm, AEo = EEo/TEo = (OA/OD)/(OA/OB) = OB/OD y4 Y, Y; |- Ya Y; 0 X X& x

Hình 1.26 Hiệu quả trong không gian đầu vào - đầu ra

Hình I.26 phản ánh mối quan hệ đầu vào - đầu ra Đây chính là mối quan hệ trong hàm sản xuất thường được dùng nhiều nhất và được biểu diễn

bởi Y = f(X) (trong đó Y là đầu ra, X là véc tơ các đầu vào) Tuy nhiên, đây

cũng là đường cực biên hay hàm sản xuất cực biên, X có thể là một đầu vào xác định cũng có thể là đầu vào tổng hợp được xác định theo phương pháp chỉ số-Index

Y„ là mức sản lượng tối đa có thể đạt được tương ứng với các mức đầu vào được ước lượng theo phương pháp hợp lý tối đa MLE (Maximum Likelihood Estimation) Tất cả những điểm nầm trên Y„ đều đạt hiệu quả kỹ thuật tối ưu

Định dạng
Số trang	51
Dung lượng	3,51 MB