Bước 4 Tiến hành xử lý dữ liệu.,
- Kiểm tra giả thuyết thứ nhất là số liệu thu được tuân theo phân phối chuẩn bằng cách dùng thống kê mô tả và đồ thị ở dạng Boxplots để đánh giá Phân tích thống kê mô tả số liệu bằng cách chọn các muc trong menu Stat >
Basic Statistics > Display Descriptive Statistics Khi dé xuatt hiện hộp thoại
và cân khai báo các mục sau:
+ Variabie: C4 (cột chứa trọng lương tăng) + By variable: C3 (cột chứa tên công thức) + Graphs: chọn các dạng đồ thị + Chọn ÓK Trong cửa số kết quả sẽ xuất hiện kết quả sau: Descriptive Statistics Variable | cong thục | N Mean Median TrMean StDev trong 4 5 0.8900 0.9000 0.8900 0.0418 luong 2 5 042400 0.42000 |0.42400 ‘| 0.01817 3 5 0.7700 0.7500 0.7700 0.0837 tong thuc | SE Mean Minimum | Maximum {| Q1 a3 Variable | 4 0.0187 0.8500 | 09500 | 0.8500 | 0.9250 toon 2 0.00812 0.40000 | 0.45000 | 0.41000 | 0.44000 3 0.0374 0.7000 0.9000 0.7000 0.8500
Nhìn vào bảng kết quả trên ta nhận thấy 3 giá trị Mean, Median, TrMean (trung bình, trung vị, trung bình hiệu chỉnh) là rất gần nhau Như vậy, có thể coi phân phối là chuẩn Để có kết luận chính xác hơn ta có thể áp dụng phần kiểm tra tính chuẩn của các số liệu (ở đây không trình bày) Với
công thức 3 ta thu được kết quả trong hình I.14
Nhìn vào giá trị xác suất P = 0.33! > 0.02, ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận ở mức ý nghĩa 2%
Với công thức 2: giá trị P = 0.57 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Với công thức 1: giá trị P value = 0.27 > 0.02 ta kết luận giả thuyết số liệu theo phân phối chuẩn được chấp nhận Như vậy cả ba công thức đều cho số liệu thoả mãn phân phối chuẩn
Trang 2Descriptive Statistics Variable: trong luong sử 4s 0eeotiesniod separate ee ase ĐỘ were cc $e Son, wee, aah tbat 1 ' 1 \ 1 1 ' Minimum 0700000 = CN saver ee 0.0000 95% Confidence interval for Mu Maxine (0.990000 ES 3 os + se cer ate ¬ peewee Sor cone rer te
Hìnhi.14 Đồ thị thống kê mô ta trong Minitab
- Kiểm tra giả thuyết thứ hai: Các phương sai đồng nhất Chọn các mục trong menu Stat > ANOVA> Homogeneity of Variances (Test for Equal
Variances) Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau: + Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá) + Factor: cong thue (cột C3 chứa các công thức) + Chon OK Tư đó có kết quả như sau trong cửa số kết quả của Minitab: Homogeneity of Variance
Response trong luong
Factors cong thuc
ConfLvl 95.0000
Trang 3Phân tích kết quả ta thấy giá tri xdc sudt P-value = 0.031> 0.02, nén ta chấp nhận giả thuyết các phương sai của ba công thức là đồng nhất ở mức ý
nghĩa 2% Như vậy điều kiện thứ hai của mô hình được thoả mãn, ta sẽ đi tiến hành phân tích phương sai
- Tiến hành phân tích phương sai một nhân tố: Bố trí 4 cột đữ liệu như
trên trong các cột CI, C2, C3 và C4 Dùng menu chọn các mục Stat > ANOVA > One-way Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục
như sau:
+ Response: trong luong tang (cột C4 chứa số liệu trọng lượng tăng của cá)
+ Factor: cong thuc (cột C3 chứa các công thức)
+ Store residuals: chọn mục này để được cột phần dư (Residuals hay
sai số) giữa giá trị hiệu chỉnh và số liệu thực nhiệm (có tên là RESI trên bảng đữ liệu của Minitab )
+ Store fits: chon muc nay dé duoc cét s6 liệu hiệu chỉnh (có tên là ETTS trên bảng dữ liệu của Minitab)
+ Comparisons: trong mục này chọn mục FISHER để có so sánh F
(FISHER) về tỉ lệ sai lệch
+ Graphs: chon céc muc cé dé thi dang Dotplots of data (đồ thi dang điểm của số liệu), Boxplots of data (đồ thị dạng hộp của số liệu), Residuals plots (đồ thị của sai số phần dư bao gồm Histogram of residuals đồ thị tần số của sai số, Normal plots of residuals đồ thị sai số chuẩn hoá, Residuals
versus fits đồ thị sai số hiệu chỉnh, Residuals versus order đồ thị sai số theo thứ tự của số liệu)
+ Kết thúc chọn ÓOK
Từ đó ta có kết quả sau trong cửa số kết quả của Minitab:
One-way Analysis of Variance
Analysis of Variance for trong lu
Source DF $8 MS F P
cong thu 2 0.58545 0.29273 96.72 0,000 Error 12 0.03632 09,00303
Total 14 0.62177
Individual 95% CIs For Mean
Based on Pooled StDev
Trang 4Level N Mean StDev 1 5 0.89000 0.04183 2 5 0.42400 0.01817 ( * -) 3 5 0.77000 0.08367 ( * ] ween ens trac nce te ronan te oe Pooled StDev = 0.05502 0.48 0.64 0,80
Fisher's pairwise comparisons Family error rate = 0.116 Individual error rate = 0.0500 Critical value = 2.179
Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F (thực nghiệm) =96.72 > F lý thuyết (2, 12, 0.5), hay giá trị xác suất P = 0 < 0.02 (mức ý nghĩa 2%), ta kết luận các công thức thử nghiệm có ảnh hưởng đến tăng trọng lượng của cá
2.2 Mơ hình khối hồn tồn ngẫu nhiên
Mơ hình hồn tồn ngẫu nhiên có những hạn chế sau: Thiết kế thí nghiệm hoàn toàn ngẫu nhiên đòi hỏi tất cả các đơn vị thử nghiệm là giống nhau trước khi phép thử nghiệm được áp dụng Trên thực tế thường không có đủ các đơn vị thử nghiệm đảm bảo cho điều này Nếu có biến sai số hệ thống trong các đơn vị thử nghiệm và chúng ta không chú ý tới điều này thì kết luận cuối cùng có thể không thật chuẩn xác Chẳng hạn xét một thiết kế thí nghiệm hoàn toàn ngẫu nhiên đã được dùng để đánh giá sản lượng một vụ thu hoạch lúa với ba phép thử nghiệm (công thức trồng trọt) A, B, C Giả sử rằng một phần của các mảnh ruộng ẩm ướt hơn vì ở gần một cái rạch nước Trong trường hợp này nếu dùng mô hình hoàn toàn ngẫu nhiên thì sẽ không
chính xác
Thiết kế khối hoàn toàn ngẫu nhiên sẽ khắc phục được các hạn chế của mơ hình hồn toàn ngẫu nhiên như đã nêu ở trên Trong mô hình khối hoàn toàn ngẫu nhiên, chúng ta cần nhóm các đơn vị thử nghiệm giống nhau thành một nhóm Những nhóm này được gọi là các khối Trong mỗi khối các phép thử nghiệm được tiến hành trên các đơn vị được chọn ngâu nhiên Chúng ta sử dụng thuật ngữ “khối hoàn toàn ngẫu nhiên” bởi vì mỗi khối chứa tất cả các phép thử nghiệm có thể có
a Yêu câu của mô hình
Trang 5Cần kiểm tra hai giả thuyết: dữ liệu tuân theo phân phối chuẩn và các phương sai đồng nhất Với hai phép thử nghiệm (công thức thử nghiệm) và thiết kế mỗi khối có hai đơn vị thử nghiệm thì đó là thiết kế cặp đôi Lúc này, hai phép thử nghiệm được định vị ngẫu nhiên với mỗi một cặp (ví dụ dùng gieo đồng xu) và số liệu sẽ được phân tích bằng kiểm định t cặp đôi quen biết Khi có từ ba phép thử nghiệm trở lên, chúng ta dùng phân tích phương sai Mỗi khối sẽ chứa số đơn vị thử nghiệm bằng số phép thử nghiệm (hoặc là bội số của số phép thử nghiệm)
b Các bước tiến hành
Bước 1 Thiết kế thí nghiệm theo mơ hình khối hồn tồn ngẫu nhiên.Trước tiên phải xác định số công thức thử nghiệm, số khối Sau đó tạo ra dãy số ngẫu nhiên gắn với các đơn vị thử nghiệm trong khối
Bước 2 Tiến hành các phép thử nghiệm trên các đơn vị thử nghiệm đã
xác định ứng với các khối
Bước 3 Thu thập các dữ liệu trên đơn vị thử nghiệm theo yêu cầu phân tích, theo thời gian cần thiết
Bước 4 Tiến hành xử lý dữ liệu Trước hết cân kiểm tra hai giả thuyết của mơ hình hồn tồn ngẫu nhiên là: dữ liệu tuân theo phân phối chuẩn và phương sai của các nhóm là đồng nhất Sau đó tiến hành phân tích phương sai một nhân tố
Bước 5, Rút ra kết luận trên các kết qua thu được
Ví dụ 13 Nghiên cứu các loại thuốc ảnh hưởng đến số lượng bạch
cầu (1000 tế bào trên 1/1000 mm khối máu) Nhân tố khối: lứa đẻ (5 lứa đẻ),
nhân tố phép thử nghiệm: thuốc (4 công thức) Mô hình được diễn đạt như
sau: Đữ liệu (đếm tế bào) = (trung bình chung lượng tế bào) + (tác động của lứa đẻ) + (tác động cuả thuốc) + sai số
Mơ hình tốn là: y„ = +, +/,+£,, trong đó: ¿ = trung bình chung lượng tế bào, #z, = tác động của lứa dé i (i nhận giá trị từ 1 tới 5),
/, = tác động của thuốc j (nhận giá trị từ 1 tới 4), z„ = sai số ngẫu nhiên Bước I Thiết kế thí nghiệm theo khối hoàn toàn ngẫu nhiên
- Tạo cột số thứ tự trong cot Cl với tên cột là 'UNTT' (ứng với các phép thử nghiệm a, b, c, d), bằng cách dùng menu, chọn các mục Cac >
Moke Patterned Data > Arbitrary Set oƒ Nưmbers Khi đó sẽ xuất hiện hộp
thoại và cần khai báo các mục như sau:
Trang 6+ Store patterned data in: C] (c6t chita sé tir 1 dén 4 ứng với 4 phép thử là 4 loại thuốc)
+ Arbitrary set of numbers: 1:4(gid tri số điển vào cột C1 từ 1 đến 4) + List each value: 1 (số lần lập mỗi gid tri)
+ List the whole sequence: I (s6 lan lap lai cac gid tri)
+ Kết thúc chọn ÓK
- Tạo cột số ngẫu nhiên ở cột C2 (với 4 phép thử nghiệm), cột này là
khối 1, bằng cách dùng Menu, chọn các mục Cale > Random Data >
Sample from Columns Khi đó sẽ xuất hiện hộp thoại và cần khai báo các
mục như sau:
+ Sample: 4 (tạo 4 mẫu)
+ Columns : CI (cot chita cdc thử nghiệm tương ứng) + Store samples in: C2 (cột chứa dấy số ngẫu nhiên) + Kết thúc chọn OK
- Tương tự như làm cho cột C2, tạo các cột số ngẫu nhiên cho các cột C3, C4, C5, Có cho các khối 2, 3, 4,5 Đạt tên cho C2 la ‘BLOCK 1’ , C3 la ‘BLOCK 2’ , C4 14 ‘BLOCK 3” , C5 la ‘BLOCK 4’ , C6 là 'BLOCK 5°
- Hiện dữ liệu trong các cột bằng cách dùng Menu, chọn các mục Manip > Diplay Data Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Kích chuột chọn các cột dữ liệu: C1, C2, C3, C4, C5, Có
+ Kết thúc chọn ÓK
Bước 2 Thực hiện các thử nghiệm theo mô hình đã in ra
Trang 7- Nhập các dữ liệu trên vào các cột tương ứng trong cửa sổ nhập liệu
Sau đó xếp chồng dữ liệu trên 1 cột (Litter 1, rồi đến Litter 2 ) bằng cách
dùng menu, chọn các muc Manip > Stack/Unstack > Stack Columns .Khi đó sẽ xuất hiện hộp thoại và cần thực hiện các bước sau:
+ Kích chuột chọn các cột dữ liệu Litter 1, Litter 2, Litter 3, Litter 4 và
Litter 5
+ Store the stacked data in: C6 (dit liệu chồng trong cột C6) + Store subscripts in: C7 (chi số lứa đẻ trong cét C7) + Kết thtic chon OK
- Tạo một cột số C8 để ghi loại thuốc từ 1 đến 4 bang cach ding menu,
chon cdc muc Cale > Make Patterned Data > Arbitrary Set of Numbers
Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Store patterned data in: C8 (cột chứa số từ 1 tới 4 ứng với loại thuốc)
+ Arbitrary set of numbers: 1: 4 (giá trị số điển vào cột từ 1 đến 4)
+ List each value: } (s6 lan lap méi gié tri)
+ List the whole sequence: 5 (s6 lan lặp lại các giá trị cho 5 lứa đẻ) + Kết thúc chọn ÓK
~ Đặt tên cho các cột Có, C7, C8: gỗ vào các ô tên cét C6 ‘Count’, C7 ‘Litter’ và C8 ‘Drug’ Muén hiện dữ liệu, ta dùng menu, chọn các mục sau: Manip > Display Data .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Kích chuột chọn các cột dữ liệu: C6, C7, C8 + Kết thúc chọn ÓK
Bước 4 Tiến hành xử lý dữ liệu
- Kiểm tra hai giả thuyết của mô hình hoàn toàn ngẫu nhiên là dữ liệu theo phân phối chuẩn và phương sai của các nhóm đồng nhất theo các bước sau:
+ Kiểm tra tính chuẩn: đặt tên cot C9 la ‘RESID’, C10 1a ‘FIT? va vẽ
đổ thị sai số trong cột C9 dạng hộp bằng cách chọn Graph > Character
Trang 8Graphs > Boxplot Can khai bio: Variable C9 (cột chứa sai số), By variable C8 (cột chứa loại thuốc) và chon OK để kết thúc Minitab sẽ cho đồ thị như sau: — + -RESID -0.36 -0.24 -0.12 0.00 0.12 0.24
Ta thấy sự phân bố xuất hiện đối xứng nên đữ liệu có tính chuẩn (khi
xem đồ thị sai số đã chuẩn hoá, nếu các điểm hầu như nằm trên một đường thẳng thì giả thuyết sai số tuân theo phân phối chuẩn)
+ Kiểm tra tính đồng nhất của phương sai: ta có thể kiểm tra tính đồng nhất của phương sai trong việc tính các thống kê cho sai số (cột C9) bằng
cach chon cdc muc Stat > Basic Statistics > Display Descriptive Statistics Khi đó xuất hiện hộp thoại và cần khai báo các mục: Variable C9 (cột chứa sai số), By variable C8 (cột chứa tên thuốc), va chon OK dé nhận được kết quả tính các thống kẽ Descriptive Statistics Variable Drug N Mean Median TrMean StDev RESID 1 5 -0.0000 0.0200 ~0.0000 0.1915 2 5 -0.0000 0.0460 -0.0000 0.1555 3 5 -0.0000 0.1050 -0.0000 0.2011 4 5 -0.000 0.105 -0.000 0.241 Variable Drug SEMean Minimum Maximum = Q1 Q3 RESID 1 0.0857 0.2550 0.2700 -0.1675 0.1576 ` 2 0.0696 -0.2550 0.1200 -0.1425 0.1200 3 0.0899 -0.3200 0.1800 _ -0.1950 9.1425 4 0.108 -0.320 0.280 0.245 0.192
Nhìn vào kết quả ta thấy độ lệch chugn mau (StDev) Ia gần bằng nhau, do vậy giả thuyết độ lệch chuẩn hay phương sai bằng nhau được chấp nhận
- Tiến hành phân tích phương sai cân đối bằng cách dùng menu, chọn
các mục §/at > ANOVA > Balanced ANOVA .Khi đó sẽ xuất hiện hộp thoại và cần khai báo các mục như sau:
+ Responses: Count (cét C6 chứa số liệu)
+ Model: Litter, Drug (cột C7, C8 chứa lứa đề và thuốc)
Trang 9+ Graphs: chon céc muc có đồ thị
+ Storage: chon Fits để được số liệu hiệu chinh, chon Residuals dé được cột sai số
+ Kết thúc chọn ÓK
- Kết quả phân tích phương sai như sau:
Analysis of Variance (Balanced Designs)
Factor Type Levels Values Litter fixed 5 1 2 3 4 5 Drug fixed 4 1 2 3 4 Analysis of Variance for Count Source DF ss MS F P Litter 4 6.4030 1.6007 30.16 0.000 Drug 3 ở 1/8455 0.6152 11.59 0.001 Error 12 0.6370 0.0531 Total 19 8.8855 Means Drug N Count 1 5 6.4200 2 5 5.7200 3 $ 6.0800 4 5 5.8600
Bước 5 Dựa vào kết quả của bảng phân tích phương sai với F=30.16 >
F tý thuyết, hay giá trị xác suất P.= 0< 0.05 (mức ý nghĩa 5%), ta kết luận
các loại thuốc ảnh hưởng đến số lượng bạch cầu 2.3 Thiết kế nhân tố
Có thể tiến hành thiết kế nhân tố theo hai kiểu chính: kiểu đẩy đủ tổng quát (General Full Factorial Design) cho phép mỗi nhân tố có từ hai mức trở lên và kiểu hai mức (Two-Level Factorial Design), mỗi nhân tố chỉ có hai mức
Trang 10Vi du 14 Xét vi du 13 và phương pháp giải quyết tat va ngdn gon hơn thông qua thiết kế nhân tố Chúng ta có thể thiết kế thí nghiệm khối hoàn toàn ngẫu nhiên theo kiểu thiết kế nhân tố đầy đủ tổng quát với hai nhân tố
không tương tác (không lặp)
a Tạo ra thiết kế nhân tổ đây đủ tổng quát
- Chon Stat > DOE > Factorial Design >Create Factorial Design - Chon General full factorial design Trong muc Number of factors nhập 2 (hai nhân tố: nhân tố A và nhân tố B)
- Trong muc Design nhap vao cot tén nhan té A 1a Litter, tên nhân tố B 1a cong thuc, nhap vao cot Number of levels các số 5 và 4 (các mức của
hai nhân tố) Trong mục Number of replicates nhập 1, nên ngầm định chỉ có một cột khối ngẫu nhiên giả (Blocks) Chú ý rằng nếu số lặp nhiều hơn 1, thì ta thật sự có từ hai khối ngẫu nhiên trở lên
- Trong mục Opon, đánh đấu Randomize runs và Store design in worksheet, trong muc Base for random data generator nhap s6 9 (luén nhap một số cố định làm hạt mầm cho hàm sinh số ngẫu nhiên) Kích OK trong
mỗi hộp thoại để nhận được thiết kế nhân tố cho hai nhân tố Litter và cong
thuc
Sau khi tiến hành các phép thử nghiệm trên các cá thể, ta nhập các số
liệu mau vao cét bachcau, chon Manip > Display Data sé c6é két qua sau trong cửa số kết quả của Minitab Nhu vay ching ta đã hoàn thành xong các bude 1,2 va 3 ở mục 2.2 trên day Chú ý rằng, ta cần hiểu con thứ 1 của lứa
1 ứng với công thức 2, con thứ 2 của lứa 1 ứng với công thức 4, con thir 1
của lứa 5 ứng với công thức 2, ., con thứ 5 của lứa 5 ứng với cơng thức Ì
(đây là cách làm tất để áp dựng các công thức một cách ngẫu nhiên trong
từng lứa đẻ)
Trong bảng trên, cột đầu là cột số thứ tự, cột thứ hai là cột thứ tự chuẩn tiến hành các phép thử nghiệm, cột thứ ba là cột thứ tự ngẫu nhiên tiến hành các thử nghiệm, cột thứ tư là cột Blocks (khối ngẫu nhiên chỉ dùng cho thiết kế thí nghiệm từ hai nhân tố trở lên theo kiểu khối hoàn toàn ngẫu nhiên,
trong trường hợp này không dùng đến), trong hai cột sau là các tổ hợp các
mức của (Litter, congthuc), cột cuối là cột các số liệu thực nghiệm thu được về bạch cầu (response)
Trang 11g 2 StdOrder RunOrder Blocks Litter congthuc bachcau 1 2 1 1 1 2 6.7 2 18 2 1 5 2 5.8 3 4 3 1 1 4 6.7 4 3 4 1 1 3 T.1 5 1 5 1 1 1 71 € 20 6 1 5 4 5.3 7 14 1 1 4 2 5.1 8 9 8 1 3 1 6.9 9 7 9 1 2 3 5,8 10 10 10 1 3 2 5.9 13 6 11 1 2 2 5,1 12 12 12 1 3 4 5.7 13 15 13 1 4 3 5.0 14 13 14 1 4 1 5.6 15 19 15 + 5 3 6.2 16 16 16 1 4 4 5,2 17 5 17 1 2 + 6.1 18 11 18 1 3 3 6.2 19 8 19 1 2 4 5.4 20 17 20 1 5 1 6.4
b.Phân tích thiết kế nhân tố đây đủ tổng quát
- Mở tệp dữ liệu BACHCAU.MTW đã có trên đây
- Chon Stat > DOE > Factorial Design > Analyze Factorial Design - Trong muc Responses nhập cột bachcau
- Kích Graphs, tong muc Effects plots danh dấu Normal va Pare’ 10
Trong mục Aipha (mức ý nghĩa của kiểm định) nhập 0.05 Kích OK trong
mỗi hộp thoại để nhận được kết quả sau:
General Linear Model: bachcau versus Litter, cthuc
Factor Type Levels Values
Litter fixed 5 12345
cthuc fixed 4 1234
analysis of Variance for bacheau, using Adjusted SS for Tests
Trang 12Có thể thấy các kết quả trên hoàn toàn trùng với các kết quả trong mục 2.2 ngoài ra, có thể kiểm tra giả thuyết về tính chuẩn của số liệu thông qua đồ thị kiểm tra tính chuẩn của phần dư (xem hình 1.15.)
Normal Probability Piot of the Residuals (response is bachcau) Normal Score ° 03 02 O41 0.0 01 02 0: Residual
Hình !.15 Đồ thị xác suất chuẩn của phần dư
‘Vi dụ 15 Phân tích phương sai ba nhân tố tương tác (có lặp) theo khối hoàn toàn ngẫu nhiên Cần thiết kế thí nghiệm theo 2 khối hoàn toàn ngẫu
nhiên với ba nhân tố để xem chúng có ảnh hưởng như thế nào dén nang suất (và cả chi phi) Nhan tố 1 có hai mức 20 và 50, nhân tố 2 có hai mức 150 và
200, nhân tố 3 có hai mức định tính A và B Trong trường hợp này, chúng ta
có thể tạo ra thiết kế nhân tố đầy đủ tổng quát giống như trong ví dụ vừa xét, lúc đó kết quả được đưa ra với hình thức tương tự (Mô hình tuyến tính tổng
quat General Linear Model và bảng phân tích Anova) Tuy vậy, chúng ta chọn cách sau đây:
Tạo ra thiết kế nhân tố đây đủ hai mức (vì mỗi nhân tố chỉ có hai mức) bằng cách:
- Chon Stat > DOE > Factorial Design > Create Factorial Design - Chon 2-level factorial (default generator) Trong myc Number of
Trang 13- Trong muc Design chon Full ‘factorial va ttong muc Number of replicates nhap 2, trong muc Number of blocks nhap 2
- Trong muc Factor sita lai ten céc nhan to 1a Factorl, Factor2 và Factor3, nhập lại các mức của các nhân tố
- Trong muc Option, dinh dau Randomize runs va Store design in
worksheet, trong muc Base for random data generator nhập số 9 (luôn nhập
một số cố định làm hạt mâm cho hàm sinh số ngẫu nhiên) Kich OK trong mỗi hộp thoại để nhận được thiết kế nhân tố hai mức đầy đủ theo kiểu khối hoàn toàn ngẫu nhiên
Sau đó, nhập các số liệu thực nghiệm về năng suất và chỉ phí vào các cột tiếp theo, như minh hoạ trên hình I.16 43.2978 28 150 B 45.1631 33.0854 200 8 45.3297 35.2461 200 B 48.6720 37.4261 150 A 45.3932 - 28.7501 200 A 44,8891 «30.7473 200 A 49.0645 < 32.3437 180 B 43.0617 30.2104 150 A | 42.7636 27.5306 200 A ˆ 46.1831 © 31.0513 150 B 45.5991 32.6394 200 B 49.2040 36.8941 180 A 44.7592 29.3841 150 B 43.3937 30.5424 200 B 44,7077 34.6241 200 A 48.4665 31.7457 Bee SSN NNNNNN BxySsssssssssss
Hình I.16.Cửa số nhập liệu trong thiết kế đẩy đủ 2-mức khối hoàn toàn ngẫu nhiên
Tién hành phân tích thiết kế nhân tố đây đủ hai mức: - Mở tệp dữ liệu VSCP.MTW đã có trên đây
- Chon Stat > DOE > Factorial Design > Analyze Factorial Design
- Trong muc Responses nhap cot Nsuat
- Kich Graphs, trong muc Effects plots đánh dấu Normal va Pareto
Trong mục Aipha (mức ý nghĩa của kiểm định) nhập 0.05 Kích ÓK trong mỗi hộp thoại để nhận được kết quả sau:
Trang 14Fractional Factorial Fit: nangsuat versus Factort, Factor2, Factor3
Estimated Effects and Coefficients for Nauat(coded Coef SE Coef units) T P 5592 0.09546 477.25 0.000 0484 0.09546 -0.51 0.628 4797 0.09546 15,50 0.000 3816 0.09546 14.47 0.000 0809 0.09546 0.85 0.425 4312 0.09546 4.52 0.003 0372 0.09546 0.39 0.708 0434 0.09546 -0.45 0.663 0115 0.09546 0.12 0.907 units) Ad} SS Adj MS F P 0.0374 0.0374 0.26 0.628 5.6780 21.8927 150.15 0.000 3.0273 1.0091 6.92 0.017 9.0021 0.0021 0.01 0.907 1.0206 0.1458 Alias Structure 1 Blocks = Factorl Factor2 Factor3 Factorl*Factor2 Factori*Factor3 Term Effect constant 45 Block -0 Factorl 2.9594 1 Factor2 2.7632 1, Factor3 0.1618 0 Factorl*Factor2 0.9624 0 Factori*Factor3 0.0744 0 Factor2*Factor3 ~0.0867 -~0 Factorl*Factor2*Factor3 0.0230 0 Analysis of Variance for Nsuat (coded Source DF seq SS Blocks 1 0.0374 Main Effects 3 65.6780 6 2-Way Interactions 3 3.0273 3-Way Interactions 1 0.0022 Residual Error 7 1.0206 Total 15 69.7656 Estimated Coefficients for Neuat using data in uncoded unite Term Coef Constant 39.4786 Block ~0.0483750 Factorl ~0.102585 Factor2 0.0150170 Factor3 0.48563 Factor1*Factor2 0.00114990 Factorl*Factor3 ~0.0028917 Factor2*Factor3 -0.00280900 FactorL*Factor2*Factor3 0.000030700 Factor2*Factor3 Factor1*Factor2*Factor3 Normal Probability Plot of the Standardized Effects
Trang 15Pareto Chart of the Standardized Effects
(response is Nsuat, Alpha = 05)
9 5 10 18
Hình I.18 Biểu đồ Pareto các ảnh hưởng
Có thể giải thích ý nghĩa các kết quả như sau:
~ Bảng ước lượng (cho biết khoảng ước lượng 95% và kiểm định t mức ý nghĩa 5%) các hệ số ảnh hưởng của các nhân tố và tác động tương tác của chúng lên năng suất và bảng phân tích phương sai cho biết các ảnh hưởng của nhân tố khối và tác động tương tác kết hợp của cả ba nhân tố Factorl, Factor2, Factor 3 đều không có ý nghĩa Trong khi đó tổng tác động riêng rẽ của cả ba nhân tố và tổng tác động tương tác của từng cặp nhân tố lại có ý nghĩa (tuy vậy ảnh hưởng của riêng Factor 3 và của tác động tương tác của hai cặp Factor!*Factor3 và Factor2*Factor3 lại không đáng kể)
~ Hệ số ảnh hưởng của nhân tố khối không có ý nghĩa chứng tỏ dữ liệu thu thập theo khối không ảnh hưởng tới năng suất
- Đồ thị xác suất chuẩn của các ảnh hưởng quy chudn (Normal Probability Plot of the Standardized Effects) trén hinh 1.17 cho biết các nhân
16 A (Factor), B (Factor2) va tac động tương tác của chúng là đáng kể nhất,
vì chúng có hệ số ảnh hưởng quy chuẩn lớn và nằm cách xa đường thẳng dự báo Biểu đồ Pareto của các ảnh hưởng quy chuẩn (Pareto Chart of the Standardized Effects) trén hinh 1.18 cũng cho kết luận trên
Trang 163 Phân tích thống kê nhiều chiều
Minitab cung cấp các công cụ rất mạnh về phân tích dữ liệu nhiều chiều thu được khi chúng ta khảo sát và đo nhiều đặc tính của các cá thể trên một quần thể nhất định Tuỳ theo mục đích đẻ ra, chúng ta có thể lựa chọn phương pháp phân tích thống kê nhiêu chiều thích hợp:
- Phân tích cấu trúc (hiệp phương sai) của dữ liệu nhằm hiểu rõ về mối tương quan giữa các chiều của đữ liệu, từ đó có thể tìm cách rút gọn số chiều của dữ liệu Để làm điều này, chúng ta có thể sử dụng các công cụ của Minitab là Phân tích thành phần chính và Phân tích nhân tố (cần chú ý rằng thuật ngữ “nhân tố” ở đây có ý nghĩa khác với nội dung ở phần phân tích phương sai một nhân tố, hai nhân tố hay thiết kế nhân tố .)
- Các phương pháp phân nhóm các dữ liệu nhiều chiều bao gồm: Phân
loại (discriminant analyis), Phan cum dit liệu, Phân cum các biến và Phan
cụm K-trung bình
3.1 Phản tích thành phần chính
Để khảo sát một quần thể, chúng ta dùng phương pháp mẫu Chẳng hạn, như trong ví dụ 16, chọn ra một mẫu 14 cá thể, trên mỗi cá thể ta phí các chỉ số của năm đặc tính A, B, C, D và E Như vậy ở đây chúng ta quan
Trang 17a Các bước thực hiện
~ Mở tiệp dữ liệu PTich_TPC.MTW bao gồm 5 cột dữ liệu A, B, exp
va E
- Chon Stat>Multivariate> Principal Components, - Trong muc Variables chon các cột dữ liệu
- Nếu muốn, ta có thể chọn một hoặc nhiều hơn các lựa chọn khác trong hộp thoại (như chon Correlation trong muc Type Matrix, chon Eigenvalue (Scree) plot trong muc Graph), sau đó kich OK
Minitab cho ta két qua sau như trên hình I.19 Principal Component Analysis: A, B, €, D, E Figenvalue Figenanalysis of the Correlation Matrix proportion 3.0269 0.606 1.291 0.258 0.5725 0.114 0.0954 0.0121 0.019 goad Cumulative 0.606 0.864 0.976 0.996 tone Pc2 Pca Pca Pcs 70.131 629 -0.549 0,008 0.551 0.606 -0.453 0.007 0.004 0.117 0.268 0.769 -310 0.455 -0.648 0,201 0.701 0.691 0.015 0.014 ate es Variable a Scree Plot of A-E Eigenvalue ‘Component Number Hình I.19 Các cửa sổ Minitab khi phân tích thành phần chính
Kết quả phân tích thành phan chính như sau:
Principal Component Analysis: A, B, C, D, E
Eigenanalysis of the Correlation Matrix
Trang 18Eigenvalue 3.0289 1,2911 0.5725 0.0954 0.0121 Proportion 0.606 0.258 0.114 0.019 0.002 Cumulative 0.606 0.864 0.978 0.998 1,000 Variable Pel PC2 PC3 PC4 PCS A -0.558 -0.131 0.008 0.551 ~0 606 B -0.313 ~0.629 -0.549 -0.453 0.007 Cc -0.568 -0.004 0.117 0.268 0.769 D -0.487 0.310 0.455 -0.648 -0.201 E 0,174 -0,701 0.691 0.015 0.014
b Phân tích kết quả nhận được
‘Thanh phần chính PC] có phương sai (giá trị riêng) là 3.0289 và chiếm tới 60.6% của tổng phương sai Các hệ số của cột PCI cho biết: PCI = - 0.558A-0.313B-0.568C-0.487D+0.174E Chú ý rằng các hệ số của A, B, C,
D đều không sắt 0 Điều này có thể được cắt nghĩa (một cách chủ quan) như sau: Thành phần chính thứ nhất biểu diễn các mức của các đặc tính A, B, C dưới tác động ảnh hưởng của đặc tính D
Trong khi đó, thành phần chính thứ hai có phương sai là 1.2922 và chiếm tới 25.8% độ biến động của dữ liệu Nó phản ánh mức độ tương phản giữa đặc tính B và E đối với đặc tính D
Hai thành phần chính trên PCI và PC2 chiếm tới 97.8% độ biến động toàn phần, nên cấu trúc dữ liệu có thể được thể hiện phần lớn bởi hai chiều trên Các thành phần chính còn lại chiếm tỷ trọng biến động bé nên có thể bỏ qua Điều này cũng được thể hiện khá rõ trên biểu đồ các giá trị riêng
trong hình 1.14 (Seree plot of A-E)
Về mặt toán học, các thành phần chính PCI, PC2, PC3, PC4 và PC5
không tương quan với nhau (chúng có ma trận tương quan hay ma trận hiệp
phương sai dạng đường chéo chính) Nói cách khác, véc tơ ngẫu nhiên X đã được phân tích dưới dạng sau: X = E(X) + PVTX, trong đó Pc là ma trận với các cột là các vec tơ thành phần chính Trong trường hợp tổng quát phân tích thành phần chính, các giá trị riêng luôn có giá trị cố định, còn các véc tơ thành phân chính có thể thay đổi tuỳ theo thuật toán phân tích thành phần chính được sử dụng
3.2 Phân tích nhân tố
Trang 19việc tổng hợp cấu trúc hiệp phương sai của dữ liệu với số chiều ít nhất Tuy nhiên, phân tích nhân tố chú trọng đặc biệt tới việc tìm ra các nhân tố ảnh hưởng nhiều nhất tới sự biến động toàn phần của đữ liệu
4 Phân tích nhân tố bằng phương pháp thành phần chính
Vi du 17, Cac dữ liệu như ví dụ 16 Cần thực hiện phân tích nhân tố bằng phương pháp thành phần chính Ta tiến hành các bước sau:
- Mỏ tệp Píích TPC.MTW
- Chon Stat>Muttivariate>Factor Analysis
- Trong muc Variables, chon A, B, C, D va E
- Kich vao Graph va chon Eigenvalue (Scree) plot Két thiic kich OK
trong mỗi hộp thoại Ta thu được kết qua sau:
Results for: PTich_TPC.MTW ,B,C,D,E
Factor Analysis:
Principal Component Factor Analysis of the Correlation Matrix Unrotated Factor Loadings and Communalities
Variable — Factor1 Factor2 Factor3 Factor4 Factor5 Communality A -0.972 -0.149 0.006 0.170 -0.067 1.000 B -0.545 -0.715 -0.415 -0.140 0.001 1.000 € -0.989 -0.005 0.089 0.083 0.085 1.000 D -0.847 0.352 0.344 -0.200 -0.022 1.000 E 0.303 -0.797 0.523 0.008 0.002 1,000 Variance 3.0289 1/2911 0.5725 0.0954 0.0121 5.0000 % Var 0.606 0.258 0.114 0.019 0.002 1.000
Factor Score Coefficients
Trang 20Kết quả trên có thể được phân tích như sau:
- Số nhân tố được chọn là 5, do đó giá trị liên kết (Communality) cho
các đặc tính A, B, C, D và E đều là 1 Điều này có nghĩa là tỷ trọng % biến động của mỗi biến được giải thích bởi các nhân tố đã chọn đều là 100% Các
véc tơ nhân tố đếu có phương sai tương ứng giống như thu được trong phân
tích thành phần chính, và các phương sai này sẽ giải thích tỷ trọng % biến động do các nhân tố gây nên Ta thấy hai nhân tố đầu giải thích được tới 96.4% biến động của dữ liệu
- Đối với véc tơ nhân tố l ta có công thức: Factorl = PCIx 3.0289/ JPCI, với JPCH| là độ dài của véc tơ PC], Các công thức tương tự cũng
đúng với các nhân tố còn lại Tóm lại, các giá trị riêng (hay phương sai) của các véc tơ nhân tố đều bất buộc bằng 1, nên độ đài của các véc tơ nhân tố cũng chính bằng các phương sai tương ứng của các véc tơ thành phần chính Trong cac cot 6 phan Factor Score Coeficients, ta c6é các véc tơ nhân tố đã được chuẩn hoá (có độ dài bằng 1)
b Phân tích nhân tố sử dụng phương pháp hợp lý cực đại và phép quay
Theo định nghĩa, các véc tơ nhân tố phải có phương sai (giá trị riêng)
là 1, vì vậy chúng được xác định chính xác tới một phép biến đổi trực giao hay còn nói là một phép quay Trong phân tích nhân tố, sau khi thực hiện
phương pháp thành phần chính với số nhân tố không rút gọn (bằng 5 trong ví dụ trên), chúng ta sẽ rút gọn số nhân tố
Phương pháp hợp lý cực đại được sử dụng để tìm ra các nhân tố có ảnh hướng nhất tới biến động của dữ liệu, sau khi đã chọn ra số nhân tố cần để lại Đồng thời cần lựa chọn phép quay thích hợp (có bốn phương pháp quay, thông thường chọn varimax để cực đại hoá phương sai của các nhân tố hoặc equimax để các biến được tập trung chủ yếu vào một nhân tố)
Ví dụ 18 Ta dùng dữ liệu của ví dụ L7 và tiến hành phân tích nhân tố
Trang 21- Trong muc Method of extraction chon Maximum likelihood - Trong muc Type of rotation chon Varimax
- Kich Graph, chon Loading plot for first 2 factors, khong chon Eigenvalue (Scree) plot Kich OK Kich Results, chon Sort loading Sau
cùng, kich OK trong mỗi hộp thoại để nhận được kết quả phân tích nhân tố Trên hình L20 là các cửa sổ Minitab khi phân tích nhân tố bằng
phương pháp hợp lý cực đại và phép quay Varimax Variance % Yar 2.9678 0.594 1.0159 0.203 3.9837 0.797 Rotated Factor Loadings and Couaunalities Vatimax Rotation Variable Factor! —Factor2 Communality a 0.718 0.673 0.968 B -0.052 0.967 0.938 Load Plot of A-E c 0.831 0.556 1.000 D 0.924 0.143 0.815 Loading Plot of AE : -0.415 0.173 0.202 Variance 2.2354 1.7483 3.9837 % Yer 0.447 0.350 0.797 Sorted Rotated Factor Loadings and Communelitie Second Factor Fist Factor
Hinh 1.20 Phan tích nhân tố với phép quay Varimax trong Minitab
Kết quả phân tích nhân tố lúc này như sau:
Results for: PTich_TPC.MTW Factor Analysis: A, B, C, D, E
Trang 22Unrotated Factor Loadings and Communalities Variable > øa 0 Variance % Var Varimax Rotat: variable A moo D Variance % Var Variable oH pao Variance % Var Factor Score Coefficients Variable F zB Factor Factor2 Communality 0.971 0.160 0.968 0.494 0.833 0.938 1.000 0.000 1.000 0.848 -0.395 0.875 -0.249 0.375 0.202 2.9678 1.0159 3.9837 0.594 0.203 0.797 Rotated Factor Loadings and Communalities ion Factorl Factor2 Communality 0.718 0.673 0.968 -0.052 0.967 0.938 0.831 0.556 1.000 0.924 0.143 0.875 ~0.415 0.173 9.202 2.2354 1.7483 3.9837 0.447 0.350 0.797
Sorted Rotated Factor Loadings and Communalities Factorl Factor2 Communality 0.924 0.143 0.875 0.831 0.556 1.000 0.718 0.673 0.968 ~0.415 0.173 0.202 ~0.052 0.967 0.938 2.2354 1.7483 3.9837 0.447 0.350 0.797 actorl Factor2 ~0.165 0.246 -0.528 0.789 1.150 0.080 0.116 -0.173 ~0.018 0.027 nou ow
Kết quả trên bao gồm ba bảng phân tích nhân tố: không sử dụng phép quay, có sử dụng phép quay, sử dụng phép quay và sấp xếp lại với các ý
nghĩa như sau:
Trang 23- Các nhân tố không quay (bảng đầu tiên) giải thích được 79.7% biến động toàn phần của đữ liệu Biến A có độ kết nối (communality) là 0.968 có nghĩa là A đực giải thích bởi hai nhân tố đã chọn ở mức 0.968 Tương tự ta cắt nghĩa được các giá trị kết nối khác Nói chung, các biến đều được biểu
diễn khá tốt thông qua hai nhân tố đã chọn trừ trường hợp biến E
- Các nhân tố thu được bằng phép quay Varimax (bảng thứ hai) cũng giải thích được tới 79.7% như ở bảng đầu, tuy nhiên sau khi quay các nhân tố trở nên cân bằng hơn về mức giải thích biến động của đữ liệu Nếu sắp xếp lại theo theo chiều toạ độ giảm dân của véc tơ nhân tố † thì ta có bảng thit ba Quan sat biéu dé Load Plot A-E trén hinh 1.20 có thể thấy nhân tố 1 có mức nạp các biến A, C và D cao, còn nhân tố 2 là các biến A, B và C, Như vậy, nhân tố I có thể coi là nhân tố phản ảnh mối quan hệ (A, C, D), còn nhân tố 2 phản ánh mối quan hệ (A, C, B) Trong khi đó tương quan (D, B) là tương đối yếu
~ Chuẩn hoá các véc tơ nhân tố ta có bảng hệ số điểm nhân tố đạt được
(factor score coefficients) Khi có bộ dữ liệu mới về véc tơ ngẫu nhiên X, ta
chỉ việc lấy các hệ số trên nhân với dữ liệu đã được quy gốc về véc tơ kỳ vọng để tính điểm đạt được của các nhân tố
3.3 Phân loại
Chúng ta sử dụng giải tích phân loại để phân loại các đữ liệu quan sát
được vào hai hay nhiều nhóm, nếu như đã có mẫu thực nghiệm với các nhóm
đã biết Minitab cho phép phân loại theo hai cách: Phân loại tuyến tính và
phân loại toàn phương Chúng ta đi sâu vào phân tích phân loại tuyến tính,
lúc này cần giả thiết rằng các nhóm đều có chung ma trận hiệp phương sai Ví dụ 19, Để phân loại cá hồi nguồn gốc từ Alaska hay từ Canada, người ta theo dõi 50 con gốc Alaska, 50 con gốc Canada và tiến hành đo
vòng tăng trưởng cho các giai đoạn chúng sống trong nước ngọt và nước
biển Số liệu mẫu thu thập được như sau:
Số Nguồn Nước Nước Số Nguồn Nước Nước
Trang 25a Các bước thực hiện
Tiến hành phân loại trong Minitab theo các bước: - Mở tệp dữ liệu EXH_MVAR.MTW
- Chon Stat > Multivariate > Discriminant Analysis
- Trong mục Group, chọn cot Nguon goc trong muc Predictor chon cde c6t Nuoc ngot và Nuoc bien Kích ÓOK để thu được kết quả sau trong
cửa sổ kết quả
Discriminant Analysis: Nguon goc versus Nuoc ngot, Nuoc bien
Linear Method for Response: Nguon go Predictors: Nuoc ngo Nuoc bie
Group Alaska Canada
Count 50 50
Summary of Classification
Put into «- True Group
Group Alaska Canada Alaska 44 1 Canada 6 49 Total N 50 50 N Correct 44 4g Proportion 0.880 0.980
Trang 26Summary of Misclassified Observations
Observation True Pred Group Squared Probability
Group Group Distance
1+ Alaska Canada Alaska 3.544 0.428 Canada 2.960 0.572 2+ Alaska Canada Alaska 8.1131 0.019 Canada 0.2729 0.981 12 ** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 13 ** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 30 ** Alaska Canada Alaska 3.230 0.289 Canada 1.429 0.711 32 ** Alaska Canada Alaska 2.271 9.464 Canada 1.985 0.536 Wot Canada Alaska Alaska 2.045 0.948 Canada 7.849 0.052
b Phân tích kết quả nhận được
- Việc phân loại như trên đã xác định đúng nguồn gốc của 93 con cá
Tỷ lệ xác định đúng cá hồi Alaska là 88%, cá hồi Canada là 98%
- Sử dụng hàm phân loại tuyến tính (có hai dạng) để tính chỉ số cho một con cá hồi mới bát lên, hàm nào cho giá trị lớn hơn thì phân loại cá vào
nhóm tương ứng Các phép tính này có thể được thực hiện đồng thời cho
nhiều con cá mới bằng các lệnh trong Minitab Lúc đó chỉ cần chọn lại Stat
> Multivariate > Discriminant Analysis, ttong muc Group, chon cot Nguon goc Trong muc Predictor chon các cột Nuoc ngọt và Nuoc bien Kích
Option, trong muc Predict group membership for chọn các cột số liệu mới
Chẳng hạn, với hai con cá mới với các số liệu khảo sát là (100, 400) và (200,
500) thì ta có kết quả phân loại là: Prediction for Test Observations
Trang 27- Trong bang théng ké các trường hợp phân loại sai (Summary of
Misclassified Observations) có thống kê bảy trường hợp Chỉ số khoảng cách
của con số 1 là 3.544 và 2.960 tính tới trọng tâm của từng nhóm Alaska va
Canada Từ đó, tính ra xác suất (hậu nghiệm) để cá 1 thuộc vào nhóm Alaska và Canada là 0.428 và 0,572 Vì vậy, mặc dù cá 1 thuộc nhóm
Alaska nhưng vẫn được phân loại vào nhóm Canada Tương tự, ta có thể giải
thích về các trường hợp khác
3.4 Phân cụm đữ liệu
Khác với giải tích phân loại mục 3.3, ta thực hiện phân cụm dữ 1iệu khi các nhóm chưa được xác định trước
Ví dụ 20 Khảo sát lỗ loại thức ăn ta có các số liệu sau (các chỉ số
khảo sát là protein, carbohydrat, fat (chất béo), calories (năng lượng) và vitamin A) Loại thức ăn Protein Carbo Fat Calories VitaminA 1 6 19 1 110 0 2 3 23 0 100 25 3 2 26 0 110 25 4 6 21 6 110 25 5 2 25 0 110 25 6 3 28 1 120 25 1 2 24 9 110 100 8 3 23 1 110 25 9 3 23 1 110 100 10 1 1â 0 50 9 u 1 26 0 110 25 12 2 25 ọ 110 25 a Các bước thực hiện - Mở tệp dữ liệu CEREAL.MTW
- Chon Stat > Multivariate > Cluster Observations
- Trong muc Variables hoje Distance matrix chon cdc cot Protein, Carbo, Fat, Calories, Vitamin A
- Trong muc Linkage method, chon Complete Trong muc Distance measure chon Squared euclidean
Trang 28+ Kich Standardize variables
- Trong muc Specify final partition by, chon Number of cluster va
nhập số 4
~ Chọn Show dendrogram
- Kích Customize Trong mục Tiie đánh vào BIEU DO PHAN NHOM CAC LOAI THUC AN Trong muc Type nhap s6 /, 2, 3 Trong muc Color, nhập số 7 Kích ØK trong từng hộp thoại để kết thúc và nhận được kết quả
sau trong cửa số kết quả của Minitab:
Cluster Analysis of Observations: Protein, Carbo, Fat, Calories, VitaminA
Standardized Variables, Squared Euclidean Distance, Complete Linkage Amalgamation Steps
Step Number of Similarity Distance Clusters New Number of obs,
clusters level level joined cluster in new cluster 1 11 100.00 0.000 5 12 5 2 2 10 99,82 9.064 3 5 3 3 3 9 98.79 0.435 3 11 3 4 4 8 94.68 1.913 6 8 6 2 5 ? 93.41 2.373 2 3 2 5 6 6 87.33 4.560 7 9 7 2 3 5 86.19 4.970 1 4 1 2 8 4 80.60 6.981 2 6 2 7 9 3 68.08 11.487 2 7 2 9 10 2 41.41 21.085 1 2 1 11 11 1 0.00 35.987 1 10 1 12 Final Partition Number of clusters: 4
Number of Within cluster Average distance Maximum distance
Trang 29Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Cluster4 Grand centrd Protein 1.9283 ~0,3335 ~0.2030 -1.1164 0.0000 Carbo ~0.7587 0.5419 0.1264 -2.5289 ~0 0000 Fat 0.3385 -0.0967 - 0.3385 ~0.6770 0.0000 Calories 0,2803 0.2803 0.2803 -3.0834 ~0 0000 VitaminA ~0.6397 -0.2559 2.0471 -1,0235 ~0.0000
Distances Between Cluster Centroids
Clusterl Cluster2 Cluster3 Cluster4 Clusterl 0.0000 2.6727 3.5418 4.9896 Cluster2 2.6727 0.0000 2.3838 4.7208 Cluster3 3.5418 2.3838 0.0000 5.4460 Cluster4 4.9896 4.7205 5.4460 9.0000 BIEU DO PHAN NHOM CÁC LOẠI THUC AN Similarity 0.00 1 33.33 66.67 100.00 12 11 Observations
Hình I.21 Biểu đổ, phân nhóm cụm các loại thức ăn
b Phân tích kết quả nhận được
- Tại mỗi bước hai nhóm được kết hợp với nhau Bảng kết hợp các
bước (amalgamation steps) cho biết tại từng bước hai nhóm nào hợp với
Trang 30nhau, khoảng cách giữa chúng, mức độ tương tự của các dữ liệu, số thứ tự
mới của lớp vừa hình thành (số bé hơn trong hai số), số phần tử trong nhóm
mới và số các nhóm Qúa trình kết hợp này tiếp tục cho tới khi toàn bộ số
liệu hợp thành một nhóm cụm (xem thêm hình I.21)
- Phan tích cột ghi mức độ đồng dạng, ta thấy ban đâu các mức này giảm từ từ trong khoảng I tới 6 đơn vị, cho tới khi số nhóm được hình thành
là 4 Sau đó mức độ đồng dạng giảm mạnh tới 13 đơn vị Điều này cho biết rằng ta đã đạt tới phân hoạch hợp lý với 4 nhóm (xem biểu đồ phân nhóm)
~- Ngoài ra các bảng khác của cửa số kết quả còn cho biết khá rõ về tính chất của 4 nhóm số liệu co cụm đã thu được (tổng bình phương, khoảng cách trung trung bình và khoảng cách lớn nhất tới trọng tâm của từng nhóm),
các véc tơ từ trọng tâm của các nhóm tới trọng tam chung), khoảng cách giữa trọng tâm các nhóm
3.5 Phân cụm các biến
Mục đích của phân cụm các biến là sắp các biến vào các nhóm, chưa được xác định rõ ngay từ đầu, do đó có thể giảm được số các biến So với
phương pháp phân tích thành phần chính, các biến mới trong phương pháp này có thể được giải thích dễ hiểu hơn về mặt trực giác
Ví dụ 2L Tiến hành một nghiên cứu về ảnh hưởng của việc thay đổi
môi trường lên huyết áp Lấy mẫu thực nghiệm 39 người đàn ông trên 21
tuổi, và điều tra giá trị của các biến ngẫu nhiên sau: tuổi, số năm sau khi di cư, cân nặng, chiều cao, số đo (cằm, cánh tay, bắp chân), mạch, (áp tâm thu, áp trương thu) Mục đích của việc phân cụm các biến lúc này là tìm cách
Trang 3111 33 12 33 13 34 14 35 15 35 16 36 17 36 18 37 19 37 20 38 21 38 22 38 23 38 24 39 25 39 26 39 27 41 28 41 29 41 30 42 31 43 32 43 33 43 34 44 35 44 ;6 45 37 47 38 50 39 34 Diastol 76 76 66 72 và phương pháp tính khoảng 60 74 78 74 13 10 15 18 12 15 16 17 10 18 11 11 21 24 14 25 32 12 25 26 10 19 18 10 43 40 75 80 72 66 66.5 59.1 64.0 69.5 64.0 56.5 57.0 55.0 57.0 58.0 59.5 61.0 57.0 57.5 74.0 72.0 62.5 68.0 63.4 68.0 69.0 73.0 64.0 65.0 71.0 60.2 55.0 70.0 87.0 120 68 62 70 trung binh (average linkage) 1622 1486 1578 1645 1648 1521 1547 1505 1473 1538 1513 1653 1566 1580 1647 1620 1637 1528 1647 1605 1625 1615 1640 1610 1572 1534 1536 1630 1542 78 78 84 84 Swe oo ae SSCSOWdvD BWUOWS 7.3 6.3 6.0 10.0 5.3 11.0 5.0 12.0 5.7 8.0 3.0 3.0 3.0 4.0 11.3 72 86 92 70 3.0 3.0 6.0 11.7
Về mặt toán học, cần thực hiện việc phân cụm vị tương quan d, = | - Đụ, Với Dị, 8.3 10.3 7.0 7.0 6.7 11,7 6.0 7.0 11.7 13.0 7.7 4.0 3.0 5.0 15.7 13.3 8.0 11.3 13.7 10,7 6,0 5.7 7.0 7,7 4.3 3.3 4.0 11,7 11.3 76 70 80 54 68 72 88 60 60 72 84 64 72 64 80 76 60 64 64 68 76 60 76 88 72 68 60 74 72 56 64 72 92 62 76 82 90 116 114 130 118 138 134 120 120 114 124 114 136 126 124 128 134 112 128 134 128 140 138 118 110 142 134 116 132 152 70 80 92 88 64 64 s0 ới độ do khoảng cách là hệ số tương quan mô men tích kiểu Pearson, cách giữa hai nhóm cụm kiểu khoảng cách
Trang 32a Các bước thực hiện
- Mở tệp dữ liệu AWDC.MTW
- Chon Stat > Multivariate > Cluster Variables
- Trong muc Variables hoac Distance matrix, chon tất cả các cột số liệu từ cột Age cho tới cột Diastol
- Trong mục Linkage method chon Average
- Chon Show dendrogram két thiic kich OK dé nhan duge két qua sau
trong cửa số kết quả của Minitab
Cluster Analysis of Variables: Age, Years, Weight, Height, Chin, Forearm, Calf,
Correlation Coefficient Distance, Average Linkage Amalgamation Steps
Step Number of Similarity Distance Clusters New Number of obs
Trang 33b Phân tích kết quả nhận được
- Trong méi bước kết hợp (amalgamation steps) hai biến được hợp với
nhau Bảng kết quả cho biết trong từng bước hai biến nào hợp với nhau,
khoảng cách giữa chúng, mức độ tương tự (similarity level) của các biến trong các nhóm cụm, số thứ tự mới của nhóm vừa hình thành (số bé hơn
trong hai số), số phần tử trong nhóm mới và số các nhóm Qúa trình kết hợp này tiếp tục cho tới khi toàn bộ số liệu hợp thành một nhóm Nếu chúng ta cần phân hoạch cuối cùng thì sẽ nhận được danh sách biến trong từng nhóm
- Biểu đồ phân cụm trên hình 1.22 minh hoạ cho các phân tích trên
đây Giả sử phân hoạch cuối cùng chứa năm nhóm cụm thì trên biểu đồ này có thể thấy các biến (cằm, cánh tay, báp chân) là tương tự nhau nên có thể kết hợp vào một nhóm, (tuổi, số năm sau khi di cư) cũng có thể hợp thành
một nhóm, (cân nặng, áp tâm thu, áp trương thu) cũng được coi là chứa các
thông tin tương tự Các biến mạch và chiều cao đứng riêng không cụm với
biến nào
3.6 Phân cụm K-trung bình
Phương pháp phân cụm K-trung bình được sử dụng nhằm phân cụm
các dữ liệu quan sát vào các nhóm chưa được xác định rõ từ đầu Phương pháp này được xây dựng dựa trên thuật toán MacQueen
Ví dụ 22 Trong một khu bảo tồn, có dữ liệu về 143 con gấu: (số hiệu, năm tuổi, tháng tuổi, giới, chiều cao, chiều đài đầu, cân nặng, cân nặng của đầu, vòng cổ, vòng ngực, số thứ tự cân đo, tên) Từ các chỉ số về chiều cao, chiều dài đầu, cân nặng, cân nặng của đầu, vòng cổ, vòng ngực, cần phân gấu thành ba nhóm: nhóm 1 gồm gấu loại nhỏ, nhóm 2 loại vừa và nhóm 3
loại lớn
4a Các bước thực hiện
- Mở tệp dữ liệu Bears.MTW
- Chon Cale > Make Patterned Data > Simple Set of Numbers
- Trong muc Store patterned data in, đánh vào tên cột đánh dấu ban dau 1a Initial Trong cdc muc From first value va To last value, nhap sé 0 trong muc List each value nhap s6 143 Kich OK
- Vào cửa số nhập liệu và gõ vào các s6 1, 2, 3 tai cdc hàng thứ 2, 78,
15 để đánh đấu các con gấu tiêu biểu cho loại nhỏ, vừa và to
Trang 34- Chon Stat > Multivariate > Cluster K-Means
- Trong mục Vzriables chọn các cột tương ứng với các chỉ số chiều cao, chiều dài đâu, cân nặng, cân nặng của đầu, vòng CỔ, vòng ngực
- Để mô tả tính chất phân hoach (specify partition), chon Initial partition column va g6 vao tén cét (initial)
- Danh dau vao 6 Standardize variables
- Kich Storage Trong muc Cluster membership column, g5 vao tén Bears (Gấu) cho cột chứa cột số thứ tự của các nhóm cụm tương ứng Kích
OK để nhận được các bảng kết quả trên hình L23 (bảng đữ liệu ban đầu và phân nhóm cụm chỉ lấy một phần để minh hoa)
Cần chú ý rằng thay vào các bước 2 tới 7 chỉ cần làm như sau trong
trường hợp ta khởi tạo quá trình phân hoạch bằng cách chọn số nhóm cụm
của phân hoạch mong muốn chứ không phải bằng cách đánh dấu các phần tử tiêu biểu cho cách nhóm cụm:
- Trong mục Variables chọn các cột tương ứng với các chỉ số chiếu
cao, chiêu dài đâu, cân nặng, cân nặng của đâu, vòng cỔ, vòng ngực
- Dé mé tả tính chat phan hoach (Specify partition), chon Number of clusters va nhập vào số nhóm mong muốn, sau đó kich OK
K-means Cluster Analysis: Head.L, Head.W, Neck.G, Length, Chest.G, Weight
Standardized Variables Final Partition
Number of clusters: 3
Number of Within cluster Average distance Maximum distance
Trang 35Distances Between Cluster Centroids
Clusterl Cluster2 Cluster3 Clusterl 0.0000 2.4233 5.8045 Cluster2 2.4233 0.0000 3.4388 Cluster3 5.8045 3.4388 0.0000 1 1 Alen 0 1 AT 2 88 0 OA Bota 1i rất I3 2.01 69 9 E0 71 H, 2Bs ñ 4 4 3 1 23 425 50 55 95 BO t0 3 Berta 0 2 4 3 5 2 120 60 180 20 HO 121 4 Berta 0 2 Ce TT M Tí oT 8 3 8 1 0U §§ 7 BO Se 2 ie 0 1 6 8 1.1.8 80.80 Ø5 60 3M 10w 03 %& 0ï! 1 590-70 80 DD 0.3 e 8 9 1 5 8) 30 70 MU M6 1 Ouny 0 3 8" U 1 B10 eo 20 T0 Ø 6 la 03 8 16 7 1 U0 !U BS 7 60 364 hatin off 18g 8U 9 1-65 15 20 BÚ Hồ 5 - 20A6 0-3 8.14 4 1 Ứ5 8 20 BÚ 80 8 30a 0 3 8 10 8 1 60 9Ú BÚ BÚ 40 # 4 Cate 3 a 1u R 7 185 RR 7 mn ®n tR 1 Roraldine 2 Hình I.23 Dữ liệu của tệp BEAR.MTW và kết quả phân nhóm cụm b Phân tích kết quả
- Việc phân cụm E-trung bình đã phân 143 con gấu vào ba nhóm cụm:
41 con thuộc nhóm bé, 67 nhóm vừa và 35 nhóm lớn
- Các bảng còn cho biết tổng bình phương sai số trong từng nhóm, khoảng cách từ phân tử tới trọng tâm của nhóm tương ứng, khoảng cách lớn nhất trong số đó, toạ độ của các trọng tâm quy chuẩn (quy về trọng tâm chung) của các điểm trọng tâm và khoảng cách giữa trọng tâm các nhóm
Trang 36Ill UNG DUNG PHAN MEM FRONTIER 4.1 VA LIMDEP TRONG PHAN TICH DU LIEU KINH TE NONG NGHIỆP
1 Hàm cực biên và ứng dụng trong phân tích kinh tế
1.1 Sơ lược về hàm cực biên
Ham cue bién (frontier functions) la nhiing ham bao vé gidi han
Người khởi đầu ra phương pháp cực biên là Farrell (1957) Phương pháp cực biên được phát triển rất mạnh cả về phương pháp luận cũng như ứng dụng trong khoảng hai thập ky gần đây (nhất là sau bài viết của Aigner, Lovell, và Schmidt, 1977 va Green, 1980) Ham cuc biên bao gồm hầm sản xuất cực
biên, hàm chỉ phí cực biên và hàm lợi nhuận cực biên #fàm sản xuất cực
biên là hàm biểu hiện khả năng có thể đạt được mức đầu ra cao nhất với tổ
hợp số lượng các đầu vào đã cho Hâảm chỉ phí cực biên thể hiện mức chỉ phí
thấp nhất có thể để sản xuất một mức đầu ra xác định với giá các đầu vào
biết trước Tương tự, hàm lợi nhuận cực biên phản ánh mức lợi nhuận cao
nhất có thể đạt được với mức giá cả đầu vào và đầu ra đã biết trước Với giả thiết công nghệ và giá cả các yếu tố đầu vào, đầu ra không đổi, cực biên có nghĩa là cực đại hoá đầu ra (sản lượng hay lợi nhuận) hay cực tiểu hoá chỉ
phí Khái niệm cực biên trong trường hợp này có nghĩa là các hàm trên đặt ra một khoảng giới hạn cho các quan sát Ví dụ chúng ta có thể quan sat thấy
các điểm nằm dưới đường sản xuất cực biên (người sản xuất thường sản xuất dưới mức cao nhất có thể), nhưng không thể có điểm nằm cao hơn đường sản xuất cực biên Cũng tương tự ta sẽ không thấy có điểm nằm thấp hơn đường
chi phí cực biên
Có hai điểm khác biệt và cũng là lợi ích của hàm cực biên so với hàm trung bình" (ước lượng bằng phương pháp bình phương nhỏ nhất, OLS -
Ordinary Least Squares):
- Hàm “trưng bình" phản ánh “hình dạng" công nghệ của hãng hay người sản xuất trung bình, trong khi hàm cực biên chịu ảnh hưởng phần lớn bởi hãng hay người sản xuất có trình độ kỹ thuật cao nhất
- Ham cực biên phản ánh “công nghệ thực hành tốt nhất" (Best - Practice Technology) và dựa trên đó hiệu quả của hãng hay người sản xuất
Trang 37Hàm cực biên nói chung, và nhất là hàm sản xuất cực biên được sử
dung rat nhiều trong việc ước lượng và tính toán hiệu quả kỹ thuật và hiệu
quả kinh tế Nhờ đó chúng ta có thể xác định hiệu quả kỹ thuật của từng
trang trại hay hộ nông dân, các nguyên nhân tại sao không có hiệu quả kỹ thuật hay hiệu quả kỹ thuật thấp Trong trường hợp hiệu quả kỹ thuật đạt
được cao, nếu chúng ta muốn nâng cao sản xuất thì nhất thiết phải đổi mới hay thay đổi công nghệ Đây là những cơ sở để để ra các chính sách cho sản xuất nói chung và sản xuất nông nghiệp nói riêng
1.2 Phân tích hiệu quả kinh tế và đường cực biên
Farell (1957) đã đưa ra khái niệm vẻ hiệu quả của một hãng bao gồm hai bộ phận cấu thành là hiệu quả kỹ thuật và hiệu quả phân bổ Hiệu quả kỹ thuật, phản ánh khả năng của hãng có thể tối đa hoá sản lượng đầu ra với một lượng đầu vào và công nghệ nhất định Hiệu quả phân bố, phản ánh khả năng của hãng sử dụng tổ hợp các đầu vào ở mức độ tốt nhất với mức giá và công nghệ sản xuất nhất định
Hiệu quả kinh tế nói chung (theo kinh tế thị trường) được định nghĩa là cực đại tổng thặng dư của cả người sản xuất (PS) và người tiêu dùng (CS) Vậy hiệu quả kinh tế của người sản xuất là cực đại thặng dư người sản xuất (PS) hay cực đại lợi nhuận (z) Trong nên kinh tế thị trường, người sản xuất nếu đạt được cực đại lợi nhuận thì có nghĩa là họ có hiệu quả kinh tế cao nhất Hiệu quả kinh tế (EE) bao gồm hai bộ phận: Hiệu quả kỹ thuật (TE) và hiệu quả phân bổ (AE) hay hiệu quả giá
Hiệu quả kỹ thuật (TE) được định nghĩa là khả năng của người sản xuất có thể sản xuất mức đầu ra tối đa với một tập hợp của các đầu vào và công nghệ cho trước Cần phân biệt sự khác nhau giữa hiệu quả kỹ thuật và
thay đổi công nghệ (tecanological change) Sự thay đổi công nghệ làm dịch
chuyển hàm sản xuất (dịch chuyển lên trên) hay dịch chuyển đường đồng lượng xuống phía dưới
Hiệu quả phân bổ (AE) hay còn gọi là hiệu quả giá là thước đo phản ánh mức độ thành công của người sản xuất trong việc lựa chọn tổ hợp các đầu vào tối ưu, nghĩa là tỷ số giữa sản phẩm biên của hai yếu tố đầu vào nào đó sẽ bằng tỷ số giá cả giữa chúng
Trang 38Hiệu quả kinh tế !(EE) là mục tiêu của người sản xuất Nó là thước đo
phản ánh mức độ “thành công" của người sản xuất trong việc lựa chọn tổ hợp
đầu vào và đầu ra tối ưu EE được tính bằng tích của hiệu quả kỹ thuật và
hiệu quả phân bổ (EE = TE x AE)
Với mục tiêu cực đại lợi nhuận, người sản xuất nói chung và nông dân nói riêng phải (1) sản xuất một lượng đầu ra có thể cao nhất với một mức đầu vào đã cho (nghĩa là có hiệu quả kỹ thuật); (2) phải sử dụng tổ hợp các đầu vào hợp lý trên cơ sở mối quan hệ của giá cả từng đầu vào (nghĩa là có hiệu quả phân bổ đầu vào); và (3) phải sản xuất được tổ hợp đầu ra hợp lý với tập hợp các giá cả đã cho (nghĩa là có hiệu quả phân bổ đầu ra) Những
khái niệm này được biéu dién trén cdc hinh 1.24, 1.25 va 1.26
0 A' XJY
Hình I.24 Hiệu quả trong không gian đầu vào - đầu vào
Giả sử người sản xuất hay hộ nông dân sử dụng kết hợp hai đầu vào
X,va X, dé sin xuất ra sản phẩm Y thì hiệu quả kỹ thuat (TE) được xác định
theo đồ thị trên hình L24 Trục tung biểu diễn lượng dau vào X, trung bình
cần thiết để sản xuất ra một đơn vị sản phẩm Y, trục hoàng biểu diễn lượng
đầu vào X; trung bình cần thiết để sản xuất ta một đơn vị sản phẩm Y.SS là
đường đồng mức một đơn vị sản lượng Nếu hãng sản xuất nằm trên đường SS' thì đạt hiệu quả kỹ thuật tối uu AA’ la đường đồng mức chỉ phí P là
+ Nếu hiệu quả kinh tế được đo bằng tỷ số giữa kết quả và chi phi (H = Q/K) (theo quan niệm và các nghiên cứu trước đây), thì sẽ không cực đại lợi nhuận của người sản xuất và không phù hợp với lý thuyết kinh tế thị trường Chỉ tiêu H thường đùng để phản ánh “hiệu suất" hay nang suat (productivity)
Trang 39mức kết hợp đầu vào cần thiết để sản xuất ra một đơn vị sản phẩm SS” của
người sản xuất Q là mức kết hợp đầu vào để sản xuất ra một đơn vị sản phẩm SS” đạt hiệu quả kỹ thuật tối ưu
Nếu hãng sử dụng tập hợp số lượng các đầu vào ở điểm P để sản xuất ra một đơn vị sản phẩm thì không đạt hiệu quả kỹ thuật tối đa và hãng cần cắt giảm khoảng đầu vào QP để vẫn sản xuất ra một đơn vị sản phẩm Y va
OQ =l- oP Điểm Q' là
OP OP
điểm hãng sản xuất vừa đạt hiệu quả kỹ thuật và hiệu quả phân bố Do vậy,
hiệu quả kỹ thuật được đo bằng TE: 7E = : : 2e Tà OR , 3 it ga hiệu quả phân bổ sẽ là: 4È = % „ Hiệu quả kinh tế được xác định như sau: 0Q, OR _ ÓR OP OQ OP EE= Y; y; xy, Y,
Hình ¡.25 Hiệu quả trong không gian đầu ra - đầu ra
Hình 1.25 phan ánh mối quan hệ đầu ra - đầu ra (không gian đầu ra - đầu ra) Đường PPF được gọi là đường giới hạn khả năng san xuất (production possibility frontier) Giả sử người sản xuất cần phân bổ nguồn lực hạn chế vào 2 sản phẩm Y, và Y; với giá sản phẩm tương ứng là P, và P;
Người sản xuất có thể lựa chọn sản xuất tại diém A với tập hợp đầu ra tương ứng Ia Y," va Y," Néu t6 hop đầu vào của người sản xuất được sử
dụng một cách có hiệu quả hơn thì khi đó họ có thể đạt được mức sản lượng
Trang 40tTEo = TE, trong trường hợp hiệu suất quy mô cố định (Constant Returns to
Scale))
Mặc dù, điểm B là điểm có hiệu quả kỹ thuật, tuy nhiên trên đường
PPF ta có thể đạt được tổng doanh thu cao hơn nếu như sản xuất tại điểm C (điểm C có 'tỷ lệ chuyển đổi biên' (Marginal Rate of Transformation — MRT=MCY /MCY,) bang tỷ giá, p,/p, Trong trudng hợp này cần sản xuất nhiều Y, hơn và ít Y; đi sẽ tăng doanh thu Cùng mức doanh thu với điểm C là điểm D Hiệu quả doanh thu (RE) hay hiệu quả kinh tế theo quan hệ đầu ra, EEo sẽ được xác định bằng tỷ số OA/OD Hiệu quả ¡tàn bổ sản phẩm, AEo = EEo/TEo = (OA/OD)/(OA/OB) = OB/OD y4 Y, Y; |- Ya Y; 0 X X& x
Hình 1.26 Hiệu quả trong không gian đầu vào - đầu ra
Hình I.26 phản ánh mối quan hệ đầu vào - đầu ra Đây chính là mối quan hệ trong hàm sản xuất thường được dùng nhiều nhất và được biểu diễn
bởi Y = f(X) (trong đó Y là đầu ra, X là véc tơ các đầu vào) Tuy nhiên, đây
cũng là đường cực biên hay hàm sản xuất cực biên, X có thể là một đầu vào xác định cũng có thể là đầu vào tổng hợp được xác định theo phương pháp chỉ số-Index
Y„ là mức sản lượng tối đa có thể đạt được tương ứng với các mức đầu vào được ước lượng theo phương pháp hợp lý tối đa MLE (Maximum Likelihood Estimation) Tất cả những điểm nầm trên Y„ đều đạt hiệu quả kỹ thuật tối ưu