2.1.4.1 Giới thiệu phần mềm Minitab
Minitab là phần mềm thống kê ứng dụng được phát triển ởĐại học Pennsylvania (Mỹ) từnăm 1972. Minitab là phiên bản thu gọn của phần mềm OMNITAB, phần mềm phân tích thống kê của NIST. Minitab là sản phẩm có bản quyền của công ty Minitab Inc
với các chức năng: quản lý dữ liệu, tính toán, phân tích dữ lệu, vẽ các biểu đồ, đồ thị, một cách hoàn toàn tựđộng…. Minitab 16 được sử dụng để minh hoạ cho phần hướng dẫn nàỵ
2.1.4.2 Cài đặt và khởi động phần mềm Minitab 16
Sử dụng bộ cài đặt Minitab 16 và cài đặt mặc định vào ổ C:\Program File hoặc C:\ Program File (x86). Sau khi cài đặt, phần mềm Minitab 16 có thểđược khởi động bằng
các cách sau đây:
1. Kích chuột vào menu Start> All Programs> Minitab> Minitab 16 Statistical Software
2. Kích đúp chuột vào biểu tượng shortcut Minitab 16 trên Desktop hoặc biểu
tượng Mintab 16 trên Taskbar.
3. C:\Program Files (x86)\Minitab\Minitab 16\Mtb.exe 2.1.4.3. Cửa sổ làm việc của Minitab 16
Sau khi khởi động, cửa sổ làm việc của Minitab 16 được hiển thị như sau:
Hình 1.1. Cửa sổ làm việc của Minitab 16
Cửa sổ Session: Đọc kết quả (Ctrl + M)
Cửa sổ Worksheet: Nhập dữ liệu (Ctrl + D)
❶ ❷ ❸ ❹ ❺ ❻ ❼ ❽ ❾ ❶ ❶
30
Cửa sổ làm việc của Minitab 16 bao gồm những thành phần chính như sau:
- ❶ Thanh tiêu đề
- ❷ Các Menu chính: gồm các lệnh đểđiều khiển phần mềm Minitab (File, Edit, Data, Calc, Stat, Graph, Editor, Tools, Windows, Help, Assistant)
- ❸ Thanh chuẩn: gồm các lệnh tắt như mở tệp đã ghi, ghi tệp, in, cắt, copy, dán,…
- ❹ Thanh Worksheet: gồm các lệnh tắt điều khiển cửa sổ Worksheet
- ❺ Thanh Project Manager: gồm các lệnh tắt điều khiển cửa sổ Project Manager - ❻ Thanh Graph Editing
- ❼ Cửa sổSession: đọc kết quả phân tích (Ctrl + M)
- ❽ Cửa sổ Worksheet: chứa nhiều ô (cell) được tạo ra bởi sự kết hợp giữa hàng và cột. Mỗi Worksheet bao gồm 10.000.000 hàng và 4.000 cột (từC1 đến C4000), để nhập dữ liệu thô cần phân tích (Ctrl + D).
- ❾ Cửa sổ Project Manager: quản lý các lệnh làm việc (Ctrl + I)
2.1.4.4. TÓM TẮT VÀ TRÌNH BÀY VỚI BIẾN ĐỊNH LƯỢNG
Ví dụ 2.7:Khối lượng (gram) của 16 chuột cái tại thời điểm cai sữa như sau: 54,1 49,8 24,0 46,0 44,1 34,0 52,6 54,4
56,1 52,0 51,9 54,0 58,0 39,0 32,7 58,5
Để tính các thống kê mô tả
Số liệu được nhập vào một cột trong Windows Worksheet
Thay thế dấu phẩy (,) bằng dấu chấm (.) trong phần thập phân. Số liệu khuyết được thay thế bằng dấu sao (*), không được để trống.
31
Đối với một chỉ tiêu nghiên cứu, số liệu được nhập dưới dạng cột.
Tên cột số liệu luôn nằm ở trên hàng thứ 1. Đặt tên cột ngắn gọn, không nên dùng các ký tự đặc biệt (:, /…) hoặc các ký tự tiếng Việt (ô, ă…). Trong cùng một worksheetkhông đặt tên cột trùng nhaụ Phần mềm Minitab không phân biệt các ký tự viết hoa và viết thường (ví dụ:
MINITAB = Minitab = minitab).
Chọn Stat Basic Statistics Display Descriptive Statistics
Phần ô bên trái hộp thoại hiển thị cột (C1) và tên của cột số liệu (P)
Chọn Pvà nhấn Selectđể hiển thị cột cần tính các tham số thống kê mô tả vào ô Variables.
Chọn OKđể hiển thị kết quả. Kết quả thu được từ Minitab như sau
Descriptive Statistics: P
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum P 16 0 47.58 2.54 10.16 24.00 40.28 51.95 54.33 58.50
Minitab cho kết quả theo mặc định. Có thể sử dụng một trong các Option sau đây để cho ra kết quả theo lựa chọn phù hợp
32
Một số thuật ngữ trong options Minitab của thống kê mô tả
Minitab Tiếng Việt Minitab Tiếng Việt
Mean Trung bình Trimmed mean Trung bình thu gọn
SE of Mean Sai số tiêu chuẩn Sum Tổng số
Standard deviation Độ lệch chuẩn Minimum Giá trị bé nhất
Variance Phương sai Maximum Giá trị lớn nhất
Coefficient of variation
Hệ số biến động Range Khoảng biến động
First quartile Tứ vị thứ nhất Sum of squares Tổng bình phương
Median Trung vị Skewness Độ lệch
Third quartile Tứ vị thứ 3 Kurtosis Độ nhọn
Interquartile Tứ vị thứ 2 MSSD
N nonmissing N không khuyết Cumulative N N cộng gộp
N missing N khuyết Percent Phần trăm
N total N tổng số Cumulative percent Phần trăm cộng gộp
Chọn Graphs…để hiển thị đồ thị sau đây (tick vào)
Histogram of datatổchức đồ
Histogram of data, with normal curvetổ chức đồ với đường cong chuẩn
Individual value plotthể hiện các điểm của từng giá trị
Boxplot of datađồ thị hộp Chọn OK
33
Vào By variables (Optional)để tính các tham số thống kê theo phân loại nhóm.
Xét Ví dụ 2.7, giả sử 8 chuột cái đầu tiên sinh ra ở lứa thứ nhất và 8 chuột tiếp theo sinh ra ở lứa thứ 2. Ta có thể bố trí cấu trúc số liệu thành 2 cột, cột C1 (P) và cột C2 (LUA)
Kết quả từ Minitab
Descriptive Statistics: P
Variable LUA N N* Mean SE Mean StDev Minimum Q1 Median Q3 P 1 8 0 44.88 3.82 10.79 24.00 36.53 47.90 53.73 2 8 0 50.28 3.32 9.39 32.70 42.23 53.00 57.53
2.1.4.5. TÓM TẮT VÀ TRÌNH BÀY VỚI BIẾN ĐỊNH TÍNH
Đối với biến định tính số liệu thô thu thập được từ thí nghiệm có thể được trình bày theo một trong 2 cách sau đây:
Ví dụ 2.8. Số bò sữa ở ba trại A, B, C lần lượt là 106, 132 và 122 con. Chọn ngẫu nhiên và kiểm tra bệnh viêm nội mạc tử cung ở 3 trại, kết quả như sau:
Cách 1: Trại A A A A A A A A A A A A A A A A A Bò số 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Kết quả + - - - + + + - - - + - - - + Trại B B B B B B B B B B B B B B B B B B B B B B Bò số 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Kết quả - - + - - - + + - - - + - + - + - - Trại C C C C C C C C C C C C C C C C C C C C Bò số 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Kết quả + + - - - - + - - - + - + - - - - + + +
34
Cách 2:
Trại Viêm nội mạc tử cung Tổng số
Có Không
A 6 11 17
B 6 16 22
C 8 12 20
Số liệu được nhập vào cột trong Windows Worksheet(với cách 1)
Nhập dữ liệu vào 2 cột, Trạivào cột C1 (TRAI) và cột Kết quả xét nghiệmvào cột C2
(KETQUA).
Lưu ý:Sau khi nhập thông tin vào cột C1 và C2 ký hiệu cột thay đổi thành C1-T và C2-T.
Minitab thông báo các thông tin trong cột không phải dạng số mà dạng ký tự (Text)
Với số liệu ở dạng thô (cách 1) có thể tạo thànhbảng tóm tắt như ở cách 2 bằng các lệnh sau
Stat Tables Cross Tabulation and Chi-Squarẹ..
Vào ô For rows và For columns
Options Display hiển thị:
Count: tần số đối với từng trường hợp
Row percents: tỷ lệ (phần trăm) theo hàng
Column percents: tỷ lệ (phần trăm) theo cột
Total percents: tỷ lệ (phần trăm) theo hàng/cột tổng số Chọn OKđể có kết quả
Tabulated statistics: TRAI, KETQUA
Rows: TRAI Columns: KETQUA - + All A 11 6 17 64.71 35.29 100.00 B 16 6 22 72.73 27.27 100.00
35
C 12 8 20 60.00 40.00 100.00 All 39 20 59 66.10 33.90 100.00 Cell Contents: Count % of Row
Đối với biến định tính có thể mô tả bằng biểu đồ thanh (Bar Chart), biểu đồ bánh (Pie Chart).
Graph Bar Chart…Counts of unique values
Chọn OK
Chọn Multiple Graphs…
36 + - 16 12 8 4 0 + - 16 12 8 4 0 A KETQUA C o u n t B C Chart of KETQUA
Panel variable: TRAI
thực hiện tương tự để có biểu đồ bánh
A B C + - C ategory Pie Chart of KQ
Panel variable: TRAI
37
Nhập dữ liệu vào 3 cột, Trạivào cột C1 (TRAI), cột Kết quả xét nghiệmvào cột C2
(KETQUA) và Tần suấtvào cột C3 (TANSUAT). dạng ký tự (Text)
Với số liệu ở dạng thô (cách 1) có thể tạo thành bảng tóm tắt như ở cách 2 bằng các lệnh sau
Stat Tables Cross Tabulation and Chi-Squarẹ..
Khai báo vào ô For rows, For columns và Frequencies are in.
38
Tabulated statistics: TRAI, KQ
Using frequencies in TS
Rows: TRAI Columns: KQ - + All A 11 6 17 64.71 35.29 100.00 B 16 6 22 72.73 27.27 100.00 C 12 8 20 60.00 40.00 100.00 All 39 20 59 66.10 33.90 100.00 Cell Contents: Count % of Row
2.2. PHÂN TÍCH PHƯƠNG SAI (ANOVA)
2.2.1. Kiểm định điều kiện phân tích phương sai
Phân tích phương sai (Analysis of Variance - ANOVA) là công cụ hữu ích để so sánh nhiều giá trị trung bình. Phân tích phương sai được áp dụng khi biến phụ thuộc (chỉ tiêu theo dõi thí nghiệm) có dạng biến liên tục và biến độc lập (yếu tốảnh hưởng) thuộc dạng biến phân loạị Nếu chỉ có số liệu từ hai nhóm (2 nghiệm thức) thì có thể áp dụng kiểm định T để so sánh (không giới thiệu trong giáo trình này) thay thế cho ANOVẠ Tuy nhiên, nếu có hơn hai nhóm
thì phải sử dụng phân tích phương saị Điều kiện của bài toán phân tích phương sai là: (1) Các nghiệm thức có số liệu phối chuẩn và (2) Các nghiệm thức có phương sai đồng nhất. Đó là
những điều kiện cần được kiểm định trước khi phân tích ANOVẠ
ạ Kiểm định phân phối chuẩn
Đểphân tích phương sai các biến định lượng, ta phải giả thiết rằng số liệu thu thập được
đều tuân theo phân phối chuẩn và các phương sai đồng nhất. Nếu số liệu không tuân theo phân phối chuẩn thì ANOVA sẽ không có hiệu lực. Do đó trước khi phân tích ANOVA ta cần kiểm tra liệu số liệu có tuân theo phân phối chuẩn hay không. Shapiro-Wilk và Kolmogorov-Smirnov
là 2 phương pháp thường được sử dụng để kiểm tra phân phối chuẩn của số liệụ Shapiro-Wilk sử dụng khi dung lượng mẫu bé hơn 2000 còn Kolmogorov-Smirnov được sử dụng khi dung
lượng mẫu lớn hơn 2000 (Hun Myoung Park, 2008).
Trong Minitab 16 có 3 phương pháp kiểm tra phân bố chuẩn: Anderson- Darling; Ryan-
joiner (tương tự Shapiro-Wilk) và Kolmogorov-Smirnov.
Giả thiết: H0: Số liệu có phân phối chuẩn và H1: Số liệu không có phân phối chuẩn.
Đối với ANOVA, việc kiểm định phân bố chuẩn và phương sai đồng nhất được kiểm tra thông qua sự phân bố của phần dư () của mô hình phân tích.
Ví dụ 2.9: Theo dõi tăng khối lượng của 20 con cá (g) trong một thí nghiệm với 5 công thức nuôi (A, B, C, D và E). Hãy cho biết tăng khối lượng của cá ở các công thức nuôị Nếu có sự
39 khác nhau, tiến hành so sánh sự sai khác của từng cặp giá trị trung bình. A B C D E 950 430 700 1.000 900 850 450 900 900 1.000 850 400 750 900 950 900 420 700 900 950
Kiểm định xem số liệu trên có tuân theo phân phối chuẩn không?
Số liệu được nhập vào cửa sổ Worksheet và sử dụng lệnh Stat Basic Statistics
Normality Test... để kiểm tra cho cột phần dư (RESI1). Để tạo được cột phần dư (RESI1), xem chi tiết tại mục 2.3.3.
Khai báo biến (RESI1) cần kiểm tra vào ô Variable.
40 0.15 0.10 0.05 0.00 -0.05 -0.10 99 95 90 80 70 60 50 40 30 20 10 5 1 RESI1 P e rc e n t Mean 1.942890E-17 StDev 0.04970 N 20 A D 0.525 P-Value 0.159
Probability Plot of RESI1
Normal
Trong đó: giá trị P = 0,159 > 0,05, như vậy H0được chấp nhận. Kết luận: Số liệu tuân theo phân phối chuẩn
b. Kiểm định sựđồng nhất của phương sai
Trong thực tế, việc kiểm định phương sai đồng nhất được thực hiện đồng thời với kiểm tra phân bố chuẩn khi tiến hành phân tích phương saị Đối với ANOVA, việc kiểm định phân bố chuẩn và phương sai đồng nhất được kiểm tra thông qua sự phân bố của phần dư () của mô hình phân tích. Bạn đọc tham khảo phần a, mục 2.2.3 để biết thêm chi tiết các câu lệnh sử dụng
để kiểm định phân dư ().
41
Khai báo biến phụ thuộc (biến đáp ứng) vào ô Response.
Khai báo biến độc lập (yếu tố thí nghiệm) vào ô Factors.
Kích chuột OKđể có kết quả E D C B A 0.6 0.5 0.4 0.3 0.2 0.1 0.0 T A
95% Bonferroni Confidence Intervals for StDevs
Test Statistic 5.76 P-Value 0.218
Test Statistic 0.81 P-Value 0.539
Bartlett's Test
Lev enés Test
Test for Equal Variances for KL
Sử dụng giá trị P-value ở phần Levene’s Test để kết luận. P = 0,539 > 0,05 Kết luận: Các
phương sai đồng nhất
2.2.2. So sánh cặp đôi các giá trị trung bình
Khi kết quả phân tích ANOVA cho thấy có sự sai khác có ý nghĩa thống kê (P < 0,05) giữa các nghiệm thức thì tiến hành so sánh cặp đôi (pairwise comparison) để tìm sự khác nhau có ý nghĩa giữa các giá trị trung bình cụ thể nàọ Với kiểm định 2 phía ta có giả thiết H0: 1 = 2 =... = avà đối thiết H1: 12...a ( là trung bình của quần thểở công thức thứ 1, 2,..., a). Khi kết quả phân tích ANOVA cho thấy P <0,05, có nghĩa là H0 bị bác bỏ vì có ít nhất hai giá trịtrung bình sai khác nhaụ Lúc đó đối thiết H1được chấp nhận và so sánh cặp
đôi sẽcho phép tìm được sự khác nhau cụ thể giữa các giá trị trung bình của các nghiệm thức 1, 2,..., ạ
Có nhiều phương pháp so sánh cặp đôi khác nhau, trong đó một sốphương pháp so sánh
cặp đôi thường được sử dụng như kiểm định Student-Newman-Keuls, LSD (Least Significant Difference), Tukey, Scheffe, kiểm định đa phạm vi Duncan. Việc lựa chọn kiểm định nào tùy thuộc vào đặc điểm của bộ dữ liệu và yêu cầu về tính chắc chắn của sự sai khác.
Xét một thí nghiệm có một yếu tố thí nghiệm với 4 công thức thí nghiệm (a = 4), sẽ có tổng số 6 lần so sánh cặp. Nếu mỗi lần so sánh một cặp với sai số P = 0,05; sai số của toàn bộ
42 Với thí nghiệm có a nghiệm thức và mỗi phép so sánh cặp với sai số là thì a* là mức
ý nghĩa tổng số (overall significance level) hoặc sai số của thí nghiệm (experimental wise error rate) hoặc sai số của toàn bộ các phép thử (family error rate). Sai số của toàn bộ phép thửđược
tính toán như thế nàỏ
Ví dụ: Nếu sai số của một cặp so sánh là = 0,05 và có a = 4 ta sẽ có m = 6 cặp so sánh.
Như vậy sai số của 6 phép thử sẽ là 1– (1 –)m = 1 – (1 – 0,05)6= 0,264908. Nghĩa là xác suất bác bỏ giả thiết H0khi nó đúng là 26,4908% (sai lầm loại I).
Sau đây là một sốlưu ý khi dùng các phương pháp so sánh cặp đôi khác nhau:
Kiểm định LSD – Chỉ sử dụng để so sánh giữa các cặp đã được thiết kếtrước khi thực hiện thí nghiệm. Không phù hợp để:
(1) Kiểm định LSD không phù hợp để so sánh nhiều công thức thí nghiệm vì khi có nhiều nghiệm thức thì số cặp để so sánh sẽtăng lên rất nhanh (5 nghiệm thức có 10 cặp để so sánh, 10 nghiệm thức có 45 cặp so sánh, 15 nghiệm thức có 105 cặp).
(2) Kiểm định LSD không phù hợp để so sánh số cặp nhiều hơn số bậc tự do của công thức thí nghiệm (a – 1). Ví dụ thí nghiệm có 4 công thức (a = 4) thì số cặp có thể so sánh tối
đa là 4 – 1 = 3.
(3) Nếu muốn kết luận có sự sai khác giữa 2 giá trị trung bình (i và j) thì
i - j > LSD, trong đó /2,dfe 1 1
i j
LSD t
n n
. LSD được xác định dựa vào giá trị t ở mức /2, bậc tự do của sai số ngẫu nhiên (dfe) và dung lượng mẫu (n) ở công thức thứ i và j.
(4) LSD bị chỉ trích vì sự kiểm soát không hiệu quảđối với sai lầm loại Ị
Kiểm định Tukey – Được sử dụng để so sánh cặp. Sử dụng Tukey-HSD (Honest
Significant Difference) trong trường hợp dung lượng mẫu bằng nhau và Tukey-Kramer trong
trường hợp dung lượng mẫu không bằng nhaụ Kiểm định Tukey-HSD được nhiều phần mềm xử lý số liệu áp dụng cho cảtrường hợp dung lượng mẫu không bằng nhau vì vậy nhiều tài liệu không còn phân biệt giữa Tukey-HSD và Tukey-Kramer. Trong phần mềm SAS cũng chỉ có option Tukey, không có lựa chọn cho Tukey-HSD hay Tukey-Kramer. Phép kiểm định Tukey phù hợp trong trường hợp chỉ so sánh giữa các cặp với nhaụ
- Giá trị tới hạn đối với kiểm định Tukey-HSD trong trường hợp dung lượng mẫu bằng