THIÊN
7.1. KHÁC BIỆT CỦA HAI PHƯƠNG SAI
Một trong những ứng dụng chính của một kiểm nghiệm về sự bằng nhau của hai phương sai là để kiểm tra tính đúng đắn của giả định ( ) cho kiểm nghiệm−t hai mẫu. Trước hết, chúng ta đưa ra giả thuyết rằng hai quần thể các số đo phân bố bình thường. Chúng ta quan tâm đến việc so sánh phương sai của quần thể 1 và 2 lần lượt là và . Chúng ta kí hiệu các ước lượng mẫu tương ứng của chúng là và .
Khi hai mẫu độc lập cỡ n1 và n2 được rút ra từ các quần thể tương ứng, tỉ
có phân bố xác suất trong lấy mẫu lặp đi lặp lại là phân bố F (Chủ đề 5). Theo giả thuyết thống kê trên trở thành:
(tuỳ thuộc s1 > s2 hay s2 > s1) là thống kê kiểm nghiệm F với n1 1 và n2 1 bậc tự do.
Ví dụ 2 (tiếp theo):
Trong tập dữ liệu này, đối với mẫu 29 bệnh nhân, độ lệch chuẩn của lysozyme là 15,74 ( = 247,7) và mẫu 30 bệnh nhân độ lệch chuẩn là 7,85 ( = 61,62).
Để kiểm nghiệm xem hai phương sai có khác nhau hay khơng, chúng ta sử dụng thống kê vừa mô tả ở trên tức là F = 247,7 / 61,62 = 4,02. Mà giá trị mọng đợi của F với 28 và 29 df là
1,868. Vì F quan sát được là lớn hơn nhiều so với giá trị mong đợi, chúng ta kết luận rằng hai
31
7.2. KHÁC BIỆT CỦA HAI HỆ SỐ BIẾN THIÊN
Trong chủ đề 3, hệ số biến thiên (CV) được định nghĩa là tỉ số của độ lệch chuẩn (s) so với trung bình của mẫu ( ), tức là
Bây giờ, giả sử rằng chúng ta có dữ liệu từ hai mẫu của các đối tượng, trong đó hai hệ số biến thiên tính được. Lewontin (1966) đã chỉ ra rằng tỉ số phương sai sau:
có thể sử dụng tương tự như tỉ của hai phương sai ở trên để kiểm tra sự khác biệt giữa hai hệ số biến thiên. Chú ý rằng F được phân bố với n1 −1 và n2 −1 df. Trong thống kê, chỉ phương sai của dữ liệu đã chuyển thành logarit của mẫu 1, và dùng để chỉ phương sai của dữ liệu đã chuyển thành logarit của mẫu 2.
Thật không may, chúng ta đang phải đối mặt với yêu cầu về kiểm nghiệm tỉ số phương sai mà hai phân bố liên quan là bình thường (hoặc gần như bình thường). Vì vậy, kiểm nghiệm này phải được áp dụng một cách thận trọng, vì nếu hai tập dữ liệu mẫu thật sự là từ quần thể bình thường, các logarit của dữ liệu sẽ khơng phân bố bình thường; mà u cầu ở đây lại là logarit phải phân bố bình thường.