Các kiểm định Z-test, t-test và phân tích phương sai (ANOVA) chỉ dùng cho các biến số có phân phối liên tục và bình thường. Khi các biến số là biến có phân phối rời rạc (ví dụ: biến số danh định), hay biến số là các tỉ lệ (như số lượng các đối tượng trong các nhóm khác nhau), ta thường dùng kiểm định Chi bình phương (viết tắt là χ2 ).
A. Phân phối Chi bình phương
Một biến số X = {x1, x2, x3,…, xn} là một phân phối bình thường, X ~ N(µ, σ2) thì Zi có một phân phối chuẩn Z ~ N(0,1)
có một phân phối Chi bình phương vói độ tự do (DF) = n – 1 Hình dạng của phân phối Chi bình phương như sau
Phân phối χ2 có các đặc điểm sau
• Trung bình phân phối chính là bậc tự do (µ = DF) • Phương sai bằng 2 lần bậc tự do σ2 = 2DF
• Khi bậc tự do tăng, đường cong χ2 tiến dần thành đường cong chuẩn Trong trường hợp biến có phân phối rời rạc hay biến số là các tỉ lệ, thì
O = Tần số quan sát (Observed): là số lượng quan sát được E= Vọng trị (Expected): là số lượng mong đợi
Hàng 2 a21 a22 a23 ... a2q H2 = Σa2. Hàng 3 a31 a32 a33 ... a3q H3 = Σa3. • • • Hàng p ap1 ap2 ap3 ... apq Hp = Σap.
Tổng cột C1 = Σa.1 C2 = Σa.2 C3 = Σa.3 Cq = Σa.q T= Σa..
Vọng trị của một ô ij là
Đơn giản, vọng trị của một ô là tổng cùa hàng nhân vói tổng cột tương ứng của ô đó chia cho tổng toàn bộ.
Ví dụ. Khảo sát 500 bệnh nhân lớn tuổi về chế độ ăn và tăng huyết áp, kết quả như bảng sau:
Có tăng huyết áp Không tăng huyết áp
Ăn mặn 60 140
Ăn lạt 40 260
(1) Giả thiết H0 = Tăng huyết áp KHÔNG liên quan đến chế độ ăn H1 = Tăng huyết áp có liên quan đến chế độ ăn (2) Lập bảng, tính giá trị quan sát, vọng trị, và χ2
Có tăng huyết áp Không tăng huyết áp Tổng
Ăn mặn 60 (40) 140 (160) 200
Ăn lạt 40 (60) 260 (240) 300
Với độ tự do =1, giá trị χ2(1) tới hạn là 3,84. Vì χ2 thống kê = 20,83 > χ2(1) tới hạn = 3,84 nên ta bác bỏ giả thiết không rằng tăng huyết áp không liên quan đến chế độ ăn. Kết luận Tăng huyết áp liên quan đến chế độ có ý nghĩa thống kê, χ2 = 20,83, p <0,05 (hoặc χ2 = 20,83, p = 0,001)
Thực hành tại lớp
Một thống kê cho thấy thu nhập và tuổi như sau Thu nhập
Tuổi 1 (thấp) 2 3 (cao) Tổng
35-50 30 ( ) 40 ( ) 20 ( ) 51+ 40 ( ) 50 ( ) 30 ( ) Tổng
Hỏi tuổi và thu nhập có liên quan không (ngưỡng thống kê α = 0,05)
χ2 =
Lưu ý khi áp dụng kiểm định Chi bình phương
1 Kết qua của kiểm định Chi bình phương chỉ nói lên rằng có liên quan, không dùng để đo lường mức độ liên quan
2 Thường được áp dụng khi cỡ mẫu lớn. Khi những ô trong bảng nhỏ, kết quả của kiểm định χ2 có thể không chính xác. Nếu tổng số nhỏ hơn 20 hoặc một ô trong bảng có ít hơn 5 quan sát, không dùng được kiểm địnhχ2. Trong trường hợp này, người ta thường dùng hiệu chỉnh Yates, hay dùng kiểm định Fisher’s exact test. Công thức hiệu chỉnh Yates như sau:
Cho giá trị nhỏ hơn kiểm địnhχ2 thông thường
Bài tập về nhà
Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hỏi vaccin phòng bệnh cúm có tác dụng tiêm phòng không?
Giả sử X là biến số độc lập và Y là biến số phụ thuộc, đường biểu diễn mối quan hệ giữa X và Y trong hệ tọa độ vuông góc như sau: