KIỂM ĐỊNH THỐNG KÊ VỚI BIẾN KẾT CUỘC ĐỊNH TÍNH Nguyễn Lâm Vương 1 MỤC TIÊU BÀI HỌC Hiểu được nguyên tắc kiểm định thống kê với biến kết cuộc định tính Hiểu được nguyên tắc phép kiểm Chi bình phương Hi.
KIỂM ĐỊNH THỐNG KÊ VỚI BIẾN KẾT CUỘC ĐỊNH TÍNH Nguyễn Lâm Vương MỤC TIÊU BÀI HỌC Hiểu nguyên tắc kiểm định thống kê với biến kết định tính Hiểu ngun tắc phép kiểm Chi bình phương Hiểu nguyên tắc phép kiểm xác Fisher Hiểu nguyên tắc phép kiểm nhị phân so sánh tỷ lệ NỘI DUNG BÀI HỌC 2.1 Khái niệm biến định tính kiểm định biến kết định tính Biến số định tính: biến số có số giá trị thường giới hạn, phân thành nhóm chứa nhiều quan sát Ví dụ: Giới tính có giá trị nam nữ Trình độ học vấn phân thành nhóm: mù chữ, tiểu học, trung học sở, trung học phổ thông, đại học, sau đại học Nghề nghiệp phân thành nhóm: lao động tay chân, lao động trí óc,… Biến số định tính chia thành loại: Biến nhị giá: biến có giá trị Ví dụ: Giới tính có giá trị nam nữ Tăng huyết áp có giá trị có khơng Biến danh định: biến có nhiều giá trị Ví dụ: Nhóm máu ABO có giá trị: A, B, AB O Biến thứ tự: biến có nhiều giá trị giá trị xếp theo thứ tự Ví dụ: Phân độ suy tim theo NYHA có độ theo thứ tự: I, II, III, IV Số đo thống kê sử dụng cho biến số định tính: thường Tần số Tỷ lệ Ví dụ: nói đến số phân bố giới tính học sinh trường trung học X, người ta nói đến tần số tỷ lệ phần trăm học sinh nam nữ Trường X có 1000 học sinh Số học sinh nam 534, chiếm tỷ lệ 53,4% Số học sinh nữ 466, chiếm tỷ lệ 46,6% Kiểm định thống kê với biến kết định tính: việc tính tốn kiểm tra khác biệt tỷ lệ có ý nghĩa thống kê hay khơng; nghĩa áp dụng vào dân số mục tiêu khác biệt tỷ lệ mẫu khảo sát có thực khác biệt dân số mục tiêu ngẫu nhiên chọn mẫu Ví dụ: Vaccine phịng bệnh cúm: Một nghiên cứu nhằm xem xét hiệu vaccine việc phịng bệnh cúm Có 240 người tiêm vaccine 220 tiêm giả dược Sau thời gian theo dõi, nhóm tiêm vaccine có 20 người bị cúm (chiếm tỷ lệ 20/240 = 8,3%) nhóm tiêm giả dược có 80 người bị cúm (chiếm tỷ lệ 80/220 = 36,4%) Liệu khác biệt tỷ lệ mắc cúm tác dụng vaccine phòng bệnh cúm khác biệt ngẫu nhiên chọn mẫu? Ung thư phổi hút thuốc lá: Một nghiên cứu nhằm xem xét tác hại hút thuốc bệnh ung thư phổi Nhà nghiên cứu chọn 649 người mắc bệnh ung thư phổi 649 người không mắc bệnh (nhóm chứng) tìm hiểu tiền sử hút thuốc người Kết quả: nhóm người ung thư phổi có 647 người hút thuốc (chiếm tỷ lệ 99,7%) nhóm chứng có 622 người hút thuốc (chiếm tỷ lệ 95,8%) Liệu khác biệt có ý nghĩa thống kê hay khơng? 2.2 Phép kiểm Chi bình phương (Chi square test) Nguyên lý phép kiểm Chi bình phương: phép kiểm thống kê khác, phép kiểm Chi bình phương tuân bước: (1) xây dựng giả thuyết thống kê; (2) chọn lựa kiểm định; (3) tính số thống kê; (4) tính xác suất (giá trị p) (5) kết luận Bước 1: xây dựng giả thuyết Ho: tỷ lệ kết Bước 2: chọn lựa kiểm định: chọn phép kiểm Chi bình phương thoả điều kiện Bước 3: tính giá trị thống kê độ tự do: từ giả thuyết Ho (khi tỷ lệ kết nhau), tính giá trị kỳ vọng (vọng trị), sau xem xét khác biệt giá trị kỳ vọng với giá trị quan sát để tính giá trị thống kê Bước 4: tính xác suất giá trị thống kê (giá trị p) Bước 5: kết luận dựa vào giá trị p Trở lại ví dụ phía trên, sử dụng kết thu để xây dựng bảng 2×2 Tiêm chủng Mắc bệnh cúm Tổng Có Khơng Vaccine 20 220 240 Giả dược 80 140 220 Tổng 100 360 460 Với tỷ lệ mắc bệnh cúm nhóm Vaccine 20/240 = 8,3%; nhóm giả dược 80/220 = 36,4%; sử dụng phép kiểm Chi bình phương để xem khác biệt tỷ lệ có ý nghĩa thống kê hay khơng Bước 1: giả thuyết Ho: tỷ lệ mắc cúm nhóm Vaccine = nhóm giả dược Bước 2: chọn lựa kiểm định: chọn phép kiểm Chi bình phương Bước 3: tính giá trị thống kê độ tự Để tính giá trị thống kê phép kiểm Chi bình phương, trước hết phải tính vọng trị (giá trị kỳ vọng) bảng 2×2 (các giá trị a, b, c, d) Tiêm chủng Mắc bệnh cúm Tổng Có Khơng Vaccine a b a+b Giả dược c d c+d a+c b+d a+b+c+d Tổng Giá trị kỳ vọng giá trị đạt giả thuyết Ho Nghĩa là, tỷ lệ mắc cúm nhóm Vaccine = nhóm giả dược, giá a, b, c, d bao nhiêu? Nói cách khác, giả thuyết Ho đúng, thì: a/(a+b) = c/(c+d) Với: a+b = 240 (tổng số trường hợp nhóm Vaccine) c+d = 220 (tổng số trường hợp nhóm giả dược) a+c = 100 (tổng số trường hợp mắc cúm nhóm) Từ hệ phương trình, ta dễ dàng thu được: a = 52,2 b = 187,8 c = 47,8 d = 172,2 Như vậy, giả thuyết Ho đúng, giá trị vọng trị là: Mắc bệnh cúm Tiêm chủng Tổng Có Khơng Vaccine 52,2 187,8 240 Giả dược 47,8 172,2 220 Tổng 100 360 460 Tính giá trị thống kê phép kiểm Chi bình phương theo công thức: (O E ) , d f độ tự với bảng x E Với O (Observed value) giá trị quan sát, E (Expected value) giá trị kỳ vọng Trong ví dụ này, (20 − 52,2)2 (220 − 187,8)2 (80 − 47,8)2 (140 − 172,2)2 𝜒 = + + + = 53,01 52,2 187,8 47,8 172,2 Độ tự do: df = (số cột – 1) × (số hàng – 1) = (2-1) × (2-1) = Bước 4: tính xác suất giá trị thống kê (giá trị p – probability) Với giá trị thống kê 53,01 độ tự 1, so với bảng giá trị Chi bình phương chuẩn dễ dàng xác định xác suất giá trị thống kê (giá trị p) 53,01 lớn 12,12 (là điểm 0,0005 phân phối 2 độ tự 1), nghĩa p < 0,0005 Điều có nghĩa lặp lại nghiên cứu 10.000 lần xác suất để chọn mẫu cho kết với giả thuyết Ho nhỏ Hiện phần mềm thống kê dễ dàng tính giá trị thống kê giá trị p Bước 5: kết luận Với p < 0,0005 ta bác bỏ giả thuyết Ho Nghĩa là, tỷ lệ mắc cúm nhóm Vaccine khác nhóm giả dược Sử dụng phép kiểm Chi bình phương: Sử dụng nào: ngồi việc sử dụng cho bảng 2×2 (như trên) để so sánh tỷ lệ biến số kết nhị giá nhóm, phép kiểm Chi bình phương mở rộng áp dụng cho bảng r × c để so sánh tỷ lệ biến số có r giá trị c nhóm Xét thang đo biến độc lập biến phụ thuộc, phép kiểm chi bình phương sử dụng biến phụ thuộc biến định tính có r giá trị biến độc lập biến định tính có c giá trị Giả định phép kiểm: Số ô có vọng trị < không 20% tổng số ô Nếu giả định không thoả phải thực phép kiểm xác Fisher Cơng thức thống kê: Nếu ta quy ước trình bày số liệu theo bảng r × c sau: Phơi nhiễm Tổng Bệnh (hậu quả) Mức Mức Mức c N11 N12 N1c N1 N21 N22 N2c N2 r Nr1 Nr2 Nrc Nr Tổng N1 N2 Nc N Độ tự do: df = (r – 1) × (c – 1) Giá trị thống kê: 𝑟 𝑐 (𝑂𝑖𝑗 − 𝐸𝑖𝑗 )2 𝑁𝑖 × 𝑁𝑗 𝜒 = ∑∑ ; 𝐸𝑖𝑗 = 𝐸𝑖𝑗 𝑁 𝑖=1 𝑗=1 Giá trị Eij gọi vọng trị ô hàng i, cột j 2.3 Phép kiểm xác Fisher (Fisher’s exact test) Tương tự phép kiểm Chi bình phương, phép kiểm xác Fisher có bước: (1) xây dựng giả thuyết thống kê; (2) chọn lựa kiểm định; (3) tính số thống kê; (4) tính xác suất (giá trị p) (5) kết luận Bước (xây dựng giả thuyết thống kê) bước (kết luận) tương tự phép kiểm khác Tuy nhiên bước để tính giá trị thống kê giá trị p khác với phép kiểm Chi bình phương Các bước tiến hành sau: Bước 1: xếp lại bảng số liệu cho số liệu có tổng hàng nhỏ nằm a b a+b 30 35 23 25 c d c+d 23 25 30 35 a+c b+d 53 60 53 60 Bước 2: bắt đầu liệt kê với có giá trị (ơ [1,1]) Từ đó, [1,2] = a + b; ô [2,1] = a + c; ô [2,2] = (c + d) – (a + c) 25 28 Bước 3: tăng ô [1,1] lên đơn vị, giảm ô [1,2] [2,1] tăng ô [2,2] lên Tiếp tục đến có có giá trị dừng 25 24 23 22 28 29 30 31 21 20 19 18 32 33 34 35 Bước 4: tính xác suất xác bảng cách: (𝑎 + 𝑏 )! (𝑐 + 𝑑 )! (𝑎 + 𝑐 )! (𝑏 + 𝑑 )! 𝑎! 𝑏! 𝑐! 𝑑! 𝑛! 25 24 23 22 28 29 30 31 p=0,017 p=0,105 p=0,252 p=0,312 21 20 19 18 32 33 34 35 p=0,214 p=0,082 p=0,016 p=0,001 Bước 5: tính giá trị p Giá trị p phép kiểm xác Fisher tổng giá trị nhỏ giá trị p bảng ban đầu p bảng ban đầu = 0,252 p (Fisher đuôi) = 0,017 + 0,105 + 0,252 + 0,082 + 0,016 + 0,001 = 0,687 2.4 Phép kiểm nhị phân Z (Binomial test) Nguyên lý phép kiểm nhị phân: phép kiểm nhị phân tuân theo bước: (1) xây dựng giả thuyết thống kê; (2) chọn lựa kiểm định; (3) tính số thống kê; (4) tính xác suất (giá trị p) (5) kết luận Chỉ số thống kê tính nguyên tắc chung lấy hiệu số tỷ lệ chia cho sai số chuẩn hiệu số Giá trị p tính từ phân phối chuẩn 2.4.1 Phép kiểm Z hai mẫu Sử dụng so sánh tỷ lệ biến kết định tính nhóm Cơng thức thống kê: Ký hiệu: n1 n2 p1 p2 : cỡ mẫu nhóm : cỡ mẫu nhóm : tỷ lệ biến kết nhóm : tỷ lệ biến kết nhóm Giá trị thống kê: 𝑝1 − 𝑝2 𝑧= 𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 ) + 𝑛1 𝑛2 √ Trở lại ví dụ thứ trên, ta có số cỡ mẫu tỷ lệ sau: n1 = 240 n2 = 220 p1 = 0,083 p2 = 0,364 Dễ dàng tính z = -7,59 Với |z| > 1,96 p < 0,05: bác bỏ giả thuyết Ho 2.4.2 Phép kiểm Z mẫu Sử dụng so sánh tỷ lệ biến kết định tính mẫu với giả thuyết tỷ lệ dân số Công thức thống kê: Ký hiệu: n p po : cỡ mẫu : tỷ lệ biến kết mẫu : giả thuyết tỷ lệ biến kết dân số Giá trị thống kê: 𝑧= 2.5 Tóm tắt nội dung 𝑝 − 𝑝𝑜 √𝑝(1 − 𝑝) 𝑛 Để thực kiểm định thống kê cho biến kết định tính, có nhiều cách, cách thơng dụng phép kiểm Chi bình phương phép kiểm xác Fisher Các nguyên tắc chung kiểm định thống kê biến kết định tính sau: Ngun tắc 1: giả thuyết Ho ln cần có trước tiên, (hoặc nhiều) tỷ lệ giá trị biến kết Nguyên tắc 2: chọn lựa kiểm định Phép kiểm Chi bình phương phép kiểm xác Fisher sử dụng biến kết (biến phụ thuộc) biến độc lập biến định tính, có nhiều giá trị Điều kiện để sử dụng phép kiểm Chi bình phương số có vọng trị < không 20% tổng số ô bảng Nếu không thoả điều kiện sử dụng phép kiểm xác Fisher Nguyên tắc 3: tính giá trị thống kê xác suất giá trị thống kê (giá trị p) Phép kiểm Chi bình phương dựa khác biệt giá trị quan sát giá trị kỳ vọng giả thuyết Ho Phép kiểm xác Fisher dựa xác suất xuất bảng thay đổi giá trị bảng Hiện phần mềm thống kê tính tốn giá trị thống kê giá trị p phép kiểm cách dễ dàng nhanh chóng Nguyên tắc 4: kết luận dựa vào giá trị p, thông thường sử dụng mức 0,05 để bác bỏ hay chấp nhận giả thuyết Ho Phép kiểm Z sử dụng để kiểm định mẫu với giả thuyết tỷ lệ dân số TÀI LIỆU THAM KHẢO Đỗ Văn Dũng (2010), Căn xác suất thống kê y học, Tài liệu lưu hành nội bộ, Đại học Y Dược TP Hồ Chí Minh Đỗ Văn Dũng (2010), Phương pháp nghiên cứu khoa học phân tích số liệu phần mềm Stata, Tài liệu lưu hành nội bộ, Đại học Y Dược TP Hồ Chí Minh ... (2-1) × (2-1) = Bước 4: tính xác suất giá trị thống kê (giá trị p – probability) Với giá trị thống kê 53,01 độ tự 1, so với bảng giá trị Chi bình phương chuẩn dễ dàng xác định xác suất giá trị... ngồi việc sử dụng cho bảng 2×2 (như trên) để so sánh tỷ lệ biến số kết nhị giá nhóm, phép kiểm Chi bình phương mở rộng áp dụng cho bảng r × c để so sánh tỷ lệ biến số có r giá trị c nhóm Xét... chia cho sai số chuẩn hiệu số Giá trị p tính từ phân phối chuẩn 2.4.1 Phép kiểm Z hai mẫu Sử dụng so sánh tỷ lệ biến kết định tính nhóm Cơng thức thống kê: Ký hiệu: n1 n2 p1 p2 : cỡ mẫu nhóm : cỡ