Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
198,05 KB
Nội dung
6 PHÂN PHỐI 2 & PHÂN TÍCH TẦN SỐ (Chi-Square Distribution & Analysis of Frequencies) I. GIỚI THIỆU PP. 2 là một kỹ thuật thống kê thường được sử dụng nhất để phân tích số liệu dạng số đếm hoặc tần số. Trong KĐGT, PP. 2 được sử dụng cho số liệu dưới dạng tần số trong 3 trường hợp: + Phép kiểm tính PP. Bình thường (Test of goodness-of-fit ) + Phép kiểm tính độc lập (Test of independence) + Phép kiểm tính đồng nhất (test of homogeneity) Phần này đặc biệt chỉ xem xét phép kiểm tính độc lập. 7 Tần số quan sát (Observed frequencies) và Tần số mong đợi (Expected frequencies) Số thống kê 2 thích hợp nhất với các biến số nhóm loại (categorical variables). Có hai tập hợp tần số được quan tâm: 1 Tần số quan sát: là số đối tượng hoặc vật thể thuộc mẫu nằm trong các nhóm loại khác nhau của biến số. Thí dụ: n = 100, trong đó thấy có 50 có gia đình, 30 người độc thân, 15 người góa, và 5 người đã li dị. 2 Tần số mong đợi: là số đối tượng hoặc vật thể thuộc mẫu mà chúng ta mong đợi sẽ quan sát thấy nếu (một số) giả thuyết trống (về biến số) đúng. Thí dụ:H 0 có thể là trong dân số mà ta rút mẫu bốn nhóm tình trạng gia đình đều có tỉ lệ bằng nhau, nghĩa là chúng ta mong đợi sẽ thấy (mẫu n = 100) có 25 người có gia đình, 25 người độc thân, 25 người góa, và 25 người đã li dị. 8 Số TKKĐ 2 : Số TKKĐ cho các phép kiểm 2 là: O i : tần số quan sát thuộc nhóm loại thứ i i ii E EO X 2 2 )( E i : tần số mong đợi (với điều kiện H 0 đúng) của nhóm loại thứ i Khi H 0 đúng, X 2 có PP. 2 với (r – 1)(c – 1) độ tự do. c: số cột r: số hàng Đại lượng X 2 là số đo mức độ, trong điều kiện cho trước, tương đồng giữa các cặp tần số quan sát và mong đợi. Khi O i và E i càng tương đồng với nhau thì X 2 càng nhỏ, và khi chúng càng ít tương đồng với nhau thì X 2 càng lớn. 0,05 x 2 0 9 Qui tắc quyết định: Đại lượng i ii E EO 2 )( sẽ nhỏ nếu các tần số quan sát và mong đợi gần bằng nhau, và sẽ lớn nếu hiệu của chúng lớn. Từ chối H 0 nếu X 2 lớn hơn hoặc bằng giá trị của X 2 ở giá trị đã chọn. II. PHÉP KIỂM TÍNH ĐỘC LẬP (Tests of Independence) Hai tiêu chuẩn phân loại được xem là độc lập nhau nếu phân phối của 1 tiêu chuẩn vẫn không đổi cho dù phân phối của tiêu chuẩn kia có là gì đi nữa. Thí dụ: nếu cho rằng tình trạng kinh tế-xã hội và nơi cư trú (trong một thành phố) độc lập với nhau, ta sẽ mong đợi tìm thấy tỉ lệ bằng nhau của các gia đình thuộc các nhóm tình trạng kinh tế-xã hội thấp, trung bình, và cao ở tất cả các khu vực của thành phố. Cách tính tần số mong đợi: tần số mong đợi, dưới giả thuyết trống cho rằng 2 tiêu chuẩn phân loại độc lập với nhau, được tính cho từng ô (cell) bằng cách nhân tổng của hàng (có chứa cell) với tổng của cột (có chứa cell) rồi chia tích này cho đại tổng số n. Thí dụ chứng minh: Mục đích nghiên cứu của 1 nhóm tác giả là nhằm khảo sát giả thuyết cho rằng phụ nữ nhiễm HIV đồng thời với nhiễm Papilomavirus (HPV) sẽ có nhiều khả năng có các bất thường về mặt tế bào ở cổ tử cung hơn phụ nữ chỉ nhiễm 1 hoặc không nhiễm loại virus nào. Số liệu sau đây do nhà nghiên cứu cung cấp, 10 HIV HPV HT + , TCLS + HT + , TCLS – HT – Tổng Dương tính 23 04 10 37 Âm tính 10 14 35 59 Tổng 33 18 45 96 Nhà nghiên cứu muốn biết liệu họ có thể kết luận là có mối liên hệ giữa tình trạng nhiễm HPV và các giai đoạn nhiễm HIV không? 1. Số liệu: (xem đề bài) 11 2. Giả định: Mẫu hiện có để phân tích tương đương với 1 mẫu ngẫu nhiên đơn giản rút ra từ dân số có liên quan. 3. Giả thuyết: H 0 : Tình trạng nhiễm HPV và các giai đoạn nhiễm HIV độc lập với nhau H A : Hai biến số này không độc lập với nhau (Tình trạng nhiễm HPV và các giai đoạn nhiễm HIV không độc lập với nhau) Đặt = 0,05 4. Số TKKĐ X 2 = k i i ii E EO 1 2 )( 5. PP. của số TKKĐ: Khi H 0 đúng X 2 có phân phối gần như 2 với (r – 1)(c – 1) = (2 – 1)(3 – 1) = 2 độ tự do 6. Qui tắc quyết định: Từ chối H 0 nếu giá trị X 2 tính được bằng hoặc lớn hơn 5,991. 7. Tính số TKKĐ: 12 Tần số mong đợi của ô thứ nhất được tính bằng (33 x 37)/96 = 12,72. Các ô khác được tính tương tự HPV HIV HT + , TCLS + HT + , TCLS – HT – Tổng Dương tính 23 (12,72) 4 (6,94) 10 (17,34) 37 Âm tính 10 (20,28) 14 (11,06) 35 (27,66) 59 33 18 45 96 X 2 = k i i ii E EO 1 2 )( = 66,27 )66,2735( 94,6 )94,64( 72,12 )72,1223( 222 13 = 8,30805 + 1,24548 + + 1,94778 = 20,60081 8. Quyết định thống kê: Từ chối H 0 vì 20,60081 > 5,991 9. Kết luận: Có mối liên quan giữa tình trạng nhiễm HPV và các giai đoạn nhiễm HIV. p < 0,005. Trường hợp tần số mong đợi nhỏ: Theo Cochran: + Đối với các bảng chéo (contingency table) có > 1 độ tự do, giá trị của tần số mong đợi nhỏ nhất cho phép là bằng 1 với điều kiện không có > 20% số ô có tần số mong đợi < 5. Để thỏa được điều kiện này, người ta thường phải dồn cột hoặc hàng lại. + Đối với trường hợp PP. 2 với < 30 độ tự do, có thể chấp nhận giá trị của tần số mong đợi nhỏ bằng 2. TRƯỜNG HỢP BẢNG CHÉO 2 X 2 14 Tiêu chuẩn phân Tiêu chuẩn phân loại thứ nhất Tổng loại thứ hai 1 2 1 a b a + b 2 c d c + d Tổng a + c b + d n X 2 có thể được tính bằng cách đon giản hơn: X 2 = ))()()(( )( 2 dcbadbca bcadn a, b, c, d: tần số quan sát của các ô. Phân phối 2 này có (r – 1)(c –1) = 1 độ tự do. Trường hợp tần số mong đợi nhỏ của bảng 2 x 2: Cochran cho rằng không nên dùng phép kiểm 2 nếu 15 + n < 20 hoặc + 20 < n < 40 + có tần số mong đợi < 5 Khi n 40, có thể chấp nhận 1 tần số mong đợi nhỏ bằng 1. Điều chỉnh Yates (Yates’s correction) Các tần số quan sát trong bảng chéo là biến số rời, nhưng lại đưa đến PP. mẫu X 2 có PP. liên tục. Điều chỉnh Yates là công cụ để điều chỉnh sự việc này cho trường hợp bảng 2 x 2. Việc điều chỉnh được tiến hành bằng cách lấy giá trị tuyệt đối của đại lượng \ad – bc\ trừ cho 2 1 tổng số các quan sát trước khi bình phương. Khi này, X 2 = ))()()(( )5,0\(\ 2 dcbadbca nbcadn Ghi chú: Trong các software về TKYH, kết quả X 2 của test of independence thường được trình bày dưới dạng kết quả của Pearson (lấy theo tên Karl Pearson, một trong những người đã phát triển phép kiểm 2 ). [...]... thì Fisher Exact Test có thể là một lựa chọn thay thế Sắp xếp số liệu: khi dùng Fisher Exact Test, cần sắp xếp số liệu trong bảng 2 x 2 theo cách sao cho A > B và chọn đặc điểm có liên quan sao cho a/A > b/B Có đặc điểm Mẫu liên quan Không có đặc điểm Tổng liên quan 1 a A–a A 2 b B–b B 16 Tổng a+b A+B–a–b A+B Giả định: 1/ Mẫu A l y từ dân số 1 và mẫu B l y từ dân số 2 2/ Các mẫu đều ngẫu nhiên và độc... nhóm loại thành 1 trong 2 loại độc lập hỗ tương Số TKKĐ: Số TKKĐ là b, số lượng nằm trong mẫu 2 có mang đặc điểm liên quan Qui tắc quyết định: Từ chối H0 khi b hiện có bằng hoặc nhỏ hơn giá trị tới hạn (tương ứng với ngưỡng có ý nghĩa thống kê) - 17 . sau đ y do nhà nghiên cứu cung cấp, 10 HIV HPV HT + , TCLS + HT + , TCLS – HT – Tổng Dương tính 23 04 10 37 Âm tính 10 14 35 59 Tổng 33 18 45 96 Nhà nghiên cứu muốn. (20, 28) 14 (11,06) 35 (27,66) 59 33 18 45 96 X 2 = k i i ii E EO 1 2 )( = 66,27 )66,2735( 94,6 )94,64( 72,12 )72,1223( 222 13 = 8, 3 080 5 + 1,245 48. 94,6 )94,64( 72,12 )72,1223( 222 13 = 8, 3 080 5 + 1,245 48 + + 1,947 78 = 20,60 081 8. Quyết định thống kê: Từ chối H 0 vì 20,60 081 > 5,991 9. Kết luận: Có mối liên quan giữa tình trạng nhiễm