Bài giảng Thống kê y học - Bài 7: Sự biến thiên mẫu của tỉ lệ giúp sinh viên có thể nêu được hai phương pháp chính sử dụng trong phân tích thống kê - kiểm định và ước lượng, trình bày được định nghĩa của sai số chuẩn và phân biệt sai số chuẩn và độ lệch chuẩn,... Mời các bạn cùng tham khảo.
SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ Mục tiêu Sau khi nghiên cứu chủ đề học viên có khả năng: Nêu được hai phương pháp chính sử dụng trong phân tích thống kê: kiểm định và ước lượng Trình bày được định nghĩa của sai số chuẩn và phân biệt sai số chuẩn và độ lệch chuẩn Nhận thức được ý nghĩa của biến thiên mẫu Trình bày được cơng thức tính sai số chuẩn của tỉ lệ và khoảng tin cậy của tỉ lệ Biến số định tính, biến số nhị giá Biến số định tính (qualitative variable categorical variable) là những đặc tính thay đổi từ người này sang người khác. Trong số liệu định tính khơng có sự đo lường (định lượng) mà chỉ có sự phân loại một đối tượng thuộc vào một trong hai loại: Trong nghiên cứu quan sát người ta có thể phân loại các đặc tính về lối sống hay bệnh tật như: a. Thói quen hút thuốc lá: khơng hút, bỏ hút, đang hút thuốc lá b. Thói quen ăn uống: ăn chay, khơng ăn chay c. Xét nghiệm máu phát hiện nhiễm HIV: dương tính, âm tính d. Đo ECG phát hiện tiền sử nhồi máu cơ tim: Khơng, nghi ngờ, xác định e. Ung thư trong 10 năm theo dõi hay khơng: Có, khơng Trong nghiên cứu thử nghiệm lâm sàng, có thể phân loại đối tượng theo f. Sống còn hơn 1 năm sau khi bị nhồi máu: sống, chết g. Kết quả lâm sàng sau điều trị kháng sinh viêm họng, amydale: chữa khỏi, thun giảm, khơng bớt Ðơi khi các đo lường định lượng cũng được chia nhóm để tạo ra biến số định tính: a. Uống rươu: khơng, uống thỉnh thoảng, uống đều, nghiện nặng b. Tiểu đường: có (đường huyết lúc đói ≥ 140 mg/100mL) hay khơng Như đã được trình bày phân phối của biến số định tính được mơ tả bằng (số giá trị của biến số 1) tần suất. Thí dụ, giả sử chúng ta thu thập thơng tin về thói quen hút thuốc lá (có 3 giá trị khơng hút, bỏ hút và hút thuốc) trên thanh niên, chúng ta chỉ cần tỉ lệ thanh niên hút thuốc lá và tỉ lệ thanh niên bỏ hút thì chúng ta biết được phân phối của số liệu này (tỉ lệ thanh niên khơng hút thuốc là có thể tính được khi biết hai tỉ lệ kia). Trong bài này chúng ta sẽ chỉ tập trung chú ý đến biến số định tính có 2 giá trị. Biến số này được gọi là biến số nhị giá (binary variable). Như vậy, vì biến số nhị giá chỉ có 2 giá trị nên chỉ cần mơ tả bằng một con số tỉ lệ (hoặc một con số phần trăm) Thí dụ: Vào q 3, 1994, một cuộc điều tra dinh dưỡng được tiến hành trên 1503 trẻ em dưới 5 tuổi tại thành phố Hồ Chí Minh. Trong số trẻ được điều tra có 494 trẻ bị suy dinh dưỡng nhẹ cân Tỉ lệ trẻ bị suy dinh dưỡng nhẹ cân = Trình bày theo cách khác, phần trăm trẻ em bị suy dinh dưỡng là 32,9 % Ðại cương mẫu phương pháp lấy mẫu Trong nghiên cứu, chúng ta thường chỉ có thể thu thập số liệu trên một tập hợp nhất định các đối tượng nhưng chúng ta lại muốn khái quát hóa kết quả của các số liệu và áp dụng chúng cho một dân số rộng lớn hơn. Trong thống kê, tập hợp các đối tượng thu thập số liệu gọi mẫu (sample) hay dân số nghiên cứu (study population). Dân số mà chúng ta muốn áp dụng kết quả của nghiên cứu được gọi là dân số mục tiêu (target population) Dân số mục tiêu: tập hợp các đối tượng mà chúng ta muốn các thành quả nghiên cứu được áp dụng vào Dân số nghiên cứu (còn được gọi là mẫu): tập hợp các đối tượng có các đặc tính hay đại lượng được thu thập trong q trình nghiên cứu Có thể nói điểm mấu chốt của nghiên cưú khoa học là làm sao việc áp dụng có giá trị các kết quả nghiên cứu (với các số liệu của mẫu) lên dân số mục tiêu. Muốn cho việc áp dụng có giá trị một trong những điều kiện tiên quyết là cỡ mẫu (sample size) phải đủ lớn và phương pháp mẫu phải có tính đại diện Bằng trực giác chúng ta cảm nhận được rằng nếu số đối tượng trong mẫu càng nhiều (cỡ mẫu càng lớn) thì ước lượng chúng ta càng có tính tin cậy cao hơn. Thí dụ nếu chúng ta muốn biến tỉ lệ suy dinh dưỡng trẻ dưới 5 tuổi ở TP Hồ Chí Minh. Nếu chúng ta chỉ điều tra trên 10 trẻ thì chúng ta khơng tin tưởng vào tỉ lệ tính được lắm. Nhưng nếu chúng ta điều tra 1000 trẻ (nếu 1000 trẻ này đại diện cho các trẻ dưới 5 của TP Hồ Chí Minh) thì chúng ta khá tin vào kết quả khảo sát được. Ðó là cảm nhận trực giác của chúng ta về biến thiên của mẫu Kí hiệu Giả sử chúng ta tiến hành một cuộc điều tra tỉ lệ suy dinh dưỡng trên dân số trẻ em Chúng ta kí hiệu tỉ lệ suy dinh dưỡng trong dân số này là π. Nếu chúng ta chọn một cách ngẫu nhiên n trẻ trong dân số đó nhằm tìm hiểu về tình hình suy dinh dưỡng này thì tập hợp n trẻ em này được gọi là dân số nghiên cứu (hay mẫu). Trong trường hợp này cỡ mẫu là n Chúng ta tính tỉ lệ suy dinh dưỡng trên n trẻ được nghiên cứu bằng cách chia số trẻ được phát hiện là suy dinh dưỡng cho n. Tỉ lệ này được kí hiệu bằng p. Nói chung tỉ lệ trong mẫu p sẽ khơng đồng nhất với tỉ lệ trong dân số π và nếu chúng ta có nhiều mẫu nghiên cứu chúng ta sẽ có nhiều tỉ lệ mẫu (p1, p2, p3, ) tương ứng với các mẫu khác nhau. Tóm lại π là tỉ lệ trong dân số đích, là một tham số hằng định và chúng ta muốn biết trong khi đó, p là tỉ lệ trong mẫu ln ln dao động và là số liệu để chúng ta có thể rút ra các kết luận về tỉ lệ trong dân số đích π Biến thiên mẫu nhị thức Giả sử trong dân số đích có tỉ lệ suy dinh dưỡng π = 30. Nếu chúng ta lấy một mẫu gồm n trẻ em và sử dụng phân phối nhị thức chúng ta tính được xác suất trong n trẻ em đó có x trẻ bị suy dinh dưỡng. Chúng ta khơng lập lại tính tốn đây nhưng kết quả tính xác suất khảo sát được x trẻ suy dinh dưỡn khi cỡ mẫu tương ứng là 5, 20, và 50 Từ kết quả trên chúng ta có nhận xét như sau: Phân phối xác suất số trẻ bị suy dinh dưỡng (đây là biến cố được quan tâm) có khuynh hướng tập trung chung quanh tỉ lệ suy dinh dưỡng ở dân số đích = 0,3 Khi cỡ mẫu nhỏ, phân phối xác suất số trẻ bị suy dinh dưỡng có thể khơng cân đối nhưng khi cỡ mẫu đủ lớn (khi nπ ≥ 5) thì phân phối xác suất có tính đối xứng và có hình chng úp. Ðiều này cho thấy rằng biến số X (số trẻ bị suy dinh dưỡng tần suất xảy ra biến cố quan tâm) sẽ tiệm cận phân phối bình thường Nếu chúng rất may mắn, tỉ lệ suy dinh dưỡng mẫu, kí hiệu là p, sẽ bằng với tỉ lệ suy dinh dưỡng của dân số đích π. Tuy nhiên thơng thường chúng ta khơng may mắn như vậy và tỉ lệ của mẫu sẽ dao động (phân tán) chung quanh giá trị của dân số đich. Chúng ta dùng (p π)2 để đo lường mức độ dao động của p chung quan π. Và chúng ta có thể chứng minh bằng tốn học rằng nếu chúng ta lấy nhiều mẫu ngẫu nhiên gồm n đối tượng thì trung bình của (p π)2 sẽ bằng với π(1π)/n Con số π(1π)/n được gọi là phương sai của tỉ lệ và căn bậc hai của nó được gọi là sai số chuẩn của tỉ lệ (standard error of a proportion) và nó đo lường mức độ sai số trung bình của p, nói cách khác, nó cho chúng ta biết chúng ta hi vọng tỉ lệ p của chúng ta khác với (bao nhiêu, tính về mặt trung bình (1- ) n Viết theo ngơn ngữ tốn học hình thức Saisố chuẩn tỉ lệ(S.E.) p ~ N(π, ) Thí dụ với cỡ mẫu n = 1000 và tỉ lệ suy dinh dưỡng trong dân số đích π = 0,3 thì sai số chuẩn của tỉ lệ quan sát là: (1- ) 0,3(1- 0,3) 0,0145 n 1000 Nếu chúng ta trình bày theo phần trăm thì với tỉ lệ suy dinh dưỡng trong dân số là 30% thì sai số chuẩn của tỉ lệ suy dinh dưỡng là 1,45% Chúng ta có thể có nhận xét: trừ khi tỉ lệ trong quần thể đích q gần 0% hay 100%, sai số chuẩn tương đối ít thay đổi. Một quy tắc tính rợ (rule of thumb)để ánh chừng sai số chuẩn: cỡ mẫu 100 thì sai số chuẩn là 5%, cỡ mẫu 400 sai số chuẩn vào khoảng 2 % và cỡ mẫu 10000 thì sai số chuẩn vào khoảng 0,5% Saisố chuẩn tỉ lệ(S.E.) Trong trường hợp khơng biết tỉ lệ của dân số π, sử dụng tỉ lệ của mẫu p để ước lượng sai số chuẩn.Thí dụ giả sử khảo sát 1241 trẻ em, phát hiện được 150 trẻ bị suy dinh dưỡng nhẹ cân. Tỉ lệ suy dinh dưỡng là 0,121 và sai số chuẩn của tỉ lệ suy dinh dưỡng là: p(1- p ) (1- ) 0,121(1- 0,121) 0.009 n n 1241 Như vậy tỉ lệ suy dinh dưỡng là 12,1% với sai số chuẩn là 0,9% S.E Khoảng tin cậy 95% tỉ lệ Khi chúng ta quan sát một tỉ lệ trong một mẫu ngẫu nhiên, chúng ta mong muốn có được một khoảng các giá trị mà giá trị tỉ lệ (thực) của dân số nằm trong đó. Chúng ta có thể tính được khoảng này sử dụng tính xấp xỉ bình thường của phân phối nhị thức p ~ N(π, ) Theo tính chất thứ 4 của phân phối bình thường, xác suất giá trị p nằm trong phạm vi (1- ) n là 95%. Nếu khơng u cầu chính xác, ta có thể cho rằng 95% các trường hợp nghiên cứu giá trị π nằm trong khoảng: 1,96 p 1,96 p(1- p) p 1,96 n đến p(1- p ) n hay còn được viết là p ± 1,96 × S.E. Khoảng giá trị này được gọi là khoảng tin cậy 95% (95% confident interval). Hai biên của khoảng tin cậy (p + 1,96 × S.E và p 1,96 × S.E ) được gọi là giới hạn tin cậy trên và giới hạn tin cậy dưới (upper confident limit and lower confident limit) Lưu ý nếu chúng ta tính tỉ lệ bằng phần trăm thì cơng thức khhoảng tin cậy sẽ là p 1,96 p(100- p ) p 1,96 n đến p(100- p ) n Ðiều kiện áp dụng khoảng tin cậy của tỉ lệ theo cơng thức trên là n× p ≥ 5 Giả sử có 150 trẻ suy dinh dưỡng được phát hiện khi điều tra 1241 trẻ dưới 3 tuổi. Giả sử nếu 1241 trẻ này đại diện cho dân số đích thì tỉ lệ suy dinh dưỡng là p= 150/1241 = 12,1%. Vì số trẻ suy dinh dưỡng là 150 = n× p ≥ 5 nên chúng ta có thể áp dụng khoảng tin cậy 95% của tỉ lệ suy dinh dưỡng như sau: p(100- p ) 12,1(100- 12,1) 12,1% 1,96 12,1% 1,8% n 1241 Khoảng tin cậy của tỉ lệ suy dinh dưỡng là từ 10,3% đến 13,9% Khoảng tin cậy 95% (hoặc khoảng tin cậy 90% theo một số nhà thống kê) là kĩ thuật thống kê phổ biến nhất để thể hiện mức độ không chắc chắn của ước lượng và nên sử dụng khoảng tin cậy khi ước lượng bất kì một tỉ lệ nào Nên nhớ rằng có xác suất 5% tỉ lệ của dân số đích nằm ngồi khoảng tin cậy 95%. Do đó trung bình cứ mỗi 20 khoảng tin cậy được tính tốn sẽ có 1 khoảng tin cậy khơng chứa giá trị tỉ lệ thực p 1,96 Trình bày khoảng tin cậy Nếu chúng ta có tỉ lệ của hai hay nhiều nhóm chúng ta có thể thể hiện tỉ lệ và khoảng tin cậy bằng đồ thị. Một thí dụ được trình bày ở sau: 50% 50% 40% 40% 30% 30% 30% 20% 20% 13% 10% 10% 9% 0% 10% 0% Mùchữ(n=23) Cấp 1,2 (n=748) Cấp (n=340) ĐH, CĐ (n=130) Hình 2. Tỉ lệ suy dinh dưỡng nhẹ cân (thanh đặc) và khoảng tin cậy 95% (đoạn thẳng dọc) theo trình độ học vấn của mẹ (mù chữ, học đến cấp 1 hay 2, học đến cấp 3, học Cao Ðẳng hoặc đại học) Trong một cuộc điều tra tình trạng dinh dưỡng trên 1241 trẻ dưới 3 tuổi, phân loại trẻ theo trình độ văn hóa của người mẹ. Trong nhóm trẻ có mẹ mù chữ (n=28) có 7 trẻ bị suy dinh dưỡng (r=7), Trong nhóm có mẹ học cấp 1,2 (n=748) có 98 trẻ bị suy dinh dưỡng, trong nhóm có mẹ học cấp 3 (n=340) có 33 trẻ bị suy dinh dưỡng và trong nhóm có mẹ học đại học trở lên (n=130) có 12 trẻ bị suy dinh dưỡng. Tỉ lệ suy dinh dưỡng cùng với khoảng tin cậy 95% của từng nhóm trẻ được trình bày bằng biểu đồ thanh đơn như trong hình 19, trong đó thanh đặc thể hiện tỉ lệ suy dinh dưỡng quan sát được và đường thẳng đứng thể hiện khoảng tin cậy 95% Chúng ta có thể nhận xét rằng khoảng tin cậy sẽ hẹp nhất khi cỡ mẫu là lớn nhất (nhóm trẻ có mẹ học cấp 1 và cấp 2 với cỡ mẫu bằng 748) và khoảng tin cậy sẽ rộng nhất khi cỡ mẫu nhỏ (nhóm trẻ có mẹ mù chữ với cỡ mẫu bằng 23) Bài tập Từ tháng 8 đến tháng 10 năm 1994, cuộc điều tra quốc gia về thiếu Vitamin A và suy dinh dưỡng. Ðiều tra được tiến hành trên 37.766 trẻ dưới 6 tuổi ở 20 tỉnh thành đại diện cho 7 vùng sinh thái kinh tế của Việt nam với cỡ mẫu trung bình cho một tỉnh vào khoảng 1500 trẻ. Trong nghiên cứu này, trẻ có cân nặng theo tuổi dưới 2 độ lệch chuẩn so với cân nặng chuẩn của tuổi được xếp loại là suy dinh dưỡng. Số liệu về dinh dưỡng ở một số tỉnh được trình bày trong bảng sau: 10 14 12 13 16 191715 212018 11 23 22 25 24 26 Hà nội 27 28 Hoàng Sa 29 30 Huế 31 32 Quảng Nam 34 41 40 Daklak Bình định 36 37 Đồng Tháp 47 46 45ồng nai 39 Đ 50 44 49 An Giang 53 55Bến tre CT 56 59 Sóc trăng 60 61 43 Ninh thuận TP Hồ Chí Minh Trường Sa Tỉnh Số trẻ được sàng lọc Số trẻ SDD Quảng nam Ðà nẵng 1503 711 Binh Ðịnh 1510 708 Ninh Thuận 1520 707 Ðắc Lắc 1488 705 TP Hồ Chí Minh 1503 494 Sơng Bé 1488 579 Ðồng Nai 1500 542 Ðồng Tháp 1498 758 An Giang 1512 556 Bến Tre 1503 522 Cần Thơ 1563 622 Sóc Trăng 1490 590 Minh Hải 1492 573 Các nhóm thực hiện các cơng việc sau: 1. Tính tỉ lệ suy dinh dưỡng ở mỗi tỉnh 2. Tính khoảng tin cậy 95% cho tỉ lệ suy dinh dưỡng ở mỗi tỉnh 3. Vẽ biểu đồ tất cả các tỉ lệ suy dinh dưỡng và khoảng tin cậy theo cách thích hợp 4. Lí giải thống kê các kết luận 5. Giả sử chúng ta chỉ điều tra 50 trẻ ở mỗi tỉnh, theo bạn kết quả sẽ như thế nào? 6. So sánh kết quả tỉ lệ suy dinh dưỡng của 4 tỉnh miền Trung và 6 tỉnh miền Tây. Cách so sánh đó có gì khơng ổn hay khơng? 7. Nếu bạn đánh giá về tình trạng dinh dưỡng trẻ em, bạn có thể có những cách phân tích số liệu nào khác hay khơng? Cho biết lợi ích của từng cách 8.Giải thích tại sao có sự khác biệt địa lí về tỉ lệ suy dinh dưỡng Bài giải 1. Tỉ lệ suy dinh dưỡng, khoảng tin cậy của tỉ lệ suy dinh dưỡng ở 13 tỉnh phía Nam Tỉnh Số trẻ Quảng nam Ðà nẵng 1503 Binh Ðịnh 1510 Ninh Thuận 1520 Ðắc Lắc 1488 TP Hồ Chí Minh 1503 Sơng Bé 1488 Ðồng Nai 1500 Ðồng Tháp 1498 An Giang 1512 Bến Tre 1503 Cần Thơ 1563 Sóc Trăng 1490 Minh Hải 1492 Số SDD 711 708 707 705 494 579 542 758 556 522 622 590 573 Tỉ lệ SDD 47.3 46.9 46.5 47.4 32.9 38.9 36.1 50.6 36.8 34.7 39.8 39.6 38.4 SE 1.29 1.28 1.28 1.29 1.21 1.26 1.24 1.29 1.24 1.23 1.24 1.27 1.26 Giới hạn Giới hạn tin cậy tin cậy 44.8 49.8 44.4 49.4 44.0 49.0 44.9 49.9 30.5 35.3 36.4 41.4 33.7 38.5 48.1 53.1 34.4 39.2 32.3 37.1 37.4 42.2 37.1 42.1 35.9 40.9 60 60.0 50 50.0 40 40.0 30 30.0 20 20.0 10 10.0 0.0 Quaû ng Binh nam Đà Đònh nẵ ng Ninh Đắ c Lắ c TP Hồ Sô ng Thuậ n Chí Bé Minh Đồ ng Nai Đồ ng Thá p An Bế n Tre Giang Cầ n Thơ Só c Tră ng Hình Tỉ lệ suy dinh dưỡng ở 13 tỉnh thành phía Nam năm 1994 và khoảng tin cậy Minh Hả i ... Nếu chúng rất may mắn, tỉ lệ suy dinh dưỡng mẫu, kí hiệu là p, sẽ bằng với tỉ lệ suy dinh dưỡng của dân số đích π. Tuy nhiên thơng thường chúng ta khơng may mắn như v y và tỉ lệ của mẫu sẽ dao động (phân tán) chung quanh giá trị của dân số đich. ... 1. Tính tỉ lệ suy dinh dưỡng ở mỗi tỉnh 2. Tính khoảng tin c y 95% cho tỉ lệ suy dinh dưỡng ở mỗi tỉnh 3. Vẽ biểu đồ tất cả các tỉ lệ suy dinh dưỡng và khoảng tin c y theo cách thích hợp 4. Lí giải thống kê các kết luận... 8.Giải thích tại sao có sự khác biệt địa lí về tỉ lệ suy dinh dưỡng Bài giải 1. Tỉ lệ suy dinh dưỡng, khoảng tin c y của tỉ lệ suy dinh dưỡng ở 13 tỉnh phía Nam Tỉnh Số trẻ Quảng nam Ðà nẵng 1503 Binh Ðịnh