1. Trang chủ
  2. » Thể loại khác

Bài giảng Thống kê y học - Bài 7: Sự biến thiên mẫu của tỉ lệ

9 117 1

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài giảng Thống kê y học - Bài 7: Sự biến thiên mẫu của tỉ lệ giúp sinh viên có thể nêu được hai phương pháp chính sử dụng trong phân tích thống kê - kiểm định và ước lượng, trình bày được định nghĩa của sai số chuẩn và phân biệt sai số chuẩn và độ lệch chuẩn,... Mời các bạn cùng tham khảo.

SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ Mục tiêu Sau khi nghiên cứu chủ đề học viên có khả năng: ­ Nêu được hai phương pháp chính sử dụng trong phân tích thống kê: kiểm định và ước  lượng ­ Trình bày được định nghĩa của sai số  chuẩn và phân biệt sai số  chuẩn và độ  lệch   chuẩn ­ Nhận thức được ý nghĩa của biến thiên mẫu ­ Trình bày được cơng thức tính sai số chuẩn của tỉ lệ và khoảng tin cậy của tỉ lệ Biến số định tính, biến số nhị giá Biến số định tính (qualitative variable ­ categorical variable) là những đặc tính thay đổi  từ  người này sang người khác. Trong số  liệu định tính khơng có sự  đo lường (định  lượng) mà chỉ có sự phân loại một đối tượng thuộc vào một trong hai loại: Trong nghiên cứu quan sát người ta có thể phân loại các đặc tính về lối sống hay bệnh  tật như: a. Thói quen hút thuốc lá: khơng hút, bỏ hút, đang hút thuốc lá b. Thói quen ăn uống: ăn chay, khơng ăn chay c. Xét nghiệm máu phát  hiện nhiễm HIV: dương tính, âm tính d. Đo ECG phát hiện tiền sử nhồi máu cơ tim: Khơng, nghi ngờ, xác định e. Ung thư trong 10 năm theo dõi hay khơng: Có, khơng Trong nghiên cứu thử nghiệm lâm sàng, có thể phân loại đối tượng theo f. Sống còn hơn 1 năm sau khi bị nhồi máu: sống, chết g. Kết quả  lâm sàng sau điều trị  kháng sinh viêm họng, amydale: chữa khỏi, thun  giảm, khơng bớt Ðơi khi các đo lường định lượng cũng được chia nhóm để tạo ra biến số định tính: a. Uống rươu: khơng, uống thỉnh thoảng, uống đều, nghiện nặng b. Tiểu đường: có (đường huyết lúc đói ≥  140 mg/100mL) hay khơng Như  đã được trình bày phân phối của biến số  định tính được mơ tả  bằng (số  giá trị  của biến số  ­ 1) tần suất. Thí dụ, giả  sử chúng ta thu thập thơng tin về thói quen hút  thuốc lá (có 3 giá trị khơng hút, bỏ hút và hút thuốc) trên thanh niên, chúng ta chỉ  cần tỉ  lệ  thanh niên hút thuốc lá và tỉ  lệ  thanh niên bỏ  hút thì chúng ta biết được phân phối  của  số liệu này (tỉ lệ thanh niên khơng hút thuốc là có thể tính được khi biết hai tỉ lệ  kia).  Trong bài này chúng ta sẽ chỉ tập trung chú ý đến biến số định tính có 2 giá trị. Biến số  này được gọi là biến số nhị giá (binary variable). Như vậy, vì biến số nhị giá chỉ  có 2  giá trị nên chỉ cần mơ tả bằng một con số tỉ lệ (hoặc một con số phần trăm) Thí dụ: Vào q 3, 1994, một cuộc điều tra dinh dưỡng được tiến hành trên 1503 trẻ  em dưới 5 tuổi tại thành phố  Hồ  Chí Minh. Trong số trẻ  được điều tra có 494 trẻ  bị  suy dinh dưỡng nhẹ cân Tỉ lệ trẻ bị suy dinh dưỡng nhẹ cân =  Trình bày theo cách khác, phần trăm trẻ em bị suy dinh dưỡng là 32,9 % Ðại cương mẫu phương pháp lấy mẫu Trong nghiên cứu, chúng ta thường chỉ có thể  thu thập số liệu trên một tập hợp nhất   định các đối tượng nhưng chúng ta lại muốn khái quát hóa kết quả của các số  liệu và  áp dụng chúng cho một dân số rộng lớn hơn. Trong thống kê, tập hợp các đối tượng    thu   thập   số   liệu     gọi     mẫu   (sample)   hay   dân   số   nghiên   cứu   (study   population). Dân số  mà chúng ta muốn áp dụng kết quả  của nghiên cứu được gọi là  dân số mục tiêu (target population) Dân số mục tiêu: tập hợp các đối tượng mà chúng ta muốn các thành quả  nghiên cứu   được áp dụng vào Dân số nghiên cứu (còn được gọi là mẫu): tập hợp các đối tượng có các đặc tính hay   đại lượng được thu thập trong q trình nghiên cứu Có thể nói điểm mấu chốt của nghiên cưú khoa học là làm sao việc áp dụng có giá trị  các kết quả nghiên cứu (với các số liệu của mẫu) lên dân số mục tiêu. Muốn cho việc   áp dụng có giá trị  một trong những điều kiện tiên quyết là cỡ mẫu (sample size) phải   đủ lớn và phương pháp mẫu phải có tính đại diện Bằng  trực giác chúng ta cảm nhận được rằng nếu số đối tượng trong mẫu càng nhiều   (cỡ  mẫu càng lớn) thì  ước lượng chúng ta càng có tính tin cậy cao hơn. Thí dụ  nếu   chúng ta muốn biến tỉ  lệ  suy dinh dưỡng   trẻ  dưới 5 tuổi  ở TP Hồ Chí Minh. Nếu  chúng ta chỉ  điều tra trên 10 trẻ  thì chúng ta khơng tin tưởng vào tỉ  lệ  tính được lắm.  Nhưng nếu chúng ta điều tra 1000 trẻ  (nếu 1000 trẻ  này đại diện cho các trẻ  dưới 5   của TP Hồ Chí Minh) thì chúng ta khá tin vào kết quả khảo sát được. Ðó là cảm nhận  trực giác của chúng ta về biến thiên của mẫu Kí hiệu Giả sử chúng ta tiến hành một cuộc điều tra tỉ lệ suy dinh dưỡng trên dân số  trẻ  em   Chúng ta kí hiệu  tỉ lệ suy dinh dưỡng trong dân số này  là π. Nếu chúng ta chọn một  cách ngẫu nhiên n trẻ trong dân số đó nhằm tìm hiểu về tình hình suy dinh dưỡng này   thì tập hợp n trẻ em này được gọi là dân số nghiên cứu (hay mẫu). Trong trường hợp   này cỡ mẫu là n Chúng ta tính tỉ  lệ  suy dinh dưỡng trên n trẻ  được nghiên cứu bằng cách chia số  trẻ  được phát hiện là suy dinh dưỡng cho n. Tỉ lệ này được kí hiệu bằng p. Nói chung tỉ lệ  trong mẫu p sẽ khơng đồng nhất với tỉ lệ trong dân số π và nếu chúng ta có nhiều mẫu  nghiên cứu chúng ta sẽ có nhiều tỉ lệ mẫu (p1, p2, p3, ) tương ứng với các mẫu khác  nhau. Tóm lại π là tỉ  lệ trong dân số đích, là một tham số hằng định và chúng ta muốn   biết trong khi đó, p là tỉ  lệ trong mẫu ln ln dao động và là số liệu để  chúng ta có   thể rút ra các kết luận về tỉ lệ trong dân số đích π Biến thiên mẫu nhị thức Giả sử trong dân số đích có tỉ lệ suy dinh dưỡng  π = 30.  Nếu chúng ta lấy một mẫu   gồm n trẻ  em và sử  dụng phân phối nhị  thức chúng ta tính được xác suất trong n trẻ  em đó có x trẻ  bị  suy dinh dưỡng. Chúng ta khơng lập lại tính tốn   đây nhưng kết  quả tính xác suất khảo sát được x trẻ suy dinh dưỡn khi cỡ mẫu tương  ứng là  5, 20,  và 50 Từ kết quả trên chúng ta có nhận xét như sau: ­ Phân phối xác suất số  trẻ  bị  suy dinh dưỡng (đây là biến cố  được quan tâm) có   khuynh hướng tập trung chung quanh tỉ lệ suy dinh dưỡng ở dân số đích = 0,3 ­ Khi cỡ mẫu nhỏ, phân phối xác suất số trẻ bị suy dinh dưỡng có thể  khơng cân đối   nhưng khi cỡ mẫu đủ  lớn (khi nπ ≥  5) thì phân phối xác suất có tính đối xứng và có  hình chng úp. Ðiều này cho thấy rằng biến số  X  (số  trẻ  bị  suy dinh dưỡng ­ tần   suất xảy ra biến cố quan tâm) sẽ tiệm cận phân phối bình thường ­ Nếu chúng  rất may mắn, tỉ lệ suy dinh dưỡng mẫu, kí hiệu là p, sẽ  bằng với tỉ  lệ  suy dinh dưỡng của dân số đích π. Tuy nhiên thơng thường chúng ta khơng may mắn  như vậy và tỉ lệ của mẫu sẽ dao động (phân tán) chung quanh giá trị của dân số đich.  Chúng ta dùng (p ­ π)2 để đo lường mức độ dao động của p chung quan  π. Và  chúng ta  có thể chứng minh bằng tốn học rằng nếu chúng ta lấy nhiều mẫu ngẫu nhiên gồm n   đối tượng thì trung bình của (p ­ π)2 sẽ bằng với π(1­π)/n Con số π(1­π)/n được gọi là phương sai của tỉ lệ và căn bậc hai của nó được gọi là sai   số chuẩn của tỉ lệ (standard error of a proportion) và nó đo lường mức độ  sai số trung  bình của p, nói cách khác, nó cho chúng ta biết chúng ta hi vọng tỉ  lệ  p của chúng ta   khác với (bao nhiêu, tính về mặt trung bình (1- ) n Viết theo ngơn ngữ tốn học hình thức Saisố chuẩn tỉ lệ(S.E.) p ~ N(π, ) Thí dụ với cỡ mẫu n = 1000 và tỉ lệ suy dinh dưỡng trong dân số đích π = 0,3 thì sai số  chuẩn của tỉ lệ quan sát là: (1- ) 0,3(1- 0,3) 0,0145 n 1000 Nếu chúng ta trình bày theo phần trăm thì với tỉ lệ suy dinh dưỡng trong dân số là 30%  thì sai số chuẩn của tỉ lệ suy dinh dưỡng là 1,45% Chúng ta có thể có nhận xét: trừ  khi tỉ lệ trong quần thể đích q gần 0% hay 100%,   sai số chuẩn tương đối ít thay đổi. Một quy tắc tính rợ (rule of thumb)để ánh chừng sai   số chuẩn: cỡ mẫu 100 thì sai số chuẩn là 5%, cỡ mẫu 400 sai số chuẩn vào khoảng 2   % và cỡ mẫu 10000 thì sai số chuẩn vào khoảng 0,5% Saisố chuẩn tỉ lệ(S.E.) Trong trường hợp khơng biết tỉ  lệ  của dân số  π, sử  dụng   tỉ  lệ  của mẫu p để   ước   lượng sai số chuẩn.Thí dụ giả sử khảo sát 1241 trẻ em, phát hiện được 150 trẻ bị suy   dinh dưỡng nhẹ cân. Tỉ  lệ suy dinh dưỡng là 0,121 và sai số chuẩn của tỉ lệ suy dinh   dưỡng là: p(1- p ) (1- ) 0,121(1- 0,121) 0.009 n n 1241 Như vậy tỉ lệ suy dinh dưỡng là 12,1% với sai số chuẩn là 0,9% S.E Khoảng tin cậy 95% tỉ lệ Khi chúng ta quan sát một tỉ  lệ  trong một mẫu ngẫu nhiên, chúng ta mong muốn có   được một khoảng các giá trị  mà giá trị tỉ lệ (thực) của dân số nằm trong đó. Chúng ta   có thể tính được khoảng này sử dụng tính xấp xỉ bình thường của phân phối nhị thức p ~ N(π, ) Theo tính chất thứ 4 của phân phối bình thường, xác suất giá trị p nằm trong phạm vi  (1- ) n là 95%.  Nếu khơng u cầu  chính xác, ta có thể cho rằng 95% các trường hợp nghiên   cứu giá trị π nằm trong khoảng: 1,96 p 1,96 p(1- p) p 1,96 n  đến  p(1- p ) n hay còn được viết là p ±   1,96 ×  S.E. Khoảng giá trị này được gọi là khoảng tin cậy  95% (95% confident interval). Hai biên của khoảng tin cậy (p + 1,96  ×  S.E và  p ­ 1,96  ×   S.E ) được gọi là giới hạn tin cậy trên và giới hạn tin cậy dưới (upper confident   limit and lower confident limit) Lưu ý nếu chúng ta tính tỉ lệ bằng phần trăm thì cơng thức khhoảng tin cậy sẽ là p 1,96 p(100- p ) p 1,96 n  đến  p(100- p ) n Ðiều kiện áp dụng khoảng tin cậy của tỉ lệ theo cơng thức trên là n× p ≥  5 Giả  sử  có 150 trẻ  suy dinh dưỡng được phát hiện khi điều tra 1241 trẻ  dưới 3 tuổi.  Giả  sử  nếu   1241 trẻ  này đại diện cho dân số  đích thì tỉ  lệ  suy dinh dưỡng là p=   150/1241 = 12,1%. Vì số trẻ suy dinh dưỡng là 150 = n× p ≥  5 nên chúng ta có thể áp  dụng khoảng tin cậy 95% của tỉ lệ suy dinh dưỡng như sau: p(100- p ) 12,1(100- 12,1) 12,1% 1,96 12,1% 1,8% n 1241 Khoảng tin cậy của tỉ lệ suy dinh dưỡng là từ 10,3% đến 13,9% Khoảng tin cậy 95% (hoặc khoảng tin cậy 90% theo một số nhà thống kê) là kĩ thuật  thống kê  phổ biến nhất để thể hiện mức độ  không chắc chắn của ước lượng và nên   sử dụng khoảng tin cậy khi ước lượng bất  kì một tỉ lệ nào Nên nhớ rằng có xác suất 5% tỉ lệ của dân số đích nằm ngồi khoảng tin cậy 95%. Do   đó trung bình cứ mỗi 20 khoảng tin cậy được tính tốn sẽ có 1 khoảng tin  cậy khơng   chứa giá trị tỉ lệ thực p 1,96 Trình bày khoảng tin cậy Nếu chúng ta có tỉ lệ của hai hay nhiều nhóm chúng ta có thể thể hiện tỉ lệ và khoảng   tin cậy bằng đồ thị. Một thí dụ được trình bày ở sau: 50% 50% 40% 40% 30% 30% 30% 20% 20% 13% 10% 10% 9% 0% 10% 0% Mùchữ(n=23) Cấp 1,2 (n=748) Cấp (n=340) ĐH, CĐ (n=130) Hình 2. Tỉ lệ suy dinh dưỡng nhẹ cân (thanh đặc) và khoảng tin cậy 95% (đoạn thẳng dọc) theo trình độ  học vấn của mẹ (mù chữ, học đến cấp 1 hay 2, học đến cấp 3, học Cao Ðẳng hoặc đại học) Trong một cuộc điều tra tình trạng dinh dưỡng trên 1241 trẻ dưới 3 tuổi, phân loại trẻ  theo trình độ văn hóa của người mẹ. Trong nhóm trẻ có mẹ mù chữ (n=28) có 7 trẻ bị  suy dinh dưỡng (r=7),  Trong nhóm có mẹ  học cấp 1,2 (n=748) có 98 trẻ  bị  suy dinh  dưỡng, trong nhóm có mẹ  học cấp 3 (n=340) có 33 trẻ  bị  suy dinh dưỡng và trong  nhóm có mẹ  học đại học trở  lên (n=130) có 12 trẻ  bị  suy dinh dưỡng. Tỉ  lệ suy dinh   dưỡng cùng với khoảng tin cậy 95% của từng nhóm trẻ  được trình bày bằng biểu đồ  thanh đơn như trong hình 19, trong đó thanh đặc thể hiện tỉ lệ suy dinh dưỡng quan sát  được và đường thẳng đứng thể hiện khoảng tin cậy 95% Chúng ta có thể  nhận xét rằng khoảng tin cậy sẽ  hẹp nhất khi cỡ  mẫu là lớn nhất  (nhóm trẻ có mẹ học cấp 1 và cấp 2 với cỡ mẫu bằng 748) và khoảng tin cậy  sẽ rộng   nhất khi cỡ mẫu nhỏ (nhóm trẻ có mẹ mù chữ với cỡ mẫu bằng 23) Bài tập Từ tháng 8 đến tháng 10 năm 1994, cuộc điều tra quốc gia về thiếu Vitamin A và suy   dinh dưỡng.  Ðiều tra được tiến hành  trên 37.766 trẻ dưới 6 tuổi  ở 20 tỉnh thành đại   diện cho 7 vùng sinh thái ­ kinh tế của Việt nam với cỡ mẫu trung bình cho một tỉnh   vào khoảng 1500 trẻ. Trong nghiên cứu này, trẻ có cân nặng theo tuổi dưới ­2 độ lệch   chuẩn so với cân nặng chuẩn của tuổi được xếp loại là suy dinh dưỡng. Số  liệu về  dinh dưỡng ở một số tỉnh được trình bày trong bảng sau: 10 14 12 13 16 191715 212018 11 23 22 25 24 26 Hà nội 27 28 Hoàng Sa 29 30 Huế 31 32 Quảng Nam 34 41 40 Daklak Bình định 36 37 Đồng Tháp 47 46 45ồng nai 39 Đ 50 44 49 An Giang 53 55Bến tre CT 56 59 Sóc trăng 60 61 43 Ninh thuận TP Hồ Chí Minh Trường Sa Tỉnh Số trẻ được sàng lọc Số trẻ SDD Quảng nam Ðà nẵng 1503 711 Binh Ðịnh 1510 708 Ninh Thuận 1520 707 Ðắc Lắc 1488 705 TP Hồ Chí Minh 1503 494 Sơng Bé 1488 579 Ðồng Nai 1500 542 Ðồng Tháp 1498 758 An Giang 1512 556 Bến Tre 1503 522 Cần Thơ 1563 622 Sóc Trăng 1490 590 Minh Hải 1492 573 Các nhóm thực hiện các cơng việc sau: 1. Tính tỉ lệ suy dinh dưỡng ở mỗi tỉnh 2. Tính khoảng tin cậy 95% cho tỉ lệ suy dinh dưỡng ở mỗi tỉnh 3. Vẽ biểu đồ tất cả các tỉ lệ suy dinh dưỡng và khoảng tin cậy theo cách thích hợp 4. Lí giải thống kê các kết luận 5. Giả sử chúng ta chỉ điều tra 50 trẻ ở mỗi tỉnh, theo bạn kết quả sẽ như thế nào? 6. So sánh kết quả  tỉ  lệ  suy dinh dưỡng của 4 tỉnh miền Trung  và 6 tỉnh miền Tây.  Cách so sánh đó có gì khơng ổn hay khơng? 7. Nếu bạn đánh giá về  tình trạng dinh dưỡng   trẻ  em, bạn có thể  có những cách  phân tích số liệu nào khác hay khơng? Cho biết lợi ích của từng cách 8.Giải thích tại sao có sự khác biệt địa lí về tỉ lệ suy dinh dưỡng Bài giải 1. Tỉ lệ suy dinh dưỡng, khoảng tin cậy của tỉ lệ suy dinh dưỡng ở 13 tỉnh phía Nam Tỉnh Số trẻ Quảng nam Ðà nẵng 1503 Binh Ðịnh 1510 Ninh Thuận 1520 Ðắc Lắc 1488 TP Hồ Chí Minh 1503 Sơng Bé 1488 Ðồng Nai 1500 Ðồng Tháp 1498 An Giang 1512 Bến Tre 1503 Cần Thơ 1563 Sóc Trăng 1490 Minh Hải 1492 Số SDD 711 708 707 705 494 579 542 758 556 522 622 590 573 Tỉ lệ  SDD 47.3 46.9 46.5 47.4 32.9 38.9 36.1 50.6 36.8 34.7 39.8 39.6 38.4 SE 1.29 1.28 1.28 1.29 1.21 1.26 1.24 1.29 1.24 1.23 1.24 1.27 1.26 Giới hạn  Giới hạn  tin cậy  tin cậy  44.8 49.8 44.4 49.4 44.0 49.0 44.9 49.9 30.5 35.3 36.4 41.4 33.7 38.5 48.1 53.1 34.4 39.2 32.3 37.1 37.4 42.2 37.1 42.1 35.9 40.9 60 60.0 50 50.0 40 40.0 30 30.0 20 20.0 10 10.0 0.0 Quaû ng Binh nam Đà Đònh nẵ ng Ninh Đắ c Lắ c TP Hồ Sô ng Thuậ n Chí Bé Minh Đồ ng Nai Đồ ng Thá p An Bế n Tre Giang Cầ n Thơ Só c Tră ng Hình Tỉ lệ suy dinh dưỡng ở 13 tỉnh thành phía Nam năm 1994 và khoảng tin cậy Minh Hả i ... ­ Nếu chúng  rất may mắn, tỉ lệ suy dinh dưỡng mẫu,  kí hiệu là p, sẽ  bằng với tỉ lệ suy dinh dưỡng của dân số đích π. Tuy nhiên thơng thường chúng ta khơng may mắn  như v y và tỉ lệ của mẫu sẽ dao động (phân tán) chung quanh giá trị của dân số đich. ... 1. Tính tỉ lệ suy dinh dưỡng ở mỗi tỉnh 2. Tính khoảng tin c y 95% cho tỉ lệ suy dinh dưỡng ở mỗi tỉnh 3. Vẽ biểu đồ tất cả các tỉ lệ suy dinh dưỡng và khoảng tin c y theo cách thích hợp 4. Lí giải thống kê các kết luận... 8.Giải thích tại sao có sự khác biệt địa lí về tỉ lệ suy dinh dưỡng Bài giải 1. Tỉ lệ suy dinh dưỡng, khoảng tin c y của tỉ lệ suy dinh dưỡng ở 13 tỉnh phía Nam Tỉnh Số trẻ Quảng nam Ðà nẵng 1503 Binh Ðịnh

Ngày đăng: 21/01/2020, 03:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w