Bài giảng giúp người học có thể nhận thức được sự biến thiên của trung bình mẫu mẫu, trình bày được các tính chất của phân phối bình thường và so sánh phân phối bình thường với phân phối t, trình bày công thức ước lượng khoảng tin cậy của trung bình theo phương pháp z và phương pháp t,... Mời các bạn cùng tham khảo
SỰ BIẾN THIÊN CỦA TRUNG BÌNH KIỂM ÐỊNH TTEST BẮT CẶP Mục tiêu Sau khi nghiên cứu chủ đề học viên có khả năng: Nhận thức được sự biến thiên của trung bình mẫu mẫu Trình bày được các tính chất của phân phối bình thường và so sánh phân phối bình thường với phân phối t Trình bày cơng thức ước lượng khoảng tin cậy của trung bình theo phương pháp z và phương pháp t Trình bày được cơng thức kiểm định một trung bình theo phép kiểm z và phép kiểm t Trình bày khái niệm bắt cặp trong nghiên cứu và thực hiện phép kiểm t bắt cặp Giới thiệu Trong hai bài qua,chúng ta đã nghiên cứu phương pháp suy luận thống kê về tỉ lệ dựa trên số liệu thu thập từ các mẫu ngẫu nhiên. Phương pháp thống kê cho tỉ lệ thích hợp cho phân tích biến số nhị giá. Chúng cũng có thể được sử dụng cho các biến số kết quả là định lượng bằng cách xác định một ngưỡng và tính tỉ lệ đối tượng có giá trị lớn hơn (hay nhỏ hơn) giá trị ngưỡng đó. Mặc dù sử dụng phương pháp này là hợp lệ, nó khơng sử dụng được đầy đủ các thơng tin có được về sự phân phối của các giá trị và hơn nữa việc đặt ra ngưỡng có thể là tùy tiện Chúng ta đã biết phân phối của số liệu định lượng có thể được tóm tắt bằng cách tính tốn trung bình và độ lệch chuẩn. Hai con số này cho thơng tin về tỉ lệ các đối tượng có giá trị lớn hơn (hay nhỏ hơn) giá trị ngưỡng. Trong bài này và bài kế tiếp chúng ta sẽ thảo luận phương pháp rút ra các kết luận về trung bình của biến số định tính Trong phần này chúng ta sẽ xem xét một tình huống đơn giản nhất trong đó một mẫu ngẫu nhiên đơn được rút ra từ một dân số xác định và chúng ta muốn kết luận về trung bình thực sự của dân số dựa trên số liệu của mẫu. Ðặc biệt chúng ta sẽ quan tâm đến: 1. Gắn khoảng tin cậy cho trung bình của mẫu 2. Kiểm định xem trung bình thực sự có bằng với một giá trị cho trước hay khơng 3. Áp dụng những phương pháp này cho số liệu bắt cặp Kí hiệu Chúng ta kí hiệu trung bình và độ lệch chuẩn của biến số x trong dân số đích được kí hiệu bằng µ và σ. Ðối với một dân số đích xác định thì trung bình µ và độ lệch chuẩn σ của dân số là khơng đổi Nếu chúng ta nghiên cứu n đối tượng được chọn ngẫu nhiên trong dân số đó và tính trung bình x và độ lệch chuẩn s của mẫu nghiên cứu này. Nếu chúng ta tiến hành chọn nhiều mẫu khác nhau, chúng ta sẽ ghi nhận được các giá trị trung bình x và độ lệch chuẩn s khác nhau Dân số Mẫu Trung bình µ x Ðộ lệch chuẩn σ s Biến thiên mẫu Chúng ta có dân số đích gồm 250 người có phân phối của huyết áp tâm trương như trong hình a với trung bình µ= 78,2 mmgHg và độ lệch chuẩn σ=9,4mmHg Tần suất (a) Phân phối của huyết áp tâm trương trong dân số gồm 250 người { =78,2 mmgHg, =9,4mmHg} 28 24 20 16 12 100 70 50 Huye át áp tâm trư ng (mmHg ) Tàn suất (b) Phân phối lấy mãu cho 30 trung bình mẫu , cỡ mẫu = 10 {trung bình (trung bình mẫu)=78,23 mmHg, s.d.(trung bình mẫu)=3,01 mmgHg, s.e. (lí thuyết)=9,4/=2,97} 10 100 70 50 Huyết áp tâm trư ng (mmHg ) tần suất (c) Phân phối lấy mẫu cho 30 trung bình mẫu, cỡ mẫu = 20 { =78,2 =trung bình mẫu)=78,14 mmHg, s.d.(trung bình mẫu)=2,07 mmgHg, s.e. (lý thuyết)=9,4/=2,10} 12 10 100 70 50 Huyết áp tâm trư ng (m mHg ) Một chương trình máy tính được sử dụng để rút ngẫu nhiên ra mỗi lần số liệu huyết áp tâm trương của 10 người và tính trung bình mẫu x của huyết áp tâm trương. Lập lại 30 mẫu (với cỡ mẫu là 10) chúng ta có phân phối của x được biểu diễn trên hình b. Chương trình này lại được sử dụng để tính x của 30 mẫu với cỡ mẫu là 20. Phân phối của 30 x này được biểu diễn trên hình c Từ phân phối này chúng ta có nhận xét: 1. Giá trị x và s thay đổi từ mẫu này sang mẫu khác 2. Giá trị x phân bố đối xứng chung quanh giá trị trung bình dân số µ 3. Giá trị x tập trung chung quanh giá trị µ. Nói cách khác giá trị gần µ sẽ xuất hiện nhiều hơn các giá trị xa µ Sự phân phối của x (như trong hình b và c) được gọi là phân phối mẫu của trung bình. Ðộ rộng của phân phối nói lên tính biến thiên của x chung quanh giá trị µ.Có thể chứng minh bằng tốn rằng độ lệch chuẩn của x bằng độ lệch chuẩn dân số chia cho căn của cỡ mẫu. Ðộ lệch chuẩn của x còn được gọi là sai số chuẩn của x và được kí hiệu là S.E. của x S E củax / n Viết theo ngơn ngữ của tốn học hình thức X~N(µ,σ2) => X ~ N (µ,) Nên lưu ý rằng σ thể hiện sự biến thiên của giá trị của từng cá thể trong dân số, trong khi đó sai số chuẩn σ/√n đo lường sự biến thiên của trung bình mẫu x. Ước lượng khoảng tin cậy trung bình Chúng ta có thể sử dụng tính chất phân phối tiệm cận bình thường của trung bình mẫu x để kết luận về trung bình của dân số µ. Chúng ta biết rằng 95% các trường hợp x nằm cách µ khơng q 1,96 độ lệch chuẩn của x, vì vậy trong 95% các trường hợp µ nằm trong khoảng x ± 1,96 x S.E. Khoảng giá trị này (x ± 1,96 x S.E) được gọi là khoảng tin cậy 95%. Tương tự như vậy khoảng tin cậy 99% là x ± 2,58 x S.E Tiến hành đo đạc hemoglobin của 25 phụ nữ được chọn một cách ngẫu nhiên trong dân số đích ta có trung bình và độ lệch chuẩn của biến số hemoglobin là 11,50 và 0,84. Tính khoảng tin cậy 95% của trung bình hemoglobin ở dân số đích Trung bình hemoglobin ở mẫu = 11,50 Ðộ sai lệch tối đa của trung bình mẫu so với trung bình dân số 1,96 Độlệchchuẩn 1,96 0,84 0,33 n 25 Như vậy trung bình của hemoglobin dân số đích (chính xác hơn, khoảng tin cậy 95% của trung bình của hemoglobin ở dân số đích) sẽ nằm trong khoảng: (11,50 – 0,33 ; 11,50 + 0,33) = (11,17 ; 11,83) Sử dụng phân phối t Chúng ta biết khoảng tin cậy 95% của trung bình được tính bằng x ± 1,96 x σ/√n. Tuy nhiên trên thực tế chúng ta khơng biết được σ mà chỉ biết được s và dùng s để ước lượng cho σ. Nhưng khi đó chúng ta bị mắc thêm một sai số khác nữa, vì vậy trên thực tế khoảng x ± 1,96 x s/√n chứa ( trong ít hơn 95% các trường hợp và điều này có nghĩa là để có khoảng tin cậy 95% cần phải nhân SE với một thừa số mà thừa số này lớn hơn 1,96. Thừa số này có thể có tìm thấy trong bảng phân phối t. Ðể có thừa số cho khoảng tin cậy 95% người ta đọc bảng t với giá trị p hai đi = 0,05 và độ tự do nhỏ hơn cỡ mẫu một đơn vị. Trong trường hợp cỡ mẫu bằng 25 thì độ tự do bằng 25 1 = 24 Áp cụng cho thí dụ mẫu gồm 25 giá trị hemoglobin của phụ nữ, chúng ta tra bảng t với 25 độ tự do và với p hai đi = 0,05 chúng ta có thừa số 2,064 và độ sai lệch là 2,064 Độlệchchuẩn 2,064 0,84 0,35 n 25 và khoảng tin cậy 95% sẽ là: (11,50 – 0,35 ; 11,50 + 0,35) = (11,15 ; 11,85) Chúng ta có thể nhận xét rằng trong trường hợp khoảng tin cậy sử dụng phân phối t khác khoảng tin cậy sử dụng phân phối bình thường khơng đáng kể. Nói chung 2 khoảng tin cậy này là xấp xỉ bằng nhau khi cỡ mẫu đủ lớn (trên 30) và chỉ khác nhau nhiều với cỡ mẫu nhỏ Kiểm định giả thuyết cho trung bình Ðơi khi chúng ta muốn kiểm định một giả thuyết đặc hiệu về trung bình của dân số µ. Thí dụ nồng độ hemoglobin ở người phụ nữ khỏe mạnh là 12 g/100ml. Chúng ta tiến hành đo đạc hemoglobin của 25 phụ nữ được chọn một cách ngẫu nhiên ở một xã ta có trung bình và độ lệch chuẩn của biến số hemoglobin là 11,50 và 0,84. Chúng ta muốn xem số liệu của chúng ta có phù hợp với giả thuyết trung bình hemoglobin của dân số xã này là 12 g/100 ml hay khơng hay ngược lại, số liệu này cho bằng chứng rằng hemoglobin ở phụ nữ xã này thấp hơn 12 g/100ml Một cách để trả lời câu hỏi này chúng ta có thể xem khoảng tin cậy 95% có bao gồm giá trị giả thuyết là 12g/100 ml hay khơng. Từ kết quả đã trình bày ở trên, chúng ta có thể thấy rằng khoảng tin cậy 95% của trung bình là 11,15 đến 11,85 khơng chứa giá trị giả thuyết nên chúng ta nói rằng số liệu khơng phù hợp với giả thuyết trung bình hemoglobin là 12 g/100ml. Vì vậy chúng ta bác bỏ giả thuyết này Tuy nhiên giải pháp nêu chỉ giúp chúng ta bác bỏ giả thuyết nhưng khơng cho chúng ta định lượng được mức độ phù hợp (hay khơng phù hợp) của số liệu so với giả thuyết Ðể có một đo lường định lượng, chúng ta có thể sử dụng kiểm định ý nghĩa và xem xét giá trị p (pvalue) Các bước để kiểm định giả thuyết bao gồm: Khẳng định giả thuyết Ho: nồng độ hemoglobin của phụ nữ xã này là 12 g/100ml Lựa chọn kiểm định phù hợp: Trong trường hợp này kiểm định phù hợp là kiểm định t một mẫu. Nghĩa nếu giả thuyết Ho đúng thì trung bình nồng độ hemoglobin của mẫu sẽ có phân phối t với trung bình là 12, sai số chuẩn của mẫu bằng 0,84/ √25 = 0,168 và độ tự do là 251 = 24 Tính giá trị phân phối t nếu giả thuyết Ho đúng. Trong trường hợp này phân phối t sẽ bằng: xx11,5 12 0,5 t 2,98 SE / n 0,84 / 25 0,168 Tính p=xác suất xẩy ra t=2,98 dựa trên bảng phân phối t với 24 độ tự do. Tra bảng chúng ta biết p>0,005 và p