Trong thống kê, một ƣớc lƣợng là một giá trị đƣợc tính toán từ một mẫu thử và ngƣời ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định trong dân số. Khi
38 43 48 53 58 63 68 . . . . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . 0 . . . . . 38 43 48 53 58 63 68 . . . . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . 0 . . . . .
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
nghiên cứu điều tra chọn mẫu, qua mẫu đó ngƣời ta nghiên cứu để tính quy luật và trạng thái của tổng thể chung chứa nó, tức là dựa vào trung bình, phƣơng sai, tỷ lệ của mẫu để suy ra trung bình, phƣơng sai, tỷ lệ của tông thể chung chƣa biết.
2.3.2. Ước lượng một trung bình quần thể trong trường hợp mẫu lớn
Đối với các mẫu có cỡ đủ lớn thì phân bố lấy mẫu của trung bình mẫu x có dạng gần chuẩn.
Giả sử chúng ta lấy một mẫu ngẫu nhiên gồm n quan sát đƣợc chọn từ một quần thể có phân phối chuẩn với trung bình μ chƣa biết và phƣơng sai σ2
đã biết. Trung bình mẫu có phân phối chuẩn x ~ (μ,
2 n
). Với độ tin cậy 1 – α đã biết, ta có khoảng tin cậy (1 – α)100% với mẫu lớn cho trung bình của tổng thể μ là:
x Zα/2σx = x Zα/2 n Trong đó:
σ: độ lệch chuẩn của quần thể đƣợc rút mẫu. Đối với các mẫu lớn độ lệch chuẩn mẫu s cho chúng ta một xấp xỉ tốt đối với σ và nó có thể đƣợc sử dụng để thay thế trong công thức tính khoảng tin cậy.
n: cỡ của mẫu, x: giá trị trung bình mẫu. n
: độ lệch chuẩn của phân bố lấy mẫu của x (hay sai số chuẩn của x) Zα/2: giá trị Z xác định một miền đuôi phải có diện tích bằng α/2.
Nói cách khác ta sẽ xây dựng một khoảng có độ rộng bằng Zα/2 lần độ lệch chuẩn xung quanh trung bình mẫu x.
Khoảng x Zα/2 n
đƣợc gọi là khoảng tin cậy của mẫu lớn cho trung bình
quần thể μ.
Trong thực tế ta thƣờng không biết giá trị đúng của μ và cũng không thực hiện lặp đi lặp lại nhiều lần việc lấy mẫu nhƣ vậy mà ta chỉ cần chọn một mẫu và xây dựng khoảng tin cậy 95% dựa vào mẫu đã chọn. Khoảng tin cậy mà chúng ta
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
dựng đƣợc có thể chứa hoặc không chứa μ nhƣng ta có thể hoàn toàn tin rằng nó chứa vì quá trình xây dựng khoảng của ta có đủ cơ sở để tin tƣởng [3].
Bảng 2.7. Các hệ số tin cậy hay đƣợc sử dụng
1 - α α/2 Zα/2
0.90 0.050 1.645
0.95 0.025 1.960
0.98 0.010 2.330
0.99 0.005 2.58
2.3.3. Ước lượng một trung bình quần thể trong trường hợp mẫu nhỏ
Với các mẫu nhỏ chúng ta cần lƣu ý hai vấn đề:
- Phân bố lấy mẫu của x phụ thuộc vào hình dạng của phân bố tần suất tƣơng đối của quần thể đƣợc rút mẫu.
- Độ lệch chuẩn mẫu s có thể không xấp xỉ thỏa đáng độ lệch chuẩn quần thể σ khi cỡ của mẫu bé.
Để ƣớc lƣợng dựa trên mẫu nhỏ ta giả thiết rằng quần thể rút mẫu có phân bố xấp xỉ dạng chuẩn. Nếu giả thiết này chắc chắn thì ta có thể sử dụng x nhƣ một ƣớc lƣợng điểm cho μ và dạng tổng quát của một khoảng tin cậy dựa trên mẫu nhỏ đối với μ đƣợc định nghĩa nhƣ sau: x tα/2 s
n
trong đó phân bố của t dựa trên (n – 1) bậc tự do.
Phân bố lấy mẫu mà ta dựa vào để xây dựng khoảng tin cậy này là một phân bố cố dạng tƣơng tự nhƣ phân bố chuẩn (rộng và thấp hơn) gọi là phân bố student.
Phân bố t cũng có dạng đối xứng nhƣ phân bố chuẩn nhƣng nó phụ thuộc vào một đại lƣợng đƣợc gọi là bậc tự do. Đại lƣợng này bằng (n – 1) khi ta ƣớc lƣợng một trung bình quần thể dựa trên một mẫu nhỏ có cỡ là n [3].
2.3.4. Ước lượng tỷ lệ của một quần thể
Trong thực tế nhiều khi ta quan tâm đến tỷ lệ các phần tử của một quần thể có một đặc tính nào đó, tức là ta có nhu cầu ƣớc lƣợng tỷ lệ p của quần thể.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Về mặt logic chúng ta có thể sử dụng tỷ lệ của số các quan sát trong mẫu có đặc tính cần nghiên cứu làm một ƣớc lƣợng điểm cho tỷ lệ quần thể p, ta gọi tỷ lệ mẫu này là pˆ .
Với n khá lớn, pˆ ~ N(p, pq
n ), cho 1 – α tìm đƣợc Zα/2.
Đối với mẫu đủ lớn thì phân bố lấy mẫu của p^ có dạng xấp xỉ dạng chuẩn với - Trung bình: pˆ = p
- Độ lệch chuẩn: pˆ - pq
n trong đó q = p – 1
Khoảng tin cậy mẫu lớn cho một tỷ lệ quần thể p là: pˆ Zα/2 pˆ hay pˆ Zα/2 pqˆ ˆ n Trong đó:
ˆ
p: tỷ lệ mẫu của các quan sát với đặc tính cần nghiên cứu ˆ
q = 1 - pˆ [3]
2.3.5. Ước lượng sự khác nhau giữa hai trung bình quần thể
Kỹ thuật ƣớc lƣợng sự khác nhau giữa hai trung bình quần thể là sự mở rộng của kỹ thuật ƣớc lƣợng trung bình quần thể đơn dựa trên mẫu lớn.
2.3.5.1. Ước lượng sự khác nhau giữa hai trung bình quần thể dựa trên mẫu lớn
Đối với các cỡ mẫu đủ lớn (n1 và n2 ≥ 30) thì phân bố lấy mẫu của (x1 - x2) dựa trên các mẫu ngẫu nhiên độc lập đƣợc rút ra từ hai quần thể sẽ có dạng xấp xỉ dạng chuẩn với - Trung bình: 1 2 (x x) = (μ1 – μ2) - Độ lệch chuẩn: 1 2 (x x) = 2 2 1 2 1 2 n n
Giống nhƣ khi ƣớc lƣợng mẫu lớn cho trung bình của một quần thể, ta có thể áp dụng định lý giới hạn trung tâm để thu đƣợc phân bố lấy mẫu của (x1x2) đồng thời cho phép sử dụng 2
1
s và 2 2
s nhƣ các xấp xỉ của các phƣơng sai quần thể 2 1 và 2
2 Khoảng tin cậy (1 – α) 100% mẫu lớn cho (μ1 – μ2) là:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn (x1x2) Zα/2 1 2 (x x) = (x1x2) Zα/2 2 2 1 2 1 2 n n (x1x2) Zα/2 2 2 1 2 1 2 s s n n [3]
2.3.5.2. Ước lượng sự khác nhau giữa hai trung bình quần thể dựa trên mẫu nhỏ
Đối với các cỡ mẫu nhỏ, cả hai quần thể rút mẫu đều phải có các phân bố tần suất tƣơng đối xấp xỉ dạng chuẩn, các phƣơng sai σ12
và σ22 của hai quần thể là bằng nhau và các mẫu ngẫu nhiên đƣợc chọn một cách độc lập từ hai quần thể.
Khoảng tin cậy (1 – α) 100% dựa trên các mẫu nhỏ cho (μ1 – μ2): (x1x2) tα/2 2 1 2 1 1 p s n n trong đó sp2 = 2 2 1 1 2 2 1 2 ( 1) ( 1) 2 n s n s n n và giá trị tα/2 đƣợc tính với (n1 + n2 - 2) bậc tự do [3].
2.3.6. Ước lượng sự khác nhau giữa hai tỷ lệ quần thể
Để đánh giá độ tin cậy của ƣớc lƣợng điểm ( pˆ1 - pˆ2) ta cần biết các đặc tính của phân bố lấy mẫu độc lập của nó từ hai quần thể.
Phân bố lấy mẫu của ( pˆ1 - pˆ2): nếu các cỡ mẫu n1 và n2 đủ lớn thì phân bố lấy mẫu của (pˆ1 - pˆ2) dựa trên các mẫu ngẫu nhiên độc lập đƣợc rút ra từ hai quần thể có dạng xấp xỉ chuẩn với - Trung bình: 1 2 ˆ ˆ (p p ) = (pˆ1 - pˆ2) - Độ lệch chuẩn: 1 2 ˆ ˆ (p p ) = 1 1 2 2 1 2 p q p q n n trong đó q1 = 1 – p1; q2 = 1 – p2
Từ đó có thể tính khoảng tin cậy (1 - α) 100% dựa trên mẫu lớn cho (p^1 - ^ 2 p ) ( pˆ1 - pˆ2) Zα/2 1 2 ˆ ˆ (p p ) (pˆ1 - pˆ2) Zα/2 1 1 2 2 1 2 ˆ ˆ ˆ ˆ p q p q n n
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Các mẫu phải đủ lớn để việc xấp xỉ là hợp lê. Chúng ta cần đảm bảo rằng các khoảng pˆ1 2 1 1 1 ˆ ˆ p q n và pˆ2 2 2 2 ˆ ˆ p q
n không chứa 0 hoặc 1 [3].
2.3.7. Ước lượng một phương sai quần thể
Ta có thể sử dụng phƣơng sai mẫu s2
để làm ƣớc lƣợng điểm cho σ2 và xây dựng một khoảng tin cậy xung quanh giá trị này. Tuy nhiên không giống nhƣ các trung bình và các tỷ lệ mẫu, phân bố lấy mẫu của phƣơng sai mẫu không có các đặc trƣng của phân bố chuẩn (z) hay phân bố student (t). Trong trƣờng hợp này, nếu một số giả thuyết nhất định đƣợc thỏa mãn thì phân bố lấy mẫu của s2
có tính chất gần nhƣ của một phân bố chi bình phƣơng (2). Giống nhƣ phân bố t, phân bố xác suất chi bình phƣơng đƣợc đặc trƣng bởi một đại lƣợng gọi là bậc tự do liên kết với phân bố này. Không giống nhƣ phân bố z và t, phân bố chi bình phƣơng không đối xứng qua 0.
Một khoảng tin cậy (1 - ) 100% cho một phƣơng sai 2 : 2 2 2 2 2 / 2 (1 / 2) (n 1)s (n 1)s trong đó 2 1/2 và 2 /2
là các giá trị của 2 cắt lại một diện tích bằng /2 tại đuôi phải và một diện tích bằng /2 tại đuôi trái của một phân bố chi bình phƣơng dựa trên (n – 1) bậc tự do với giả thuyết quần thể mà từ đó mẫu đƣợc chọn có dạng xấp xỉ chuẩn [3].
2.3.8. Chọn cỡ của mẫu
Trƣớc khi xây dựng một khoảng tin cậy cho một tham số nào đó ta phải quyết định về số lƣợng các quan sát cần phải chọn làm mẫu. Để trả lời câu hỏi cần chọn bao nhiêu quan sát ta cần phải xác định độ rộng của một khoảng tin cậy mà chúng ta muốn có để có thể chấp nhận và tin tƣởng đƣợc.
Chọn cỡ mẫu để ƣớc lƣợng một trung bình quần thể sai lệch d đơn vị với xác suất bằng (1 - ): n = 2 / 2 Z d
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Chú ý: Độ lệch chuẩn quần thể sẽ phải tính gần đúng
Chọn cỡ mẫu để ƣớc lƣợng một tỷ lệ quần thể p sai khác d đơn vị với xác suất bằng (1 - ): n = 2 / 2 Z pq d
trong đó p là giá trị của tỷ lệ quần thể cần tính toán và q = 1 - p
Chú ý: Phải tính ƣớc lƣợng p và q trƣớc. Nếu không thể có đƣợc các giá trị này thì có thể sử dụng p = q = 0.5 để chọn tạm n [3].
2.4. Kiểm định giả thuyết
2.4.1. Hình thành các giả thuyết
Trong thực tế ngƣời ta rất muốn biết liệu một đặc tính nào đó của một quần thể có lớn hơn một giá trị nhất định nào không, hoặc liệu một giá trị của một tham số nào đó mà ta nhận đƣợc có bé hơn một giá trị giả định hay không.
Khi muốn đặt ra một phép thử cho một lý thuyết mới, chúng ta phải hình thành một giả định hay một tiêu chuẩn mà chúng ta tin rằng nó sẽ đúng. Giả thuyết mà chúng ta định đặt ra là một giả thuyết thay thế. Đi đôi với giả thuyết thay thế là giả thuyết gốc hay giả thuyết đối lập với giả thuyết thay thế. Các giả thuyết gốc và giả thuyết thay thế mô tả hai trạng thái tự nhiên có thể có nhƣng không thể đồng thời xảy ra. Khi một ngƣời nghiên cứu bắt đầu thu thập thông tin về một hiện tƣợng mà ngƣời đó quan tâm thì họ sẽ cố gắng đƣa ra các luận chứng ủng hộ cho giả thuyết thay thế. Phƣơng pháp sau là một phƣơng pháp gián tiếp để nhận đƣợc kết luận nghiêng về giả thuyết thay thế, tức là thay vì cố chứng minh giả thuyết gốc là đúng chúng ta sẽ đƣa ra các dấu hiệu chứng tỏ giả thuyết gốc là sai.
Một giả thuyết thống kê là một kết luận về giá trị của một tham số quần thể. Giả thuyết đối lập với giả thuyết mà ta hy vọng có thể là đúng đƣợc gọi là giả thuyết gốc hay giả thuyết không (ký hiệu H0).
Giả thuyết mà ta mong muốn có thể chứng minh đƣợc là đúng đƣợc gọi là giả thuyết thay thế (ký hiệu Ha).
Các nhà nghiên cứu thƣờng rất hay đƣa ra một giả thuyết không với hy vọng họ có thể loại bỏ nó.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Một giả thuyết thay thế có thể giả định về sự thay đổi của H0 theo một hƣớng hoặc nhiều khi là một thay đổi không xác định hƣớng. Một kiểm định trong đó giả thuyết thay thế là có hƣớng đƣợc gọi là một kiểm định giả thuyết một phía. Một kiểm định trong đó giả thuyết thay thế không đƣợc xác định sẽ đi theo hƣớng nào tính từ H0 gọi là một kiểm định giả thuyết hai chiều [3].
2.4.2. Các kết luận và kết quả có được từ việc kiểm định giả thuyết
Mục đích của việc kiểm định giả thuyết là đƣa ra một quyết định liệu có thể loại bỏ H0 và nghiêng về Ha không. Mặc dù luôn mong rằng có thể đƣa ra đƣợc một kết luận đúng đắn nhƣng quyết định này sẽ phải dựa trên các thông tin mẫu vì vậy chúng ta dễ mắc phải một trong hai loại sai lầm sau:
- Một sai lầm loại I xảy ra nếu chúng ta loại bỏ một giả thuyết không khi nó đúng. Xác suất mắc một sai lầm loại I thƣờng đƣợc ký hiệu là .
- Một sai lầm loại II xảy ra nếu chúng ta không loại bỏ một giả thuyết không khi nó sai. Xác suất mắc một sai lầm loại I thƣờng đƣợc ký hiệu là .
Giả thuyết không có thể là đúng hoặc sai vì vậy chúng ta sẽ đƣa ra một quyết định chấp nhận hoặc bác bỏ nó. Nhƣ vậy có bốn tình huống xảy ra khi kiểm định một giả thuyết.
Thực chất Giả thuyết không đúng
(Ha sai)
Giả thuyết không sai (Ha đúng) Quyết
định
Không bác bỏ H0 Quyết định đúng Sai lầm loại II Bác bỏ H0 Sai lầm loại I Quyết định đúng Nguy cơ bị mắc sai lầm loại I chỉ có khi H0 bị bác bỏ, nguy cơ bị mắc một sai lầm loại II chỉ có khi H0 không bị bác bỏ. Vì vậy chúng ta có thể không mắc sai lầm hoặc có thể mắc hoặc là sai lầm loại I (với xác suất α) hoặc sai lầm loại II (với xác suất β) nhƣng không bao giờ mắc cả hai. Khi α tăng thì β giảm và ngƣợc lại. Cách duy nhất để giảm α và β một cách đồng thời là làm tăng lƣợng thông tin có thể có trong mẫu, tức là tăng kích thƣớc của mẫu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Xác suất mắc sai lầm loại I có thể kiểm soát đƣợc nên nó thƣờng đƣợc lấy làm độ đo về mức độ tin cậy của kết luận.
Quy trình xác định các giả thuyết và hình thành các kết luận:
1. Xác định giả thuyết mà ta muốn chứng minh là giả thuyết thay thế. 2. Giả thuyết không H0 sẽ là đối thuyết của Ha và chứa dấu bằng.
3. Nếu thông tin của mẫu nghiêng về giả thuyết thay thế thì ta sẽ loại bỏ H0 và xác suất để mắc sai lầm khi H0 đúng là α, một đại lƣợng mà ta có thể cho một giá trị nhỏ tùy ý.
4. Nếu mẫu không có đủ căn cứ để chấp nhận Ha thì kết luận rằng giả thuyết H0 không bị bác bỏ dựa trên mẫu đang xét. Trong trƣờng hợp này, chúng ta có thể phải thu thập thêm thông tin về hiện tƣợng này để nghiên cứu [3].
2.4.3. Các thống kê kiểm định và các miền bác bỏ
Khi tiến hành một suy luận thống kê chúng ta phải thu thập thông tin từ một mẫu đƣợc rút ngẫu nhiên trong một quần thể mà ta quan tâm. Trong tất cả các ứng