CHƯƠNG 7: KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ Trong thực tế ta thường gặp vấn đề: phải kiểm tra xem 1 điều gì đó đúng hay sai, nội dung thông tin mà ta nhận được từ các nguồn cung cấp 1 người,
Trang 1CHƯƠNG 7:
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
Trong thực tế ta thường gặp vấn đề: phải kiểm tra xem 1 điều gì đó đúng hay sai, nội dung thông tin mà ta nhận được từ các nguồn cung cấp (1 người, 1 cơ quan, 1 tờ báo, 1 tổ chức, ) có đáng tin cậy không.
Công việc kiểm tra lại nội dung thông tin mà ta nhận được xem có đáng tin cậy không chính là bài toán kiểm định.
2
Thí dụ 1: Một tổ chức cho rằng chiều cao trung bình hiện nay của thanh niên VN là 1.65m Hãy lập giả thiết để kiểm chứng kết quả này?
HD:
H0:=1.65
H1:≠1.65
: chiều cao TB thực tế của thanh niên hiện nay
0= 1.65: chiều cao TB của thanh niên hiện nay theo
lời tổ chức này
H0gọi là giả thiết thống kê (giả thiết không)
H1gọi là giả thiết đối
3
Ta tiến hành kiểm định (kiểm tra) như sau:
Thu thập số liệu thực tế (lấy mẫu): đo chiều cao của khoảng 1 triệu người
Dùng 1 quy tắc kiểm định tương ứng với giả thiết đang xét (kiểm định giá trị trung bình) để quyết định: chấp nhận hay bác bỏ H0
Chấp nhận H0: tổ chức này báo cáo đúng Con số 1.65m là đáng tin cậy
Bác bỏ H0: tổ chức này báo cáo sai
4
Thí dụ 2: Một học viên luyện thi cao học cho rằng tỷ lệ học viên thi đạt môn XSTK là 50% Hãy lập giả thiết thống kê để kiểm chứng điều này?
HD:
H0: p=0.5
H1: p≠0.5
p: tỷ lệ học viên thực tế thi đạt môn XSTK
p0= 0.5 : tỷ lệ học viên thi đạt môn XSTK theo lời
người này
Trang 2Thí dụ 3: Một cô gái được cho là thùy mị, nết na, đằm thắm, dịu dàng, ngăn nắp, chu đáo, …nói chung là hết…
ý! Và ta muốn để ý!
Ta phải kiểm tra điều này! Tuy nhiên ta sẽ không quyết định được lập giả thiết thống kê như thế nào, bởi
vì sai lầm nào cũng đau khổ cả! Và ta không thể tự
mìnhtiến hành kiểm định được!
Bài toán loại này ta không thể xét được, bởi vì không có quy tắc quyết định chung Ctmb quyết định như thế nào!
6
Để xét xem chấp nhận hay bác bỏ H0 thì ta phải lấy mẫu, và đưa ra quyết định dựa trên mẫu Trong quá trình làm, có 4 trường hợp sau:
Quyết định Chủ quan
Thực tế khách quan
H 0 sai H 0 đúng
H0đúng Sai lầm loại 1 Đúng
P(sll1)= P(bác bỏ H0/H0đúng) , P(sll2)= P(chấp nhận H0/H0 sai)
7
Ta không thể làm giảm P(sll1) và P(sll2) xuống cùng
lúc được (cỡ mẫu cố định), nếu làm giảm P(sll1) thì
sẽ làm tăng P(sll2), và ngược lại Chỉ có thể làm
giảm cả P(sll1) và P(sll2) cùng lúc bằng cách tăng cỡ
mẫulên
Về mặt khách quan thì cả 2 loại sai lầm đều nguy hiểm, tuy nhiên về mặt chủ quan thì ta coi sai lầm
loại 1 là nguy hiểm hơn sai lầm loại 2 Do đó người
ta lập giả thiết sao cho sai lầm loại 1 là nguy hiểm hơn
8
VD1:Một người bị nghi ngờ là ăn trộm
Ta lập giả thiết:
H0: người này là vô tội H1: người này là có tội
(Trong xã hội văn minh, dân chủ thì luôn mong muốn điều tốt đẹp xãy ra!)
Công an đi thu thập chứng cớ để bác bỏ H0, nếu có đủ chứng cớ thì kết luận người này có tội (bác bỏ H0), nếu không đủ chứng cớ thì vẫn phải kết luận người này vô tội (chấp nhận H0)
Trang 3Ta có 2 loại sai lầm sau:
Trong thực tế người này vô tội, nhưng do sự tắc trách của CA hoặc do bị hãm hại mà người này bị kết luận là có tội BẮT OAN (sll1)
Trong thực tế người này có tội, nhưng do là SIÊU TRỘM nên CA không tìm được chứng cớ nên phải thả ra THẢ LẦM (sll2)
Ta thấy BẮT OAN nguy hiểm hơn THẢ LẦM, nếu
có thả lầm thì ta hy vọng rằng “Lưới trời lồng lộng,
tuy thưa mà khó lọt, lọt lần này thì chưa chắc sẽ lọt
VD 2: Một người đi khám bệnh xem có bị ung thư phổi không, ta đặt giả thiết sau:
H0: người này có bệnh ung thư phổi
Ta có hai loại sai lầm tương ứng:
sai lầm loại I là người này có bệnh nhưng bác sĩ kết luận không có
sai lầm loại II là người này không có bệnh nhưng bác sĩ kết luận có
Ta thấy sai lầm loại I là nguy hiểm hơn
11
Do đó ta đưa ra quy tắc kiểm định sao cho:
P(sll1) <=, với là 1 con số cho trước, gọi là mức (có) ý nghĩa của kiểm định
P(sll2) bé nhất có thể được
12
CÁC DẠNG KIỂM ĐỊNH:
Kiểm định tham số
Kiểm định giá trị trung bình
Kiểm định tỷ lệ
Kiểm định phương sai
Kiểm định tham số có 2 dạng:
2 phía
1 phía (phải, trái)
Kiểm định phi tham số
Kiểm định quy luật phân phối xác suất Kiểm định tính độc lập của 2 dấu hiệu
Trang 4PHƯƠNG PHÁP KIỂM ĐỊNH
Phương pháp khoảng tin cậy
Phương pháp giá trị tới hạn
Phương pháp p-value
Ta chỉ học phương pháp giá trị tới hạn
14
PHẦN I: KIỂM ĐỊNH THAM SỐ
KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH
KIỂM ĐỊNH TỶ LỆ
KIỂM ĐỊNH PHƯƠNG SAI
15
1) KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH:
: trung bình đám đông
0: 1 con số cần kiểm định xem đúng hay sai
a) Kiểm định 2 phía
H0: =0 ; H1: 0
b) Kiểm định một phía
Phía phải: H0: =0 ; H1: >0
Phía trái: H0: =0 ; H1: <0
1 n 30 , biết 2:
x
|t| < t : chấp nhận H0
|t| t : bác bỏ H0 , chấp nhận H1
Trong trường hợp bác bỏ H0 : + Nếu x o thì > 0
+ Nếu x o thì < 0
Trang 5Nếu không biết 2
: thay bằng s s
n
x
t ( 0 )
|t| < t : chấp nhận H0
|t| t : bác bỏ H0 , chấp nhận H1
18
1 n < 30, biết 2(X có phân phối chuẩn)
x
t ( 0 )
|t| < t : chấp nhận H0
|t| t : bác bỏ H0
2 n < 30, không biết 2 (X có phân phối chuẩn)
s
n o x
t ( ) , t (n–1) (tra bảng H)
|t| < t(n–1) : chấp nhận H0
|t| t(n–1) : bác bỏ H0
19
Bài 1 : Giám đốc một xí nghiệp cho biết lương
trung bình của 1 công nhân thuộc xí nghiệp hiện nay là 600 ngàn đồng/tháng.
Chọn ngẫu nhiên 36 công nhân thấy lương trung bình là 520 ngàn đồng/tháng, với độ lệch chuẩn
= 40 ngàn đồng/tháng Lời báo cáo của giám đốc có tin cậy được không, với mức có ý nghĩa là = 5%.
20
Giả thiết H0: = 600 ; H1: 600
: là tiền lương trung bình thực sự của công nhân hiện nay
o= 600 : là tiền lương trung bình của công nhân theo lời giám đốc
x= 520 , n = 36 > 30 , = 40 , = 5%
= 5% = 1 – = 0,95 t= 1,96
40 36 ) 600 520 ( )
x o n
t
|t|= 12 > 1,96= t: bác bỏ H0 Kết luận : với mức ý nghĩa là 5%, không tin vào lời của giám đốc
Lương trung bình thực sự của công nhân bé hơn 600 ngàn đồng / tháng (do x520600o)
Trang 6Chú ý quan trọng:
Trước tiên phải đặt giả thiết thống kê rùi muốn làm
gì thì làm!
Nếu không đặt giả thiết thống kê mà có tính toán đúng thì cũng hổng được điểm
Tính toán, tra bảng đúng nhưng kết luận sai thì cũng hổng được điểm “Uổng ơi là uổng!”
22
Bài 3 :Một cửa hàng thực phẩm nhận thấy thời gian vừa qua
trung bình một khách hàng mua 25 ngàn đồng thực phẩm trong ngày Nay cửa hàng chọn ngẫu nhiên 15 khách hàng thấy trung bình một khách hàng mua 24 ngàn đồng trong ngà y và phương sai mẫu hiệu chỉnh là s2= (2 ngàn đồng)2.
Với mức ý nghĩa là 5% , thử xem có phải sức mua của khách hàng hiện nay có thay đổi so với trước đây.
23
Giải
Giả thiết H0: = 25 H1: 25
: là sức mua của khách hàng hiện nay
o= 25 : là sức mua của khách hàng trước đây
n = 15 ; x = 24 , s = 2 , = 5%
= 5% = 0,95
t(n–1) = t0,05(14) = 2,1448 (tra bảng H)
9364 , 1 2
15 ) 25 24 ( )
|t| =1,9364 < t(n– 1) = 2,1448 : Chấp nhận H0 Kết luận : với mức có ý nghĩa là 5%, sức mua của khách hàng hiện hay không thay đổi so với trước đây
24
Kiểm định về tỷ lệ: khi n 30
Giả thiết thống kê : H0: p = p0 Giả thiết đối : H1: p p0
) 0 1 ( 0
) 0 (
p p
n p f t
t (tra bảng G)
|t| t : bác bỏ H0
|t| < t : chấp nhận H0 Điều kiện áp dụng :
5 ) 0 1 (
5 0
p n
p n
Trong trường hợp bác bỏ H0 : + Nếu f > p0 thì p > p0 + Nếu f < p0 thì p < p0
Trang 7Lưu ý: cần nhớ kỹ cái gì?
Bài 4 : Theo một nguồn tin thì tỉ lệ hộ dân thích
xem dân ca trên Tivi là 80% Thăm dò 36 hộ dân thấy có 25 hộ thích xem dân ca.
Với mức có ý nghĩa là 5% Kiểm định xem nguồn tin này có đáng tin cậy không?
26
Giải
Giả thiết H0: p = 0,8 ; H1: p 0,8
p : là tỷ lệ hộ dân thực sự thích xem dân ca
po= 0,8 : là tỷ lệ hộ dân thích xem dân ca theo nguồn tin
n = 36 , f = 25/36= 0,69 , = 5%
= 5% = 1 – = 0,95 t= 1,96
65 , 1 8
, 0 2 , 0
36 ) 8 , 0 69 , 0 ( ) 1 (
)
o p o
n o f t
|t| = 1,65 < t= 1,96 : Chấp nhận H0
kết luận : với mức có ý nghĩa 5%, nguồn tin trên đáng tin cậy
27
Bài 5 : Một máy sản xuất tự động, lúc đầu tỷ lệ sản phẩm
loại A là 20% Sau khi áp dụng một phương pháp sản xuất mới, người ta lấy 40 mẫu, mỗi mẫu gồm 10 sản phẩm để kiểm tra Kết quả kiểm tra cho ở bảng sau :
Số sản phẩm loại A trong mẫu 1 2 3 4 5 6 7 8 9 10
Với mức ý nghĩa 5% Hãy cho kết luận về phương pháp sản
Giải
H0:p=20% ; H1:p 20% ; = 0,05 thì t= 1,96
Trong đó p là tỷ lệ sản phẩm loại A của máy sau khi áp dụng phương pháp sản xuất mới
Theo số liệu ở bảng trên thì tỷ lệ sản phẩm loại A của mẫu là
5375 , 0 400
9 1 8 5 7 4 6 10 5 8 4 6 3 4 1 2
f
) 2 , 0 1 ( 2 , 0
400 ) 2 , 0 5375 , 0
t
|t| = 16,875 > t= 1,96 : bác bỏ H0 Do f=0,5375>po=0,2 nên
ta kết luận pp sản xuất mới làm tăng tỷ lệ sản phẩm loại A
Trang 8Kiểm định phương sai
X có quy luật phân phối chuẩn X N(, 2) Giả thiết thống kê H0: 2= 2o ; H1: 2 2o
2
2 ) 1 ( 2
o
s n
Nếu 2 ( 1)
2
n
< 2 < 2 ( 1)
2
1 n
Nếu 2 ( 1)
2
n
> 2 , hoặc 2 ( 1)
2
1 n
< 2 : bác bỏ H0
Trong trường hợp bác bỏ H0: + Nếu s2> 2o thì 2> 2o
Bài 8: Nếu máy móc hoạt động bình thường thì
kích thước của một loại sản phẩm (cm) là đại lượng ngẫu nhiên phân phối theo quy luật chuẩn với phương sai 2=25 cm2 Nghi ngờ máy hoạt động không bình thường, người ta đo thử 20 sản phẩm và tính được s2= 27,5cm2.
Với = 0,02 , hãy kết luận về điều nghi ngờ này?
31
Giải:
H0: 2= 25 H1: 2 25
2: phương sai của kích thước sản phẩm hiện nay 25
2
0
: phương sai của kích thước sản phẩm khi máy hoạt động bình thường
Tra bảng I ta có 2 (19)
01 , 0
= 7,6327 ; 2 (19)
99 , 0
25 5 , 27 19 2 0
2 ) 1 (
) 19 ( 2 01 , 0
< 2< 2 (19)
99 , 0
: chấp nhận H0
SUẤT
Trang 9Trong thực tế ta thường gặp vấn đề là ta phải kiểm tra xem một đại lượng ngẫu nhiên đang xét có một quy luật phân phối nào đó không VD như chiều cao của một loại cây có quy luật phân phối chuẩn không?
Trọng lượng một loại sản phẩm có quy luật phân phối chuẩn?
34
PHẦN II.1: KIỂM ĐỊNH QUY LUẬT PHÂN PHỐI XÁC SUẤT
TIÊU CHUẨN K.PEARSON ( TIÊU CHUẨN 2 )
Cho bảng tần số của ĐLNN X :
Tần số n1 n2 nk
ni: tần số quan sát (tần số thực nghiệm)
n = n1+ n2+…+ nk : cỡ mẫu
Lập giả thiết
H 0 : X phân phối theo quy luật A
H 1 : X không phân phối theo quy luật A
35
1 X là ĐLNN rời rạc
pi= P(X= xi) : theo quy luật A
Ta xét X có quy luật phân phối nhị thức, Poisson
2 X là ĐLNN liên tục
pi= P(xi-1< X < xi) hoặc pi= P(xi< X < xi+1)
Ta xét X có quy luật chuẩn
36
3 Quy tắc kiểm định
i
np i n k i
2 1
Với mức ý nghĩa 2 1
1 k r
trong đó:
r = số tham số chưa xác định của quy luật X
k là số điểm (khoảng) chia các giá trị của X
1
Trang 10I.2 CÁC QUY LUẬT PHÂN PHỐI CƠ BẢN CẦN KIỂM ĐỊNH
1 Nhị thức
X ~ B(n,p)
n, p biết r= 0
n biết, p chưa biết r = 1
n, p chưa biết r= 2
2 Poisson
X ~ P()
chưa biết, thay bằng x r=1
3 Chuẩn
X ~ N(, 2) Nếu , 2 chưa biết Thay = x , 2 = s2
(hoặc 2ˆs ) r = 2
38
Lưu ý : Điều kiện để áp dụng tiêu chuẩn phù hợp 2 theo K.Pearson
Các tần số quan sát ni 5 Nếu các ni quá nhỏ thì phải ghép các giá trị hay các khoảng giá trị của mẫu lại để tăng nilên
39
Bài 1: Quan sát 1 đối tượng trong 100 ngày.
Gọi X là số lần xuất hiện của đối tượng trong 1 ngày, ta có:
Số ngày 5 10 19 29 21 6 9 0 0 1 0 Với =5%, hãy xét xem X ~B (10 ; 0,3) ?
40
Giải:
H0: X có quy luật phân phối nhị thức B(10; 0,3)
H1: X không có quy luật phận phối nhị thức B(10; 0,3)
Trước hết, ta thu ngọn mẫu để cho thỏa nikhông quá nhỏ: ni 5
X 0 1 2 3 4 5 6
ni 5 10 19 29 21 6 10 Nếu giả thiết H0đúng, ta tính được các xác suất:
pi=P(X=xi)=C xi(0,3)xi(0,7)10xi
Ví dụ: p1= P(X=0)= 0 (0,3)0(0,7)10 0,0282
C
Trang 11Ta lập bảng sau:
i
np i
np i
n 2
0 1 2 3 4 5
6
5 10 19 29 21 6 10
0,0282 0,1211 0,2335 0,2668 0,2001 0,1029 0,0474
2,82 12,11 23,35 26,68 20,01 10,29 4,74
1,6852 0,3676 0,8104 0,2017 0,0490 1,7885 5,8370
Lưu ý: Để
7 1
i
pi= 1 thì p7= 1–
6 1
i
Pi = 0,0474
Vậy 2= 10,7394 k=7 , r=0 , =0,05
95 , 0 ) 1 7 (
2 05 , 0
) 6 (
2 95 , 0
: chấp nhận H0
43
Bài 2: Trong dân gian lưu truyền 1 quan niệm
rằng: 1 loại thức ăn A nào đó làm tăng khả năng sinh con trai Để kiểm tra quan niệm này người
ta cho 1 nhóm phụ nữ dùng thức ăn A rồi xem xét 80 trường hợp có 3 con trong thời gi an dùng loại thức ăn A đó Kết quả cho trong bảng sau:
X: số bé trai 3 2 1 0
ni: số phụ nữ 14 36 24 6 Với mức ý nghĩa 5%, kiểm định xem liệu lọai thức ăn A có tác dụng đến việc sinh con trai
Giải:
H0 : loại thức ăn A không có tác dụng đến giới tính của bào thai
Nếu H0đúng thì số bé trai trong gia đình có 3 con là 1 ĐLNN có qluật nhị thức với n=3, p= ½
Gọi X là số con trai trong 1 gia đình có 3 con H0 : X~B(3, ½)
Đặt : Bk = biến cố trong 3 đứa trẻ có k đứa là con trai
Trang 12Ta lập bảng sau:
xi ni pi npi
i
np i
np i
n 2
3 2 1 0
14 36 24 6
1/8 3/8 3/8 1/8
10 30 30 10
1,6 1,2 1,2 1,6
Nếu H0 đúng thì:
p1= P(B0) =
8 3 3 2 1 1 3
) 1
( 2
, 8 1 3 2 1 0
C B P p C
8 1 3 2 1 3 3
) 3
( 4
, 8 3 3 2 1 2 3
) 2
(
C B p p C
B P p
Vậy 2= 5,6
=0,05 , k=4 , r=0
95 , 0 ) 1 (
2
) 3 (
2 95 , 0
2
: chấp nhận H0
Số liệu đã cho chưa cho phép ta khẳng định loại thức ăn A có ảnh hưởng đến giới tính
47
Bài 3: Sản phẩm được sản xuất ra trên một dây
chuyền tự động được đóng gói một cách ngẫu nhiên theo quy cách: 3 sản phẩm/hộp Tiến hành kiểm tra 200 hộp ta được kết quả:
Số sp loại I có trong hộp 0 1 2 3
Với = 2% , có thể xem số sp loại I có trong hộp là đại lượng ngẫu nhiên có quy luật phân phối
Giải:
Gọi X là số sp loại I có trong một hộp.
XB(3, p)
Ta xấp xỉ p bằng:
74 , 0 200
* 3
70
* 3 110
* 2 14
*
f
H0: X B(3 ; 0,74)
Trang 13Ta lập bảng sau:
i
np i
np i
n 2
0 1 2 3
6 14 110 70
0,017576 0,150072 0,427128 0,405224
3,5152 30,0144 85,4256 81,0448
1,75644 8,5446 7,06932 1,50519
2= 18,8755 > 2 (4 1 1)
98 ,
Bài 4: Một nhà máy sản xuất máy in nói rằng số
lỗi in trong 1 cuốn sách dày 300 trang của máy
in là 1 ĐLNN có quy luật phân phối Poisson với tham số =4,7 Kiểm tra 300 trang sách in của
50 máy in cùng loại, ta thu được:
Số lỗi 0 1 2 3 4 5 6 7 8 9 Số máy 1 1 8 6 13 10 5 5 1 0 Với mức ý nghĩa 1%, hỏi lời tuyên bố của nhà sản xuất có đúng không?
51
Giải: Gọi X= số lỗi trong 300 trang in
H0: X ~ P(4,7)
P1= P(X 2)
= e-4,7
1523 , 0 )
! 2
2 ) 7 , 4 (
! 1
1 ) 7 , 4 (
! 0
0 ) 7 , 4
P2= P(X=3) = e-4,7
! 3
3 ) 7 , 4 ( = 0,1574
P3= P(X=4)= e-4,7
! 4
4 ) 7 , 4 ( = 0,1849
P4= P(X=5) = e-4,7
! 5
5 ) 7 , 4 ( = 0,1738
P5= P(X=6) = e-4,7
! 6
6 ) 7 , 4 ( = 0,1362
x i n i p i np i
i
np i
np i
n 2
2 3 4 5 6
7
10 6 13 10 5 6
0,1523 0,1574 0,1849 0,1738 0,1362 0,1954
7,6150 7,8692 9,2463 8,6915 6,8083 9,7697
0,7470 0,4440 1,5239 0,1970 0,4803 1,4546
Tổng n =50 1 4,8468
= 0,01, k = 6, r = 0 2 ( 5 ) 15 , 0863
99 ,
2 = 4,8468 <2 ( 5 ) : chấp nhận H 0 tin lời tuyên bố trên.