Cung cấp kiến thức về lý thuyết kiểm định đểsinh viên có thể phân biệt và giải các dạng bài toán về kiểm định như:– Kiểm định giá trị trung bình.– Kiểm định tỷ lệ.– Kiểm định phương sai– Kiểm định hiệu hai trung bình.– Kiểm định hiệu hai tỷ lệ– Kiểm định tính độc lập
Trang 1Bài 7
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
Thursday, February 09, 2017 1
Trang 2Mục tiêu
Cung cấp kiến thức về lý thuyết kiểm định để
sinh viên có thể phân biệt và giải các dạng bài toán về kiểm định như:
– Kiểm định giá trị trung bình.
– Kiểm định tỷ lệ.
– Kiểm định phương sai
– Kiểm định hiệu hai trung bình.
– Kiểm định hiệu hai tỷ lệ
– Kiểm định tính độc lập
Trang 3Cần khảo sát tuổi trung bình của tổng thể rất nhiều người (giả thiết đưa ra là 40 tuổi)
Với kết quả khảo sát được, ta có thể đánh giá giả
thiết đưa ra là đúng hay sai.
Giới thiệu bài toán kiểm định
Trang 5Các khái niệm
• Giả thiết thống kê
• Đặt giả thiết thống kê
• Sai lầm và mức ý nghĩa
Trang 6Giả thiết thống kê và đặt giả thiết
1 Giả thiết thống kê l à các phát biểu nói về tham số của
tổng thể, luật phân phối xác suất của tổng thể hay tính độc
lập của tổng thể.
Có hai loại giả thiết:
Giả thiết (giả thiết không): là giả thiết có dấu bằng (3
trường hợp: = , ≥ , ≤ )
Giả thiết đối : giả thiết ngược lại với
2 Đặt giả thiết: có 3 cách đặt giả thiết thống kê
Trang 7Giả thiết thống kê và đặt giả thiết
Ví dụ: Nhà trường tuyên bố chiều cao trung bình của sinh
• Chọn một mẫu ngẫu nhiên gồm n sinh viên, thấy chiều cao
• Vì ̅ < , ta có 2 cách chọn giả thiết :
– : < (kiểm định bên trái)
– : ≠ (kiểm định hai phía)
• Tùy vào yêu cầu cụ thể của bài toán mà ta chọn kiểm định bên trái hoặc hai phía.
– “Chiều cao TB của sv thấp hơn 165cm?”→ bên trái
– “Chiều cao TB của sv khác 165cm?” → hai phía
Trang 8Ví dụ
Tại một siêu thị, Ban giám đốc siêu thị cho biết số tiền trung bình một khách hàng sử dụng để mua hàng là 200 ngàn đồng Khảo sát 49 khách hàng thấy số tiền trung bình một khách
hàng sử dụng để mua hàng là 180 ngàn đồng, độ lệch chuẩn của mẫu là 30 ngàn đồng
Với mức ý nghĩa 3%, xét xem nguồn tin từ Ban giám đốc có hợp lý không?
Trang 11• Mục tiêu của kiểm định là thiết kế luật kiểm định sao cho
xác suất phạm phải sai lầm khi đưa ra một quyết định là
nhỏ nhất.
• Hai loại sai lầm:
– Sai lầm loại I: bác bỏ | đúng
– Sai lầm loại II: chấp nhận | sai
• Mức ý nghĩa = xác suất mắc phải sai lầm loại I
(the significance level of the test)
= P(reject true
Sai lầm và mức ý nghĩa α
Trang 12Mức ý nghĩa
• Ví dụ: “kiểm định với mức ý nghĩa = 5%”, tức là, cho
phép đưa ra quyết định thống kê với xác suất phạm sai lầm (loại I) là 5%
• Trong thực tế, người ta hay xét các mức ý nghĩa 10%, 5%, 2% và 1%
Trang 13Các phương pháp kiểm định
1 Phương pháp giá trị tới hạn
– Đưa ra quyết định thống kê dựa vào mức ý nghĩa
Trang 14Kiểm định bên trái
Kiểm định bên phải
Trang 15Sử dụng Excel để tính toán giá trị zc cho kiểm định 2 phía và 1
phía với các mức ý nghĩa 1% , 2%, 5% và 10%
Với KĐ 2 phía : / = ( / )
Với KĐ 1 phía : = ( )
Trang 16Phương pháp giá trị tới hạn
1 Tính giá trị kiểm định
2 Tính giá trị tới hạn : tùy vào kiểm định 1 phía hay 2 phía
3 So sánh giá trị kiểm định với giá trị tới hạn để đưa ra kết luận.
Quy tắc bác bỏ H 0 :
nếu z (hoặc t) âm: z≤ (hoặc t ≤ )
Trang 17Phương pháp dùng giá trị p
• Tính p_value (xác suất tương ứng với giá trị kiểm định)
• So sánh p_value với mức ý nghĩa để đưa ra quyết định.
TH biết :
• Nếu ≤ , bác bỏ H0
• Nếu > , chưa đủ cơ sở bác bỏ H0
Trang 18Các bước giải bài toán kiểm định
Bước 1: Xác định giá trị cần quan tâm
Bước 2: Đặt giả thiết H0 và đối thiết H1
Bước 3: Xác định mức ý nghĩa
Sử dụng PP giá trị tới hạn
Bước 4: Thu thập dữ liệu, tính giá trị kiểm định và giá trị tới hạn
Bước 5: So sánh giá trị kiểm định với giá trị tới hạn -> kết luận
Sử dụng p_value
Bước 4: Thu thập dữ liệu, tính giá trị kiểm định
Dùng giá trị kiểm định tính p_value
Bước 5: Bác bỏ H0 nếu p_value ≤
Trang 19• Kiểm định hiệu 2 trung bình
Trang 20• Kiểm định phương sai
• Kiểm định hiệu hai trung bình mẫu lớn (n1, n2≥ 30)
• Kiểm định hiệu hai trung bình mẫu nhỏ (n1, n2< 30)
• Kiểm định hiệu hai tỷ lệ
(n< 30) (n≥ 30)
Trang 21• p_value=P(Z > z ) hoặc p_value=P(Z < - z )
• So sánh p_value với → Kết luận
Trang 22Ví dụ 1: Kiểm định TB 2 phía mẫu lớn
Nhà trường tuyên bố chiều cao trung bình của sinh viên là
Chọn một mẫu ngẫu nhiên gồm 100 sinh viên, thấy chiều
cao trung bình của mẫu = , với độ lệch chuẩn
mẫu à 5
Với mức ý nghĩa 5%, lời tuyên bố của nhà trường có chínhxác không?
Trang 23 Step 1 : Xác định giá trị cần quan tâm
Ở đây là chiều cao trung bình của toàn thể sinh viên
Step 2: Đặt giả thiết thống kê
: =
: ≠
Step 3: Xác định mức ý nghĩa của kiểm định
Yêu cầu mức ý nghĩa 5% để kiểm định
Nếu ko yêu cầu thì ta thường chọn 1%,2%,5%,10%
Ví dụ 1: Kiểm định TB 2 phía mẫu lớn
Trang 24Ở đây ta lấy mẫu 100 sinh viên = , = , =
• Step 4: Lấy mẫu và tính toán giá trị kiểm định và giá trị tới hạn cho phù hợp với bài toán:
Vì mẫu lớn nên ta sẽ sử dụng PP chuẩn
Trang 25• Step 5 So sánh z với z c và kết luận
Do = < , ta có cơ sở bác bỏ giả thiết
Kết luận: Với mức ý nghĩa 5%, ta bác bỏ giả thiết chiều cao
trung bình của sinh viên là 165cm, nghĩa là lời tuyên bố của nhà trường chưa chính xác.
Trang 26Kiểm định trung bình 2 phía
Tính ra = -2.Kiểm định 2 phía nên:
Trang 27Ví dụ 2: Kiểm định TB 1 phía mẫu lớn
Nhà trường tuyên bố chiều cao trung bình của sinh viên là
Trang 28Ví dụ 2: Kiểm định TB 1 phía mẫu lớn
• Gọi là chiều cao trung bình của toàn thể sinh viên
• Đặt giả thiết
: <
Đây là bài toán kiểm định bên trái
• Vì mẫu lớn n=100 nên ta sử dụng PP chuẩn
Trang 29Ví dụ 2: Kiểm định TB 1 phía mẫu lớn
Vì kiểm định bên trái nên ta so sánh z với – zc
Do = < , ta có cơ sở bác bỏ giả thiết , chấp nhận H1
Kết luận: với mức ý nghĩa 5%, tuyên bố của nhà trường cao hơn so với thực tế.
Trang 30Kiểm định trung bình bên trái
Với kiểm định bên trái thì:
Trang 31Kiểm định TB mẫu nhỏ
Giả sử tổng thể có phân phối chuẩn
Mẫu nhỏ, chưa biết :
• p_value=P(T > t) hoặc p_value=P(T < -t)
• So sánh p_value với → Kết luận
Trang 32Ví dụ 3: Kiểm định TB mẫu nhỏ chưa biết
Trang web du lịch cho biết “chi phí trung bình thuê 1 phòngkhách sạn ở New York là 168$/đêm”
Kiểm tra 1 mẫu gồm 25 khách sạn và tính được chi phí trung
Trang 33t = x μ
n
= 17 168
1 25
Do = < = nên chấp nhận giả thiết H 0
Kết luận: Với mức ý nghĩa 5%, ta chấp nhận giả thiết chi phí trung bình thuê một phòng khách sạn ở NewYork là 168$/đêm ( chưa có cơ sở để bác bỏ thông tin trang web cung cấp).
Trang 34Tính ra t = 1.92 Kiểm định 2 phía nên:
Trang 36Bài tập
Khảo sát về thời gian tự học (X: giờ/tuần) của 144 sinh viên hệ
chính qui ở một trường đại học trong thời gian gần đây người ta thu được ̅ = 7.78 ờ/ ầ , = 3.16 giờ Trước đây thời gian tự học trung bình của sinh viên hệ chính qui trường này là 10
giờ/tuần Nhận xét gì về tình hình tự học của sinh viên hệ chính qui trường này trong thời gian gần đây với mức ý nghĩa 5%
a) z=-8.43 Thời gian tự học của sinh viên hệ chính qui trường
này gần đây đã thay đổi
b) z=-8.43 Thời gian tự học của sinh viên hệ chính qui trường
này gần đây không thay đổi
c) z=1.97 Thời gian tự học của sinh viên hệ chính qui trường này
gần đây đã thay đổi
d) z=-10.2 Thời gian tự học của sinh viên hệ chính qui trường
này gần đây đã thay đổi
Trang 37a) Hãy kiểm định xem tuổi thọ trung bình của loại bóng đèn
này có giảm so với trước đây với mức ý nghĩa 0.05
b) Hãy tính p_value của kiểm định
Trang 38Bài tập
Tại một siêu thị, Ban giám đốc siêu thị cho biết số tiền trung bình một khách hàng sử dụng để mua hàng là 200 ngàn đồng Khảo sát 49 khách hàng thấy số tiền trung bình một khách
hàng sử dụng để mua hàng là 180 ngàn đồng, độ lệch chuẩn của mẫu là 30 ngàn đồng
a) Hãy xem xét nguồn tin từ Ban giám đốc có hợp lý không vớimức ý nghĩa 5%
b) Hãy xác định p_value của kiểm định
Trang 39Kiểm định tỷ lệ
Thường bài toán tỷ lệ luôn có mẫu lớn
Chú ý: Ước lượng tỷ lệ: thay p bởi f
Kiểm định tỷ lệ : thay p bởi p 0
Trang 40Ví dụ: Kiểm định tỷ lệ (1 phía)
Một nhà sản xuất cho rằng có ít nhất 95% thiết bị do mình cung cấp cho một nhà máy được xác nhận đạt thông số kỹ thuật Kiểm tra một mẫu gồm 200 thiết bị thì thấy có 18
thiết bị không đạt Hãy kiểm định lời tuyên bố của nhà sản xuất này với mức ý nghĩa:
a) 0,01
b) 0,05
Trang 41• Gọi p là tỷ lệ thiết bị không đạt trong nhà máy
f là tỷ lệ thiết bị không đạt trong 200 thiết bị
Trang 42• Kiểm định bên trái nên so sánh z với
Do = < .33 nên ta bác bỏ giả thiết
• Kết luận: Với mức ý nghĩa 1%, lời tuyên bố của nhà sản suất này là không đúng, tức là tỷ lệ thiết bị đạt thông số sẽ nhỏ hơn 95%
Ví dụ: Kiểm định tỷ lệ (1 phía)
Trang 43Ví dụ
Một hãng điện tử quảng cáo có 40% người tiêu dùng sử dụng sản phẩm của hãng Khảo sát 169 người có 65 người sử dụng sản phẩm của hãng Với mức ý nghĩa 2%, bạn có nhận định gì
về quảng cáo của hãng này
Trang 44Ví dụ
Tại một vườn phong lan trước đây nhà vườn sử dụng loại
thuốc A để diệt trừ sâu rầy, tỷ lệ thành công là 80% Hiện nay nhà vườn sử dụng một loại thuốc mới B để diệt sâu rầy, phun thuốc 1000 cây phong lan thấy có 900 cây hết bị sâu rầy
Với mức ý nghĩa 1%, xét xem tỷ lệ thành công của loại thuốc mới B có khác biệt so với thuốc A không?
Trang 45Ví dụ
Giám đốc một công ty kiểm toán cho biết có 50% nhân viên kiểm toán của công ty có bằng kiểm toán quốc tế Chọn ngẫu nhiên 400 nhân viên kiểm toán của công ty thấy có 180 nhân viên có bằng kiểm toán quốc tế
Với mức ý nghĩa 5%, bạn có nhận định gì về nguồn tin từ giám đốc công ty
Trang 46Kiểm định phương sai
Giả sử tổng thể có phân phối chuẩn với chưa biết Kiểm định giả thiết H0: = 0
TH1: Kiểm định phương sai chưa biết
TH2: Kiểm định phương sai biết
Trang 47Kiểm định phương sai chưa biết
Trang 49Ví dụ
Nếu máy móc hoạt động bình thường thì trọng lượng X là BNN tuân theo luật phân phối chuẩn với phương sai là 12 Nghi ngờ
về sự hoạt động của máy, người ta tiến hành cân thử 13 sản
phẩm và tính được phương sai mẫu là 14.6
Hãy kết luận về sự nghi ngờ trên với mức ý nghĩa 0.01?
Trang 50a Chấp nhận ý kiến của chủ hãng với mức ý nghĩa 3%.
b Chấp nhận ý kiến của chủ hãng với mức ý nghĩa 5%
c Bác bỏ ý kiến của chủ hãng với mức ý nghĩa 5%
d Độ lệch chuẩn của sai số đo của thiết bị thấp hơn so với
thực tế
Trang 51Kiểm định phương sai biết
Trang 52Ví dụ
Các bao gạo do một máy đóng bao làm ra có phân phối
chuẩn với trọng lượng qui định là 20 kg và độ lệch chuẩn
là 0.5 kg Người ta nghi ngờ máy hoạt động không bình
thường làm thay đổi trọng lượng trung bình của sản
phẩm nên tiến hành cân thử 100 bao và thu được kết quả sau:
Với mức ý nghĩa 5%, máy có hoạt động bình thường theo tiêu chuẩn không làm thay đổi phương sai hay không?
Trọng lượng
1 bao
Số bao 10 8 40 15 14 13
Trang 53Kiểm định 2 mẫu
Trang 54Kiểm định hiệu 2 trung bình
Trang 55Kiểm định hiệu 2 trung bình
Kiểm định bên phải
Xét 2 mẫu độc lập lấy từ 2 tổng thể khác nhau
có giá trị trung bình là , (không biết)
và ta tính được ,
Trang 57Ví dụ: Kiểm định hiệu 2 TB biết σ
Trọng lượng sản phẩm một chi tiết máy do 2 máy sản xuất
ra đều là BNN có phân phối chuẩn có cùng độ lệch chuẩn là
1 Xét xem trọng lượng trung bình của sản phẩm do 2 máynày sản xuất ra có như nhau không với mức ý nghĩa 5% Biếtrằng lấy 25 sản phẩm của máy 1 cân được 1250 và lấy 20 sản phẩm của máy 2 cân được 1012?
Trang 58Kiểm định hiệu 2 trung bình (mẫu lớn)
• Ta phải quyết định giữa 2 giả thiết :
• Đây là bài toán kiểm định ?
Trang 59Kiểm định hiệu 2 trung bình
Tính toán giá trị kiểm định
Trang 61Ví dụ: Kiểm định hiệu 2 TB (mẫu lớn)
50 sinh viên nam tỏ ra ham thích tham gia môn điền kinhthì có chiều cao trung bình là 175 cm và độ lệch chuẩn 6
cm Trong khi đó 50 sinh viên nam khác tỏ ra không quan
tâm đến môn điền kinh thì có chiều cao trung bình là 170
cm và độ lệch chuẩn 7 cm
Hãy xét xem các sinh viên nam có ý thích tham gia vào mônđiền kinh có cao hơn các sinh viên nam khác không?
Trang 62Kiểm định hiệu 2 trung bình (mẫu lớn)
• Ta phải quyết định giữa 2 giả thiết :
• Đây là bài toán kiểm định 1 phía (bên phải)
• Với mức ý nghĩa là 5% (ta tự cho)
• Tính toán giá trị tới hạn
Trang 63Kiểm định hiệu 2 trung bình (mẫu lớn)
Tính toán giá trị kiểm định
KL: Với mức ý nghĩa 5%, ta bác bỏ giả thiết ,tức là các sinh viên nam có ý thích tham gia vào môn điền kinh thì cao hơn các sinh viên nam khác
Trang 65Kiểm định hiệu 2 tỷ lệ
Xét 2 mẫu độc lập lấy từ 2 tổng thể khác nhau
có tỷ lệ là , (không biết) và ta tính được ,
Kiểm định bên phải
Trang 67Ví dụ Kiểm định hiệu 2 tỷ lệ
Chọn một mẫu ngẫu nhiên gồm 200 sản phẩm do máy A sản xuất thì thấy có 19 sản phẩm bị hỏng và chọn một mẫu ngẫu nhiên gồm 100 sản phẩm do máy B sản xuất thì thấy có 5 sản phẩm bị hỏng Sử dụng mức ý nghĩa là 0,05 Hãy kiểm định giả thiết:
a) Chất lượng sản phẩm do hai máy này sản xuất khác nhau b) Chất lượng sản phẩm của máy B tốt hơn máy A
Trang 68Ví dụ Kiểm định hiệu 2 tỷ lệ
Kiểm tra chất lượng của 2 lô sản phẩm, người ta thấy trong lôthứ nhất có 50 phế phẩm trên tổng số 500 phế phẩm, trong lôthứ hai có 60 phế phẩm trên tổng số 400 phế phẩm
Với mức ý nghĩa 5%, ta có kết luận gì về 2 lô sản phẩm đó?
Trang 69Phương pháp dùng giá trị p
Trang 70Ví dụ Kiểm định TB mẫu lớn (2 phía)
Tuổi thọ trung bình của một mẫu gồm 100 bóng đèn huỳnh quang do một công ty sản xuất là 1.570 giờ, độ lệch chuẩn 120 giờ Gọi m là tuổi thọ trung bình của tất
cả các bóng đèn do công ty này sản xuất
Tìm giá trị P của kiểm định này
Trang 71• Đây là bài toán kiểm định 2 phía
• Do đó ta có cơ sở bác bỏ giả thiết
• Kết luận: Với mức ý nghĩa 5%, ta có thể nói tuổi thọ trung
bình của bóng đèn do công ty này sx khác 1600 giờ
Trang 72Ví dụ Kiểm định TB mẫu nhỏ (2 phía)
Trang web du lịch cho biết chi phí trung bình thuê 1 phòng khách sạn ở New York là 168$ cho 1 đêm Để kiểm định giả
thuyết trên, người ta lấy 1 mẫu gồm 25 khách sạn và tính
toán được chi phí trung bình ̅ = $172.50 và = $15.40 Hãy kiểm định giả thuyết μ = 168 với mức ý nghĩa = 0.05
bằng PP giá trị P
(Giả sử tổng thể có phân phối chuẩn)
H0: μ = 168
H1: μ 168
Trang 73t = x μ0
n
= 172.50 168
15.40 25
• Vì > % nên chấp nhận giả thiết H 0
Kết luận: Với mức ý nghĩa 5%, ta chấp nhận giả thiết chi phí trung bình thuê 1
phòng khách sạn ở New York là 168$ cho 1 đêm
H0: μ = 168
H1: μ 168
Reject H0Reject H0
/2=.025
-tc Do not reject H0 0 tc
/2=.025
1.46
Trang 74Bài tập
Sức chịu lực của các sợi cáp do một công ty sản xuất có sức chịu lực trung bình là 1.800 kg và độ lệch chuẩn 100 kg Một
kỹ thuật mới được áp dụng vào quy trình sản xuất khẳng
định rằng sức chịu lực trung bình của các sợi cáp tăng lên
Để kiểm định lời khẳng định này, người ta kiểm tra một mẫu gồm 50 sợi cáp và thấy sức chịu lực trung bình là 1.850 kg Hãy kiểm định bài toán bằng PP giá trị P?
Trang 75• Kiểm định sự độc lập.
• Kiểm định luật phân phối xác suất ( tham khảo)
Kiểm định phi tham số
Trang 762/9/2017 76
Kiểm định sự độc lập
Giả sử X,Y là 2 BNN của cùng 1 tổng thể.
Từ tổng thể lấy 1 mẫu kích thước n.
Với mức ý nghĩa, hãy kiểm định giả thiết
Trang 77
2
ij 2
ij i,j ij
2 2
Trang 80Ôn tập
Sự khác nhau giữa ước lượng và kiểm định
Sơ đồ tóm tắt bài toán kiểm định trung bình
Sơ đồ tóm tắt bài toán kiểm định tỷ lệ
Bảng tóm tắt kiểm định trung bình bằng p value
Trang 81Phân biệt ước lượng và kiểm định
Ước lượng: là quá trình suy luận về tham số của tổng thể khi ta
tính toán được tham số của 1 mẫu ngẫu nhiên
Ví dụ : Tính được ̅ = 35 suy ra trung bình của tổng thể ∈
Trang 82Phân biệt ước lượng và kiểm định
= 5
Cần có 1 tiêu chuẩn để biết được khi nào thì chấp nhận hay bác bỏ
Trang 83 Known
Large Samples
Unknown
Hypothesis Tests for μ
Small Samples
Sử dụng PP chuẩn
Kiểm định trung bình
0
x μ z
σ n
Trang 84 Known
Large Samples
Hypothesis Tests for m
Small Samples
Trang 85 Known
Large Samples
Unknown
Hypothesis Tests for m
Small Samples
Trang 86Không được sử dụng do độ lệch nhiều
≤