4 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
4.4 Bài toán kiểm định giả thuyết về tỉ lệ
4.4.1 Tình huống thực tế
Hỏi ngẫu nhiên 20 sinh viên năm thứ nhất của trường ĐHSP Hà Nội thấy có 12 em đạt điểm A môn Thống kê Xã hội học.
? Tỉ lệ học sinh đạt điểmAtrong mẫu là bao nhiêu?
? Tìm khoảng ước lượng với độ tin cậy95%cho số sinh viên đạt điểmA.
? Có thể kết luận trong tồn trường tỉ lệ sinh viên năm thứ nhất đạt điểm A mơn Thống kê Xã hội học là 0,5 được khơng?
Mơ hình tn hc
ã Gipì100%l t l sinh viờn t imA.
ã Ta muốn xem có phảip= 0,5hay khơng.
• Đưa về bài kiểm định -Giả thuyếtH0 :p= 0,5với -Đối thuyết H1:p6= 0,5.
4.4.2 Bài toán kiểm định giả thuyết cho tỉ lệ
Giả sử tỉ lệpcác phần tử có tính chấtAnào đó trong quần thể là chưa biết. Ta cần so sánhpvới sốp0cho trước.
Các bài toán kiểm định giả thuyết chopnhư sau:
• Giả thuyếtH0 :p=p0.
• Đối thuyết 1. H1:p6=p0;
2. H1:p > p0;
3. H1:p < p0.
4.4.3 Tiêu chuẩn kiểm định
• Giả thuyếtH0 :p=p0. • Thống kê kiểm định:Z0 = (f −p0) p p0(1−p0) √ n.
Đối thuyết Tiêu chuẩn bác bỏ
H1 :p6=p0 |Z0|> zα/2
H1 :p > p0 Z0 > zα
H1 :p < p0 Z0<−zα
Ví dụ 4.4.1. Những năm trước nhà máy áp dụng cơng nghệ A sản xuất thì có tỷ lệ phế phẩm là 6%.
Năm nay nhà máy nhập công nghệ B để sản xuất, hy vọng sẽ giảm được tỷ lệ phế phẩm. Lấy ngẫu nhiên100sản phẩm để kiểm tra thì thấy có5phế phẩm.
Với mức ý nghĩa5%, có thể cho rằng tỷ lệ phế phẩm của công nghệ B nhỏ hơn công nghệ A hay không.
CHƯƠNG 4. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 50
Lời giải. 1. Tham số cần kiểm định là tỉ lệ phế phẩm của nhà máy khi sản xuất theo cơng nghệ B, kí hiệu làp.
2. Sản xuất theo cơng nghệ A có tỷ lệ phế phẩm là6%; hy vọng giảm được tỷ lệ phế phẩmnên là bài tốn kiểm định1phía.
Giả thuyếtH0 :p= 0,06, đối thuyếtH1 :p <0,06. 3. n= 100, f = 5 100 = 0,05, p0= 0,06. 4. Mức ý nghĩa5%nênzα=z0,05= 1,65. 5. Thống kê kiểm địnhZ0= (f−p0) p p0(1−p0) √ n=−0,42.
6. Z0 >−zαnên ta không bác bỏ giả thuyếtH0 :p = 0,06để ủng hộ giả thuyếtH1 :p <0,06 ở mức ý nghĩaα= 5%.
Vậy ta không đủ căn cứ để kết luận công nghệ B giảm được tỷ lệ phế phẩm dựa trên mẫu 100dữ liệu cho quan sát được.
Ví dụ 4.4.2. Tổng điều tra trên một khu vực5năm trước cho thấy có5%dân số ở độ tuổi trưởng thành không biết chữ.
Năm nay điều tra ngẫu nhiên400người ở độ tuổi trưởng thành thì có22 người không biết chữ.
Với mức ý nghĩa5%, hãy cho biết tỷ lệ mù chữ năm nay có thay đổi so với5năm trước hay không?
Lời giải. 1. Gọiplà tỉ lệ người không biết chữ năm nay.
2. 5năm trước có5%dân số ở độ tuổi trưởng thành không biết chữ; tỷ lệ mù chữ năm nay có thay đổi so với5năm trước hay khơngnên là bài tốn kiểm định2phía.
Giả thuyếtH0 :p= 0,05, đối thuyếtH1 :p6= 0,05. 3. n= 400, f = 22 400 = 0,055, p0= 0,05. 4. Mức ý nghĩa5%nênzα/2 =z0,025= 1,96. 5. Thống kê kiểm địnhZ0= (f−p0) p p0(1−p0) √ n= 0,4588.
6. |Z0|< zα/2nên chấp nhận giả thuyếtH0, bác bỏ giả thuyếtH1ở mức ý nghĩa5%.
Vậy ta không đủ căn cứ để kết luận tỷ lệ mù chữ năm nay thay đổi so với5năm trước dựa trên mẫu400số liệu thu được.
4.5 Bài toán so sánh hai giá trị trung bình
4.5.1 Tình huống thực tế
• Một trại chăn nuôi chọn một giống gà để tiến hành nghiên cứu hiệu quả của hai loại thức ăn A và B. Sau một thời gian nuôi thử nghiệm người ta chọn:
• 50 con gà ni bằng thức ăn A thì thấy khối lượng trung bình làx¯= 2,2kg, độ lệch mẫu là
sX = 1,25kg.
• 40 con gà ni bằng thức ăn B thì thấy khối lượng trung bình lày¯= 1,2kg, độ lệch mẫu là
sY = 1,02kg.
? Hãy đánh giá hiệu quả ca hai loi thc n?
M hỡnh tn hc
ã GiàX, àY là trọng lượng trung bình của gà ni bằng thức n loi A, B tng ng.
ã Ta cn so sỏnhàX, µY?
• Đưa về bài tốn kiểm định: - Giả thuyếtH0 :µX =µY với - Đối thuyếtH1 :µX 6=µY
Nội dung của bàiSo sánh hai giá trị trung bình của hai quần thể trong các trường hợp sau: 1. Quần thể có phân phối chuẩn với phương sai đã biết.
2. Quần thể có phân phối chuẩn với cùng một giá trị phương sai chưa biết.
4.5.2 So sánh hai giá trị trung bình
• Các cá thể của quần thểXcó phân phối chuẩnN(µX, σX2 ).
CHƯƠNG 4. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 52
• Dựa trên hai mẫu, ta muốn so sánh giá trị trung bìnhµX vàµY.
Bài tốn kim nh ã Gi thuytH0 :àX =àY. ã i thuyt 1. H1:àX 6=àY; 2. H1:µX > µY; 3. H1:µX < µY.
4.5.3 Bài tốn 1: So sánh giá trị trung bình của hai mẫu có phân phối chuẩn vớiphương sai đã biết phương sai đã biết
Giả sửσX, Y l ó bit.
Tiờu chun kim nh
ã Gi thitH0:àX =àY. ã Thống kê kiểm định:Z0 = (x−y) q σ2 X nX + σY2 nY .
Đối thuyết Tiêu chuẩn bác bỏH0ở mức ý nghĩaα
H1:µX 6=µY |Z0|> zα/2
H1:µX > µY Z0> zα
H1:µX < µY Z0 <−zα
trong đóx, ylà trung bình của mẫuX, Y tương ứng.
Ví dụ 4.5.1. Học sinh hai trường A và B cùng học mơn Tốn, khảo sát kết quả thi hết môn ta thu được kết quả như sau:
• Trường A:n= 64,x¯= 7,32.
• Trường B:n= 68,y¯= 7,66.
Biết rằng điểm thi của hai trường là biến ngẫu nhiên có phân phối chuẩn với độ lệch chuẩn tương ứng làσ1= 1,09;σ2 = 1,12.
Với mức ý nghĩa1%có thể cho rằng kết quả thi của trường B cao hơn trường A hay không?
Lời giải. 1. Gọi X, Y là kết quả thi của trường A, B tương ứng. Ta cóX ∼ N(µ1, σ12), Y ∼ N(µ2, σ22).
2. Kết quả thi của trường B cao hơn trường A hay khơngnên ta có bài tốn kiểm định1phía. Giả thuyếtH0 :µ1=µ2, đối thuyếtH1 :µ1 < µ2.
3. nX = 64,x¯= 7,32, σ1 = 1,09;nY = 68,y¯= 7,66, σ2 = 1,12. 4. α= 1%nênzα=z0,01= 2,33.
5. Thống kêZ0 = 7,32−7,66 r 1,092 64 + 1,122 68 =−31,43.
6. Ta cóZ0 <−zαnên ta bác bỏ giả thuyếtH0 :µ1 =µ2để ủng hộ đối thuyếtH1 :µ1 < µ2ở mức ý nghĩaα= 1%.
Vậy ta có đủ căn cứ kết luận kết quả thi ở trường B cao hơn trường A dựa trên2mẫu thu được.
4.5.4 Bài tốn 2: So sánh hai giá trị trung bình của hai mẫu có phân phối chuẩn vớiphương saiσX =σY =σ2chưa biết phương saiσX =σY =σ2chưa biết
Tiêu chuẩn kiểm định
• Giả thitH0:àX =àY. ã Thng kờ kim nh:T0 = xy q (nX1)s2 X+(nY1)s2 Y nX+nY2 q 1 nX +n1Y .
i thuyt Tiêu chuẩn bác bỏH0ở mức ý nghĩaα
H1:µX 6=µY |T0|> tα/2,nX+nY−2
H1:µX > àY T0 > t,nX+nY2
H1:àX < àY T0 <t,nX+nY2
trong ú:
ã x, ylà trung bình mẫuX, Y tương ứng.
• sX, sY là độ lệch mẫuX, Y tương ứng.
Ví dụ 4.5.2. Điều tra thu nhập (đơn vị tính$) trong một tháng của công nhân ở hai nhà máy sản xuất thiết bị điện tử A và B ta thu được số liệu sau:
• Nhà máy A:91,50; 94,18; 92,18; 95,39; 91,79.
• Nhà máy B:90,46; 93,21; 97,19; 97,04; 91,07; 92,75.
Với mức ý nghĩa5%có thể cho rằng thu nhập trung bình của cơng nhân trong hai nhà máy trên là như nhau hay không, biết rằng thu nhập trong hai nhà máy có phân phối chuẩn.
Lời giải. 1. GọiX, Y lần lượt có phân phối chuẩnN(µX, σX2),N(µY, σY2)là thu nhập của nhà máy A và B tương ứng. Ta cần so sánhµX vàµY.
2. Thu nhập trung bình của cơng nhân trong hai nhà máy trên là như nhau hay khơngnên có bài tốn kiểm định giả thuyếtH0:µX =µY, đối thuyếtH1 :µX 6=µY.
CHƯƠNG 4. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 54 5. nX = 5;nY = 6;α = 5%. Tra bảng phân phối Student đượctα/2,nX+nY−2=t0,025,9 = 2,262. 6. Ta có|T0|< tα/2,nX+nY−2nên ta khơng bác bỏH0 :µX =µY để ủng hộH1 :µX 6=µY ở mức
ý nghĩaα= 5%.
Vậy ta có đủ căn cứ để kết luận thu nhập của công nhân hai nhà máy là như nhau dựa trên hai mẫu đã thu được.
4.6 Bài tốn so sánh hai tỉ lệ
4.6.1 Tình huống thực tế
• Để so sánh chất lượng sản phẩm của hai công ty X và Y sản xuất, người ta lấy: 30sản phẩm của cơng ty X thấy có12sản phẩm đạt loại A.
40sản phẩm của cơng ty Y thấy có14sản phẩm đạt loại A. ? Hỏi chất lượng sản phẩm của2cơng ty có như nhau khơng?
Mơ hình tốn học
• GọipX, pY là tỉ lệ sản phẩm loại A do công ty X, Y sản xuất tương ứng.
• Ta cần so sánhpX vớipY.
• Đưa về bài toán kiểm định: -Giả thuyếtH0:pX =pY với -Đối thuyếtH1 :pX 6=pY
4.6.2 So sánh hai tỉ lệ
Ta cần so sánhpX, pY là tỉ lệ của số phần tử có cùng tính chấtAnào đó của hai quần thểXvà
Y tương ứng với mức ý nghĩaα.
Tiêu chuẩn kiểm định
• fX, fY là tỉ lệ số phần tử có cùng tính chấtAtrong mẫuX, Y tương ứng.
• nX, nY là kích thước mẫuX, Y tương ứng.
• kX, kY là số phần tử có tính chấtAtrong mẫuX, Y tương ứng.
• Giả thuyếtH0 :pX =pY. • Thống kê kiểm định:Z0 = fX −fY q f(1−f)nXnX+nYnY vớif = kX +kY nX +nY .
Đối thuyết Tiêu chuẩn bác bỏH0ở mức ý nghĩaα
H1 :pX 6=pY |Z0|> zα/2
H1 :pX > pY Z0 > zα
Ví dụ 4.6.1. Điều tra hiện tượng học sinh bỏ học ở hai vùng nông thơn A và B ta thu được số liệu sau:
• Vùng A: Điều tra1900em có175em bỏ học.
• Vùng B: Điều tra2600em có325em bỏ học.
Có ý kiến cho rằng tình trạng học sinh bỏ học ở vùng A là ít phổ biến hơn vùng B.Với mức ý nghĩa
5%hãy cho biết ý kiến đó đúng hay sai.
Lời giải. • GọipA, pBlà tỷ lệ học sinh bỏ học ở vùng A, B tương ứng. Ta cần so sánhpAvàpB. • Tình trạng học sinh bỏ học ở vùng A là ít phổ biến hơn vùng Bnên có bài tốn kiểm định
giả thuyết:
Giả thuyếtH0:pA=pB, đối thuyếtH1:pA< pB.
• fA= 175 1900 = 0,092;fB= 325 2600 = 0,125; f = 175 + 325 1900 + 2600 = 0,111 • Mức ý nghĩaα= 5%nênzα =z0,05= 1,65. • Thống kê kiểm địnhZ0= 0,092−0,125 q 0,111(1−0,111)1900+26001900.2600 =−3,48 • Ta cóZ0 <−zαnên ta bác bỏH0 :pA=pBđể ủng hộH1:pA< pBở mức ý nghĩaα= 5%. Vậy có đủ căn cứ để kết luận tỉ lệ học sinh bỏ học ở vùng A là ít nghiêm trọng hơn vùng B dựa trên2mẫu thu .
Luyện tập
4.6.1. Đo huyết sắc tố cho 50 cơng nhân nơng trường thấy có30người ở mức dưới110g/l. Số liệu chung của khu vực này là30%ở mức dưới110g/l. Với mức ý nghĩaα = 0,05, có thể kết luận tỉ lệ cơng nhân nơng trường có huyết sắc tố dưới110g/l cao hơn mức chung hay không?
CHƯƠNG 4. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 56
Lời giải. • Tham số cần kiểm định là tỉ lệ cơng nhân nơng trường có huyết sắc tố dưới110g/l, kí hiệu làp
• Tỉ lệ chung của khu vực là30%; tỉ lệ cơng nhân nơng trường có huyết sắc tố dưới110g/l cao
hơn mức chungnên có bài tốn kiểm định giả thuyết:
Giả thuyếtH0 :p= 0,3, đối thuyếtH1:p >0,3.
• n= 50, f = 30 50 = 0,6, p0 = 0,3. • Mức ý nghĩaα= 5%nênzα =z0,05= 1,65. • Thống kê kiểm địnhZ0= 0,6−0,3 p 0,3(1−0,3) √ 50 = 4,629 • Ta cóZ0 > zαnên ta bác bỏH0 :p= 0,3để ủng hộH1 :p >0,3ở mức ý nghĩaα= 5%. Vậy ta có đủ căn cứ để kết luận tỉ lệ cơng nhân nơng trường có huyết sắc tố dưới110g/l cao hơn mức chung dựa trên mẫu50dữ liệu thu được.
4.6.2. Điều tra tỉ lệ béo phì ở hai địa bàn A và B, người ta thu được số liệu sau:
• Địa bàn A: Điều tra200em thấy có20em béo phì.
• Địa bàn B: Điều tra220em thấy có5em béo phì.
Hãy kiểm định xem tỉ lệ trẻ em béo phì ở hai địa bàn có như nhau khơng với mức ý nghĩa5%
Lời giải. • GọipA, pBlà tỷ lệ trẻ em béo phì ở địa bàn A, B tương ứng. Ta cần so sánhpAvàpB.
• Tỉ lệ trẻ em béo phì ở hai địa bàn có như nhau khơngnên có bài tốn kiểm định giả thuyết: Giả thuyếtH0:pA=pB, đối thuyếtH1:pA6=pB.
• fA= 20 200 = 0,1;fB = 5 220 = 0,023;f = 20 + 5 200 + 220 = 0,06 • Mức ý nghĩaα= 5%nênzα/2=z0,025= 1,96. • Thống kê kiểm địnhZ0= 0,1−0,023 q 0,06(1−0,06)200+220200.220 = 3,319
• Ta có|Z0|> zα/2nên ta bác bỏH0:pA=pBđể ủng hộH1 :pA6=pBở mức ý nghĩaα= 5%. Vậy ta có đủ căn cứ để kết luận tỉ lệ béo phì ở hai địa bàn là khơng như nhau dựa trên hai mẫu dữ liệu thu được.
Chương 5
Hồi quy tuyến tính đơn Nội dung của chương
1. Mơ hình hồi quy tuyến tính. 2. Ước lượng tham số của mơ hình.
Mục tiêu của chương
1. Tính được hệ số tương quan giữa hai biến ngẫu nhiên. 2. Hiểu được cách xây dựng mơ hình hồi quy tuyến tính.