Do việc khảo sát các cá thể trong mẫu là độc lập nên các biến ngẫu nhiên Xi trong mẫu ngẫu nhiên được coi là độc lập với nhau và cùng phân phối xác suất với X.. Vì các thống kê là các hà
Trang 1TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI Bài giảng TOÁN THỐNG KÊ
Mục lục
Chương 4 NHỮNG KHÁI NIỆM CƠ BẢN MỞ ĐẦU VỀ THỐNG KÊ 3
I TỔNG THỂ VÀ MẪU 3
1.1 Tổng thể 3
1.2 Mẫu 3
1.3 Các phương pháp lấy mẫu 3
II BỐ TRÍ MẪU VÀ PHÂN PHỐI MẪU 3
2.1 Sắp xếp số liệu 3
2.2 Biểu diễn hình học của mẫu 5
III CÁC SỐ ĐẶC TRƯNG CỦA MẪU 5
3.1 Trung bình mẫu 5
2.2 Phương sai mẫu 5
2.3 Phương sai hiệu chỉnh của mẫu 6
IV MẪU NGẪU NHIÊN 8
4.1 Mẫu ngẫu nhiên 8
4.2 Các đặc trưng của mẫu ngẫu nhiên 8
4.3 Thống kê 8
V MỘT SỐ PHÂN PHỐI XÁC SUẤT DÙNG TRONG TOÁN THỐNG KÊ 8
5.1 Các định lý về phân phối chuẩn 8
5.2 Phân phối khi-bình phương (2 ) 9
5.3 Phân phối Student 9
5.4 Phân phối Fisher-Snedecor 10
5.5 Phân vị mức 1 – 10
BÀI TẬP CHƯƠNG 4 11
Chương 5 ƯỚC LƯỢNG THAM SỐ 12
Khái niệm về bài toán ước lượng tham số 12
I ƯỚC LƯỢNG ĐIỂM 12
1.1 Định nghĩa 12
1.2 Các loại ước lượng 12
1.3 Các ước lượng điểm thường gặp 13
a-/ Trung bình mẫu ngẫu nhiên: 13
b-/ Phương sai mẫu ngẫu nhiên hiệu chỉnh: 13
c-/ Tần suất 14
II ƯỚC LƯỢNG KHOẢNG 14
2.1 Khoảng tin cậy Độ tin cậy 14
2.2 Ước lượng kỳ vọng (giá trị trung bình) của phân phối chuẩn 15
a) Trường hợp biết phương sai D(X) = 2 15
b) Trường hợp không biết phương sai 2 16
2.3 Ước lượng phương sai của phân phối chuẩn 17
2.4 Ước lượng xác suất (tỷ lệ) 17
2.5 Kích thước mẫu cần thiết 19
BÀI TẬP CHƯƠNG 5 20
Trang 2Chương 6 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ 22
I GIẢ THUYẾT, ĐỐI THUYẾT 22
1.1 Giả thuyết, đối thuyết 22
1.2 Quy tắc kiểm định giả thuyết 22
1.3 Các loại sai lầm 23
II CÁC BÀI TOÁN KIỂM ĐỊNH THAM SỐ 23
2.1 Kiểm định kỳ vọng của biến chuẩn 23
a) Trường hợp biết phương sai 2 23
b) Trường hợp chưa biết phương sai 2 24
c) Chú thích: 25
2.2 Kiểm định một xác suất (tỷ lệ) 27
2.3 Kiểm định sự bằng nhau của kỳ vọng hai biến chuẩn, mẫu độc lập 28
a) Trường hợp biết 2 2 x y σ và σ 28
b) Trường hợp không biết σ và σ 29 2 x 2 y c) Chú ý 30
2.4 Kiểm định sự bằng nhau của kỳ vọng hai biến chuẩn, mẫu theo cặp 31
2.5 Kiểm định sự bằng nhau của phương sai hai biến chuẩn 32
2.6 Kiểm định sự bằng nhau của hai xác suất (so sánh hai tỷ lệ) 33
III MỘT VÀI KIỂM ĐỊNH PHI THAM SỐ 34
3.1 Kiểm định luật phân phối xác suất 34
a) Trường hợp các pi đã biết 35
b) Trường hợp các pi phụ thuộc các tham số chưa biết 36
3.2 Kiểm định sự độc lập của hai đặc tính định tính 37
BÀI TẬP CHƯƠNG 6 40
Chương 7 TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH 45
I MẪU THỐNG KÊ HAI CHIỀU 45
1.1 Biến ngẫu nhiên hai chiều 45
1.2 Mẫu thống kê hai chiều 45
a) Nếu mẫu nhỏ (n nhỏ) 45
b) Nếu mẫu lớn và có nhiều số liệu trùng nhau 45
c) Nếu mẫu lớn và các số liệu ít trùng nhau 45
II HỆ SỐ TƯƠNG QUAN 46
2.1 Sự liên hệ tương quan 46
2.2 Hệ số tương quan lý thuyết 46
2.2 Hệ số tương quan mẫu 47
2.3 Kiểm định sự tương quan 48
III HỒI QUY TUYẾN TÍNH 49
3.1 Hàm hồi quy lý thuyết 49
3.2 Hàm hồi quy tuyến tính mẫu 50
3.3 Dự báo theo phương trình hồi quy 52
BÀI TẬP CHƯƠNG 7 54
CÁC BẢNG SỐ 57
Bảng1: Giá trị hàm phân phối chuẩn tắc: 57
Bảng 2: Phân vị Student: 58
Bảng 3: Phân vị khi bình phương 59
Bảng 4: Phân vị Fisher – Snedecor mức 0,05 60
Trang 3Chương 4 NHỮNG KHÁI NIỆM CƠ BẢN MỞ ĐẦU VỀ THỐNG KÊ
I TỔNG THỂ VÀ MẪU
1.1 Tổng thể
Trong thực tế và trong khoa học chúng ta thường phải khảo sát một tập hợp có rất nhiều phần tử Chẳng hạn khảo sát chiều cao của thanh niên Việt nam thì mọi thanh niên Việt nam đều là đối tượng cần khảo sát hay khảo sát nang suất của giống lúa A thì đối tượng khảo sát là mọi thửa ruộng trồng giống lúa A Trong lý thuyết toán thống kê, người ta gọi các tập hợp đó là tổng thể (còn gọi là tập hợp chính hoặc đám đông)
Số lượng các cá thể của tổng thể gọi là kích thước của tổng thể, thường ký hiệu bằng chữ
in hoa N
1.2 Mẫu
Do tổng thể quá lớn, và hơn nữa có nhiều nghiên cứu phải phá huỷ đối tượng nghiên cứu, chẳng hạn khi định lượng hàm lượng của một loại thuốc chữa bệnh nào đó bằng phương pháp hoá học
Bởi vậy cần chọn ra n phần tử của tổng thể để nghiên cứu, n phần tử được chọn đó gọi là một mẫu có kích thước n (hay mẫu có dung lượng n)
Kích thước mẫu thường rất nhỏ so với kích thước của tổng thể (n << N)
Tập hợp tất cả các mẫu có kích thước n có thể lấy được từ tổng thể gọi là không gian mẫu
có kích thước n
Nếu đặc tính cần nghiên cứu là đặc tính định lượng X, ký hiệu xi là giá trị của X đo được ở
cá thể thứ i của mẫu thì được bộ số liệu (x1, x2, , xn) Bộ số liệu (x1, x2, , xn) gọi là một mẫu thống kê kích thước n của X Dễ thấy khi đó đặc tính cần nghiên cứu X là một biến ngẫu nhiên
1.3 Các phương pháp lấy mẫu
Mục đích chọn mẫu là từ kết quả khảo sát các phần tử của mẫu để đưa ra kết luận cho cả tổng thể Vì thế mẫu phải đại diện cho cả tổng thể Muốn vậy mọi phần tử của tổng thể đều có cùng khả năng được chọn vào mẫu, nói cách khác việc chọn mẫu phải dựa trên nguyên tắc ngẫu nhiên
Các phương pháp cụ thể xem trong SGK (trang 97, 97)
II BỐ TRÍ MẪU VÀ PHÂN PHỐI MẪU
Nếu các số liệu thu thập được có nhiều giá trị giống nhau thì đếm số các giá trị giống nhau
và xếp các số liệu thành bảng hai dòng Chẳng hạn trong n giá trị thu được chỉ có k giá trị khác nhau là x1, x2, …, xk (trong đó xi < xi + 1) và có ni giá trị xi thì xếp thành bảng:
Trang 4Bảng trên gọi là mẫu có tần số
Thí dụ: Đo chiều cao của 20 thanh niên thấy có: 5 người cao 165 cm, 2 người cao 167, 3
người cao 164, 4 người cao 166, 2 người cao 163 và 1 người cao 168 Khi đó ta có bảng:
Gọi xmin, xmax tương ứng là giá trị nhỏ nhất và lớn nhất của các số liệu thu thập được và giả
sử ta chia các số liệu thành k khoảng Khi đó đại lượng:
k
xx
h max mingọi là độ rộng của lớp
Đặt x0 xmin; xi = x0 + ih, i = 1, 2, …, k sao cho xk xmax Mỗi khoảng (xi – 1, xi] được gọi
là một lớp (chú ý rằng cũng có thể chọn lớp là [xi – 1,xi)) Đếm các giá trị thuộc các lớp và xếp thành bảng:
Giá trị giữa lớp gọi là giá trị đại diện của lớp
Bảng trên gọi là mẫu phân lớp
Thí dụ: Cân thử 40 con gà 3 tháng tuổi được kết quả (đơn vị tính kg/con):
1,20 1,26 1,21 1,17 1,19 1,25 1,22 1,22 1,19 1,18 1,25 1,19 1,22 1,20 1,21 1,21 1,20 1,20 1,25 1,18 1,24 1,15 1,23 1,21 1,22 1,24 1,18 1,23 1,21 1,18 1,16 1,17 1,20 1,15 1,18 1,22 1,21 1,23 1,26 1,24
Trang 52.2 Biểu diễn hình học của mẫu
Có thể lập bảng tần suất cho mẫu có tần số:
III CÁC SỐ ĐẶC TRƯNG CỦA MẪU
Sau khi sắp xếp lại các số liệu, ta thường phải tính các số đặc trưng của mẫu Sau đây là một số số đặc trưng chính của một mẫu thống kê
2
n
1n
x
xx
x (4.1) Nếu mẫu cho có tần số:
2 1
k k 2
2 1
n
1n
nn
xn
xnxn
x (4.1a)
Nếu mẫu là phân lớp thì tính như mẫu có tần số, nhưng tính theo giá trị đại diện của lớp (giá trị giữa lớp)
Trung bình mẫu đặc trưng cho độ lớn của các số liệu quan sát được
2.2 Phương sai mẫu
Số phương sai của mẫu thống kê (x1, x2, …, xn) là số: s*2
=
n 1 i
2
i x)x(n
1
(4.2) Biến đổi (4.2) được:
7 (7/40)
5 (5/40)
3 (3/40)
0 1,14 1,16 1,18 1,20 1,22 1,24 1,26 X
Trang 6s*2 = n 2
1 i
2 i 2
2 n
1 i i n
1 i
2 i 2
n
1 i i n
1 i
2
n
1n
xx
nx
n
1xn
1 i
2 i
i(x x)n
n
1
(4.3) Biến đổi (4.3) được:
1 i
2 i i 2
2 n
1 i
n
1 i i i 2
i i 2
k
1 i i i k
1 i
2 i
n
1n
xnx
nnx
nn
1xnn
Với mẫu phân lớp thì dùng công thức mẫu có tần số để tính và tính theo giá trị giữa của lớp (giá trị đại diện của lớp)
Căn bậc hai của phương sai gọi là độ lệch chuẩn của mẫu và ký hiệu là s*: 2
*s
*
s
2.3 Phương sai hiệu chỉnh của mẫu
Số phương sai hiệu chỉnh của mẫu thống kê (x1, x2, …, xn) là số: s2
= s*21n
2
i x)x(1n
xnx)
1n(n
xx
n 1 i
2 i
2 n 1 i i n
1 i
2 i
2 i
i(x x)n
1n
xnxn)
1n(n
xnx
n
k 1 i
2 i i
2 k
1 i i i k
1 i
2 i i
Nếu coi trung bình mẫu x là tâm của dãy số liệu thu thập được thì đại lượng ei =xix là
độ lệch giữa xi và x , nó cho biết xi gần hay xa tâm x Bởi vậy phương sai mẫu cũng như phương sai mẫu hiệu chỉnh và các độ lệch chuẩn là đặc trưng cho độ phân tán các số liệu quan sát được quanh giá trị trung bình mẫu x
Chú ý rằng sau này chúng ta chỉ dùng phương sai hiệu chỉnh của mẫu s 2 mà không dùng phương sai mẫu s*2 Điều này sẽ được lý giải ở chương sau
Trang 7Phương sai, độ lệch chuẩn cũng như phương sai hiệu chỉnh, độ lệch chuẩn hiệu chỉnh đặc trưng cho độ phân tán của các số liệu quanh giá trị trung bình mẫu
Thí dụ 1 Tính các số đặc trưng của mẫu (số liệu của thí dụ 1 trong 2.1)
Giải: Thường dùng các công thức (4.1a), (4.2a) hoặc (4.3a), (4.4a) hoặc (4.5a) để tính các
số đặc trưng của mẫu Khi đó cần phải tính dung lượng mẫu n và các tổng: x, x2
Có hai cách tính các tổng này:
x = 1,203
Trang 8Phương sai mẫu: s*2 = (1,203)2
40
9216,
57 = 0,00083 độ lệch chuẩn: s* = 0,0288
Phương sai mẫu hiệu chỉnh: s2 =
39
)203,1(409216,
57 2 = 0,00085 s = 0,0292
IV MẪU NGẪU NHIÊN
4.1 Mẫu ngẫu nhiên
Xét mẫu lượng n của biến ngẫu nhiên X Gọi Xi là biến ngẫu nhiên chỉ giá trị của X ở cá thể thứ i của mẫu thì được bộ biến ngẫu nhiên (X1, X2, …, Xn)
Bộ các biến ngẫu nhiên (X1, X2, …, Xn) gọi là mẫu ngẫu nhiên của X
Do việc khảo sát các cá thể trong mẫu là độc lập nên các biến ngẫu nhiên Xi trong mẫu ngẫu nhiên được coi là độc lập với nhau và cùng phân phối xác suất với X
Người ta còn nói mẫu thống kê (x1, x2, …, xn) là một thể hiện hay là một mẫu cụ thể của mẫu ngẫu nhiên (X1, X2, …, Xn)
4.2 Các đặc trưng của mẫu ngẫu nhiên
Cũng như mẫu thống kê (x1, x2, …, xn) của biến ngẫu nhiên X, với mẫu ngẫu nhiên (X1, X2, …, Xn) cũng có các đặc trưng của nó Đó là là:
Trung bình mẫu ngẫu nhiên:
n
XX
n 1 i
*S
n 1 i
2 i
XXS
n 1 i
2 i 2
Như vậy các đặc trưng của mẫu ngẫu nhiên là các thống kê
Vì các thống kê là các hàm của các biến ngẫu nhiên nên nó cũng là các biến ngẫu nhiên và trong toán thống kê nó được khảo sát như mọi biến ngẫu nhiên khác, nghĩa là nó cũng có luật phân phối xác suất cũng như các số đặc trưng của nó
V MỘT SỐ PHÂN PHỐI XÁC SUẤT DÙNG TRONG TOÁN THỐNG KÊ
5.1 Các định lý về phân phối chuẩn
Phân phối chuẩn đã được trình bày trong chương 2, ở đây chỉ nêu thêm một số vấn đề về phân phối chuẩn
Với phân phối chuẩn có một số kết luận sau:
Trang 91X
2 n
1 i i
1XEn
1Xn
1 i
1Xn
1DXD
2 2 2 n
1 i
i 2
n
1 i i
3) Nếu X~N(x, x2), Y~N(y, y2
) thì X Y ~ N(x y, x2 + y2) (vì D(X Y) = D(X) + D(Y))
4) Trong toán thống kê thường phải tìm số u(/2) (còn ký hiệu là u/2) sao cho:
|X
|
)
Khi đó biểu thức đã cho là tương đương với: 2(u /2) – 1 = 1 – (u /2) = 1– /2
Từ đó số u(/2) được tìm bằng cách tra ngược bảng phân phối chuẩn: Tìm số 1 – /2 ở giữa bảng, dóng theo hàng và cột lên cột đầu tiên và hàng đầu tiên là số u(/2)
Thí dụ: u(0,025) = 1,96; u(0,05) = 1,645
Định nghĩa: Nếu X1, X2, …, Xn là n biến ngẫu nhiên độc lập, cùng phân phối chuẩn tắc thì
n
2 2
2 1 2
X
5.3 Phân phối Student
Định nghĩa: Nếu X, X1, X2, …, Xn là các biến ngẫu nhiên chuẩn tắc và độc lập với nhau
thì biến ngẫu nhiên
n 1 i
2 iXn1
/2 /2 -t( /2) O t( /2) t
Đồ thị hàm mật độ biến Chuẩn
tham số , 2
Trang 10
Phân phối Student là phân phối đối xứng (đường
cong mật độ xác suất là đối xứng qua trục tung) Đồ thị
của hàm mật độ xác suất của biến Student có dạng
giống như đồ thị hàm mật độ xác suất của biến chuẩn
tắc, nhưng ít nhọn hơn (n càng lớn thì đường cong mật
độ xác suất càng nhọn)
Trong toán thống kê thường gặp biểu thức xác suất:
P(|T| > t(/2, n) ) = , với đã cho
trong đó T ~ t(n) phải tìm t(/2, n) (hay t/2, n)
Khi đó số t(/2, n) được tìm trong bảng phân phối Student ở giao của cột , dòng n
Thí dụ: t(0,025; 15) = 2,131; t(0,05; 15) = 1,753
Người ta chứng minh được rằng khi n lớn thì phân phối Student n bậc tự do là xấp xỉ phân phối chuẩn tắc Trong thực tế, nếu n > 30 thì phân phối Student n bậc tự do được coi là phân phối chuẩn tắc Vi thế:
t(0,025; 31) = t(0,025;35) = t(0,025; n) = 1,96, n31 (tra ở dòng cuối của bảng Student) t(0,05; 31) = t(0,05;35) = t(0,05; n) = 1,645, n31 (tra ở dòng cuối của bảng Student)
5.4 Phân phối Fisher-Snedecor
Định nghĩa: Nếu X1, X2, …, Xn và Y1, Y2, …, Ym là các biến ngẫu nhiên chuẩn tắc và độc
lập với nhau thì biến ngẫu nhiên
2 i
n 1 i
2 i
Yn
Xm
F gọi là biến ngẫu nhiên Fisher với n, m bậc tự do
(Quy luật phân phối xác suất của F gọi là quy luật Fisher với n, m bậc tự do, chú ý bậc tự do của
tử số đọc trước) và ký hiệu F ~ F(n, m)
Trong toán thống kê thường gặp biểu thức xác suất:
P(F > F(,n,m) ) = , với đã cho
trong đó F ~ F(n,m) và phải tìm F(,n,m) (hay F, n, m)
Khi đó số F(,n,m) được tìm trong bảng phân phối
khi-bình phương ở giao của cột n, dòng m, bảng
Đồ thị hàm mật độ biến Student
n bậc tự do (n 1 > n 2 )
Trang 11BÀI TẬP CHƯƠNG 4
(Các số trong dấu ngoặc đơn là số của bài tập tương ứng trong sách giáo khoa)
1 (1)Điều tra năng suất lúa (X tạ/ha) trên 10 thửa ruộng được bảng số liệu sau:
Trang 12Chương 5 ƯỚC LƯỢNG THAM SỐ
Khái niệm về bài toán ước lượng tham số
Giả sử khi nghiên cứu biến ngẫu nhiên X tồn tại trong một tập hợp chính nào đó, chúng ta
đã biết quy luật phân phối xác suất của X, tuy nhiên còn tham số nào đó của X chưa xác định được giá trị, ta phải tiến hành xác định giá trị của bằng một mẫu thống kê (x1, x2,…,xn) của X Bài toán xác định giá trị (gần đúng) của tham số như vậy gọi là bài toán ước lượng
tham số
Về mặt lý thuyết, bài toán được giải quyết trên cơ sở mẫu ngẫu nhiên (X1, X2, …, Xn) của
X, và sau đó thay các biến ngẫu nhiên Xi bằng giá trị cụ thể xi của nó có trong mẫu cụ thể (x1,x2,…,xn) ta được đáp số cụ thể
Có hai phương pháp ước lượng:
1- Ước lượng điểm của : chỉ ra = 0 nào đó
2- Ước lượng khoảng của : Chỉ ra khoảng [1, 2] sao cho P(1 ≤ ≤ 2) = P với P được cho trước thì khoảng [1, 2] gọi là khoảng ước lượng (hay khoảng tin cậy) của và P gọi
là độ tin cậy của khoảng ước lượng [1, 2]
I ƯỚC LƯỢNG ĐIỂM
1.1 Định nghĩa
Giả sử cần ước lượng tham số của đại lượng ngẫu nhiên X
Một thống kê (một hàm) của mẫu ngẫu nhiên G = G(X1, …, Xn) dùng thay thể cho gọi là một ước lượng của tham số
Khi thay (X1, …, Xn) bằng một mẫu cụ thể (x1, …, xn) vào thống kê G thì được một giá trị
cụ thể G0 = G(x1, …, xn) G0 gọi là ước lượng điểm của
Dễ thấy G là biến ngẫu nhiên (vì nó là hàm của các biến ngẫu nhiên)
Với định nghĩa như trên sẽ có rất nhiều ước lượng cho tham số , bởi vậy phải có các tiêu chuẩn để lựa chọn ước lượng cho tham số
1.2 Các loại ước lượng
Người ta phân loại các ước lượng điểm như sau:
1-/ Ước lượng không chệch: Ước lượng G của tham số gọi là ước lượng không chệch nếu kỳ vọng của nó bằng chính , nghĩa là: E(G) =
Ý nghĩa: Giả sử ˆ là ước lượng không chệch của Ta có:
E(G ) = E(G) – E() = = 0 Vậy ước lượng không chệch là ước lượng có sai số trung bình bằng 0
2-/ Ước lượng hiệu quả: Ước lượng Gcủa tham số gọi là ước lượng hiệu quả nếu nó là ước lượng không chệch có phương sai nhỏ nhất:
D(G) đạt min trong mọi ước lượng không chệch của
3-/ Ước lượng vững: Ước lượng G của tham số gọi là ước lượng vững nếu khi tăng dung lượng mẫu thì G sẽ dần (theo xác suất) đến :
, >0 Một ước lượng điểm là chấp nhận được nếu nó đồng thời là ước lượng không chệch, ước lượng hiệu quả và ước lượng vững
Trang 13X là ước lượng không chệch đồng thời là ước lượng vững và ước lượng hiệu quả của kỳ vọng E(X) = của tổng thể X
1XEn
1Xn
1E)X(E
n 1 i
i n
1 i i
Vậy, trung bình mẫu X là ước lượng không chệch của kỳ vọng E(X)
Chúng ta thừa nhận X là ước lượng hiệu quả và là ước lượng vững của
b-/ Phương sai mẫu ngẫu nhiên hiệu chỉnh:
2 i 2
2
XX1n
1
*S1n
nS
là ước lượng không chệch, đồng thời là ước lượng hiệu quả và ước lượng vững của phương sai D(X) = 2
2
i XXn
2
i X)X(n
1 i
2
i ) (X )X
(n
1 i
i
2
i ) (X )[2(X ) (X )]
X(n
1 i
2
n
1)X(n
1)X(n
1
i i n
1 i
1 n1 i
2 2
i ) (X )X
(n
2 2
i ) (X )X
(n
1
n 1 i
2
i ) E(X )X
(En
1 i
Trang 14*SE1n
n
2n
1n.1n
Vậy phương sai hiệu chỉnh S2 của mẫu là ước lượng không chệch của phương sai D(X) = 2
của tổng thể X
Ta thừa nhận phương sai hiệu chỉnh S2
của mẫu cũng là ước lượng vững và ước lượng hiệu quả của D(X) = 2
Chú ý: Vì phương sai mẫu S*2 là ước lượng chệch của D(X) = 2 nên không dùng để ước lượng 2
Phải ước lượng D(X) bằng phương sai hiệu chỉnh S 2 của mẫu
c-/ Tần suất là ước lượng vững, đồng thời là ước lượng hiệu quả và ước lượng vững của
2.1 Khoảng tin cậy Độ tin cậy
Giả sử đại lượng ngẫu nhiên X có tham số chưa biết Tìm khoảng [1, 2] chứa sao cho P(1 ≤ ≤ 2) = P, với P là xác suất cho trước
Từ ước lượng điểm G = G(X1, X2, , Xn) chấp nhận được của , ta tìm quy luật phân phối xác suất của G, từ đó tìm được các thống kê G1 = G1(X1, X2, , Xn) và G2 = G2(X1, X2, , Xn) sao cho:
P(G1 G2) = P (5.1)
Vì P gần bằng 1, nên biến cố (G1 G2) hầu như xảy ra
Với mẫu thống kê cụ thể (x1, x2, …, xn) của X, ta tính được:
1 = G1(x1, x2, …, xn), 2 = G2(x1, x2, …, xn) Vậy, với P cho trước, ta xác định được khoảng (1, 2) chứa sao cho:
P( [1, 2]) = P
Trang 15- Khoảng [1, 2] gọi là khoảng tin cậy hay khoảng ước lượng của tham số
- Số P gọi là độ tin cậy của khoảng tin cậy
- Đại lượng 2d = |1 2| gọi là độ rộng của khoảng tin cậy
Chú ý: Với cùng độ tin cậy P, khoảng ước lượng (1, 2) có độ rộng càng nhỏ càng tốt Cùng độ tin cậy P có rất nhiều 1, 2 thỏa mãn (5.1), do đó có rất nhiều khoảng tin cậy khác nhau nên cần phải chọn khoảng nào có độ rộng nhỏ nhất
2.2 Ước lượng kỳ vọng (giá trị trung bình) của phân phối chuẩn
Bài toán: Giả sử X là biến ngẫu nhiên chuẩn N(, 2), trong đó M(X) = chưa biết Hãy tìm khoảng tin cậy của với độ tin cậy P cho trước từ mẫu thống kê (x1, x2, …, xn) của X
Giải: Như đã biết trong phần I, trung bình mẫu của mẫu ngẫu nhiên
1 i iXn
1
lượng điểm chấp nhận được của
Có hai trường hợp xảy ra:
a) Trường hợp biết phương sai D(X) = 2
|
~ N(0, 1)
Bởi vậy, với độ tin cậy P đã cho có thể tìm phân vị chuẩn u/2, trong đó = 1 – P được:
|X
|X
|P
Ta thừa nhận việc chọn u /2 như vậy cho khoảng tin cậy của có độ rộng nhỏ nhất
Thí dụ 1: Biết chiều dài của một loại sản phẩm là lượng ngẫu nhiên chuẩn N(; 4) Đo chiều dài của 25 sản phẩm tính được chiều dài trung bình x = 99,82mm Hãy tìm khoảng tin cậy (độ dài trung bình của sản phẩm) với độ tin cậy 0,95
Giải: Theo giả thiết có = 2, tra bảng chuẩn được u0,025 = 1,96
Từ đó có khoảng tin cậy cần tìm:
[99,82 – 1,96 2
25; 99,82 +
21,96
25 ] [99,036; 100,604]
Trang 16b) Trường hợp không biết phương sai 2
2 i 2
XX1n
1
nS
|X
;2/(tnS
|X
;2/(t
|X
x = 9,815;
Phương sai hiệu chỉnh của mẫu: s2 =
19.20
)3,196(29,1927
= 0,0319 Tra bảng Student được t(0,025; 19) = 2,093
Vậy khoảng tin cậy cần tìm là:
[9,815 – 2,093 0,0319
20 ; 9,815 +
0,03192,093
20 ] [9,731; 9,899] (đồng/sản phẩm)
Trang 172.3 Ước lượng phương sai của phân phối chuẩn
Bài toán: Giả sử X là đại lượng ngẫu nhiên chuẩn N(, 2), trong đó D(X) = 2 chưa biết Hãy tìm khoảng tin cậy của 2
với độ tin cậy P
Chọn thống kê
2
2S1n
2 i
1n
1
2
2S1n
0319,0.19
;144,30
0319,0
Thí dụ 2: Kết quả đo đường kính các viên bi kim loại (X mm) như sau:
X: 5,13 5,31 4,92 4,83 4,92 5,05 5,34 4,93 Giả sử các kết quả đo là lượng ngẫu nhiên chuẩn N(, 2), hãy tìm khoảng tin cậy 95%
0364,0.7
;013,16
0364,0
2.4 Ước lượng xác suất (tỷ lệ)
Bài toán: Giả sử mỗi cá thể trong tổng thể có đặc tính A với xác suất p (tỷ lệ cá thể có đặc
tính A là p) (p chưa biết) Hãy tìm khoảng tin cậy của p với độ tin cậy P cho trước
Giải: Ở 1.3c đã chứng minh được tần suất F các cá thể có tính chất A trong mẫu ngẫu
nhiên là ước lượng điểm của xác suất p
Trang 18Bởi vậy, chọn thống kê:
npq
p
F thì
npq
p
F ~ N(0, 1)
Do đó với xác suất P đã cho có thể tìm được phân vị chuẩn u/2 với = 1 P được:
|pF
|pF
|P
|pf
;n
)1(uf
2
2
Thí dụ 1: Kiểm tra 200 sản phẩm thấy có 25 sản phẩm có khuyết tật Hãy tìm khoảng tin
cậy tỷ lệ sản phẩm có khuyết tật với độ tin cậy 0,95
Giải: Tần suất sản phẩm có khuyết tật là: 0,125
200
25
Ở đây = 1 – 0,95 = 0,05 Tra bảng chuẩn được u0,025 = 1,96
Khoảng tin cậy cần tìm của tỷ lệ sản phẩm có khuyết tật là:
Thí dụ 2: Để biết tỷ lệ người tiêu dùng ưa thích một loại sản phẩm mới, người ta hỏi ý kiến
400 người và có 252 người trả lời là thích Hãy ước lượng tỷ lệ người thích loại sản phẩm đó với độ tin cậy 0,90
Giải: Tần suất số người thích loại sản phẩm mới là: 0,63
400252
Trang 19Ở đây = 1 – 0,90 = 0,10 Tra bảng chuẩn được u0,05 = 1,645
Khoảng tin cậy cần tìm của tỷ lệ người ưa thích sản phẩm đó là:
a) Trường hợp ước lượng kỳ vọng thì độ rộng của khoảng tin cậy là
2
2un
nên có:
2 2 2
Thí dụ: Biết X~N(, 0,16) Để độ chính xác của ước lượng khoảng với độ tin cậy 0,95 của không quá 0,5 thì cần lấy mẫu có bao nhiêu cá thể?
Giải: Tra bảng chuẩn được: u0,025 = 1,96
Từ đó: n ≥
2
1,96.0,40,25
Vậy phải lấy mẫu có ít nhất là 10 cá thể
b) Trường hợp ước lượng xác suất thì độ rộng của khoảng tin cậy là
2
p(1 p)2u
Thí dụ: Để đánh giá tỷ lệ đồng ý trong một cuộc thăm dò ý kiến về một vấn đề nào đó sao
cho độ rộng của khoảng tin cậy của tỷ lệ ủng hộ không vượt quá 0,06 thì cần hỏi ý kiến bao nhiêu người?
Giải:
Từ đó:
n ≥
2 2
1.964.0,03 = 1067,11 Vậy cần hỏi ít nhất 1068 người
Trang 20BÀI TẬP CHƯƠNG 5
1 (12)Đo một đại lượng 15 lần bằng một dụng cụ đo không có sai số hệ thống, tính được x =
19,25 Biết sai số X ~ N(; 0,4) Hãy tìm khoảng tin cậy của kỳ vọng với độ tin cậy 0,95
Đs: [18,93; 19,57]
2 (9)Trọng lượng X của các gói mì ăn liền tuân theo phân phối chuẩn Kiểm tra 20 gói mì tính
được x = 78,0g; s = 2,5 g Với độ tin cậy 0.95 hãy tìm khoảng tin cậy của E(X)
Với độ tin cậy 0,95, hãy:
a) Tìm khoảng tin cậy của trung bình
b) Tìm khoảng tin cậy của phương sai 2
Đs: a) x = 2,67; s 2 = 0,0927; [2,53; 2,81]; b) [0,0536; 0,1977]
5 (5)Biết trọng lượng X (g/quả) của trứng gà có phân phối chuẩn N(, 25) Cân một mẫu gồm
100 quả trứng ta có kết quả sau:
a) Với độ tin cậy 0,95 tìm khoảng tin cậy của trọng lượng trứng trung bình
b) Trứng có khối lượng lớn hơn 170 g là trứng loại một Với độ tin cậy 0,95 hãy tìm khoảng tin cậy của tỷ lệ trứng loại một
Đs: a) x = 170,85; s 2 =65,1793; [169,27; 172,43]; b) f = 0,45; [0,3525; 0,5475] (hoặc [0,3561; 0,5476] nếu giải bất phương trình)
6 (11)Đo độ chịu lực X (kg/cm2) của 250 mẫu bê tông ta có kết quả sau:
Trang 21Biết X có phân phối chuẩn N(, 2
)
Hãy tìm khoảng tin cậy của và khoảng tin cậy của 2 với độ tin cậy 0,98
Đs: x = 35; s 2
= 10,8889; [32,06; 37,94]; 2 [4,5232; ;46,4349]
8 (10)Kiểm tra 1000 mẫu máu một loại gia cầm có 120 mẫu chứa vi rút gây bệnh A Hãy tìm
khoảng tin cậy của tỉ lệ gia cầm chứa vi rút gây bệnh A với độ tin cậy 0,95
Đs: f = 0,12; [0,0999; 0,1401] (hoặc [0,1013; 0,1416], nếu giải bất phương trình)
9 (19)Đại lượng ngẫu nhiên X có phân phối chuẩn với phương sai 0,04 Tối thiểu phải điều
tra bao nhiêu mẫu để với độ tin cậy 0,95 độ rộng của khoảng tin cậy không quá 0,12
Đs: Ít nhất 43
10 (20)Phải kiểm tra ít nhất bao nhiêu mẫu bệnh phẩm để với độ tin cậy 0,95 độ rộng của
khoảng tin cậy tỉ lệ người mắc bệnh 0,05
Đs: 1537
11 (14)Để khảo sát mức tiêu thụ xăng trung bình của một loại ô tô người ta cho chạy thử 20 xe
loại này trên đoạn đường 100km Mức xăng tiêu thu tương ứng cho bởi bảng sau:
12 (13)Trọng lượng X của một giống lợn khi xuất chuồng là một biến ngẫu nhiên chuẩn Một
mẫu ngẫu nhiên gồm 9 con lợn đến thời gian xuất chuồng có trọng lượng cho bởi bảng sau:
13 (22)Kiểm tra 200 con gà tại một trại thấy có 80 con mắc bệnh A Hãy tìm khoảng tin cậy
của tỉ lệ gà mắc bệnh A ở trại gà nói trên với độ tin cậy 0,95
Đs: f = 0,4; [0,3321; 0,4679] (hoặc [0,3346; 0,4692] nếu giả bất phương trình)
14 (22)Biết đặc trưng X có phân phối chuẩn N(; 0,09) Hỏi dung lượng mẫu tối thiểu là bao nhiêu để với độ tin cậy 0,95 có thể tin rằng độ rộng của khoảng tin cậy của không vượt quá 0,5
Đs: 6
15 (24)Tỉ lệ người có nhóm máu O ở một tộc người là p Phải kiểm tra ít nhất bao nhiêu người
để với độ tin cậy 0,95 độ rộng của khoảng tin cậy của p không vượt quá 0,02
Đs: 9604
Trang 22Chương 6 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
I GIẢ THUYẾT, ĐỐI THUYẾT
1.1 Giả thuyết, đối thuyết
Giả thuyết là một mệnh đề (một câu khẳng định) về một vấn đề chưa biết nào đó
Khi nghiên cứu một (hoặc nhiều) biến ngẫu nhiên ta có thể nêu lên một giả thuyết nào đó liên quan đến biến ngẫu nhiên đó
Khi đã nêu một giả thuyết thì cần phải xây dựng các tiêu chí để đánh giá giả thuyết đó có được chấp nhận hay không Trong toán thống kê phải dựa vào các mẫu thu được để đưa ra kết luận có chấp nhận hay bác bỏ giả thuyết đã nêu Việc này gọi là kiểm định giả thuyết thống kê
Giả thuyết nêu lên để kiểm định gọi là giả thuyết không hay giả thuyết gốc, ký hiệu H0 Tuy nhiên, khi kết luận là bác bỏ giả thuyết H0 đã nêu thì cần phải chấp nhận một giả thuyết
khác Bởi vậy trong bài toán kiểm định thống kê phải có thêm một giả thuyết khác giả thuyết
H 0 gọi là đối thuyết H 1
Cặp giả thuyết H0, đối thuyết H1 được nêu ngay từ đầu bài toán kiểm định giả thuyết
Kết luận của bài toán kiểm định giả thuyết thống kê có dạng:
- Hoặc chấp nhận H0
- Hoặc bác bỏ H0, khi đó phải chấp nhận H1
Nếu giả thuyết H0 là về tham số của luật phân phối xác suất của một hay nhiều biến ngẫu
nhiên thì bài toán gọi là kiểm định tham số, nếu giả thuyết H0 không phải là tham số thì bài
toán gọi là kiểm định phi tham số
1.2 Quy tắc kiểm định giả thuyết
Giả sử phải kiểm định cặp giả thuyết H0, đối thuyết H1 liên quan đến biến ngẫu nhiên X Khi ấy, từ mẫu ngẫu nhiên (X1, X2, …, Xn) của X, ta chọn thống kê:
Z = Z(X1, X2, …, Xn) (6.1)
có liên quan đến cặp giả thuyết H0, H1
Đại lượng ngẫu nhiên Z gọi là tiêu chuẩn kiểm định cặp giả thuyết H0, đối thuyết H1 Gọi là tập xác định của biến ngẫu nhiên Z
Sau đó tìm quy luật phân phối xác suất của Z và với số > 0 đủ nhỏ cho trước ta xác định miền W sao cho:
P(Z W) = (6.2)
Vì đủ nhỏ nên sự kiện (Z W) là khó xảy ra trong thực tế (nguyên lý xác suất nhỏ)
Miền W xác định như vậy gọi là miền bác bỏ giả thuyết H0
Số gọi là mức ý nghĩa của kiểm định
Đặt: W\W
Miền W gọi là miền chấp nhận giả thuyết H0
Dễ thấy xác suất chấp nhận giả thuyết H0 là: P(Z W) = 1 –
Sau khi xây dựng được thống kê Z, cũng như miền chấp nhận giả thuyết Wvà miền bác bỏ giả thuyết W thì được quy tắc kiểm đinh:
Từ mẫu cụ thể (x1, x2, …, xn) ta tính được giá trị thống kê thực nghiệm ZT của Z
Nếu ZTW thì kết luận bác bỏ H0 và chấp nhận H1;
Nếu ZT W ZT Wthì kết luận chấp nhận H0 (và đương nhiên H1 bị bác bỏ)
Trang 231.3 Các loại sai lầm
Khi tiến hành kiểm định cặp giả thuyết, đối thuyết H0, H1 có thể mắc hai loại sai lầm sau:
Sai lầm loại một: Bác bỏ giả thuyết H0 khi H0 đúng
Người ta tính được xác suất của sai lầm loại một là ( là mức ý nghĩa của kiểm định)
Sai lầm loại hai: Chấp nhận giả thuyết H0 khi H0 sai
Gọi là xác suất của sai lầm loại hai, thì 1 – gọi là lực lượng của tiêu chuẩn kiểm định Z Một quy tắc kiểm định là tốt nếu cả hai loại sai lầm đều có xác suất nhỏ Tuy nhiên điều đó
là khó thực hiện, hơn nữa nếu giảm thì có nguy cơ là tăng và ngược lại, mặt khác do sai lầm loại một là dễ kiểm soát hơn do đó người ta thường chọn trước như là một ngưỡng hợp lý
Từ đó thấy rằng chấp nhận một giả thuyết không có nghĩa là giả thuyết đó hoàn toàn đúng
hay bác bỏ một giả thuyết không có nghĩa đó là giả thuyết đó hoàn toàn sai Nói cách khác, kết luận của kiểm định giả thuyết chỉ là một quy tắc hành động chứ không phải là một chứng
minh tính đúng hay sai của một giả thuyết
II CÁC BÀI TOÁN KIỂM ĐỊNH THAM SỐ
Giả sử đã biết luật phân phối của biến ngẫu nhiên X, nhưng chưa biết giá trị của tham số trong luật phân phối đó Khi đó có thể nêu giả thuyết H0: = 0, trong đó 0 là một số đã cho Với giả thuyết H0: = 0 có thể chọn một trong 3 đối thuyết H1 sau:
- H1: 0 và gọi là đối thuyết hai phía
- H1: > 0 và gọi là đối thuyết phải
- H1: < 0 và gọi là đối thuyết trái
Hai đối thuyết sau ( > 0 và > 0) gọi chung là đối thuyết một phía
Bài toán kiểm định với đối thuyết hai phía gọi bài toán kiểm định hai phía
Bài toán kiểm định với đối thuyết một phía gọi bài toán kiểm định một phía
Chú thích:
Khái niệm kiểm định hai phía hay kiểm định một phía là do:
Nếu miền bác bỏ giả thuyết H0 nằm ở hai bên miền chấp nhận thì gọi là kiểm định hai phía
Nếu miền bác bỏ giả thuyết H0 nằm ở một bên miền chấp nhận thì gọi là kiểm định một phía
2.1 Kiểm định kỳ vọng của biến chuẩn
Bài toán: Giả sử biến ngẫu nhiên X~N(, 2), trong đó chưa biết giá trị của M(X) =
Từ mẫu ngẫu nhiên (X1, X2, …, Xn) ta xây dựng quy tắc kiểm định giả thuyết H0: = 0 với các đối thuyết khác nhau ở mức ý nghĩa
a) Trường hợp biết phương sai 2
Chọn thống kê Z thì với đã cho, nếu đối thuyết là:
a1) H1: 0 thì tìm số u/2 từ bảng chuẩn sao cho: P(| Z | > u/2) =
Vậy có miền bác bỏ giả thuyết H0 là: W = {|Z| > u /2} (–,–u /2) (u /2, )
Trang 24a2) H1: > 0 thì tìm số u từ bảng chuẩn sao cho: P(Z > u) =
Vậy có miền bác bỏ giả thuyết H0 là: W = (u, )
a3) H1: < 0 thì tìm số u từ bảng chuẩn sao cho: P( Z < – u) =
Vậy có miền bác bỏ giả thuyết H0 là: W = (–,–u)
Vậy có quy tắc kiểm định:
Quy tắc 1: Từ mẫu cụ thể (x1, x2, , xn) thực hiện các bước sau để kiểm định giả thuyết H0:
= 0 với các đối thuyết H1 khác nhau khi đã biết 2 ở mức :
Thí dụ: Kiểm tra đường kính X (mm) của 25 viên bi được chọn ngẫu nhiên từ một dây
chuyền sản xuất bi tự động tính đượcx = 9,98 (mm) Biết X ~ N(; 0,0004) Với mức ý nghĩa 0,05 hãy cho biết bi sản xuất ra có đạt tiêu chuẩn quy định về đường kính là 10 mm
(Tiến hành kiểm định cả hai phía và một phía)
Giải:
1-/ Kiểm định hai phía: Ta có H0: = 10 và H1: 10
Ta phải kiểm định giả thuyết H0: E(X) = 10 với đối thuyết H1: E(X) 10, mức ý nghĩa 0,05
Tính thống kê thực nghiệm: ZT =
0004,0
25)1098,9
Vậy H0 bị bác bỏ, chấp nhận H1: Đường kính các viên bi là nhỏ hơn tiêu chuẩn
b) Trường hợp chưa biết phương sai 2
2
i XX1n
1
thay cho phương sai D(X) (ước lượng D(X) bằng S2
) và:
Nếu H0 đúng, thống kê Z = 0 0 2
S
nX
nS
là biến Student n – 1 bậc tự do, do đó
với đã cho, nếu đối thuyết H1 là:
Trang 25b1) H1: 0 thì tìm số t/2, n –1 từ bảng Student sao cho: P(| Z | > t/2, n –1) =
Vậy có miền bác bỏ giả thuyết là: W ={|ZT| > t/2, n – 1 } (–,–t/2, n –1) (t/2, n –1, ) b2) H1: > 0 thì tìm số t, n –1 từ bảng Student sao cho: P( Z > t, n –1) =
Vậy có miền bác bỏ giả thuyết là: W = (t /2, n –1, )
b3) H1: < 0 thì tìm số t, n –1 từ bảng Student sao cho: P( Z < – t, n –1) =
Vậy có miền bác bỏ giả thuyết là: W = (–,–t, n –1)
Vậy có quy tắc kiểm định:
Quy tắc 2: Từ mẫu cụ thể (x1, x2, , xn) thực hiện các bước sau để kiểm định giả thuyết H0:
= 0 với các đối thuyết H1 khác nhau khi chưa biết ở mức
- Bước 1: Tính trung bình mẫux và phương sai hiệu chỉnh s2
c) Chú thích: Việc tiến hành kiểm định hai phía hay một phía là tuỳ thuộc vào giá trị
trung bình mẫux tính được và số 0 đã cho:
Nếux 0 thì tiến hành kiểm định hai phía
Nếux << 0 thì tiến hành kiểm định một phía với H1: < 0
Nếux >> 0 thì tiến hành kiểm định một phía với H1: > 0
Thí dụ 1: Kết quả điều tra giá bán mặt hàng A tại 10 cửa hàng như sau (đơn vị nghìn đồng
một sản phẩm):
15,0; 14,7; 14,8; 15,1; 14,8; 15,2; 15,0; 14,7; 15,1; 15,2 Biết giá bán trung bình của mặt hàng này năm trước là 14,8 nghìn đồng/ sản phẩm
Giả sử giá bán là lượng ngẫu nhiên chuẩn Với mức 0,05 có thể coi mặt hàng A là tăng giá?
Giải: Gọi X là giá bán mặt hàng A, ta phải kiểm định giả thuyết H0: E(X) = 14,8 với đối thuyết H1: E(X) > 14,8
9.10
6,14936,2238
= 0,0382
Lượng thống kê: ZT = (14,96 – 14,8)
0382,0
10
= 2,588 Tra bảng Student được: t(0,05; 9) = 1,833
Vậy, Bác bỏ H0, chấp nhận H1: Có thể coi mặt hàng A là tăng giá
Trang 26Thí dụ 2: Kiểm tra ngẫu nhiên trọng lượng X (gam) của các gói mỳ ăn liền có trọng lượng
quy định 75 gam được kết quả:
Giả sử trọng lượng các gói mỳ là lượng ngẫu nhiên chuẩn Với mức ý nghĩa = 0,05, có thể coi trọng lượng các gói mỳ là đạt trọng lượng quy định? (Tiến hành kiểm định hai phía và kiểm định một phía)
28154413
= 1,750
Lượng thống kê: ZT = (74,25 – 75)
75,1
28 = – 3,00 Tra bảng Student được t(0,025; 27) = 2,025
Kết luận: Bác bỏ H0, chấp nhận H1: Trọng lượng trung bình các gói mỳ không đúng quy định
2) Kiểm định một phía: Giả thuyết H0: E(X) = 75; đối thuyết H1: E(X) < 75
Tính toán như trên được ZT = – 3,00
Tra bảng Student được t(0,1; 27) = 1,703
Kết luận: Bác bỏ H0, chấp nhận H1: Trọng lượng trung bình các gói mỳ thấp hơn quy định
Thí dụ 3: Một máy tiện tự động được lập trình để tiện ra các chi tiết có đường kính 1,5
cm Để kiểm tra người ta đo thử đường kính của 40 chi tiết và tính đượcx = 1,506 cm và s = 0,02 Giả sử đường kính các chi tiết là lượng ngẫu nhiên chuẩn N(, 2) Ở mức 0,05, hãy kiểm định:
a) Giả thuyết H0: = 1,5 với đối thuyết H1: 1,5
b) Giả thuyết H0: = 1,5 với đối thuyết H1: > 1,5
Giải: Từ giả thuyết đã cho, ta có:
ZT = (1,506 – 1,5)
02,0
40
= 1,897 a) Tra bảng Student được t(0,025; 39) = 1,96 Chấp nhận H0: Các chi tiết đạt yêu cầu b) Tra bảng Student được t(0,05; 39) = 1,645 Chấp nhận H1: Các chi tiết đạt có đường kính lớn hơn yêu cầu
(Hai kết luận trong a) và b) là khác nhau do mắc các sai lầm (loại một hoặc loại hai) trong đó)
Trang 272.2 Kiểm định một xác suất (tỷ lệ)
Bài toán: Giả sử mỗi cá thể trong tổng thể có đặc tính A với xác suất p chưa biết (tỷ lệ cá thể
có đặc tính A bằng p) Lấy mẫu kích thước n, thấy có k cá thể có đặc tính A
Hãy xây dựng quy tắc kiểm định giả thuyết H0: p = p0 với các đối thuyết khác nhau ở mức
ý nghĩa
Tiêu chuẩn kiểm định
Mẫu ngẫu nhiên trong bài toán này là lượng ngẫu nhiên X chỉ số cá thể có đặc tính A trong
Do đó thống kê Z =
n
)q1(p
pF0 0
np
F
Từ đó với mức đã cho, nếu đối thuyết H1 là:
a) H1: p p0 thì tìm từ bảng chuẩn số u/2 sao cho: P(| Z | > u/2) = 1 –
Vậy miền bác bỏ giả thuyết H0 là: W = (–,–u/2) (u/2, )
b) H1: p > p0 thì tìm số u từ bảng chuẩn sao cho: P(Z > u) =
Vậy có miền bác bỏ giả thuyết H0 là: W = (u, )
c) H1: p < p0 thì tìm số u từ bảng chuẩn sao cho: P( U < – u) =
Vậy có miền bác bỏ giả thuyết H0 là: W = (–,–u)
Vậy có quy tắc kiểm định:
Quy tắc 3 Từ mẫu cụ thể có k cá thể có tính chất A trong n cá thể quan sát thì thực hiện
các bước sau để kiểm định giả thuyết H0: p = p0 với các đối thuyết H1 khác nhau ở mức
- Bước 1: Tính tần suất cá thể có tính chất A từ mẫu đã cho f =
nk
- Bước 2 Tính lượng thống kê thực nghiêm: ZT =
0 0 0
p1p
np
- Nếu f p0 thì tiến hành kiểm định hai phía
- Nếu f << p0 thì tiến hành kiểm định một phía với H1: p < p0
- Nếu f >> p0 thì tiến hành kiểm định một phía với H1: p > p0
Thí dụ: Theo báo cáo của phân xưởng thì tỷ lệ sản phẩm loại một của phân xưởng là 90%
Kiểm tra ngẫu nhiên 200 sản phẩm do phân xưởng đó sản suất thấy có 172 sản phẩm loại một
Trang 28Ở mức 0,05 hãy cho nhận xét về báo cáo tỷ lệ sản phẩm loại một của phân xưởng là phù hợp hay thấp hơn thực tế?
Giải: Gọi p là tỷ lệ sản phẩm loại một của phân xưởng, bài toán đã nêu là kiểm định giả
thuyết H0: p = 0,9 với đối thuyết H1: p < 0,9 ở mức 0,05 Ta có
Tần suất sản phẩm loại một theo mẫu: f =
200 = –1,8856 Tra bảng chuẩn được u0,05 = 1,645
Vậy: H0 bị bác bỏ, chấp nhận H1: Tỷ lệ sản phẩm loại một theo báo cáo là thấp hơn thực tế
2.3 Kiểm định sự bằng nhau của kỳ vọng hai biến chuẩn, mẫu độc lập
Bài toán: Giả sử X~N(x, x2) và Y~N(y, y2), trong đó x, y chưa biết Hãy kiểm định giả thuyết H0: x = y với các đối thuyết H1 khác nhau ở mức ý nghĩa
Các đối thuyết H1 là: xy (1 phía); x>y; x<y (2 phía) Có thể coi x>y; x<y là một
vì chỉ cần coi X là Y và Y là X thì đối thuyết này trở thành đối thuyết kia và ngược lại
1
n
2 x
1
m
2 y
)
mn,(
N
~YX
2 y
2 x y x
2 x
2 y
2
m.n)
YX(mn
YX
Bởi vậy, với mức đã cho, nếu đối thuyết H1 là:
a1) H1: x y thì tìm u/2 từ bảng chuẩn sao cho P(| Z | > u/2) = 1 – Từ đó có: Miền bác bỏ giả thuyết H0 là: W = (– , – u/2) (u/2, )
a2) H1: x > y thì tìm u từ bảng chuẩn sao cho P(Z > u) = 1 – Từ đó có:
Miền bác bỏ giả thuyết H0 là: W = (u, )
Vậy có quy tắc kiểm định
Quy tắc 4 Từ hai mẫu cụ thể (x1, x2, , xn) của X và (y1, y2, , yn) của Y thực hiện các bước sau để kiểm định giả thuyết H0: x = y với đối thuyết H1 khác nhau khi biết x và y:
- Bước 1: Tính các trung bình mẫux vày từ các mẫu đã cho
- Bước 2: Tính thống kê thực nghiệm: ZT = 2
x
2
y nm
m.n)
yx(
Trang 292 i
2
1n
2 i
2
1m
1S
SS
Bởi vậy, ở mức đã cho, với các đối thuyết H1 khác nhau thì miền chấp nhận giả thuyết
H0, miền bác bỏ giả thuyết H0 và các quy tắc kiểm định tương ứng giống như trong 2.3a (Quy tắc 4 nhưng thay x2 bằng sx2 và y2 bằng sx2)
) Trường hợp 2: có mẫu nhỏ (hoặc n < 30, hoặc m < 30) và 2 2
σ σ
Giả thuyết x = y = và được ước lượng bằng phương sai chung:
2mn
S)1m(S)1n(2
mn
)YY()
XX(S
2 y
2 x
m 1 i
2 i n
1 i
2 i 2
m.n)YX(m
SnS
YX
Miền bác bỏ giả thuyết H0 là: (u, )
Vậy có quy tắc kiểm định
Quy tắc 5 Từ hai mẫu cụ thể (x1, x2, , xn) của X và (y1, y2, , yn) của Y thực hiện các bước sau để kiểm định giả thuyết H0: x = y với các đối thuyết H1 khác nhau khi không biết x
và y và mẫu nhỏ (n ≤ 30, m ≤ 30):
- Bước1: Tính các trung bình mẫu và các phương sai hiệu chỉnhx, sx2 vày, sy2
từ các mẫu đã cho
- Bước 2: Tính phương sai chung s2 =
2mn
s)1m(s)1n
m.n)yx(
Trang 30Chú thích: Nếu không có giả thuyết x = y thì phải bổ sung vào các quy tắc 5 kiểm định giả thuyết phụ H0: x = y sau khi đã tính các trung bình và phương sai hiệu chỉnh của các mẫu thống kê (quy tắc kiểm định giả thuyết H0: x = y được trình bày ở phần sau)
Thí dụ 1: Điều tra năng suất của cùng một giống lúa tại hai địa phương như sau:
Địa phương A: Điều tra 40 hộ, tính được năng suất trung bìnhx = 52,37 tạ/ha và sx2
= 2,4326
Địa phương B: Điều tra 35 hộ, tính được năng suất trung bìnhy = 53,22 tạ/ha và sy2 = 3,2574 Giả sử năng suất lúa tại các địa phương là lượng ngẫu nhiên chuẩn
Với mức ý nghĩa 0,05, hãy kiểm định giả thuyết H0: Năng suất lúa trung bình ở hai địa phương là như nhau; với các đối thuyết H1:
a) Năng suất lúa trung bình ở hai địa phương là khác nhau
b) Năng suất lúa trung bình ở địa phương A là thấp hơn địa phương B
Giải: Ta có lượng thống kê:
ZT = (52,37 – 53,22 )
4326,2.352574,3.40
35.40
Từ đó có phương sai chung: s2
=
12
645,1.7999,1
= 1,7925
Lượng thống kê ZT = (16,85 – 1,999)
7925,1)86(
8.6