5. Bố cục đề tài
4.1. Kiểm định dấu
Trước hết ta nhắc lại định nghĩa trung vị của biến ngẫu nhiên liên tục.
Định nghĩa 4.1. Số thực được gọi là trung vị của biến ngẫu nhiên liên
tục X nếu:
( ) ( )0,5.
P X P X
Trong trường hợp biến ngẫu nhiên X đối xứng thì trung vị bằng kì vọng. Giả sử biến ngẫu nhiên liên tục X có trung vị chưa biết. Xét giả thuyết gốc
0: 0.
H
Định lý 4.1. Gọi (X X1, 2,...,Xn) là mẫu ngẫu nhiên của biến ngẫu nhiên liên tục X, kí hiệu Y là số giá trị của mẫu ngẫu nhiên lớn hơn 0. Nếu H0 đúng thì biến ngẫu nhiên Y có phân bố nhị thức B n( ;0,5).
Áp dụng định lí trên ta có kết quả sau.
Cho biến ngẫu nhiên X có trung vị chưa biết. Giả thuyết gốc H0: 0.
Giá trị kiểm định thống kê: k là số giá trị của mẫu số liệu ( ,x x1 2,...,xn) lớn hơn 0.
Đối thuyết Miền bác bỏ p-giá trị
̃ ̃ 2P(Y k) ̃ ̃ P(Y ̃ ̃ P(Y
Ví dụ 4.1. Trong quy trình sản xuất cà phê hòa tan từ bột cà phê rang như sau: bột cà phê rang -> trích ly -> cô đặc -> sấy khô -> cà phê hòa tan. Kết quả nghiên cứu chỉ ra rằng hàm lượng caffeine còn lại sau sấy khô có trung vị là 3,55 gam trên 100 gam cà phê cô đặc. Thử nghiệm quy trình sản xuất cà phê hòa tan đối với 8 mẫu cà phê ở DakLak thu được hàm lượng caffeine còn lại sau sấy khô trên 100 gam cà phê cô đặc như sau:
TT Hàm lược Caffeine (g/100g cà phê cô đặc) Dấu
1 4,8 + 2 4,0 + 3 3,8 + 4 4,3 + 5 3,9 + 6 4,6 + 7 3,1 - 8 3,7 +
Với mức ý nghĩa 5% có thể cho rằng trung vị của hàm lượng caffeine còn lại sau sấy khô trên 100 gam cà phê cô đặc ở DakLak khác 3,55 không?
Gọi là trung vị của hàm lượng caffeine còn lại sau sấy khô trên 100 gam cà phê cô đặc ở DakLak. Bài toán kiểm định giả thuyết H0:3,55, H1:3,55. Gọi Y là số giá trị của mẫu ngẫu nhiên (X1,...,X8) lớn hơn 3,55 ta có X có phân bố nhị thức B(8;0,5). Bảng phân bố xác suất của Y là:
0 1 2 3 4 5 6 7 8
( )
Từ kết quả thử nghiệm ta có số giá trị của mẫu lớn hơn 3,55 là k 7. Do
đó, p-gi¸ trÞ2P(Y 7) 0,075%. Nên chấp nhận H0.
Hoặc miền bác bỏ H0 là W ( ;0] [8; ), k 7 W nên chấp nhận H0.
Giải bằng Minitab
Tạo dữ liệu trong Minitab
Stat Nonparametrics 1- Sample Sign Variables: nhập cột hàm lượng café
Test median: nhập 3.55 Alternative : chọn not equal
Kết thúc chọn OK Kết quả thu được
Test
Null hypothesis H₀: η = 3.55 Alternative hypothesis H₁: η ≠ 3.55
Sample Number < 3.55 Number = 3.55 Number > 3.55 P-Value Hàm lượng café 1 0 7 0.070
Vì p = 0.07 > 0.05 nên chấp nhận .
So sánh hai trung vị
Giả sử X và Y là 2 biến ngẫu nhiên liên tục có trung vị lần lượt là x và
y
. Xét giả thuyết gốc H0:xy.
Đặt D X Y, gọi trung vị của D là d. Giả thuyết gốc chuyển về giả thuyết gốc mới tương đương H0:d 0. Bài toán so sánh hai trung vị của X
và Y được đưa về bài toán kiểm định trung vị của D.
Ví dụ 4.2. Một nhà máy muốn so sánh trung vị của thời gian (phút) hoàn thành 1 sản phẩm của công nhân đối với 2 dây chuyền sản xuất. Một mẫu
gồm 11 công nhân được chọn ngẫu nhiên thực hiện hoàn thành sản phẩm trên 2 dây chuyền thu được kết quả sau:
Công nhân Dây chuyền A Dây chuyền B Hiệu Dấu
1 10,2 9,5 0,7 + 2 9,6 9,8 -0,2 - 3 9,2 8,8 0,4 + 4 10,6 10,1 0,5 + 5 9,9 10,3 -0,4 - 6 10,2 9,3 0,9 + 7 10,6 10,5 0,1 + 8 10,0 10,0 0,0 9 11,2 10,6 0,6 + 10 10,7 10,2 0,5 + 11 10,6 9,8 0,8 +
Với mức ý nghĩa 5% có thể cho rằng trung vị của thời gian hoàn thành sản phẩm trên dây chuyền A lớn hơn trung vị của thời gian hoàn thành sản phẩm trên dây chuyền B không?
Giải. Gọi X và X lần lượt là thời gian hoàn thành 1 sản phẩm của công nhân trên dây chuyền A và trên dây chuyền B. Đặt D X Y, bài toán kiểm định giả thuyết 0 1: : x y x y H H
tương đương với
0 1: : 0 0 d d H H
Vì cỡ mẫu n11 10 nên miền bác bỏ H0 là W [1, 645;).
Giá trị kiểm định thống kê: 9 11/ 2 2,11 ,
11/ 4
z W nên bác bỏ H0.
Giải bằng Minitab
Tạo dữ liệu hai dây chuyền A và B trong Minitab
Stat Nonparametrics 1- Sample Sign Variables: nhập cột dây chuyền A và B Test median: nhập 0.0
Alternative : chọn greater than
Kết thúc chọn OK Kết quả thu được
Test
Null hypothesis H₀: η = 0 Alternative hypothesis H₁: η > 0
Sample Number < 0 Number = 0 Number > 0 P-Value Dây chuyền A 0 0 11 0.000 Dây chuyền B 0 0 11 0.000
Vì p = 0.0 < 0.05 nên bác bỏ .