Ta có: + Tham số p là tỉ lệ phần tử mang đặc tính A trong đám đông.. + Tham số f là tỉ lệ phần tử mang đặc tính A trong mẫu... BÀI TOÁN KIỂM ĐỊNHPhân biệt với bài toán ước lượng: + Bài
Trang 1MỘT SỐ KHÁI NIỆM VÀ KÍ HIỆU
1 Khái niệm đám đông – mẫu
Đám đông (tổng thể): là tập hợp tất cả các phần tử mà ta muốn nghiên cứu
Mẫu: là tập hợp các phần tử lấy ra từ đám đông để nghiên cứu
Kích thước mẫu: là số phần tử của mẫu, kí hiệu là n.
Dãy thống kê dạng điểm cho dưới dạng tần số:
Chú ý:
k i
i 1
2 Tham số đám đông – Tham số mẫu
Định nghĩa 1: Giả sử cần nghiên cứu dấu hiệu X của một đám đông có:
E X ;D X ; X
Các tham số đám đông:
Kỳ vọng Giá trị trung bình của X trong đám đông
2
Phương sai Bình phương độ phân tán trong đám đông
Độ lệch tiêu chuẩn Độ phân tán trong đám đông
Các tham số mẫu:
(Giá trị trung bình của X trong mẫu)
k
i i
i 1
1
n
2
2
S X X
với
k
i i
i 1
1
n
2
n 1
S Độ lệch tiêu chuẩn mẫu điều chỉnh 2
S S
Định nghĩa 2: Giả sử đám đông chỉ có 2 loại đối tượng là các phần tử mang đặc
tính A và các phần tử không mang đặc tính A Ta có:
+ Tham số p là tỉ lệ phần tử mang đặc tính A trong đám đông
+ Tham số f là tỉ lệ phần tử mang đặc tính A trong mẫu
Trang 2f
n
với m là số phần tử mang đặc tính A trong mẫu
Trang 3BÀI TOÁN ƯỚC LƯỢNG
Phân biệt bài toán ước lượng điểm và bài toán ước lượng khoảng:
+ Không có độ tin cậy: bài toán ước lượng điểm
+ Có độ tin cậy: bài toán ước lượng khoảng
I Bài toán ước lượng điểm
+ Ước lượng giá trị trung bình (ước lượng kỳ vọng ): Tính X rồi kết luận.
+ Ước lượng tỉ lệ (ước lượng xác suất p): Tính f rồi kết luận.
+ Ước lượng bình phương độ phân tán (ước lượng p/sai ): Tính 2 S rồi kết luận.2
II Bài toán ước lượng khoảng
Các bước làm:
+ Xác định bài toán: ước lượng kỳ vọng hay ước lượng xác suất? Nếu là ước lượng
kỳ vọng thì rơi vào trường hợp nào?
+ Viết biểu thức xác định khoảng tin cậy và công thức tính
+ Biết độ tin cậy , ta đi tính rồi suy ra 1 u 2
hay tn 1 2
+ Tính các tham số mẫu (nếu cần tham số nào thì tính tham số đó):
2 2
X;S ;S;S ;S;f rồi tính
+ Tìm khoảng tin cậy rồi kết luận
1 Ước lượng giá trị trung bình (ước lượng kỳ vọng ):
Khoảng tin cậy đối xứng của là X ;X
với tính như sau:
đã biết, X có phân phối chuẩn
chưa biết, X có phân phối
S
S
chưa biết, X không có phân
phối chuẩn nhưng mẫu lớn
S
S
2 Ước lượng tỉ lệ (ước lượng xác suất p):
Khoảng tin cậy đối xứng của p là f ;f với
f 1 f
Trang 4BÀI TOÁN KIỂM ĐỊNH
Phân biệt với bài toán ước lượng:
+ Bài toán ước lượng: có từ ước lượng, có từ độ tin cậy
+ Bài toán kiểm định: có từ kiểm định, có từ mức ý nghĩa
Các bước làm:
+ Xác định bài toán: giả thuyết H, đối thuyết K, mức ý nghĩa
+ Nêu các điều kiện (nếu có) để đưa ra thống kê
+ Xác định miền bác bỏ H (miền W)
+ Tính giá trị quan sát của thống kê Kiểm tra xem giá trị quan sát của thống kê có thuộc miền W hay không:
Nếu thuộc thì ta bác bỏ H, chấp nhận K
Nếu không thuộc thì chưa bác bỏ được H nên tạm thời chấp nhận H, bác bỏ K
Hai vấn đề chính trong mỗi bài toán kiểm định:
+ Xác định thống kê được sử dụng
+ Xác định miền W
I Kiểm định giả thuyết về giá trị trung bình (Kiểm định kỳ vọng)
BT1:
0 0
H :
K :
BT2:
0 0
H :
K :
BT3:
0 0
H :
K :
đã biết, X có phân phối
chuẩn hoặc mẫu lớn
X 0 n
G
BT1: W G : G u
BT2 : W G : Gu BT3: W G : G u
2
chưa biết, X có phân
phối chuẩn
0
0
T
S
T
S
BT1: W T : T t
BT2 : W T : Tt
n 1
BT3: W T : T t
2
chưa biết, X không có
phân phối chuẩn nhưng
mẫu lớn
0
0
G
S
G
S
BT1: W G : G u
BT2 : W G : Gu
BT3: W G : G u
2
Trang 5II Kiểm định giả thuyết về tỉ lệ (Kiểm định xác suất)
Gọi p là tỉ lệ phần tử mang đặc tính A trong tổng thể
BT1:
0 0
H : p p
K : p p
BT2:
0 0
H : p p
K : p p
BT3:
0 0
H : p p
K : p p
0
G
p 1 p
BT1: W G : G u
BT2 : W G : Gu BT3: W G : G u
2
III So sánh hai tỉ lệ (So sánh hai xác suất)
Giả sử ta cần so sánh tỉ lệ phần tử mang đặc tính A của 2 đám đông
Gọi p ;p1 2 lần lượt là tỉ lệ phần tử mang đặc tính A của 2 đám đông đó.
Ta có các bài toán so sánh:
BT1:
H : p p
K : p p
BT2:
H : p p
K : p p
BT3:
H : p p
K : p p
Hai mẫu lớn
f f G
f 1 f
BT1: W G : G u
BT2 : W G : Gu BT3: W G : G u
2
Ở đó:
1
n là kích thước mẫu thứ nhất, n2 là kích thước mẫu thứ hai.
1
1
1
m
f
n
là tỉ lệ phần tử mang đặc tính A của mẫu thứ nhất
2
2
2
m
f
n
là tỉ lệ phần tử mang đặc tính A của mẫu thứ hai
f
là tỉ lệ phần tử mang đặc tính A chung của cả hai mẫu
IV So sánh hai giá trị trung bình (So sánh kỳ vọng)
Trang 6Giả sử cần so sánh 2 giá trị trung bình của một dấu hiệu nghiên cứu nào đó ở hai đám đông khác nhau Gọi X là dấu hiệu cần nghiên cứu ở đám đông thứ nhất, Y là dấu hiệu cần nghiên cứu ở đám đông thứ hai
Kí hiệu E X 1;E Y và 2 D X 12;D Y 22
Ta có các bài toán so sánh:
BT1:
H :
K :
BT2:
H :
K :
BT3:
H :
K :
1; 2
đã biết, X và
Y có phân phối
chuẩn hoặc hai
mẫu lớn
X Y G
BT1: W G : G u
BT2 : W G : G u
BT3: W G : G u
2
chưa biết,
X và Y có phân
phối chuẩn
T
BT1: W T : T t
BT2 : W T : Tt
n n 2
BT3: W T : T t
2
1; 2
chưa biết, X
và Y không có phân
phối chuẩn nhưng
hai mẫu lớn
X Y G
X Y G
BT1: W G : G u
BT2 : W G : G u
BT3: W G : G u
2
Trường hợp chưa biết, X và Y không có phân phối chuẩn nhưng hai mẫu bé12; 22
thì ta giải quyết bài toán so sánh kỳ vọng (bài toán 3) bằng tiêu chuẩn hạng của Mann – Whitney hoặc tiêu chuẩn hạng của Wilcoxon:
+ Nếu số liệu cho theo từng cặp thì sử dụng tiêu chuẩn của Wilcoxon
+ Nếu số liệu không cho theo từng cặp thì sử dụng tiêu chuẩn của Mann – Whitney Lưu ý: Hai tiêu chuẩn này chỉ giải quyết được bài toán 3
Các bước làm đối với tiêu chuẩn của Wilcoxon:
+ Tính d ; d và đếm số giá trị i i di 0 Gọi số giá trị di 0 là n
Trang 7+ Sắp xếp các di theo thứ tự từ bé đến lớn.0
+ Tính rank d i với di 0 rồi tính
i
i
d 0
T rank d
+ Đặt
T T
+ Đặt
T E T G
D T
thì miền bác bỏ H là
W G : G u
2
+ Tính Gqs
rồi kết luận
Các bước làm đối với tiêu chuẩn của Mann – Whitney:
+ Gộp chung 2 dãy số liệu mẫu và sắp xếp theo thứ tự từ bé đến lớn
+ Tính hạng của các phần tử trong mẫu 1, tức là tính rank x ,i 1;n i 1
n
i 1
R rank x
+ Tính
n n 1
2
+ Đặt U U 1 thì n n1 2 n n n1 2 1 n2 1
+ Đặt
U E U G
D U
thì miền bác bỏ H là
2
+ Tính Gqs
rồi kết luận
V Kiểm định sự phù hợp của số liệu mẫu
Bài toán: Gọi p ,p , ,p1 2 k
lần lượt là tỉ lệ phần tử mang đặc tính A ;A ; ;A1 2 k trong một đám đông (p1p2 p k 1) Từ đám đông, ta lấy ra mẫu có kích thước n
Ta có bài toán kiểm định:
Giả thuyết H: Số liệu mẫu phù hợp với k tỉ lệ đã cho
Đối thuyết K: Số liệu mẫu không phù hợp với k tỉ lệ đã cho
Giải quyết: Ta sử dụng thống kê:
k
m np np
Ở đó: m ;m ; ;m1 2 k lần lượt là số phần tử mang đặc tính A ;A ; ;A1 2 k trong mẫu.
Trang 8Miền bác H: 2 2 2
k 1
W :
Chú ý: Điều kiện là mi 5;i 1;k
VI Kiểm định tính độc lập của hai dấu hiệu
Bài toán: Giả sử ta có hai dấu hiệu X và Y Ta có bài toán kiểm định:
Giả thuyết H: X và Y độc lập nhau; Đối thuyết K: X và Y phụ thuộc nhau
Giải quyết: Thành lập bảng số liệu:
1
2
r
Ta sử dụng thống kê:
2
r s
j 2
m
hg cot
Miền bác H: 2 2 2
r 1 s 1
W :
VII So sánh nhiều tỉ lệ (So sánh nhiều xác suất)
Bài toán: Gọi p1; p2;… ; p s lần lượt là tỉ lệ phần tử mang đặc tính A của s đám đông
Ta có bài toán kiểm định:
Giả thuyết H : p1p2 ps
Đối thuyết K: Các tỉ lệ p ;p ; ;p1 2 s không đồng thời bằng nhau.
Giải quyết: Thành lập bảng số liệu:
1
2
Trang 9Ở đó, m1j là số phần tử mang đặc tính A ở mẫu lấy ra từ đám đông thứ j còn m2j là
số phần tử không mang đặc tính A ở mẫu lấy ra từ đám đông thứ j, j 1;s
Ta sử dụng thống kê:
2
j 2
m
hg cot
Miền bác H: 2 2 2
s 1
W :
Trang 10TƯƠNG QUAN VÀ HỒI QUY
I Tương quan
1 Hệ số tương quan
Ta có đánh giá mức độ phụ thuộc tuyến tính giữa X và Y dựa vào như sau:
Khi thì ta nói X và Y không tương quan với nhau.0
Nếu 0 thì X, Y đồng biến và nếu 0 thì X, Y nghịch biến
2 Hệ số tương quan mẫu
Hệ số tương quan mẫu của 2 biến ngẫu nhiên X, Y là:
XY X.Y
r X,Y
S S
Với bảng số liệu:
1
2
r
Ta có:
r s
ij i j
i 1 j 1
1
n
Ta có dãy thống kê của X:
Trang 11Ta tính được X;SX
Ta có dãy thống kê của Y:
Ta tính được Y;SY
Với bảng số liệu:
X,Y x ; y1 1 x ; y2 2 … x ; yk k
Hoặc:
Ta có:
k
i i i
i 1
1
n
với
k i
i 1
Ta cũng lập dãy thống kê của X và Y rồi tính X;SX;Y;SY.
II Hồi quy
Đường hồi quy bình phương trung bình tuyến tính thực nghiệm
Y X
S
Y Y r X X
S
Sai số bình phương trung bình thực nghiệm:
S S 1 r Điều kiện áp dụng tốt: r 0,7