Giáo trình nghiên cứu Marketing- Chương 8
Trang 1CHƯƠNG TÁM 8
PHÂN TÍCH VÀ DIỄN GIẢI DỮ LIỆU TRONG NGHIÊN CỨU MARKETING
NỘI DUNG CHÍNH
Nội dung chương này bàn đến bao gồm:
- Thế nào là giả thuyết nghiên cứu
- Các loại sai lầm khi thực hiện kiểm định giả thuyết
- Các bước giải quyết một bài toán kiểm định
- Các phương pháp kiểm định tham số
- Các phương pháp kiểm định phi tham số
Trang 2MÔ HÌNH LỰA CHỌN PHƯƠNG PHÁP KIỂM ĐỊNH
Giả thiết thống kê là một giả thiết có liên quan đến một trong ba vấn đề sau:
(1) Tính độc lập hay phụ thuộc của đại lượng ngẫu nhiên cần nghiên cứu
(2) Dạng của qui luật phân phối xác suất của đại lượng ngẫu nhiên
(3) Giá trị của tham số của qui luật phân phối xác suất đã biết dạng
(1) & (2) là giả thiết phi tham số và (3) là giả thiết về tham số
Trong phần này sẽ giới thiệu phương pháp kiểm định giả thiết về tham số như tham số trung bình
x trong qui luật phân phối chuẩn N(µ,σ2), tham số tỷ lệ p trong qui luật phân phối A(P), tham số chi bình phương, tham số Fisher… Trong khuôn khổ cuốn sách này, chúng tôi chỉ giới thiệu cách thức áp dụng những phương pháp kiểm định đó để giải quyết những vấn đề liên quan đến nghiên cứu tiếp thị, những vấn đề khác liên quan đến việc giải thích bản chất của các công thức có thể tham khảo thêm trong các giáo trình chuyên môn về thống kê toán
Các khái niệm cơ bản
Giả thiết cần kiểm định
Giả sử đại lượng ngẫu nhiên X cần nghiên cứu tuân theo một qui luật phân phối xác suất đã biết dạng, nhưng chưa biết giá trị của tham số θ nào đó của nó Trên cơ sở những tin tức thu được, ta
có thể giả định rằng θ = θ0, trong đó θ0 là số thực Tất nhiên điều giả định θ = θ0 này có thể đúng hoặc có thể sai, do đó cần phải kiểm tra lại giả định đó Từ đó ta có giả thiết cần kiểm định là {H0: θ = θ0}
Các giả thiết đối (đối thiết)
Vì giả thiết H0 cũng có thể đúng và cũng có thể sai với một độ tin cậy nào đó, khi giả thiết H0 sai thì ta phải bác bỏ nó Khi đó phải chấp nhận một trong ba giả thiết đối (ký hiệu: H1) sau đây:
- Trong trường hợp kiểm định dạng "hai đuôi" (Two-tail test):
0 0
θθ
0 0
θθ
0 0
: H
:θθ
θθ
H
Do vậy trong bài toán kiểm định giả thiết, sau khi đã đề ra giả thiết cần kiểm định H0, ta cần phát biểu kèm một giả thiết đối H1 để khẳng định rằng nếu như giả thiết H0 bị bác bỏ thì ta chấp nhận giả thiết đối kèm theo với một mức ý nghĩa α nào đấy (1- α được gọi là độ tin cậy)
Các loại sai lầm
Chú ý rằng, vì mẫu không phải là hình ảnh chính xác của tổng thể, nên mọi mẫu chọn được đều chứa một sai số ngẫu nhiên nào đó Do vậy, khi dựa vào mẫu để kiểm định giả thiết có thể gặp phải hai loại sai lầm sau:
- Sai lầm loại 1: Khi ta bác bỏ một giả thiết đúng
- Sai lầm loại 2: Khi ta thừa nhận một giả thiết sai
Trang 3Trong khi tiến hành kiểm định, người ta thường ấn định trước một xác suất mức sai lầm loại 1 Nếu xác suất này bằng α, thì α được gọi là mức ý nghĩa của kiểm định (thông thường α phải khá
bé, α = 0,05, α = 0,1)
Tiêu chuẩn kiểm định và miền bác bỏ
Sau khi đã đề ra giả thuyết H0 cần kiểm định kèm theo giả thiết đối H1 và qui định mức ý nghĩa
α, ta cần phải tìm một thống kê T cùng qui luật phân phối xác suất của nó Với một mức ý nghĩa
α xác định, ta luôn tìm được mọi miền Wα, thỏa mãn điều kiện P(K∈Wα H0)=α (xác suất để
K thuộc miền miền bác bỏ Wα với điều kiện H0 đúng bằng α)
Do α khá bé, nên ta có thể coi biến cố (K∈Wα) là biến cố không thể có (với điều kiện giả thiết H0
đúng) Vì vậy, trong thực tế nếu dựa vào giá trị x của mẫu ngẫu nhiên X, ta tính được giá trị kqs
của thống kê K mà lại thấy giá trị kqs∈Wα, thì điều này sẽ mâu thuẫn với điều kiện nói trên Nguyên nhân sinh ra mâu thuẫn giữa lý thuyết và thực tế là do ta giả thiết rằng H0 đúng Để tránh mâu thuẫn này ta phải bác bỏ giả thiết, vì thế Wα được gọi là miền bác bỏ và kqs được gọi là tiêu chuẩn kiểm định
Chú ý:
- Khi giả thiết H0 đúng thì tiêu chuẩn kiểm định K vẫn có thể nhận giá trị kqs∈Wα với xác suất xảy ra là α Vì vậy trong trường hợp kqs∈Wα mà ta bác bỏ giả thiết H0 thì ta có thể mắc sai lầm loại 1, với xác suất mắc sai lầm loại 1 chính là α
- Nếu ta ký hiệu P(k qs ∈Wα H1)=β thì β là xác suất bác bỏ một giả thiết sai Do đó, xác suất không bác bỏ một giả thiết sai P(K qs∈Wα H1)=1−β là xác suất mắc sai lầm loại 2 và β sẽ được gọi là xác suất không mắc sai lầm loại 2, người ta gọi β là hiệu lực của kiểm định
- Với kích thước mẫu n xác định thì với mẫu tiêu chuẩn kiểm định ta sẽ có miền bác bỏ Wα thỏa mãn điều kiện: P(K qs ∈Wα H0)=α
Nếu tồn tại một tiêu chuẩn kiểm định kqs với miền bác bỏ Wα sao cho (1-β) là nhỏ nhất và β lớn nhất Khi đó kqs được gọi là tiêu chuẩn kiểm định mạnh nhất Một tiêu chuẩn được coi là mạnh nhất thì nó đảm bảo 3 yêu cầu:
- Xác suất mắc sai lầm loại 1 là α qui định trước
- Xác suất mắc sai lầm loại 2 là nhỏ nhất
- Khi bác bỏ giả thiết H0 thì ta có thể thừa nhận giả thiết đối H1
Như vậy chúng ta có thể xác định miền bác bỏ và miền chấp nhận trong các trường hợp kiểm định một đuôi và hai đuôi là:
- Trong kiểm định hai đuôi:
Trang 4- Trong kiểm định một đuôi:
Các bước chung để giải bài toán kiểm định
Bước 1: Phát biểu giả thiết và đối thiết
0 0
:
H
:
θθ
θθ
0 0
: H
:θθ
θθ
0 0
: H
:θθ
θθ
Bước 4: Tính giá trị quan sát của tiêu chuẩn kiểm định kqs
Bước 5: So sánh với miền bác bỏ để kết luận:
Miền bác bỏ Miền chấp nhận
Trang 5- Nếu kqs∈ Wα ta sẽ bác bỏ giả thiết H0 và thừa nhận giả thiết H1
- Nếu kqs∉ Wα : Ta kết luận rằng chưa có cơ sở để thừa nhận giả thiết H1
Có thể tóm tắt các bước để giải bài toán kiểm định theo sơ đồ sau:
B1: Phát biểu giả thiết và đối thiết B2: Xác định mức ý nghĩa B3: Lựa chọn phương pháp kiểm định và loại phân phối của nó
B5: Tìm miền bác bỏ và kết luận
CÁC PHƯƠNG PHÁP KIỂM ĐỊNH THAM SỐ
Kiểm định giả thiết về tham số trung bình µ của tổng thể
Điều kiện: Biến định lượng và phân phối của biến phải tuân theo quy luật phân phối chuẩn
Trường hợp đã biết phương sai (σ 2 ) hoặc độ lệch chuẩn của tổng thể
Đối với trường hợp kiểm định giả thiết về tham số trung bình của tổng thể, chúng ta có thể thực
hiện thông qua các bước sau:
B1: Phát biểu giả thiết và đối thiết:
Đối xứng Phải Trái Giả thiết H0: µ = µ0 H0: µ ≤µ0 H0: µ ≥ µ0
Đối thiết H1: µ ≠ µ0 H1: µ > µ0 H1: µ < µ0
B2: Xác định mức ý nghĩa α
B3: Xác định phương pháp kiểm định: Phương pháp kiểm định tham số trung bình với σ đã biết
B 4: Tính tiêu chuẩn kiểm định
( )σ
x U
Trang 6−
≥U1
U kiểm định phía phải - bác bỏ H0, chấp nhận H1 với µ > µ0
U ≤−U1−α kiểm định phía phải - bác bỏ H0, chấp nhận H1 vớiµ < µ0
Chúng ta so sánh kqs với Wα để đưa ra kết luận
Để tiện cho việc theo dõi, có thể tóm lược những bước của bài toán kiểm định tham số trung bình
ở trên như bảng sau:
KIỂM ĐỊNH THAM SỐ TRUNG BÌNH CỦA TỔNG THỂ
(khi σ đã biết)
1 Giả thiết và đối thiết:
Đối xứng Phải Trái
2 Xác định mức ý nghĩa
3 Phương pháp kiểm nghiệm: Tham số trung bình tổng thể
4 Tiểu chuẩn kiểm định:
(khi chưa biết σ thay bằng s’)
5 Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
Miền bác bỏ U<- U1-α/2 và U>U1-α/2 U>U1-α U<-U1-α
Biểu hiện qua
hình vẽ
BB CN BB -U 1-α/2 U 1-α/2
BB -U 1-α
Giải: Gọi X là trọng lượng sản phẩm do nhà máy sản xuất Theo giả thiết X là đại lượng ngẫu nhiên tuân theo qui luật phân phối chuẩn, trong đó σ = 2(kg), M(X) = 20(kg)
Ta có bài toán kiểm định giả thiết về giá trị tham số µ của qui luật phân phối chuẩn
B1 Phát biểu giả thiết:
Trang 7B4 Xác định tiêu chuẩn kiểm định: Tiêu chuẩn kiểm định được chọn là:
( ) ( ) 1,75
2
5,32
1002035,20
x U
σµ
Minh họa bằng hình vẽ:
1,75 Miền bác bỏ
1,96 Miền bác bỏ
Kết luận: Vì k qs∉ Wα nên chưa có cơ sở để bác bỏ giả thiết H 0 , tức là ý kiến cho rằng trọng lượng trung bình của sản phẩm bị thay đổi là chưa có cơ sở
Trường hợp chưa biết phương sai (σ 2 ):
Đối với trường hợp chưa biết phương sai tổng thể, cần phải xem xét hai trường hợp sau:
a Trường hợp mẫu nhỏ n<30
Trong trường hợp chưa biết phương sai, các giả thiết và đối thiết cũng giống như trường hợp đã biết phương sai Tuy nhiên, để tính toán giá trị kiểm định, cần phải tìm độ lệch chuẩn điều chỉnh (s’) của mẫu để tiến hành phân tích Vì mẫu khá nhỏ (n<30), có thể giả định hàm phân phối tuân theo hàm T-student Khi đó, tiêu chuẩn kiểm định được chọn là:
T
k qs −µ
=
Với x là trung bình mẫu và s’ là độ chênh lệch chuẩn điều chỉnh của mẫu
Với mức ý nghĩa α, miền bác bỏ:
Trang 8độ lệch chuẩn hiệu chỉnh mẫu là 6 giờ và tuổi thọ trung bình của loại bóng đèn trên là đại lượng ngẫu nhiên phân phối chuẩn
B4 Tính tiêu chuẩn kiểm định:
Tiêu chuẩn kiểm định là :
167 , 4 6
25 ) 150 145 ( )
T
01 , 0 1
n 0
Tα− sẽ tiến đến giá trị Uα/2, khi đó tiêu chuẩn kiểm
'
0
s
n x
ý kiến của họ sau khi các dịch vụ được cải tiến, mức độ hài lòng trung bình tính được là 82 với
độ lệch điều chỉnh mẫu là 8 Với độ tin cậy 95%, có thể kết luận rằng khách hàng đã được hài lòng ở mức độ cao hơn không?
Giải:
B1 Phát biểu giả thiết và đối thiết:
Trang 9Vì công ty quan tâm đến việc cải tiến các dịch vụ của công ty thiết bị viễn thông có làm thỏa mãn
khách hàng ở mức độ cao hơn so với trước hay không Do đó ta đặt giải thiết:
U
B4 Tính giá trị kiểm định
Với mức ý nghĩa α = 0,05 và đây là bài toán kiểm định một đuôi nên miền bác bỏ tương ứng
trong trường hợp này có dạng:
Kết luận: Vì k qs∈Wα nên giả thiết H 0 bị bác bỏ, ta kết luận rằng với việc cải tiến các dịch vụ,
công ty thiết bị viễn thông ATC đã làm cho thỏa mãn khách hàng ở mức độ cao hơn trước
Kiểm định giả thiết tham số tỷ lệ
Trong một số trường hợp, chúng ta cần kiểm định giả thiết về tham số tỷ lệ của các phần tử loại
A (loại phần tử mà chúng ta muốn nghiên cứu) trong tổng thể (P), gọi fn là tỷ lệ của phần tử loại
A có trong mẫu và P0 là một tỷ lệ đã được xác định trước Quy trình kiểm định như sau:
B1 Phát biểu giả thiết và đối thiết
Đối xứng Phải Trái Giả thiết H0: P = P0 H0: P ≤ P0 H0: P ≥ P0
Trang 10Với α cho trước, ta có miền bác bỏ Wα là:
P
n P f U
U kiểm định đối xứng – bác bỏ H0 và chấp nhận H1 (hay P ≠ P0)
Chúng ta so sánh kqs với Wα để đưa ra kết luận Các bước của bài toán kiểm định tham số tỷ lệ các phần tử loại A trong tổng thể được thể hiện
trong bảng sau:
KIỂM ĐỊNH THAM SỐ TỶ LỆ CỦA TỔNG THỂ
1 Giả thiết và đối thiết:
Đối xứng Phải Trái
2 Xác định mức ý nghĩa
3 Phương pháp kiểm nghiệm tham số tỷ lệ tổng thể
4 Tiểu chuẩn kiểm định:
5 Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái
BB
U 1-α
)1(
)(
0 0
0
P P
n P f
−
−
=
Ví dụ: Giả sử một sản phẩm của công ty sản xuất vỏ xe ô tô đã chiếm được 42% thị trường
Hiện tại, trước sự cạnh tranh của đối thủ và những điều kiện thay dổi của môi trường, ban lãnh
đạo công ty muốn kiểm tra lại xem thị phần của công ty có còn là 42% hay không Chọn ngẫu
nhiên 550 ô tô trên đường, kết quả cho thấy 219 xe sử dụng vỏ xe của công ty Có kết luận gì ở
Trang 11B4 Tính tiêu chuẩn kiểm định
037 , 1 )
42 , 0 1 ( 42 , 0
550 ) 42 , 0 550
219 ( ) P 1 ( P
n ) P f ( P
k
0 0
0 n
0 0
P P
n P f U
α α
Thể hiện qua hình vẽ
Miền bác bỏ -1,96 -1,037
Miền bác bỏ
-1,96
Vì kqs∈Wα nên chúng ta bác bỏ giả thiết H0 và chấp nhập H1 có nghĩa thị phần của công ty
đã thay đổi so với 42%
Kiểm định sự khác nhau giữa trung bình của hai tổng thể
Điều kiện ứng dụng: Hai biến nghiên cứu (đại diện đo lường hai mẫu) phải là biến định lượng,
tuân theo quy luật phân phối chuẩn và phương sai bằng nhau
Kiểm định tham số trung bình dựa trên hai biến (mẫu) độc lập
a.Trường hợp đã biết phương sai σ2 của các mẫu
Điều kiện để thực hiện phương pháp kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên
mẫu ngẫu nhiên độc lập) là dữ liệu mẫu phải theo luật phân phối chuẩn
B1 Giả thiết và đối thiết:
Đối xứng Phải Trái Giả thiết H0: µx - µy = D0 H0: µx - µy ≤ D0 H0: µx - µy ≥ D0
Đối thiết H1: µx - µy ≠ D0 H1: µx - µy > D0 H1: µx - µy < D0
B2 Chọn mức ý nghĩa α
B3 Xác định phương pháp kiểm định : Phương pháp kiểm định sự khác biệt tham số trung bình
giữa hai mẫu (độc lập) – Phân phối chuẩn
B4 Xác định tiêu chuẩn kiểm định :
y y x x qs
n n
D y x U
k
2 2
0
σσ
Trang 120 U n n
D y x U
y
y x x
n n
D y x U
y y x x
Nếu H1 đúng tức µx - µy < D0, khi đó Wα :
2 1 2 2
0 α
D y x U
y y x x
Tính hệ số quan sát, so sánh với miền bác bỏ và kết luận
Ví dụ: Người ta tiến hành nghiên cứu về thời gian sử dụng trung bình của hai nhãn hiệu pin X
và Y (cùng chủng loại) của hai nhà sản xuất khác nhau Chọn ngẫu nhiên mỗi nhãn hiệu 100 viên pin kết quả ghi nhận được như sau: Pin X có thời gian sử dụng trung bình là 308 phút, độ lệch chuẩn 84 phút, các chỉ số tương tứng của pin Y lần lượt là 254 phút và 67 phút Với mức ý nghĩa
α = 0,10 ,có thể kết luận thời gian sử dụng trung bình của pin X lớn hơn pin Y ít nhất là 45 phút được không ? Biết thời gian sử dụng trung bình của hai nhãn hiệu pin trên là các đại lượng ngẫu nhiên phân phối chuẩn
Giải: Áp dụng phương pháp kiểm định sự khác biệt giữa hai trung bình tổng thể theo luật phân phối chuẩn (chưa biết σ và n x , n y <30)
Gọi thời gian sử dụng trung bình của pin X và Y lần lượt là µx ,µy ; khi đó µx ,µy là các đại lượng ngẫu nhiên phân phối chuẩn Theo đề bài, chúng ta cần quan tâm đến việc thời gian sử dụng trung bình của pin X có lớn hơn pin Y ít nhất là 45 phút hay không Do vậy, B1 Giả thiết và đối thiết:
67 100
84
45 254 308
2 2
2 2
x qs
n n
D y x
k
σσ
B5 Miền bác bỏ với α=0,05 cho trước :
2 2
0 > = = +
−
−
n n
D y x U
y
y x x
α
σσ
Trang 13Minh họa bằng vẽ:
Kết luận: vì k qs ∉ Wα nên ta chưa thể bác bỏ H 0 và chấp nhận H 1 , tức là chưa có cơ sở để kết
luận thời gian sử dụng trung bình của pin X có lớn hơn pin Y ít nhất là 45 phút
b.Trường hợp chưa biết σ2 :
• Trường hợp kích thước mẫu lớn (nx, ny ≥30):
Trường hợp kích thước mẫu lớn (nx, ny ≥30) với giả định cả hai tổng thể X và Y phân phối chuẩn,
ta có thể dùng công thức và quy tắc trên để kiểm định và với phương sai hiệu chỉnh mẫu s’2x, s’2y
thay cho phương sai tổng thể kể cả trường hợp phân phối tổng thể không chuẩn
• Trường hợp kích thước mẫu nhỏ (nx<30; ny< 30):
Phương pháp kiểm định sự khác biệt của hai trung bình tổng thể (dựa trên mẫu ngẫu nhiên độc
lập) theo luật phân phối Student (chưa biết σ):
Trong trường hợp mẫu nhỏ (hoặc nx, hoặc ny <30, hoặc cả nx, ny <30) Chúng ta vẫn dùng s’2x và
s’2y thay cho phương sai tổng thể
nhưng khi đó tiêu chuẩn kiểm định sẽ theo phân phối Student với số bậc tự do được xác định theo
công thức:
Miền bác bỏ
1
) ( 1
) (
) (
2 2 ' 2
2 '
2 2 ' 2
x x x
y
y x
x
n n s n
n s
n
s n
s btd
1,28 0,838
B1 Giả thiết và đối thiết:
Đối xứng Phải Trái Giả thiết H0: µx - µy = D0 H0: µx - µy ≤ D0 H0: µx - µy ≥ D0
Đối thiết H1: µx - µy ≠ D0 H1: µx - µy > D0 H1: µx - µy < D0
B2 Chọn mức ý nghĩa α
B3 Xác định phương pháp kiểm định : Phương pháp kiểm định sự khác biệt tham số trung bình
giữa hai mẫu (độc lập)
B4 Tiêu chuẩn kiểm định :
y y x
x n
s n s
D y x T
K
2 ' 2 '
0 +
Trang 14Nếu H1 đúng tức µx - µy > D0, khi đó Wα:
T s s
btd
y y x
x
n n
D y x
Nếu H1 đúng tức µx - µy < D0, khi đó Wα: btd
y y x x
T n
s n s
D y x
Nếu H1 đúng tức µx - µy ≠ D0, khi đó Wα: btd
y y x x
T n
s n s
D y x T
2 2 ' 2 '
0 α
Tính hệ số quan sát, so sánh với Wα và kết luận
Ví dụ: Kiểm tra chiều dài trung bình của một chi tiết được chế tạo từ hai thiết bị khác nhau một cách ngẫu nhiên, ta có : mẫu ngẫu nhiên 15 chi tiết của thiết bị thứ nhất có chiều dài trung bình là 100 cm và độ lệch chuẩn hiệu chỉnh là 5 cm ; mẫu ngẫu nhiên 10 chi tiết của thiết bị thứ hai có chiều daì trung bình là 110 cm và độ lệch chuẩn hiệu chỉnh là 3cm Với mức ý nghĩa α = 0,05, hãy kết luận xem kích thước trung bình của chi tiết trên được chế tạo ở hai thiết bị trên có như nhau hay không Biết chiều dài trung bình của chi tiết trên là đại lượng ngẫu nhiên phân phối chuẩn
Giải: Áp dụng phương pháp kiểm định sự khác biệt giữa hai trung bình tổng thể theo luật phân phối chuẩn (chưa biết σ và n x , n y <30)
Gọi chiều dài trung bình của chi tiết được chế tạo trên hai thiết bị lần lượt là µx ,µy với µx , µy là các đại lượng ngẫu nhiên phân phối chuẩn Theo đề bài, chúng ta cần phải kiểm tra xem kích thước của chi tiết được chế tạo trên hai thiết bị có như nhau hay không
B1 Giả thiết và đối thiết:
'
0 ≥ = = +
s
D y
x
y y x
x
α
Trong đó bậc tự do được xác định theo công thức :
Trang 1584 , 22 9
) 10
9 ( 14
) 15
25 (
) 10
9 15
25 (
2 2
2
= +
- 6,242 -2,074 2,074
Kết luận: k qs∈ Wα, ta bác bỏ giả thiết H 0 và chấp nhận đối thuyết H 1 , nghĩa là chiều dài trung
bình của chi tiết được chế tạo ở hai thiết bị trên là khác nhau
Hai biến (mẫu) phối hợp từng cặp
Điều kiện áp dụng: Khi tiến hình so sánh sự khác nhau giữa trung bình hai tổng thể, hai mẫu cần
thỏa mãn điều kiện là dữ liệu phải tuân theo quy luật phân phối chuẩn và phương sai của hai mẫu
phải bằng nhau
B1 Giả thuyết và đối thuyết:
Đối xứng Phải Trái Giả thiết H0: µx - µy = D0 H1: µx - µy ≤ D0 H0: µx - µy ≥ D0
Đối thiết H1: µx - µy ≠ D0 H1: µx - µy > D0 H1: µx - µy < D0
B2 Lựa chọn mức ý nghĩa α
B3 Lựa chọn phương pháp kiểm định: Phương pháp kiểm định sự khác nhau trung bình của hai
tổng thể (mẫu phối hợp từng cặp), chúng ta dùng bảng phân phối chuẩn (nếu mẫu lớn hơn hoặc
bằng 30) hay phân phối T-student (nếu mẫu nhỏ hơn 30)
B4 Tiêu chuẩn kiểm định
d s
n D x D
K
'
) ( − 0
=
≡ với x và s’d là trung bình và độ lệch chuẩn của n khác biệt
B5 Miền bác bỏ với α cho trước:
Nếu H0 : µx - µy > D0, khi đó Wα: T
d s
n D x
'
) ( − 0
= > U1-α (hoặc -T(n-1);α nếu n<30)
Nếu H0 : µx - µy < D0, khi đó Wα: T
d s
n D x
'
) ( − 0
= < U1-α (hoặc -T(n-1);α nếu n<30)
Nếu H0: µx - µy ≠ D0, khi đó Wα: ⏐T⏐
d s
n D x
'
) ( − 0
= ≥ U1-α/2 (hoặc T(n-1);α/2 nếu n<30) Tính hệ số quan sát kqs để so sánh với miền bác bỏ và kết luận
Mô hình của bài toán kiểm định sự khác biệt giữa hai tham số trung bình có thể tóm lược ở biểu
sau:
Trang 16Ví dụ: Một công ty hóa mỹ phẩm đã tiến hành một chiến dịch khuyến mãi nhằm mục đích tăng
doanh số Để đánh giá xem việc khuyến mãi có thực sự làm tăng doanh số hay không, công ty đã
chọn ngẫu nhiên 15 cửa hàng trong hệ thống phân phối sản phẩm của mình và khảo sát sự khác
biệt về doanh số bán trong tuần lễ trước và sau chiến dịch khuyến mãi Số liệu thu thập được thể
hiện trong bảng sau:
Doanh số trong tuần (triệu đồng) Cửa hàng
Trước khuyến mãi Sau khuyến mãi d i =(x i -y i ) (di-x)
3 -9 -1
4
4
9 -1
2 -6 -5 -7 -7
3,24 67,24 46,24 17,64 60,84 0,04 27,04 27,04 104,04 0,04 10,24 23,04 14,44 33,64 33,64
KIỂM ĐỊNH THAM SỰ KHÁC NHAU HAI TRUNG BÌNH TỔNG THỂ
(dựa trên sự phân phối từng cặp)
1 Giả thiết và đối thiết:
Đối xứng Phải Trái Giả thiết H0: µx - µy =D0 H0: µx - µy ≤ D0 H0: µx - µy ≥ D0
Đối thiết H1: µx - µy ≠ D0 H1: µx - µy > D0 H1: µx - µy < D0
2 Xác định mức ý nghĩa
3 Phương pháp kiểm nghiệm sự khác nhau của hai trung bình tổng thể - Bảng phân
phối chuẩn hoặc T-student (nếu n<30)
4 Tiểu chuẩn kiểm định T hoặc U:
x và s’d là trung bình và độ lệch chuẩn điều chỉnh của n khác biệt
5 Điểm tới hạn và miền bác bỏ:
Đối xứng Phải Trái Điểm tới hạn - T(n-1);1-α/2 và T(n-1);1-
BB
T (n-1);1-α
d qs
s
n D x T k
'
)( − 0
=
≡
Trang 17Với mức ý nghĩa α=0,05, có thể kết luận chiến dịch khuyến mãi đã làm tăng doanh số hay không?
Giải:
Gọi µx , µy lần lượt là doanh số trung bình sau và trước khi thực hiện chiến dịch khuyến mãi, µx ,
µy là đại lượng ngẫu nhiên tuân theo quy luật phân phối T-student (vì n=15<30)
B1 Giả thiết và đối thiết:
k
'
) ( − 0
=
≡ với x và s’ d là trung bình và độ lệch chuẩn của n khác biệt
Từ số liệu trên, ta tính được x =-1,2 và s’ d = 5,78 Khi đó K qs sẽ là:
803 , 0 78
, 5
15 2 , 1 )
n ) D x ( −
= >T (n-1);α = T (14),0,05 = 1,761 Minh họa bằng hình vẽ:
Miền bác bỏ
1,761 -0,803
Kết luận: vì k qs không thuộc Wα nên chưa có cơ sở để bác bỏ giả thiết H 0 và chấp nhận giả thuyết đối H 1 ở mức ý nghĩa α=0,05, hay chiến dịch khuyến mãi của công ty vẫn chưa làm tăng doanh số
Kiểm định sự khác nhau giữa trung bình từ hai mẫu trở lên – Phân tích ANOVA (Gồm một biến định lượng và một biến phân loại (biến định tính))
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các trung bình mẫu, đây là hình thức mở rộng của kiểm định T-student Trong trường hợp biến phân loại có nhiều hơn 2, chúng ta thường sử dụng phân tích phương sai (ANOVA – Analysis of variance) Tại sao vây?, bởi vì khi sử dụng kiểm định t đối với hai mẫu độc lập, trong trường hợp biến phân loại có 3 hoặc nhiều hơn 3 nhóm, chúng ta phải thực hiện rất nhiều cặp (k) so sánh lẫn nhau từng đôi một, điều này dẫn đến một tình trạng là sai số của kiểm định sẽ lớn hơn rất nhiều so với mong muốn ban đầu Ví dụ, mỗi một kiểm định Z hay t (kiểm định sự khác nhau tham số trung bình giữa hai mẫu độc lập) chứa đựng một sai số dạng I, tổng sai số của dạng I đối với k đôi giá trị trung bình bằng I=1-(1 - α)k Trong một trường hợp cụ thể, giả sử chúng ta có một biến phân loại
Trang 18với 5 giá trị lựa chọn và α = 0,05, khi đó chúng ta sẽ có 10 so sánh nếu chúng ta dùng phương pháp kiểm định t Sai số dạng I của kiểm định t khi đó sẽ là:
I =1 – (1- α)k = 1- (1-0,05) = 1-(0,95)10 = 0.40
Trong trường hợp này, sai số để chúng ta bác bỏ giả thuyết H0 về bằng nhau của các giá trị trung bình ngay cả khi H0 đúng là 40% chứ không phải là 5% như ban đầu
Các điều kiện sử dụng: Các mẫu được rút ra theo cách ngẫu nhiên và độc lập (điều kiện này phải
được đảm bảo), các tổng thể có phân phối chuẩn (hoặc gần phân phối chuẩn) và các tổng thể có cùng phương sai
Phân tích phương sai một chiều: (One-Way Analysis of Variance)
Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố định lượng đến một nhân tố định tính (dạng phân loại)
Giả sử từ một biến phân loại, chúng ta có thể chia tổng thể thành k nhóm tuân theo quy luật phân phối chuẩn và có phương sai bằng nhau dựa trên k mẫu ngẫu nhiên độc lập gồm n1, n2, , nk quan sát
Gọi xij là giá trị của biến định lượng đang nghiên cứu tại quan sát thứ j của nhóm thứ I, khi đó, 1
x , x ,…,2 x là giá trị trung bình của các nhóm, k x là trung bình chung của tất cả các nhóm theo biến định lượng đang nghiên cứu
Gọi giá trị trung bình của các nhóm trong tổng thể là µ1, µ2,…, µk thì phương pháp phân tích phương sai sẽ cho phép chúng ta so sánh sự khác nhau giữa tham số trung bình của 2 hay nhiều nhóm có trong mẫu để suy rộng lên tổng thể
B1 Giả thiết và đối thiết trong phân tích phương sai một chiều được phát biểu như sau:
H0: µ1= µ2 =… = µk
H1: Tồn tại ít nhất một giá trị trung bình của nhóm thứ I (µi) khác với ít nhất một giá trị trung bình của nhóm còn lại
B2 Lựa chọn mức ý nghĩa α
B3 Bài toán phân tích phương sai một chiều (One-way ANOVA)
B4 Tính tiêu chuẩn kiểm định
Để tính tiêu chuẩn kiểm định trong phân tích phương sai (ANOVA), chúng ta cần tiến hành tính các chỉ tiêu sau:
- Tổng độ lệch bình phương giữa các nhóm (Sum of squares between groups): phản ánh biến thiên của biến định lượng đánh nghiên cứu do tác động của biến phân loại đang xem xét
1
2
)(
- Tổng độ lệch bình phương trong nội bộ nhóm (Sum of squares within groups) phản ánh biến thiên ngẫu nhiên do ảnh hưởng của các yếu tố khác không xem xét ở mẫu
i
x x SSW
1 1
2 ) (
- Tổng các độ lệch bình phương toàn bộ (Total sum of squares): phản ánh toàn bộ biến thiên của biến định lượng đang nghiên cứu
Trang 191 1
2)( hay SST = SSW + SSG
- Phương sai giữa các nhóm (Mean squares between groups):
i
x x SSW
1 1
2 )
k n
SSW MSW
i
x x SST
1 1
2
)(
(SST=SSG+SSW) B5 Miền bác bỏ:
Với α cho trước, chúng ta bác bỏ H0 nếu F>Fk-1,n-k,α với k-1 là bậc tự do của tử số và n-k là bậc tự do của mẫu số
Ví dụ: Công ty A là công ty chuyên phân phối bột giặt cho thị trường Thành phố Đà Nẵng, hiện tại công ty phân phối đến khách hàng thông qua 4 của hàng 1, 2, 3, 4 Để đưa ra những quyết định marketing phù hợp, công ty muốn xem xét có sự khác nhau trong doanh số bán của các cửa hàng hay không, số liệu thu thập trong một năm tại các cửa hàng được thể hiện ở bảng sau:
ĐVT: triệu đồng Cửa hàng số 1 Cửa hàng số 2 Cửa hàng số 3 Cửa hàng số 4
Trang 20Tháng 9 145 142 195 293
B1 Giả thuyết và đối thiết:
H 0 : Doanh số bán trung bình hàng tháng của các cửa hàng là bằng nhau (µ1 =µ2 =µ3 =µk )
H 1 : Tồn tại ít nhất một cửa hàng có doanh số bán khác với ít nhất một cửa hàng còn lại B2 Mức ý nghĩa α=0,05
B3 Phương pháp kiểm định : Thực hiện phương pháp phân tích phương sai một chiều
B4 Tính tiêu chuẩn kiểm định :
- Doanh số trung bình của cửa hàng số 1: 137,75 triệu
- Doanh số trung bình của cửa hàng số 2: 145,67 triệu
- Doanh số trung bình của cửa hàng số 3: 173,17 triệu
- Doanh số trung bình của cửa hàng số 4: 265,67 triệu
- Doanh số trung bình của hàng tháng của công ty là 180,56 triệu
- Vì F = 15,01 > 2,816 nên chúng ta bác bỏ H0, chấp nhận H1 có nghĩa là tồn tại ít nhất một của
hàng có doanh số bán khác với doanh số bán của ít nhất một của hàng còn lại
Hồi quy tương quan (mối quan hệ giữa hai hay nhiều biến định lượng)
Khi nghiên cứu mối quan hệ giữa hai hay nhiều biến định lượng, chúng ta có thể sử dụng phương pháp hồi quy, trong đói có một biến nguyên nhân (biến độc lập) và một biến kết quả (biến phụ thuộc) Trong phương pháp này người ta có thể tìm ra được mối quan hệ và mức độ tác động của biến nguyên nhân đến biến kết quả như thế nào Giả sử chúng ta kiểm tra mối quan hệ tuyến tính giữa số năm làm việc trong doanh nghiệp với thu nhập Khi đó, ta có thể thấy rằng biến phụ thuộc
là biến thu nhập (biến Y) và biến độc lập là biến số năm làm việc (biến X)
Điều kiên ứng dụng
- Giá trị của biến X là hoàn toàn độc lập so với biến Y
- Sai số trong mô hình phải tuân theo quy luật phân phối chuẩn
- Trung bình các sai số của mô hình phải bằng không
Trang 21- Phương sai của sai số là một hằng số và độc lập với giá trị X
Yi = β0 + β1Xi + εi (1)
Trong đó: Xi là số năm làm việc của người thứ i
Yi là thu nhập hàng năm của người thứ i
β0 giá trị của mô hình (giá trị của biến Y) khi giá trị của biến độc lập X bằng 0
β1 đo lường mức độ thay đổi của biến Y khi biến X thay đổi một đơn vị
Nam lam viec
20 18
16 14
12 10
8 6
Kiểm tra sự phù hợp của mô hình
Phân tích phương - ANOVA (kiểm tra sự tồn tại mối quan hệ trong mô hình)
Một mô hình tuyến tính được xây dựng khi nó tồn tại mối quan hệ giữa biến độc lập và biến phụ thuộc, phân tích phương sai sẽ cho phép kiểm định mối quan hệ tuyến tính giữa hai biến
- Gọi SST là tổng bình phương các biến động (giữa giá trị thực tế và giá trị trung bình của biến y) Khi đó ta có: ∑
1
2
)(
- Gọi SSR là tổng bình phương hồi quy, là đại lượng biến động của giá trị thực tế yi được giải thích bởi giá trị hồi quy, ∑
1
2
)ˆ
Trang 22- Gọi SSE là tổng bình phương biến động giữa giá trị thực tế và giá trị hồi quy, khi đó ta có thể tính được ∑
1
2
)ˆ(
Khi đó trung bình bình phương hồi quy sẽ là
k
SSR
=MSR với k là số biến (trong trường hợp này k=1) và trung bình bình phương phân dư
k n
SSE
−
=MSE
Giá trị kiểm định F =
MSE
MSR
có phân phối F (Phân phối Fisherr) dùng để kiểm định ý nghĩa của
mô hình hồi quy, do vậy, giá trị F càng lớn (hay P(F) càng nhỏ hơn α) thì mô hình càng có ý nghĩa
Hệ số R 2 (s-square)
Hệ số R2 dùng để đo lường sự phù hợp của mô hình tuyến tính và nó thường gọi là hệ số xác định (coefficient of determination) Hệ số này biểu hiện tỷ lệ phần trăm biến đội của biến y được giải thích bởi các biến x Khi đó
SST
SSE SST
R k R
Tính các hệ số trong mô hình
Ở phương trình (1) chúng ta quan tâm chú ý đến hai hệ số β0 và β1, yêu cầu của mô hình hồi quy
là làm nhu thế nào để tìm được các hệ số này, chúng ta có thể thể tính toán các giá trị tương ứng của β0 và β1 là b0 và b1 trên mẫu để ứng lượng lên tổng thể Đặt (x1, y1), (x2, y2), , (xn,yn) là mẫu gồm n cặp quan sát trên đường hồi qui tổng thể có dạng:
x x
n
y x y
1
)(
)((
và b0 =y−bix
Với
n
y y
n i i
∑
=
= 1
Trang 23Hệ số hồi quy chuẩn hóa (standardized regression coefficient)
Hệ số hồi quy chuẩn hóa, kí hiệu là Beta biểu hiện độ dốc của đường thẳng (tìm được theo phương pháp bình phương bé nhất) khi cả hai biến X và Y được biểu diễn bằng thang đo chuẩn hóa, nó được tính bằng:
y
x
s
s
Beta=β1 với sx và sy là độ lệch chuẩn của biến X và biến Y
Ước lượng các tham số của tổng thể
Phân tích hồi quy không chỉ mô tả các dữ kiện quan sat được mà công cho phép suy rộng các kết luận về mối quan hệ trong mẫu lên tổng thể Suy rộng các kết quả của mẫu cho các giá trị của tổng thể dựa vào các giả định sau:
- Với bất kì một giá trị X nào thì phân phối chuẩn của biến Y phải là phân phối chuẩn
- Các giá trị Y độc lập đối với nhau tức là quan sát này không bị ảnh hưởng bởi các quan sát khác
- Tất cả các trị trung bình µy khi X xảy ra đều nằm trên một đường thẳng – đó là đường hồi quy tổng thể
Khi chúng ta biết các giá trị b0 và b1 trên mẫu, chúng ta sẽ suy rộng giá trị này lên tổng thể cho các giá trị β0 và β1
Nếu đặt σ2
e và s2e là phương sai của sai số của mẫu (e) và tổng thể (ε), ta có:
12
e n
i
i
e b
x n x
s x
1
2
2 2
)(
b
x n x
s s
s
1
2 2
2 2
x n x
s
1
2 2
2 2
Trang 24Gọi α là mức ý nghĩa thì ta luôn luôn tìm được một khoảng tin cậy của β1, khi đó:
2 2 1 1 2
Kiểm định các tham số của tổng thể
B1 Giả thiết và đối thiết
Đối xứng Phải Trái Giả thiết H0: β1 = β1o H0: β1 ≤ β1o H0: β1 ≥ β1o
Đối thiết H1: β1 ≠ β1o H1: β1 > β10 H1: β1 < β1o
B2 Xác định mức ý nghĩa α
B3 Phương pháp kiểm định: Kiểm định t-student đối với mối quan hệ giữa hai biến
B4 Tính tiêu chuẩn kiểm định:
1
0
1 1
b qs
s
b T
Khi chúng ta có các hệ số b0 và b1, chúng ta có thể thành lập được mô hình, thay các giá trị xn+1
vào thì ta có thể tính được giá trị dự đoán của mô hình
yi = b0 + b1xi + ei
Với mỗi giá trị của xi chúng ta sẽ tìm được các giá trị dự đoán của yi tương ứng luôn này trong
khoảng n 2
2 1
yˆts
)1(
)(
1
x
n e
y
s n
x x n
s
s
−
−+
KIỂM ĐỊNH CHI BÌNH PHƯƠNG VỀ TÍNH PHỤ THUỘC HAY ĐỘC LẬP CỦA CÁC
BIẾN
Kiểm định giả thiết về quy luật phân phối của tổng thể
Kiểm định giả thiết về sự phân phối của tổng thể hay có thể gọi là kiểm định sự phù hợp là kiểm
định nhằm xem xét dữ liệu thu thập được phù hợp (thích hợp) đến mức nào với giả định về phân
phối của tổng thể
Trang 25Giả sử có mẫu ngẫu nhiên n quan sát được chia thành k nhóm khác nhau, mỗi quan sát phải và chỉ thuộc về một nhóm thứ i nào đó (i=1,2,…,k)
Khi đó Oi là số lượng quan sát ở nhóm thứ i, vấn đề đặt ra là ta sẽ dùng mẫu quan sát này để kiểm định giả thiết H0 thể hiện các xác suất pi để một quan sát nào đó thuộc về nhóm thứ i Chúng ta cần tính:
Tính số lượng quan sát thuộc về nhóm thứ i trong trường hợp giả thiết H0 đúng, nghĩa là tính các giá trị mong muốn Ei theo công thức: Ei =n*pi
E
E O
1
2
χ
Tiêu chuẩn kiểm định:
Trong đó: Oi : tần số quan sát được trong thực tế
Ei : tần số theo lí thuyết
df = k-1: mức độ tự do trong phép kiểm định
k : số loại tính chất hay số khoảng đã dùng phân loại tính chất
pi : thông số được ước định từ số liệu thu thập được
KIỂM ĐỊNH CHI BÌNH PHƯƠNG
(kiểm định về sự phân phối tổng thể)
1 Giả thiết và đối thiết:
2 Xác định mức ý nghĩa
3 Phương pháp kiểm nghiệm Chi bình phương
5 Điểm tới hạn và miền bác bỏ:
Là kiểm định một đuôi (df=k-1) với:
E O
1
2
χ
Trang 26Ví dụ 1: Trong một đợt ra đề thi trắc nghiệm môn Kinh tế vi mô, người ta tin tưởng rằng 60% sinh viên tham gia thi sẽ đạt điểm đậu trên bài thi trắc nghiệm này với độ tin cậy 95% Chọn một cách ngẫu nhiên 200 sinh viên tham gia thi và tiến hành điều tra Kết quả thu được có
105 sinh viên đạt và 95 sinh viên không đạt Hỏi kết quả này có trái với kết quả mong đợi hay không ?
Giải: Gọi p là tỉ lệ sinh viên đạt điểm đậu, khi đó 1-p là tỉ lệ sinh viên không đạt
B1 Giả thiết và đối thiết
B3 Xác định phương pháp kiểm định: Phương pháp kiểm định sự phù hợp Chi bình phương Vì
df= k-1= 2-1= 1 nên với độ tin cậy 95% ta có
843,3
2 05 , 0 );
1 (
2 );
) 80 95 ( 120
) 120 105
BB
Ví dụ 2: Để chọn một bí thư đoàn cho một trường đại học người ta đề cử 3 ứng viên và chúng
ta phải kiểm tra xem tỉ lệ các đoàn viên bỏ phiếu cho mỗi ứng viên có khác nhau hay không Một mẫu 150 cử tri hợp lệ được chọn ngẫu nhiên từ danh sách của trường đại học ấy
Kết quả kiểm phiếu thu được như sau:
Giải:
Gọi p 1 , p 2 ,p 3 lần lượt là tỷ lệ phiếu bầu của các đoàn viên cho lần lượt các ứng viên
B1 Phát biểu giả thiết và đối thiết
Giả thiết H 0 : p1= p2 =p3 =1/3
Đối thiết H 1 : Ít nhất một trong các tỷ lệ nhỏ hơn 1/3
Trang 27B2 Mức ý nghĩa α=0,05
B3 Xâc định phương phâp kiểm định: Phương phâp kiểm định sự phù hợp Chi bình phương Vì
df= k-1= 3-1= 2 nín với độ tin cậy 95% ta có
9914,52
05 , 0 , 2
2 ,
df =χ =
χ α
B4 Tính tiíu chuẩn kiểm định:
Nếu giả thiết H 0 đúng thì số cử tri theo lí thuyết bầu cho câc ứng viín đều lă 50 Khi đó:
B5 Kết luận: Vì 6,52>5,9914 nín chúng ta có thể bâc bỏ H 0 tức lă câc đaòn viín đê bỏ phiểu
cho một ứng viín nhiều hơn ít nhất một ứng viín còn lại
52,650
)5036(50
)5053(50
)5061
E
mẫucủa
lớnđộTổng
)jcộtTổng(x)ihàngTổng
(
E
j i ij
KIỂM ĐỊNH CHI BÌNH PHƯƠNG
Giả thiết vă đối thiết:
g có mối liín hệ giữa hai biến trong tổng thể
(Kiểm định mối liín hệ)
1
Giả thiết Khôn
Đối thiết Có mối liín hệ giữa hai biến trong tổng thể
)*(c-1)) với:
χ2 df;α
E O
Trang 28í dụ 1: Một nhà nghiên cứu thị trường muốn xác định mối tương quan có thể có giữa kích cỡ xe
Hãng chế tạo
V
ô tô và hãng sản xuất đối với các xe mới được mua trong thời gian gần đây Một mẫu 1000 xe mới mua trong nước đã chọn ngẫu nhiên và phân loại theo kích cỡ và hãng sản xuất Dữ liệu thu được:
58 (65,131)
65 9,2 6) 82 (76,032) 45 (36,672)
8,179) 142 (151,668)
60 (73,153)
4,6 2) 46 (33,264) 28 (16,044)
413
396
191
húng ta dùng phép kiểm định chi bình phương để so sánh giá trị qua sát được và giá trị lí thuyết
hiết và đối thiết
hân loại độc lập nhau trong tổng thể
ể B2
ểm định Chi bình phương về mối quan hệ giữa hai
B4 Tính tiêu chuẩn kiểm
Giả thiết H 0 : Hai yếu tố dùng p
Đối thiết H 1 : Hai yếu tố dùng phân loại phụ thuộc nhau trong tổng th
Xác định mức ý nghĩa α=0,05
B3 Phương pháp kiểm định: Phương pháp ki
biến
định B5 Kết luận : Vì df= (r-1)*(c-1
5916 , 12 2
E O
χ
5916 , 12 81
,
, 0 6 (