Giáo trình Lý thuyết thống kê là giáo trình về khoa học dữ liệu với những nguyên ký chung nhất về phương pháp và kỹ năng ứng dụng. Giáo trình được biên soạn trên cơ sở tiếp thu những nội dung và kinh nghiệm giảng dạy môn lý thuyết thống kê trong nhiều năm qua, đồng thời cập nhật những kiến thức mới của thống kê hiện đại, nội dung giáo trình hướng đến tính khoa học, cơ bản và hội nhập. Mời các bạn cùng tham khảo chi tiết nội dung phần 2 của giáo trình!
Trang 1Chương 10
KIEM ĐỊNH PHI THAM SÓ
Từ chương 7 đến 9, chúng ta đã nghiên cứu các phương pháp dùng để kiểm định dữ liệu định lượng Khi đó để so sánh các tổng thể với nhau, chúng ta thường so sánh giá trị trung bình của các tổng thể Trong chương này, chúng tôi sẽ giới thiệu các phương pháp dùng để kiểm định-dữ liệu định tính với thang đo thứ bậc Khi dữ liệu là định tính với thang đo thứ bậc,
giá trị trung bình không còn phù hợp để so sánh vị trí trung tâm của các tông thể khác nhau Lúc này chúng ta sẽ so sánh các tổng thể với nhau mà không sử dụng một tham số cụ thể nào cả Thay vì việc so sánh giá trị trung bình của các tổng thể, chúng ta sẽ so sánh vị trí của các tổng thể với nhau Chính vì lý do nêu trên mà các kiêm định trình bày ở chương này được gọi là kiểm định phi tham số
Hình 10.1 mô tả phân phối của hai tổng thể 1 va 2 Do kiém dinh phi tham số không ràng buộc yêu cầu về phân phối chuẩn nên ở đây trình bày các dạng phân phối tự do Ở hình 10.1a, vị trí của hai tông thể là như nhau phản ánh giá trị của hai tông thê tương tự như nhau Hình 10-Ib cho thấy vị trí của tông thể 1 nằm ở phía trái vị trí của tổng thể 2 hay tong, thể 1 nhỏ hơn
tổng thé 2 Trong khi ở hình 10 Ic vị trí của tông thể 1 lại nằm ở bên phải vị
Trang 2Tổng thể 1 Tổng thể 2 v Hinh 10.1b Tổng thể 2 Tổng thể Ï Hinh 10.1c
Kiểm định phi tham số cũng được dùng để kiểm định dữ liệu định
lượng nhưng yêu cầu về phân phối chuẩn bị vi phạm Chương này sẽ trình
bày các kiểm định phi tham số bao gồm kiểm định tổng hang Wilcoxon,
kiểm định dấu, kiểm định tổng hạng có dấu Wilcoxori, kiểm định Kruskal- Wallis, kiểm định Friedman và kiểm định tương quan hạng Spearman 10.1 KIEM DINH TONG HANG WILCOXON
10.1.1 Pham vi 4p dung va gia thuyét thống kê
Kiểm định tổng hạng Wilcoxon được áp dụng trong trường hợp sau đây: - Mục đích nghiên cứu nhằm so sánh hai tổng thể
- Số liệu có thể là định tính với thang đo thứ bậc hoặc định lượng nhưng yêu cầu về phân phối chuẩn của #4 — #4; không thỏa mãn
- Hai mẫu độc lập
Giả sử chúng ta cần so sánh tổng thể 1 vA tông thể 2 Khi số liệu thỏa mãn các điều kiện nêu ở trên chúng ta dùng kiểm định tong hang Wilcoxon và so sánh vị trí của hai tổng thé thay vì so sánh trực tiếp số trung bình của hai tổng thể như trường hợp kiểm định tham số (xem chương 8) Lúc này giả thuyết kiểm định sẽ là:
Hạ: Vị trí của hai tổng thé 1a như nhau Hị: Vị trí của hai tổng thể là khác nhau
Trang 3Trên đây là trường hợp kiểm định hai phía Nếu chúng ta muốn kết luận tổng thê 1 lớn hơn tổng thê 2, ta dùng kiểm định phía phải và giả thuyết đối lúc này là:
HI: Vị trí của tổng thể 1 nằm phía phải vị trí của tổng thể 2
Hoặc ngược lại nếu chúng ta muốn kết luận tổng thể 1 nhỏ hơn tổng
thể 2, ta dùng kiểm định phía trái với giả thuyết đối là:
HI: Vị trí của tổng thể 1 nằm phía trái vị trí của tổng thể 2
10.1.2 Tiêu chuẩn kiểm định và phân phối của tiêu chuẩn kiểm định 10.1.2.1 Trường hợp cỡ mẫu nhỏ (< 10)
Vi du 10.1:
Hiện nay tinh trạng thay đổi việc làm khá phổ biến đối với một bộ
phận lao động có trình độ chuyên môn cao Điều này gây ra gánh nặng chỉ phí phải tuyển và đào tạo các nhân viên mới cho các công ty Để giảm thiểu chỉ phí này, trưởng phòng nhân sự của một công ty muốn so sánh thời gian mà nhân viên có bằng cử nhân quản trị kinh doanh và nhân viên có bằng cử nhân thuộc các chuyên ngành khác làm việc ở công ty ông trước khi chuyên
sang chỗ làm mới Ông đã chọn ngẫu nhiên 5 nhân viên có bằng cử nhân
quản trị kinh doanh và 5 nhân viên có bằng cử nhân thuộc các chuyên ngành khác mà công ty đã tuyển trong vòng 3 năm qua Số tháng làm việc của 10 nhân viên này được liệt kê dưới đây (những người vẫn đang làm việc tại
công ty được quy số tháng làm việc là 36)
Bằng cử nhân quản trị kinh doanh: 22 23 20 36 25 -
Bằng cử nhân chuyên ngành khác: 18 27 26 33 28
Liệu ông trưởng phòng nhân sự có thể kết luận ở mức ý nghĩa ø = 5% là có sự khác biệt về thời gian làm việc tại công ty của các nhân viên có hai
loại bằng khác nhạu? ,
Giải:
Để giúp ông trưởng phòng nhân sự có những bằng chứng đưa ra kết luận ở mức ý nghĩa 5%, chúng ta sử dụng Ì kiểm định tổng hạng Wilcoxon Giả thuyết kiểm định được nếu ra đưới đây:
Họ: Vị trí của hai tổng thể lä như nhau
Hị: Vị trí của hai tổng thể là khác nhau (thời gian làm việc tại công ty của cử nhân quản trị kinh doanh và cử nhân các chuyên ngành khác là khác nhau)
Trang 4-Bước 1: Cho hạng tất cả các đơn vị trong mẫu
Để tính được tiêu chuẩn kiểm định, đầu tiên chúng ta cần xếp hạng chung cho tất cả các đơn vị trong các mẫu Nguyên tắc xếp hạng là cho hạng của giá trị nhỏ nhất bằng I, giá trị nhỏ tiếp theo bằng 2 và cứ thế tiếp tục cho
đến khi chúng ta cho xong hang của đơn vị cuối cùng có giá trị lớn nhất trong mẫu bằng 10 Trường hợp các đơn vị trong mẫu có giá trị bằng nhau thì hati của các đơn vị này sẽ bằng giá trị trung bình của hạng tính được từ các đơn vị đó Bảng 10.1 dưới đây thống kê lại hạng của các đơn vị trong mẫu : :ø1 cái Bảng 10.1 MẫuiI Hạng Mẫu 2 Hạng 23 18 1 n 23 4 27 7 Đị 20-2 26 6 36 10 33 9 2 528, 8 Téng _ 24 ~~‘ Téng 31
Bước 2: Tính tổng hạng của các mẫu và giá trị của tiêu chuẩn kiểm định”
Tổng hạng của mẫu 1 kí hiệu là 7¡, 7,=24, và tổng hạng của mẫu 2 Kt hiéu 1a 72, T1 (lưu ý ý là T¡ + 7; phải bằng tổng hạng của tất cả các đơn vị
trong hai mau, tire la bang 55) Chúng ta có thể lấy ngẫu nhiên bất ky 7; hoặc 7; làm giá trị của tiêu chuẩn kiểm định tính từ mẫu quan sát Ở đây,
chúng ta lẫy ngẫu nhiên 7} làm giá trị của tiêu chuẩn kiểm định và kí hiệu
là 7 Như vậy giá trị của tiêu chuẩn kiểm định tính cho ví dụ 1 là T= T =.: ụ
Bước 3: Phân phối của tiêu chuẩn kiểm định và miền bác bỏ ial Khi cỡ mẫu nhỏ hơn hoặc bang 10, chúng ta có thể s SỬ dụng tiêu 'chuẩn kiểm định Wilcoxon’ (Bảng phụ lục 5): ¬
gi
- Đối với kiểm định hai phía, chúng ta sẽ bác bỏ giả thuyết Họ, 6 ‘mgt mức ý nghĩa œ nào đó khi giá trị của tiêu chuẩn kiểm định T:
hoặc tất nhỏ 7 <T,, hoặc rất lớn, 7 2 Tự
trong đó 7, là cận dưởi và 7% 1a cần trên của tiêu chad kiểm định : writ ữ3
Trang 5- Đối với phía phải, chúng ta sẽ bác bỏ giá thuyết Ho khi 7 > 7,
- Đối với kiểm định phía trái, chúng ta bác bỏ giả thuyết #fo khi 7 <7,
Ví dụ 10.1 ở trên sử dựng kiểm định hai phía với mức ý nghĩa 5% nên chúng ta sẽ sử dụng phần a của Bảng phụ lục 5 Chúng ta sẽ đối chiếu tiêu chuẩn kiểm định ở cột có n =5 và đồng có m, =5 Tra bảng thấy miễn bác bỏ của tiêu chuẩn kiểm định là vùng có 7 <T, =18 hoặc T >1 = =37 Do
giá trị của tiêu chuẩn kiểm định tính cho ví dụ 10.1 là.7=24, chúng ta không thé bác bỏ giả thuyết Ho
Bước 4: Kết luận :
Như vậy trong trường hợp này, trưởng phòng nhân sự của công ty không có đủ bằng chứng để kết luận có sự khác biệt về thời gian làm việc tại công ty của cử nhân có bằng quản trị kinh doanh và cử nhân có bằng thuộc chuyên ngành khác với mức ý nghĩa ø = 5%
10.1.2.2 Trường hợp cỡ mẫu:lớn (> 10)
Các nhà thống kê đã chỉ rả rằng khi cỡ mẫu lớn hơn 10, tiêu chuẩn
kiểm định có phân phối xấp xi chuẩn với kỳ vọng là E(7) và độ lệch chuẩn la o,, trong dé: #ữ)” a(n, tm) 4 (10.1) và: ơy = _ [Rmmữm+m,+Ð 12 (02) ˆ _ Tiêu chuẩn Âiểm định lúc này sẽlä: ˆ “ˆ so “ (1033)
- Tương tự tưởng tp 'dỡ thấu nhỏ Rơn 10, ching ta có thể lấy ngẫu
nhiên bắt kỳ 7; höặc 72 'để tính tiết thuận kiểm định Tuy nhiên : nên dựa
Trang 6Vĩ dụ 10.2:
Một nhà sản xuất thuốc đang tiến hành nghiên cứu sản xuất một loại
thuốc giảm đau tạm đặt tên là A Thí nghiệm đầu tiên mà nhà sắn xuất tiến
hành là so sánh hiệu quả của A;¡ với loại thuốc aspirin đang bán trên thị
trường Để tiến hành thí nghiệm này, nhà sản xuất chọn ngẫu nhiên 30
người Trong số đó, 15 người được cho uống A¡ và 15 người được cho uống
aspirin khi bị đau đầu hoặc có bất kỳ một triệu chứng đau nào khác Những
người này sau đó được hỏi về hiệu quả của loại thuốc mà họ đã sử đụng
bằng cách cho điểm như sau: 5 = Cực kỳ hiệu nghiệm 4 = Rất hiệu nghiệm
3 = Tương đối hiệu nghiệm 2 = Hơi hiệu nghiệm 1 = Không hiệu nghiệm
Phương án trả lời của hai mẫu được liệt kê đưới đây:
Ai: 3,5,4,3,2,5,1,4,5,3,3,5,5,5, 4
Aspirin: 4, 1, 3, 2, 4, 1, 3, 4, 2, 2, 2, 4, 3, 4, 5 ‘ Liệu có đủ bằng chứng ở mức ý nghĩa a = 5% dé kết luận ring A Al hiéu qua hon aspirin?
_ Giải:
Giả thuyết kiểm định là:
Ho: Vị trí của hai tổng thể là như nhau (hiệu quả của hai loại thuốc là
như nhau)
Hy: Vj tri cia tổng thể 1 nằm ở bên phải vị trí của tổng thể 2 (A1 hiệu
quả hơn aspirin)
Tiêu chuẩn kiểm định
Đề tính được giá trị của tiêu chuẩn kiếm định, chúng ta cần phải XẾp
hạng cho tất cả các đơn vị trong hai mẫu Trong hai mẫu quan sát ở trên, có 3 đơn vị có giá trị nhỏ nhất bằng ‘1°, theo thứ tự các đơn vị này sẽ có hạng
lần lượt là 1, 2, 3 Tuy nhiên như đã lưu ý ở trên, hạng của các đơn vị này sẽ
bằng hạng trung bình tính được chọ các đơn vi có cùng, giá trị bằng ‘1’ va giá trị trung bình đó bằng 2 Năm giá trị nhỏ tiếp theo bằng “2° có hạng lận lượt là 4, 5, 6, 7, § và như vậy giá trị trung bình của hạng của các đơn vị này sé la 6 Ching ta cứ thế tiếp tục cho đến khi xếp xong hạng cho các đơn vị trong mẫu Bảng 10.2 dưới đây liệt kê hạng của 30 đơn vị mẫu
Trang 7Bảng 10.2 Ai Hạng Aspirin Hạng 3 12 4 19,5 5 27 l 2 4 19,5 3 12 3 12 2 6 2 6 4 19,5 5 27 1 2 i 2 3 12 4 19,5 4 19,5 5 27 2 6 3 12 2 6 3 12 2 6 5 27 4 19,5 5 27 3 12 5 27 4 19,5 4 19,5 5 27 Tong 276,5 Tong 188,5
Tổng hạng tính được là 7/=276,5 va T;=188,5 Do giả thuyết đối là vị
trí của tổng thể 1 nằm ở bên phải vị trí của tổng thể 2 nên chúng ta sử dụng
T¡ để tính tiêu chuẩn kiểm định z và đây là kiểm định phía phải Do cỡ mẫu lớn hơn 10 nên chúng ta sẽ chuẩn hóa giá trị kiểm định như sau: E(T)= n(n, +m +1) — 155+15+0 _ 158) _ 222 2 2 + Thn,(n +n, +1) = [SEED = 94,1 + 12 > T-E(T) Ớy _ 276,5—232,5 =1,83 24,1
Vi day 1a kiểm định phía phải nên chúng ta phải xem giá trị của tiêu
chuẩn kiểm định z có đủ lớn (lớn hơn giá trị tiêu chuẩn) để dẫn đến việc bác bỏ giả thuyết Ho hay không
Trang 8Với mức ý nghĩa œ =5%, giá trị tiêu chuẩn z được xác định bằng
cách tra bảng z là z„ =Z¿o; = I,645 Do vậy, chúng ta có đủ cơ sở để bác bỏ
giả thuyết #o và kết luận loại thuốc mới A1 hiệu qua hon aspirin
Lưu ý:
1 Chúng ta cũng có thể sử dụng tiêu chuân p-va/ue đê đưa ra kết luận
Với kiểm định hai phía chúng ta bác bỏ giả thuyết #o khi p— vaiue < œ!2.|
Với kiểm định một phía chúng ta bác bỏ giả thuyết Họ khi p— vaiue < ứ Giá trị p-value tính cho ví dụ 2 như sau:
p-value = P(Z > 1,83) = 0,5~0,4664 = 0,0336
Vi p-value < 0,05 chúng ta bác bỏ giả thuyết Họ và đi đến cùng một kết
luận là loại thuốc mới A; hiệu quả hơn aspirin
2 Kiểm định Mann-Whitney tương đương với kiểm định tổng hạng Wilcoxon (Sounderpandian (2002) va Keller (2005)), do vay khi việc so sánh hai tổng thể thỏa mãn điều kiện của kiểm định téng hang Wilcoxon chúng ta có thể sử dụng kiểm dinh Mann-Whitney dé thay thế Giả thuyết và
nguyên tắc bác bỏ giả thuyết Họ của hai kiểm định này như nhau
10.2 KIỀM ĐỊNH DÁU VÀ KIÊM BINH TONG HANG CO DAU WILCOXON
Kiểm định dấu và kiểm định tộng hạng, có dấu Wilcoxon được sử
dụng trong trường hợp sau đây: - aad
- Mục đích nghiên cứu nhằm so sánh hai tổng thể mó THỦ - Số liệu có thể là định tính với thang đo thứ bậc hoặc định lượng nhưng yêu cầu về phan’ phối chuẩn bị vi phạm
-Hai mẫu tương đồng ting cp c
Mẫu tương đồng từng cặp được thiết kế nhằm đánh giá hiệu quả tác
động của một can thiệp nào đó hoặc so sánh hai can thiệp khác nhau Các can ˆ thiệp có thể là một chương trïnh, một chính sách trong kinh tế-xã hội, hoặc một biện pháp mới trong lĩnh vực kinh doanh, hay một phương pháp chữa
bệnh mới trong y học Để hiểu về mẫu tường đồng từng cặp, chúng tá xét VÍ
dụ sau đây Giá sử 'chúng ta có hải tổng thể trong’ đó tổng thể 1 nhận dugce ti
thiệp và tổqg thể 2 thì không, hoặc mỗi tổng thể nhận được một can: - thiệể
Trang 9khác nhau Để so sánh hiệu quả của các can thiệp, chúng ta sẽ rút ra hai mẫu từ hai tổng thể trên Các đơn vị từ mỗi mẫu sẽ được sắp xếp tương đồng từng,
cặp với nhau theo một số tiêu thức nào đó tùy thuộc vào mục dich nghién cứu Ví dụ, cặp thứ nhất gồm hai nữ ở độ tuổi 20, cặp thứ hai gồm hai nam
cũng ở độ tuổi 20, cặp thứ 3 gồm 2 nữ ở độ tuôi 22, Mục đích của việc sắp xếp tương đồng từng cặp nhằm loại bỏ đặc tính cá nhân khác biệt giúp cho việc đánh giá hiệu quả của tác động can thiệp là chính xác
_—— Khi dùng kiểm định dấu và kiểm định tổng hạng có dấu Wilcoxon, chúng ta so sánh chênh lệch của từng cặp tương đồng trong hai mẫu với nhau Nếu là đữ liệu định tính với thang đo thứ bậc chênh lệch về mặt con số không có ý nghĩa vì các con số ở đây chỉ mang tính chất mã hóa cho các phương án trả lời Do đó trong trường hợp này, chúng ta chỉ cần chú ý đến dấu của chênh lệch và sử dụng kiểm định dấu để so sánh hai tong thể Nếu là đữ liệu định lượng, chênh lệch từng cặp sẽ mang ý nghĩa về mặt con số thực tế Lúc này chúng ta quan tâm đến cả đấu và độ lớn của chênh lệch và sẽ sử dụng kiêm định tổng hạng có dau Wilcoxon
10.2.1 Kiém dinh dấu
Phạm vỉ áp dụng va gia thuyết kiểm định
Kiểm định đấu được sử dụng trong trường hợp sau đây: - Mục đích nghiên cứu nhằm so sánh hai tông thể
- Số liệu định tính với thang đo thứ bậc - Hai mẫu tương đồng từng cặp ˆ
Giả thuyết kiếm định vấn là:
' No: VỊ trí của hai tổng thể là như nhau Hị: Vị trí của hai tổng thể là khác nhau
Tiêu chuẩn kiểm định — ˆ ˆ
_Khi tién hành kiểm định dấu, chúng ta tính toán chếnh lệch của các quan sát trong mẫu 1 với quan sát tương ứng trong mẫu 2 Các chênh lệch
bằng 0 sẽ, được loại bỏ vì chúng, không phản ánh được khác biệt giữa các cặp tương ứng Sau đó, tính tổng số chênh lệch dương (+), kí hiệu x+, và chênh lệch âm (- ), kí:hiệu x-‹ Nếu giả thuyết Ho đứng! thi x’ = x” - Ngược lai, ching ta sẽ bác bỏ giả thuyết Ho.- phun Pee
res Aa
Trang 10Chúng ta có thể lấy ngẫu nhiên x+ làm tiêu chuẩn kiểm định Khi đó x+ là một biến ngẫu nhiên tuân theo quy luật phân phối nhị thức Nếu giả thuyết Ho ding, tỉ lệ của phân phối nhị thức là p=0,5
Với phân phối nhị thức, khi cỡ mẫu ø đủ lớn, x+ có phân phối xấp xi
chuẩn với kỳ vọng là = ø và độ lệch chuẩn là o = Anp(~ p) Lúc này
tiêu chuẩn kiểm định sẽ được chuẩn hóa theo công thức: : _ x-np _ Vj#p~p) Giả thuyết Ho: Vị trí của hai tổng thể là như nhau (104) tương đương với: Họ: p=0,5
Tùy vào từng trường hợp cụ thể chúng ta sẽ có kiểm định phía trái, phía phải hoặc hai phía Lưu ý: cùi 1 Giả sử giả thuyết ##o đúng, khi đó tiêu chuẩn kiểm định được tính như sau: x—np x-0,5n x-0,5%n Z= = = vnp(l-p) /n(0,5)(0,5) 0,5ýn Phân phối nhị thức xấp xi chuẩn khi zp>5 và n(— p) >5 Khi p=0,5: hp = n(0,5) > 5 và n(1~— p) =n(1-0,5) = n(0,5) > 5
Điều này tương đương với ?>10 Có nghĩa là tiêu chuẩn kiểm định z chỉ
dùng được khi cỡ mẫu từ 10 trở lên, Trên thực tế, cỡ mẫu càng lớn kết quả
kiểm định càng chính xác ,
2 Do chúng ta loại các trường hợp chênh lệch từng cặp bằng 0 nên thực tế
cỡ mẫu n chị được tính cho các trường hợp có chênh lệch khác 0 |
Vi du 10.3:
Trong một nghiên cứu nhằm cải tiến chức năng bàn phím của điệt thoại di động Nokia cho các đòng sản phẩm mới, phòng marketing của nhằ
sản xuất Nokia tại Việt Nam tiến hành hỏi 20 người đã từng dùng điện thoại
di động mã E63 và mã E71 về sự tiện lợi của bàn phím của hai lóại điện
Trang 11
thoại này Mỗi người trong mẫu được yêu cầu đánh giá sự tiện lợi của hai
- loại bàn phím bằng cách cho điểm: 1 = Rất không tiện lợi ˆ
2 = Không tiện lợi
3 = Bình thường 4 = Tiện lợi
5 = Rất tiện lợi
Kết quả thu được được mô tả ở 3 cột đầu của Bang 10.3 Liệu với mức ý nghĩa œ =5% , phòng marketing có đủ cơ sở để kết luận rằng bàn phím của E63 tiện lợi hơn bàn phím của E7I
Giải:
Ở ví dụ 10.3, chúng ta cần so sánh hai tổng thể với dữ liệu định tính
và thang đo thứ bậc Vì từng người tra lời cho cả hai loại điện thoại nên mẫu ở đây là tương đồng từng cặp
Giả thuyết kiểm định:
Họ: VỊ trí của hai tông thể là như nhau
Hy: Vi tri cha téng thể 1 nằm ở bên phải vị trí của tổng thể 2 (bàn phím của Nokia E63 tiện ích hơn)
Tiêu chuẩn kiểm định
Để tính tiêu chuẩn kiểm định, chúng ta cần tính chênh lệch của từng cặp và kết quả trình bày ở 3 cột cuối của Bảng 10.3 Kết quả chênh lệch cho thấy có
16 cặp có chênh lệch dương, 3 cặp chênh lệch âm, và một cặp có chênh lệch
bằng 0 Do vậy, x+=16 và z=19 Giá trị củá tiêu chuẩn kiểm định z 1a: x—Ũ,%r -16- 0,509) 0g
_ J0, 540, 53 0,5V19
Với mức ý nghĩa a= =5% và đây là kiểm định phía phải nên miền bác
bo 1a: 2 > 22 = 20,05 = 1,645 ,
Vì z=2,98> z„ nên chúng tả bác bỏ giả thuyết Họ và kết luận rằng
bàn phím của E63 tiện lợi hơn bàn phím của E71
Trang 12Bảng 10.3 STT người trả lời : E63 E71 Chénh léch xt x- 1 ‘4 5 ¬ - 2 2 1 1 + 3 5 4 1 + 4 3 2 1 + 5 2 1 1 + 6 5 3 2 + 7 1 3 _-2 - 8 4 2 2° + 9 4 2 2 + 10 2 2 0 | AL 3.2 1 + 12 4 °° 3 1 + 13 2 1 1 + 14 3 4 -1 - 15 2 “1 1 + 17 2 1 1 + “7 18 4 3 1 + 19: He 4 F + - :20 ¬ 1 Be + ¬ Tổng số mô ng BO ee 16 3 1
10.2.2 Kiểm định tổng hạng có dấu 1 Wileoron
' Pham vidpdung) A của
Kiểm định tổng "ng c có dấu Witeoxon được s sử dung trong truong hop - sau day:
- Mục đích nghiên cứu nhằm so sánh hai i tong thé ¬
_ - Số liệu định lượng nhưng giả thuyết yé phan phối chudn cia py - 1,
bi vi pham re
- Hai mẫu tương đồng từng cặp ˆ vội Thịt ng NI ĐỀ cre eke
Trang 13Tiêu chuẩn kiểm định và phân phối của tiêu chuẩn kiểm định Giống trường hợp kiểm định dấu, chúng ta tính chênh lệch đ; của từng cặp và loại các trường hợp có chênh lệch bằng 0 Sau đó, chúng ta
xếp hạng cho giá trị tuyệt đối của các chênh lệch theo nguyên tắc xếp hạng ở bước 1, mục 10.2.2 Tổng của các hạng có chênh lệch dương được kí
hiệu là 7” và tổng của các hạng có chênh lệch âm được kí hiệu là 7"
Tương tự như kiểm định tổng hạng Wilcoxon, chúng ta có thể chọn ngẫu
nhiên 7” làm tiêu chuẩn kiểm định và kí hiệu là 7 Để đi đến kết luận bác
bỏ giả thuyết Họ, chúng ta cần so sánh giá trị của 7 với giá trị tiêu chuẩn trong Bảng phụ lục 6
Tùy vào kiểm định là phía trái, phía phải hay hai phía mà chúng ta đi
đến bác bỏ giả thuyết Họ nếu 7 <7,, 7 >7, và T <T, hoặc 7 >1,,
Khi cỡ mẫu lớn hơn 30, 7 có phân phối xấp xi chuẩn với kỳ vọng và
độ lệch chuẩn tính theo công thức dưới đây: EŒ)= = ) (10.5) O, = nín+12n+L) (10.6) 24 trong đó ø là tổng số cặp có chênh lệch khác 0 „Khi đó tiêu chuẩn kiểm định được chuẩn hóa theo công thức: - pe ED) xxx “(10.7) ! Vi du 10.4: Pyne Ses
Nhà phân phối thời trang Alain Delon tại Hà Nội vừa tung ra thị trường một loại túi thời trang mới với hai mau la den va dé bordeaux Nha phân phối muốn biết liệu có sự khác biệt về số lượng bán của hai loại túi này nên đã lấy số liệu về số lượng tủi bán được tại 15 địa điểm bán hàng Số liệu được mô tả ở 3 cột đầu của Báng 10.4 Hãy giúp nhà phân phối có đủ - cơ sở đề đưa ra kết luận ở mức ý nghĩa 5% ¬ M ets
Trang 14Bang 10.4
STT Tuimau Tiimau Chénh Gidtri Hạng Hang Hang
den do lệch d, tuyệt đối đương âm, 1 34 31 3 3 10.5 10.5 2 35 31 — 4.4 12 12 3 43 44 -] 1 2 2 4 46 44 2 2 6.5 6.5 5 16 l5 1 1 2 2 6 26 28 2 2 6.5 6.5 7 68 63 5 5 13.5 13.50 - 8 38 39 + 1 2 2 9 61 63 2 2 6.5 6.5 10 52 54 2 2 6.5 6.5 1! 68 65 3 3 10.5 10.5 12 13 “13 00 13 69 71 2 2 6.5 6.5 14 18 13 5 5 13.5 13.5 15 53 55 2 2 6.5 6.5 Tổng 68.5 36.5 Giải:
Trang 15Ở đây chúng ta muốn xem có sự khác biệt về số lượng túi màu đen và đỏ bán được nên giả thuyết cần kiêm định là:
Họ: VỊ trí của hai tông thể là như nhau
Hị: Vị trí của 2 tổng thể là khác nhau (số lượng túi màu đen và túi
màu đỏ bán được là khác nhau)
Theo các nguyên tắc xếp hạng đã nêu ở các mục trên, chúng ta tính được
T* =68,5 Đây là kiểm định hai phía và với mức ý nghĩa œ = 5%, giá trị tiêu
chuẩn của 7 với cỡ mẫu n=14 tra ở Bang phy luc 6 là: 7, =21 va T, =84
Do vậy chúng ta không đủ cơ sở dé bác bỏ giả thuyết Ho Điều này có nghĩa là số lượng túi màu đen và đỏ bán được là như nhau với mức ý nghĩa 5%
10.3 KIỀM ĐỊNH KRUSKAL-WALLIS
10.3.1 Phạm vi áp dụng và giá thuyết thống kê
Kiểm định Kruskal-Wallis được áp dụng trong trường hợp sau đây:
- Mục đích nghiên cứu nhằm so sánh hai hoặc nhiều tông thé
- Số liệu có thể là định tính với thang đo thứ bậc hoặc định lượng
nhưng giả thuyết về phân phối chuẩn bị vi phạm Các mẫu độc lập
Khi dữ liệu là định lượng và thỏa mãn tiêu chuẩn về phân phối chuẩn,
chúng ta có thể dùng phân tích phương sai để so sánh trung bình của các tổng thể với nhau như đã trình bày ở mục 3 chương 9 Nếu giả thuyết về
phân phối chuẩn bị vi phạm, chúng ta có thể chuyển đữ liệu thành định tinh với thang đo thứ bậc và sử dụng kiểm dinh Kruskal-Wallis Khi so sánh hai tổng thể với nhau, kiểm định Kruskal-Wallis cho kết quả tương tự như kiểm định tông hạng Wilcoxon hai phía Tuy nhiên kiểm định Kruskal-Wallis chỉ cho biết có sự khác biệt giữa hai tổng thé Muốn biết một tổng thể nằm ở bên trái hay phải của tổng thể kia, chúng ta phải dùng kiểm định tổng hạng Wilcoxon
Giả thuyết cần kiểm định là:
Họ: Vị trí của È tổng thể là như nhau
- N.: Có ít nhất 2 tổng thể có vị trí khác nhau
"Trong đó k là số lượng các tông thể cần so sánh
Trang 1610.3.2 Tiêu chuẩn kiểm định và phân phối của tiêu chuẩn kiểm định
Tiêu chuẩn kiểm định
Đầu tiên chúng ta xếp hạng cho tất cả các đơn vị theo nguyên tắc xếp hạng giống kiểm định tổng hạng Wilcoxon Để đi đến kết luận có bác bỏ
giả thuyết HO hay không, chúng ta tính tiêu.chuẩn kiểm định, kí hiệu là #1,
như sau:
2
|; 2 gu, 3(n-+1) n(at+ 19) j=l n (10.8)
trong đó, / là thứ tự của mẫu thứ / : a
Phân phối của tiêu chuẩn kiểm định Z
Khi cỡ mẫu từ 5 đơn vị trở lên, phân phối của tiêu chuẩn kiểm định
sẽ có phân phối xấp xỉ khi bình phương ( +?) với bậc tự đo là &-1 poo
Mién bac bé va p-value
Khi tổng hạng của các mẫu tương tự như nhau, vị trí của các tông thê cũng tương tự nhau và giá trị của # là nhỏ Ngược lại, nếu có giá trị lớn, vị trí của các tông thê sẽ khác nhau Do vậy với kiêm định Kruskal-Wallis,
chúng ta sẽ bác bỏ giả thuyết Họ khi:
A> doa tương đương với p— value < ø
Vi dụ 10.5:
_ Chủ một khách sạn muốn biết khách hàng đánh \ giá chất lượng dịch vụ của ba địa điểm của khách sạn ông Do vậy tại mỗi địa điểm, ông cho, chon ngau nhién 10 người rồi yêu cầu ho đánh giá chất lượng dịch vụ theo thang điểm: 4=Rấttốt 3 = Tốt 1" co 2 = Bình thường 1 = Không tốt
Số liệu thu được cung cấp ở 3 cột 1 3 và § của Bảng 10.5 Voit mức ý
nghĩa 5%, liệu ông chủ khách san ¢ có đủ cơ SỞ để kết luận chất lượng dịch vụ là khác nhau giữa 3 địa điểm :
Trang 17Bang 10.5 Mau 1 Hang Mẫu 2 Hạng Mẫu 3 Hạng (1) (2) (3) (4) (5) (6) 4 27 3 16,5 3 16,5 4 27 4 27 1 2 3 165 2 65 3 16,5 4 27 2 65 2 6,5 3 165 3 165 1 - 2 3 165 4 27 3 16,5 3 16,5 3 165 4 27 3 165 3 165 2 6,5 2 65 2 65° 4 27 3 16,5 3 16,5 1 2 Tổng 186/5 Tổng 156/0 Tổng 122,5 Giải:
Giả thuyết kiểm định là:
Ho: Vị trí của cả 3 tổng thể là như nhau
Hị: Có ít nhất 2 tổng thể có vị trí khác nhau
Hạng của các đơn vị trong 3 mẫu được tính và mô tả ở các cột 2,4,6 trong Bảng 10 5 Gia trị của tiêu chuẩn kiểm định được tính như sau: af tế re : 2 2 2 H= 12 -Xm+* wpe Í 1865 _ 156" 122,5 ~330+ = 2,64 nn+l) in, : 30(30+1) 10 10 10 Miền bác bỏ là H> as = Ares =5,9915
Vi H2, 64<5, 991 5 nén chúng ta không đủ cơ SỞ để bác bỏ giả thuyết Ho Cé nghia 1a chat lượng dịch vụ tại ba địa điểm là tương tự nhau với mức
ý nghĩa ø = 5% : A
Trang 1810.4 KIEM DINH FRIEDMAN
10.4.1 Phạm vi áp dụng và giá thuyết thống kê
Kiểm định Friedman được áp dụng trong trường hợp sau đây:
- Mục đích nghiên cứu nhằm so sánh hai hoặc nhiều tổng thể
- Số liệu có thể là định tính với thang đo thứ bậc hoặc định lượng
nhưng giả thuyết về phân phối chuẩn bị vi phạm - Các mẫu tương đồng từng nhóm
Ở mục 10.2 chúng ta đã biết thế nào là mẫu tương đồng từng cặp Về nguyên tắc, mẫu tương đồng từng nhóm tương tự như mẫu tương đồng từng cặp nhưng được mở rộng ra cho nhiều mẫu (Ở mẫu tương đồng từng cặp, quan sát 1 của mẫu 1 tương tự như quan sát l của mẫu 2, quan sát 2 của mẫu 1 tương tự như quan sát 2 của mẫu 2, theo một tiêu thức nào đó Trường hợp mẫu tương đồng từng nhóm, quan sát thứ nhất của các mẫu là tương tự như nhau, quan sát thứ hai của các mẫu tương tự nhau, theo một tiêu thức
nào đó Do vậy, chúng ta gọi đây là mẫu tương đồng từng nhóm
Giả thuyết kiểm định tương tự như giá thuyết của kiểm định Kruskal-
Wallis la:
Ho: Vị trí của k tổng thể là như nhau
Hị: Có ít nhất 2 tổng thể có vị trí khác nhau
10.4.2 Tiêu chuẩn kiểm định và phân phối của tiêu chuẩn kiểm định
Tiêu chuẩn kiểm định
Để tính được tiêu chuẩn kiểm định, chúng ta sử dụng nguyên tắc xếp hạng tương tự như các kiểm định đã giới thiệu ở trên Cần lưu ý là với kiểm định Friedman, ching ta sé xép hạng các đơn vị trong từng nhóm chứ không phải xếp hạng chung cho tất cả các đơn vị của các mẫu, : Mie dù vậy tổng
hạng vẫn được tính cho từng mẫu và được kí hiệu là 7; › 72 Gọi ð là
số lượng nhóm, công thức tính tiêu chuẩn kiểm định hoe viét nhu sau:
F 2 7 ‘ ni
F a sŠ7|° ~3b(Œ+1) | (10.9)
Trang 19Phân phối của tiêu chuẩn kiểm định
Với điều kiện hoặc k hoặc b lớn hơn hoặc bằng 5, tiêu chuẩn kiểm định có phân phối xấp xi khi bình phương với bậc tự do là &-1 Giéng nhu trường hợp kiểm định Kruskal-Wallis, chúng ta sẽ bác bỏ gia thuyét Ho khi giá trị của tiêu chuẩn kiểm định là lớn Cụ thể miền bác bỏ của tiêu chuẩn
kiểm định là:
F„> #2, hoặc p~ value < œ
Vi du 10.6:
Trưởng phòng nhân sự của một ngân hàng có 100% vốn nước ngoài
tại Việt Nam được các chỉ nhánh phản ánh rằng gần đây chất lượng của các nhân viên mới được tuyên chọn có vấn đề Tại ngân hàng của ông, các nhân
viên mới đều được tuyên chọn theo một quy trình là sau khi lọt qua vòng thi viết, họ sẽ phải trải qua 4 vòng phỏng vấn độc lập Ở mỗi vòng phỏng vẫn
các thí sinh sẽ được một nhà tuyển dụng (NTD) có kinh nghiệm cho điểm
xếp hạng theo cách:
1 = thí sinh nằm ở nhóm 5% tốt nhất
2 = thí sinh nằm ở nhóm từ trên 5% cho đến 10% tốt nhất
3 = thí sinh nằm ở nhóm từ trên 10% cho đến 25% tốt nhất
Trang 20Sau đó đánh giá của 4 nhà tuyên dụng sẽ được tổng hợp lại để đưa ra
kết luận cuối cùng Trưởng phòng nhân sự cho rằng vấn đề chất lượng tuyển dụng nằm ở phương pháp đánh giá trên Tuy nhiên, để đưa ra các bằng
chứng cho kết luận có sự khác biệt trong cách đánh giá của các nhà tuyển
dụng, ông lấy ngẫu nhiên đánh giá của 8 thí sinh Số liệu được mô tả ở các cột 2, 4, 6, 8 của Bảng 10.6 Ông trưởng phòng nhân sự sẽ đưa ra kết luận
thế nào với mức ý nghĩa 5%
Giải:
Dữ liệu ở đây có thé coi là dữ liệu định tính với thang đo thứ bậc Do
mỗi thí sinh giống nhau được đánh giá bởi 4 nhà tuyển dụng khác nhau nên mẫu ở đây thuộc loại tương đồng từng nhóm Chúng ta.sẽ sử dụng tiêu chuẩn kiểm định Friedman để giúp trưởng phòng nhân sự đưa ra kết luận
cuối cùng _ nh ah
Giả thuyết cần kiểm định là:
Ho: Vị trí của k tổng thể là như nhau
Hị: Có ít nhất 2 tổng thể có vị trí khác nhau '
Để tính được tiêu chuẩn kiểm định, chúng ta xếp hạng cho các đơn vị
trong mỗi nhóm Kết quả xếp hạng được mô tả ở các cột 3, 5, 7, 9 trong Bảng 10.6 Lưu ý là việc xếp hạng được thực hiện cho từng nhóm (theo
dòng) nhưng khi tính tổng hạng chúng ta vẫn phải tính cho từng phương
pháp đánh giá của các nhà tuyển dụng khác nhau (theo cột)
Giá trị của tiêu chuẩn kiểm định được tính như sau: Ae ato sat} Oe +1) 12 -| er +10? +24, 52 +24, sf 3.8.5 =10,61 Với mức ý nghĩa 22%, bác bỏ là F, > Katt = Xoosa = 7.8147 Ñ
Đo vậy trưởng phòng nhân sự có đủ bằng chứng để bác bỏ giả thuyết Họ và kết luận có sự ự khác biệt trong cách đánh.giá của la các nhà tuyển dụng ö ở,
mức ý nghĩa SH ts i
Trang 21
10.5 KIỀM ĐỊNH TƯƠNG QUAN HẠNG SPEARMAN 10.5.1 Phạm vi áp dụng và giả thuyết thống kê
Khi có hai tiêu thức số lượng X và Y thỏa mãn điều kiện phân phối
chuẩn, chúng ta có thể dùng hệ số tương quan tuyến tính giới thiệu ở
chương 11 để kiểm định xem có tồn tại mối liên hệ tương quan tuyến tính
giữa hai tiêu thức này không Trường hợp một trong hai biến là tiêu thức
thuộc tính với thang đo thứ bậc, hoặc các biến là tiêu thức số lượng nhưng không thỏa mãn điều kiện phân phối chuẩn, chúng ta sẽ dùng kiểm định
tương quan hạng Spearman để xác định xem có tồn tại mối liên hệ giữa hai tiêu thức này không
Giống như các phương pháp kiểm định phi tham số khác, kiểm định tương quan hạng Spearman xếp hạng các đơn vị quan sát trong mẫu nghiên cứu Trước hết, chúng ta xếp hạng các đơn vị theo biến X Sau đó chúng ta xếp hạng một cách độc lập các đơn vị theo biến Y Sau đó tính hệ số tương
quan Spearman của mẫu theo công thức sau:
65.2?
,=l-— n(n’ -1)
trong dé d,la chénh léch hang cua x, va y, cla đơn vị thứ ¿
= +1: gitra X va Y cd tuong quan thuan hoac nghich hoan hảo r =0: không có mối liên hệ tương quan giữa X và Ÿ
Giá trị của z„ càng gan +1, mối liên hệ giữa X và Y càng chặt chẽ
Khi z #0, chúng ta cần kiểm định xem hệ số tương quan Spearman
của tổng thẻ, kí hiệu là ø,, có khác 0 không
Trường hợp kiểm định hai phía, giả thuyết kiểm định là: H,:p,<0'
H,:p,# 0
Chúng ta cũng có thể thực hiện kiểm định một phía Kiểm định phía phải được áp dụng đề kiểm định mối liên hệ tương quan thuận như sau:
Trang 22H,:p,=0 H,:p,>0 hoặc kiểm định phía trái để kiểm định mối liên hệ tương quan nghịch: H,:p,=0 H,:p,<0 10.5.2 Phân phối của tiêu chuẩn kiếm định Khi cỡ mẫu n<30, chúng ta sử dụng Bảng phụ lục 7 Bảng phụ lục 7
liệt kê tiêu chuẩn kiểm định một phía với các mức ý nghĩa œ khác nhau Nếu thực hiện kiểm định hai phía, chúng ta sẽ nhân đôi các giá trị œ lên và
bác bỏ gia thuyết Họ nếu r, lớn hơn hoặc bằng giá trị C hoặc r nhỏ hơn
hoặc bằng -C trong bảng phụ lục Nếu kiểm định phía phải, chúng ta sẽ bác
bỏ giả thuyết Ho néu r,2C;con nếu kiểm định phía trái, chúng ta sẽ bác bỏ
giả thuyết Ho nếu <-C
Khi cỡ mẫu trên 30 đơn vị, tiêu chuẩn kiểm định có phân phối xấp xỉ
chuẩn với kỳ vọng bằng 0 và độ lệch chuẩn là 1/»—1 Khi đó tiêu chuẩn
kiểm định có phân phối chuẩn hóa và được tính theo công thức: =rJn-l (10.11) z= =9 1/Ÿ#—1 Vi du 10.7:
Chỉ số chứng khoán DCVN30-Index của Quỹ Dragon Capital là chỉ số tính cho 30 công ty hàng đầu có tổng giá trị thị trường và tính thanh khoản cao nhất trên ba thị trường chứng khoán tại Việt Nam HOSE, HASTC và OTC Chi số chứng khốn VSI-Hanoi của Cơng ty chứng khoán Biển Việt là chỉ số tính cho tất cả các công ty được niêm yết trên trung tâm giao dịcH
chứng khoán Hà Nội HASTC Các nhà đầu tư cho rằng hai chỉ số này có mối liên hệ với nhau Một nhà đầu tư đã lấy thông tin về hai chỉ số này trong
10 phiên giao dịch và kết quả được mô tả ở hai cột đầu của Bang 10.7 Với mức ý nghĩa a= 1%, nha đầu tư đựa ra kết tuận thé nào về mối liên hệ giữa hai loại chỉ số chứng khoán nêu u trên ,
Trang 23Bảng 10.7 DCVN30-Index VSI-Hanoi Hang DCVN30 Hang VSI Chênh lệch đ; 220 151 7 1 218 150 5 5 0 216 148 3 3 0 217 149 4 4 0 215 147 2 2 "0 213 146 1 1 0 219 152 6 7 “1 236 165 9 10 “1 237 162° 10 9 1 235 161 8 8 0 Giải:
Mặc dù đữ liệu về hai chỉ số chứng khoán DCVN30-Index và VSI- Hanoi là dữ liệu định lượng nhưng các chỉ số chứng khoán có giá trị rat bap bénh nén gia thuyét vé phan phối chuẩn thường hay bị vi phạm Hình 10.2 dưới đây khẳng định điều này
Histogram Jo Histogram > 10 3 10 + 2 g 5: s 5 © o max 2 o mm iv _¬ 213 221 229 More 146 152 159 More DCVN30 vSt
Hình 10.2 Phân phối của DCVN30-Index và VSI-Hanoi
Do đó chúng ta có thể dùng kiểm định tương quan hạng Spearman để xem có mối liên hệ giữa hai loại chỉ số chứng khoán DCVN30-Index và VSI-Hanoi Đầu tiên chúng ta xếp hạng cho chỉ số chứng khoán DCVN30-
Index (cột 3) và chỉ số chứng khoán VSI-Hanoi (cột 4) Sau đó chúng ta tính chênh lệch về hạng đ; của từng cặp quan sát Kết quả được mô tả ở cột 5 của Bảng 10.7: Hệ số tương quan hang Spearman, tinh được cho mẫu như sau:
Trang 242
¬ 634 _¡_ 6(đ) +4; + +do) _._ 24 = 0,9758
° n(n? ~1) 10(10? —1) 990
Kết quả của hệ số tương quan hạng Spearman mẫu r, kha cao phan dnh
múi liên hệ rất chặt chẽ giữa hai chỉ số chứng khoán trên Để xem liệu có tổn tại mối liên hệ tổng thể giữa hai chỉ số này, chúng ta kiểm định giả thuyết:
H,: p, =0 H,: p, #0
Với cỡ mẫu ø=1l0 và mức ý nghĩa ø =1%, tra bảng phụ lục 7 dòng w=l0 và cột œ =0.005 ta thấy giá trị tiêu chuẩn của kiểm định tương quan hang Spearman là 0,794 Vì z =0,9758>0,794nên chúng ta bác bỏ giá thuyết Họ và kết luận rằng hai chỉ số chứng khoán DCVN30-Index và VSI- Hanoi có mối liên hệ tương quan với nhau ở mức ý nghĩa kiểm định 1% 10.6 PHAN BIET TRUONG HOP VẬN DUNG CUA CÁC KIEM
DINH PHI THAM SO „
Bảng 10.8 So sánh điều kiện vận dụng của các kiểm định phi tham số - ok Kiểm định Kiểm Kiểm định Liệu qình oA ga Ä ok °
van dung tong hang định nề Kruskal- i'm Gin
: Wilcoxon dau Wallis Wilcoxon 1 So sánh hai tổng thé X X x X x 2 So sánh nhiễu tổng thể x x 3 Số liệu định tính với thang đo thứ bậc X X x x
4 Số liệu định lượng nhưng -
Trang 25Các phần trên đây đã trình bày 6 loại kiểm định phi tham số khác
nhau Ngoại trừ kiểm định tương quan hạng Spearman, 5 kiểm định đầu tiên
bao gồm kiểm định tổng hạng Wilcoxon, kiểm định dấu, kiểm định tông hạng có dấu Wilcoxon, kiểm định Kruskal-Wallis, và kiểm định Friedman có điều kiện vận dụng tương tự như nhau Để bạn đọc đỡ nhằm lẫn trong
việc sử dụng các kiểm định này trong các tình huống khác nhau, chúng tôi tông hợp lại ở Bảng 10.8 điều kiện vận dụng của 5 kiểm định nêu trên
Ngoài các điều kiện nêu ở Bảng 10.8, một điều kiện vận dụng hết sức
quan trọng chung cho cả 5 kiểm định nêu trên là phân phối của các tổng thé cần so sánh phải giống hệt nhau ngoại trừ vị trí của các tổng thể này Điều
kiện này được nêu ra vì về mặt bản chất cả 5 kiểm định nêu trên được dùng
để kiểm định xem liệu phân phối của các tổng thể cần so sánh có giống nhau không Điều này đồng nghĩa với việc các kiểm định không chỉ so sánh vị trí mà còn cả độ phân: tán và hình dạng của các phân phối Như vậy khi giả thuyết Ho bị bác bỏ không có nghĩa là chỉ đơn thuần do vị trí của các tổng thể khác nhau mà cũng có thể là đo hình dạng của các phân phối là khác nhau Để tránh nhược điểm này, các kiểm định nêu trên yêu cầu phân phối của các tổng thé can so sánh phải giống hệt nhau ngoại trừ vị trí Bạn đọc có
thể kiểm tra điều kiện này cho tất cả các ví dự từ mục 2-5 10.7 ỨNG DỤNG SPSS
Để thực hiện các kiểm định phi tham số, chúng ta sử dụng phần mềm
SPSS Các thức tiến hành như sau:
- Trường hợp hai mẫu độc lập với nhau:
1 Vào Analyse\nonparametric tests\Two independent samples
2 Đưa các biến cần kiểm định vào ô TestVariable List
3 Chọn tên kiểm định cần thực hiện (ví dụ chọn Mann-Whitney nếu muốn thực hiện kiểm định này)
- Trường hợp nhiều mẫu độc lập với nhau:
- 1 Vao Analyse\nonparametric tests\K independent samples
2 Đưa các biến cần kiểm định vào ô TestVariable List
3 Chọn tên kiểm định cần thực hiện (ví dụ chọn Mann-Whitney nếu -
muốn thực hiện kiểm định này)
Trang 26- Trường hợp mẫu tương đồng từng cặp
1 Vao Analyse\nonparametric tests\Two related samples 2 Đưa các biến cần kiểm định vào ô Test Pairs
3 Chọn tên kiểm định cần thyc hién (vi du chon Wilcoxon, Sign) - Trường hợp mẫu tương đồng từng nhóm:
_ 1 Vao Analyse\nonparametric tests\K related samples 2 Đưa các biến cần kiểm định vào ô Test Variables
3 Chọn tên kiểm định cần thực hiện (ví dụ chon Friedman)
-_ TÓM TẮT CHƯƠNG
Kiểm định phi tham số được dùng để kiểm định dữ liệu định tính với thang đo thứ bậc hoặc dữ liệu định lượng nhưng yêu cầu về phân phối chuẩn
bị vi phạm Chương này giới thiệu 6 loại kiểm định phi tham số bao gồm kiểm định tổng hạng Wilcoxon, kiểm định dấu, kiểm định tổng hạng có dấu Wilcoxon, kiểm định Kruskal- Wallis, kiểm định Friedman, và kiểm định tương quan hạng Spearman, và phân biệt điều kiện vận dụng của từng loại một Ứng dụng Excel có thể thực hiện với điều kiện phải cài đặt thêm Data Analysis Plus TU KHOA Kiểm định phi tham số Kiểm định tổng hạng Wilcoxon - Kiểm định Mann- -Whitney Kiểm định dấu
Kiểm định tông hạng có dấu Wilcoxon _ Kiém dinh Kruskal- Wallis Kiém dinh Friedman ˆ
Kiểm định Spearman > Tiêu chuẩn kiểm định: ˆ ˆ
“i3 Tả
Trang 27CÂU HỎI ÔN TẬP
1 Phân biệt trường hợp áp dụng kiểm định phi tham số và kiểm định
tham số
2 Trình bày điều kiện áp dụng, nội dung và phương pháp kiểm định của kiểm định tong hang Wilcoxon ,
3 Trinh bay điều kiện áp dụng, nội dung và phương pháp kiểm định của
kiểm định dấu
4 Trình bày điều kiện áp dụng, nội dung và phương pháp kiểm định của kiểm định tổng hạng có dấu Wilcoxon
5 Trình bày điều kiện áp dụng, nội dung và phương pháp kiểm định của kiểm định Kruskal-Wallis
6 Trình bày điều kiện áp dụng, nội dung và phương pháp kiểm định của
kiểm định Friedman
7 Trình bày điều kiện áp dụng, nội dung và phương pháp kiểm định của kiểm định tương quan hạng Spearman
Trang 28-_ BÀI TẬP
Bài 1 Vì cho rằng, đào tạo nghề ở nước ta là không thực tế nên nhiều doanh nghiệp khi tuyển lao động thường không lấy học viên từ các trường nghề mà chọn phương thức tự đào tạo Tuy nhiên, có ý kiến cho rằng, đào tạo nghề hiện nay đã đáp ứng được yêu cầu của các doanh nghiệp, khi lao động được tuyển dụng về thì không cần phải đào tạo lại Để khăng định quan điểm lao động tự đào tạo có chất lượng tốt hơn lao động tuyển dụng từ
các trường nghề, giám đốc một doanh nghiệp chọn ra 20 người, nhóm 1
gồm 10 người là lao động tuyển từ các trường nghề, khi vào làm việc không
phải đào tạo lại, nhóm 2 gồm 10 người là lao động do doanh nghiệp tuyển và tự đào tạo Các lao động này cùng làm việc với một chu trình sản xuất như sau Sau 3 tháng làm việc, họ tiến hành đánh giá lao động dựa trên mức độ thành thạo số lượng các khâu trong chu trình sản xuất gồm 8 khâu Kết quả như sau:
Nhóm l: 2 5 3 4 2 2 7 3 5 6
Nhóm 2: 4 3 6 8 5 7 2 5 6 7
Vay voi mirc y nghia a=0,05, ligu cé thé kết luận rằng phương thức ` tự đào tạo mang lại kết quả tốt hơn là tuyển lao động từ các trường nghề hay không?
Bài 2 Theo những nghiên cứu mới gần đây, âm nhạc có tác dụng tốt
trong việc kích thích não bộ của trẻ em Một mặt nó giúp cải thiện tâm hôn, mặt khác, nó thúc đây phát triển tư duy, làm tăng trí thông minh của trẻ Để chứng minh điều đó, các chuyên gia đã chọn ra 30 em học sinh ở độ tuổi từ 6 đến 10 để kiểm tra chỉ số IQ Sau đó, các em này được cho học thêm ít
nhất một loại nhạc cụ nào đó Sau một năm học nhạc, các chuyên gia tiến
hành đánh giá lại chỉ số IQ của từng em, kết quả như sau:
Trang 29Chỉ sô IQ Chỉ số IQ STT Trước khi Sau khi STT Trước khi Sau khi học nhạc — học nhạc học nhạc học nhạc 1 102 105 16 120 122 2 110 110 17 108 113 3 98 103 18 119 120 4 115 117 19 85 87 5 100 103 20 115 112 6 110 105 21 132 130 7 87 92 22 111 105 8 93 94 23 108 113 9 117 120 24 122 125 10 102 103 25 MU) 100 11 96 95 26 81 86 12 82 87 27 97 100 13 98 100 28 118 120 14 115 112 29 106 108 15 90 90 30 120 117
Với mức ý nghĩa 5%, liệu các chuyên gia có chứng minh được rằng, âm nhạc giúp cho trẻ em phát triển trí thông minh hay không?
Bài 3 Hiện nay việc thực hiện chính sách một cửa trong cải cách hành chính đã tạo điều kiện rất tốt cho người dân khi tiếp cận với các dịch vụ
công ở các cơ quan nhà nước Tuy nhiên, ở địa phương nọ, có ý kiến cho
rằng chính sách một cửa không tạo được sự thay đổi so với trước đây Không đồng tình với quan điểm đó, chính quyền địa phương tiến hành phỏng vấn 20 người dân, xin ý kiến về việc cải cách hành chính tại địa
Trang 30Kết quả thu được như sau: STT Trước Sau STT Trước Sau 1 3 4 11 1 2 2 4 4 12 4 3 3 2 4 13 2 1 4 1 3 14 2 3 5 5 5 15 2 4 6 4 3 16 3 4 7 2 3 17 2 2 8 2 5 18 3 5 9 3 3 19 1 3 10 3 2 20 1 4
_ Vậy với mức ý nghĩa 5%, liệu có thé cho rằng cải cách hành chính ở địa phương trên là không hiệu quả hay không?
Bài 4 Một nhà phân tích trong ngành xuất bản muốn nghiên cứu xem
liệu chỉ phí quảng cáo với một số lượng nhất định có như nhau trong 4
Trang 31Bài 5 Sau khi nếm thử hương vị của một loại cà phê Colombia mới, 9
chuyên gia tiến hành cho điểm đánh giá Thang điểm đánh giá gồm 7 bậc,
với ] là rất dé và 7 là rất ngon, được cho theo 4 tiêu chí: vị, hương thơm, độ đậm đà và vị chua Bảng đưới đây cho biết số điểm tổng kết mà các chuyên
gia đã cho theo cả 4 tiêu chí trên Chuyên gia Loai A Loai B Loai C Loai D 1 24 26 25 22 2 27 27 26 - 24 3 19 22: 20 16 4 24 27 25 23 5 220 25 22 21 6 26 27 24 24 7 27 26 22 ' 23 8 25 27 24 21 9 22 23 20 19
Với mức ý nghĩa 0,05, liệu có thể cho rằng có sự khác nhau giữa các loại cà phê này hay không?
Bài 6 Số liệu dưới đây thu được từ một mẫu điều tra ngẫu nhiên về thu nhập và chi tiêu cho các mặt hàng xa xỉ của người dân Hãy tính hệ số
Trang 32TÀI LIỆU THAM KHẢO
1 Trần Ngọc Phác, Trần Thị Kim Thu, Giáo trình Lý thuyết thống kê,
NXB Thống kê, Hà Nội, 2006
2 D Aczel and Sounderpandian, Complete Business Statistics, 5 Edition McGraw-Hill/Irwin, 2002
3 Gerald Keller, Statistics for Management and Economics, 7" edition, Thomson Brooks/Cole, 2005
4 Mark L Berenson, David M Levine and Timothy C Krehbiel, Basic Business Statistic, Concepts and Application, 11“ edition, Pearson International Edition, 2009
Trang 33Chương 11
HOI QUY - TUONG QUAN DON
Các hiện tượng kinh tế - xã hội luôn tổn tại và phát triển trong mồi liên
hệ và tác động qua lại với nhau Do vậy, ngoài việc nghiên cứu bản chất hiện
tượng cần phân tích mối liên hệ, tác động của hiện tượng nghiên cứu với các
hiện tượng khác Chăng hạn, đề biết xem chi phí quảng cáo, vốn đầu tư hay
số nhân viên kinh doanh, có mối liên hệ như nào với doanh số của doanh
nghiệp, để từ đó có những chính sách hay quyết định quản lý hiệu quả Hoặc ngoài lãi suất thì những nhân tố như chất lượng dịch vụ, kênh phân phối, mối liên hệ như thé nào tới doanh số cho vay hay doanh số huy động củ của ngân hàng Hay mối liên hệ giữa thu nhập và chỉ tiêu của hộ gia đình
Thực tế nghiên cứu cho thấy kết quả của việc nghiên cứu mối liên hệ là rất hữu ích trong việc xác định được những nhân tố có mối liên hệ và tác động lớn đến hiện tượng nghiên cứu để từ đó làm căn cứ cho các chính sách và quản lý Một trong những vấn đề quan trọng và cần thiết trong phân tích hồi qui - tương quan là cần phải có những phân tích định tính chính xác để tìm ra những nhân tổ có mối liên hệ để từ đó tìm ra được phương trình hồi
qui và tính toán ước lượng được các hệ số phù hợp nhất biểu điễn mối liên
hệ của các hiện tượng Tuy nhiên, phương trình hồi qui tìm được là dựa trên
số liệu của một mẫu cụ thể do vậy việc ước lượng và kiểm định ý nghĩa của
các hệ số là cần thiết dé khẳng định về mỗi liên hệ
Ngoài việc phân tích mối liên hệ, phân tích hồi qui - tương quan còn: cung cấp một phương pháp dự đoán hữu ích dựa trên mối liên hệ Sau khi xây dựng được phương trình hồi qui phù hợp sử dụng phương pháp ngoại suy sẽ cho kết quả dự đoán tương ứng
11.1 NHỮNG VÁN ĐÈ CHUNG VẺ PHƯƠNG PHÁP HỘI QUY - TƯƠNG QUAN
11.1.1 Khái niệm hồi quy - tương quan
Trang 34nguyên nhân (biến độc lập), mối liên hệ phụ thuộc này được xây dựng dựa
trên phương trình hồi quy có thể là tuyến tính hay phi tuyến tính, trên cơ sở phương trình hồi quy có thể ước lượng và giải thích được sự biển động của
biến phụ thuộc dựa vào sự biến động của các biến độc lập
11.1.2 Liên hệ hàm số và liên hệ tương quan
+ Liên hệ hàm số: Là mỗi liên hệ hoàn toàn chặt chẽ, tức là khi hiện
tượng này thay đổi thì hoàn toàn quyết định sự thay đổi của hiện tượng có
liên quan theo một tỷ lệ tương ứng chặt chẽ Liên hệ hàm số được viết dưới dang y = f(x) Lién hé hàm số không những được biểu hiện ở tổng thể mà còn được biểu hiện trên từng đơn vị cá biệt
+ Liên hệ tương quan: Là mỗi liên hệ khơng hồn tồn chặt chẽ, tức
là khi hiện tượng này thay đổi thì có thể làm cho hiện tượng có liên quan
thay đổi theo nhưng khơng hồn tồn quyết định Đây là mối liên hệ mà với một giá trị của tiêu thức nguyên nhân sẽ tương ứng với nhiều giá trị của tiêu
thức kết quả Chẳng hạn, giá bán thay đổi thì có thể làm cho doanh thu thay đổi theo, giá bán không phải là nhân tố duy nhất và hoàn toàn quyết định sự
thay đổi của doanh thu Hơn nữa, ứng với một sự thay đổi của giá ban thi không phải lúc nào doanh thu cũng thay đổi theo một tỷ lệ nhất định mà có
thể có nhiều giá trị tương ứng Mắt liên hệ như vậy được gọi là mối liên hệ không hoàn toàn chặt chẽ Hoặc, khi số lượng sản phẩm sản xuất tăng thì cũng chỉ là một trong các nhân tố có thể làm cho giá thành thay đổi Do vậy, Ä tae Arden pn ee ee ae
c2 ~ ta ok
đê nghiên cứu được mỗi liên hệ giữa giá bán và doanh thu cũng như giữa sô lượng sản phẩm sản xuất và giá thành thì cần quan sát và nghiên cứu một số lớn các đơn vị Điều đó nghĩa là mối liên hệ tương quan không được biểu
hiện trên từng đơn vị cá biệt mà chỉ được biểu hiện ở tổng thể (số lớn), chỉ có quan sát số lớn thì bản chất của mối liên hệ mới được biểu hiện
11.1.3 Một số dạng Hềnhệ `
Các hiện tượng kinh tế - xã hội luôn có mối liên hệ và tác động qua
lại lẫn nhau, các mối liên hệ nảy có thể được biểu điễn dưới đạng tuyển
tính (đường thẳng) như minh họa trong hình 11.1 Hình này mô tả hai dạng cơ bản của liên hệ tuyển tính, đó là liên-hệ tương quan tuyến tính thuận
(hình a) và liên hệ tương quan tuyến tính nghịch (hình b) Hay liên hệ
Trang 35hệ tương quan phi tuyến, như trong hình a là liên hệ hypebol, hình b là liên hệ parabol,
a Liên hệ tương quan tuyến tính b Liên hệ tương quan tuyến tính
(liên hệ thuận) (liên hệ nghịch) „an Hình 11-1 Liên hệ tuyến tính _ Một số dạng liên hệ tương quan phi tuyến tính: b Liên hệ parabol Ki
c Liên hệ bậc 3 d Liên hệ logarithmic
Hình 11.2 Liên hệ phi tuyến tính a Liên hệ hypebol Ne |
Dựa theo phân tích đặc điểm của mối quan hệ hay từ số liệu được điều
tra thực tế mà chúng.ta Xây dựng được các phương trình biểu diễn mối liên
hệ một cách phù hợp nhất, cách thức xác định phương trình phù hợp nhất được trình bày trong cáo phần sau của chương -
Trang 3611.1.4 Nhiệm vụ của phương pháp hồi quy - tương quan
+ Xây dựng phương trình hồi quy và giải thích ý nghĩa các tham số
trong phương trình hồi quy Từ phân tích định tính dựa trên mối liên hệ giữa các hiện tượng kinh tế - xã hội để tìm ra các mối liên hệ tức là xác định tiêu
thức kết quả và các tiêu thức nguyên nhân để từ đó xác định phương trình
hồi quy để biểu diễn mối liên hệ các giữa tiêu thức Từ đó giải thích ý nghĩa
kinh tế các tham số trong phương trình hồi quy
+ Đánh giá chiều hướng và cường độ của mối liên hệ tương quan Do mối liên hệ tương quan là mối liên hệ không chặt chẽ, nên khi tìm được mối liên hệ và xây dựng được phương trình hồi quy cần đánh giá trình độ chặt chẽ và chiều hướng của mối liên hệ cũng như đánh giá xem tiêu thức
nguyên nhân giải thích được bao nhiêu phần trăm sự biến động của tiêu thức két qua
11.2 HOI QUI - TUONG QUAN DON
11.2.1 Phương trình hồi quy tong thé chung va phuong trinh hồi quy
tong thé mau
Như đã trình bày trong phân trên giữa tiêu thức nguyên nhân và tiêu
thức kết quả có thể tồn tại mối liên hệ tuyến tính hay liên hệ phi tuyến tính, trong phạm vi của phần này chúng ta xem xét mối liên hệ tương quan tuyến
tính đơn Nghĩa là nghiên cứu mối liên hệ giữa một biến nguyên nhân X và
một biến kết quả Y để xem có tổn tại mối liên hệ tương quan bằng phương
trình tuyến tính - phương trình bậc nhất theo biến số 11.2.1.1 Phương trình tông thể Chung
Phương trình hồi qui tổng thể chung là phương trình được xây dựng
dựa trên kết quả nghiên cứu tổng thẻ Để xác định phương trình tổng thể
chúng ta nghiên cứu ví dụ giả định sau: - Ví dụ 11.1
Kết quả điều tra về thu nhập và chỉ tiêu của 50 hộ gia đình trong một
tháng tại một địa phương, với X: là thu:nhập của hộ gia đình (đơn vị: triệể
đông) và Y: chỉ tiêu của hộ gia đình (đơn vị: triệu đồng) Thu nhập của HỆ gia đình được chia làm 8 tổ như sau:
Trang 37Bảng 11.1 Kết quả điều tra thu nhập và chỉ tiêu hộ gia đình Thu nhập (X) 15 20 25 28 32 38 42 50 8 10 12.9 5 20 25 9 15 9 8 6 19 20 chi 4) D9 7 7 7 15 28 tiêu 7 8 6 5 9 12 18 WM 10 12 1H 8 lỗ H 10 14
Từ kết quá điều tra trên ta nhận thấy tương ứng với một mức thu nhập thì các mức chỉ tiêu của hộ gia đình khác nhau Điều này có nghĩa là ở mỗi mức thu nhập của hộ gia đình thì sẽ có một phân phối của chỉ tiêu Tuy
nhiên, chúng ta có thể tính được chỉ tiêu trung bình của các hộ gia đình
tương ứng tại cùng mức thu nhập
Mối liên hệ giữa chỉ tiêu của từng hộ gia đình theo thu nhập và mối
liên hệ giữa chỉ tiêu trung bình của các hộ gia đình và thu nhập được biểu
diễn dưới đồ thị sau:
a Mối liên hệ giữa thu nhập và b, Mỗi liên hệ giữa thu nhập và chi
chỉ tiêu của các hộ gia đình : tiêu trung bình của các hộ gia đình
Đồ thị 11-3 Mối liên hệ giữa thu nhập và chỉ tiêu của hộ gia đình
Qua đồ thị (đồ thị I1.3.a) có thể nhận thấy rằng ở tại mỗi mức thu nhập thì mức chỉ tiêu của từng hộ gia đình biến thiên lớn và do đó không
thấy rõ được biến động của chỉ tiêu theo thu nhập Tuy nhiên, nếu xét biến
Trang 38động của chỉ tiêu trung bình theo thu nhập (đồ thị 11.3.b) thì thấy rõ là khi thu nhập tăng lên thì chi tiêu của hộ gia đình tăng theo Như vậy, có thể coi E(f/X,) là một hàm nào đó của biến X,, cụ thể: E(Y/X,)= /(X,) và được gọi là phương trình hồi qui tổng thể chung Hàm hồi qui tổng thể chung là
hàm tuyến tính mô tả đường thẳng đi qua các giá trị trung bình của Y ứng
với các giá trị khác nhau của X
Phương trình tổng thể chung có dạng:
E/X,)= ñ, + 8,.X,+e&, (11.1)
11.2.1.2 Phương trình tong thé mau
Do các số liệu thường được thu thập trên số liệu điều tra mẫu nên các hệ số /Ø; và /Ø, được ước lượng từ kết quả điều tra mẫu với các hệ số tương
ứng bọ và bị và phương trình hồi qui tuyến tính tổng thể chung được ước lượng bằng phương trình hồi qui tuyến tính tổng thể mẫu Do đó, phương
trình hồi qui được xây dựng trên một mẫu cụ thể được gọi là phương trình
tổng thể mẫu :
Trở lại ví dụ về thu nhập và chỉ tiêu của hộ gia đình, chắng hạn như chúng ta chọn ra 2 mẫu và thu được số liệu về thu nhập và chỉ tiêu (đơn vị:
triệu đồng) như sau: :
Bảng 11-2 Mẫu điều tra số 1
(don vi: triéu đông) X 15 20 25 25 32 38 Y 8 12 10 _~ 15 18 22 Bảng 11-3 Mẫu điều tra số 2 - xX 20 25 28 38 42 50 Y 8 0, l2 28 32
Giá sử từ hai mẫu trên chúng tạ xây dựng được hai đường hồi qui mẫu và dé thị biểu diễn mối liên hệ giữa thụ nhập và chỉ tiêu của hộ gia đình trên CƠ SỞ hai mẫu điều tra nhự say:
ty nó ống ¬- ad
Trang 3950 Phương trình HQ mẫu 1 40 —— Phương trình HQ mẫu 2 30 20 10 10 12 14 16 18 20 22 24 26 28 30 32 *34 36
Đồ thị 11-4: Phương trình hồi qui mẫu
Hai đường hỏi qui mẫu trên đường nào là đường hồi quy nào tốt nhất biểu diễn mối liên hệ giữa thu nhập và chỉ tiêu của hộ gia đình? Chúng ta chỉ có thé biết khi có phương trình tông thể chung, tuy nhiên trong thực tế không có phương trình tổng thé chung do chúng ta không có số liệu của tổng thể chung Mặc dù vậy, từ tông thể chung, ta có thể có nhiều mẫu khác nhau và xây dựng được các đường hồi quy khác nhau, những đường hồi quy được xây dựng trên các mẫu này đều là ước lượng cho đường hồi quy tông thẻ Thực té, chúng ta chỉ thực hiện xây dựng phương trình hồi qui mau trên một mẫu cụ
thể Do vậy, vấn dé đặt ra là phải ước lượng đường hồi qui mẫu tốt nhất
Giả sử đường hồi qui mẫu có dạng:
= bo + yx; (11.2)
Trong đó: "
51 1A uée lượng của E(Y/X,)
by laude luonig cia A,
b, la ước lượng của 8
Quay lại ví dụ trong nghiên cứu mối liên giữa thu hap va à chỉ tiêu của hộ gia đình trong địa phương, chúng ta chon mét mẫu ngau nhiên với 8 hộ gia
đình với kết quả như sau X: thu nhập (triệu đồng), Y: chỉ tiêu (triệu đồng):
X 20 25 30 38 42 50
Y J2 8 15 18 25 20
Trang 40
Đồ thị biễu diễn mối liên hệ giữa thu nhập và chỉ tiêu các hộ gia đình điều tra: | 25 [ Đường hồi quy thực tế ˆ ¬ i enc 1 Ỉ Đường hồi quy lý thuyết Jy = by + yx; 5 _ 4 ` i Lo Qo 10 20 30 40 so 60 | | i o |
Đồ thị 11-5 Mối liên hệ giữa thu nhập và chỉ tiêu hộ gia đình điều tra - Câu hỏi quan trọng đặt ra là cần ước lượng các hệ số bạ và bị để sao cho đường hồi qui mẫu là đường phản ánh tốt nhất mối liên hệ giữa thu
nhập và chỉ tiêu hộ gia đình Một trong các phương pháp hiệu quả để ước lượng các hệ số bọ và bị đó là phương pháp bình phương nhỏ nhất
11.2.2 Phương pháp bình phương nhỏ nhất
Phương pháp để xác định các hệ số hồi quy trong phương trình hôi qui tổng thể mẫu là phương pháp bình phương nhỏ nhất (OLS - ordinarÿ least square) Nội dung của phương pháp bình phương nhỏ nhất được mô tả như sau:
Tìm giá trị nhỏ nhất của chênh lệch giữa giá trị thực tế và giá trị từ phương trình hồi quy lý thuyết, đó chính là phần dư e,, cụ thể là: