Chương 10 KIỂM ĐỊNH PHI THAM SỐ Ths Nguyễn Tiến Dũng Viện Kinh tế Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn Giới thiệu KĐ phi tham số ● KĐ Phi tham số (non-parametric tests) gì? ● Khơng dựa TB, tỷ lệ, PS, độ lệch chuẩn ● Tại KĐ phi tham số? ● Tổng thể khơng có PP bình thường ● Tổng thể có giá trị bất thường (outliers) ● Cỡ mẫu nhỏ ● DL định tính © 2013 Nguyễn Tiến Dũng Các toán phương pháp KĐ phi tham số thường dùng Mục đích PP KĐ phi tham số PP KĐ tham số tương đương So sánh TB tổng thể với giá trị cố định KĐ dấu hạng Wilcoxon (Wilcoxon signed rank test) One-sample T- Test So sánh TB tổng thể với nhau, trường hợp mẫu cặp KĐ dấu hạng Wilcoxon hai mẫu Independent Samples TTest So sánh TB tổng thể với nhau, trường hợp mẫu độc lập KĐ tổng hạng Wilcoxon (Wilcoxon rank-sum test) KĐ Mann-Whitney U Paired Samples T-Test So sánh k TB k tổng thể với (k > 2) KĐ Kruskal - Wallis ANOVA yếu tố (one-way ANOVA) KĐ mối liên hệ hai biến định tính Phân tích tương quan hạng Spearman KĐ Chi bình phương (Chisquare Test) Phân tích tương quan hồi quy KĐ phù hợp phân phối với phân phối lý thuyết KĐ Chi bình phương mẫu / KĐ phù hợp (Goodness-of-fit Test) © 2013 Nguyễn Tiến Dũng CÁC NỘI DUNG CHÍNH ● 10.1 KĐ dấu hạng Wilcoxon trung bình tổng thể ● 10.2 KĐ dấu hạng Wilcoxon tổng thể, trường hợp lấy mẫu cặp ● 10.3 KĐ tổng hạng Wilcoxon tổng thể, trường hợp lấy mẫu độc lập ● 10.4 KĐ Chi bình phương mối liên hệ hai biến định tính ● 10.5 KĐ Chi bình phương mẫu © 2013 Nguyễn Tiến Dũng 10.1 KĐ dấu hạng Wilcoxon trung vị tổng thể Gọi trung vị tổng thể M, giá trị cần so sánh M0 H0 : M M ● B1: Thu thập thơng tin mẫu ● B2: Tính chênh lệch di: 𝑑𝑖 = 𝑥𝑖 − 𝑀0 H : M M ● B3: Tính giá trị tuyệt đối chênh lệch |di| ● B4: Loại bỏ chênh lệch 0, xếp hạng |di| cịn lại từ nhỏ đến lớn, |di| nhỏ có hạng ● ● Nếu có hạng ngang tính hạng TB Cỡ mẫu rút gọn n’ = n – số trường hợp có di ● B5: Tách hạng vừa xếp thành cột Nếu di > đặt vào cột R+ Nếu di < đặt vào cột R- © 2013 Nguyễn Tiến Dũng ● Theo SGK Hoàng Trọng & Chu Nguyễn Mộng Ngọc thì: ● B6: Tính giá trị tiêu KĐ W ● Nếu KĐ bên phải: W = ΣR+ ● Nếu KĐ bên trái: W = ΣR- ● Nếu KĐ hai bên: W = min(ΣR+; ΣR-) ● B7: Tra bảng Wilcoxon tìm Wα (giá trị CẬN DƯỚI, tương ứng với trường hợp KĐ bên hay bên) áp dụng quy tắc bác bỏ H0 ● Nếu W < Wα © 2013 Nguyễn Tiến Dũng ● Theo quan điểm khác: ● B6: Tính tiêu KĐ W = ΣR+ ● B7: Tra bảng tìm WL (cận dưới) WU (cận trên) áp dụng quy tắc bác bỏ H0 ● Nếu KĐ bên: W < WL W < WU ● Nếu KĐ bên trái: W < WL ● Nếu KĐ bên phải: W > WU ● Quy tắc bác bỏ H0: Như KĐ TB tổng thể, trường hợp biết © 2013 Nguyễn Tiến Dũng Wilcoxon Table © 2013 Nguyễn Tiến Dũng TD KĐ thu nhập TB SV sau tốt nghiệp – Tr 284 - Bảng 10.1 Tr 286 © 2013 Nguyễn Tiến Dũng 10.2 KĐ tổng hạng Wilcoxon TB mẫu độc lập ● B1: Chọn mẫu làm Mẫu (n1 WU ● Nếu cỡ mẫu lớn: tương tự KĐ TB tổng thể, trường hợp biết © 2013 Nguyễn Tiến Dũng 11 ● TD: Tác động kiểu trưng bày hàng hoá tới doanh số ● Mẫu 1: 10 gian hàng trưng bày theo kiểu bình thường ● Mẫu 2: 10 gian hàng khác, trưng bày theo kiểu đặc biệt ● Ghi nhận doanh số so sánh © 2013 Nguyễn Tiến Dũng 12 10.3 KĐ dấu hạng Wilcoxon với mẫu cặp ● B1: Xác định chênh lệch di = x1i – x2i lập cặp giả thuyết KĐ H0 : M1 M H1 : M M H0 : M1 M H1 : M M H0 : M1 M H1 : M M H0 : M D H1 : M D H0 : M D H1 : M D H0 : M D H1 : M D © 2013 Nguyễn Tiến Dũng 13 ● B2: Xác định giá trị tuyệt đối |di| ● B3: Loại bỏ |di| 0, hạng |di| từ nhỏ tới lớn Giá trị |di| nhỏ có hạng Nếu có nhiều |di| nhau, tính hạng trung bình ● n’ = n – số trường hợp có di = ● B4: Tách riêng hạng |di| thành loại, hạng R+ hạng R- theo dấu di gốc ● B5: Tính giá trị KĐ W = R+ ● B6: Áp dụng quy tắc bác bỏ H0 ● Nếu n’ ≤ 20 ● KĐ bên trái: W ≤ WL ● KĐ hai bên: W ≤ WL W ≥ WU ● KĐ bên phải: W ≥ WU © 2013 Nguyễn Tiến Dũng 14 ● Nếu n’ > 20 W xấp xỉ PP bình thường Khi biến đổi chuẩn hoá W kiểm định theo tiêu z ● Quy tắc bác bỏ H0 tương tự toán KĐ TB tổng thể, trường hợp biết n '( n ' 1) W n '( n ' 1)(2 n ' 1) 24 W W W z © 2013 Nguyễn Tiến Dũng W 15 TD Trang 292: So sánh tốc độ xử lý hai phần mềm ● Cài đặt PM máy ● Chạy PM một, đo thời gian xử lý tác vụ ● Chạy thử PM với 10 tác vụ khác ● ● ● ● ● ghi thời gian xử lý PM DL Bảng 10.4 Trang 292 Mẫu 1: X1 – thời gian xử lý tác vụ PM dùng Mẫu 2: X2 – thời gian xử lý tác vụ PM Biến chênh lệch di = x1i – x2i Cặp giả thuyết KĐ ● W = + + + + 4,5 + + 4,5 + = 44 ● n’ = n -1 = 9; α =0,05 Tra bảng có WU = 37 ● Vì W > WU Bác bỏ H0 © 2013 Nguyễn Tiến Dũng H0 : M D H1 : M D 16 10.4 KĐ Kruskal – Wallis nhiều mẫu độc lập ● Mục đích: so sánh TB k mẫu độc lập (k >2) ● Gọi n = n1 + n2 + … + nk ● H0: M1 = M2 = … = Mk ● Chỉ tiêu KĐ W ● Quy tắc bác bỏ H0 ● TD: Bảng 10.5 Trang 294 – KĐ tác động mức độ làm thêm tới KQ học tập SV (k =3) © 2013 Nguyễn Tiến Dũng k 12 Ri2 W 3( n 1) n ( n 1) i 1 ni Bác bỏ H neáu W> k21; 17 ● Nếu muốn so sánh tuổi thọ loại bóng đèn lúc? ● Sử dụng Kruskal – Wallis Test © 2013 Nguyễn Tiến Dũng 18 10.5 KĐ Chi bình phương mối liên hệ biến định tính ● Biến 1: Biến hàng ● Biến 2: Biến cột ● Lập bảng tần số liên hợp biến ● Xem TD Trang 297 sách TKƯD ● Muốn tìm hiểu xem liệu thời gian tìm hiểu trước nhân tình trạng gđ sau nhân có mối liên hệ hay khơng ● Biến số 1: Thời gian tìm hiểu trước hôn nhân (Bảng 10.6 Trang 298), chia làm mức (ngắn, TB dài) ● Biến số 2: Tình trạng gia đình sau nhân, chia làm loại (ly dị/ly thân; khơng hạnh phúc; hạnh phúc) © 2013 Nguyễn Tiến Dũng 19 ● Bảng 10.6 mô tả tần số thực tế - Oij – có từ điều tra, nghiên cứu thực tế ● Bảng 10.7 tính toán tần số lý thuyết hay tần số kỳ vọng Eij, vào giá trị tổng hàng tổng cột ● Nếu phân phối tần số thực tế khác nhiều so với phân phối tần số kỳ vọng bảng, có mối liên hệ biến hàng biến cột ● Nếu muốn khẳng định chắn, phải KĐ ● P.pháp KĐ Chi b.phương © 2013 Nguyễn Tiến Dũng 20 Ngắn TB Dài Tổng hàng H.phúc E11 = 45 O11=38 E12 = 60 O12 = 58 E13 = 45 O13 = 54 R1 = 150 Không HP E21 = O21 = 12 E22 = 12 O22 = 14 E23 = O23 = R2 = 30 Ly dị / Ly thân E31 = O31 = 10 E32 = O23 = E33 = O33 = R3 = 20 C1 = 60 C2 = 80 C3 = 60 n = 200 Eij Ri C j n r c 2 i 1 j 1 (Oij Eij ) Eij Bác bỏ H df2 ; df ( r 1).( c 1) © 2013 Nguyễn Tiến Dũng 21 10.6 KĐ Chi bình phương phù hợp ● Goodness-of-fit Test ● Mục đích: Kiểm tra phân phối tần số có phù hợp với tần số lý thuyết hay khơng ● TD: Xem Ví dụ Trang 299, sách TKƯD số tai nạn lao động theo ngày tuần ● Chỉ tiêu KĐ ● Quy tắc bác bỏ H0 © 2013 Nguyễn Tiến Dũng ( O E ) i 2 i Ei i 1 k Bác bỏ H df2 ; df k 22 Câu hỏi ng.cứu gì? Thứ Số vụ tai nạn thực tế Oi Số vụ tai nạn theo giả thuyết Ei Hai 5,33 Ba 5,33 Tư 5,33 Năm 5,33 Sáu 5,33 Bảy 12 5,33 Tổng 32 32 © 2013 Nguyễn Tiến Dũng 23