.CHƯƠNG 10: KIỂM ĐỊNH PHI THAM SỐ Trần Minh NguyệtĐại học THĂNG LONGTháng 9 năm 2014 Trần Minh Nguyệt ĐH THĂNG LONG Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 1 / 7
Trang 1.
CHƯƠNG 10: KIỂM ĐỊNH PHI THAM SỐ
Trần Minh NguyệtĐại học THĂNG LONGTháng 9 năm 2014
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 1 / 71
Kiểm định dấu về trung vị một tổng thể
Kiểm định trung vị một tổng thể trên R
Kiểm định tổng hạng Wilcoxon cho trung vị hai mẫu độc lập
Kiểm định dấu và hạng Wilcoxon cho hai trung vị, chọn mẫu theo đôiKiểm định trung vị hai tổng thể trên R
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 2 / 71
Giới thiệu về kiểm định phi tham số
Kiểm định phi tham số
Trong phân tích dữ liệu không phải lúc nào bạn cũng gặp được các tìnhhuống thỏa mãn hoàn toàn các giả định cần thiết cho các kiểm định đãnghiên cứu (kiểm định cho trung bình tổng thể, phân tích phương sai), đặcbiệt khi bạn chỉ có các mẫu nhỏ Lúc này bạn phải dùng những phép kiểmđịnh đòi hỏi các giả thiết ít nghiêm ngặt hơn về phân phối của tổng thể,những kiểm định này được gọi là kiểm định với phân phối bất kỳ hay còngọi là kiểm định phi tham số
Trang 2.
Kiểm định phi tham số
Ưu điểm:
Không đòi hỏi những giả định về tham số và phân phối tổng thể
Một số phép kiểm định phi tham số có thể dùng cho dữ liệu định danh
Kiểm định cho trung vị tổng thể
Kiểm định cho trung vị tổng thể
Trong chương 8, ta đã biết bài toán kiểm định cho trung bình tổngthể chỉ thực hiện được khi tổng thể tuân theo phân phối chuẩn hoặc
phân phối chuẩn thì không thực hiện được bài toán kiểm định chotrung bình tổng thể
Trung bình và trung vị đều là các số đo độ tập trung của tổng thể.Tuy nhiên, khi tổng thể có phân phối lệch phải hoặc lệch trái thìtrung vị là số đo độ tập trung tốt hơn trung bình
Kiểm định cho trung vị thực hiện được cả khi tổng thể không có phânphối chuẩn và cỡ mẫu nhỏ
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 5 / 71
Kiểm định cho trung vị tổng thể Kiểm định dấu về trung vị một tổng thể
Kiểm định dấu về trung vị
H1: M d ¡ M0 H1: M d M0 H1: M d M0
Trang 3trung vị giả thuyết
..3 Lấy trị tuyệt đối các chênh lệch
..4 Xếp hạng cho|d i |, quy ước giá trị |d i | nhỏ nhất có hạng 1, các d i = 0
bằng nhau này
ký hiệu là R+, với những giá trị nhỏ hơn trung vị giả thuyết thì đặt
364 385 270 350 290 400 520 340 389 410
Ông ta tin rằng phân phối của tổng thể là lệch phải Vì thế ông giám đốcdùng kiểm định Wilcoxon về dấu của trung vị Ở mức ý nghĩa 5%, ông ta
có thể kết luận trung vị của thu nhập của sinh viên đã tốt nghiệp sau hai
không?
Lời giải:Gọi M d là trung vị của thu nhập của các sinh viên đã tốt nghiệpsau hai năm làm việc ở khu vực có vốn đầu tư nước ngoài
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 8 / 71
Kiểm định cho trung vị tổng thể Kiểm định dấu về trung vị một tổng thể
Trang 4Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 10 / 71
Kiểm định cho trung vị tổng thể Kiểm định dấu về trung vị một tổng thể
Chú ý
kiểm định Wilcoxon có thể được thực hiện thông qua:
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 11 / 71
Kiểm định cho trung vị tổng thể Kiểm định dấu về trung vị một tổng thể
Ví dụ 2
Một bài báo đánh giá là 50% các căn hộ Penthouse tại một thành phố
Lời giải: Gọi M d là trung vị của giá các căn hộ Penthouse ở thành phố đó
Trang 5= 2.49
ta kết luận đánh giá của bài báo đó là đúng
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 13 / 71
Kiểm định cho trung vị tổng thể Kiểm định trung vị một tổng thể trên R
Kiểm định trung vị một tổng thể trên R
Để kiểm định trung vị một tổng thể trên R ra dùng lệnh:
wilcox.test(x, mu = , alternative = )
Trong đó:
x: Véc tơ dữ liệu
mu: Giá trị M0trong H0.
alternative: Mô tả giả thuyết đối H1
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 14 / 71
Kiểm định cho trung vị tổng thể Kiểm định trung vị một tổng thể trên R
Ví dụ
Thực hiện lại Ví dụ 1, sử dụng phần mềm R:
Giám đốc trung tâm hỗ trợ việc làm của một trường đại học muốn làmmột nghiên cứu về lương của các sinh viên đã tốt nghiệp sau hai năm làmviệc ở khu vực có vốn đầu tư nước ngoài Ông ta thu thập được dữ liệu về
364 385 270 350 290 400 520 340 389 410
Ông ta tin rằng phân phối của tổng thể là lệch phải Vì thế ông giám đốcdùng kiểm định Wilcoxon về dấu của trung vị Ở mức ý nghĩa 5%, ông ta
có thể kết luận trung vị của thu nhập của sinh viên đã tốt nghiệp sau hai
không?
Trang 6.
Lời giải
năm làm việc ở khu vực có vốn đầu tư nước ngoài
5%, ông giám đốc không thể kết luận trung vị của thu nhập của sinh viên
đã tốt nghiệp sau hai năm làm việc ở khu vực có vốn đầu tư nước ngoài là
alternative hypothesis: true location is greater than 350
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 17 / 71
Kiểm định cho trung vị tổng thể Kiểm định trung vị một tổng thể trên R
Ví dụ
Thực hiện lại Ví dụ 2, sử dụng phần mềm R:
Một bài báo đánh giá là 50% các căn hộ Penthouse tại một thành phố
Lời giải: Gọi M d là trung vị của giá các căn hộ Penthouse ở thành phố đó
ta kết luận đánh giá của bài báo đó là đúng
Trang 7.
> Gia=c(173, 169.9, 163.5, 160.6, 159.2, 157.2, 156.5, 155.4, 155.2,197.75, 154.2, 200.75, 149.5, 203, 204.9, 145.9, 143.5, 137.65, 216.25,134.5, 128.9, 117, 112.4, 104.5, 102.6)
> wilcox.test(Gia, mu =176.2 , alt="t")
Wilcoxon signed rank test
V = 70, p-value = 0.01145
alternative hypothesis: true location is not equal to 176.2
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 19 / 71
Kiểm định cho trung vị tổng thể Kiểm định tổng hạng Wilcoxon cho trung vị hai mẫu độc lập
Kiểm định tổng hạng Wilcoxon cho trung vị hai mẫu độc
lập
Ta xét ba bài toán sau:
H0: M1¤ M2 H0: M1¥ M2 H0: M1= M2
H1: M1¡ M2 H0: M1 M2 H0: M1 M2
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 20 / 71
Kiểm định cho trung vị tổng thể Kiểm định tổng hạng Wilcoxon cho trung vị hai mẫu độc lập
Kiểm định tổng hạng wilcoxon
Để tiến hành kiểm định, không mất tổng quát ta có thể coi mẫu 1 có cỡ
nhỏ hơn trong hai mẫu, nếu hai mẫu có cỡ bằng nhau thì lấy mẫu nào làm
mẫu 1 cũng được Gộp hai mẫu từ hai tổng thể rồi xếp các quan sát theo
thứ tự tăng dần, quan sát nhỏ nhất có hạng 1, những quan sát tiếp theo
có hạng 2, Những trường hợp đồng hạng được thay thế bằng hạng trung
Trang 8.
Ví dụ
Để kiểm định tác động của việc trưng bày đến doanh số, người ta chọn hai
doanh số bán trong hai tuần trên
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 23 / 71
Kiểm định cho trung vị tổng thể Kiểm định tổng hạng Wilcoxon cho trung vị hai mẫu độc lập
Trang 9Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 25 / 71
Kiểm định cho trung vị tổng thể đôiKiểm định dấu và hạng Wilcoxon cho hai trung vị, chọn mẫu theo
Kiểm định dấu và hạng Wilcoxon cho hai trung vị, chọn mẫu theo đôi
như sau:
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 26 / 71
Kiểm định cho trung vị tổng thể đôiKiểm định dấu và hạng Wilcoxon cho hai trung vị, chọn mẫu theo
..4 Sắp hạng từ 1 đến n cho các |d i |, |d i| nhỏ nhất mang hạng 1, nếu các
của d i
là giá trị thống kê của kiểm định
Trang 10.
Kiểm định cho trung vị tổng thể đôi
Các bước thực hiện
Quy luật quyết định tại mức ý nghĩa α
Nếu cỡ mẫu nhỏ n1¤ 20, ta tìm giá trị tới hạn, so sánh với W và kết
Bài toán 1: bác bỏ H0nếu z ¡ zα
Bài toán 2: Bác bỏ H0nếu z zα
Bài toán 3: Bác bỏ H0 nếu|z| ¡ zα/2
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 28 / 71
Kiểm định cho trung vị tổng thể đôiKiểm định dấu và hạng Wilcoxon cho hai trung vị, chọn mẫu theo
Ví dụ
Để so sánh tốc độ xử lý của phần mềm mới có nhanh hơn phần mềm hiện
(giây) của từng phần mềm trên từng lệnh được ghi lại như sau:
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 29 / 71
Kiểm định cho trung vị tổng thể đôiKiểm định dấu và hạng Wilcoxon cho hai trung vị, chọn mẫu theo
Trang 11kê để khẳng định rằng phần mềm mới xử lý nhanh hơn phần mềm cũ.
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 31 / 71
Kiểm định cho trung vị tổng thể Kiểm định trung vị hai tổng thể trên R
Kiểm định trung vị hai tổng thể trên R
wilcox.test(x, y, alternative = , mu = , paired = )
Trong đó:
x, y: Mẫu của tổng thể thứ nhất và thứ hai
paired = T/F: Hai mẫu theo đôi/Hai mẫu độc lập (mặc định là F)
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 32 / 71
Kiểm định cho trung vị tổng thể Kiểm định trung vị hai tổng thể trên R
Ví dụ
Thực hiện lại ví dụ sau, sử dụng phần mềm R:
Để kiểm định tác động của việc trưng bày đến doanh số, người ta chọn hai
doanh số bán trong hai tuần trên
bình thường
đặc biệt
Trang 12Wilcoxon rank sum test with continuity correction
W = 17, p-value = 0.01395
alternative hypothesis: true location shift is not equal to 0
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 35 / 71
Kiểm định cho trung vị tổng thể Kiểm định trung vị hai tổng thể trên R
Ví dụ
Thực hiện lại ví dụ sau, sử dụng R:
Để so sánh tốc độ xử lý của phần mềm mới có nhanh hơn phần mềm hiện
(giây) của từng phần mềm trên từng lệnh được ghi lại như sau:
Kết luận ở mức ý nghĩa 5%
Trang 13luận phần mềm mới xử lý nhanh hơn phần mềm cũ.
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 37 / 71
Kiểm định cho trung vị tổng thể Kiểm định trung vị hai tổng thể trên R
Kiểm định dấu và hạng Wilcoxon trong R
> PMCu = c(9.98, 9.88, 9.84, 9.99, 9.94, 9.84, 9.86, 10.12, 9.90, 9.91)
> PMMoi = c(9.88, 9.86, 9.75, 9.80, 9.87, 9.84, 9.87, 9.86, 9.83, 9.86)
> wilcox.test(PMCu,PMMoi,alt="g",paired = T)
Wilcoxon signed rank test with continuity correction
V = 44, p-value = 0.006386
alternative hypothesis: true location shift is greater than 0
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 38 / 71
Kiểm định Kruskal Wallis cho nhiều mẫu độc lập
Kiểm định Kruskal Wallis cho nhiều mẫu độc lập
Khi muốn so sánh trung bình nhiều tổng thể, phân tích phương sai
(ANOVA) được sử dụng khi các tổng thể có phân phối chuẩn và
phương sai bằng nhau
Mục đích của phép kiểm định phi tham số Kruskal Wallis cũng là so
sánh trung bình nhiều tổng thể Tuy nhiên phép kiểm định này không
đòi hỏi giả thiết các tổng thể chuẩn và có phương sai bằng nhau
Khi thỏa mãn giả thiết các tổng thể chuẩn và có phương sai bằng
nhau thì phân tích phương sai cho kết quả tốt hơn Khi không thỏa
mãn các giả thiết này thì phép kiểm định phi tham số Kruskal Wallis
cho kết quả tốt hơn
Trang 14.
Các bước thực hiện
Giả sử cần so sánh trung bình của k tổng thể Giả sử có các mẫu ngẫu
các bước như sau:
Đặt cặp giả thuyết: Gọi µ1, µ2, , µk lần lượt là trung bình của k tổng thể Cặp giả thuyết là: H0: µ1= µ2= = µk
H1: Tồn tại i j sao cho µ i µj, i, jP t1, 2, 3u
Gộp các mẫu lại thành một mẫu chung, rồi tiến hành xếp hạng cácquan sát mẫu chung theo thứ tự tăng dần Nếu giá trị quan sát trùngnhau thì hạng giống nhau bằng cách dùng số trung bình cộng của cáchạng của chúng
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 40 / 71
W¡ χ2
k1,α
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 41 / 71
Kiểm định Kruskal Wallis cho nhiều mẫu độc lập
Ví dụ
Người ta muốn kiểm tra xem thời gian làm thêm có ảnh hưởng đến kếtquả học tập hay không Người ta chọn ngẫu nhiên ba nhóm sinh viên cóthời gian đi làm thêm khác nhau: nhóm thứ nhất gồm các sinh viên cóthời gian đi làm thêm (TGLT) ít, nhóm thứ hai có TGLT trung bình, nhómthứ ba có TGLT nhiều Dữ liệu về điểm tổng kết của ba nhóm sinh viênnày được tổng hợp và xếp hạng trong bảng cho dưới đây Hãy đưa ra kếtluận về vấn đề trên ở mức ý nghĩa 5% Cho biết giả thiết các tổng thểchuẩn với phương sai bằng nhau không được thỏa mãn
Trang 153(22 + 1) = 8.602Giá trị tới hạn: χ2
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 44 / 71
Kiểm định Kruskal Wallis cho nhiều mẫu độc lập
Kiểm định Kruskal Wallis cho nhiều mẫu độc lập trên R
Để thực hiện kiểm định Kruskal Wallis trong R ta dùng lệnh:
Trang 16.
Ví dụ
Để tìm p-giá trị cho bài toán trong ví dụ trên, ta thực hiện như sau:
> MauGop= c(6.3, 7, 6.5, 6.6, 7.3, 6.9, 6.4, 7.2, 6.6, 6.1,5.8, 6.8, 7.1, 5.9, 6.3, 5.8, 6.0, 5.5, 5.3, 6.5, 5.4, 6.2)
> PhanNhom= factor(rep(c(1:3),c(7,7,8)))
> kruskal.test(MauGop, PhanNhom)
Kruskal-Wallis rank sum test
Kruskal-Wallis chi-squared= 8.6221, df = 2, p-value = 0.01342
> kruskal.test(list(Nhom1, Nhom2, Nhom3))
Kruskal-Wallis rank sum test
Kruskal-Wallis chi-squared= 8.6221, df = 2, p-value = 0.01342
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 47 / 71
Kiểm định Chi - bình phương về tính độc lập
Ví dụ
Trong một đợt vận động xóa đói giảm nghèo tại một địa phương, các hộnghèo được vay vốn để phát triển kinh tế gia đình Sau một thời gian cómột số hộ thành công và một số hộ thất bại Người ta cho rằng có mốiliên hệ giữa độ tuổi của chủ hộ với sự thành công của việc phát triển kinh
tế Để tìm hiểu vấn đề này, một mẫu ngẫu nhiên gồm 1140 người được
lớp chéo theo độ tuổi trong bảng sau:
Trang 17.
Kiểm định Chi - bình phương về tính độc lập
Kiểm định Chi - bình phương về tính độc lập được dùng khi cần xácđịnh xem hai biến định tính có mối quan hệ độc lập hay phụ thuộc vớinhau
Cặp giả thuyết của bài toán này là:
giữa hai biến)
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 50 / 71
Kiểm định Chi - bình phương về tính độc lập
Thực hiện kiểm định ví dụ trên
Trang 18Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 53 / 71
Kiểm định chi - bình phương về sự phù hợp
Ví dụ 1
Một công ty đang chuẩn bị bốn cách thức bảo hiểm A, B, C, D khác nhau
hỏi ý kiến về việc ưa thích cách thức nào Kết quả cho trong bảng sau:
Hãy kiểm định giả thuyết không rằng tỷ lệ phần trăm các công nhân ưa
Trang 19.
Kiểm định chi - bình phương về sự phù hợp
Kiểm định chi - bình phương về sự phù hợp được sử dụng khi ta cần kiểmtra xem phân phối của tổng thể có tuân theo một quy luật phân phối xácsuất nào đó hay không Quy luật phân phối xác suất ở đây thường đượccho ở một trong hai dạng sau:
Có một sự phân lớp trong tổng thể và cho biết tỷ lệ của mỗi lớp trongtổng thể
Một quy luật phân phối xác suất đã biết (ví dụ phân phối nhị thức,phân phối Poisson, )
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 55 / 71
Kiểm định chi - bình phương về sự phù hợp
Ví dụ 2
Một trong các cách để xác định xem ai là tác giả của đoạn văn nào đó là
so sánh tần số xuất hiện của một từ ngữ nào đó Nghiên cứu số lần xuất
ghi lại được như sau:
Poisson nào không?
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 9 năm 2014 56 / 71
Kiểm định chi - bình phương về sự phù hợp
Kiểm định chi - bình phương về sự phù hợp
Chọn mẫu ngẫu nhiên gồm n phần tử từ tổng thể mà giá trị của chúng