Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
889,96 KB
Nội dung
Phân tích xử lý liệu với R Chương ƯỚC LƯỢNG & KIỂM ĐỊNH GIẢ THUYẾT NỘI DUNG Ước lượng Kiểm định giả thuyết So sánh hai tổng thể Quy trình ước lượng Ước lượng tham số tổng thể chung Ước lượng tham số tổng thể chung Trung bình Tỷ lệ Phương sai Khác biệt Từ thống kê tổng thể mẫu 1.2 Ước lượng trung bình tổng thể chung Khoảng tin cậy Trung bình Tỷ lệ Đã biết Chưa biết Tổng thể bộc lộ 1.2.1 Trường hợp biết phương sai Giả thiết ● Đã biết độ lệch chuẩn tổng thể chung ● Tổng thể chung phân bố chuẩn ● Nếu bất thường sử dụng mẫu lớn Ước lượng khoảng tin cậy 1.2.2 Trường hợp chưa biết phương sai (chưa biết Giả thiết ● Chưa biết độ lệch chuẩn tổng thể chung ● Tổng thể chung phải phân bố chuẩn Sử dụng phân bố Students’s Ước lượng khoảng tin cậy Đọc liệu vào R >setwd(“D:/testR”) >data = read.csv(“salary.csv”, header =T) >attach(data) >head(data) id salbeg sex time age salnow edlevel work jobcat minority sexrace 6900 79 28.00 16080 15 3.17 1 5400 67 28.75 14100 15 0.50 1 5040 96 27.42 12420 15 1.17 1 11 6300 84 33.50 15720 15 6.00 1 12 6000 88 54.33 8880 12 27.00 1 18 6900 72 32.67 10380 15 6.92 1 Ước lượng lương trung bình nhân viên sumary (salnow) n = length(salnow) alpha = 0.05 salnow.bar = mean (salnow) s = sd (salnow) z = qnorm(1-alpha/2) erro = z *s / sqrt(n) // khoảng ước lượng: sal.now + c(-erro, erro) Tính khoảng ước lượng trung bình thâm niên làm việc nhân viên công ty với mức ý nghĩa alpha = 10% a) Kiểm định Z phía Giả định chung phân bố chuẩn ● Tổng thể chung: Phân bố chuẩn ● Nếu không chuẩn, sử dụng mẫu lớn ● Giả thiết “không” có dấu Kiểm định Z: Miền bác bỏ Kiểm định trái biết phương sai Giả sử nhà sản xuất tuyên bố đời trung bình bóng đèn 10.000 Trong mẫu 30 bóng đèn, người ta thấy tuổi thọ trung bình chúng 9,900 Giả sử độ lệch chuẩn tổng thể 120 Với mức ý nghĩa 5% bác bỏ tuyên bố nhà sản xuất hay không Ho: μ >=10000 > xbar = 9900 # sample mean > mu0 = 10000 # hypothesized value > sigma = 120 # population standard deviation > n = 30 # sample size > z = (xbar−mu0)/(sigma/sqrt(n)) >z # test statistic [1] −4.5644 > alpha = 05 > z.alpha = qnorm(1−alpha) > −z.alpha # critical value [1] −1.6449 Kết luận: Giá trị thống kê z< −z.alpha nên có đủ sở để bác bỏ tuyên bố nhà sản xuất Kiểm định phải biết phương sai Trên bao bì gói cookie ghi rõ khối lượng chất béo bão hòa cookie không lớn 2g Người ta chọn ngẫu nhiên 35 cookie từ 35 gói hàng khác tính khối lượng chất béo bão hòa 2.1 g giả sử độ lệch chuẩn lượng chất béo 0,25gram Với mức ý nghĩa 5% yêu cầu nhà sản xuất phải thay đổi thông tin ghi bao bì không? Ho: μ xbar = 2.1 # sample mean > mu0 = # hypothesized value > sigma = 0.25 # population standard deviation > n = 35 # sample size > z = (xbar−mu0)/(sigma/sqrt(n)) >z # test statistic [1] 2.3664 > alpha = 05 > z.alpha = qnorm(1−alpha) > z.alpha # critical value [1] 1.6449 Kết luận: Giá trị thống kê z > z.alpha nên không đủ sở để chấp nhận giả thuyết Ho nên yêu cầu nhà sản xuất đính lại thông tin bao bì 2.4 Kiểm định tỷ lệ Là phân số % tổng thể chng theo tiêu thức định tính Nếu tiêu thức định có hai biểu phân bố theo quy luật nhị thức ● Bao gồm biểu có theo tiêu thức nghiên cứu Tỷ lệ tổng thể mẫu () Sử dụng n đủ lớn () NỘI DUNG Ước lượng Kiểm định giả thuyết So sánh hai tổng thể So sánh hai tổng thể 3.1 Kiểm định giá trị trung bình hai tổng thể ● Hai mẫu độc lập ● Hai mẫu phụ thuộc 3.2 Kiểm định tỷ lệ hai tổng thể So sánh hai mẫu độc lập So sánh thu nhập cán nam cán nữ công ty >head(data) >ibrary(psych) >describe.by(salnow, sex) >t=t.test(salnow~ sex) >print(t) data: salnow by sex t = 11.688, df = 344.26, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 95 percent confidence interval: 5126.691 7201.198 sample estimates: mean in group mean in group 16576.71 10412.77 >library(beeswarm) // ko có gõ lệnh install.packages (“beeswarm”) >beeswarm(salnow~sex, data=data, pch=16) >boxplot(salnow~sex, add=T, col = c("green", "red")) So sánh hai mẫu phụ thuộc So sánh lương khởi điểm lương nhân viên công ty > t=t.test(salnow, salbeg, paired=TRUE) >print(t) Paired t-test data: salnow and salbeg t = 35.036, df = 473, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 95 percent confidence interval: 6570.963 7351.822 sample estimates: mean of the differences 6961.392