Giải bài toán kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R

6 146 1
Giải bài toán kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết hướng người đọc đến với ứng dụng tuyệt vời của phần mềm R trong việc giải quyết bài toán kiểm định giả thuyết thống kê, một trong những bài toán rất quan trọng được giảng dạy trong xác suất - thống kê. Bài viết ngắn gọn với các nội dung chính: giới thiệu chi tiết về phần mềm R; những ứng dụng của phần mềm R trong bài toán kiểm định giả thuyết thống kê và cuối cùng là kết luận.

KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN 10 GIẢI BÀI TOÁN KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ VỚI SỰ TRỢ GIÚP CỦA PHẦN MỀM R ThS Lê Trường Giang* Tóm tắt Bài viết hướng người đọc đến với ứng dụng tuyệt vời phần mềm R việc giải toán kiểm định giả thuyết thống kê, toán quan trọng giảng dạy xác suất - thống kê Bài viết ngắn gọn với nội dung chính: giới thiệu chi tiết phần mềm R; ứng dụng phần mềm R toán kiểm định giả thuyết thống kê cuối kết luận Từ khóa: Phần mềm R, kiểm định giả thuyết thống kê, thống kê ứng dụng Giới thiệu phần mềm R Bên cạnh phần mềm phân tích liệu như: Eviews, Stata, SPSS, S-Plus, Matlab…, phần mềm R vươn lên lựa cho tối ưu cho nhà phân tích Được đề xuất hai tác giả Ross Ihaka Robert Gentleman Đại học Auckland, New Zealand vào năm 1990, phần mềm R không ngừng lớn mạnh thông qua gói lệnh (package) phát triển người dùng khắp giới R ngôn ngữ lập trình cấp cao với mã nguồn mở (open source) Phần mềm R sử dụng rộng rãi cho tính tốn thống kê, phân tích số liệu, Kinh tế lượng ứng dụng mà bật phân tích liệu bảng (Panel Data) với công cụ hỗ trợ vẽ đồ thị chuyên nghiệp Phần mềm R thể sức mạnh qua giải thưởng uy tín tán dương cộng đồng giới như: New York Times, Forbes, Intelligent Enterprise… Ngoài ứng dụng trên, phần mềm R cịn cơng cụ hiệu thiết yếu cho Data Mining, Big Data, Data Visualization Machine Learning Sử dụng phần mềm R hồn tồn miễn phí, tải phiên phù hợp với hệ điều hành sử dụng từ https://cran.r-project.org/ Sau cài đặt, phần mềm R * Bộ mơn Tốn - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài - Marketing 79 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN sẵn sàng hoạt động, nhiên, giao diện mặc định không thực hấp dẫn Để cải thiện điều này, nên dùng mơi trường phát triển tích hợp dành cho RStudio lựa chọn hàng đầu Phần mềm bao gồm trình biên tập đánh dấu cú pháp, hỗ trợ thực mã lệnh trực tiếp, công cụ vẽ biểu đồ, lược sử, gỡ lỗi quản lý không gian làm việc Để có phiên RStudio, truy cập vào trang https://www rstudio.com/ Hiện có 10.000 gói lệnh https://cran.r-project.org/ tất miễn phí Một gói lệnh tập mã lệnh viết nhằm thực hệ công việc người hay nhóm người, thường chuyên gia Các gói base hay stats tự động cài đặt cài R Những gói lệnh khác, ví dụ ggplot2 - hỗ trợ xây dựng biểu đồ, cài đặt trực tuyến lệnh Một gói lệnh quan tâm nhiều giới giao dịch tài quantmod Trong giới hạn viết này, tác giả tập trung vào kiểm định giả thuyết thống kê với trợ giúp phần mềm R Kiểm định giả thuyết thống kê 2.1 Kiểm định trung bình cho biến định lượng Để thực kiểm định T cho biến định lượng R, ta sử dụng hàm t.test() Ta sử dụng cấu trúc hàm t.test() đơn giản sau: t.test (X, mu = µ , alternative = c (" two.sided "," less "," greater ") , conf level = γ ) Trong đó: X biến quan sát, µ trung bình γ độ tin cậy Ví dụ 1: File liệu dulieu GDP.csv ghi nhận số liệu xuất khẩu, nhập khẩu, GDP CPI quốc gia từ năm 1985 đến năm 2016 a Có nhận định cho rằng, GDP trung bình quốc gia 80.000 triệu USD Với mức ý nghĩa 5%, cho kết luận nhận định b Có nhận định cho rằng, xuất trung bình quốc gia tối đa 30.000 triệu USD Với mức ý nghĩa 1%, cho kết luận nhận định Hướng dẫn giải > setwd(“D:/R.Software/R_Data”) > data1 data1 Nam XUATKHAU NHAPKHAU GDP CPI 1985 698.5 1857.4 5480.517 2.90 1986 789.1 2155.1 7127.222 5.30 1987 854.2 2455.1 7797.167 6.10 1988 1038.4 2756.7 7925.763 4.40 1989 1946.0 2565.8 9923.438 3.60 1990 2404.0 2752.4 13212.120 6.10 1991 2087.1 2338.1 16362.360 6.50 80 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN 1992 2580.7 2540.4 20804.590 17.50 1993 2985.2 3924.5 24708.650 5.20 10 1994 4054.3 5825.3 26834.030 14.40 11 1995 5448.9 8155.4 26931.150 12.70 12 1996 7255.9 11143.6 28639.270 4.50 13 1997 9185.5 11592.3 31210.580 3.60 14 1998 9360.3 11499.6 32697.380 9.20 15 1999 11541.4 11742.1 35072.110 3.10 16 2000 14482.7 15636.5 39585.890 1.60 17 2001 15029.2 16217.9 45669.710 1.80 18 2002 16706.1 19745.6 54704.020 4.30 19 2003 20149.3 25255.8 66308.860 3.10 20 2004 26485.0 31968.8 77391.740 9.50 21 2005 32447.0 36761.1 97480.430 8.40 22 2006 39826.2 44891.1 99784.310 6.60 23 2007 48561.4 62764.7 110706.500 12.63 24 2008 62685.1 80713.8 133104.600 9.89 25 2009 57096.3 69948.8 155225.600 6.52 26 2010 71629.0 84801.2 170264.800 11.75 27 2011 96905.7 106749.9 183546.900 8.13 28 2012 114529.2 113780.4 193876.700 6.81 29 2013 132134.9 142125.5 220786.500 6.04 30 2014 142134.9 148125.5 210786.500 7.40 31 2015 162137.8 178145.9 230776.800 8.12 32 2016 182121.8 189654.3 249876.100 9.60 > summary(data1) Nam XUATKHAU NHAPKHAU GDP CPI Min :1985 Min : 698.5 Min : 1857 Min : 5481 Min : 1.600 1st Qu.:1993 1st Qu.: 2884.1 1st Qu.: 3633 1st Qu.: 23733 1st Qu.: 4.375 Median :2000 Median : 14756.0 Median : 15927 Median : 42628 Median : 6.510 Mean :2000 Mean : 40540.3 Mean : 45331 Mean : 82331 Mean : 7.103 3rd Qu.:2008 3rd Qu.: 58493.5 3rd Qu.: 72640 3rd Qu.:138635 3rd Qu.: 9.275 Max :2016 Max :182121.8 Max :189654 Max :249876 Max :17.500 > attach(data1) > t.test(GDP,mu=80000,alternative=”two.sided”,conf.level = 0.95) One Sample t-test data: GDP t = 0.1684, df = 31, p-value = 0.8674 alternative hypothesis: true mean is not equal to 80000 81 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN 95 percent confidence interval: 54096.74 110565.91 sample estimates: mean of x 82331.32 0.8674 nên với mức ý nghĩa 5%, ta chưa có sở bác bỏ giả Ta có: α = 0.05 < p −- value = 0.8674 thuyết đặt Vậy, nhận định phù hợp Ngoài ra, dựa kết nhận từ R, ta có khoảng ước lượng cho GDP với độ tin cậy 95% (54096.74; 110565.91) > t.test(XUATKHAU,mu=30000,alternative=”greater”, conf.level = 0.99) One Sample t-test data: XUATKHAU t = 1.128, df = 31, p-value = 0.134 alternative hypothesis: true mean is greater than 30000 99 percent confidence interval: 17621.43Inf sample estimates: mean of x 40540.35 - value == 0.134 0.134 nên với mức ý nghĩa 1%, ta chưa có sở bác bỏ giả Ta có: α = 0.01 < p − thuyết đặt Vậy, xuất trung bình quốc gia tối đa 30.00 triệu USD Ngoài ra, dựa kết nhận từ R, ta có khoảng ước lượng tối thiểu cho xuất với độ tin cậy 99% (17621.43; +∞) 2.2 Kiểm định phương sai cho biến định lượng Ta sử dụng hàm varTest() để tiến hành kiểm định phương sai cho biến định lượng R Cấu trúc hàm varTest() sau: var Test (X,sigma squared = σ , alternative = c("two.sided","less","greater"), conf level = γ ) Trong đó: X biến quan sát, σ phương sai γ độ tin cậy Ví dụ 2: File liệu dulieuGDP.csv ghi nhận số liệu xuất khẩu, nhập khẩu, GDP CPI quốc gia từ năm 1985 đến năm 2016 Có nhận định cho rằng, phương sai CPI 5.1 Với mức ý nghĩa 5%, cho kết luận nhận định Hướng dẫn giải > varTest(CPI,sigma.squared=5.1,alternative=”two.sided”,conf.level = 0.95) Results of Hypothesis Test -Null Hypothesis: variance = 5.1 Alternative Hypothesis: True variance is not equal to 5.1 82 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Test Name: Chi-Squared Test on Variance Estimated Parameter(s): variance = 14.14428 Data: CPI Test Statistic:Chi-Squared = 85.97503 Test Statistic Parameter: df = 31 P-value: 9.164284e-07 95\% Confidence Interval: LCL = 9.090928 UCL = 25.000238 value = 9.164284e − 07 nên với mức ý nghĩa 5%, ta bác bỏ giả thuyết Ta có: α = 0.05 > p _- value Vậy, phương sai CPI thực tế khác 5.1 2.3 Kiểm định tỷ lệ cho biến định tính Ta sử dụng hàm prop.test() để kiểm định tỷ lệ cho biến định tính R Cấu trúc hàm prop.test() sau: i) Kiểm định tỷ lệ cho biến định tính prop.test( nA , n, p ,alternative=c(“two.sided”, “less”, “greater”),conf.level = γ ) Trong đó: nA số phần tử có tính chất A cần quan sát, n kích thước mẫu, p xác suất thành cơng γ độ tin cậy ii) Kiểm định tỷ lệ cho hai biến định tính prop.test(c( nA , mA ),c(n,m),alternative=c(“two.sided”,”less”,”greater”), conf.level = γ ) Trong đó: nA số phần tử có tính chất A n phần tử; mA số phần tử có tính chất A m phần tử; n kích thước mẫu thứ m kích thước mẫu thứ 2; γ độ tin cậy Ví dụ 3: Ở nước, đảng trị tuyên bố rằng, 45% cử tri bỏ phiếu bầu cho ông A ứng cử viên họ Chọn ngẫu nhiên 200 người hỏi ý kiến, có 80 người bầu cho ơng A Với mức ý nghĩa 5%, cho nhận xét tuyên bố Hướng dẫn giải > prop.test(80,200,0.45,alternative=”two.sided”,conf.level=0.95) 1-sample proportions test with continuity correction data: 80 out of 200, null probability 0.45 X-squared = 1.8232, df = 1, p-value = 0.1769 alternative hypothesis: true p is not equal to 0.45 95 percent confidence interval: 0.3322225 0.4716840 sample estimates: p 0.4 83 KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN 0.05 prop.test(c(58,102),c(150,250),alternative=”two.sided”,conf.level=0.95) 2-sample test for equality of proportions with continuity correction data: c(58, 102) out of c(150, 250) X-squared = 0.1, df = 1, p-value = 0.7518 alternative hypothesis: two.sided 95 percent confidence interval: -0.12558527 0.08291861 sample estimates: prop prop 0.3866667 0.4080000 value = 0.7518 nên chưa có sở bác bỏ giả thuyết Vậy, với mức ý Ta có: α = 0.05 < pp _- value nghĩa 5%, tỷ lệ trẻ em bị sâu hai vùng Kết luận Bài viết trình bày số ứng dụng phần mềm R giải toán kiểm định giả thuyết thống kê, mà cụ thể thơng qua ví dụ kiểm định trung bình, kiểm định phương sai cho biến định lượng, kiểm định tỷ lệ cho biến định tính Các kiểm định khác thực tương tự Các đoạn mã cung cấp để ai, kể người biết phần mềm R sử dụng dễ dàng TÀI LIỆU THAM KHẢO Trần Kim Thanh, Lê Trường Giang (2017), Giáo trình Lý thuyết xác suất thống kê toán, Trường Đại học Tài - Marketing Võ Văn Tài, Nguyễn Thị Hồng Dân, Hồng Việt Minh (2016), Phân tích số liệu thống kê với R, NXB Giáo dục Việt Nam 84 ... tập trung vào kiểm định giả thuyết thống kê với trợ giúp phần mềm R Kiểm định giả thuyết thống kê 2.1 Kiểm định trung bình cho biến định lượng Để thực kiểm định T cho biến định lượng R, ta sử dụng... nghĩa 5%, tỷ lệ trẻ em bị sâu hai vùng Kết luận Bài viết trình bày số ứng dụng phần mềm R giải toán kiểm định giả thuyết thống kê, mà cụ thể thông qua ví dụ kiểm định trung bình, kiểm định phương... khác 5.1 2.3 Kiểm định tỷ lệ cho biến định tính Ta sử dụng hàm prop.test() để kiểm định tỷ lệ cho biến định tính R Cấu trúc hàm prop.test() sau: i) Kiểm định tỷ lệ cho biến định tính prop.test(

Ngày đăng: 10/12/2021, 09:58

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan