Một số ứng dụng của phần mềm r trong xác suất thống kê

41 39 0
Một số ứng dụng của phần mềm r trong xác suất thống kê

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC VINH KHOA SƯ PHẠM TOÁN HỌC HOÀNG THỊ TUYÊN MỘT SỐ ỨNG DỤNG CỦA PHẦN MỀM R TRONG XÁC SUẤT THỐNG KÊ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHUYÊN NGÀNH: TOÁN TIN ỨNG DỤNG Giảng viên hướng dẫn: TS VÕ THỊ HỒNG VÂN NGHỆ AN, 05/2014 Lời cảm ơn Lời xin chân thành cảm ơn thầy, giáo khoa Sư phạm Tốn học trường Đại học Vinh truyền thụ cho kiến thức quý báu năm qua, giúp khẳng định để tơi có đủ lực, điều kiện để thực khóa luận Tôi xin cảm ơn sâu sắc tới TS.Võ Thị Hồng Vân, người tận tình hướng dẫn, giúp đỡ bảo suốt q trình thực khóa luận Tôi chân thành cảm ơn quý thầy, cô tổ mơn Xác suất Thơng kê Tốn ứng dụng khoa Sư phạm Toán học tạo điều kiện hướng dẫn, góp ý kiến để tơi hồn thành khóa luận Và cuối tơi xin gửi lời cảm ơn chân thành tới người thân u gia đình tơi, bạn bè, người luôn bên tôi, động viên thời gian tơi học thực khóa luận Mặc dù thân có nhiều cố gắng nỗ lực chắn khóa luận cịn có thiếu sót Rất mong đóng góp ý kiến quý thầy cô bạn đọc để có nhìn sâu sắc vấn đề nghiên cứu, hồn thiện để đạt chất lượng cao Tơi xin chân thành cảm ơn! Vinh, tháng năm 2014 Hoàng Thị Tuyên Mục lục Mở đầu Giới thiệu phần mềm R 1.1 1.2 Tải R cài đặt R "Văn phạm" R 1.3 1.4 Cách đặt tên biến R Môi trường vận hành R 1.5 1.6 Hỗ trợ R Cách nhập liệu R 10 1.7 Cách tạo lệnh R 11 Một số ứng dụng R Xác suất Thống kê 13 2.1 Các phân phối xác suất 2.1.1 Phân phối nhị thức 13 14 2.1.2 2.1.3 Phân phối Poisson Phân phối chuẩn 15 16 2.1.4 2.1.5 Phân phối Phân phối mũ 18 19 Các đặc trưng mẫu Ước lượng tham số 20 23 2.3.1 Ước lượng khoảng kì vọng 23 2.3.2 2.3.3 Ước lượng khoảng phương sai Ước lượng khoảng tỉ lệ 26 28 Trị số p kiểm định giả thuyết 2.4.1 Trị số p 28 28 2.4.2 2.4.3 Kiểm định giả thuyết kì vọng Kiểm định giả thuyết tỉ lệ 30 33 2.4.4 Kiểm định giả thiết phương sai 34 2.2 2.3 2.4 2.4.5 2.4.6 2.5 So sánh hai giá trị trung bình So sánh hai tỉ lệ 36 38 Tương quan hồi quy 39 2.5.1 2.5.2 40 41 Hệ số tương quan Đường hồi quy bình phương trung bình tuyến tính Kết luận 43 Tài liệu tham khảo 44 Mở đầu I Lí chọn đề tài Từ thập kỷ 80, máy tính sử dụng ngày rộng rãi, trợ giúp người nhiều lĩnh vực khác có nhiều phần mềm thống kê xây dựng cho máy vi tính có ứng dụng rộng khắp hầu hết lĩnh vực nghiên cứu khoa học, kể đến phần mềm thơng dụng SAS, SPSS, Stata, Statistica S-Plus Tuy nhiên, phần mềm khơng phải miễn phí Thậm chí, chi phí để sử dụng chúng tương đối đắt tiền, số trường đại học nước phát triển số nước phát triển khơng có khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm mới, với chủ trương mã nguồn mở, cho tất thành viên ngành thống kê học toán học giới sử dụng cách thống hồn tồn miễn phí Năm 1996, báo quan trọng tính tốn thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman thuộc trường đại học Auckland, New Zealand phát họa ngôn ngữ cho phân tích thống kê mà họ đặt tên R R phần mềm thống kê miễn phí, miễn phí khơng có nghĩa chất lượng R có khả làm tất cả, chí cịn phần mềm vừa kể Về chất, R ngơn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí, tính tốn ma trận, đến phân tích thống kê phức tạp Cho đến nay, qua chưa đầy 19 năm phát triển, ngày có nhiều nhà thống kê học, tốn học, nghiên cứu lĩnh vực sử dụng R q trình nghiên cứu khoa học Trên tồn cầu, có mạng lưới triệu người sử dụng R, số tăng nhanh Ở nước ta, R khái niệm lạ lẫm với số người sử dụng Từ lí trên, chúng tơi chọn đề tài nghiên cứu khóa luận "Một số ứng dụng phần mềm R Xác suất Thống kê" II Mục đích nghiên cứu Mục đích nghiên cứu khóa luận giới thiệu tổng quan phần mềm R nghiên cứu ứng dụng Trên sở tài liệu tham khảo, tổng hợp, phân tích trình bày chi tiết cách sử dụng phần mềm R để giải số tốn Xác suất Thống kê III Cấu trúc khóa luận Ngoài phần mở đầu, kết luận tài liệu tham khảo, khóa luận có chương Chương 1: Giới thiệu phần mềm R Trong chương này, giới thiệu cách tổng quan phần mềm R: cách tải cài đặt R máy tính, cách khởi động R cách thoát khỏi R, văn phạm R, cách đặt tên biến R, môi trường vận hành R, hỗ trợ R, cách nhập liệu R cách tạo lệnh R Chương 2: Một số ứng dụng R Xác suất Thống kê Trong chương này, chúng tơi trình bày cách sử dụng R để giải số toán Xác suất Thống kê: tính tốn xác suất phân phối xác suất bản, tính đặc trưng mẫu, toán ước lượng tham số biến ngẫu nhiên, tốn kiểm định giả thuyết thống kê, tính hệ số tương quan mẫu tìm phương trình hồi quy tuyến tính Chương Giới thiệu phần mềm R 1.1 Tải R cài đặt R Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau http://cran.r-project.org/ Tài liệu cần tải về, tùy theo phiên bản, thường có tên bắt đầu chữ R số phiên Chẳng hạn phiên sử dụng R i386 3.0.2 Khi tải R xuống máy tính, bước cài đặt vào máy tính Để làm việc này, đơn giản nhấp chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình R cung cấp cho ngơn ngữ máy tính số hàm để làm phân tích đơn giản Nếu muốn làm phân tích phức tạp hơn, cần phải tải máy số gói lệnh (package) khác Package phần mềm nhỏ chạy R, nhà thống kê phát triển để giải vấn đề cụ thể Địa để tải package http://cran.r-project.org/ Các package cài đặt trực tiếp cách chọn Install packages phần packages R Sau hoàn tất việc cài đặt, biểu tượng xuất hình máy tính Đến sẵn sàng sử dụng R Có thể nhấp chuột vào biểu tượng có cửa sổ sau Khi sử dụng R, phải trực tiếp gõ lệnh vào sau dấu nhắc > Nếu lệnh gõ R cho dấu nhắc > khác hay cho kết (tùy theo lệnh) Nếu lệnh khơng R cho thơng báo ngắn không hay không hiểu Chẳng hạn, gõ > x=15+7*sqrt(10) R hiểu làm theo lệnh này, cho dấu nhắc > khác Nhưng gõ > x=3-a R khơng đồng ý với lệnh thông báo sau xuất Error: object ’a’ not found Các lệnh R tách biệt với dấu ; dịng Các lệnh tập hợp thành nhóm dấu { } Nếu lệnh khơng hồn thành cuối dịng, R cho dấu nhắc khác, mặc định +, dòng lệnh hoàn thành Khi muốn rời khỏi R, đơn giản nút chéo (x) bên góc phải cửa sổ hành hay gõ lệnh q() 1.2 "Văn phạm" R R ngôn ngữ tương tác, có nghĩa lệnh, lệnh theo "văn phạm", R đáp lại kết Và tương tác tiếp tục đạt yêu cầu "Văn phạm" chung R lệnh hay hàm Cú pháp chung R sau tên đối tượng = hàm(thông số 1, ,thông số n) Chẳng hạn > y=abs(x) y đối tượng, cịn abs hàm x thông số hàm R ngơn ngữ đối tượng Điều có nghĩa liệu R chứa đối tượng, hay gọi biến Chẳng hạn, ta viết x=5 (cách viết khác x x [1] Với R, tất câu chữ hay lệnh sau kí hiệu # khơng có hiệu ứng, kí hiệu # dành cho người sử dụng thêm vào ghi Ví dụ > # lệnh sau để tìm tổ hợp chập > choose(5,2) [1] 10 1.3 Cách đặt tên biến R Đặt tên đối tượng hay biến R linh hoạt, R khơng có nhiều giới hạn phần mềm khác Tên biến phải viết liền nhau, tức không tách rời khoảng trống Chẳng hạn R chấp nhận sanpham, không chấp nhận san pham > sanpham=c(17,18,19,20) > san pham=c(17,18,19,20) Error: unexpected symbol in "san pham" Nhưng tên biến viết liền khó đọc, nên tách rời dấu chấm ".", chẳng hạn san.pham > san.pham=c(17,18,19,20) Một điều quan trọng cần lưu ý R phân biệt chữ viết hoa viết thường Do đó, biến có tên San.pham khác với biến có tên san.pham 1.4 Môi trường vận hành R Do liệu phải chứa thư mục làm việc máy tính, nên trước sử dụng R, nên tạo thư mục để chứa liệu, chẳng hạn thư mục có tên "D:\R thuc hanh" Để làm điều này, sử dụng lệnh > setwd("D:/R thuc hanh") Để biết R làm việc thư mục nào, cần lệnh > getwd() [1] "C:/Users/SNS/Documents" 1.5 Hỗ trợ R Trước sử dụng R, đọc qua phần dẫn có sẵn R cách chọn mục Help sau chọn Html help để biết thêm chi tiết cách vận hành R Khi cần hướng dẫn để hiểu R, lệnh hay văn phạm nó, ta dùng lệnh > help.start() Hoặc cụ thể hơn, cần hiểu cú pháp hàm, ta gõ tên hàm vào sau lệnh help Chẳng hạn để tìm hiểu hàm t.test, ta gõ > help(t.test) ta có cửa sổ với hướng dẫn ví dụ chi tiết 1.6 Cách nhập liệu R Muốn làm phân tích liệu R, phải có sẵn liệu dạng mà R hiểu để xử lý Dữ liệu mà R hiểu phải liệu data.frame Có nhiều cách để nhập số liệu vào data.frame R.Trong mục này, giới thiệu cách nhập số liệu trực tiếp với lệnh c() Lệnh cho phép tạo cột liệu (hay biến), với cú pháp sau tên biến = c(phần tử 1, , phần tử n) 26 + dcx=u*sqrt(f*(1-f)/n) + c(f-dcx,f+dcx) + } > ktc.tl(20,100,0.95) [1] 0.1216014 0.2783986 2.4 2.4.1 Trị số p kiểm định giả thuyết Trị số p Trong nghiên cứu khoa học, ngồi kiện số, biểu đồ hình ảnh, số mà ta hay gặp trị số p Thông thường trị số p thường gắn liền với tốn kiểm định giả thuyết Nó giá trị xác suất, tiếng Anh gọi p-value, viết tắt chữ probability value, thực tế xác suất có điều kiện, tính tốn dựa điều kiện giả thuyết H Tuy nhiên trị số p xác suất để giả thuyết H khơng phải xác suất để đối thuyết K Câu hỏi mà trị số p trả lời liệu thí nghiệm có cung cấp đủ chứng để bác bỏ giả thuyết H hay không Tức trị số p số đo mức độ mạnh yếu chứng chống lại H Theo quy ước khoa học, tất trị số p bé 0, 05 xem có ý nghĩa thống kê (statistically significant) Tức với p < 0, 05 giả thuyết H khơng phù hợp với số liệu quan sát được, nên ta "chấp nhận" đối thuyết K Ở ta phải hiểu ta chấp nhận K khơng có nghĩa ta tin vào K mà ta hành động với điều kiện giả thuyết Bây giờ, giả sử θ tham số chưa biết biến ngẫu nhiên X Xét toán kiểm định giả thuyết với giả thuyết H : θ = θ0 với đối thuyết K : θ = θ0 , hay K : θ < θ0 , hay K : θ > θ0 Từ X ta lập mẫu ngẫu nhiên kích thước n chọn tiêu chuẩn kiểm định T cho H T có phân phối hồn tồn xác định Từ mẫu cụ thể ta tìm giá trị quan sát tqs tiêu chuẩn kiểm định Khi đó, ta có cơng thức tính trị số p sau: • Với K : θ = θ0 , p = 2P(T ≤ −|tqs |) • Với K : θ < θ0 , p = P(T ≤ tqs ) • Với K : θ > θ0 , p = P(T > tqs ) 27 Nhắc lại R bắt đầu lệnh phân phối với chữ p để tính xác suất P(X ≤ x) với giá trị x Do tùy thuộc vào phân phối T mà ta sử dụng lệnh phù hợp để tìm trị số p R Chẳng hạn, T có phân phối chuẩn tắc N(0, 1) trị số p tương ứng với đối thuyết p=2*pnorm(-abs(tqs )) p=pnorm(tqs ) p=pnorm(tqs ,lower.tail=FALSE) Trong mục tiếp theo, chúng tơi trình bày cách sử dụng lệnh R để giải toán kiểm định giả thuyết theo cách dùng quy tắc kiểm định dùng trị số p 2.4.2 Kiểm định giả thuyết kì vọng R khơng có lệnh để giải tốn kiểm định giả thuyết kì vọng biến ngẫu nhiên với phương sai biết Tuy nhiên, thao tác thủ cơng cách sử dụng lệnh pnorm qnorm, minh họa ví dụ sau Ví dụ 2.4.1 Bình thường mì đóng gói 453 gam gói máy tự động Kiểm tra ngẫu nhiên 81 gói mì thấy trọng lượng trung bình 448 gam Với mức ý nghĩa 0, 05 kết luận trọng lượng gói mì có xu hướng bị đóng gói thiếu khơng? Biết trọng lượng gói mì biến ngẫu nhiên có độ lệch chuẩn 36 gam Gọi X trọng lượng gói mì (gam) EX = µ trọng lượng trung bình Ta xét tốn kiểm định giả thuyết H : µ = µ0 = 453; Đầu tiên, ta tính giá trị quan sát tqs = K : µ < 453 x−µ √0 · σ/ n > tbm=448 > muy0=453 > dlc=36 > n=81 > t.qs=(tbm-muy0)/(dlc/sqrt(n)) > t.qs [1] -1.25 Sau ta tính −u(α) 28 > alpha=0.05 > u.alpha=qnorm(1-alpha) > -u.alpha [1] -1.644854 Vì tqs > −u(α) nên ta chấp nhận H Nghĩa với mức ý nghĩa 0,05, ta chưa có sở để kết luận trọng lượng mì bị đóng thiếu Thay sử dụng quy tắc kiểm định trên, ta sử dụng lệnh pnorm R để tính trị số p Vì kết p > 0, 05 nên ta chấp nhận giả thuyết H µ = 453 > p=pnorm(t.qs) > p [1] 0.1056498 Trong toán kiểm định giả thuyết kì vọng biến ngẫu nhiên với phương sai chưa biết kích thước mẫu n ≥ 30, ta phải thao tác cách thủ công tương tự Ví dụ 2.4.2 Một nhà máy cung cấp nước cho khối lượng trung bình loại chất độc hại lít nước nhà máy 14 mg Người ta nghi ngờ số liệu thấp thực tế Kiểm tra ngẫu nhiên 64 mẫu nước thu kết x = 14, s = 0, 24 Hãy cho kết luận nghi ngờ nói với mức ý nghĩa 8% Gọi X khối lượng loại chất độc hại lít nước nhà máy (mg) EX = µ khối lượng trung bình Xét tốn kiểm định giả thuyết H : µ = µ0 = 14; K : µ > 14 Nếu sử dụng quy tắc kiểm định lệnh R để giải ví dụ Tính tqs = x−µ √0 · s/ n > tbm=14,2 > muy0=14 > s’=0,24 > n=64 > t.qs=(tbm-muy0)/(s’/sqrt(n)) > t.qs [1] 6.666667 29 Tính u(α) > alpha=0.08 > u.alpha=qnorm(1-alpha) > u.alpha [1] 1.405072 Vì tqs > u(α) nên ta bác bỏ H, chấp nhận K Nghĩa với mức ý nghĩa 8%, ta chấp nhận nghi ngờ nói Cịn sử dụng trị số p kết p < 0, 05 nên ta có câu trả lời > p=pnorm(t.qs,lower.tail=FALSE) > p [1] 1.308392e-11 Trong trường hợp phương sai biến ngẫu nhiên chưa biết, kích thước mẫu n < 30 biến ngẫu nhiên có phân phối chuẩn, ta sử dụng lệnh t.test để giải toán kiểm định giả thuyết kì vọng biến ngẫu nhiên Với lệnh t.test, ta cần nhập vào liệu rõ giả thuyết H Ví dụ 2.4.3 Theo dõi thời gian hoàn thành sản phẩm 20 công nhân ta thu bảng số liệu sau Thời gian hoàn thành sản phẩm (phút) 11 13 15 17 19 Số công nhân Biết xưởng đặt định mức hoàn thành sản phẩm 14 phút Với mức ý nghĩa 0, 05, kết luận định mức đặt Biết thời gian hoàn thành sản phẩm biến ngẫu nhiên có phân phối chuẩn Gọi X thời gian hồn thành sản phẩm (phút) EX = µ thời gian trung bình Ta xét tốn kiểm định giả thuyết H : µ = µ0 = 14; K : µ = 14 Đầu tiên ta nhập liệu vào cho R > thoi.gian=c(rep(11,1),rep(13,5),rep(15,9),rep(17,3), rep(19,2)) Sau sử dụng lệnh t.test sau 30 > t.test(thoi.gian,mu=14) One Sample t-test data: thoi.gian t = 2.1794, df = 19, p-value = 0.04209 alternative hypothesis: true mean is not equal to 14 95 percent confidence interval: 14.03965 15.96035 sample estimates: mean of x 15 Trong lệnh trên, thoi.gian mẫu liệu cần kiểm định mu=14 giả thuyết H R cho kết trị số p = 0, 04209 < 0, 05 nên ta bác bỏ H, chấp nhận K Nghĩa với mức ý nghĩa 0,05, ta cho định mức hồn thành sản phẩm 14 phút R cho ta kết giá trị quan sát tqs = 2, 1794 số bậc tự 19 Bằng cách so sánh t với tn−1 (α/2) = t19 (0, 025) = 2, 093, ta thấy |tqs | > tn−1 (α/2), nên theo quy tắc kiểm định ta bác bỏ H, chấp nhận K Ngoài ra, R cho biết khoảng tin cậy với độ tin cậy 95% từ 14, 03965 phút đến 15, 96035 phút, nên ta dựa vào kết để kết luận thời gian hồn thành sản phẩm khơng phải 14 phút với mức ý nghĩa 0,05 2.4.3 Kiểm định giả thuyết tỉ lệ Đối với toán kiểm định giả thuyết tỉ lệ, R ta sử dụng lệnh prop.test(m,n,p) Ta xét ví dụ cụ thể sau Ví dụ 2.4.4 Một trung tâm đào tạo báo cáo tỉ lệ người học trung tâm kiếm việc làm sau tốt nghiệp 70% Một mẫu ngẫu nhiên gồm 200 người tốt nghiệp trung tâm cho thấy có 130 người kiếm việc làm sau tốt nghiệp Với mức ý nghĩa 5%, kiểm định xem phải tỉ lệ báo cáo công ty cao thực tế Gọi p tỉ lệ người học trung tâm kiếm việc làm sau tốt 31 nghiệp Xét toán kiểm định giả thuyết H : p = p0 = 0, 7; K : p < 0, Ta sử dụng lệnh prop.test sau > prop.test(130,200,0.7,alternative="less",correct=FALSE) 1-sample proportions test without continuity correction data: 130 out of 200, null probability 0.7 X-squared = 2.381, df = 1, p-value = 0.06141 alternative hypothesis: true p is less than 0.7 95 percent confidence interval: 0.0000000 0.7031385 sample estimates: p 0.65 Vì đối thuyết K tốn kiểm định giả thuyết p < 0, nên lệnh prop.test ta phải có thêm thơng số alternative="less", phân phối xác suất phân phối nhị thức (tức phân phối rời rạc) nên phải có thêm thông số correct=FALSE R cho ta kết trị số p = 0, 064141 nên ta chấp nhận giả thuyết H Nghĩa với mức ý nghĩa 0,05, ta chấp nhận báo cáo trung tâm thực tế Ngoài ra, với kết p = 0, 064141, ta tính giá trị quan sát sau > p=0.064141 > t.qs=qnorm(p) > tqs [1] -1.543044 Với mức ý nghĩa α = 0, 05 ta có > alpha=0.05 > u.alpha=qnorm(1-alpha) > -u.alpha [1] -1.644854 32 Vì tqs > −u(α), nên theo quy tắc kiểm định ta chấp nhận H, giống kết 2.4.4 So sánh hai giá trị trung bình Trong mục này, chúng tơi sử dụng R để giải vài ví dụ so sánh kì vọng hai biến ngẫu nhiên Với tốn so sánh kì vọng hai biến ngẫu nhiên có phân phối chuẩn trường hợp phương sai hai biến ngẫu nhiên chưa biết có giả thiết chúng kích thước mẫu n1 < 30, n2 < 30, ta sử dụng lệnh t.test(mau1,mau2) Vì lệnh mặc định phương sai hai biến ngẫu nhiên khác nhau, nên ta phải thêm vào thông số var.equal=TRUE Lệnh mặc định đối thuyết hai phía, nên trường hợp tốn cần đối thuyết phía ta bổ sung thơng số alternative="less" alternative= "greater" Ngồi ra, ta kiểm định với độ tin cậy cách rõ độ tin cậy thông số conf.level Chẳng hạn ta xét ví dụ sau Ví dụ 2.4.5 Người ta đề xuất phương pháp tổ chức lao động quy trình lắp ráp chi tiết Để đánh giá hiệu phương pháp này, kĩ thuật viên lắp ráp 10 chi tiết theo phương pháp cũ 10 chi tiết theo phương pháp Thời gian lắp rắp chi tiết (tính phút) sau Phương pháp cũ 5,6 4,9 5,3 5,1 4,8 5,2 5,5 5,3 4,9 Phương pháp 4,8 4,6 4,7 4,3 4,6 4,5 4,9 4,6 4,7 4,4 Với mức ý nghĩa 0, 01, cho phương pháp thực đẩy nhanh tốc độ lắp ráp chi tiết hay không? Biết thời gian lắp ráp chi tiết theo hai phương pháp biến ngẫu nhiên có phân phối chuẩn với phương sai Gọi X1 , X2 thời gian lắp ráp chi tiết theo phương pháp cũ Khi đó, EX1 = µ1 EX2 = µ2 thời gian trung bình Ta xét tốn kiểm định giả thuyết H : µ1 = µ2 ; K : µ1 > µ2 Đầu tiên, nhập liệu vào cho R > cu=c(5.6,4.9,5.3,5.1,4.8,5.2,5.5,5.3,4.9,5) > moi=c(4.8,4.6,4.7,4.3,4.6,4.5,4.9,4.6,4.7,4.4) Và sử dụng lệnh t.test sau 33 > t.test(cu,moi,var.equal=TRUE,alternative="greater", conf.level=0.99) Two Sample t-test data: cu and moi t = 5.4019, df = 18, p-value = 1.962e-05 alternative hypothesis: true difference in means is greater than 99 percent confidence interval: 0.2901248 Inf sample estimates: mean of x mean of y 5.16 4.61 Kết cho thấy trị số p = 1, 962.10−5 < 0, 05 nên ta chấp nhận K Như với mức ý nghĩa 0,01, cho phương pháp thực đẩy nhanh tốc độ lắp ráp chi tiết Trong trường hợp toán cho biết phương sai hai biến ngẫu nhiên, ta khơng dùng lệnh t.test mà phải thao tác thủ công để tìm giá trị quan sát áp dụng quy tắc kiểm định tìm trị số p đưa kết luận Chú ý lúc giá trị quan sát x1 − x2 · tqs = σ12 n1 + σ22 n2 Ví dụ 2.4.6 Giải ví dụ 2.4.5 giả thiết toán cho biết DX1 = 0, 05 DX2 = 0, 03 Ta tính giá trị quan sát tqs > ps.cu=0.05 > ps.moi=0.03 > t.qs=(mean(cu)-mean(moi))/sqrt(ps.cu/length(cu))+ ps.moi/length(moi)) > t.qs [1] 6.149187 Ta tính u(α) 34 > alpha=0.01 > u.alpha=qnorm(1-alpha) > u.alpha [1] 2.326348 Vì tqs > u(α) nên ta bác bỏ H, chấp nhận K Nghĩa với mức ý nghĩa 0,01, cho phương pháp thực đẩy nhanh tốc độ lắp ráp chi tiết Còn sử dụng phương pháp tìm trị số p, p = 3, 894.10−10 < 0, 05 nên ta có kết luận > p=pnorm(t.qs,lower.tail=FALSE) > p [1] 3.894057e-10 2.4.5 So sánh hai tỉ lệ Hai tỉ lệ hai tổng thể so sánh lệnh prop.test với ý ta phải thêm vào thơng số correct=FALSE phân phối xác suất rời rạc Ví dụ 2.4.7 Người ta kiểm tra ngẫu nhiên 400 sản phẩm từ dây chuyền thứ thấy có 24 phế phẩm, kiểm tra 800 sản phẩm từ dây chuyền thứ hai thấy có 42 phế phẩm Với mức ý nghĩa 5%, tỉ lệ phế phẩm hai dây chuyền có không? Gọi p1 , p2 tỉ lệ phế phẩm dây chuyền thứ dây chuyền thứ hai tương ứng Xét toán kiểm định giả thuyết H : p1 = p2 ; K : p1 = p2 Ta sử dụng lệnh prop.test sau > prop.test(c(24,42),c(400,800),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(24, 42) out of c(400, 800) X-squared = 0.2886, df = 1, p-value = 0.5911 alternative hypothesis: two.sided 35 95 percent confidence interval: -0.02043754 0.03543754 sample estimates: prop prop 0.0600 0.0525 R cho ta kết trị số p = 0, 5911 nên ta chấp nhận H Nghĩa với mức ý nghĩa 5%, xem tỉ lệ phế phẩm hai dây chuyền 2.5 Tương quan hồi quy Trong mục này, chúng tơi giới thiệu cách sử dụng R để tìm hệ số tương quan phương trình hồi quy tuyến tính Ví dụ 2.5.1 Bảng số liệu sau kết thu thập từ công ty doanh thu X số tiền dành cho quảng cáo Y số tháng Doanh thu X (tỉ đồng) 11 Tiền quảng cáo Y (triệu đồng) 45 60 75 90 80 Nhìn qua số liệu thấy doanh thu công ty cao số tiền dành cho quảng cáo cao Chúng ta thử nhập số liệu vào R vẽ biểu đồ tán xạ với lệnh sau > doanh.thu=c(5,7,8,11,9) > tien.qc=c(45,60,75,90,80) 36 > du.lieu=data.frame(doanh.thu,tien.qc) > plot(tien.qc ~ doanh.thu,pch=16,xlab="Doanh thu",ylab ="Tiền quảng cáo",main="Liên hệ doanh thu tiền quảng cáo") Biểu đồ gợi ý mối liên hệ doanh thu tiền quảng cáo đường thẳng Để đo lường mối liên hệ này, sử dụng khái niệm hệ số tương quan 2.5.1 Hệ số tương quan Hệ số tương quan r số thống kê đo lường mức độ tương quan hai biến x y Hệ số tương quan có giá trị từ -1 đến Nếu |r| lớn phụ thuộc tuyến tính rõ (tức khả xảy phụ thuộc tuyến tính x y cao), cịn |r| gần phụ thuộc tuyến tính yếu Nếu r = ta nói x y không tương quan với Nếu r = ±1 ta nói x y phụ thuộc tuyến tính tuyệt đối Trong Thống kê có nhiều hệ số tương quan, mục tơi trình bày hệ số tương quan Pearson n ∑ (xi − x)(yi − y) r= i=1 n n ∑ (xi − x)2 ∑ (yi − y)2 i=1 i=1 , (x1 , y1 ), (x2 , y2 ), , (xn , yn ) quan sát đồng thời hai biến x y, x = n n ∑ xi y = i=1 n n ∑ yi giá trị trung bình x y tương ứng i=1 Để tính hệ số tương quan Pearson, sử dụng lệnh cor(x,y) Trong ví dụ 2.5.1, hệ số tương quan doanh thu tiền quảng cáo > cor(doanh.thu,tien.qc) [1] 0.9803061 Vì r = 0, 9803061 ≈ nên ta thấy có phụ thuộc tuyến tính doanh thu tiền quảng cáo Để khẳng định thêm điều này, sử dụng lệnh cor.test để kiểm định giả thuyết hệ số tương quan > cor.test(doanh.thu,tien.qc) Pearson’s product-moment correlation 37 data: doanh.thu and tien.qc t = 8.5979, df = 3, p-value = 0.003308 alternative hypothesis: true correlation is not equal to 95 percent confidence interval: 0.7256345 0.9987567 sample estimates: cor 0.9803061 Kết cho thấy p = 0, 003308 nên ta có chứng để kết luận mối liên hệ doanh thu số tiền quảng cáo có ý nghĩa thống kê Lệnh cor.test cho ta giá trị hệ số tương quan 0,9803061 2.5.2 Đường hồi quy bình phương trung bình tuyến tính Một mơ hình hồi quy tuyến tính đơn giản mơ tả mối liên hệ hai biến số x y biểu diễn phương trình y = α + β x + ε α, β gọi tham số ε gọi sai số Nếu ta chọn tham số α, β cho tổng bình phương sai số ε nhỏ n nhất, tức ∑ [yi − (α + β xi )]2 nhỏ nhất, ta tìm yˆ = αˆ + βˆ x i=1 n ∑ (xi − x)(yi − y) βˆ = i=1 n αˆ = y − βˆ x ∑ (xi − x)2 i=1 Phương trình yˆ = αˆ + βˆ x gọi đường hồi quy bình phương trung bình tuyến tính y theo x Trong R, sử dụng lệnh lm để tính giá trị αˆ βˆ Ví dụ 2.5.2 Với giả thiết ví dụ 2.5.1 a) Tìm phương trình hồi quy tuyến tính y theo x b) Nếu doanh thu tháng 10 tỉ đồng, dự đốn chi phí quảng cáo cơng ty tháng bao nhiêu? Ta giải ví dụ sau 38 > lm(tien.qc ~ doanh.thu) Call: lm(formula = tien.qc ~ doanh.thu) Coefficients: (Intercept) doanh.thu 8.00 7.75 Do phương trình hồi quy tuyến tính y theo x y = 7, 75x + Chúng ta vẽ đường biểu diễn mối liên hệ doanh thu tiền quảng cáo lệnh abline sau > reg=lm(tien.qc ~ doanh.thu) > plot(tien.qc ~ doanh.thu,pch=16,xlab="Doanh thu",ylab ="Tiền quảng cáo",main="Đường biểu diễn mối liên hệ doanh thu tiền quảng cáo") > abline(reg) Nếu doanh thu tháng 10 tỉ đồng, tức x = 10 chi phí quảng cáo cơng ty tháng > y=7.75*10+8 > y [1] 85.5 39 Kết luận Khóa luận thực kết sau đây: Trình bày, giới thiệu phần mềm R Trình bày số ứng dụng phần mềm R giải tốn Xác suất Thống kê: Tính xác suất phân phối nhị thức, phân phối Poisson, phân phối chuẩn, phân phối phân phối mũ; tính đặc trưng mẫu; ước lượng kì vọng ước lượng tỉ lệ; kiểm định giả thuyết kì vọng tỉ lệ; so sánh hai kì vọng hai tỉ lệ; tính hệ số tương quan tìm phương trình hồi quy tuyến tính Với dạng, khóa luận trình bày cách giải ví dụ cụ thể Vấn đề tiếp tục nghiên cứu khóa luận: Tìm hiểu, nghiên cứu thêm ứng dụng phần mềm R toán khác Xác suất Thống kê 40 Tài liệu tham khảo [1] Đào Hữu Hồ, Xác suất Thống kê, NXB Đại học Quốc gia Hà Nội, 2003 [2] Nguyễn Thị Nhung, Hướng dẫn sử dụng phần mềm R cho học phần toán bậc Đại học, NXB Đại học Thăng Long [3] Nguyễn Văn Quảng, Bài giảng Xác suất Thống kê, Đại học Vinh, 2007 [4] Nguyễn Văn Tuấn, Phân tích số liệu tạo biểu đồ R, NXB Khoa học Kỹ thuật, 2007 ... 12 Chương Một số ứng dụng R Xác suất Thống kê 2.1 Các phân phối xác suất Phân phối xác suất quy luật biểu diễn quan hệ giá trị biến ngẫu nhiên xác suất tương ứng Trong Xác suất Thống kê, có nhiều... 2: Một số ứng dụng R Xác suất Thống kê Trong chương này, chúng tơi trình bày cách sử dụng R để giải số toán Xác suất Thống kê: tính tốn xác suất phân phối xác suất bản, tính đặc trưng mẫu, tốn... quan phần mềm R: cách tải cài đặt R máy tính, cách khởi động R cách khỏi R, văn phạm R, cách đặt tên biến R, môi trường vận hành R, hỗ trợ R, cách nhập liệu R cách tạo lệnh R Chương 2: Một số ứng

Ngày đăng: 09/09/2021, 20:32

Từ khóa liên quan

Mục lục

  • Mở đầu

  • Giới thiệu phần mềm R

    • Tải R và cài đặt R

    • "Văn phạm" R

    • Cách đặt tên biến trong R

    • Môi trường vận hành R

    • Hỗ trợ trong R

    • Cách nhập dữ liệu trong R

    • Cách tạo lệnh trong R

    • Một số ứng dụng của R trong Xác suất Thống kê

      • Các phân phối xác suất

        • Phân phối nhị thức

        • Phân phối Poisson

        • Phân phối chuẩn

        • Phân phối đều

        • Phân phối mũ

        • Các đặc trưng mẫu

        • Ước lượng tham số

          • Ước lượng khoảng của kì vọng

          • Ước lượng khoảng của phương sai

          • Ước lượng khoảng của tỉ lệ

          • Trị số p và kiểm định giả thuyết

            • Trị số p

            • Kiểm định giả thuyết về kì vọng

            • Kiểm định giả thuyết về tỉ lệ

Tài liệu cùng người dùng

Tài liệu liên quan