Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 252 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
252
Dung lượng
3,66 MB
Nội dung
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC Chủ đề PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Giáo viên hướng dẫn NGUYỄN THỊ HỒNG DÂN BỘ MÔN TOÁN – Khoa KHTN Sinh viên thực HỒNG VIỆT MINH TOÁN ỨNG DỤNG – K38 MSSV: B1203839 Cần Thơ, tháng 12 năm 2015 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R LỜI CẢM ƠN -~~~ Đề tài nhận vào ngày tháng năm 2015, sau tháng thực với tận tâm hướng dẫn Cô Nguyễn Thị Hồng Dân, với giúp đỡ bạn bè hoàn thành luận văn Nhân xin gửi lời cảm ơn đến gia đình, Thầy Cô bạn bè Trước hết, xin gửi lời cảm ơn đến Cha Mẹ Người quan tâm nhắc nhở suốt trình học Là điểm tựa vững cho con, chốn bình yên cho quay cảm thấy mỏi mệt Em xin cảm ơn Cô Nguyễn Thị Hồng Dân, người định hướng cho em từ nhận đề tài luận văn Và suốt trình thực luận văn, Cô nhiệt tình hướng dẫn không ngần ngại sửa lỗi cho em, dấu câu chữ viết sai tả cách trình bày, ý ví dụ, nội dung Em xin cảm ơn Cô Phạm Bích Như Cô Lê Thị Kiều Oanh Hai cố vấn học tập em suốt năm Đại học Người quan tâm giúp đỡ em suốt trình học Đại học Em xin chân thành cảm ơn quý Thầy, quý Cô thuộc Khoa Khoa học Tự nhiên trường Đại học Cần Thơ truyền dạy kiến thức, kinh nghiệm, kỹ cho em suốt năm học qua Tôi xin cảm ơn bạn Trần Thị Ngọc Hân, Đoàn Hải Nghi, Mai Thị Hồng Diễm, Trần Anh Đào, Lê Thị Huỳnh Mai hai em Tiêu Ngọc Quí, Nguyễn Thị Diễm My Cảm ơn bạn ủng hộ giúp đỡ cho trình làm luận văn Đặc biệt xin cảm ơn bạn Châu Thị Minh Thư, cảm ơn Thư giúp Minh bước cuối để hoàn chỉnh luận văn Xin gửi lời cám ơn đến tất bạn sinh viên thuộc hai lớp Toán ứng dụng khóa 38 Khoa Khoa học Tự nhiên, trường Đại học Cần Thơ Những người bạn vượt qua khó, buồn vui quảng đời sinh viên Cuối cùng, xin gửi lời cảm ơn đến bạn nằm Ban cán Ban chấp hành lớp Cảm ơn bạn tất bạn làm cho tập thể lớp Mặc dù, cố gắng hoàn thiện luận văn tất lực thân giúp đỡ bạn bè hướng dẫn tận tâm người hướng dẫn, nhiên luận văn tránh khỏi thiếu sót, mong nhận đóng góp quý báu quý Thầy Cô bạn Mọi trao đổi xin bạn đọc vui lòng gửi mail địa hongvietminh@gmail.com Cần Thơ, ngày tháng 12 năm 2015 Hồng Việt Minh PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC BẢNG PHẦN GIỚI THIỆU PHẦN NỘI DUNG CHƯƠNG 1: NGÔN NGỮ R VÀ CÁC THAO TÁC CƠ BẢN 1.1 Phần mềm R 1.2 Package R 1.3 Môi trường làm việc 14 1.4 Tính toán đơn giản 16 1.5 Các đối tượng 17 1.6 Hàm 20 1.7 Nhập liệu 22 1.8 Biên tập liệu 24 1.9 Lớp đối tượng R 29 CHƯƠNG 2: VẼ BIỂU ĐỒ VỚI NGÔN NGỮ R 30 2.1 Một số thao tác 30 2.2 Biểu đồ cho biến số rời rạc 33 2.3 Biểu đồ cho biến số liên tục 37 CHƯƠNG 3: PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R 43 3.1 Tính toán xác suất mô 43 3.2 Thống kê mô tả 46 3.3 Kiểm định giả thuyết thống kê 52 3.4 Hệ số tương quan 62 3.5 Mô hình hồi qui 65 3.6 Tỷ số nguy RR (risk ration), tỷ số OR (Odds ratio) 91 3.7 Mô hình hồi qui logistic 93 3.8 Phân tích kiện 105 3.9 Phân tích phương sai 112 3.10 Chuỗi thời gian R 131 3.11 Dự báo ngắn cho chuỗi thời gian phương pháp san mũ 141 3.12 Dự báo chuỗi thời gian mô hình Box - Jenkins 146 3.13 Mô hình Box – Jenkins với biến giả (ARMAX, ARIMAX SARIMAX) 157 3.14 Tìm mô hình Box - Jenkins tối ưu với hàm auto.arima(x, ) 157 3.15 Dự báo chuỗi thời gian từ số liệu làm trơn 157 3.14 Dự báo chuỗi thời gian từ số liệu mờ 160 3.15 Dự báo chuỗi thời gian mô hình chuỗi thời gian mờ Abbasov Mamedova 168 3.16 Mô hình ARMA - ARCH/GARCH 172 3.17 Chuỗi thời gian nhiều chiều 180 KẾT LUẬN 207 TÀI LIỆU THAM KHẢO 208 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Phụ lục 1: Một vài số liệu sử dụng luận văn 209 Phụ lục 2: Một số package hữu R 215 Phụ lục 3: Tạo package R cho Windows 217 Phụ lục 4: Vài nét package AnalyzeTS 230 \ PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R DANH MỤC BẢNG Bảng 1.1 Một số kí hiệu thường dùng R 14 Bảng 1.2 Một số cú pháp 16 Bảng 1.3 Một số hàm 17 Bảng 2.1 Tham số thông dụng vẽ biểu đồ 31 Bảng 2.2 Giá trị pch thường dùng để vẽ đồ thị 31 Bảng 2.4 Tham số thông dụng biểu đồ cột 34 Bảng 2.5 Tham số thông dụng biểu đồ tròn 36 Bảng 3.1 Một số phép toán xác suất 43 Bảng 3.2 Một số hàm phân phối xác suất đại lượng ngẫu nhiên 43 Bảng 3.3: Một số hàm thống kê mô tả 47 Bảng 3.4: Các tham số hàm Descriptives hàm Frequencies 47 Bảng 3.4: Một số hàm thống kê chuỗi thời gian 132 Bảng 3.5: Ý nghĩa tham số hàm ur.df 135 Bảng 3.6: Một vài tham số thông dụng hàm HoltWinters 141 Bảng 3.7: Ý nghĩa tham số order seas hàm PrintAIC 147 Bảng 3.8: Các hàm làm trơn số liệu 157 Bảng 3.9: Các tham số hàm fuzzy.ts1 160 Bảng 3.10: Các tham số hàm fuzzy.ts2 169 Bảng 3.11: Các hàm sử dụng để phân tích chuỗi thời gian nhiều chiều 180 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R PHẦN GIỚI THIỆU Lý chọn đề tài Kể từ số chưa đời, người biết đến thống kê Người tộc trưởng thống kê số lượng người tộc Con người thống kê số thú vật nuôi Quan sát bầu trời hoạt động loài vật để dự đoán thời tiết,… Cùng với phát triển xã hội, thống kê dần trở thành lĩnh vực thiếu xã hội Nó sở quan trọng để nguyên thủ quốc gia đưa đường lối phát triển đất nước; Một nhìn khái quát cho nhà quản lý; Một điều kiện tiên cho tất công trình nghiên cứu Tóm lại lĩnh vực đời sống quanh sử dụng đến thống kê Tuy nhiên thực thống kê thiếu máy tính phần mềm chuyên dụng Trên thị trường có nhiều phần mềm thống kê với ưu điểm riêng Hiện nhà thống kê giới ý chuyển dần sang sử dụng phần mềm R Một phần mềm hoàn toàn miễn phí với khả xử lý số liệu mạnh Đặc biệt chức thiết kế biểu đồ tuyệt vời Có thể nói R phần mềm thống kê vừa rộng lại vừa sâu, rộng thống kê lĩnh vực từ phân tích phức tạp y học đến phân tích nhạy cảm kinh tế Sâu tùy vào hiểu biết người dùng nó, mà tiến hành phân tích đơn giản thống kê mô tả, hồi qui sâu cho vấn đề chuyên biệt Với 7600 package (và số tăng ngày) nhà thống kê giới xây dựng, không khía cạnh thống kê mà R không hỗ trợ Có thể nói rằng, so với phần mềm thống kê khác R đến không thua Tuy nhiên Việt Nam nay, R xa lạ với bạn sinh viên chuyên ngành thống kê với người làm công tác thống kê Bởi chưa có nhiều sách tiếng Việt viết R Với mong muốn góp công sức hiểu biết nhỏ nhoi để giới thiệu phần mềm thống kê tuyệt vời đến với người, chọn đề tài “Phân tích số liệu thống kê với ngôn ngữ R” làm đề tài luận văn tốt nghiệp Đại học Mục tiêu nghiên cứu Tìm hiểu hỗ trợ phân tích thống kê ngôn ngữ R từ đến nâng cao Từ viết thành sách hướng dẫn người dùng (người bất đầu) sử dụng ngôn ngữ R vào phân tích thống kê thông dụng để đạt kết tốt PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu Ngôn ngữ R số package hỗ trợ phân tích chuyên sâu 3.2 Phạm vi nghiên cứu Các số liệu sử dụng phân tích luận văn thu từ nguồn sau: tự thu từ thực tế, internet, bạn bè số liệu từ package R Phương pháp nghiên cứu Đọc sách tham khảo R phân tích số liệu thống kê Xem hướng dẫn phân tích qua video youtube Thực phân tích ngôn ngữ R Thảo luận nhóm Tổng hợp, phân tích kết viết báo cáo Nội dung nghiên cứu Luận văn gồm có phần: phần giới thiệu, phần nội dung phần kết luận Trong phần nội dung gồm chương: Chương 1: NGÔN NGỮ R VÀ CÁC THAO TÁC CƠ BẢN Chương giới thiệu ngôn ngữ R, tính toán số thao tác xử lý số liệu trước phân tích thống kê Chương 2: VẼ BIỂU ĐỒ VỚI NGÔN NGỮ R Chương giới thiệu hàm số tùy chỉnh để vẽ biểu đồ với ngôn ngữ R Chương 3: PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Đây chương trọng tâm luận văn Chương giới thiệu hàm hàm phức tạp từ package dùng để phân tích số liệu thống kê Với nhiều phép xử lý số liệu khác nhau, gom lại thành chủ đề là: tính toán xác suất mô phỏng, thống kê mô tả, kiểm định giả thuyết thống kê, mô hình hồi qui, phân tích phương sai phân tích chuỗi thời gian PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R PHẦN NỘI DUNG CHƯƠNG 1: NGÔN NGỮ R VÀ CÁC THAO TÁC CƠ BẢN 1.1 Phần mềm R 1.1.1 Download phần mềm R Theo bước sau: Bước 1: Vào trang: http://ftp.heanet.ie/mirrors/cran.r-project.org Bước 2: Dưới “Download and Install R”, nhấp chuột vào liên kết “Download R for Windows” Bước 3: Dưới “Subdirectories”, nhấp chuột vào liên kết “base” Bước 4: Trên trang kế tiếp, bạn thấy đường liên kết có nội dung “Download R 3.2.0 for Windows” (hoặc R x.x.x, x.x.x cho biết phiên R, ví dụ R 3.1.2) Nhấp chuột vào liên kết Bước 5: Bạn hỏi rằng: bạn muốn “save” “run” file “R-3.2.0-win” Chọn “save” save file vào máy tính bạn Một icon xuất nơi bạn save file 1.1.2 Cài đặt R máy tính cho hệ điều hành Windows Theo bước sau: Bước 1: Nhấp đúp chuột vào icon để chạy file cài đặt Bước 2: Bạn yêu cầu chọn ngôn ngữ để sử dụng suốt trình cài đặt Chọn English Bước 3: Một cửa sổ cho biết “R Setup Wizard” cài đặt R máy tính bạn Nhấp vào “Next” để tiếp tục “Cancel” để thoát khỏi cài đặt Bước 4: Cửa sổ cho bạn thông tin phần mềm R mà bạn cài đặt Nhấp “Next” lần Bước 5: Cửa sổ cho phép bạn chọn thư mục để lưu trữ file chương trình R Mặc định lưu thư mục “C:\Program Files\R\R-3.2.0” máy tính bạn Nhấp vào “Next” để tiếp tục, nhấp vào “Browse” để chọn thư mục khác (sau nhấp vào Next) Bước 6: Trong cửa sổ kế tiếp, bạn chọn phiên (64 bit 32 bit) mà muốn cài đặt Sau nhấp vào “Next” lần Kế tiếp cửa sổ khác lên, bạn cần nhấn vào “Next” mà không cần chọn PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Bước 7: R cài đặt theo bạn chọn Quá trình cài đặt vài phút Khi hoàn thành, bạn thấy cửa sổ “Completing the R for Windows Setup Wizard”, nhấp vào “Finish” để kết thúc việc cài đặt Sau hoàn tất việc cài đặt, icon xuất desktop máy tính 1.2 Package R 1.2.1 Download package Bạn tải tất package (miễn phí) máy tính từ trang chủ R theo bước sau: Bước 1: Vào trang: cran.r-project.org Bước 2: Nhấp vào thẻ “Packages” nằm bên trái mục lục trang wed Bước 3: Nhấp tiếp vào liên kết “Table of available packages, sorted by date of publication” để liệt kê packages theo dạng bảng Bước 4: Nhấp vào packeges bạn muốn tải Bước 5: Trên trang kế tiếp, dòng “Windows binaries”, nhấp vào liên kết phía sau mục “r-release” để tải file nén máy Bước 6: Chọn thư mục để lưu file nén 1.2.2 Cài đặt package vào R Sau tải package máy tính bạn, bạn cần phải cài vào R để sử dụng theo bước sau: Bước 1: Khởi động R Bước 2: Chọn menu “Packages” menu R Bước 3: Chọn thẻ “Install package(s) from local zip files…” Bước 4: Một cửa sổ ra, bạn chọn file nén tải nhấp vào “Open” Sau thực xong bước trên, package cài đặt vào máy tính bạn Ví dụ: Tải cài đặt package BMA Vào trang: cran.r-project.org PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Click Click 10 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Hàm PrintAIC( ) PrintAIC [...]... r i r c 2.2 Biểu đồ cột Hàm barplot( ) trong R có thể vẽ được biểu đồ cột cho các biến số r i r c 33 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Ngoài các tham số chung cho đồ thị, hàm barplot( ) còn có một số thuộc tính của riêng nó Bên dưới là một số tham số thông dụng: Bảng 2.4 Tham số thông dụng của biểu đồ cột Tham số horiz Ý nghĩa Ghi chú Dùng lệnh horiz=TRUE để vẽ cột nằm ngang Dùng lệnh axisnames=FALSE...PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Ấn Ctrl+f để mở thanh tìm kiếm Nhập vào BMA và ấn phím enter Click 11 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Nhấp vào để tải Package Tương tự chúng lần lượt tải về máy 5 package sau: Deoptim; IDM; inline; leaps; robustbase Vì package “BMA” liên kết với những packages ấy Sau khi tải về máy tính đầy đủ các package, chúng ta vào R và thao tác... gian có sẵn trong R, do đó nó thuộc lớp ts Chúng ta có thể đổi nó sang lớp timeseries như sau > class(lh) [1] "ts" Chúng ta đổi lớp của nó thành timeseries > class(lh) class(lh) [1] "timeseries" Bây giờ lớp của lh đã là timeseries 29 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R CHƯƠNG 2: VẼ BIỂU ĐỒ VỚI NGÔN NGỮ R 2.1 Một số thao tác cơ bản 2.1.1 Cửa sổ Graphics Mặc định, của sổ Graphics chỉ... vào R, chúng ta dùng lệnh: > setwd("D:/luan_van/data") > dat dat V1 V2 V3 V4 V5 V6 V7 1 5.2 6.5 6.9 7 7 7 7.4 2 8 8 8 8 8.5 9 9 … 1.7.3 Nhập dữ liệu từ SPSS Hàm read.spss( ) trong package “foreign” có thể nhập dữ liệu vào R từ một file SPSS Ví dụ: Chúng ta có file SPSS với tên “file.sav” được lưu trữ trong directory “D:/luan_van/data”,... dùng nhất qua đoạn code sau: > layout(1:3) > #Thêm số trên đỉnh cột > number text(number,f+1,f) > #thêm số giữa cột > number text(number,f-f/2,f) 34 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R 15 11 0 5 10 15 > #thêm số trong cột > number mtext(side=1,at=number,line= -1,text=f) 0 4 8 12 gam nang 15 11 0 4 8 12... hơn 4 Chúng ta có thể dùng câu lệnh par(mfrow=c(m,n)) để chia cửa sổ Graphics ra thành m*n phần nhỏ (tối đa là 16) 2.1.2 Một số tham số thông dụng cho các hàm vẽ đồ thị Các hàm vẽ đồ thị trong R có khá nhiều tham số, ở đây chúng ta sẽ đi tìm hiểu một vài tham số thông dụng được liệt kê trong bảng sau: 30 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Bảng 2.1 Tham số thông dụng khi vẽ biểu đồ Nhóm Tiêu... "cuc" Truy xuất có điều kiện: > z z[z>8] [1] 44 21 12 32 17 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R c) Tạo dãy số bằng hàm seq, rep và gl R có thể tạo ra những dãy số r t tiện cho việc mô phỏng Những hàm thường được sử dụng để làm việc này là seq( ), rep( ) và gl( ) Hàm seq( ): Công thức chung là seq(from, to, by= ) hay seq(from, to, length=) > #Tạo ra một vector số từ... 1.7 Nhập dữ liệu 1.7.1 Nhập dữ liệu từ một file text Trước khi nhập dữ liệu vào R từ một file số liệu, ta phải cho R biết vị trí thư mục lưu trữ file số liệu đó bằng câu lệnh setwd( ) Ta dùng lệnh read.table( ) để nhập dữ liệu vào R từ một file text Ví dụ: Chúng ta có một file text với tên “vd.txt” chứa số liệu cần phân tích và được lưu trữ trong “D:/luan_van/data”, chúng ta đưa nó vào R bằng các lệnh... 19756.21 2499.81 5198.24 … 1.7.5 Sử dụng dữ liệu trong các package Một số package có kèm theo sẵn các bộ số liệu, chúng ta có thể gọi chúng ra để sử dụng Để biết thêm thông tin (nguồn, ý nghĩa các biến,…) về những bộ số liệu đi kèm này, chúng ta dùng lệnh: ??names, với names là tên của bộ dữ liệu 23 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Ví dụ: > library(MASS) > abbey [1] 5.2 6.5 6.9 7 7 7 7.4 [8]... 2735.0 2380.0 attr(,"na.action") [1] 5 21 25 26 28 30 24 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R attr(,"class") [1] "omit" Kết quả trả về có 3 phần, phần một là các phần tử còn lại sau khi lọc bỏ các giá trị NA Phần hai (attr(,"na.action")) cho biết vị trí của các giá trị NA trong vector ban đầu Phần ba (attr(,"class")) cho biết lớp của kết quả trả về Chúng ta xem chiều dài và tính trung bình cho nó: ... mềm thống kê tuyệt vời đến với người, chọn đề tài Phân tích số liệu thống kê với ngôn ngữ R làm đề tài luận văn tốt nghiệp Đại học Mục tiêu nghiên cứu Tìm hiểu hỗ trợ phân tích thống kê ngôn ngữ. .. THỐNG KÊ VỚI NGÔN NGỮ R Click Click 10 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Ấn Ctrl+f để mở tìm kiếm Nhập vào BMA ấn phím enter Click 11 PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Nhấp vào... Chương 2: VẼ BIỂU ĐỒ VỚI NGÔN NGỮ R Chương giới thiệu hàm số tùy chỉnh để vẽ biểu đồ với ngôn ngữ R Chương 3: PHÂN TÍCH SỐ LIỆU THỐNG KÊ VỚI NGÔN NGỮ R Đây chương trọng tâm luận văn Chương giới thiệu