Đọc và lưu dữ liệu trong R Ghi xuất các dữ liệu dưới dạng file.rda # lưu mydat dưới dạng R file với tên mydatfile.rda >savemydat,file=“mydatfile.rda"... Đọc và lưu dữ liệu trong R #
Trang 1ỨNG DỤNG NGÔN NGỮ R
TRONG PHÂN TÍCH DỮ LIỆU
Nhóm thực hiện: Phan Đình Khôi
Nguyễn Hồ Anh Khoa
Trang 2Nội dung chính
Hướng dẫn cài đặt và vận hành R
Xử lý số liệu bằng R
Phân tích thống kê mô tả bằng R
Phân tích hồi quy bằng R
Phân tích dãy số thời gian bằng R
Trang 3Nội dung 1 GIỚI THIỆU R
Trang 4Tại sao R
Mã nguồn mở
Hoàn toàn miễn phí
Chạy trên nền Windows, MacOS
Nhiều phương pháp phân tích không
có trong các phần mền khác
Vẽ biểu đồ tuyệt vời
Trang 6R làm được gì?
R là công cụ phân tích thống kê
Cho phép thực hiện tất cả các mô hình phân tích
Mô phỏng
Vẽ đồ thị và biểu đồ rất đẹp
Lập trình cho phương pháp mới
Trang 7Tải phần mềm R
• Truy cập http://cran.r-project/
• R for Windows screen, chọn “base”
• Download R
• Run, chọn OK sau đó chọn FINISH
• Biểu tượng R sẽ xuất hiện trên desktop
• Bắt đầu sử dụng R
Trang 8Làm việc với R
Object: Đối tượng
- tên cho mỗi đối tượng (case sensitive)
- gán giá trị cho đối tượng sử dụng assignment operator (<- hoặc =)
Trang 9Làm việc với R
Object: Đối tượng
# tạo object sử dụng hàm concatenation
Trang 10Làm việc với R
Object: Cách đặt tên Đối tượng
# tạo object y bao gồm 10 giá trị normal
Trang 11Làm việc với R
Trang 12Làm việc với R
Object: Đối tượng
# tạo object y bao gồm 10 giá trị normal >y = rnorm(10, mean=0, sd=1)
Hoặc
>y=rnorm(10,0,1)
Trang 13
Làm việc với R
Trang 14Làm việc với R
Workspace: Môi trường làm việc
# tạo thư mục chứa dữ liệu
Trang 15Làm việc với R
Workspace: Môi trường làm việc
# chuyển thư mục làm việc
Trang 16Làm việc với R
Packages: Gói công cụ
- R cấu trúc theo packages
- Mỗi phương pháp phân tích được thiết
Trang 17Làm việc với R
Trang 18Làm việc với R
Packages: Gói công cụ
# cài đặt package mới
>install.packages(c(“moments”)
> library() # cài đặt nhiều packages
>install.packages(c(“car”,“ggplot2”))
Trang 19Làm việc với R
Trang 20Đọc và lưu dữ liệu trong R
Ghi xuất các dữ liệu dưới dạng file.rda
# tạo hai vector cột x, y
>x=c(1,3,1,3,5)
>y=c(2,5,6,7,8)
# sử dụng data.frame để nhập hai vector x,
y vào object tên là mydat
>mydat=data.frame(x,y)
Trang 21
Đọc và lưu dữ liệu trong R
Trang 22Đọc và lưu dữ liệu trong R
Ghi xuất các dữ liệu dưới dạng file.rda
# lưu mydat dưới dạng R file với tên
mydatfile.rda
>save(mydat,file=“mydatfile.rda")
Trang 23
Đọc và lưu dữ liệu trong R
Trang 24Đọc và lưu dữ liệu trong R
Trang 25Đọc và lưu dữ liệu trong R
# gọi tên file (tìm file mynhaplieu.rda)
>filename=file.choose()
# đọc dữ liệu dưới dạng R bằng lệnh load
>dat= load(“mynhaplieu.rda”)
# xem dữ liệu
>head(dat)
Trang 26
Đọc và lưu dữ liệu trong R
# lấy tên file
Trang 27Đọc và lưu dữ liệu trong R
# lấy tên file
Trang 28Đọc và lưu dữ liệu trong R
Trang 29Đọc và lưu dữ liệu trong R
Trang 30Đọc và lưu dữ liệu trong R
Trang 31Đọc và lưu dữ liệu trong R
# lấy tên file
Trang 32Đọc và lưu dữ liệu trong R
Trang 33Đọc và lưu dữ liệu trong R
# đọc dữ liệu từ trang http://statistics.vn
>dat6=read.csv("http://statistics.vn/data/ExampleData.csv", header=T)
> head(dat)
Trang 34
Đọc và lưu dữ liệu trong R
Làm việc với object sau khi đọc vào R
# gọi object dùng lệnh attach()
>attach(dat6)
# dùng attach() để gọi các objects trước đây
Trang 35Biên tập số liệu
Tạo biến mới
# gọi object dùng lệnh attach()
>attach(dat6)
# dùng attach() để gọi các objects trước đây
Trang 36Biên tập số liệu
Tạo biến mới
Làm việc với một phần dữ liệu
Kết nối dữ liệu
Trang 37x|y x OR y x&y x AND y
Trang 38Biên tập số liệu
Tạo biến mới bằng câu lệnh
# gọi object từ file mydatafile.rda
Trang 39Biên tập số liệu
Tạo biến mới bằng câu lệnh
# Tạo biến mới và kết nối với một
dataframe sử dụng dấu $
>mydat$sum = mydat$x +mydat$y # Tạo biến mới z=x*y trong mydat >mydat$z = mydat$x * mydat$y
Trang 40
Đọc và lưu dữ liệu trong R
Trang 41Biên tập số liệu
Tạo biến mới bằng câu lệnh
# Tạo biến mới id và gender
Trang 42Đọc và lưu dữ liệu trong R
Trang 43Biên tập số liệu
Tạo biến mới bằng câu lệnh
# Tạo biến mới là group
nếu id=1,2,3 là group A
id=4,5 là group B
>mydat$group[id>=“1” & id<=“3”]<-“A” >mydat$group[id>=“4” & id<=“5”]<-“B” >head(mydat)
Trang 44
Biên tập số liệu
Trang 45Biên tập số liệu
Làm việc với một phần dữ liệu
# data frame là một matrix (dòng và cột)
>id=c(1:10)
>name=c(“A”,“B”,“C”,“D”,“E”,“F”,“G”,“H”,“I”,“J”) >x=c(12, 15, 67, 32, 26, 86, 11, 16, 25, 37)
>dat=data.frame(id, name, x)
# dat có bao nhiêu dòng và cột?
>dat
Trang 46Biên tập số liệu
Trang 47Biên tập số liệu
Làm việc với một phần dữ liệu
# Liệt kê dòng và cột của dữ liệu
>dat[,1] liệt kê cột 1
>dat[,1:2] liệt kê cột 1
>dat[2,] liệt kê dòng 2
>dat[3:8,1] liệt kê
>dat[1:5,2:3] liệt kê
Trang 48Biên tập số liệu
Trang 49Biên tập số liệu
Làm việc với một phần dữ liệu
# làm việc trong nhóm id<=5
Trang 50Biên tập số liệu
Trang 51>dat=merge(dat1, dat2, by=“id”)
>dat=merge(dat1, dat2, by=“id”, all.x=T, all.y=T)
>dat
Trang 52Biên tập số liệu
Trang 54Biên tập số liệu
Chuyển dữ liệu từ dạng cột sang dòng
# dụng lệnh metl trong package reshape
Trang 55Biên tập số liệu
Chuyển dữ liệu từ dạng cột sang dòng
# dụng lệnh metl trong package reshape
>require(reshape2)
>dat1=melt(dat, id=c(“id”, “sex”, “group”),
income.vars=c(“income1”, “income2”, “income3”))
>dat1
Trang 56Biên tập số liệu
Trang 58Biên tập số liệu
Chuyển dữ liệu từ dạng dòng sang cột
# dụng lệnh cast trong package reshape
>dat2=cast(dat1, id=c(id, sex, group ~ variable)
>dat2
Trang 59Biên tập số liệu
Trang 60Tóm lược
Đối tượng/Object
Môi trường làm việc/Workspace
Gói công cụ/Packages