You can use the source function in R to reuse functions that you create in another R script. This function uses the following basic syntax: source(pathtosomefile.R) Simply add this line to the top of your R script and you’ll be able to use any functions defined in file.R. Đọc R file từ Github The first thing you have to do is locate the raw file. You can do so by clicking on the Raw button in GitHub. In this case it’s https:raw.github.comlcolladotorballgownRdevelmasterballgownRRinfoGene.R One would think that using
Trang 1Sử dụng hàm source trong R
You can use the source function in R to reuse functions that
you create in another R script.
This function uses the following basic syntax:
Simply add this line to the top of your R script and you’ll be able
to use any functions defined in file.R.
Đọc R file từ Github
The first thing you have to do is locate the raw file You can do so by clicking on the Raw button in
In this case it’s https://raw.github.com/lcolladotor/ballgownR-devel/master/ballgownR/R/infoGene.R
One would think that using source()
would work, but it doesn’t as shown below:
## Warning: unsupported URL scheme## Error: cannot open the connection
However, thanks again to Hadley Wickham you can do so by using the devtools
(Wickham & Chang, 2013 ) package.
Here is how it works:library(devtools)
## Needed because this file has roxygen2 comments Otherwise you get a## 'could not find function 'digest'' error
## SHA-1 hash of file is 6c32a620799eded5d6ff0997a184843d7964724a## Note that you can specify the SHA-1 hash to be very specific about
Trang 2## which version of the file you want to read in.We can then check that
has actually been sourced:
"infoGene" %in% ls()
## [1] TRUE
Tạo dataframe trong R
Thay đổi một biến thành factor
Giả sử chúng ta có biến year khi summary ra được kết quả sau:
R đã nhận year là interger và tóm tắt nó thành biến định lượng Chúng ta cần thay đổi biến year thành factor
Lọc dữ liệu chỉ có các giá trị khác Null (99)
Giả sử chúng ta có dữ liệu gồm 11 nhóm như sau
Trang 3Trong nhóm thứ hai chúng ta thấy có giá trị 99 là mã hóa cho giá trị Null Chúng ta không muốn lấy các giá trị này vào dữ liệu, chúng ta dùng lệnh sau
Chia bộ dữ liệu theo một biến định tính
We can divide the iris dataset so that the data is split by
species To do this, we use the split command, and we assign
IrisBySpecies <- split(iris,iris$Species)
TÓM TẮT TẬP TIN DỮ LIỆU Tóm tắt bộ dữ liệu
Trang 4Mô tả số hàng và số cột của tập dữ liệu
Lệnh dim liệt kê số hàng và số cột của bộ dữ liệu
Liệt kê 5 hàng đầu tiên của dữ liệu
Chúng ta dùng 1:5 để chỉ row 1:5 còn sau dấu phẩy chúng ta lấy toàn bộ các cột.
Xem một số hàng đầu của dữ liệu
You can see some of the iris data by typing in the following command at the
Trang 5command prompt:
Xem giá trị trong dataframe
Để xem giá trị của dataframe chúng ta cần xác định hàng và cột của giá trị đó
df[2, "Country"]
trong code trên chúng ta xem giá trị của hàng thứ hai và cột tên country
Lập bảng phân phối tần suất cho một biến định tính
Lập bảng 2x2 cho hai biến định tính
Trong trường hợp chúng ta chỉ muốn hiển thị một hoặc một vài phân loại của biến định tính trong bảng 2x2 chúng ta dùng lệnh sau
Trang 6Như vậy chúng ta thấy phân loại unknown đã được loại bỏ bảng 2x2 chỉ tóm tắt hai phân loại là C-section và Vaginal.
THỐNG KÊ MÔ TẢ BIẾN ĐỊNH LƯỢNG Thống kê mô tả một biến định lượng
Trang 7Liệt kê một giá trị nhất định của biến định lượng
Giả sử chúng ta muốn liệt kê các record có giá trị biến định lượng > 30000, chúng ta dùng hàm sau
Vẽ histogram
Chúng ta dùng hàm histogram để vẽ tổ chức đồ
Chúng ta nhận thấy histogram của biến tgiving bị lệch vì các outlier bằng 0 và > 1000 Để vẽ histogram loại các outlier này chúng ta dùng hàm sau
Trang 8Vẽ box plot
Chúng ta dùng hàm boxplot như sau
Chúng ta nhận thấy box plot bị lệch dương vì vậy chúng ta cần loại các outlier của biến định lượng Để làm điều này chúng ta dùng hàm sau
Trang 9Thống kê mô tả một biến định lượng phụ thuộc theo một biến định tính
Lập bảng trung bình của một biến định lượng theo một biến định tính
Chúng ta có biến species gồm 3 giá trị là setosa, versicolor và virginica Chúng ta sẽ mô tả trung bình petal length của 3 nhóm giá trị này bằng các lệnh sau:
Tách biến species thành 3 dataset
Sau đó chúng ta dùng vòng loop để tính trung bình, min, max và deviation.
Trang 11Vẽ box plot một biến định lượng theo một biến định tính
Chúng ta cũng có thể dùng lệnh bxplot để vẽ box plot
Trang 12Trong trường hợp chúng ta muốn loại bỏ các outlier trong vẽ box plot chúng ta dùng lệnh sau
Trang 14Vẽ bar chart trung bình biến định lượng theo một biến định tính
Trang 15Trong trường hợp biến định tính có quá nhiều giá trị chúng ta làm như sau
Trang 16Vẽ bar chart tổng một biến định lượng theo một biến định tính
Trang 17Vẽ histogram cho một biến định lượng theo một biến định tính
Vẽ density plot một biến định lượng theo một biến định tính
Trang 18Trong câu lệnh thứ hai chúng ta gom các density plot vào cùng một chart.
Trang 19Vẽ dot plot cho một biến định lượng theo một biến định tính
Thống kê mô tả giữa một biến định lượng phụ thuộc và một biến định lượng độc lập
Vẽ smooth scatter plot cho hai biến định lượng
Chúng ta cũng có thể vẽ smooth scatter plot cho hai biến định lượng
Trang 20Nhìn vào đồ thị smooth scatter plot chúng ta thấy giữa hai biến không có mối tương quan chặt chẽ.
Trang 21Lập bảng ma trận tương quan và ma trận scatter plot giữa hai biến định lượng
Ngoài vẽ ma trận scatter plot chúng ta còn có thể vẽ biểu đồ vùng tin cậy giống ellipse
Trang 23Vẽ levelplot
Vẽ contourplot
Trang 24Thống kê mô tả một biến định lượng phụ thuộc theo hai biến định tính
Lập bảng trung bình của một biến định lượng theo hai biến định tính
Trang 25Vẽ biểu đồ cột trung bình biến định lượng theo hai biến định tính
Trang 27Vẽ box plot một biến định lượng theo hai biến định tính
Trang 28Thống kê mô tả giữa một biến định lượng phụ thuộc, một biến định lượng độc lập và một biến định tính độc lập
Trang 29Vẽ scatter plot của hai biến định lượng theo một biến định tính
Thống kê time series
Vẽ time series cho một biến định lượng
Trang 30THỐNG KÊ MÔ TẢ BIẾN ĐỊNH TÍNH
Thống kê mô tả một biến định tính
Vẽ biểu đồ cột cho một biến định tính
Để vẽ bar chart cho biến định tính trước hết chúng ta cần lập bảng phân phối tần suất và sau đó vẽ bar chart dựa trên object bảng phân phối tần suất
Option horizontal = FALSE sẽ vẽ vertical bar chart Nếu chúng ta bỏ option này thì mặc định nó sẽ vẽ horizontal chart.
Trang 32Thống kê mô tả hai biến định tính
Lập bảng tuần suất giữa hai biến định tính
Vẽ biểu đồ cột cho hai biến định tính
Trang 35Vẽ mosaic plot cho hai biến định tính
Trang 36Thống kê mô tả ba biến định tính
Vẽ mosaic plot cho 3 biến định tính