1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích kinh tế với R

37 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Kinh Tế Với R
Tác giả Leonardo Collado-Torres
Trường học Johns Hopkins University
Chuyên ngành Data Science
Thể loại essay
Năm xuất bản 2024
Thành phố Baltimore
Định dạng
Số trang 37
Dung lượng 5,12 MB
File đính kèm PHAN TICH KINH TE VOI R.zip (22 B)

Nội dung

You can use the source function in R to reuse functions that you create in another R script. This function uses the following basic syntax: source(pathtosomefile.R) Simply add this line to the top of your R script and you’ll be able to use any functions defined in file.R. Đọc R file từ Github The first thing you have to do is locate the raw file. You can do so by clicking on the Raw button in GitHub. In this case it’s https:raw.github.comlcolladotorballgownRdevelmasterballgownRRinfoGene.R One would think that using

Trang 1

Sử dụng hàm source trong R

You can use the source function in R to reuse functions that

you create in another R script.

This function uses the following basic syntax:

Simply add this line to the top of your R script and you’ll be able

to use any functions defined in file.R.

Đọc R file từ Github

The first thing you have to do is locate the raw file You can do so by clicking on the Raw button in

In this case it’s https://raw.github.com/lcolladotor/ballgownR-devel/master/ballgownR/R/infoGene.R

One would think that using source()

would work, but it doesn’t as shown below:

## Warning: unsupported URL scheme## Error: cannot open the connection

However, thanks again to Hadley Wickham you can do so by using the devtools

(Wickham & Chang, 2013 ) package.

Here is how it works:library(devtools)

## Needed because this file has roxygen2 comments Otherwise you get a## 'could not find function 'digest'' error

## SHA-1 hash of file is 6c32a620799eded5d6ff0997a184843d7964724a## Note that you can specify the SHA-1 hash to be very specific about

Trang 2

## which version of the file you want to read in.We can then check that

has actually been sourced:

"infoGene" %in% ls()

## [1] TRUE

Tạo dataframe trong R

Thay đổi một biến thành factor

Giả sử chúng ta có biến year khi summary ra được kết quả sau:

R đã nhận year là interger và tóm tắt nó thành biến định lượng Chúng ta cần thay đổi biến year thành factor

Lọc dữ liệu chỉ có các giá trị khác Null (99)

Giả sử chúng ta có dữ liệu gồm 11 nhóm như sau

Trang 3

Trong nhóm thứ hai chúng ta thấy có giá trị 99 là mã hóa cho giá trị Null Chúng ta không muốn lấy các giá trị này vào dữ liệu, chúng ta dùng lệnh sau

Chia bộ dữ liệu theo một biến định tính

We can divide the iris dataset so that the data is split by

species To do this, we use the split command, and we assign

IrisBySpecies <- split(iris,iris$Species)

TÓM TẮT TẬP TIN DỮ LIỆU Tóm tắt bộ dữ liệu

Trang 4

Mô tả số hàng và số cột của tập dữ liệu

Lệnh dim liệt kê số hàng và số cột của bộ dữ liệu

Liệt kê 5 hàng đầu tiên của dữ liệu

Chúng ta dùng 1:5 để chỉ row 1:5 còn sau dấu phẩy chúng ta lấy toàn bộ các cột.

Xem một số hàng đầu của dữ liệu

You can see some of the iris data by typing in the following command at the

Trang 5

command prompt:

Xem giá trị trong dataframe

Để xem giá trị của dataframe chúng ta cần xác định hàng và cột của giá trị đó

df[2, "Country"]

trong code trên chúng ta xem giá trị của hàng thứ hai và cột tên country

Lập bảng phân phối tần suất cho một biến định tính

Lập bảng 2x2 cho hai biến định tính

Trong trường hợp chúng ta chỉ muốn hiển thị một hoặc một vài phân loại của biến định tính trong bảng 2x2 chúng ta dùng lệnh sau

Trang 6

Như vậy chúng ta thấy phân loại unknown đã được loại bỏ bảng 2x2 chỉ tóm tắt hai phân loại là C-section và Vaginal.

THỐNG KÊ MÔ TẢ BIẾN ĐỊNH LƯỢNG Thống kê mô tả một biến định lượng

Trang 7

Liệt kê một giá trị nhất định của biến định lượng

Giả sử chúng ta muốn liệt kê các record có giá trị biến định lượng > 30000, chúng ta dùng hàm sau

Vẽ histogram

Chúng ta dùng hàm histogram để vẽ tổ chức đồ

Chúng ta nhận thấy histogram của biến tgiving bị lệch vì các outlier bằng 0 và > 1000 Để vẽ histogram loại các outlier này chúng ta dùng hàm sau

Trang 8

Vẽ box plot

Chúng ta dùng hàm boxplot như sau

Chúng ta nhận thấy box plot bị lệch dương vì vậy chúng ta cần loại các outlier của biến định lượng Để làm điều này chúng ta dùng hàm sau

Trang 9

Thống kê mô tả một biến định lượng phụ thuộc theo một biến định tính

Lập bảng trung bình của một biến định lượng theo một biến định tính

Chúng ta có biến species gồm 3 giá trị là setosa, versicolor và virginica Chúng ta sẽ mô tả trung bình petal length của 3 nhóm giá trị này bằng các lệnh sau:

Tách biến species thành 3 dataset

Sau đó chúng ta dùng vòng loop để tính trung bình, min, max và deviation.

Trang 11

Vẽ box plot một biến định lượng theo một biến định tính

Chúng ta cũng có thể dùng lệnh bxplot để vẽ box plot

Trang 12

Trong trường hợp chúng ta muốn loại bỏ các outlier trong vẽ box plot chúng ta dùng lệnh sau

Trang 14

Vẽ bar chart trung bình biến định lượng theo một biến định tính

Trang 15

Trong trường hợp biến định tính có quá nhiều giá trị chúng ta làm như sau

Trang 16

Vẽ bar chart tổng một biến định lượng theo một biến định tính

Trang 17

Vẽ histogram cho một biến định lượng theo một biến định tính

Vẽ density plot một biến định lượng theo một biến định tính

Trang 18

Trong câu lệnh thứ hai chúng ta gom các density plot vào cùng một chart.

Trang 19

Vẽ dot plot cho một biến định lượng theo một biến định tính

Thống kê mô tả giữa một biến định lượng phụ thuộc và một biến định lượng độc lập

Vẽ smooth scatter plot cho hai biến định lượng

Chúng ta cũng có thể vẽ smooth scatter plot cho hai biến định lượng

Trang 20

Nhìn vào đồ thị smooth scatter plot chúng ta thấy giữa hai biến không có mối tương quan chặt chẽ.

Trang 21

Lập bảng ma trận tương quan và ma trận scatter plot giữa hai biến định lượng

Ngoài vẽ ma trận scatter plot chúng ta còn có thể vẽ biểu đồ vùng tin cậy giống ellipse

Trang 23

Vẽ levelplot

Vẽ contourplot

Trang 24

Thống kê mô tả một biến định lượng phụ thuộc theo hai biến định tính

Lập bảng trung bình của một biến định lượng theo hai biến định tính

Trang 25

Vẽ biểu đồ cột trung bình biến định lượng theo hai biến định tính

Trang 27

Vẽ box plot một biến định lượng theo hai biến định tính

Trang 28

Thống kê mô tả giữa một biến định lượng phụ thuộc, một biến định lượng độc lập và một biến định tính độc lập

Trang 29

Vẽ scatter plot của hai biến định lượng theo một biến định tính

Thống kê time series

Vẽ time series cho một biến định lượng

Trang 30

THỐNG KÊ MÔ TẢ BIẾN ĐỊNH TÍNH

Thống kê mô tả một biến định tính

Vẽ biểu đồ cột cho một biến định tính

Để vẽ bar chart cho biến định tính trước hết chúng ta cần lập bảng phân phối tần suất và sau đó vẽ bar chart dựa trên object bảng phân phối tần suất

Option horizontal = FALSE sẽ vẽ vertical bar chart Nếu chúng ta bỏ option này thì mặc định nó sẽ vẽ horizontal chart.

Trang 32

Thống kê mô tả hai biến định tính

Lập bảng tuần suất giữa hai biến định tính

Vẽ biểu đồ cột cho hai biến định tính

Trang 35

Vẽ mosaic plot cho hai biến định tính

Trang 36

Thống kê mô tả ba biến định tính

Vẽ mosaic plot cho 3 biến định tính

Ngày đăng: 29/03/2024, 08:20

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w