Bài giảng Ngôn ngữ R và xử lý thống kê - Phần 1: Giới thiệu ngôn ngữ R

17 5 0
Bài giảng Ngôn ngữ R và xử lý thống kê - Phần 1: Giới thiệu ngôn ngữ R

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài giảng cung cấp cho người học các kiến thức: Giới thiệu ngôn ngữ R, cài đặt R, tải các package và cài đặt, văn phạm R, nhập dữ liệu trong R,... Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên đang theo học môn dùng làm tài liệu học tập và nghiên cứu. Mời các bạn cùng tham khảo chi tiết nội dung tài liệu.

Trường Đại học Nông nghiệp Hà nội Tài liệu tham khảo Ngôn ngữ R xử lý thống kê Nguyễn đình Hiền Hà nội 2011 R Giới thiệu ngơn ngữ R Năm 1996, báo tính tốn thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman thuộc Trường đại học Auckland, New Zealand phác hoạ ngơn ngữ cho phân tích thống kê mà họ đặt tên R Sáng kiến nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến ngày có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học.Trên tồn cầu có mạng lưới hàng triệu người sử dụng R R phần mềm sử dụng cho phân tích thống kê vẽ biểu đồ Thật ra, chất, R ngôn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí, tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn cho vấn đề tính tốn cá biệt Cài đặt R Để cài đặt R máy tính phải truy nhập vào website “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org sau chọn Cran mirrors thí dụ Dựa vào vào phiên bảnvà hệ điều hành để chọn tài liệu cần tải NDH R Chẳng hạn phiên dùng cho Windows Tại website tìm thấy nhiều tài liệu dẫn cách sử dụng R, đủ trình độ, từ đơn giản đến phức tạp Khi tải R xuống phải cài đặt vào máy tính Để làm việc cần nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình Sau cài đặt nhấp chuột vào biểu tượng R có cửa sỏ sau: Dấu mời > báo hiệu máy sẵn sàng đợi lệnh để thực Tải package cài đặt R cung cấp “ngơn ngữ” máy tính số function để làm phân tích đơn giản Nếu muốn làm phân tích phức tạp cần phải tải máy tính số package khác Package phần mềm nhỏ nhà thống kê phát triển để giải vấn đề cụ thể, chạy hệ thống R Chẳng hạn để phân tích hồi qui tuyến tính, R có function lm để sử dụng cho mục đích này, để làm phân tích sâu phức tạp cần đến package lme4 Các package NDH R cần tải cài đặt Địa package là: http://cran.r-project.org, bấm vào phần Packages”để tìm, kèm trang web đẻ tải Một số package thường dùngtrong phân tích thống kê là: trellis Chức Dùng để vẽ đồ thị làm cho đồ thị đẹp lattice Dùng để vẽ đồ thị làm cho đồ thị đẹp agricolae Statistical Procedures for agricultural Research Design Một số mơ hình thiết kế nghiên cứu F Harrell Epi Dùng cho phân tích dịch tễ học epitools Một package khác chuyên cho phân tích dịch tễ học Foreign Dùng để nhập liệu từ phần mềm khác SPSS, Stata, SAS, v.v… Linear mixed effects models R commander Spearman’ s rank correlation test Tên package lme4 Rcmdr pspearman survival Zelig Genetics BMA Chun dùng cho phân tích theo mơ hình Cox (Cox’s proportional hazard model) Package dùng cho phân tích thống kê lĩnh vực xã hội học Package dùng cho phân tích số liệu di truyền học Bayesian Model Average Các package cài đặt trực tuyến cách chọn Install packages phần packages R Nếu package tải xuống máy tính việc cài đặt nhanh cách chọn Install package(s) from local zip file phần packages Văn phạm R R ngôn ngữ tương tác (interactive language), có nghĩa lệnh, lệnh “văn phạm”, R “đáp” lại kết Và tương tác tiếp tục đạt yêu cầu “Văn phạm” chung R lệnh (command) hay function ( “hàm”) Mà hàm phải có thơng số; theo sau hàm thông số mà phải cung cấp Cú pháp chung R sau: đối tượng reg setwd(“d:/nnR/thongke”) setwd hàm, cịn “d:/nnR/thongke” thơng số hàm NDH R Để biết hàm cần có thơng số nào, dùng lệnh args(x), (args viết tắt chữ arguments) mà x hàm cần biết: > args(lm) function (formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ) NULL R ngôn ngữ “đối tượng” (object oriented language) Điều có nghĩa liệu R chứa object Định hướng ảnh hưởng đến cách viết R Chẳng hạn thay viết x = thơng thường viết, R yêu cầu viết x == Đối với R, x = tương đương với x # lệnh sau mô 10 giá trị normal > x myobject my object my.object My.object.u my.object.L My.object.u + my.object.L [1] 20 Một vài điều cần lưu ý đặt tên R là: Không nên đặt tên biến số hay variable kí hiệu “_” (underscore) my_object hay my-object Không nên đặt tên object giống biến số liệu Ví dụ, có data.frame (dữ liệu hay dataset) với biến số age đó, khơng nên có object trùng tên age, tức không nên viết: age ?lm Một cửa sổ bên phải hình rõ cách sử dụng chí có ví dụ Bạn đọc đơn giản copy dán ví dụ vào R để xem cách vận hành Trước sử dụng R, ngồi sách cần bạn đọc đọc qua phần dẫn có sẵn R cách chọn mục help sau chọn Html help để biết thêm chi tiết Bạn đọc copy dán lệnh mục vào R để xem cho biết cách vận hành R 4- Nhập liệu R Muốn phân tích liệu R, phải có sẵn liệu dạng mà R hiểu để xử lí Dữ liệu mà R hiểu phải liệu data.frame Có nhiều NDH R cách để nhập số liệu vào data.frame R, từ nhập trực tiếp đến nhập từ nguồn khác Sau cách thông dụng nhất: 4.1 Nhập số liệu trực tiếp: c() Ví dụ: có số liệu độ tuổi insulin cho 10 bệnh nhân sau, muốn nhập vào R 50 62 16.5 10.8 60 32.3 40 19.3 48 14.2 47 11.3 57 15.5 70 15.8 48 16.2 67 11.2 Chúng ta sử dụng function có tên c sau: > age insulin setwd(“d:/nnR/thongke”) > save(bang, file=”bang.rda”) Lệnh (setwd– chữ wd có nghĩa working directory) cho R biết muốn lưu số liệu thư mục có tên “c:\nnR\thongke” Lệnh thứ hai (save) cho R biết số liệu đối tượng bangsẽ lưu tệp có tên “bang.rda” Sau gõ xong hai lệnh trên, file có tên bang.rda có mặt thư mục “c:\nnR\thongke” 4.2 Nhập số liệu trực tiếp: edit(data.frame()) Ví dụ (tiếp tục): nhập số liệu độ tuổi insulin cho 10 bệnh nhân function có ích, là: edit(data.frame()) Với function này, R cung cấp cho window với dãy cột dòng giống Excel, nhập số liệu bảng Ví dụ: > ins setwd(“d:/nnR/thongke”) > chol chol NDH R Hay > names(chol) R cho biết có cột sau liệu (names lệnh hỏi liệu có cột tên gì): [1] "id" "sex" "age" "bmi" "hdl" "ldl" "tc" "tg" Bây lưu liệu dạng R để xử lí sau cách lệnh: > save(chol, file="chol.rda") 4.4 Nhập số liệu từ Excel: read.csv Để nhập số liệu từ phần mềm Excel, cần tiến hành bước:  Bước 1: Dùng lệnh “Save as” Excel lưu số liệu dạng “csv”;  Bước 2: Dùng R (lệnh read.csv) để nhập liệu dạng csv Ví dụ: Một liệu gồm cột sau lưu Excel, muốn chuyển vào R để phân tích Dữ liệu có tên excel.xls NDH ID Age Sex Ethnicity IGFI IGFBP3 ALS PINP ICTP P3NP 18 1 148.27 5.14 316.00 61.84 5.81 4.21 28 1 114.50 5.23 296.42 98.64 4.96 5.33 20 1 109.82 4.33 269.82 93.26 7.74 4.56 21 1 112.13 4.38 247.96 101.59 6.66 4.61 28 1 102.86 4.04 240.04 58.77 4.62 4.95 23 129.59 4.16 266.95 48.93 5.32 3.82 20 142.50 3.85 300.86 135.62 8.78 6.75 20 1 118.69 3.44 277.46 79.51 7.19 5.11 20 1 197.69 4.12 335.23 57.25 6.21 4.44 10 20 1 163.69 3.96 306.83 74.03 4.95 4.84 11 22 1 144.81 3.63 295.46 68.26 4.54 3.70 12 27 141.60 3.48 231.20 56.78 4.47 4.07 13 26 1 161.80 4.10 244.80 75.75 6.27 5.26 14 33 1 89.20 2.82 177.20 48.57 3.58 3.68 15 34 161.80 3.80 243.60 50.68 3.52 3.35 16 32 1 148.50 3.72 234.80 83.98 4.85 3.80 17 28 1 157.70 3.98 224.80 60.42 4.89 4.09 18 18 222.90 3.98 281.40 74.17 6.43 5.84 19 26 186.70 4.64 340.80 38.05 5.12 5.77 20 27 167.56 3.56 321.12 30.18 4.78 6.12 10 R Vào Excel, chọn File Save as Chọn Save as type“CSV (Comma delimited)” Sau xong, có file với tên “excel.csv” directory “d:\nnR\thongke” Việc thứ hai vào R lệnh sau đây: > setwd(“d:/nnR/thongke”) > gh save(gh, file="gh.rda") 4.5 Nhập số liệu từ tệp SPSS: read.spss Phần mềm thống kê SPSS lưu liệu dạng “sav” Chẳng hạn có liệu có tên testo.sav directory c:\works\insulin, muốn chuyển liệu sang dạng R phải sử dụng lệnh read.spss package có tên foreign Các lệnh sau hoàn tất dễ dàng việc này: Việc cho truy nhập foreign lệnh library: > library(foreign) Việc thứ hai lệnh read.spss: > setwd(“d:/nnR/thongke”) > testo save(testo, file="testo.rda") 4.6 Thông tin liệu Giả dụ nhập số liệu vào data.frame có tên chol ví dụ Chúng ta nhập chol vào R sau: > attach(chol) Kiểm tra xem chol có phải data.frame không lệnh is.data.frame(arg)với arglà tên liệu Ví dụ: > is.data.frame(chol) [1] TRUE NDH 11 R R cho biết cholquả data.frame Đẻ biết có cột (hay variable = biến số) dòng số liệu (observations) liệu này? Dùng lệnh dim(arg) với arg tên liệu (dim viết tắt chữ dimension dim(chol) [1] 50 Như vậy, có 50 dịng cột (hay biến số) Vậy biến số tên gì? Chúng ta dùng lệnh names(arg) với arg tên liệu Ví dụ: > names(chol) [1] "id""sex" "age" "bmi" "hdl" "ldl" "tc" "tg" Trong biến số sex có nam nữ? Để trả lời câu hỏi này, dùng lệnh table(arg) với arg tên biến số Ví dụ: > table(sex) sex nam Nam Nu 21 28 Kết cho thấy liệu có 21 nam 28 nữ Biên tập số liệu 5.1 Tách liệu thành nhóm con: subset > setwd(“d:/nnR/thongke”) > chol attach(chol) Nếu muốn phân tích riêng cho nam giới, tách chol thành hai data.frame, tạm gọi nam nu Để làm chuyện này, dùng lệnh subset(data, cond), data data.frame mà muốn tách rời cond điều kiện Ví dụ: > nam nu old =60) > dim(old) [1] 25 Hay data.frame với bệnh nhân 60 tuổi nam giới: > n60 =60 & sex==”Nam”) > dim(n60) [1] NDH 12 R 5.2 Chiết số liệu từ data frame Trong chol có biến số Chúng ta chiết liệu chol giữ lại biến số cần thiết mã số (id), độ tuổi (age) total cholestrol (tc) Trong lệnh names(chol) biến số id cột số 1, age cột số 3, biến số tc cột số7 Chúng ta dùng lệnh sau đây: > data2 data3 print(data3) 10 id sex Nam Nu Nu Nam Nam Nu Nam Nam tc 4.0 3.5 4.7 7.7 5.0 4.2 5.9 6.1 Nam 5.9 10 Nu 4.0 Chú ý lệnh print(arg) đơn giản liệt kê tất số liệu data.frame arg Thật ra, cần đơn giản gõ data3, kết giống y print(data3) 5.3 Nhập hai data.frame thành một: merge Giả dụ có liệu chứa hai data.frame Dữ liệu thứ tên d1 gồm cột: id, sex, tc sau: id sex tc 10 Nam Nu Nu Nam Nam Nu Nam Nam Nam Nu 4.0 3.5 4.7 7.7 5.0 4.2 5.9 6.1 5.9 4.0 Dữ liệu thứ hai tên d2gồm cột: id, sex, tg sau: sex tg Nam 1.1 id NDH 13 R 10 11 Nu Nu Nam Nam Nu Nam Nam Nam Nu Nu 2.1 0.8 1.1 2.1 1.5 2.6 1.5 5.4 1.9 1.7 Hai liệu có chung hai biến số id sex Nhưng liệu d1 có 10 dịng, cịn liệu d2 có 11 dịng Chúng ta nhập hai liệu thành data.frame cách dùng lệnh merge sau: > d d id sex.x tc sex.y tg 1 2 3 4 5 6 7 8 9 10 10 11 11 Nam Nu Nu Nam Nam Nu Nam Nam Nam Nu 4.0 3.5 4.7 7.7 5.0 4.2 5.9 6.1 5.9 4.0 NA Nam Nu Nu Nam Nam Nu Nam Nam Nam Nu Nu 1.1 2.1 0.8 1.1 2.1 1.5 2.6 1.5 5.4 1.9 1.7 Trong lệnh merge, yêu cầu R nhập liệu d1 d2 thành đưa vào data.frame tên d, dùng biến số id làm chuẩn Chúng ta để ý thấy bệnh nhân số 11 khơng có số liệu cho tc, R cho NA (một dạng “not available”) 5.4 Biến đổi số liệu (data coding) Trong việc xử lí số liệu dịch tễ học, nhiều cần phải biến đổi số liệu từ biến liên tục sang biến mang tính cách phân loại Chẳng hạn chẩn đốn lỗng xương, phụ nữ có số T mật độ chất khoáng xương (bone mineral density hay BMD) hay thấp -2.5 xem “lỗng xương”, có BMD 2.5 -1.0 “xốp xương” (osteopenia), -1.0 “bình thường” Ví dụ, có số liệu BMD từ 10 bệnh nhân sau: -0.92, 0.21, 0.17, -3.21, -1.80, -2.60, -2.00, 1.71, 2.12, -2.11 Để nhập số liệu vào R sử dụng function c sau: bmd diagnosis diagnosis[bmd -2.5 & bmd -1.0] data data Bmd 10 -0.92 0.21 0.17 -3.21 -1.80 -2.60 -2.00 1.71 2.12 -2.11 Diagnosis 3 2 3 5.5 Biến đổi số liệu cách dùng replace Một cách biến đổi số liệu khác dùng replace, dù cách rườm rà chút Tiếp tục ví dụ trên, biến đổi từ bmd sang diagnosis sau: > diagnosis diagnosis diag diag [1] 3 2 3 Levels: NDH 15 R Chú ý R thông báo cho biết diag có bậc: 1, Nếu u cầu R tính số trung bình diag, R khơng làm theo u cầu này, biến số số học: > mean(diag) [1] NA Warning message: argument is not numeric or logical: returning NA in: mean.default(diag) Trung bình diagnosis: > mean(diagnosis) [1] 2.3 kết 2.3 khơng có ý nghĩa thực tế Sử dụng R cho tính tốn đơn giản Một lợi R sử dụng … máy tính cầm tay Thật ra, nữa, R sử dụng cho phép tính ma trận lập chương Trong chương tơi trình bày số phép tính đơn giản mà học sinh hay sinh viên sử dụng đọc dịng chữ 6.1 Tính tốn đơn giản Cộng hai số hay nhiều số với nhau: > 15+2997 [1] 3012 Cộng trừ: > 15+2997-9768 [1] -6756 Nhân chia > -27*12/21 [1] -15.42857 Căn số bậc hai: 10 > sqrt(10) [1] 3.162278 Số lũy thừa: (25 – 5)3 > (25 - 5)^3 [1] 8000 Số pi (π) > pi [1] 3.141593 > 2+3*pi [1] 11.42478 Logarit: log10 > log10(100) [1] Logarit: loge > log(10) [1] 2.302585 Số mũ: e2.7689 > exp(2.7689) [1] 15.94109 > log10(2+3*pi) [1] 1.057848 Vector > x x [1] > sum(x) [1] 42 > x*2 [1] 10 12 14 12 16 NDH Hàm số lượng giác > cos(pi) [1] -1 > exp(x/10) [1] 1.221403 1.349859 1.105171 1.648 1.491825 1.822119 2.013753 1.822119 2.225541 > exp(cos(x/10)) [1] 2.664634 2.599545 2.704736 2.405 2.511954 2.282647 2.148655 2.282647 2.007132 16 R Tính tổng bình phương (sum of squares): > x sum(x^2) [1] 55 Tính tổng bình phương điều chỉnh n (adjusted sum of squares): ∑ (xi − x  )2 i  > x sum((x-mean(x))^2) [1] 10 Tính sai số bình phương (mean square): Trong cơng thức mean(x)là số trung bình vector x Tính phương sai (variance) độ lệch chuẩn (standard deviation): 2 2 +2 +3 +4 +5 =? NDH 17 ... cài đặt R máy tính phải truy nhập vào website “Comprehensive R Archive Network” (CRAN) sau đây: http://cran .R- project.org sau chọn Cran mirrors thí dụ Dựa vào vào phiên bảnvà hệ điều hành để chọn.. .R Giới thiệu ngôn ngữ R Năm 1996, báo tính tốn thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman thuộc Trường đại học Auckland, New Zealand phác hoạ ngôn ngữ cho phân tích thống kê. .. liền (tức không cách r? ??i khoảng trống) Chẳng hạn R chấp nhận myobjectnhưng không chấp nhận my object > myobject my object

Ngày đăng: 08/05/2021, 16:48

Tài liệu cùng người dùng

Tài liệu liên quan