Giới thiệu ngôn ngữ R

9 26 0
Giới thiệu ngôn ngữ R

Đang tải... (xem toàn văn)

Thông tin tài liệu

2 Giới thiệu ngơn ngữ R 2.1 R ? Nói cách ngắn gọn, R phần mềm sử dụng cho phân tích thống kê đồ thị Thật ra, chất, R ngôn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên mơn cho vấn đề tính tốn cá biệt Hai người sáng tạo R hai nhà thống kê học tên Ross Ihaka Robert Gentleman Kể từ R đời, nhiều nhà nghiên cứu thống kê toán học giới ủng hộ tham gia vào việc phát triển R Chủ trương người sáng tạo R theo định hướng mở rộng (Open Access) Cũng phần chủ trương mà R hồn tồn miễn phí Bất nơi giới truy nhập tải toàn mã nguồn R máy tính để sử dụng Cho đến nay, qua chưa đầy năm phát triển, ngày có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lưới gần triệu người sử dụng R, số tăng theo cấp số nhân Có thể nói vịng 10 năm nữa, khơng cần đến phần mềm thống kê đắt tiến SAS, SPSS hay Stata (các phần mềm đắt tiền, lên đến 100.000 USD năm) để phân tích thống kê nữa, tất phân tích tiến hành R Vì thế, làm nghiên cứu khoa học, nước cịn nghèo khó nước ta, cần phải học cách sử dụng R cho phân tích thống kê đồ thị Bài viết ngắn hướng dẫn bạn đọc cách sử dụng R Tôi giả định bạn đọc khơng biết R, tơi kì vọng bạn đọc biết qua cách sử dụng máy tính 2.2 Tải R xuống cài đặt vào máy tính Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Tài liệu cần tải về, tùy theo phiên bản, thường có tên bắt đầu mẫu tự R số phiên (version) Chẳng hạn phiên sử dụng vào cuối năm 2005 2.2.1, nên tên tài liệu cần tải là: R-2.2.1-win32.zip Tài liệu khoảng 26 MB, địa cụ thể để tải là: http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Tại website này, tìm thấy nhiều tài liệu dẫn cách sử dụng R, đủ trình độ, từ sơ đẳng đến cao cấp Nếu chưa quen với tiếng Anh, tài liệu tơi cung cấp thơng tin cần thiết để sử dụng mà không cần phải đọc tài liệu khác Khi tải R xuống máy tính, bước cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình Đây bước đơn giản, cần phút việc cài đặt R hồn tất 2.3 Package cho phân tích đặc biệt R cung cấp cho “ngơn ngữ” máy tính số function để làm phân tích đơn giản Nếu muốn làm phân tích phức tạp hơn, cần phải tải máy tính số package khác Package phần mềm nhỏ nhà thống kê phát triển để giải vấn đề cụ thể, chạy hệ thống R Chẳng hạn để phân tích hồi qui tuyến tính, R có function lm để sử dụng cho mục đích này, để làm phân tích sâu phức tạp hơn, cần đến package lme4 Các package cần phải tải máy tính cài đặt Địa để tải package là: http://cran.r-project.org, bấm vào phần “Packages” xuất bên trái mục lục trang web Một số package cần tải máy tính để sử dụng cho ví dụ sách là: Tên package Trellis lattice Hmisc Design Epi epitools foreign Rmeta meta survival Chức Dùng để vẽ đồ thị làm cho đồ thị đẹp Dùng để vẽ đồ thị làm cho đồ thị đẹp Một số phương pháp mơ hình liệu F Harrell Một số mơ hình thiết kế nghiên cứu F Harrell Dùng cho phân tích dịch tễ học Một package khác chuyên cho phân tích dịch tễ học Dùng để nhập liệu từ phần mềm khác SPSS, Stata, SAS, v.v… Dùng cho phân tích tổng hợp (meta-analysis) Một package khác cho phân tích tổng hợp Chuyên dùng cho phân tích theo mơ hình Cox (Cox’s proportional hazard model) splines Zelig genetics BMA leaps Package cho survival vận hành Package dùng cho phân tích thống kê lĩnh vực xã hội học Package dùng cho phân tích số liệu di truyền học Bayesian Model Average Package dùng cho BMA 2.4 Khởi động ngưng chạy R Sau hoàn tất việc cài đặt, icon R 2.2.1.lnk xuất desktop máy tính Đến sẵn sàng sử dụng R Có thể nhấp chuột vào icon có window sau: R thường sử dụng dạng "command line", có nghĩa phải trực tiếp gõ lệnh vào prompt màu đỏ Các lệnh phải tuân thủ nghiêm ngặt theo “văn phạm” ngôn ngữ R Có thể nói tồn viết nhằm hướng dẫn bạn đọc hiểu viết theo ngôn ngữ R Một văn phạm R phân biệt Library library Nói cách khác, R phân biệt lệnh viết chữ hoa hay chữ thường Một văn phạm khác có hai chữ rời nhau, R thường dùng dấu chấm để thay vào khoảng trống, chẳng hạn data.frame, t.test, read.table, v.v… Điều quan trọng, không để ý làm người sử dụng Nếu lệnh gõ “văn phạm” R cho prompt khác hay cho kết (tùy theo lệnh); lệnh khơng văn phạm R cho thơng báo ngắn khơng hay khơng hiểu Ví dụ, gõ: > x R hiểu làm theo lệnh đó, cho prompt khác: > gõ: Nhưng > R is great R không “đồng ý” với lệnh này, ngơn ngữ khơng có thư viện R, thông báo sau xuất hiện: Error: syntax error > Khi muốn rời khỏi R, đơn giản nhấn nút chéo (x) bên góc trái window, hay gõ lệnh q() 2.5 “Văn phạm” ngôn ngữ R “Văn phạm” chung R lệnh (command) hay function (tôi đề cập đến “hàm”) Mà hàm phải có thơng số; theo sau hàm thông số mà phải cung cấp Chẳng hạn như: > reg setwd(“c:/works/stats”) setwd hàm, cịn “c:/works/stats” thơng số hàm Để biết hàm cần có thơng số nào, dùng lệnh args(x), (args viết tắt chữ arguments) mà x hàm cần biết: > args(lm) function (formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ) NULL R ngôn ngữ “đối tượng” (object oriented language) Điều có nghĩa liệu R chứa object Định hướng có vài ảnh hưởng đến cách viết R Chẳng hạn thay viết x = thơng thường viết, R yêu cầu viết x == Đối với R, x = tương đương với x # lệnh sau mô 10 giá trị normal > x myobject my object my.object My.object.u my.object.L My.object.u + my.object.L [1] 20 Một vài điều cần lưu ý đặt tên R là: • Khơng nên đặt tên biến số hay variable kí hiệu “_” (underscore) my_object hay my-object • Khơng nên đặt tên object giống biến số liệu Ví dụ, có data.frame (dữ liệu hay dataset) với biến số age đó, khơng nên có object trùng tên age, tức không nên viết: age ?lm Một cửa sổ bên phải hình rõ cách sử dụng chí có ví dụ Bạn đọc đơn giản copy dán ví dụ vào R để xem cách vận hành Trước sử dụng R, ngồi sách cần bạn đọc đọc qua phần dẫn có sẵn R cách chọn mục help sau chọn Html help hình để biết thêm chi tiết Bạn đọc copy dán lệnh mục vào R để xem cho biết cách vận hành R Thay chọn mục trên, bạn đọc đơn giản lệnh: > help.start() cửa sổ xuất dẫn toàn hệ thống R Hàm apropos có ích cung cấp cho tất hàm R bắt đầu kí tự mà muốn tìm Chẳng hạn muốn biết hàm R có kí tự “lm” đơn giản lệnh: > apropos(lm) Và R báo cáo hàm với kí tự lm sau có sẵn R: [1] ". C anova.glm" [4] ". C glm.null" [7] "anova.glm" [10] "anova.lmlist" [13] "contr.helmert" [16] "glm.fit" [19] "KalmanForecast" [22] "KalmanSmooth" [25] "lm.fit.null" [28] "lm.wfit.null" "model.frame.lm" ". C anova.glm.null" ". C glm" ". C lm" ". C mlm" "anova.glmlist" "anova.lm" "anova.mlm" "anovalist.lm" "glm" "glm.control" "glm.fit.null" "hatvalues.lm" "KalmanLike" "KalmanRun" "lm" "lm.fit" "lm.influence" "lm.wfit" "model.frame.glm" [31] [34] [37] [40] [43] [46] [49] "model.matrix.lm" "plot.lm" "predict.lm" "print.lm" "rstandard.glm" "rstudent.lm" "summary.mlm" "nlm" "plot.mlm" "predict.mlm" "residuals.glm" "rstandard.lm" "summary.glm" "kappa.lm" "nlminb" "predict.glm" "print.glm" "residuals.lm" "rstudent.glm" "summary.lm" 2.8 Môi trường vận hành Dữ liệu phải chứa khu vực (directory) máy tính Trước sử dụng R, có lẽ cách hay tạo directory để chứa liệu, chẳng hạn c:\works\stats Để R biết liệu nằm đâu, sử dụng lệnh setwd (set working directory) sau: > setwd(“c:/works/stats”) Lệnh báo cho R biết liệu chứa directory có tên c:\works\stats Chú ý rằng, R dùng forward slash “/” backward slash “\” hệ thống Windows Để biết nay, R “làm việc” directory nào, cần lệnh: > getwd() [1] "C:/Program Files/R/R-2.2.1" Cái prompt mặc định R “>” Nhưng muốn có prompt khác theo cá tính cá nhân, thay dễ dàng: > options(prompt=”R> ”) R> Hay: > options(prompt="Tuan> ") Tuan> Màn ảnh R mặc định 80 characters, muốn ảnh rộng hơn, cần lệnh: > options(width=100) Hay muốn R trình bày số liệu dạng số thập phân: > options(scipen=3) Các lựa chọn thay đổi dùng lệnh options() Để biết thông số R gì, cần lệnh: > options() Tìm hiểu ngày tháng: > Sys.Date() [1] "2006-03-31" Nếu bạn đọc cần thêm thông tin, số tài liệu mạng (viết tiếng Anh) có ích Các tài liệu tải xuống máy miễn phí: R for beginners (của Emmanuel Paradis): http://cran.r-project.org/doc/contrib/rdebuts_en.pdf Using R for data analysis and graphics (của John Maindonald): http://cran.r-project.org/doc/contrib/usingR.pdf ... R for beginners (của Emmanuel Paradis): http://cran .r- project.org/doc/contrib/rdebuts_en.pdf Using R for data analysis and graphics (của John Maindonald): http://cran .r- project.org/doc/contrib/usingR.pdf... x R hiểu làm theo lệnh đó, cho prompt khác: > gõ: Nhưng > R is great R không “đồng ý” với lệnh này, ngơn ngữ khơng có thư viện R, thông báo sau xuất hiện: Error: syntax error >... "predict.lm" "print.lm" "rstandard.glm" "rstudent.lm" "summary.mlm" "nlm" "plot.mlm" "predict.mlm" "residuals.glm" "rstandard.lm" "summary.glm" "kappa.lm" "nlminb" "predict.glm" "print.glm" "residuals.lm"

Ngày đăng: 23/08/2021, 17:09

Tài liệu cùng người dùng

Tài liệu liên quan