3 Ứng dụng
3.2 Giới thiệu phần mềm R
R là một ngôn ngữ tính toán đã được thiết kế bởi RossIhaka và Robert Gentlenman vào năm 1996. Cho đến nay, đã có rất nhiều các nhà thống kê
3.2. Giới thiệu phần mềm R 43 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 50 55 60 65 70 0 5 10 15 20 year calls Hình 3.1: Đồ thị LS của mô hình
học, toán học những người nghiên cứu trong mọi lĩnh vực sử dụng R để phân tích các dữ liệu khoa học. Trên toàn cầu, đã có một mạng lưới hơn một triệu người sử dụng R, và con số này đang tăng rất nhanh. Có thể nói trong vòng 10 năm nữa, vai trò của các phần mềm thống kê thương mại sẽ không còn lớn như trong thời gian qua nữa.
Đặc biệt, R là gói phần mềm phù hợp để phân tích dữ liệu và biểu diễn đồ họa. Các hàm và các kết quả phân tích đều được lưu trữ như các đối tượng, cho phép sửa đổi hàm dễ dàng và xây dựng mô hình. R cung cấp ngôn ngữ, công cụ, môi trường trong một gói thuận tiện. Nó rất linh hoạt và tùy biến cao. Công cụ đồ họa tuyệt vời tạo cho R một môi trường lý tưởng để EDA (phân tích các dữ liệu thăm dò). Vì hầu hết các hàm bậc cao đều được viết bằng ngôn ngữ riêng của R, bạn có thể học ngôn ngữ này bằng cách nghiên cứu các mã hàm. R có thể được sử dụng cho nhiều mục tiêu khác nhau toán học giải trí (recreational mathematics), tính toán ma trận (matrix), đến các phân tích thống kê phức
3.2. Giới thiệu phần mềm R 44
tạp. Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển thành các phần mềm chuyên môn cho một vấn đề tính toán cá biệt. Để sử dụng R, việc đầu tiên là chúng ta phải cài đặt R trong máy tính của mình. Để làm việc này, ta phải truy nhập vào mạng và vào website có tên là "Comprehensive R Archive Network" (CRAN) sau đây: http://cran.R-project.org để dowload và cài đặt cho máy tính của mình.
Tuy nhiên, R cũng có một vài điểm yếu. Ví dụ, R không có hiệu quả đặc biệt trong việc xử lý các tập số liệu lớn. Ngoài ra, R cũng khá chậm trong việc thực hiện một số lượng lớn các vòng, so với các ngôn ngữ biên dịch như là C, C++.
Có rất nhiều phần mềm phổ biến dùng để phân tích dữ liệu như là SAS, SPSS, Stata Statistica và S - Plus nhưng vì chi phí để sử dụng các phần mềm này tuơng đối đắt tiền (có khi lên đến hàng trăm ngàn đô-la mỗi năm), một số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính để sử dụng chúng một cách lâu dài. Vì lý do đó tôi đã chọn R cho chương này để phân tích dữ liệu.
Để sử dụng phần mềm R cho số liệu về các con số hàng năm của các cuộc gọi điện thoại được thực hiện ở Bỉ chúng ta cần sử dụng một số hàm của R.
1. plot
• Mô tả : Hàm tổng quát cho đồ thị của đối tượng R. Đối với các biểu
đồ phân tán đơn giản, plot.default sẽ được sử dụng. Tuy nhiên, có nhiều phương pháp vẽ đồ thị cho nhiều đối tượng trong R, bao gồm
các hàm, data.frames, density objects,. . ..
• Sử dụng : Plot(x, y, . . . )
• Đối số
main: Tiêu đề chung của đồ thị
3.2. Giới thiệu phần mềm R 45
xlab : Tiêu đề cho trục x
ylab : Tiêu đề cho trục y
2. summary
• Mô tả : summary là hàm khái quát được sử dụng để cung cấp các kết
quả tóm tắt của các kết quả của các mô hình khác nhau phù hợp với các hàm số. Hàm số dẫn chứng các phương pháp cụ thể dựa trên tập hợp của các đối số đầu tiên.
• Sử dụng : summary(object, . . .)
Phương pháp mặc định : summary(object, . . ., digits =
max(3, getoption("digits")-3));
Phương pháp cho lớp "data.frame" : summary(object, maxsum = 7, digits = max(3, getoption("digits")-3));
Phương pháp cho lớp "factor" : summary(object, maxsum = 100,
. . .);
Phương pháp cho lớp "matrix" : summary(object, . . .)
• Đối số
object : một đối tượng mà bản tóm tắt mong muốn
maxsum : số nguyên, cho biết bao nhiêu cấp cần được chỉ ra cho các nhân tố.
digits : số nguyên, được dùng để định dạng số với signif() (cho sum-
mary.default) và format() (cho summary.data.frame).
3. rlm
• Sử dụng : rlm(formula, data, psi = psi.huber, scale.est, k2 =1.345, ...)
• Đối số : Các đối số chính của hàm rlm là :