Giới thiệu ngôn ngữ lập trìn hR

Một phần của tài liệu (LUẬN văn THẠC sĩ) thiết kế giải thuật thông minh phân phối nguồn cung cấp theo lưu lượng cho các trạm BTS (Trang 33 - 37)

Trong một công trình nghiên cứu khoa học, nếu dữ liệu không được phân tích đúng phương pháp sẽ không có ý nghĩa khoa học. Chính vì vậy mà ngày nay, trong các công trình nghiên cứu được công bố thường có thêm phần “Phân tích thống kê”, trong phần này tác giả sẽ giới thiệu ngôn ngữ R – công cụ được dùng trong phân tích dữ liệu, đồng thời giải thích lý do sử dụng công cụ này.

Với thực tế hiện nay khi các phần mềm phân tích, thống kê dữ liệu như SAS, SPSS, v.v. đều là các phần mềm có tính phí với mức phí rất cao (có thể lên đến 100.000 USD một năm) vốn không phù hợp cho các nhóm nghiên cứu với quy mô nhỏ. Ngôn ngữ R [15] ra đời với mục đích ban đầu sử dụng cho học tập và giảng dạy, tuy nhiên chi trong vòng 20 năm qua, R đã trở nên cực kỳ phổ biến trong các trường Đại học và trong công tác nghiên cứu khoa học, R đã thật

Trang 20

sự trở thành một công cụ hữu ích cho bất kỳ một công trình nghiên cứu nào về phân tích và thống kê dữ liệu.

R là một phần mềm sử dụng cho phân tích thống kê và vẽ đồ thị, hay nói một cách khác về bản chất, R là một ngôn ngữ máy tính đa năng, nó có thể được sử dụng với nhiều mục đích khác nhau như: tính toán cơ bản, tính toán ma trận, và quan trọng nhất là khả năng phân tích thống kê dữ liệu.

Ngôn ngữ R được tạo ra bởi hai nhà thống kê học là Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand, R xuất hiện lần đầu vào năm 1993 và có thể chạy trên nhiều hệ điều hành khác nhau. Đến nay R do R Development Core Team chịu trách nhiệm phát triển.

Ngôn ngữ R đã trở thành một tiêu chuẩn trên thực tế giữa các nhà thống kê và được sử dụng rộng rãi để phát triển phần mềm thống kê và phân tích dữ liệu. R là một bộ phận của dự án GNU và mã nguồn của nó được công bố tự do theo giấy phép của GNU, R sử dụng giao diện dòng lệnh và một vài giao diện đồ họa người dùng. Ngôn ngữ R có chứa nhiều loại kỹ thuật thống kê (mô hình hóa tuyến tính và phi tuyến, kiểm thử thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm, v.v.) và đồ họa. Kể từ khi ngôn ngữ R ra đời, rất nhiều nhà nghiên cứu thống kê và toán học trên thế giới đã ủng hộ và tham gia vào phát triển ngôn ngữ này, với một chủ trương R sẽ theo định hướng mở rộng. Chính vì chủ trương này mà R là ngôn ngữ hoàn toàn miễn phí. Hiện nay trên toàn cầu đã có một mạng lưới gần một triệu người sử dụng R, và con số này vẫn đang tiếp tục tăng lên theo từng ngày. Nhờ vào R mà hiện nay và trong tương lai gần, ta sẽ không cần đến các phần mềm thống kê đắt tiền như SAS, SPSS hay Stata để phân tích dữ liệu nữa. Vì thế, khi tham gia nghiên cứu khoa học, đặc biệt là trong lĩnh vực thống kế, phân tích dữ liệu R sẽ là một sự lựa chọn rất tốt. R cung cấp cho ta một số hàm để làm các phân tích căn bản và đơn giản. Trong trường hợp muốn sử dụng những phân tích phức tạp hơn, ta có thể

Trang 21

tải về máy tính một số gói mở rộng từ trang chủ của R (http://cran.r-project.org). Các gói là một phần mềm nhỏ được các nhà thống kế học phát triển, nhằm giải quyết một vấn đề cụ thể nào đó, và có thể chạy trên R.

Bảng 1.1. Các gói mở rộng cho R

Tên gói Chức năng

Lattice Dùng vẽ đồ thị và làm cho đồ thị đẹp hơn

Hmisc Một số phương pháp mô hình dữ liệu của F. Harrell Rms Gói về xây dựng mô hình tiên lượng của F. Harrell Epi Dùng cho các phân tích dịch tễ học

Epitools Một gói khác chuyên cho các phân tích dịch tễ học Foreign Dùng để nhập số liệu từ các phần mềm khác như

SPSS, SAS, Stata, v.v.

Rmeta, metafor Dùng cho phân tích tổng hợp

Survival Chuyên dùng cho phân tích theo mô hình Cox

Zelig Dùng cho các phân tích thống kê trong lĩnh vực xã hội học

Genetics Dùng cho phân tích số liệu di truyền học BMA Bayesian Model Average

Ggplot2 Dùng cho biểu đồ

Psych Gói đa năng nhưng chủ yếu là cho phân tích tâm lý học

Trang 22

Hình 1.6. Giao diện cửa sổ của R

R thường được sử dụng dưới dạng “command line”, tức là ta phải nhập trực tiếp lệnh vào và các lệnh này yêu cầu phải tuân theo đúng văn phạm. Một số văn phạm cơ bản của R như sau:

+ Có phân biệt chữ hoa và thường khi viết lệnh

+ Dùng dấu chấm để thay vào khoảng trống, ví dụ như: data.frame, t.test, v.v.

+ Dữ liệu trong R được lưu trong các Object, vì R là ngôn ngữ đối tượng. + Không đặt tên object và biến số trùng nhau.

+ Không được có khoảng trống khi đặt tên. + Không nên sử dụng ký hiệu “_” khi đặt tên. + Ký hiệu “#” dùng để ghi chú trong R

Nếu gõ đúng văn phạm, R sẽ cho ra một prompt khác hoặc cho ra một kết quả nào đó, ngược lại R sẽ cho ra một thông báo ngắn về lỗi vừa xảy ra.

Để có thể hiểu đầy đủ hơn về văn phạm, R cung cập lệnh help() ví dụ như: help(lm). Khi đó R sẽ mở ra một của sổ bên phải để chỉ rõ cách sử dụng của lệnh và cả ví dụ minh họa. Ngoài ra, để biết một hàm trong R cần những

Trang 23

tham số nào, ta sử dụng lệnh args(), ví dụ như: args(lm) sẽ cho ra kết quả như sau:

> args(lm)

function (formula, data, subset, weights, na.action, method = "qr",

model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ...)

NULL

Một phần của tài liệu (LUẬN văn THẠC sĩ) thiết kế giải thuật thông minh phân phối nguồn cung cấp theo lưu lượng cho các trạm BTS (Trang 33 - 37)

Tải bản đầy đủ (PDF)

(91 trang)