1. Trang chủ
  2. » Giáo Dục - Đào Tạo

10 1 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 528,86 KB

Nội dung

Phân tích số liệu biểu đồ R Nguyễn Văn Tuấn Phân tích số liệu biểu đồ Nguyễn Văn Tuấn Garvan Institute of Medical Research Sydney, Australia Phân tích số liệu biểu đồ R Nguyễn Văn Tuấn Mục lục Tải R xuống cài đặt vào máy tính Tải R package cài đặt vào máy tính 3.1 3.2 “Văn phạm” R Cách đặt tên R Hỗ trợ R 9 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Cách nhập liệu vào R Nhập số liệu trực tiếp: c() Nhập số liệu trực tiếp: edit(data.frame()) Nhập số liệu từ text file: read.table Nhập số liệu từ Excel Nhập số liệu từ SPSS Thông tin số liệu Tạo dãy số hàm seq, rep gl 10 10 12 13 14 15 16 17 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Biên tập số liệu Tách rời số liệu: subset Chiết số liệu từ data frame Nhập hai data.frame thành một: merge Biến đổi số liệu (data coding) Biến đổi số liệu cách dùng replace Biến đổi thành yếu tố (factor) Phân nhóm số liệu cut2 (Hmisc) 19 19 20 21 22 23 23 24 6.1 6.2 Sử dụng R cho tính tốn đơn giản Tính tốn đơn giản Sử dụng R cho phép tính ma trận 24 24 26 7.1 7.2 7.3 7.3.1 7.3.2 7.3.3 7.3.4 7.4 Sử dụng R cho tính tốn xác suất Phép hoán vị (permutation) Biến số ngẫu nhiên hàm phân phối Biến số ngẫu nhiên hàm phân phối Hàm phân phối nhị phân (Binomial distribution) Hàm phân phối Poisson (Poisson distribution) Hàm phân phối chuẩn (Normal distribution) Hàm phân phối chuẩn chuẩn hóa (Standardized Normal distribution) Chọn mẫu ngẫu nhiên (random sampling) 31 31 32 32 33 35 36 38 41 8.1 8.2 8.3 8.4 8.5 8.5.1 8.5.2 8.6 8.7 8.7.1 8.8 Biểu đồ Số liệu cho phân tích biểu đồ Biểu đồ cho biến số rời rạc (discrete variable): barplot Biểu đồ cho hai biến số rời rạc (discrete variable): barplot Biểu đồ hình trịn Biểu đồ cho biến số liên tục: stripchart hist Stripchart Histogram Biểu đồ hộp (boxplot) Phân tích biểu đồ cho hai biến liên tục Biểu đồ tán xạ (scatter plot) Phân tích Biểu đồ cho nhiều biến: pairs 42 42 44 45 46 47 47 48 49 50 50 53 Phân tích số liệu biểu đồ R Nguyễn Văn Tuấn 8.9 Biểu đồ với sai số chuẩn (standard error) 54 9.1 9.2 9.3 9.3.1 9.3.2 9.4 9.5 9.6 9.7 9.8 9.9 9.10 9.10.1 9.10.2 Phân tích thống kê mơ tả Thống kê mơ tả (descriptive statistics, summary) Thống kê mơ tả theo nhóm Kiểm định t (t.test) Kiểm định t mẫu Kiểm định t hai mẫu Kiểm định Wilcoxon cho hai mẫu (wilcox.test) Kiểm định t cho biến số theo cặp (paired t-test, t.test) Kiểm định Wilcoxon cho biến số theo cặp (wilcox.test) Tần số (frequency) Kiểm định tỉ lệ (proportion test, prop.test, binom.test) So sánh hai tỉ lệ (prop.test, binom.test) So sánh nhiều tỉ lệ (prop.test, chisq.test) Kiểm định Chi bình phương (Chi squared test, chisq.test) Kiểm định Fisher (Fisher’s exact test, fisher.test) 55 55 60 61 61 62 63 64 65 66 67 68 69 70 71 10 10.1 10.1.1 10.1.2 10.1.3 10.2 10.3 Phân tích hồi qui tuyến tính Hệ số tương quan Hệ số tương quan Pearson Hệ số tương quan Spearman Hệ số tương quan Kendall Mơ hình hồi qui tuyến tính đơn giản Mơ hình hồi qui tuyến tính đa biến (multiple linear regression) 71 73 73 74 74 75 82 11 11.1 11.2 11.3 11.4 Phân tích phương sai Phân tích phương sai đơn giản (one-way analysis of variance) So sánh nhiều nhóm điều chỉnh trị số p Phân tích phương pháp phi tham số Phân tích phương sai hai chiều (two-way ANOVA) 85 85 87 90 91 12 12.1 12.2 12.3 Phân tích hồi qui logistic Mơ hình hồi qui logistic Phân tích hồi qui logistic R Ước tính xác suất R 94 95 97 101 13 13.1 13.2 13.4 13.4.1 13.4.2 13.4.3 13.4.4 13.4.5 Ước tính cỡ mẫu (sample size estimation) Khái niệm “power” Số liệu để ước tính cỡ mẫu Ước tính cỡ mẫu Ước tính cỡ mẫu cho số trung bình Ước tính cỡ mẫu cho so sánh hai số trung bình Ước tính cỡ mẫu cho phân tích phương sai Ước tính cỡ mẫu để ước tính tỉ lệ Ước tính cỡ mẫu cho so sánh hai tỉ lệ 103 104 106 107 107 108 110 111 112 14 Tài liệu tham khảo 115 15 Thuật ngữ dùng sách 117 Phân tích số liệu biểu đồ R Nguyễn Văn Tuấn Giới thiệu R Phân tích số liệu biểu đồ thường tiến hành phần mềm thông dụng SAS, SPSS, Stata, Statistica, S-Plus Đây phần mềm công ti phần mềm phát triển giới thiệu thị trường khoảng ba thập niên qua, trường đại học, trung tâm nghiên cứu công ti kĩ nghệ toàn giới sử dụng cho giảng dạy nghiên cứu Nhưng chi phí để sử dụng phần mềm tuơng đối đắt tiền (có lên đến hàng trăm ngàn đơ-la năm), số trường đại học nước phát triển (và số nước phát triển) khơng có khả tài để sử dụng chúng cách lâu dài Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm mới, với chủ trương mã nguồn mở, cho tất thành viên ngành thống kê học toán học giới sử dụng cách thống hồn tồn miễn phí Năm 1996, báo quan trọng tính tốn thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman [lúc đó] thuộc Trường đại học Auckland, New Zealand phát hoạ ngơn ngữ cho phân tích thống kê mà họ đặt tên R [1] Sáng kiến nhiều nhà thống kê học giới tán thành tham gia vào việc phát triển R Cho đến nay, qua chưa đầy 10 năm phát triển, ngày có nhiều nhà thống kê học, tốn học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lưới triệu người sử dụng R, số tăng nhanh Có thể nói vịng 10 năm nữa, vai trò phần mềm thống kê thương mại khơng cịn lớn thời gian qua Vậy R gì? Nói cách ngắn gọn, R phần mềm sử dụng cho phân tích thống kê vẽ biểu đồ Thật ra, chất, R ngơn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chun mơn cho vấn đề tính tốn cá biệt Vì thế, làm nghiên cứu khoa học, nước cịn nghèo khó nước ta, cần phải học cách sử dụng R cho phân tích thống kê đồ thị Bài viết ngắn hướng dẫn bạn đọc cách sử dụng R Tơi giả định bạn đọc khơng biết R, tơi kì vọng bạn đọc biết qua cách sử dụng máy tính Tải R xuống cài đặt vào máy tính Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Phân tích số liệu biểu đồ R Nguyễn Văn Tuấn Tài liệu cần tải về, tùy theo phiên bản, thường có tên bắt đầu mẫu tự R số phiên (version) Chẳng hạn phiên sử dụng vào cuối năm 2005 2.2.1, nên tên tài liệu cần tải là: R-2.2.1-win32.zip Tài liệu khoảng 26 MB, địa cụ thể để tải là: http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Tại website này, tìm thấy nhiều tài liệu dẫn cách sử dụng R, đủ trình độ, từ sơ đẳng đến cao cấp Nếu chưa quen với tiếng Anh, tài liệu tơi cung cấp thơng tin cần thiết để sử dụng mà không cần phải đọc tài liệu khác Khi tải R xuống máy tính, bước cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình Đây bước đơn giản, cần phút việc cài đặt R hồn tất Sau hồn tất việc cài đặt, icon R 2.2.1.lnk xuất desktop máy tính Đến sẵn sàng sử dụng R Có thể nhấp chuột vào icon có window sau: Phân tích số liệu biểu đồ R Nguyễn Văn Tuấn Tải R package cài đặt vào máy tính R cung cấp cho “ngơn ngữ” máy tính số function để làm phân tích đơn giản Nếu muốn làm phân tích phức tạp hơn, cần phải tải máy tính số package khác Package phần mềm nhỏ nhà thống kê phát triển để giải vấn đề cụ thể, chạy hệ thống R Chẳng hạn để phân tích hồi qui tuyến tính, R có function lm để sử dụng cho mục đích này, để làm phân tích sâu phức tạp hơn, cần đến package lme4 Các package cần phải tải cài đặt vào máy tính Địa để tải package là: http://cran.r-project.org, bấm vào phần “Packages” xuất bên trái mục lục trang web Theo tôi, số package cần tải máy tính để sử dụng cho phân tích dịch tễ học là: Tên package trellis lattice Hmisc Design Epi epitools Foreign Rmeta meta Chức Dùng để vẽ đồ thị làm cho đồ thị đẹp Dùng để vẽ đồ thị làm cho đồ thị đẹp Một số phương pháp mơ hình liệu F Harrell Một số mơ hình thiết kế nghiên cứu F Harrell Dùng cho phân tích dịch tễ học Một package khác chuyên cho phân tích dịch tễ học Dùng để nhập liệu từ phần mềm khác SPSS, Stata, SAS, v.v… Dùng cho phân tích tổng hợp (meta-analysis) Một package khác cho phân tích tổng hợp Phân tích số liệu biểu đồ R survival Nguyễn Văn Tuấn Chun dùng cho phân tích theo mơ hình Cox (Cox’s proportional hazard model) Package dùng cho phân tích thống kê lĩnh vực xã hội học Package dùng cho phân tích số liệu di truyền học Bayesian Model Average Zelig Genetics BMA Các package cài đặt trực tuyến cách chọn Install packages phần packages R hình Ngồi ra, package tải xuống máy tính cá nhân, việc cài đặt nhanh cách chọn Install package(s) from local zip file phần packages (xem hình đây) “Văn phạm” R R ngơn ngữ tương tác (interactive language), có nghĩa lệnh, lệnh theo “văn phạm”, R “đáp” lại kết Và, tương tác tiếp tục đạt yêu cầu “Văn phạm” chung R lệnh (command) hay function (tôi đề cập đến “hàm”) Mà hàm phải có thơng số; theo sau hàm thông số mà phải cung cấp Cú pháp chung R sau: đối tượng reg setwd(“c:/works/stats”) setwd hàm, cịn “c:/works/stats” thơng số hàm Để biết hàm cần có thơng số nào, dùng lệnh args(x), (args viết tắt chữ arguments) mà x hàm cần biết: > args(lm) function (formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ) NULL R ngôn ngữ “đối tượng” (object oriented language) Điều có nghĩa liệu R chứa object Định hướng có vài ảnh hưởng đến cách viết R Chẳng hạn thay viết x = thơng thường viết, R yêu cầu viết x == Đối với R, x = tương đương với x # lệnh sau mô 10 giá trị normal > x myobject my object my.object My.object.u my.object.L My.object.u + my.object.L [1] 20 Một vài điều cần lưu ý đặt tên R là: • Không nên đặt tên biến số hay variable kí hiệu “_” (underscore) my_object hay my-object • Khơng nên đặt tên object giống biến số liệu Ví dụ, có data.frame (dữ liệu hay dataset) với biến số age đó, khơng nên có object trùng tên age, tức không nên viết: age ?lm Một cửa sổ bên phải hình rõ cách sử dụng chí có ví dụ Bạn đọc đơn giản copy dán ví dụ vào R để xem cách vận hành Trước sử dụng R, sách cần bạn đọc đọc qua phần dẫn có sẵn R cách chọn mục help sau chọn Html help hình để biết thêm chi tiết Bạn đọc copy dán lệnh mục vào R để xem cho biết cách vận hành R Cách nhập liệu vào R Muốn làm phân tích liệu R, phải có sẵn liệu dạng mà R hiểu để xử lí Dữ liệu mà R hiểu phải liệu data.frame Có nhiều cách để nhập số liệu vào data.frame R, từ nhập trực tiếp đến nhập từ nguồn khác Sau cách thông dụng nhất: 4.1 Nhập số liệu trực tiếp: c() Ví dụ 1: có số liệu độ tuổi insulin cho 10 bệnh nhân sau, muốn nhập vào R 50 62 60 40 48 47 57 70 48 67 16.5 10.8 32.3 19.3 14.2 11.3 15.5 15.8 16.2 11.2 Chúng ta sử dụng function có tên c sau: > age insulin

Ngày đăng: 22/10/2022, 07:49

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...