Phân tích số liệu và tạo biểu đồ bằng R

317 30 2
Phân tích số liệu và tạo biểu đồ bằng R

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân tích số liệu và tạo biểu đồ bằng ngôn ngữ R của tác giả Nguyễn Văn Tuấn là tài liệu rất hay và cơ bản với những bạn nào muốn học và theo định hướng theo đuổi nghề phân tích dữ liệu (Data Analysis). Tài liệu chi tiết, rõ ràng và tâm huyết

NGUYỄN VĂN TUẤN PHÂN TÍCH SỐ LIỆU TẠO BIỂU ĐỒ Hướng dẫn thực hành Hướng dẫn thực hành Phân tích số liệu tạo biểu đồ hướng dẫn thực hành Mục lục Lời nói đầu 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Giới thiệu ngơn ngữ R R ? Tải cài đặt R vào máy tính Package cho phân tích đặc biệt Khởi động ngưng chạy R “Văn phạm” ngôn ngữ R Cách đặt tên R Hỗ trợ R Môi trường vận hành 3.1 3.2 3.3 3.4 3.5 3.6 Nhập liệu Nhập số liệu trực tiếp: c() Nhập số liệu trực tiếp: edit(data.frame()) Nhập số liệu từ textfile: read.table() Nhập số liệu từ Excel: read.csv Nhập số liệu từ SPSS: read.spss Tìm thơng tin liệu 4.1 4.2 4.3 4.4 4.5 4.5.1 4.5.2 4.6 4.7 Biên tập liệu Kiểm tra số liệu trống không: na.omit() Tách rời liệu: subset Chiết số liệu từ data frame Nhập hai data.frame thành một: merge Mã hóa số liệu (data coding) Mã hoá hàm replace Đổi biến liên tục thành biến rời rạc Chia biến liên tục thành nhóm: cut Tập hợp số liệu cut2 (Hmisc) 5.1 5.2 5.3 5.4 5.4.1 5.4.2 Sử R cho phép tính đơn giản ma trận Tính tốn đơn giản Số liệu ngày tháng Tạo dãy số seq, rep gl Sử dụng R cho phép tính ma trận Chiết phần tử từ ma trận Tính tốn với ma trận 6.1 6.1.1 6.1.2 6.2 6.3 Tính tốn xác suất mơ (simulation) Tính toán đơn giản Phép hoán vị (permutation) Tổ hợp (combination) Biến số ngẫu nhiên hàm phân phối Các hàm phân phối xác suất (probability distribution function) Hàm phân phối nhị phân (Binomial distribution) Hàm phân phối Poisson (Poisson distribution) Hàm phân phối chuẩn (Normal distribution) Hàm phân phối chuẩn chuẩn hóa (Standardized Normal distribution) Hàm phân phối t, F χ2 Mô (simulation) Mô phân phối nhị phân Mô phân phối Poisson Mô phân phối χ2, t, F, gamma, beta, Weibull, Cauchy Chọn mẫu ngẫu nhiên (random sampling) 6.3.1 6.3.2 6.3.3 6.3.4 6.3.5 6.4 6.4.1 6.4.2 6.4.3 6.5 7.1 7.2 7.3 7.4 7.5 Kiểm định giả thiết thống kê ý nghĩa trị số P Trị số P Giả thiết khoa học phản nghiệm Ý nghĩa trị số P qua mô Vấn đề logic trị số P Vấn để kiểm định nhiều giả thiết (multiple tests of hypothesis) 8.1 8.1.1 8.1.2 8.1.3 8.1.4 8.1.5 8.1.6 8.17 Phân tích số liệu biểu đồ Môi trường thiết kế biểu đồ Nhiều biểu đồ cho cửa sổ (windows) Đặt tên cho trục tung trục hoành Cho giới hạn trục tung trục hoành Thể loại đường biểu diễn Màu sắc, khung, kí hiệu Ghi (legend) Viết chữ biểu đồ 8.2 8.3 8.4 8.5 8.6 8.6.1 8.6.2 8.6.3 8.6.4 8.6.5 8.7 8.7.1 8.8 8.9 8.9.1 8.9.2 8.9.3 8.9.4 8.9.5 8.9.6 8.9.10 9.0 9.1 9.2 9.3 9.4 9.4.1 9.4.2 9.5 9.6 9.7 9.8 9.9 9.10 9.11 9.12 9.12.1 9.12.2 Số liệu cho phân tích biểu đồ Biểu đồ cho biến số rời rạc (discrete variable): barplot Biểu đồ cho hai biến số rời rạc (discrete variable): barplot Biểu đồ hình trịn Biểu đồ cho biến số liên tục: stripchart hist Stripchart Histogram Biểu đồ hộp (boxplot) Biểu đồ (barchart) Biểu đồ điểm (dotchart) Phân tích biểu đồ cho hai biến liên tục Biểu đồ tán xạ (scatter plot) Phân tích Biểu đồ cho nhiều biến: pairs Một số biểu đồ “đa năng” Biểu đồ tán xạ hình hộp Biểu đồ tán xạ với kích thước biến thứ ba Biểu đồ xác suất tích lũy Biểu đồ hình đồng hồ (clock plot) Biểu đồ với sai số chuẩn (standard error) Biểu đồ vòng (contour plot) Biểu đồ với kí hiệu tốn Phân tích thống kê mơ tả Khái niệm tổng thể (population) mẫu (sample) Thống kê mơ tả: summary Kiểm định xem biến có phải phân phối chuẩn Thống kê mô tả theo nhóm Kiểm định t (t.test) Kiểm định t mẫu Kiểm định t hai mẫu So sánh phương sai (var.test) Kiểm định Wilcoxon cho hai mẫu (wilcox.test) Kiểm định t cho biến số theo cặp (paired t-test, t.test) Kiểm định Wilcoxon cho biến số theo cặp (wilcox.test) Tần số (frequency) Kiểm định tỉ lệ (proportion test, prop.test, binom.test) So sánh hai tỉ lệ (prop.test, binom.test) So sánh nhiều tỉ lệ (prop.test, chisq.test) Kiểm định Chi bình phương Kiểm định Fisher 10 10.1 10.1.1 10.1.2 10.1.3 10.2 10.2.1 10.2.2 10.2.3 10.2.4 10.3 10.4 10.5 10.6 11 11.1 11.1.1 11.1.2 11.2 11.2.1 11.2.2 11.3 11.4 11.4.1 11.5 11.5.1 11.5.2 11.6 11.7 11.8 11.9 12 12.1 Phân tích hồi qui tuyến tính (regression analysis) Hệ số tương quan Hệ số tương quan Pearson Hệ số tương quan Spearman Hệ số tương quan Kendall Mơ hình hồi qui tuyến tính đơn giản Vài dịng lí thuyết Phân tích hồi qui tuyến tính đơn giản R Giả định phân tích hồi qui tuyến tính Mơ hình tiên đốn Mơ hình hồi qui tuyến tính đa biến (multiple linear regression) Phân tích hồi qui đa thức (Polynomial regression analysis) Xây dựng mơ hình tuyến tính từ nhiều biến Xây dựng mơ hình tuyến tính Bayesian Model Average (BMA) Phân tích phương sai (analysis of variance) Phân tích phương sai đơn giản (one-way analysis of variance - ANOVA) Mơ hình phân tích phương sai Phân tích phương sai đơn giản với R So sánh nhiều nhóm (multiple comparisons) điều chỉnh trị số p So sánh nhiều nhóm phương pháp Tukey Phân tích biểu đồ Phân tích phương pháp phi tham số Phân tích phương sai hai chiều (two-way analysis of variance - ANOVA) Phân tích phương sai hai chiều với R Phân tích hiệp biến (analysis of covariance - ANCOVA) Mơ hình phân tích hiệp biến Phân tích R Phân tích phương sai cho thí nghiệm giai thừa (factorial experiment) Phân tích phương sai cho thí nghiệm hình vng Latin (Latin square experiment) Phân tích phương sai cho thí nghiệm giao chéo (cross-over experiment) Phân tích phương sai cho thí nghiệm tái đo lường (repeated measure experiment) Phân tích hồi qui logistic (logistic regression analysis) Mơ hình hồi qui logistic 12.2 12.3 12.4 12.5 12.6 12.7 13 13.1 13.2 13.3 13.4 13.5 13.6 14 14.1 14.2 Phân tích hồi qui logistic R Ước tính xác suất R Phân tích hồi qui logistic từ số liệu giản lược R Phân tích hồi qui logistic đa biến chọn mơ hình Chọn mơ hình hồi qui logistic Bayesian Model Average Số liệu dùng cho phân tích Phân tích biến cố (survival analysis) Mơ hình phân tích số liệu mang tính thời gian Ước tính Kaplan-Meier R So sánh hai hàm xác suất tích lũy: kiểm định log-rank (logrank test) Kiểm định log-rank R Mơ hình Cox (hay Cox’s proportional hazards model) Xây dựng mơ hình Cox Bayesian Model Average (BMA) 14.5.1 14.5.2 Phân tích tổng hợp (meta-analysis) Nhu cầu cho phân tích tổng hợp Ảnh hưởng ngẫu nhiên ảnh hưởng bất biến (Fixedeffects Random-effects) Qui trình phân tích tổng hợp Phân tích tổng hợp ảnh hưởng bất biến cho tiêu chí liên tục (Fixed-effects meta-analysis for a continuous outcome) Phân tích tổng hợp tính tốn “thủ cơng” Phân tích tổng hợp R Phân tích tổng hợp ảnh hưởng bất biến cho tiêu chí nhị phân (Fixed-effects meta-analysis for a dichotomous outcome) Mơ hình phân tích Phân tích R 15 15.1 15.2 15.3 15.4 15.4.1 15.4.2 15.4.3 15.4.4 15.4.5 Ước tính cỡ mẫu (estimation of sample size) Khái niệm “power” Thử nghiệm giả thiết thống kê chẩn đoán bệnh Số liệu để ước tính cỡ mẫu Ước tính cỡ mẫu Ước tính cỡ mẫu cho số trung bình Ước tính cỡ mẫu cho so sánh hai số trung bình Ước tính cỡ mẫu cho phân tích phương sai Ước tính cỡ mẫu cho ước tính tỉ lệ Ước tính cỡ mẫu cho so sánh hai tỉ lệ 16 Phụ lục 1: Lập trình viết hàm ngôn ngữ R 14.3 14.4 14.4.1 14.4.2 14.5 17 Phụ lục 2: Một số lệnh thông dụng R 18 Phụ lục 3: Thuật ngữ dùng sách 19 Lời bạt (tài liệu tham khảo đọc thêm) CHƯƠNG I LỜI NĨI ĐẦU Lời nói đầu Trái với quan điểm nhiều người, thống kê môn khoa học: Khoa học thống kê (Statistical Science) Các phương pháp phân tích dù dựa vào tảng tốn học xác suất, phần “kĩ thuật”, phần quan trọng thiết kế nghiên cứu diễn dịch ý nghĩa liệu Người làm thống kê, đó, khơng người đơn làm phân tích liệu, mà phải nhà khoa học, nhà suy nghĩ (“thinker”) nghiên cứu khoa học Chính thế, mà khoa học thống kê đóng vai trị quan trọng, vai trị khơng thể thiếu cơng trình nghiên cứu khoa học, khoa học thực nghiệm Có thể nói ngày nay, khơng có thống kê thử nghiệm gen với triệu triệu số liệu số vô hồn, vô nghĩa Một cơng trình nghiên cứu khoa học, cho dù có tốn quan trọng cỡ nào, khơng phân tích phương pháp khơng có ý nghĩa khoa học Chính ngày nay, cần nhìn qua tất tập san nghiên cứu khoa học giới, báo y học có phần “Statistical Analysis” (Phân tích thống kê), nơi mà tác giả phải mơ tả cẩn thận phương pháp phân tích, tính tốn nào, giải thích ngắn gọn sử dụng phương pháp để hàm ý “bảo kê” hay tăng trọng lượng khoa học cho phát biểu báo Các tạp san y học có uy tín cao u cầu phân tích thống kê nặng Xin nhắc lại để nhấn mạnh: khơng có phần phân tích thống kê, báo khơng có ý nghĩa khoa học Một phát triển quan trọng khoa học thống kê ứng dụng máy tính cho phân tích tính tốn thống kê Có thể nói khơng ngoa khơng có máy tính, khoa học thống kê khoa học buồn tẻ khô khan, với công thức rắc rối mà thiếu tính ứng dụng vào thực tế Máy tính giúp khoa học thống kê làm cách mạng lớn lịch sử môn: đưa khoa học thống kê vào thực tế, giải vấn đề gai góc góp phần làm phát triển khoa học thực nghiệm Người viết nhớ 20 năm trước sinh viên theo học chương trình thạc sĩ thống kê Úc, vị giáo sư khả kính kể câu chuyện nhà thống kê danh tiếng người Mĩ, Fred Mosteller, nhận hợp đồng nghiên cứu từ Bộ Quốc phịng Mĩ để cải tiến độ xác vũ khí Mĩ vào thời Thế chiến thứ II, mà ơng phải giải tốn thống kê gồm khoảng 30 thơng số Ơng phải mướn 20 sinh viên sau đại học làm việc này: 10 sinh viên việc suốt ngày tính tốn tay; cịn 10 sinh viên khác kiểm tra lại tính tốn 10 sinh viên Công việc kéo dài gần tháng trời Ngày nay, với máy tính cá nhân (personal computer) khiêm tốn, phân tích thống kê giải vịng giây Nhưng máy tính mà khơng có phần mềm máy tính đống sắt hay silicon “vô hồn” vô dụng Một phần mềm đã, làm cách mạng thống kê R Phần mềm số nhà nghiên cứu thống kê khoa học giới phát triển hoàn thiện khoảng 10 năm qua để sử dụng cho việc học tập, giảng dạy nghiên cứu Cuốn sách giới thiệu bạn đọc cách sử dụng R cho phân tích thống kê đồ thị Tại R? Trước đây, phần mềm dùng cho phân tích thống kê phát triển thông dụng Những phần mềm tiếng từ thời “xa xưa” MINITAB, BMD-P đến phần mềm tương đối STATISTICA, SPSS, SAS, STAT, v.v… thường đắt tiền (giá cho đại học có lên đến hàng trăm ngàn đơ-la hàng năm), cá nhân hay chí cho đại học không khả mua Nhưng R thay đổi tình trạng này, R hồn tồn miễn phí Trái với cảm nhận thơng thường, miễn phí khơng có nghĩa chất lượng Thật vậy, hồn tồn miễn phí, R cịn có khả làm tất (xin nói lại: tất cả), chí cịn cả, phân tích mà phần mềm thương mại làm R tải xuống máy tính cá nhân cá nhân nào, lúc nào, đâu giới Chỉ vài phút cài đặt R đưa vào sử dụng Chính mà đại đa số đại học Tây phương giới ngày chuyển sang sử dụng R cho học tập, nghiên cứu giảng dạy Trong xu hướng đó, sách có mục tiêu khiêm tốn giới thiệu đến bạn đọc nước để kịp thời cập nhật hóa phát triển tính tốn phân tích thống kê giới Cuốn sách soạn chủ yếu cho sinh viên đại học nhà nghiên cứu khoa học, người cần phần mềm để học thống kê, để phân tích số liệu, hay vẽ đồ thị từ số liệu khoa học Cuốn sách khơng phải sách giáo khoa lí thuyết thống kê, hay nhằm bạn đọc cách làm phân tích thống kê, giúp bạn đọc làm phân tích thống kê hữu hiệu hào hứng Mục đích tơi cung cấp cho bạn đọc kiến thức thống kê, cách ứng dụng R cho giải vấn đề, qua làm tảng để bạn đọc tìm hiểu hay phát triển thêm R Tôi cho rằng, ngành nghề nào, cách học phân tích thống kê hay tự làm phân tích Vì thế, sách viết với nhiều ví dụ liệu thực Bạn đọc vừa đọc sách, vừa làm theo dẫn sách (bằng cách gõ lệnh vào máy tính) thấy hào hứng Nếu bạn đọc có sẵn liệu nghiên cứu việc học tập hữu hiệu cách ứng dụng phép tính sách Đối với sinh viên, chưa có số liệu sẵn, bạn dùng phương pháp mô (simulation) để hiểu thống kê Khoa học thống kê nước ta tương đối mới, số thuật ngữ chưa diễn dịch cách thống hồn chỉnh Vì thế, bạn đọc thấy sách vài thuật ngữ “lạ”, trường hợp này, cố gắng kèm theo thuật ngữ gốc Data frames data.frame(x,y) tuan$age attach(tuan) detach(tuan) Nhập x y thành data frame Chọn biến số age từ dataframe tuan Đưa dataframe tuan vào hệ thống R Xóa bỏ dataframe tuan khỏi hệ thống R Hàm số toán log(x) log10(x) exp(x) sin(x) cos(x) tan(x) asin(x) acos(x) atan(x) Logarít bậc e Logarít bậc 10 Số mũ Sin Cosin Tangent Arcsin (hàm sin đảo) Arccosin (hàm cosin đảo) Arctang(hàm tan đảo) Hàm số thống kê min(x) max(x) which.max(x) which.min(x) Số nhỏ biến số x Số lớn biến số x Tìm dịng có giá trị lớn biến số x Tìm dịng có giá trị nhỏ biến số x Tổng số yếu tố (elements) biến số (hay số mẫu) Số tổng biến số x Khác biệt max(x) min(x) Số trung bình biến số x median(x) Số trung vị (median) biến số x sd(x) Độ lệch chuẩn (standard deviation) biến số x var(x) Phương sai (variance) biến số x cov(x,y) Hiệp biến (covariance) hai biến số x y cor(x,y) Hệ số tương quan (coefficient of correlation) biến số x y quantile(x) Chỉ số biến số x cor(x,y) Hệ số tương quan (correlation coefficient) biến số x y is.na(x) Kiểm tra xem x có phải số trống khơng (missing value) complete.cases(x1,x2, ) Kiểm tra tất x1, x2, … khơng có số trống length(x) sum(x) range(x) mean(x) Chỉ số ma trận x[1] x[1:5] x[y

Ngày đăng: 20/04/2021, 09:42

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan