Bài giảng Bài giảng giới thiệu ngôn ngữ R; vận hành ngôn ngữ R; đọc dữ liệu vào R; biến số trong R. Mời các bạn cùng tham khảo bài giảng để nắm chắc kiến thức.
Tuan V Nguyen Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích liệu ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V Nguyen Nội dung • Ngơn ngữ R • Vận hành • Đọc liệu vào R • Biến số R Một chút lịch sử • R "statistical and graphical programming language" • Xuất phát từ S – 1988 - S2: RA Becker, JM Chambers, A Wilks – 1992 - S3: JM Chambers, TJ Hastie – 1998 - S4: JM Chambers • R viết Ross Ihaka Robert Gentleman (Đại học Auckland, New Zealand), 1990s • Từ 1997: quốc tế hóa “R-core”, 15 người Ngơn ngữ (phần mềm) R • Mã nguồn mở - hồn tồn miễn phí ! • Chạy Windows, Unix, MacOS • Do chuyên gia thống kê phát triển • Rất nhiều phương pháp phân tích, đến nâng cao • Biểu đồ chất lượng cao • Các đại học viện nghiên cứu chuộng R • "Dân chủ hố" phương pháp thống kê cran.r-project.org Installation of R on Windows • Select Windows • Select “base” • Run OK Next • Then Finish – R icon on your desktop RStudio An “add-on” of R RStudio http://rstudio.org Giao điện RStudio Vận hành R Tương tác với R • Khởi động R • Dùng mũi tên up/down arrow keys để tìm lệnh trước console • Dùng mũi tên left/right keys để chỉnh sửa (edit) lệnh • Dùng TAB để có thêm lựa chọn (rất có ích) • Có thể viết nhiều lệnh dòng, cách dấu ";" Tên biến số (variable) • Dùng mẫu tự, số, kí hiệu (., -, _) • Kí hiệu "assignment": genotype Geno.type = Genotype + genotype > Geno.type [1] 12 Hàm (function) • Lệnh R = function • Hàm phải có arguments • Arguments bao gồm variable, parameters, options, v.v • Ví dụ: Phân tích mơ hình y = a + bx m1 = lm(y ~ x, data=test) Function • Lệnh R = function • Hàm phải có arguments • Ví dụ: Phân tích mơ hình y = a + bx m1 = lm(y ~ x, data = test) Object name m1 Function lm = linear model Arguments: variables: y, x dataset name Đọc liệu vào R Các liệu R đọc • Đọc trực tiếp • ASCII text files • Excel / csv • SAS, SPSS, Stata, etc • Databases Đọc liệu trực tiếp: c() age sex 18 21 35 50 M F M F weig ht 60.3 48.5 62.0 47.2 age = c(18, 21, 35, 50) sex = c("M", "F", "M", "F") weight = c(60.3, 48.5, 62.0, 47.2) # tạo thành dataset dat = data.frame(age, sex, weight) dat Dùng file.choose() để tìm file Dùng file.choose() t = file.choose() t = read.csv(file.choose()) – cửa sổ – tìm file liên quan Đọc từ ascii files: read.table File: "Hoa hau.txt" YoB 1971 1969 1976 1976 1976 1976 1980 1985 1985 1988 1990 1989 1991 1996 Year 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 Height Weight 157 50 158 NA 174 NA 172 NA 170 NA 172 50 169 49 169 49 172 52 181 60 182 61.5 173 55 173 49 173 59 Đọc từ ascii files: read.table hh = read.table("~/Dropbox/hoa hau.txt", header=T, na.strings="NA") hh # Giải thích read.table() – hàm R header = dùng dòng đầu file làm tên biến số na.strings = "NA", lấy NA làm kí hiệu cho giá trị khống (missing values) > hh YoB 1971 1969 1976 1976 1976 1976 1980 1985 1985 10 1988 11 1990 12 1989 13 1991 14 1996 Year Height Weight 1988 157 50.0 1990 158 NA 1992 174 NA 1994 172 NA 1996 170 NA 1998 172 50.0 2000 169 49.0 2002 169 49.0 2004 172 52.0 2006 181 60.0 2008 182 61.5 2010 173 55.0 2012 173 49.0 2014 173 59.0 Đọc liệu từ excel • Phức tạp (do cấu trúc excel thay đổi theo phiên bản) • Cách tốt nhất: – "Xuất khẩu" sang dạng csv – Dùng hàm read.csv() hh = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6-2019/Datasets/Hoa hau Vietnam.csv") head(hh) > head(hh) Group Name Name.Viet City Region Crown.Year Hoa Hau Bich Phuong B\x9di B\xcdch Ph ng Hanoi North 1988 Hoa Hau Dieu Hoa Nguy_n Di_u Hoa Hanoi North 1990 Hoa Hau Kieu Anh H\x9a Ki_u Anh Hanoi North 1992 Hoa Hau Thuy Thuy Nguy_n Thu Th_y Hanoi North 1995 Hoa Hau Thien Nga Nguy_n Thi\x90n Nga Saigon South 1996 Hoa Hau Ngoc Khanh Nguy_n Th_ Ng_c Kh\x88nh Saigon South 1998 Year 15/8/88 15/8/90 15/8/92 15/8/95 15/8/96 15/8/98 DoB 21/6/71 18/6/69 7/7/76 20/6/76 25/6/75 22/6/76 Age Height Bust Waist Hip Weight 17.2 158 86 60 88 50 21.2 158 81 61 84 NA 16.1 169 85 62 87 NA 19.2 169 78 58 88 NA 21.2 170 87 64 92 NA 22.2 171 87 64 92 54 Tóm lược • R phát triển quan trọng khoa học thống kê • Hồn tồn miễn phí • Sử dụng rộng rãi đại học giới • R vận hành theo packages • RStudio “add-on” vận hành gần độc lập với R ... Select “base” • Run OK Next • Then Finish – R icon on your desktop RStudio An “add-on” of R RStudio http://rstudio.org Giao điện RStudio Vận hành R R tập hợp nhiều "packages" R = Base + Packages... dung • Ngơn ngữ R • Vận hành • Đọc liệu vào R • Biến số R Một chút lịch sử • R "statistical and graphical programming language" • Xuất phát từ S – 1988 - S2: RA Becker, JM Chambers, A Wilks –... JM Chambers, TJ Hastie – 1998 - S4: JM Chambers • R viết Ross Ihaka Robert Gentleman (Đại học Auckland, New Zealand), 1990s • Từ 1997: quốc tế hóa ? ?R- core”, 15 người Ngơn ngữ (phần mềm) R • Mã