Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 522 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
522
Dung lượng
25,73 MB
Nội dung
Phantich a ak os oe "“ =:- ieee | 017 (014 037 | Lal|:|ÊJlŸ lo : Bê) si : 0.27 024 Eola ï KH lo ssi “i ee aea TỦ rina’ kã NHÀ XUẤT BẢN TỔNG HỢP THÀNH PHỐ HỒ CHÍ MINH PHÂN TÍCH DỮ LIỆU — l1 J7 ae ; Je BIỂU GHI BIÊN MỤC TRƯỚC XUẤT BẢN ĐƯỢC THỰC HIỆN BỞI THƯ VIÊN KHTH TP.HCM Nguyễn Văn Tuấn Phân tích liệu với R / Nguyễn Văn Tuấn - T.P Hồ Chí Minh : Nxb Tổng hợp T.P Hồ Chí Minh, 2014 520 tr.; 25 cm ISBN 978-604-58-2831-1 Cơ sở liệu Phương pháp thống kê Xử lý liệu Phương pháp thống kê Databases Stastical methods Data processing Stastical methods 025.0400727 ddc 23 N573-T88 NGUYEN VAN TUAN bì PHAN TICH DU LIEU NHÀ XUẤT BAN TỔNG HỢP THÀNH PHỐ HỒ CHÍ MINH LỜI NĨI ĐẦU hống kê mơn khoa học liệu Dữ liệu thu thập từ nghiên cứu khoa học, bắt nguồn từ “thí nghiệm tự nhiên” xã hội đời sống hàng ngày Khoa học thống kê (statistical science) phương pháp thống kê giúp chuyển hố đữ liệu thơ thành thơng tin, với kiến thức chuyên ngành, biến thông tin thành fr¡ thức Do đó, khoa học thống kê đóng vai trị khơng thể thiếu việc hốn chuyển liệu thành thông tin tri thức Trái với quan điểm nhiều người xem thống kê công cụ, thực tế, phương pháp phân tích dù dựa vào tảng toán học xác suất, phần “kĩ thuật; phần quan trọng thiết kế nghiên cứu diễn giải ý nghĩa liệu Người làm thống kê, đó, khơng người đơn làm phân tích liệu, mà phải nhà khoa học, nhà suy nghĩ (thinker) nghiên cứu khoa học Chính thế, mà khoa học thống kê đóng vai trị quan trọng, vai trị khơng thể thiếu cơng trình nghiên cứu khoa học, khoa học thực nghiệm Có thể nói ngày nay, khơng có thống kê thử nghiệm gen với triệu triệu số liệu số vơ hồn, vơ nghĩa Một cơng trình nghiên cứu khoa học, cho dù có tốn quan trọng cỡ nào, khơng phân tích phương pháp khơng có ý nghĩa khoa học Chính mà ngày nay, cần nhìn qua tất tập san nghiên cứu khoa học giới, báo y học có phần “Statistical Analysis” (Phan tich thống kê), nơi mà tác giả phải mô tả cẩn thận phương pháp phân tích, tính tốn nào, giải thích ngắn gọn sử dụng phương pháp để hàm ý “bảo vệ” hay tăng trọng lượng khoa học cho phát biểu báo Các tập san y học có uy tín cao u cầu phân tích thống kê nặng Một phát triển quan trọng khoa ứng dụng máy tính cho phân tích tính tốn thống kê Có ngoa khơng có máy tính, khoa học thống kê buổn tẻ khô khan, với cơng thức rắc rối mà thiếu tính học thống kê thể nói khơng khoa học ứng dụng vào thực tế Máy tính giúp khoa học thống kê làm cách mạng lớn lịch sử mơn: đưa khoa học thống kê vào thực tế, giải vấn để gai góc góp phần làm phát triển khoa học thực nghiệm Ngày nay, với máy tính cá nhân, thực phân tích thống kê phức tạp vòng vài giây mà trước phải tốn hàng tháng trời hoàn tất Nhưng máy tính mà khơng có phần mềm máy tính đống sắt hay silicon “vô hồn” vô dụng Một phần mềm đã, làm cách mạng thống kê R Phần mềm số nhà nghiên cứu thống kê khoa học giới phát triển hoàn thiện khoảng 20 năm qua để sử dụng cho việc học tập, giảng dạy nghiên cứu Cuốn sách giới thiệu bạn đọc cách sử dụng R cho phân tích thống kê đồ thị R ngơn ngữ thống kê học, xem phần mềm sử dụng cho phân tích thống kê Trong khoảng thập niên qua, R trở nên phổ biến trường đại học giới, dùng phương tiện cho giảng dạy thống kê học Vì R hồn tồn miễn phí có lực phân tích liệu cao phần mềm thương mại (như SPSS, SAS, Stata, v.v.) nên chuyên gia dự đoán R trở thành nhu liệu thống kê học phổ biến tương lai gần Do đó, cần phải học “làm quen” với R qua sử dụng nhu liệu phân tích liệu Trái với cảm nhận thơng thường, miễn phí khơng có nghĩa chất lượng Thật vậy, hồn tồn miễn phí, R cịn có khả nang lam tét cd (xin nói lại: tất cả), chí cịn cả, phân tích mà phần mềm thương mại làm Có phương pháp phân tích phần mềm thương mại khơng thể thực được, R thực cách dễ dàng Ngày nay, tất phương pháp phân tích triển khai qua R trước đưa vào phần mềm khác R tải xuống máy tính cá nhân cá nhân nào, lúc nào, đâu giới Chỉ vài phút cài đặt R đưa vào sử dụng Chính mà đại đa số đại học nước ngày chuyển sang sử dụng R cho học tập, nghiên cứu giảng dạy Trong xu hướng đó, sách có mục tiêu khiêm tốn giới thiệu đến bạn đọc nước để kịp thời cập nhật hóa phát triển tính tốn phân tích thống kê giới Cuốn sách soạn chủ yếu cho sinh viên đại học nhà nghiên cứu khoa học, người cần phần mềm để học thống kê, để phân tích số liệu, hay vẽ đồ thị từ số liệu khoa học Cuốn sách khơng phải sách giáo khoa lí thống kê, hứng Mục thống tảng để bạn thuyết thống kê, hay nhằm bạn đọc cách làm phân tích giúp bạn đọc làm phân tích thống kê hữu hiệu hào đích cung cấp cho bạn đọc kiến thức kê, cách ứng dụng R cho giải vấn để, qua làm đọc tìm hiểu hay phát triển thêm R Tôi cho rằng, ngành nghề nào, cách học phân tích thống kê hay tự làm phân tích Vì thế, sách viết với nhiều ví dụ liệu thực Bạn đọc vừa đọc sách, vừa làm theo dẫn sách (bằng cách gõ lệnh vào máy tính) thấy hào hứng Nếu bạn đọc có sẵn liệu nghiên cứu việc học tập hữu hiệu sinh viên, chưa (simulation) cho phân tích Các cách ứng dụng có số liệu sẵn, để hiểu thống đữ liệu phép tính sách Đối với bạn dùng phương pháp mô kê Trong sách có số liệu dùng đưa lên mạng có trang web www.statistics.vn/data Bạn đọc tải liệu máy tính cá nhân tự thực hành Bạn đọc thực hành hàm R máy tính cá nhân mà khơng cần tải liệu máy Khoa học thống kê nước ta tương đối mới, số thuật ngữ chưa diễn dịch cách thống hồn chỉnh Vì thế, bạn đọc thấy sách vài thuật ngữ “lạ; trường hợp này, cố gắng kèm theo thuật ngữ gốc tiếng Anh để bạn đọc tham khảo Ngoài ra, phần cuối sách, tơi có liệt kê thuật ngữ Anh - Việt đề cập đến sách Tôi chân thành cảm ơn Tiến sĩ Nguyễn Đình Nguyên Kiến trúc sử Nguyễn Nhất Hùng thiết kế có ý tưởng thiết kế cho trang bìa sách Tơi hi vọng bạn đọc tìm thấy sách vài thơng tin bổ ích, vài kĩ thuật hay phép tính có ích cho việc học tập, giảng dạy nghiên cứu Nhưng có lẽ, chẳng có sách hồn thiện hay khơng có thiếu sót; đó, bạn đọc phát sai sót sách, xin báo cho biết Thành thật cảm ơn bạn đọc trước Bây giờ, mời bạn đọc với tơi “hành trình thống kê” ngắn với R Sydney, 30/7/2014 (Những ngày dưỡng bệnh) Nguyễn Văn Tuấn Giới thiệu ngơn ngữ R 1.1 R gì? Nói cách ngắn gọn, R phần mềm sử dụng cho phân tích thống kê đồ thị Thật ra, chất, R ngơn ngữ máy tính đa năng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn cho vấn để tính tốn cá biệt Hai người sáng tạo R hai nhà thống kê học tên la Ross Ihaka va Robert Gentleman Kể từ R đời, nhiều nhà nghiên cứu thống kê toán học giới ủng hộ tham gia vào việc phát triển R Chủ trương người sáng tạo R theo định hướng mở rộng (Open Access) Cũng phần chủ trương mà R hồn tồn miễn phí Bất nơi giới truy nhập tải toàn mã nguồn R máy tính để sử dụng Cho đến nay, qua chưa đầy năm phát triển, có nhiều nhà thống kê học, toán học, nghiên cứu lĩnh vực chuyển sang sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lưới gần triệu người sử dụng R, số tăng theo cấp số nhân Có thể nói vịng 10 năm nữa, không cần đến phần mềm thống kê đắt tiền nhu SAS, SPSS hay Stata (cac phan mém giá lên đến 100.000 USD năm) để phân tích thống kê nữa, tất phân tích tiến hành R Vì thế, làm nghiên cứu khoa học cần nên học cách sử dụng R cho phân tích thống kê đồ thị Chương hướng dẫn bạn đọc cách sử dụng R | | 1.2 Tải R xuống cài đặt vào máy tính Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên “Comprehensive R Archive Network” (CRAN) sau đây: http://cran.R-project.org Tài liệu cần tải về, tùy theo phiên bản, thường có tên bat dau mẫu tự R số phiên (version) Chẳng hạn phiên mà tác giả sử dụng vào cuối năm 2005 2.2.1, nên tên tài liệu cần tải là: R-2.2.1-win32.zip Tài liệu khoảng 26 MB, địa cụ thể để tải là: http://cran.r-project.org/bin/windows/base/R-2.2.1-win32.exe Tại website này, dụng R, đủ trình độ, liệu cung phải đọc tài liệu tìm thấy nhiều tài liệu dẫn cách sử từ sơ đẳng đến cao cấp Nếu chưa quen với tiếng Anh, tài cấp thông tin cần thiết để sử dụng mà không cần khác Khi tải R xuống máy tính, bước cài đặt (set-up) vào máy tính Để làm việc này, đơn giản nhấn chuột vào tài liệu làm theo hướng dẫn cách cài đặt hình 1.3 Package cho phân tích đặc biệt R cung cấp cho “ngôn ngữ” máy tính số ƒuncfion để làm phân tích đơn giản Nếu muốn làm phân tích phức tạp hơn, cần phải tải máy tính số package khác Package phần mềm nhỏ nhà thống kê phát triển để giải vấn để cụ thể, chạy hệ thống R Chẳng hạn để phân tích hồi qui tuyến tính, R có function Im để sử dụng cho mục đích này, để làm phân tích sâu phức tạp hơn, cần đến package lme4 Các package cần phải tải máy tính cài đặt Địa để tải package là: http://cran.r-project.org, bấm vào phần “Packages” xuất bên trái mục lục trang web Một số package cần tải máy tính để sử dụng cho ví dụ sách là: Simulation Mô Standard deviation Độ lệch chuẩn Standard error Sai số chuẩn Standardized normal distribution Phân phối chuẩn chuẩn hóa Survival analysis Phân tích biến cố Transposed matrix Ma trận chuyển vị Variable Biến (biến số) Variance Phương sai Weight Trọng số Weighted mean Trung bình trọng số ng ; MU vế: Đôi lời bạt bạn đọc (và tài liệu tham khảo) ua 22 chương sách phụ lục, bạn đọc tác giả hành trình dài phân tích thống kê biểu đổ Trước “chia tay” bạn đọc, tác giả muốn có đơi lời tạm biệt Qua kinh nghiệm giảng dạy nghiên cứu cá nhân cho thấy phần lớn sinh viên tiếp cận với khoa học thống kê lần đầu chẳng hào hứng, khơng nói khó khăn, sách giáo khoa soạn cho môn học xa rời thực tế, với ví dụ khơng có đời thường Những khái niệm trừu tượng, công thức rắc rối, phép tính phức tạp rườm rà làm cho người học cảm thấy khó khăn từ cảm thấy thiếu hứng thú theo đuổi môn học Thật vậy, có đọc sách giáo khoa, báo nghiên cứu khoa học, bắt gặp phương pháp hay hợp cho nghiên cứu mình, khơng biết mơ hình Trong sách này, tác giả muốn cung phương tiện phân tích thực tế để lấp khoảng trống mơ hình thích tính tốn cấp cho bạn đọc phương pháp kiến thức mà có lẽ bạn đọc cịn thiếu Học phải đôi với hành Cách học phương pháp hay nhất, theo tôi, bắt chước R cung cấp cho bạn đọc cách học mô tiện lợi Trong đọc chương sách với ví dụ, bạn đọc gõ lệnh vào máy tính xem kết có qn với đọc hay khơng Sau biết cách sử dụng hàm hay lệnh đó, bạn đọc thêm vào (hay bớt ra) thông số hàm để xem kết Chỉ có học bạn đọc nắm vững khái niệm cách sử dụng R 509 Chúng ta học từ sai sót Qua sách này, tác giả muốn bạn đọc quãng đường gập ghềnh, tức bạn đọc phải tương tác với máy tính lệnh R Trong q trình tương tác đó, số lệnh khơng chạy, gõ sai tên biến số hay sai tả, khơng để ý đến kí tự viết hoa viết thường, số liệu khơng đầy đủ hay sai sót, v.v Tất lần sai sót giúp cho bạn đọc rút kinh nghiệm trở nên thành thạo Đó cách học mà người Anh hay gọi la “trial and error’, hoc tt sai lầm thử nghiệm ` « Tinn-R Một cơng trình phân tích số liệu cần nhiều lệnh va hàm R Tuy nhiên, tính tương tác mà bạn đọc theo đõi, lệnh biến ngưng R Van dé dat có cách lưu trữ lệnh hồ sơ để sau sử dụng lại Phần mềm có ích cho mục đích Tinn~R (cũng tải xuống cài đặt vào máy hoàn toàn miễn phi) Website dé tai Tinn-R va tài liệu sử dụng là: http://www.sciviews.org/Tinn-R Tinn-R thực chất editor cho R (và nhiều phần mềm khác) Tinn-R cho phép lưu trữ tất lệnh cho cơng trình phân tích hồ sơ Với Tinn-R, có sẵn dẫn trực tuyến cách sử dụng lệnh hay hàm R Trong lệnh gõ sai “văn phạm” R, Tinn-R sé bdo để nghị cách sửa! Giao diện Ti nn-R giống sau: HP Eat Home Post: Senh Qalsg Dota ee Teds Bo Yes Winder ‘Bet dam, Ba hae wet A tox check ogner sib Se ied hockays matte Oe [dave] Lá Hotent tomas, aye yenet ALLL Rink free dogs TPUE comreed chars sreastabte> "nh “S.c g Chẳng hạn giao diện trên, gõ read table ( dẫn phía ra, với tất thơng số hàm read.table Với Tinn-R phạm phải sai sót nhỏ chạy R Sau xong số lệnh, dùng chuột để tơ đậm (highlight) lệnh cần chạy gửi sang R, Chú ý không cần phải rời Tinn-R R chạy Đến đây, có lẽ bạn đọc hỏi: có cách sử dụng R dễ dàng mà không cần phải gõ lệnh? Câu trả lời có Tại không giới thiệu trước, từ chương đầu? Tại vì, tơi muốn bạn đọc đường khó trước đường dễ, nên đến nói đến phần mềm phụ khác có khả giúp cho bạn đọc sử dụng R cách nhanh chóng hơn, dé dang hơn, tiện lợi chuột thay bàn phím Rcmdr Phần mềm để “tự động hóa” R có tên Remdr (viét tat tu R commander) Trong thực tế, Rcmdr package mà bạn đọc tải từ website thức R (http://cran.au.r-project.org/src/contrib/Descriptions/Rcmdr.htm]) hay website tác giả Rcmdr sau đây: http://socserv.socsci.mcmaster.ca/ jfox/Misc/Remdr Chú ý, Rcmdr vận hành tốt có package sau may: relimp, multcomp, lmtest, effects, car, va abind Néu chưa có package này, bạn đọc nên tải chúng máy Tài liệu dẫn Rcmdr tải từ website http://cran.R-project.org/doc/packages/ Rcmdr.pdf Khi tải Rcmdr xuống cài đặt vào máy tính, bạn đọc đơn giản lệnh: 1ibrary (Rcmdr), giao diện xuất Với phan “menu” (nhu File, Edit, Data, Statistics, Graphs, Models, Distribution, Tool, Help) ban doc cé thé ty minh kham pha cach van hành Rcmdr chuột 511 feet eit many contr É HƠEĐ XUẾOEHSEEKOB Si ice Root F packages in pa aome ives, ‘heipi)’ gor on-line help, Yan HIM pecweser wwtertace to here, “ stat T Seen + Pe B commander Version 1,i-7: Bon Ape 27 90:51:24 2DỢ6, ¬ ees ne en rks ae Về nội dung sách lần xuất thứ này, tác giả khơng có ý định bàn mơ hình phân tích đa bién (multivariate analysis model) phân tích yếu tố (factor analysis), phân tích tập hợp (cluster analysis), phân tích tương quan đa biến (correspondence analysis), phân tích phương sai đa biến (multivariate analysis of variance), v.v phương pháp tương đối cao cấp, địi hỏi người sử dụng phải thơng thạo khơng lí thuyết thống kê, mà cịn phải hiểu rõ phương pháp phân tích trình bày sách Tuy nhiên, bạn đọc có nhu cầu cho phương pháp phân tích tìm hiểu trang web R để biết thêm package chuyên dụng cho phân tích đa biến RStudio Sau cùng, muốn giới thiệu RStudio add-on tốt cho R Trong thực tế, RStudio phần mềm đứng riêng, hiểu theo nghĩa, khởi động RStudio khơng cần khởi động R, tất hàm, lệnh R thực RStudio Về giao diện, RStudio có cửa số chính: cửa sổ dành cho viết hàm, cửa sổ quản lí biến dataframe, cửa sổ kết quả, cửa sổ để lưu trữ biểu đồ (xem hình đây) ‘Code Bros i View OF rormatPtot Ry Đ] ƠÍ5outeansae Workspace TẢ source(“plots (for matPToC, & summary/diamonds+ § aveSize clarity 1i 13 _ diamonds iy 1ibrary“ggpTorz? Hels oe Xử Source v p Workspace 44 diamonds 53940 obs of 10 variables aveSize 7979 Vaiues - roundfmean{diamondstcarat?, Tevelsídiamonds%cTarity? clarity 47 Picts TK = Âu se 1192207235171 -EEA.T-20 tre 9: 6.000 Min, : 5.700 5.731 Median: 5.710 Mean 25.735 Median Mean Max Max Console ~: MÌn ist x qu.: Median Mean | 4.716 3rd Qu.: 6.540 Max = 740.740 dst qu.: > 4.720 ist 3rd Qu.: 6.560 > Sumacy (di amonds Spr ice) MÍn 15L Qu Median 326 aveSize =: 0,000 i + maine"Damond Fo | + format.plot(p, Price “**" vsz Max vst 18820 43 vvet *£ : E a ~ wae Pricing’) i Clarity