ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC - KỸ THUẬT MÁY TÍNH TOÁN RỜI RẠC Bài tập lớn đề tài 11 Thống kê & phân tích liệu R GVHD: SV: NNN Nguyen Van A- 22102134 Tran Van B - 88471334 TP HỒ CHÍ MINH, THÁNG 1/2015 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Mục lục Giới thiệu toán 2 Cơ sở lý thuyết 2.1 Thống kê mô tả 2.2 Công cụ R 2 3 Kết phân tích liệu 3.1 Tập liệu 3.2 Kết phân tích 3 Kết luận Bài tập lớn môn Toán Rời Rạc - Niên khóa 2012-2013 Trang 1/7 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Bài báo cáo trình bày thống kê phân tích liệu chiều cao ca sĩ New York Choral Society năm 1979, chia thành cột theo giọng nữ cao, nữ trầm, nam cao nam trầm Giới thiệu toán Ta cần phải phân tích liệu để cung cấp thông tin xác thực, trực quan, mô tả cụ thể, dễ hiểu vấn đề phân tích để phục vụ nghiên cứu khoa học Đặc biệt vấn đề kinh tế-xã hội nghiên cứu số lớn cần phải quan tâm đến công cụ kỹ thuật phân tích số liệu biểu đồ Phân tích số liệu biểu đồ thường tiến hành phần mềm thông dụng SAS, SPSS, Stata, Statistica, S-Plus Đây phần mềm công ti phần mềm phát triển giới thiệu thị trường khoảng ba thập niên qua, trường đại học, trung tâm nghiên cứu công ti kĩ nghệ toàn thếgiới sửdụng cho giảng dạy nghiên cứu Nhưng chi phí để sửdụng phần mềm tuơng đối đắt tiền (có lên đến hàng trăm ngàn đô-la năm) Do đó, nhà nghiên cứu thống kê giới hợp tác với để phát triển phần mềm mới, với chủ trương mã nguồn mở, cho tất cảcác thành viên ngành thống kê học toán học thếgiới sử dụng cách thống hoàn toàn miễn phí Năm 1996, báo quan trọng vềtính toán thống kê, hai nhà thống kê học Ross Ihaka Robert Gentleman [lúc đó] thuộc Trường đại học Auckland, New Zealand phát hoạmột ngôn ngữmới cho phân tích thống kê mà họ đặt tên R Nói cách ngắn gọn, R phần mềm sử dụng cho phân tích thống kê vẽ biểu đồ Thật ra, chất, R ngôn ngữ máy tính đa năng, sửdụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí (recreational mathematics), tính toán ma trận (matrix), đến phân tích thống kê phức tạp Vì ngôn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn cho vấn đề tính toán cá biệt Sơ lược đề tài : Phân tích đề tài chiều cao ca sĩ hội hợp xướng New York vào năm 1979 Với giọng hát từ cao đến thấp với thứ tự Soprano, Alto, Tenor, Bass Trong hai cột giọng nữ hai cột sau giọng nam Các liệu ban đầu bao gồm hai phận cho phần Bộ liệu báo cáo Soprano, Alto, Tenor, Bass Với số trường hợp ban đầu 39 2.1 Cơ sở lý thuyết Thống kê mô tả Nói đến thống kê mô tả nói đến việc mô tả liệu phép tính số thống kê thông thường mà làm quen qua từ thuở trung học số trung bình (mean), số trung vị (median), số lớn (max), số nhỏ (min), phương sai (variance), độ lệch chuẩn (standard deviation) Trong ta làm quen định nghĩa chưa biết : - Phương sai biến ngẫu nhiên độ đo phân tán thống kê biến đó, hàm ý giá trị biến thường cách giá trị kỳ vọng bao xa - Độ lệch chuẩn, hay độ lệch tiêu chuẩn, đại lượng thống kê mô tả dùng để đo mức độ phân tán tập liệu lập thành bảng tần số Có thể tính độ lệch chuẩn cách lấy bậc hai phương sai Bài tập lớn môn Toán Rời Rạc - Niên khóa 2012-2013 Trang 2/7 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - số trung vị (tiếng Anh: median) số tách nửa lớn nửa bé mẫu, quần thể, hay phân bố xác suất Nó giá trị phân bố, mà số số nằm hay số Điều có nghĩa 1/2 quần thể có giá trị nhỏ hay số trung vị, nửa quần thể có giá trị lớn số trung vị 2.2 Công cụ R Như nói trên, R công cụ miễn phí dùng để phân tích liệu Chúng ta sử dụng R để thực phép toán từ đơn giản đến phức tạp Những toán tiêu biểu: phép kiểm định thống kê, tính toán ma trận, hồi quy tuyến tính, gom cụm liệu, toán phân lớp Và R ngôn ngữ nên viết ứng dụng R để giải vấn đề cụ thể - Các hàm R để tính toán thống kê mô tả: > option (width=100) # chuyển directory > setwd ("C:/works/stats") # đọc liệu vào R > igfdata attach (igfdata) # xem xét cột số liệu > names (igfdata) > igfdata # tính trung bình > mean (age) # phương sai độ lệch chuẩn > var (age) > sd (age) 3.1 - Kết phân tích liệu Tập liệu Tập liệu chia thành cột theo giọng nữ cao, nữ trầm, nam cao nam trầm Đọc liệu R : nhập liệu vào excel lưu dạng csv (coma delimited) Dùng R để nhập liệu dạng csv: giả sử lưu liệu có tên excel.csv directory “D:/trr” Vào R gõ lệnh : >setwd(“D:/trr”) # dẫn R đến thư mục chứa file excel.csv >asave (a, file=”a.rda” ) # lưu a dạng R để xử lý - Sau ta kiểm tra lại: > setwd("D:/trr") > a a - Kết quả: Soprano 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 Alto 64 62 66 65 60 61 65 66 65 63 67 65 62 65 68 65 63 65 62 65 66 62 65 63 65 66 65 62 65 66 65 61 65 66 65 62 NA NA NA Tenor 65 69 62 72 68 71 67 66 67 76 63 74 67 71 66 66 63 68 72 67 62 70 61 65 66 72 64 70 60 68 61 73 66 66 66 68 66 67 62 64 70 NA 65 NA 64 NA 63 NA 65 NA 69 NA 61 NA 66 NA 65 NA 61 NA 63 NA 64 NA 67 NA 66 NA 68 NA NA NA NA NA NA NA NA NA Bass 72 70 72 69 73 71 72 68 68 71 66 68 71 73 73 70 68 70 75 68 71 70 74 70 75 75 69 72 71 70 71 68 70 75 72 66 72 70 69 >a save(a, file=”a.rda”) # lưu a dạng R > attach(a) # dẫn cho R biết muốn xử lí a >a Bài tập lớn môn Toán Rời Rạc - Niên khóa 2012-2013 Trang 4/7 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính 10 11 12 13 14 15 16 17 18 19 20 3.2 Soprano 64 62 66 65 60 61 65 66 65 63 67 65 62 65 68 65 63 65 62 65 Alto 65 62 68 67 67 63 67 66 63 72 62 61 66 64 60 61 66 66 66 62 Tenor 69 72 71 66 76 74 71 66 68 67 70 65 72 70 68 73 66 68 67 64 Bass 72 70 72 69 73 71 72 68 68 71 66 68 71 73 73 70 68 70 75 68 Kết phân tích - Thuộc tính thứ - Soprano: > min(Soprano) [1] 60 > max(Soprano) [1] 68 > mean(Soprano) [1] 64.2 > median(Soprano) [1] 65 > var(Soprano) [1] 4.168421 > sd(Soprano) [1] 2.041671 Nhận xét: Qua số liệu phân tích ta thấy: chiều cao thấp đối tượng alto 60 inch, chiều cao cao 68 inch,phương sai Soprano thấp (4.7) cho thấy khoảng cách để đạt đến chiều cao kì vọng gần,ở số trung vị cho thấy chiếu cao đối tượng nằm chủ yếu 65 inch,độ lệch chuẩn cho thấy đối tượng có chênh lệch chiều cao so với chiều cao trung bình khoảng inch - Thuộc tính thứ - Alto: > min(Alto) [1] 60 > max(Alto) Bài tập lớn môn Toán Rời Rạc - Niên khóa 2012-2013 Trang 5/7 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính [1] 72 > mean(Alto) [1] 64.7 > median(Alto) [1] 65.5 > var(Alto) [1] 8.747368 > sd(Alto) [1] 2.957595 Nhận xét: Qua số liệu phân tích ta thấy: chiều cao thấp đối tượng alto 60 inch, chiều cao cao 72 inch,phương sai Alto lớn (8.7) cho thấy khoảng cách để đạt đến chiều cao kì vọng xa,ở số trung vị cho thấy chiếu cao đối tượng nằm chủ yếu 65.5 inch,độ lệch chuẩn cho thấy đối tượng có chênh lệch chiều cao so với chiều cao trung bình khoảng inch - Thuộc tính thứ - Tenor: > min(Tenor) [1] 64 > max(Tenor) [1] 76 > mean(Tenor) [1] 69.15 > median(Tenor) [1] 68.5 > var(Tenor) [1] 10.34474 > sd(Tenor) [1] 3.216323 Nhận xét: Qua số liệu phân tích ta thấy: chiều cao thấp đối tượng alto 64 inch, chiều cao cao 76 inch,phương sai Tenor lớn (10.3) cho thấy khoảng cách để đạt đến chiều cao kì vọng xa,ở số trung vị cho thấy chiếu cao đối tượng nằm chủ yếu 69.15 inch,độ lệch chuẩn cho thấy đối tượng có chênh lệch chiều cao o với chiều cao trung bình khoảng inch - Thuộc tính thứ - Bass: > min(Bass) [1] 66 > max(Bass) [1] 75 > mean(Bass) [1] 70.4 > median(Bass) [1] 70.5 > var(Bass) [1] 5.305263 > sd(Bass) [1] 2.303316 Nhận xét: Qua số liệu phân tích ta thấy: chiều cao thấp đối tượng alto 66 inch, chiều cao cao 75 inch,phương sai Bass mức trung bình (5.3) cho thấy khoảng Bài tập lớn môn Toán Rời Rạc - Niên khóa 2012-2013 Trang 6/7 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính cách để đạt đến chiều cao kì vong,ở số trung vị cho thấy chiếu cao đối tượng nằm chủ yếu 70.4 inch,độ lệch chuẩn cho thấy đối tượng có chênh lệch chiều cao so với chiều cao trung bình khoảng inch Kết luận Trong báo cáo trình bày R với định nghĩa, ứng dụng R Sử dụng hàm R để thực việc thống kê mô tả tập liệu phân tích chiều cao nam nữ dàn hợp xướng New York vào năm 1979 Qua làm rõ thông số chiều cao min, max, phương sai, độ lệch chuẩn Và ý nghĩa tầm quan trọng ngôn ngữ R va ứng dụng để phân tích liệu Tài liệu [1] Giáo sư Nguyễn Văn Tuấn “”, xem ngày : 2429/05/2012 [2] wikipedia “link: http://vi.wikipedia.org/”, phương sai,đọ lệch chuẩn, số trung vị, lần truy cập cuối: 29/05/2012 Bài tập lớn môn Toán Rời Rạc - Niên khóa 2012-2013 Trang 7/7 ... 68 65 63 65 62 65 Alto 65 62 68 67 67 63 67 66 63 72 62 61 66 64 60 61 66 66 66 62 Tenor 69 72 71 66 76 74 71 66 68 67 70 65 72 70 68 73 66 68 67 64 Bass 72 70 72 69 73 71 72 68 68 71 66 68 71 ... 27 28 29 30 31 32 33 34 35 36 37 38 39 Alto 64 62 66 65 60 61 65 66 65 63 67 65 62 65 68 65 63 65 62 65 66 62 65 63 65 66 65 62 65 66 65 61 65 66 65 62 NA NA NA Tenor 65 69 62 72 68 71 67 66 67 ... 67 66 67 76 63 74 67 71 66 66 63 68 72 67 62 70 61 65 66 72 64 70 60 68 61 73 66 66 66 68 66 67 62 64 70 NA 65 NA 64 NA 63 NA 65 NA 69 NA 61 NA 66 NA 65 NA 61 NA 63 NA 64 NA 67 NA 66 NA 68 NA NA