Thống kê phân tích dữ liệu bằng R

18 203 0
Thống kê  phân tích dữ liệu bằng R

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại học Bách Khoa đối với giảng viên. 1 Giới thiệu R là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán thống kê và vẽ biểu đồ. Trong nhiều năm trước đây, khi nhắc đến thống kê, người ta nghĩ ngay đến SAS, SPSS, Stata, Statistica, và SPlus. Chúng đều là các công cụ chuyên nghiệp và mạnh mẽ, tuy nhiên lại rất đắt tiền, có khi chi phí đến hàng trăm nghìn USD một năm. Năm 1997, R được giới thiệu bởi hai nhà thống kê học Ross Ihaka và Robert Gentleman. R có mã nguồn mở và hoàn toàn miễn phí. Từ khi ra đời đến nay, R được phát triển và hoàn thiện liên tục, trở thành một trong những công cụ mạnh mẽ trong tính toán thông kê. Sơ lược về đề tài : Thống kê và phân tích dữ liệu về một số mong muốn của sinh viên Đại học Bách Khoa đối với giảng viên. Có 9 mong muốn được đưa ra: 1. Bạn có muốn giảng viên chỉ dạy hướng thực hiệnĐại học Bách Khoa đối với giảng viên. 1 Giới thiệu R là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán thống kê và vẽ biểu đồ. Trong nhiều năm trước đây, khi nhắc đến thống kê, người ta nghĩ ngay đến SAS, SPSS, Stata, Statistica, và SPlus. Chúng đều là các công cụ chuyên nghiệp và mạnh mẽ, tuy nhiên lại rất đắt tiền, có khi chi phí đến hàng trăm nghìn USD một năm. Năm 1997, R được giới thiệu bởi hai nhà thống kê học Ross Ihaka và Robert Gentleman. R có mã nguồn mở và hoàn toàn miễn phí. Từ khi ra đời đến nay, R được phát triển và hoàn thiện liên tục, trở thành một trong những công cụ mạnh mẽ trong tính toán thông kê. Sơ lược về đề tài : Thống kê và phân tích dữ liệu về một số mong muốn của sinh viên Đại học Bách Khoa đối với giảng viên. Có 9 mong muốn được đưa ra: 1. Bạn có muốn giảng viên chỉ dạy hướng thực hiện

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC - KỸ THUẬT MÁY TÍNH TỐN RỜI RẠC Bài tập lớn Thống & phân tích liệu R GVHD: Vương Bá Thịnh SV: Đỗ Lê Minh Hiển- 1411238 Hồ Quốc Ái - 1410150 Nguyễn Văn Hiền - 1411229 Lê Hoàng Duy - 1410564 TP HỒ CHÍ MINH, THÁNG 1/2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Mục lục Giới thiệu 2 Cơ sở lý thuyết 2.1 Thống mô tả 2.2 Công cụ R 3 3 Phân tích liệu 3.1 Tập liệu 3.2 Kết phân tích 4 Kết luận 16 Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 1/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Bài báo cáo trình bày thống phân tích liệu số mong muốn sinh viên Đại học Bách Khoa giảng viên Giới thiệu R ngơn ngữ lập trình mơi trường phần mềm dành cho tính tốn thống vẽ biểu đồ Trong nhiều năm trước đây, nhắc đến thống kê, người ta nghĩ đến SAS, SPSS, Stata, Statistica, S-Plus Chúng công cụ chuyên nghiệp mạnh mẽ, nhiên lại đắt tiền, có chi phí đến hàng trăm nghìn USD năm Năm 1997, R giới thiệu hai nhà thống học Ross Ihaka Robert Gentleman R có mã nguồn mở hồn tồn miễn phí Từ đời đến nay, R phát triển hoàn thiện liên tục, trở thành công cụ mạnh mẽ tính tốn thơng Sơ lược đề tài : Thống phân tích liệu số mong muốn sinh viên Đại học Bách Khoa giảng viên Có mong muốn đưa ra: Bạn có muốn giảng viên dạy hướng thực không đưa giải cụ thể? Bạn có muốn giảng viên giao tập lớn? Bạn có muốn giảng viên tổ chức buổi thảo luận thêm đề tài hay vào cuối học kì? Bạn có muốn giảng viên dùng slide tiếng nước ngồi? Bạn có muốn giảng viên dùng hình mẫu hay vật mẫu hỗ trợ cho giảng? Bạn có muốn giảng viên hồn tồn sử dụng slide mà khơng viết bảng? Bạn có muốn giảng viên điểm danh? Bạn có muốn giảng viên chấm điểm "dễ, thống"? Bạn có muốn giảng viên giao tiếp với sinh viên qua Facebook, Email? Mỗi mong muốn có mức độ đồng tình, ứng với giá trị đến 5: Kịch liệt phản đối Không mong muốn Sao Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 2/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Mong muốn Rất mong muốn Các mong muốn tạo thành bảng khảo sát online dịch vụ typeform.com đăng lên group Facebook sinh viên đại học Bách Khoa 2.1 Cơ sở lý thuyết Thống mơ tả Nói đến thống mơ tả nói đến việc mơ tả liệu phép tính số thống số trung bình (mean), số trung vị (median), số lớn (max), số nhỏ (min), phương sai (variance), độ lệch chuẩn (standard deviation) Trong ta làm quen định nghĩa: - Phương sai biến ngẫu nhiên để đo phân tán thống biến đó, hàm ý giá trị biến thường cách giá trị kỳ vọng bao xa - Độ lệch chuẩn, hay độ lệch tiêu chuẩn, dùng để đo mức độ phân tán tập liệu lập thành bảng tần số Có thể tính độ lệch chuẩn cách lấy bậc hai phương sai 2.2 Cơng cụ R Như nói trên, R cơng cụ miễn phí dùng để phân tích liệu Chúng ta sử dụng R để thực phép toán từ đơn giản đến phức tạp Những toán tiêu biểu: phép kiểm định thống kê, tính tốn ma trận, hồi quy tuyến tính, gom cụm liệu, tốn phân lớp R ngơn ngữ nên viết ứng dụng R để giải vấn đề cụ thể - Các hàm R để tính tốn thống mơ tả: > option (width=100) # chuyển directory > setwd ("địa directory") # đọc liệu vào R từ file csv > data attach (data) # xem xét cột số liệu > names (data) # tính trung bình > mean (tên cột cần tính) # phương sai độ lệch chuẩn Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 3/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính > var (tên cột cần tính) > sd (tên cột cần tính) 3.1 Phân tích liệu Tập liệu - Tập liệu chia thành cột theo mong muốn khảo sát Giá trị cột giá trị rời rạc, đến 5, ứng với mức độ mong muốn nội dung đưa ra, nêu - Đọc liệu R : nhập liệu vào excel lưu dạng csv (coma delimited) - Dùng R để nhập liệu dạng csv: giả sử lưu liệu có tên excel.csv directory “D:/ctrr” - Tạo sẵn hàm cho việc nhập liệu (input.R) xử lí liệu (thongke.R) - Input() input source("D:\\ctrr\\input.R") > source("D:\\ctrr\\thongke.R") - Kết quả: (stt) cau1 2 4 cau2 4 3 cau3 5 2 cau4 1 cau5 5 5 5 5 cau6 1 1 3 1 cau7 3 1 cau8 5 5 5 Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt cau9 5 5 5 Trang 4/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 3 1 4 4 3 4 3 5 4 5 5 4 3 4 1 4 3 5 5 4 4 2 5 4 4 1 3 4 3 5 5 4 3 5 5 3 4 5 5 3 2 2 1 5 3 2 5 4 5 4 2 3 5 5 5 4 4 5 3 5 5 1 4 4 5 5 4 2 3 1 3 2 2 5 5 2 3 2 4 5 3 2 1 4 1 2 1 5 5 5 5 4 2 3 4 4 5 5 4 5 4 5 3 5 5 5 Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt 4 3 5 5 5 3 5 5 3 5 5 5 5 4 Trang 5/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính 59 60 61 62 63 64 65 66 67 68 69 70 71 - Sau lần ta 5 5 2 4 4 2 5 5 1 5 3 gọi lại hàm thongke để tính 4 4 5 5 5 5 5 5 1 1 5 4 3 3 trung bình độ lệch chuẩn Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt 2 4 5 5 Trang 6/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính 3.2 Kết phân tích - Mong muốn thứ Bạn có muốn giảng viên dạy hướng thực không đưa giải cụ thể? > thongke(cau1) TRUNG_BINH DO_LECH_CHUAN 3.323944 1.360406 Hình 1: Biểu đồ cho mong muốn thứ Nhận xét: Trung bình 3.323944 cho thấy sinh viên có mong muốn giảng viên có hướng dẫn thực khơng đưa giải cụ thể Độ lệch chuẩn 1.360406 cho thấy mong muốn bạn sinh viên có biến động mạnh khơng ổn định Có bạn muốn giảng viên đưa giải không cần hướng dẫn Một số tích cực phản đối hành động Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 7/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ hai Bạn có muốn giảng viên giao tập lớn? > thongke(cau2) TRUNG_BINH DO_LECH_CHUAN 3.338028 1.393287 Hình 2: Biểu đồ cho mong muốn thứ hai Nhận xét: Trung bình 3.338028 cho thấy sinh viên có mong muốn giảng viên có giao tập lớn để thực Độ lệch chuẩn 1.393287 cho thấy mong muốn bạn sinh viên có biến động mạnh khơng ổn định Sẽ có bạn khơng muốn có tập lớn để làm tốn thời gian, bên cạnh có bạn tích cực ủng hộ việc giao tập lớn để nâng cao kĩ làm việc nhóm Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 8/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ ba Bạn có muốn giảng viên tổ chức buổi thảo luận thêm đề tài hay vào cuối học kì? > thongke(cau3) TRUNG_BINH DO_LECH_CHUAN 3.619718 1.269040 Hình 3: Biểu đồ cho mong muốn thứ ba Nhận xét: Trung bình 3.619718 cho thấy bạn sinh viên muốn giảng viên tổ chức buổi thảo luận thêm đề tài hay vào cuối kì Độ lệch chuẩn 1.269040 cho thấy mong muốn bạn sinh viên có biến động không ổn định Đa số bạn hưởng ứng việc tổ chức buổi thảo luận để hiểu thêm môn học Bài tập lớn môn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 9/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ tư Bạn có muốn giảng viên dùng slide tiếng nước ngồi? > thongke(cau4) TRUNG_BINH DO_LECH_CHUAN 3.014085 1.419184 Hình 4: Biểu đồ cho mong muốn thứ tư Nhận xét: Trung bình 3.014085 cho thấy nhiều bạn sinh viên có mong muốn giảng viên giảng dạy slide tiếng nước Độ lệch chuẩn 1.419184 cho thấy mong muốn bạn sinh viên có biến động mạnh không ổn định Nhiều bạn muốn giảng viên dùng slide tiếng anh để nâng cao trình độ ngoại ngữ mình, bên cạch nhiều bạn khơng ủng hộ phương pháp trình độ ngoại ngữ bạn hạn chế Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 10/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ năm Bạn có muốn giảng viên dùng hình mẫu hay vật mẫu hỗ trợ cho giảng? > thongke(cau5) TRUNG_BINH DO_LECH_CHUAN 3.929577 1.257253 Hình 5: Biểu đồ cho mong muốn thứ năm Nhận xét: Trung bình 3.929577 cho thấy đa số bạn sinh viên có mong muốn giảng viên giảng dạy có sử dụng hình mẫu, vật mẫu hỗ trợ công việc giảng dạy Độ lệch chuẩn 1.257253 cho thấy mong muốn bạn sinh viên có biến động mạnh khơng ổn định Chủ yếu bạn muốn giảng viên sử dụng vật mẫu để môn học thêm sinh động Bài tập lớn môn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 11/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ sáu Bạn có muốn giảng viên hồn tồn sử dụng slide mà không viết bảng? > thongke(cau6) TRUNG_BINH DO_LECH_CHUAN 2.774648 1.406081 Hình 6: Biểu đồ cho mong muốn thứ sáu Nhận xét: Trung bình 2.774648 cho thấy đa số bạn sinh viên không đồng ý việc giảng viên giảng dạy dùng slide mà không viết bảng Độ lệch chuẩn 1.406081 cho thấy mong muốn bạn sinh viên có biến động mạnh khơng ổn định Chủ yếu bạn sinh viên không đồng tình với việc giảng viên dùng slide việc giảng dạy Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 12/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ bảy Bạn có muốn giảng viên điểm danh? > thongke(cau7) TRUNG_BINH DO_LECH_CHUAN 2.816901 1.533529 Hình 7: Biểu đồ cho mong muốn thứ bảy Nhận xét: Trung bình 2.816901 cho thấy đa số bạn sinh viên không đồng ý việc giảng viên điểm danh học Độ lệch chuẩn 1.533529 cho thấy mong muốn bạn sinh viên có biến động không ổn định Các bạn sinh viên khơng mong muốn việc giảng viên điểm danh nhiều bạn đến lớp mà tự học nhà Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 13/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ tám Bạn có muốn giảng viên chấm điểm "dễ, thoáng"? > thongke(cau8) TRUNG_BINH DO_LECH_CHUAN 3.760563 1.292448 Hình 8: Biểu đồ cho mong muốn thứ tám Nhận xét: Trung bình 3.760563 cho thấy đa số bạn sinh viên muốn giảng viên chấm điểm dễ “thoáng” Độ lệch chuẩn 1.292448 cho thấy mong muốn bạn sinh viên có biến động không ổn định Hầu bạn mong muốn giảng viên chấm dễ để đạt điểm cao Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 14/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính - Mong muốn thứ chín Bạn có muốn giảng viên giao tiếp với sinh viên qua Facebook, Email? > thongke(cau9) TRUNG_BINH DO_LECH_CHUAN 3.887324 1.293382 Hình 9: Biểu đồ cho mong muốn thứ chín Nhận xét: Trung bình 3.887324 cho thấy tất bạn sinh viên muốn giao tiếp với giảng viên qua Facebook, Email Độ lệch chuẩn 1.293382 cho thấy mong muốn bạn sinh viên có biến động khơng ổn định Các bạn sinh viên muốn giảng viên giao tiếp với họ qua Facebook, Email cơng cụ họ hay sử dụng sống Một số bạn lại không thích điều Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 15/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Kết luận Trong báo cáo chúng tơi trình bày việc sử dụng công cụ R để tiến hành phân tích số liệu thống số mong muốn sinh viên Đại học Bách Khoa giảng viên Khó khăn lớn gặp phải việc thu thập liệu Do lúc có đến 60 nhóm thực đề tài nên tiến hành khảo sát, số sinh viên cảm thấy phiền khó chịu bị nhiều nhóm khác mời làm khảo sát Tuy lấy mẫu cách khảo sát online nhóm không gửi vào email sinh viên mà gửi vào group Facebook sinh viên, tránh trường hợp việc khảo sát trở thành spam hàng loạt Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 16/17 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Tài liệu [1] Creating a Graph - Statmethods.net http://www.statmethods.net/graphs/creating.htm, xem ngày : 2/2/2015 [2] Khảo sát Online nhóm https://minhhien1996.typeform.com/to/oWfMn2 Bài tập lớn mơn Tốn Rời Rạc - Niên khóa 2014-2015 CuuDuongThanCong.com https://fb.com/tailieudientucntt Trang 17/17 ... tính) 3.1 Phân tích liệu Tập liệu - Tập liệu chia thành cột theo mong muốn khảo sát Giá trị cột giá trị r i r c, đến 5, ứng với mức độ mong muốn nội dung đưa ra, nêu - Đọc liệu R : nhập liệu vào... Dùng R để nhập liệu dạng csv: giả sử lưu liệu có tên excel.csv directory “D:/ctrr” - Tạo sẵn hàm cho việc nhập liệu (input .R) xử lí liệu (thongke .R) - Input() input option (width=100) # chuyển directory > setwd ("địa directory") # đọc liệu

Ngày đăng: 02/06/2019, 14:51

Từ khóa liên quan

Mục lục

  • Gii thiu

  • C s lý thuyt

    • Thng kê mô ta

    • Công cu R

    • Phân tích d liu

      • Tp d liu

      • Kt qua phân tích

      • Kt lun

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan