Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
1,53 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MÔN HỌC CHUYÊN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Sinh viên thực : HỒ HÀ GIANG Giảng viên hướng dẫn : TS NGUYỄN THANH Lớp : 17IT2 Đà nẵng, tháng 12 năm 2020 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MƠN HỌC CHUN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Đà Nẵng, tháng 12 năm 2020 MỞ ĐẦU Hơn thập kỷ qua có nhiều cơng trình nghiên cứu phân tích liệu Trong phân tích liệu ngơn ngữ nhiều người lựa chọn, bới tính ưu việt nó.Mục tiêu đồ án mơn học thực chương trình phân tích nhiều loại liệu ngôn ngữ R Do tài liệu tham khảo hạn chế, trình độ có hạn kinh nghiệm thực tiễn cịn non kém, nên đề tài khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp, giúp đỡ chân tình, q báu thầy Sinh viên thực Hồ Hà Giang NHẬN XÉT (Của giáo viên hướng dẫn) …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… MỤC LỤC MỞ ĐẦU MỤC LỤC HÌNH ẢNH CHƯƠNG GIỚI THIỆU NGƠN NGỮ R 1.1 Tổng Quan ngơn ngữ R 1.2 Các lệnh hàm R 1.3 Các dạng biểu đồ R 12 1.3.1 Phương pháp scatterplot chiều R 12 1.3.2 Phương pháp hiển thị khác R 14 1.3.3 Hồi quy tuyến tính 15 CHƯƠNG PHÂN TÍCH DỮ LIỆU 19 2.1 Tổng quan 19 2.2 Các phương pháp phân tích liệu 19 2.2.1 Phân tích thống kê, mơ tả (Descriptive analytics) 19 2.2.2 Phân tích hồi quy tuyến tính (Regression analysis) 20 2.2.3 Phân tích phương sai (Variance analysis) 21 2.2.4 Phân tích hậu cần (Logistic analysis) 21 2.2.5 Phân tích văn (Text analysis) 21 2.3 Các mơ hình phân tích 22 2.3.1 Mơ hình hồi quy tuyến tính đơn giản 22 2.3.2 Mơ hình hồi quy tuyến tính đa biến 23 2.3.3 Mơ hình hồi quy Logistic 24 CHƯƠNG PHÂN TÍCH DỮ LIỆU 25 3.1 Mơ tả liệu 25 3.2 Làm liệu (Tiền xử lý liệu) 26 3.3 Phân tích thống kê 26 3.3.1 Phân tích thống kê mơ tả (descriptive statistics summary) 27 3.3.2 Thống kê mơ tả theo nhóm 28 3.3.3 Phân tích hồi quy tuyến tính 29 3.3.4 Phân tích phương sai 30 3.4 Trích xuất liệu 31 3.5 Biến đổi liệu (tạo biến theo công thức phù hợp) 33 3.5.1 Tách rời liệu 33 3.5.2 Chiết số liệu từ data.fram 33 3.6 Các loại biểu đồ 34 3.7 Xây dựng mô hình 37 TÀI LIỆU THAM KHẢO 40 MỤC LỤC HÌNH ẢNH Hình 1 Mơi trường lập trình ngơn ngữ R Hình Đồ thị hộp tổ chức đồ thuộc tính Petal Length liệu iris 11 Hình Ma trận scatterplot chiều liệu iris .12 Hình Hiển thị liệu iris với phương pháp hiển thị .14 Hình Đồ thị chiều cao trung bình trẻ theo tháng tuổi .16 Hình Đồ thị phương trình hồi quy chiều cao trung bình trẻ theo tháng tuổi 17 Hình Phân bố tần số biểu diễn dạng bảng đồ thị 19 Hình 2 Hệ số biến thiên 20 Hình Bảng cân nặng trẻ từ 1-6 tuổi 21 Hình Biểu đồ mơ hình hồi quy tuyến tính cân nặng trẻ 22 Hình Phương trình tuyến tính đa biến 23 YY Hình Tên biến số liệu 25 Hình Dữ liệu sau tóm tắt .27 Hình 3 Dữ liệu thống kê lại 27 Hình Chỉ số PAY_AMT phân tích biểu đồ 28 Hình 5, Dữ liệu thống kê theo nhóm giới tính 29 Hình Kết biểu diễn biểu đồ tán xạ .29 Hình Kết biểu diễn biểu đồ BoxPlot 30 Hình Biểu đồ histogram biến EDUCATION 31 Hình Kết sau kiểm tra 31 Hình 10 Kết sau trích xuất .32 Hình 11 Kết trích xuất cột từ hàng đến 20 .32 Hình 12 Dữ liệu xuất theo chiều ngang .33 Hình 13 Kết sau tách giới tính liệu 33 Hình 14 Số liệu biến tách từ data 34 Hình 15 Chọn 10 dịng số liệu 34 Hình 16 Biểu đồ vẽ với biến số SEX, AGE, MARRIAGE, BILL_AMT, PAY_2 35 Hình 17 Biểu đồ histogram với biến EDUCATION .35 Hình 18 Biểu đồ Barplot 36 Hình 19 Biểu đồ với biến AGE EDUCATION 36 Hình 20 Biểu đồ đường 37 Hình 21 Kết 30000 biến 37 Hình 22 Kết mẫu Train Test 38 Hình 23 Các yếu tố ảnh hưởng đến dự đoán 38 Hình 24 Xây dựng mẫu xây dựng 38 Hình 25 Kết giá trị Dự Báo Kiểm Định 38 CHƯƠNG GIỚI THIỆU NGÔN NGỮ R 1.1 Tổng Quan ngôn ngữ R R ngôn ngữ lập trình hàm cấp cao vừa mơi trường dành cho tính tốn thống kê R hỗ trợ nhiều cơng cụ cho phân tích liệu, khám phá tri thức khai mỏ liệu lại phần mềm miễn phí mã nguồn mở Hơn R dễ học phát triển nhanh ứng dụng tính tốn xác suất thống kê, phân tích liệu R cơng cụ mạnh cho học máy, thống kê phân tích liệu Nó ngơn ngữ lập trình Ngơn ngữ R platform-independent sử dụng cho hệ điều hành Việc cài đặt R miễn phì sử dụng mà khơng cần phải mua quyền Ngôn ngữ R mã nguồn mở nên phân tích source code để hiểu xác cách R vận hành Bất kỳ thêm tính fix bug mà không cần chờ nhà phát hành vá Đồng thời, R tích hợp với ngơn ngữ khác (C,C++) Nó cho phép tương tác với nhiều nguồn liệu gói thống kê (SAS, SPSS) R có cộng đồng phát triển mạnh mẽ R ngơn ngữ lập trình mà nhiều nhà phân tích liệu, nhà khoa học liệu, nhà thống kê sử dụng cho mục đích phân tích liệu thực phân thích thống kê biểu đồ công cụ trực quan khác Qua việc sử dụng R, người ta phân tích liệu lớn(big data) R lên ngôn ngữ mang nhiều tiềm ngày mở rộng với hàng ngàn gói (packages) cung cấp cho nhiều ứng dụng 1.2 Các lệnh hàm R Hình Mơi trường lập trình ngơn ngữ R Trước hết, tải phiên R gói thư viện từ địa trang web http://cran.r-project.org Tiến hành cài đặt, gọi thực thi môi trường R hình 1.1 Để thêm gói thư viện vào mơi trường lập trình R, sử dụng chức cung cấp từ menu Packages R ngơn ngữ lập trình hàm cấp cao Tất cơng việc làm thơng qua hàm Ta truyền thông số cho hàm Giá trị trả hàm lưu vào đối tượng biến nhờ vào phép gán =