Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
1,29 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MÔN HỌC CHUYÊN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Sinh viên thực : HỒ HÀ GIANG Giảng viên hướng dẫn : TS NGUYỄN THANH Lớp : 17IT2 Đà nẵng, tháng 12 năm 2020 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MƠN HỌC CHUN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Đà Nẵng, tháng 12 năm 2020 MỞ ĐẦU Hơn thập kỷ qua có nhiều cơng trình nghiên cứu phân tích liệu Trong phân tích liệu ngơn ngữ nhiều người lựa chọn, bới tính ưu việt nó.Mục tiêu đồ án mơn học thực chương trình phân tích nhiều loại liệu ngôn ngữ R Do tài liệu tham khảo hạn chế, trình độ có hạn kinh nghiệm thực tiễn cịn non kém, nên đề tài khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp, giúp đỡ chân tình, q báu thầy Sinh viên thực Hồ Hà Giang NHẬN XÉT (Của giáo viên hướng dẫn) …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… MỤC LỤC MỞ ĐẦU MỤC LỤC HÌNH ẢNH CHƯƠNG GIỚI THIỆU NGƠN NGỮ R 1.1 Tổng Quan ngôn ngữ R 1.2 Các lệnh hàm R 1.3 Các dạng biểu đồ R 1.3.1 Phương pháp scatterplot chiều R 1.3.2 Phương pháp hiển thị khác R 1.3.3 Hồi quy tuyến tính CHƯƠNG PHÂN TÍCH DỮ LIỆU 2.1 Tổng quan 2.2 Các phương pháp phân tích liệu 2.2.1 Phân tích thống kê, mơ tả (Descriptive analytics) 2.2.2 Phân tích hồi quy tuyến tính (Regression analysis) 2.2.3 Phân tích phương sai (Variance analysis) 2.2.4 Phân tích hậu cần (Logistic analysis) 2.2.5 Phân tích văn (Text analysis) 2.3 Các mơ hình phân tích 2.3.1 Mơ hình hồi quy tuyến tính đơn giản 2.3.2 Mơ hình hồi quy tuyến tính đa biến 2.3.3 Mơ hình hồi quy Logistic CHƯƠNG PHÂN TÍCH DỮ LIỆU 3.1 Mơ tả liệu 3.2 Làm liệu (Tiền xử lý liệu) 3.3 Phân tích thống kê 3.3.1 Phân tích thống kê mô tả (descriptive statistics summary) 3.3.2 Thống kê mô tả theo nhóm 3.3.3 Phân tích hồi quy tuyến tính 3.3.4 Phân tích phương sai 3.4 Trích xuất liệu 3.5 Biến đổi liệu (tạo biến theo công thức 3.5.1 Tách rời liệu 3.5.2 Chiết số liệu từ data.fram 3.6 Các loại biểu đồ 3.7 Xây dựng mơ hình TÀI LIỆU THAM KHẢO MỤC LỤC HÌNH ẢNH Hình 1 Mơi trường lập trình ngơn ngữ R Hình Đồ thị hộp tổ chức đồ thuộc tính Petal Length liệu iris 11 Hình Ma trận scatterplot chiều liệu iris 12 Hình Hiển thị liệu iris với phương pháp hiển thị 14 Hình Đồ thị chiều cao trung bình trẻ theo tháng tuổi .16 Hình Đồ thị phương trình hồi quy chiều cao trung bình trẻ theo tháng tuổi 17 Hình Phân bố tần số biểu diễn dạng bảng đồ thị 19 Hình 2 Hệ số biến thiên 20 Hình Bảng cân nặng trẻ từ 1-6 tuổi 21 Hình Biểu đồ mơ hình hồi quy tuyến tính cân nặng trẻ 22 Hình Phương trình tuyến tính đa biến 23 YY Hình Tên biến số liệu 25 Hình Dữ liệu sau tóm tắt 27 Hình 3 Dữ liệu thống kê lại 27 Hình Chỉ số PAY_AMT phân tích biểu đồ 28 Hình 5, Dữ liệu thống kê theo nhóm giới tính 29 Hình Kết biểu diễn biểu đồ tán xạ 29 Hình Kết biểu diễn biểu đồ BoxPlot 30 Hình Biểu đồ histogram biến EDUCATION 31 Hình Kết sau kiểm tra 31 Hình 10 Kết sau trích xuất 32 Hình 11 Kết trích xuất cột từ hàng đến 20 32 Hình 12 Dữ liệu xuất theo chiều ngang 33 Hình 13 Kết sau tách giới tính liệu 33 Hình 14 Số liệu biến tách từ data 34 Hình 15 Chọn 10 dòng số liệu 34 Hình 16 Biểu đồ vẽ với biến số SEX, AGE, MARRIAGE, BILL_AMT, PAY_2 35 Hình 17 Biểu đồ histogram với biến EDUCATION 35 Hình 18 Biểu đồ Barplot 36 Hình 19 Biểu đồ với biến AGE EDUCATION 36 Hình 20 Biểu đồ đường 37 Hình 21 Kết 30000 biến 37 Hình 22 Kết mẫu Train Test 38 Hình 23 Các yếu tố ảnh hưởng đến dự đoán 38 Hình 24 Xây dựng mẫu xây dựng 38 Hình 25 Kết giá trị Dự Báo Kiểm Định .38 CHƯƠNG GIỚI THIỆU NGƠN NGỮ R 1.1 Tổng Quan ngơn ngữ R R ngơn ngữ lập trình hàm cấp cao vừa mơi trường dành cho tính tốn thống kê R hỗ trợ nhiều cơng cụ cho phân tích liệu, khám phá tri thức khai mỏ liệu lại phần mềm miễn phí mã nguồn mở Hơn R dễ học phát triển nhanh ứng dụng tính tốn xác suất thống kê, phân tích liệu R công cụ mạnh cho học máy, thống kê phân tích liệu Nó ngơn ngữ lập trình Ngơn ngữ R platform-independent sử dụng cho hệ điều hành Việc cài đặt R miễn phì sử dụng mà không cần phải mua quyền Ngôn ngữ R mã nguồn mở nên phân tích source code để hiểu xác cách R vận hành Bất kỳ thêm tính fix bug mà khơng cần chờ nhà phát hành vá Đồng thời, R tích hợp với ngơn ngữ khác (C,C++) Nó cho phép tương tác với nhiều nguồn liệu gói thống kê (SAS, SPSS) R có cộng đồng phát triển mạnh mẽ R ngơn ngữ lập trình mà nhiều nhà phân tích liệu, nhà khoa học liệu, nhà thống kê sử dụng cho mục đích phân tích liệu thực phân thích thống kê biểu đồ công cụ trực quan khác Qua việc sử dụng R, người ta phân tích liệu lớn(big data) R lên ngôn ngữ mang nhiều tiềm ngày mở rộng với hàng ngàn gói (packages) cung cấp cho nhiều ứng dụng 1.2 Các lệnh hàm R Hình Mơi trường lập trình ngơn ngữ R Trước hết, tải phiên R gói thư viện từ địa trang web http://cran.r-project.org Tiến hành cài đặt, gọi thực thi mơi trường R hình 1.1 Để thêm gói thư viện vào mơi trường lập trình R, sử dụng chức cung cấp từ menu Packages R ngôn ngữ lập trình hàm cấp cao Tất cơng việc làm thơng qua hàm Ta truyền thơng số cho hàm Giá trị trả hàm lưu vào đối tượng biến nhờ vào phép gán =