1. Trang chủ
  2. » Luận Văn - Báo Cáo

ĐỒ án môn học CHUYÊN đề PHÂN TÍCH dữ LIỆU với r

41 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đồ án môn học chuyên đề phân tích dữ liệu với R
Tác giả Hồ Hà Giang
Người hướng dẫn TS. Nguyễn Thanh
Trường học Đại học Đà Nẵng
Chuyên ngành Công nghệ thông tin
Thể loại đồ án
Năm xuất bản 2020
Thành phố Đà Nẵng
Định dạng
Số trang 41
Dung lượng 1,53 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MÔN HỌC CHUYÊN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Sinh viên thực : HỒ HÀ GIANG Giảng viên hướng dẫn : TS NGUYỄN THANH Lớp : 17IT2 Đà nẵng, tháng 12 năm 2020 Tieu luan ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MÔN HỌC CHUYÊN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Đà Nẵng, tháng 12 năm 2020 Tieu luan MỞ ĐẦU Hơn thập kỷ qua có nhiều cơng trình nghiên cứu phân tích liệu Trong phân tích liệu ngơn ngữ nhiều người lựa chọn, bới tính ưu việt nó.Mục tiêu đồ án mơn học thực chương trình phân tích nhiều loại liệu ngôn ngữ R Do tài liệu tham khảo hạn chế, trình độ có hạn kinh nghiệm thực tiễn non kém, nên đề tài khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp, giúp đỡ chân tình, quý báu thầy Sinh viên thực Hồ Hà Giang Tieu luan DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r NHẬN XÉT (Của giáo viên hướng dẫn) …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Tieu luan DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r MỤC LỤC MỞ ĐẦU MỤC LỤC HÌNH ẢNH CHƯƠNG GIỚI THIỆU NGÔN NGỮ R 1.1 Tổng Quan ngôn ngữ R 1.2 Các lệnh hàm R 1.3 Các dạng biểu đồ R 12 1.3.1 Phương pháp scatterplot chiều R 12 1.3.2 Phương pháp hiển thị khác R 14 1.3.3 Hồi quy tuyến tính 15 CHƯƠNG PHÂN TÍCH DỮ LIỆU 19 2.1 Tổng quan 19 2.2 Các phương pháp phân tích liệu 19 2.2.1 Phân tích thống kê, mơ tả (Descriptive analytics) 19 2.2.2 Phân tích hồi quy tuyến tính (Regression analysis) 20 2.2.3 Phân tích phương sai (Variance analysis) 21 2.2.4 Phân tích hậu cần (Logistic analysis) 21 2.2.5 Phân tích văn (Text analysis) 21 2.3 Các mơ hình phân tích 22 2.3.1 Mơ hình hồi quy tuyến tính đơn giản 22 2.3.2 Mơ hình hồi quy tuyến tính đa biến 23 2.3.3 Mơ hình hồi quy Logistic 24 CHƯƠNG PHÂN TÍCH DỮ LIỆU 25 3.1 Mô tả liệu 25 3.2 Làm liệu (Tiền xử lý liệu) 26 3.3 Phân tích thống kê 26 3.3.1 Phân tích thống kê mơ tả (descriptive statistics summary) 27 3.3.2 Thống kê mô tả theo nhóm 28 3.3.3 Phân tích hồi quy tuyến tính 29 3.3.4 Phân tích phương sai 30 3.4 Trích xuất liệu 31 3.5 Biến đổi liệu (tạo biến theo công thức phù hợp) 33 DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Tieu luan DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r 3.5.1 Tách rời liệu 33 3.5.2 Chiết số liệu từ data.fram 33 3.6 Các loại biểu đồ 34 3.7 Xây dựng mơ hình 37 TÀI LIỆU THAM KHẢO 40 MỤC LỤC HÌNH ẢNH DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Tieu luan DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Hình 1 Mơi trường lập trình ngơn ngữ R Hình Đồ thị hộp tổ chức đồ thuộc tính Petal Length liệu iris 11 Hình Ma trận scatterplot chiều liệu iris .12 Hình Hiển thị liệu iris với phương pháp hiển thị .14 Hình Đồ thị chiều cao trung bình trẻ theo tháng tuổi .16 Hình Đồ thị phương trình hồi quy chiều cao trung bình trẻ theo tháng tuổi 17 Hình Phân bố tần số biểu diễn dạng bảng đồ thị 19 Hình 2 Hệ số biến thiên 20 Hình Bảng cân nặng trẻ từ 1-6 tuổi 21 Hình Biểu đồ mơ hình hồi quy tuyến tính cân nặng trẻ 22 Hình Phương trình tuyến tính đa biến 23 YY Hình Tên biến số liệu 25 Hình Dữ liệu sau tóm tắt .27 Hình 3 Dữ liệu thống kê lại 27 Hình Chỉ số PAY_AMT phân tích biểu đồ 28 Hình 5, Dữ liệu thống kê theo nhóm giới tính 29 Hình Kết biểu diễn biểu đồ tán xạ .29 Hình Kết biểu diễn biểu đồ BoxPlot 30 Hình Biểu đồ histogram biến EDUCATION 31 Hình Kết sau kiểm tra 31 Hình 10 Kết sau trích xuất .32 Hình 11 Kết trích xuất cột từ hàng đến 20 .32 Hình 12 Dữ liệu xuất theo chiều ngang .33 Hình 13 Kết sau tách giới tính liệu 33 Hình 14 Số liệu biến tách từ data 34 Hình 15 Chọn 10 dịng số liệu 34 Hình 16 Biểu đồ vẽ với biến số SEX, AGE, MARRIAGE, BILL_AMT, PAY_2 35 Hình 17 Biểu đồ histogram với biến EDUCATION .35 Hình 18 Biểu đồ Barplot 36 Hình 19 Biểu đồ với biến AGE EDUCATION 36 Hình 20 Biểu đồ đường 37 DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Tieu luan DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Hình 21 Kết 30000 biến 37 Hình 22 Kết mẫu Train Test 38 Hình 23 Các yếu tố ảnh hưởng đến dự đốn 38 Hình 24 Xây dựng mẫu xây dựng 38 Hình 25 Kết giá trị Dự Báo Kiểm Định 38 DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Tieu luan DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r CHƯƠNG GIỚI THIỆU NGÔN NGỮ R 1.1 Tổng Quan ngơn ngữ R R ngơn ngữ lập trình hàm cấp cao vừa môi trường dành cho tính tốn thống kê R hỗ trợ nhiều cơng cụ cho phân tích liệu, khám phá tri thức khai mỏ liệu lại phần mềm miễn phí mã nguồn mở Hơn R dễ học phát triển nhanh ứng dụng tính tốn xác suất thống kê, phân tích liệu R công cụ mạnh cho học máy, thống kê phân tích liệu Nó ngơn ngữ lập trình Ngơn ngữ R platform-independent sử dụng cho hệ điều hành Việc cài đặt R miễn phì sử dụng mà không cần phải mua quyền Ngôn ngữ R mã nguồn mở nên phân tích source code để hiểu xác cách R vận hành Bất kỳ thêm tính fix bug mà khơng cần chờ nhà phát hành vá Đồng thời, R tích hợp với ngơn ngữ khác (C,C++) Nó cho phép tương tác với nhiều nguồn liệu gói thống kê (SAS, SPSS) R có cộng đồng phát triển mạnh mẽ R ngơn ngữ lập trình mà nhiều nhà phân tích liệu, nhà khoa học liệu, nhà thống kê sử dụng cho mục đích phân tích liệu thực phân thích thống kê biểu đồ công cụ trực quan khác Qua việc sử dụng R, người ta phân tích liệu lớn(big data) R lên ngôn ngữ mang nhiều tiềm ngày mở rộng với hàng ngàn gói (packages) cung cấp cho nhiều ứng dụng 1.2 Các lệnh hàm R Hình Mơi trường lập trình ngơn ngữ R DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Tieu luan DO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.rDO.an.mon.hoc.CHUYEN.de.PHAN.TICH.du.LIEU.voi.r Trước hết, tải phiên R gói thư viện từ địa trang web http://cran.r-project.org Tiến hành cài đặt, gọi thực thi môi trường R hình 1.1 Để thêm gói thư viện vào mơi trường lập trình R, sử dụng chức cung cấp từ menu Packages R ngơn ngữ lập trình hàm cấp cao Tất công việc làm thông qua hàm Ta truyền thơng số cho hàm Giá trị trả hàm lưu vào đối tượng biến nhờ vào phép gán =

Ngày đăng: 24/12/2023, 16:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w