1. Trang chủ
  2. » Giáo Dục - Đào Tạo

CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r

41 39 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 1,53 MB

Nội dung

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MÔN HỌC CHUYÊN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Sinh viên thực : HỒ HÀ GIANG Giảng viên hướng dẫn : TS NGUYỄN THANH Lớp : 17IT2 Đà nẵng, tháng 12 năm 2020 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VIỆT - HÀN ĐỒ ÁN MƠN HỌC CHUN ĐỀ PHÂN TÍCH DỮ LIỆU VỚI R Đà Nẵng, tháng 12 năm 2020 MỞ ĐẦU Hơn thập kỷ qua có nhiều cơng trình nghiên cứu phân tích liệu Trong phân tích liệu ngơn ngữ nhiều người lựa chọn, bới tính ưu việt nó.Mục tiêu đồ án mơn học thực chương trình phân tích nhiều loại liệu ngôn ngữ R Do tài liệu tham khảo hạn chế, trình độ có hạn kinh nghiệm thực tiễn cịn non kém, nên đề tài khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp, giúp đỡ chân tình, q báu thầy Sinh viên thực Hồ Hà Giang NHẬN XÉT (Của giáo viên hướng dẫn) …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… MỤC LỤC MỞ ĐẦU MỤC LỤC HÌNH ẢNH CHƯƠNG GIỚI THIỆU NGƠN NGỮ R 1.1 Tổng Quan ngơn ngữ R 1.2 Các lệnh hàm R 1.3 Các dạng biểu đồ R 12 1.3.1 Phương pháp scatterplot chiều R 12 1.3.2 Phương pháp hiển thị khác R 14 1.3.3 Hồi quy tuyến tính 15 CHƯƠNG PHÂN TÍCH DỮ LIỆU 19 2.1 Tổng quan 19 2.2 Các phương pháp phân tích liệu 19 2.2.1 Phân tích thống kê, mơ tả (Descriptive analytics) 19 2.2.2 Phân tích hồi quy tuyến tính (Regression analysis) 20 2.2.3 Phân tích phương sai (Variance analysis) 21 2.2.4 Phân tích hậu cần (Logistic analysis) 21 2.2.5 Phân tích văn (Text analysis) 21 2.3 Các mơ hình phân tích 22 2.3.1 Mơ hình hồi quy tuyến tính đơn giản 22 2.3.2 Mơ hình hồi quy tuyến tính đa biến 23 2.3.3 Mơ hình hồi quy Logistic 24 CHƯƠNG PHÂN TÍCH DỮ LIỆU 25 3.1 Mơ tả liệu 25 3.2 Làm liệu (Tiền xử lý liệu) 26 3.3 Phân tích thống kê 26 3.3.1 Phân tích thống kê mơ tả (descriptive statistics summary) 27 3.3.2 Thống kê mơ tả theo nhóm 28 3.3.3 Phân tích hồi quy tuyến tính 29 3.3.4 Phân tích phương sai 30 3.4 Trích xuất liệu 31 3.5 Biến đổi liệu (tạo biến theo công thức phù hợp) 33 3.5.1 Tách rời liệu 33 3.5.2 Chiết số liệu từ data.fram 33 3.6 Các loại biểu đồ 34 3.7 Xây dựng mô hình 37 TÀI LIỆU THAM KHẢO 40 MỤC LỤC HÌNH ẢNH Hình 1 Mơi trường lập trình ngơn ngữ R Hình Đồ thị hộp tổ chức đồ thuộc tính Petal Length liệu iris 11 Hình Ma trận scatterplot chiều liệu iris .12 Hình Hiển thị liệu iris với phương pháp hiển thị .14 Hình Đồ thị chiều cao trung bình trẻ theo tháng tuổi .16 Hình Đồ thị phương trình hồi quy chiều cao trung bình trẻ theo tháng tuổi 17 Hình Phân bố tần số biểu diễn dạng bảng đồ thị 19 Hình 2 Hệ số biến thiên 20 Hình Bảng cân nặng trẻ từ 1-6 tuổi 21 Hình Biểu đồ mơ hình hồi quy tuyến tính cân nặng trẻ 22 Hình Phương trình tuyến tính đa biến 23 YY Hình Tên biến số liệu 25 Hình Dữ liệu sau tóm tắt .27 Hình 3 Dữ liệu thống kê lại 27 Hình Chỉ số PAY_AMT phân tích biểu đồ 28 Hình 5, Dữ liệu thống kê theo nhóm giới tính 29 Hình Kết biểu diễn biểu đồ tán xạ .29 Hình Kết biểu diễn biểu đồ BoxPlot 30 Hình Biểu đồ histogram biến EDUCATION 31 Hình Kết sau kiểm tra 31 Hình 10 Kết sau trích xuất .32 Hình 11 Kết trích xuất cột từ hàng đến 20 .32 Hình 12 Dữ liệu xuất theo chiều ngang .33 Hình 13 Kết sau tách giới tính liệu 33 Hình 14 Số liệu biến tách từ data 34 Hình 15 Chọn 10 dịng số liệu 34 Hình 16 Biểu đồ vẽ với biến số SEX, AGE, MARRIAGE, BILL_AMT, PAY_2 35 Hình 17 Biểu đồ histogram với biến EDUCATION .35 Hình 18 Biểu đồ Barplot 36 Hình 19 Biểu đồ với biến AGE EDUCATION 36 Hình 20 Biểu đồ đường 37 Hình 21 Kết 30000 biến 37 Hình 22 Kết mẫu Train Test 38 Hình 23 Các yếu tố ảnh hưởng đến dự đoán 38 Hình 24 Xây dựng mẫu xây dựng 38 Hình 25 Kết giá trị Dự Báo Kiểm Định 38 CHƯƠNG GIỚI THIỆU NGÔN NGỮ R 1.1 Tổng Quan ngôn ngữ R R ngôn ngữ lập trình hàm cấp cao vừa mơi trường dành cho tính tốn thống kê R hỗ trợ nhiều cơng cụ cho phân tích liệu, khám phá tri thức khai mỏ liệu lại phần mềm miễn phí mã nguồn mở Hơn R dễ học phát triển nhanh ứng dụng tính tốn xác suất thống kê, phân tích liệu R cơng cụ mạnh cho học máy, thống kê phân tích liệu Nó ngơn ngữ lập trình Ngơn ngữ R platform-independent sử dụng cho hệ điều hành Việc cài đặt R miễn phì sử dụng mà khơng cần phải mua quyền Ngôn ngữ R mã nguồn mở nên phân tích source code để hiểu xác cách R vận hành Bất kỳ thêm tính fix bug mà không cần chờ nhà phát hành vá Đồng thời, R tích hợp với ngơn ngữ khác (C,C++) Nó cho phép tương tác với nhiều nguồn liệu gói thống kê (SAS, SPSS) R có cộng đồng phát triển mạnh mẽ R ngơn ngữ lập trình mà nhiều nhà phân tích liệu, nhà khoa học liệu, nhà thống kê sử dụng cho mục đích phân tích liệu thực phân thích thống kê biểu đồ công cụ trực quan khác Qua việc sử dụng R, người ta phân tích liệu lớn(big data) R lên ngôn ngữ mang nhiều tiềm ngày mở rộng với hàng ngàn gói (packages) cung cấp cho nhiều ứng dụng 1.2 Các lệnh hàm R Hình Mơi trường lập trình ngơn ngữ R Trước hết, tải phiên R gói thư viện từ địa trang web http://cran.r-project.org Tiến hành cài đặt, gọi thực thi môi trường R hình 1.1 Để thêm gói thư viện vào mơi trường lập trình R, sử dụng chức cung cấp từ menu Packages R ngơn ngữ lập trình hàm cấp cao Tất cơng việc làm thơng qua hàm Ta truyền thông số cho hàm Giá trị trả hàm lưu vào đối tượng biến nhờ vào phép gán =

Ngày đăng: 05/12/2021, 19:16

HÌNH ẢNH LIÊN QUAN

Hình 1 .. Môi trường lập trình ngôn ngữ R - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 1 . Môi trường lập trình ngôn ngữ R (Trang 9)
Hình 1 .. Đồ thị hộp và tổ chức đồ của thuộc tính Petal Length dữ liệu iris - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 1 . Đồ thị hộp và tổ chức đồ của thuộc tính Petal Length dữ liệu iris (Trang 14)
Hình 1 .. Ma trận scatterplo t2 chiều của dữ liệu iris - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 1 . Ma trận scatterplo t2 chiều của dữ liệu iris (Trang 15)
Bảng 1.3.3 Ví dụ minh họa hiển thị dữ liệu iris với 4 phương pháp - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Bảng 1.3.3 Ví dụ minh họa hiển thị dữ liệu iris với 4 phương pháp (Trang 16)
Hình 1 .. Hiển thị dữ liệu iris với 4 phương pháp hiển thị - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 1 . Hiển thị dữ liệu iris với 4 phương pháp hiển thị (Trang 17)
Bảng 1.3.4. Chiều cao trung bình của trẻ theo tháng tuổi - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Bảng 1.3.4. Chiều cao trung bình của trẻ theo tháng tuổi (Trang 17)
Một cách trực quan, chúng ta có thể hiển thị bảng dữ liệu với scatterplo t2 chiều trong R như sau: - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
t cách trực quan, chúng ta có thể hiển thị bảng dữ liệu với scatterplo t2 chiều trong R như sau: (Trang 18)
Hình 1 .. Đồ thị về chiều cao trung bình của trẻ theo tháng tuổi - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 1 . Đồ thị về chiều cao trung bình của trẻ theo tháng tuổi (Trang 18)
Hình 1 .. Đồ thị của phương trình hồi quy về chiều cao trung bình của trẻ theo tháng tuổi - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 1 . Đồ thị của phương trình hồi quy về chiều cao trung bình của trẻ theo tháng tuổi (Trang 20)
- Phân bố tần số có thể được mô tả theo hai cách, dưới dạng bảng hoặc như một đồ thị. - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
h ân bố tần số có thể được mô tả theo hai cách, dưới dạng bảng hoặc như một đồ thị (Trang 22)
2.3.1. Mô hình hồi quy tuyến tính đơn giản - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
2.3.1. Mô hình hồi quy tuyến tính đơn giản (Trang 24)
2.3. Các mô hình phân tích - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
2.3. Các mô hình phân tích (Trang 24)
Hình 3 .. Dữ liệu được thống kê lại - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Dữ liệu được thống kê lại (Trang 28)
Hình 3 .. Dữ liệu sau khi được tóm tắt - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Dữ liệu sau khi được tóm tắt (Trang 28)
Hình 3 .. Chỉ số PAY_AMT được phân tích bằng biểu đồ - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Chỉ số PAY_AMT được phân tích bằng biểu đồ (Trang 29)
Hình 3. , Dữ liệu được thống kê theo nhóm giới tính - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3. Dữ liệu được thống kê theo nhóm giới tính (Trang 30)
Hình 3 .. Kết quả được biểu diễn bằng biểu đồ tán xạ - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Kết quả được biểu diễn bằng biểu đồ tán xạ (Trang 30)
Hình 3 .. Kết quả được biểu diễn bằng biểu đồ BoxPlot - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Kết quả được biểu diễn bằng biểu đồ BoxPlot (Trang 31)
Hình 3 .. Biểu đồ histogram của biến EDUCATION - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Biểu đồ histogram của biến EDUCATION (Trang 32)
Hình 3 .. Kết quả trích xuất cột 1 và 3 từ hàng 1 đến 20 - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Kết quả trích xuất cột 1 và 3 từ hàng 1 đến 20 (Trang 33)
Hình 3 .. Dữ liệu được xuất theo chiều ngang - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Dữ liệu được xuất theo chiều ngang (Trang 34)
Hình 3 .. Biểu đồ histogram với biến EDUCATION - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Biểu đồ histogram với biến EDUCATION (Trang 36)
Hình 3 .. Biểu đồ vẽ được với các biến số SEX, AGE, MARRIAGE, BILL_AMT, PAY_2 - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Biểu đồ vẽ được với các biến số SEX, AGE, MARRIAGE, BILL_AMT, PAY_2 (Trang 36)
Hình 3 .. Biểu đồ Barplot - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Biểu đồ Barplot (Trang 37)
Hình 3 .. Biểu đồ thanh với biến AGE và EDUCATION - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Biểu đồ thanh với biến AGE và EDUCATION (Trang 37)
Hình 3 .. Biểu đồ đường - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
Hình 3 . Biểu đồ đường (Trang 38)
Bước 3: Xây dựng biến mô hình Logistic - CHUYÊN đề PHÂN TÍCH DỮ LIỆU VỚI ngôn ngữ r
c 3: Xây dựng biến mô hình Logistic (Trang 39)

TỪ KHÓA LIÊN QUAN

w