1. Trang chủ
  2. » Luận Văn - Báo Cáo

Lập trình R trong phân tích dữ liệu

13 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 666,26 KB

Nội dung

Bài viết Lập trình R trong phân tích dữ liệu tìm hiểu cách thức hoạt động và lập trình trên ngôn ngữ R để tiếp cận cách thao tác trên tập dữ liệu. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Mời các bạn cùng tham khảo!

LẬP TRÌNH R TRONG PHÂN TÍCH DỮ LIỆU Nguyễn Thanh Trường Khoa Công nghệ Thông tin Trường Đại học Tài - Marketing Email: nt.truong@ufm.edu.vn Tóm tắt: : Ngành Khoa học liệu lĩnh vực nghiên cứu việc quản trị phân tích liệu, từ tìm cách hiểu biết, tri thức hành động, định dẫn dắt hành động Ngành Khoa học liệu ngành gồm phần chính: Tạo quản trị liệu, phân tích liệu, chuyển kết phân tích đánh giá Phân tích liệu (data analytics) trình kiểm tra, làm sạch, chuyển đổi mơ hình hóa liệu với mục tiêu khám phá thơng tin hữu ích, đưa kết luận hỗ trợ việc định Phân tích liệu có nhiều khía cạnh cách tiếp cận, bao gồm kỹ thuật đa dạng nhiều tên gọi khác sử dụng lĩnh vực kinh doanh, khoa học khoa học xã hội khác Trong này, tác giả tìm hiểu cách thức hoạt động lập trình ngơn ngữ R để tiếp cận cách thao tác tập liệu Từ khóa: Data analytics, data science, programming r, phân tích liệu, khoa học liệu, lập trình R GIỚI THIỆU Các nhà khoa học liệu thường đóng vai trò nhà tư vấn thuê cơng ty nơi họ tham gia vào q trình định khác tạo chiến lược Nói cách khác, nhà khoa học liệu sử dụng hiểu biết sâu sắc có ý nghĩa từ liệu để hỗ trợ công ty đưa định kinh doanh thông minh Hiện Việt Nam có nhiều trường đại học đào tạo ngành khoa học liệu như: Đại Học Công Nghệ Thông Tin – Đại Học Quốc Gia TPHCM, Đại Học Khoa Học Tự Nhiên – Đại Học Quốc Gia TPHCM, Đại Học Kinh Tế Quốc Dân, Đại Học Kinh Tế TPHCM, Đại Học Kinh Tế -Tài Chính TPHCM, Đại học Công Nghệ TPHCM, Đại Học Dân Lập Văn Lang,… cho thấy xu hướng ngày cao ngành khoa học liệu Trong xu hướng đó, nên tìm hiểu cách thức hoạt động cách làm việc vài cơng cụ phân tích liệu Đối với người làm ngành cơng nghệ thơng tin 223 ngành mới, giao thoa lĩnh vực: Khoa học máy tính – Thống kê – Chun mơn ngành Trong phân tích liệu đóng vai trị quan trọng giúp nhà quản lý, kinh doanh thống kê, dự báo số liệu nhằm hoạch định kê hoạch giúp cho công tác quản lý kinh doanh phát triển cách mạng công nghiệp lần thứ 4, nắm bắt thông tin, liệu dự báo giúp nhiều cho tương lai SƠ LƯỢC CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU Các cơng cụ phân tích liệu chia làm nhóm: - Nhóm cơng cụ thao tác giao diện chính, nhóm dành cho người dùng khơng thuộc nhóm ngành liên quan đến công nghệ thông tin như: nhà kinh tế, nhà thống kê, … - Nhóm khác ngơn ngữ lập trình để thao tác liệu, nhóm địi hỏi người dùng có chút kiến thức lập trình nhà tốn học, cơng nghệ thơng tin,… 2.1 Các cơng cụ phân tích liệu 2.1.1 Tableau Public Tableau Public phần mềm miễn phí kết nối nguồn liệu Kho liệu cơng ty, Microsoft Excel liệu dựa web tạo trực quan hóa liệu, đồ, bảng điều khiển, v.v với cập nhật theo thời gian thực hiển thị web Chúng chia sẻ thông qua phương tiện truyền thông xã hội với khách hàng Nó cho phép truy cập để tải xuống tập tin định dạng khác Nếu muốn thấy sức mạnh hoạt cảnh, phải có nguồn liệu tốt Khả Dữ liệu lớn Tableau khiến chúng trở nên quan trọng người dùng phân tích trực quan hóa liệu tốt phần mềm trực quan hóa liệu khác thị trường 2.1.2 SAS SAS (trước “Statistical Analysis System" - Hệ thống Phân tích Thống kê) phần mềm thống kê phát triển Viện SAS để quản lý liệu, phân tích nâng cao, phân tích đa biến, kinh doanh tình báo, điều tra tội phạm, phân tích dự đốn 224 Tính đến năm 2011, sản phẩm lớn SAS dòng sản phẩm dành cho khách hàng thông minh Nhiều mô-đun SAS dành cho web, mạng xã hội phân tích tiếp thị sử dụng để lập hồ sơ khách hàng khách hàng tiềm năng, dự đoán hành vi họ quản lý tối ưu hóa thơng tin liên lạc SAS cung cấp khung gian lận SAS Chức khung giám sát giao dịch ứng dụng, mạng đối tác khác sử dụng phân tích để xác định điểm bất thường có dấu hiệu gian lận SAS Enterprise GRC (Quản trị, Rủi ro Tuân thủ) cung cấp mơ hình rủi ro, phân tích kịch chức khác để quản lý hình dung rủi ro, tn thủ sách cơng ty Ngồi cịn có sản phẩm Quản lý rủi ro doanh nghiệp SAS thiết kế chủ yếu cho ngân hàng tổ chức dịch vụ tài 2.1.3 Apache Spark Apache Spark cơng cụ phân tích hợp mã nguồn mở để xử lý liệu quy mô lớn Spark cung cấp giao diện để lập trình tồn cụm với tính song song liệu ngầm khả chịu lỗi Ban đầu phát triển Đại học California, AMPLab Berkeley, sở mã Spark sau tặng cho Tổ chức Phần mềm Apache, tổ chức trì kể từ Spark bao gồm thư viện - MLlib, cung cấp tập hợp thuật toán máy tiến cho kỹ thuật khoa học liệu lặp lặp lại Phân loại, Hồi quy, Lọc cộng tác, Phân cụm, v.v 2.1.4 Excel Excel cơng cụ phân tích bản, phổ biến sử dụng rộng rãi tất ngành công nghiệp Cho dù bạn chuyên gia SAS, R hay Tableau, bạn cần sử dụng Excel Excel trở nên quan trọng có u cầu phân tích liệu nội khách hàng Nó phân tích nhiệm vụ phức tạp tóm tắt liệu với xem trước bảng tổng hợp giúp lọc liệu theo yêu cầu khách hàng Excel có tùy chọn phân tích kinh doanh nâng cao giúp hỗ trợ khả lập mơ hình có tùy chọn tạo sẵn phát mối quan hệ tự động, tạo thước đo DAX (Data Analysis Expressions) phân nhóm thời gian Excel cung cấp số lệnh, hàm công cụ giúp bạn dễ dàng thực tác vụ phân tích liệu phức tạp Excel cho phép bạn thực phép tính phức tạp khác cách dễ dàng 225 Các cơng cụ phân tích liệu đa Excel: - Data Consolidation - What-If Analysis - Tối ưu hóa với Excel Solver Add-in - Nhập liệu vào Excel - Data Model - PivotTable - PowerPivot - Khám phá liệu với Power View - Khám phá liệu với hierarchies 2.2 Các ngơn ngữ lập trình phân tích liệu 2.2.1 Python Python ngơn ngữ kịch hướng đối tượng, dễ đọc, viết, bảo trì cơng cụ mã nguồn mở miễn phí Nó phát triển Guido van Rossum vào cuối năm 1980, hỗ trợ phương pháp lập trình chức cấu trúc Phython dễ học giống với JavaScript, Ruby PHP Ngồi ra, Python có thư viện máy học tốt Scikitlearn, Theano, Tensorflow Keras Một tính quan trọng khác Python lắp ráp tảng máy chủ SQL, sở liệu MongoDB JSON Python xử lý liệu văn tốt (Python Programming, n.d.) Python công cụ ngày phổ biến để phân tích liệu Trong năm gần đây, số thư viện đạt đến độ chín muồi, cho phép người dùng R Stata tận dụng vẻ đẹp, tính linh hoạt hiệu suất Python mà khơng phải hy sinh chức mà chương trình cũ tích lũy nhiều năm Python ngơn ngữ lập trình đa mục đích phổ biến sử dụng rộng rãi tính linh hoạt nó, sưu tập thư viện phong phú nó, có giá trị cho phân tích tính toán phức tạp 226 Khả mở rộng Python có nghĩa có hàng nghìn thư viện dành riêng cho phân tích, bao gồm Thư viện phân tích liệu Python sử dụng rộng rãi (cịn gọi Pandas) Đối với hầu hết phần, thư viện phân tích liệu Python phần có nguồn gốc từ thư viện NumPy, bao gồm hàng trăm phép tính tốn học, phép tốn hàm Các cơng cụ phân tích Python trở nên phổ biến ngơn ngữ máy tính áp dụng rộng rãi tính linh hoạt phát triển giải pháp đa diện Ngoài ra, khả hiệu suất Python cao nhiều so với ngôn ngữ phổ biến khác sử dụng phân tích liệu khả tương thích với nhiều ngơn ngữ khác có nghĩa đơn giản thuận tiện hầu hết trường hợp Việc sử dụng tương đối nhẹ nhớ tài nguyên xử lý khác Python có nghĩa nhanh chóng vượt xa ngôn ngữ MatLab R, ngôn ngữ xây dựng đặc biệt cho phân tích thống kê 2.2.2 Lập trình R R cơng cụ phân tích hàng đầu ngành sử dụng rộng rãi để thống kê lập mơ hình liệu Nó dễ dàng thao tác liệu bạn trình bày theo nhiều cách khác Nó vượt SAS theo nhiều cách dung lượng liệu, hiệu suất kết R biên dịch chạy nhiều tảng viz -UNIX, Windows MacOS Nó có 11.556 gói cho phép bạn duyệt gói theo danh mục R cung cấp công cụ để tự động cài đặt tất gói theo yêu cầu người dùng, lắp ráp tốt với Dữ liệu lớn R ngôn ngữ mơi trường cho tính tốn thống kê đồ họa Đây dự án GNU tương tự ngôn ngữ môi trường S phát triển Phịng thí nghiệm Bell (trước AT&T, Lucent Technologies) John Chambers đồng nghiệp R coi cách triển khai khác S Có số khác biệt quan trọng, nhiều mã viết cho S chạy không thay đổi R R cung cấp nhiều loại thống kê (mơ hình tuyến tính phi tuyến, kiểm tra thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân cụm, …) kỹ thuật đồ họa, có khả mở rộng cao Ngơn ngữ S thường phương tiện lựa chọn để nghiên cứu phương pháp luận thống kê R cung cấp lộ trình Nguồn mở để tham gia vào hoạt động (Learn R Programming, n.d.) 227 Một điểm mạnh R dễ dàng tạo ô chất lượng xuất thiết kế tốt, bao gồm ký hiệu cơng thức tốn học cần Sự cẩn thận thực mặc định cho lựa chọn thiết kế nhỏ đồ họa, người dùng có tồn quyền kiểm sốt R có sẵn dạng Phần mềm Miễn phí theo điều khoản Giấy phép Cơng cộng GNU Tổ chức Phần mềm Tự dạng mã nguồn Nó biên dịch chạy nhiều tảng UNIX hệ thống tương tự (bao gồm FreeBSD Linux), Windows MacOS R analytics (hoặc ngơn ngữ lập trình R) phần mềm mã nguồn mở miễn phí sử dụng cho tất loại dự án khoa học liệu, thống kê trực quan hóa Ngơn ngữ lập trình R mạnh mẽ, linh hoạt tích hợp vào tảng BI (Business intelligence), để giúp bạn tận dụng tối đa liệu quan trọng doanh nghiệp Những tích hợp bao gồm thứ từ chức thống kê đến mơ hình dự đốn, chẳng hạn hồi quy tuyến tính R cho phép xây dựng chạy mơ hình thống kê cách sử dụng liệu Sisense, tự động cập nhật mơ hình thơng tin chảy vào mơ hình Ngơn ngữ xây dựng đặc biệt cho phân tích thống kê khai thác liệu R analytics khơng sử dụng để phân tích liệu mà để tạo phần mềm ứng dụng thực phân tích thống kê cách đáng tin cậy Ngồi cơng cụ thống kê tiêu chuẩn, R bao gồm giao diện đồ họa Do đó, sử dụng loạt mơ hình phân tích bao gồm thử nghiệm thống kê cổ điển, mơ hình tuyến tính/khơng tuyến tính, phân nhóm liệu, phân tích chuỗi thời gian, … Các nhà thống kê thích sử dụng R tạo biểu đồ đồ họa sẵn sàng để xuất bản, với ký hiệu công thức tốn học xác Nó phổ biến hình ảnh trực quan nó: đồ thị, biểu đồ, hình ảnh, … Các nhà phân tích BI sử dụng loại hình ảnh trực quan để giúp người hiểu xu hướng, ngoại lệ mẫu liệu Một lý khác cho phổ biến tập lệnh dịng lệnh cho phép người dùng lưu trữ phương pháp phân tích phức tạp theo bước, để sử dụng lại sau với liệu 228 Thay phải cấu hình lại kiểm tra, người dùng gọi lại cách đơn giản Điều làm cho hữu ích cho mục đích xác nhận Các nhà nghiên cứu khám phá mơ hình thống kê để xác nhận chúng kiểm tra cơng việc có họ để tìm lỗi xảy Mặc dù biết đến ngôn ngữ phức tạp hơn, ngơn ngữ phổ biến để phân tích liệu Quan trọng hơn, việc sử dụng R thay phần mềm đóng gói có nghĩa cơng ty xây dựng cách để kiểm tra lỗi mô hình phân tích dễ dàng sử dụng lại truy vấn có phân tích đặc biệt Trong học thuật lĩnh vực thiên nghiên cứu hơn, R cơng cụ vơ giá, lĩnh vực nghiên cứu thường yêu cầu mô hình độc đáo cụ thể cao KẾT QUẢ VÀ THẢO LUẬN Phân tích liệu thơng qua R / R Studio Trong phần này, thiết kế chương trình phân tích liệu R R Studio cách sử dụng tính R Studio để tạo số biểu diễn trực quan liệu Các bước sau thực để đạt mục tiêu đề Tải xuống / nhập liệu R; Chuyển đổi liệu / Chạy truy vấn liệu; Phân tích liệu sử dụng trung bình thống kê; Lập đồ thị phân phối liệu; Các bước thực cụ thể sau: Nhập liệu R Studio Đối với phần này, sử dụng liệu điều tra dân số mẫu ACS Có hai cách để nhập liệu vào R  Nhập dòng lệnh cửa sổ giao diện R Studio Thực lệnh sau cửa sổ giao diện điều khiển R Studio Giả sử lưu trữ ổ đĩa tập tin có đường dẫn sau: D:\ThanhTruong\Private\Lap trinh R\Data\ acs_or.csv acs

Ngày đăng: 31/12/2022, 12:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w