Bài viết Tìm hiểu các công cụ phân tích dữ liệu giúp bạn đọc tìm hiểu sơ lược qua các công cụ phân tích dữ liệu tập trung vào 2 khía cạnh: Các công cụ (Có thể là thương mại) dành cho các doanh nghiệp hoặc người dùng không cần kiến thức lập trình và Ngôn ngữ lập trình dành cho người dùng có chút ít kiến thức về lập trình có thể phát huy hiệu quả phân tích dữ liệu. Mời các bạn cùng tham khảo!
TÌM HIỂU CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU Nguyễn Thanh Trường Khoa Công nghệ Thông tin Trường Đại học Tài - Marketing Email: nt.truong@ufm.edu.vn Tóm tắt: Phân tích liệu (data analytics) trình kiểm tra, làm sạch, chuyển đổi mơ hình hóa liệu với mục tiêu khám phá thơng tin hữu ích, đưa kết luận hỗ trợ việc định Phân tích liệu có nhiều khía cạnh cách tiếp cận, bao gồm kỹ thuật đa dạng nhiều tên gọi khác sử dụng lĩnh vực kinh doanh, khoa học khoa học xã hội khác Trong giới kinh doanh ngày nay, phân tích liệu đóng vai trị giúp đưa định khoa học giúp doanh nghiệp hoạt động hiệu Trong này, tìm hiểu sơ lược qua cơng cụ phân tích liệu tập trung vào khía cạnh: Các cơng cụ (Có thể thương mại) dành cho doanh nghiệp người dùng không cần kiến thức lập trình Ngơn ngữ lập trình dành cho người dùng có chút kiến thức lập trình phát huy hiệu phân tích liệu Từ khóa: Phân tích liệu, data analytics GIỚI THIỆU Nhu cầu ngày tăng tầm quan trọng phân tích liệu thị trường tạo nhiều hội toàn giới Việc chọn lọc cơng cụ phân tích liệu hàng đầu gặp khó khăn cơng cụ nguồn mở phổ biến hơn, thân thiện với người dùng hướng đến hiệu suất so với phiên trả phí Có nhiều công cụ nguồn mở không yêu cầu mã hóa quản lý để mang lại kết tốt so với phiên trả phí, Lập trình R khai thác liệu Tableau public, Python trực quan hóa liệu Sau điểm qua số công cụ phân tích liệu hàng đầu, mã nguồn mở phiên trả phí, dựa mức độ phổ biến, khả học hỏi hiệu suất chúng CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU 2.1 Tableau Public Tableau Public phần mềm miễn phí kết nối nguồn liệu Kho liệu công ty, Microsoft Excel liệu dựa web tạo trực quan hóa liệu, đồ, bảng điều khiển, v.v với cập nhật theo thời gian thực hiển thị web Chúng chia sẻ thơng qua phương 186 tiện truyền thơng xã hội với khách hàng Nó cho phép truy cập để tải xuống tập tin định dạng khác Nếu muốn thấy sức mạnh hoạt cảnh, phải có nguồn liệu tốt Khả Dữ liệu lớn Tableau khiến chúng trở nên quan trọng người dùng phân tích trực quan hóa liệu tốt phần mềm trực quan hóa liệu khác thị trường Các sản phẩm Tableau truy vấn sở liệu quan hệ, phân tích xử lý trực tuyến khối, sở liệu đám mây bảng tính để tạo trực quan hóa liệu kiểu đồ thị Phần mềm trích xuất, lưu trữ truy xuất liệu từ công cụ liệu nhớ Các sản phẩm củaTableau gồm: - Tableau Desktop - Tableau Server - Tableau Online - Tableau Prep Builder (Released in 2018) - Tableau Vizable (Consumer data visualization mobile app released in 2015) - Tableau Public (free to use) - Tableau Reader (free to use) - Tableau Mobile - Tableau CRM Tableau có chức lập đồ, vẽ tọa độ kinh độ vĩ độ kết nối với tập tin không gian Esri Shapefiles, KML (Keyhole Markup Language) GeoJSON để hiển thị địa lý tùy chỉnh Mã hóa địa lý tích hợp cho phép địa điểm hành (quốc gia, tiểu bang / tỉnh, quận / huyện), mã bưu chính, Quận Quốc hội Hoa Kỳ, CBSA / MSA Hoa Kỳ, Mã vùng, Sân bay khu vực thống kê Liên minh Châu Âu (mã NUTS) đến ánh xạ tự động Các khu vực địa lý nhóm lại để tạo lãnh thổ tùy chỉnh mã hóa địa lý tùy chỉnh sử dụng để mở rộng vai trị địa lý có sản phẩm 2.2 SAS SAS (trước “Statistical Analysis System" - Hệ thống Phân tích Thống kê) phần mềm thống kê phát triển 187 Viện SAS để quản lý liệu, phân tích nâng cao, phân tích đa biến, kinh doanh tình báo, điều tra tội phạm, phân tích dự đốn SAS phát triển Đại học Bang North Carolina từ năm 1966 năm 1976, Viện SAS hợp SAS phát triển thêm vào năm 1980 1990 với việc bổ sung thủ tục thống kê mới, thành phần bổ sung Giao diện trỏ nhấp thêm vào phiên vào năm 2004 Một sản phẩm phân tích truyền thơng xã hội thêm vào năm 2010 Tính đến năm 2011, sản phẩm lớn SAS dòng sản phẩm dành cho khách hàng thông minh Nhiều mô-đun SAS dành cho web, mạng xã hội phân tích tiếp thị sử dụng để lập hồ sơ khách hàng khách hàng tiềm năng, dự đoán hành vi họ quản lý tối ưu hóa thơng tin liên lạc SAS cung cấp Khung gian lận SAS Chức khung giám sát giao dịch ứng dụng, mạng đối tác khác sử dụng phân tích để xác định điểm bất thường có dấu hiệu gian lận SAS Enterprise GRC (Quản trị, Rủi ro Tuân thủ) cung cấp mơ hình rủi ro, phân tích kịch chức khác để quản lý hình dung rủi ro, tn thủ sách cơng ty Ngồi cịn có sản phẩm Quản lý rủi ro doanh nghiệp SAS thiết kế chủ yếu cho ngân hàng tổ chức dịch vụ tài 2.3 Apache Spark Apache Spark cơng cụ phân tích hợp mã nguồn mở để xử lý liệu quy mô lớn Spark cung cấp giao diện để lập trình tồn cụm với tính song song liệu ngầm khả chịu lỗi Ban đầu phát triển Đại học California, AMPLab Berkeley, sở mã Spark sau tặng cho Tổ chức Phần mềm Apache, tổ chức trì kể từ Spark RDD (resilient distributed dataset) phát triển vào năm 2012 đáp ứng hạn chế mô hình tính tốn cụm MapReduce, mơ hình buộc cấu trúc luồng liệu tuyến tính cụ thể chương trình phân tán: Các chương trình MapReduce đọc liệu đầu vào từ đĩa, ánh xạ hàm liệu, giảm kết đồ lưu trữ kết giảm đĩa Các RDD Spark hoạt động tập hợp làm việc cho chương trình phân tán cung cấp dạng nhớ dùng chung phân tán bị hạn chế 188 Spark bao gồm thư viện - MLlib, cung cấp tập hợp thuật toán máy tiến cho kỹ thuật khoa học liệu lặp lặp lại Phân loại, Hồi quy, Lọc cộng tác, Phân cụm, v.v 2.4 Excel Excel cơng cụ phân tích bản, phổ biến sử dụng rộng rãi tất ngành công nghiệp Cho dù bạn chuyên gia SAS, R hay Tableau, bạn cần sử dụng Excel Excel trở nên quan trọng có u cầu phân tích liệu nội khách hàng Nó phân tích nhiệm vụ phức tạp tóm tắt liệu với xem trước bảng tổng hợp giúp lọc liệu theo yêu cầu khách hàng Excel có tùy chọn phân tích kinh doanh nâng cao giúp hỗ trợ khả lập mô hình có tùy chọn tạo sẵn phát mối quan hệ tự động, tạo thước đo DAX (Data Analysis Expressions) phân nhóm thời gian Excel cung cấp số lệnh, hàm công cụ giúp bạn dễ dàng thực tác vụ phân tích liệu phức tạp Excel cho phép bạn thực phép tính phức tạp khác cách dễ dàng Các cơng cụ phân tích liệu đa Excel: Data Consolidation Dùng tổng hợp liệu từ nhiều nguồn khác trình bày báo cáo Dữ liệu nằm trang tính sổ làm việc sổ làm việc khác Với công cụ liệu Excel Consolidation, bạn thực việc vài bước đơn giản What-If Analysis What-If Analysis cung cấp cơng cụ để xử lý tình phân tích liệu sau: - Goal Seek - Data Table - Scenario Manager Tối ưu hóa với Excel Solver Add-in Solver sử dụng để xử lý tình tìm kiếm mục tiêu phức tạp Trong trường hợp vậy, ngồi đầu vào đầu ra, có ràng buộc giới hạn 189 xác định áp đặt giá trị đầu vào có Hơn nữa, Solver sử dụng để tạo giải pháp tối ưu Excel có Add-in Solver giúp bạn giải vấn đề phức tạp Nhập liệu vào Excel Phân tích liệu bạn phụ thuộc vào nguồn liệu bên ngồi khác Trong Excel, bạn nhập liệu từ nguồn liệu khác nhau, chẳng hạn Cơ sở liệu Microsoft Access, Trang Web, Tập tin văn bản, Bảng SQL Server, Khối phân tích SQL Server, Tập tin XML, v.v Data Model Mơ hình Dữ liệu Excel sử dụng để tích hợp liệu từ nhiều bảng sổ làm việc / từ liệu nhập / từ nguồn liệu kết nối với sổ làm việc thông qua kết nối liệu Mơ hình liệu sử dụng cách minh bạch báo cáo PivotTable, PivotChart, PowerPivot Power View Pivot Table Khi bạn tích hợp Mơ hình Dữ liệu với Pivot Table, bạn thực phân tích liệu mở rộng cách đối chiếu, kết nối, tóm tắt báo cáo liệu từ số nguồn khác Vì bạn nhập bảng từ nguồn liệu bên ngồi tạo PivotTable, nên cập nhật tự động giá trị Pivot Table liệu nguồn liệu kết nối cập nhật Power Pivot Bạn sử dụng Power Pivot để truy cập, phân tích báo cáo liệu từ nhiều nguồn liệu khác Power Pivot giúp bạn xử lý liệu lớn cách dễ dàng tạo báo cáo phân tích hấp dẫn PowerPivot cung cấp cho bạn lệnh để quản lý Mơ hình Dữ liệu, thêm bảng Excel vào Mơ hình Dữ liệu, để thêm trường tính tốn Bảng Dữ liệu, để xác định KPI, v.v Khám phá liệu với Power View Power View cung cấp tính khám phá tương tác, trực quan hóa phân tích liệu lớn Nhờ tùy chọn trực quan hóa linh hoạt, bạn chắn tìm thấy tùy chọn 190 cung cấp cho liệu bạn tảng hoàn hảo, bạn khám phá liệu, tóm tắt báo cáo Khám phá liệu với Hierarchies Nếu liệu bạn có cấu trúc phân cấp, chúng xác định Mơ hình liệu phản ánh Power View xây dựng cấu trúc phân cấp Power View CÁC NGƠN NGỮ LẬP TRÌNH PHÂN TÍCH DỮ LIỆU 3.1 Lập trình R R cơng cụ phân tích hàng đầu ngành sử dụng rộng rãi để thống kê lập mơ hình liệu Nó dễ dàng thao tác liệu bạn trình bày theo nhiều cách khác Nó vượt SAS theo nhiều cách dung lượng liệu, hiệu suất kết R biên dịch chạy nhiều tảng viz UNIX, Windows MacOS Nó có 11.556 gói cho phép bạn duyệt gói theo danh mục R cung cấp công cụ để tự động cài đặt tất gói theo yêu cầu người dùng, lắp ráp tốt với Dữ liệu lớn R ngôn ngữ mơi trường cho tính tốn thống kê đồ họa Đây dự án GNU tương tự ngôn ngữ môi trường S phát triển Phịng thí nghiệm Bell (trước AT&T, Lucent Technologies) John Chambers đồng nghiệp R coi cách triển khai khác S Có số khác biệt quan trọng, nhiều mã viết cho S chạy không thay đổi R R cung cấp nhiều loại thống kê (mô hình tuyến tính phi tuyến, kiểm tra thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân cụm, …) kỹ thuật đồ họa, có khả mở rộng cao Ngôn ngữ S thường phương tiện lựa chọn để nghiên cứu phương pháp luận thống kê R cung cấp lộ trình Nguồn mở để tham gia vào hoạt động Một điểm mạnh R dễ dàng tạo chất lượng xuất thiết kế tốt, bao gồm ký hiệu cơng thức tốn học cần Sự cẩn thận thực mặc định cho lựa chọn thiết kế nhỏ đồ họa, người dùng có tồn quyền kiểm sốt 191 R có sẵn dạng Phần mềm Miễn phí theo điều khoản Giấy phép Công cộng GNU Tổ chức Phần mềm Tự dạng mã nguồn Nó biên dịch chạy nhiều tảng UNIX hệ thống tương tự (bao gồm FreeBSD Linux), Windows MacOS R analytics (hoặc ngơn ngữ lập trình R) phần mềm mã nguồn mở miễn phí sử dụng cho tất loại dự án khoa học liệu, thống kê trực quan hóa Ngơn ngữ lập trình R mạnh mẽ, linh hoạt tích hợp vào tảng BI (Business intelligence), để giúp bạn tận dụng tối đa liệu quan trọng doanh nghiệp Những tích hợp bao gồm thứ từ chức thống kê đến mơ hình dự đốn, chẳng hạn hồi quy tuyến tính R cho phép xây dựng chạy mơ hình thống kê cách sử dụng liệu Sisense, tự động cập nhật mơ hình thơng tin chảy vào mơ hình Ngơn ngữ xây dựng đặc biệt cho phân tích thống kê khai thác liệu R analytics không sử dụng để phân tích liệu mà cịn để tạo phần mềm ứng dụng thực phân tích thống kê cách đáng tin cậy Ngồi cơng cụ thống kê tiêu chuẩn, R bao gồm giao diện đồ họa Do đó, sử dụng loạt mơ hình phân tích bao gồm thử nghiệm thống kê cổ điển, mơ hình tuyến tính / khơng tuyến tính, phân nhóm liệu, phân tích chuỗi thời gian, … Các nhà thống kê thích sử dụng R tạo biểu đồ đồ họa sẵn sàng để xuất bản, với ký hiệu cơng thức tốn học xác Nó phổ biến hình ảnh trực quan nó: đồ thị, biểu đồ, hình ảnh, … Các nhà phân tích BI sử dụng loại hình ảnh trực quan để giúp người hiểu xu hướng, ngoại lệ mẫu liệu Một lý khác cho phổ biến tập lệnh dịng lệnh cho phép người dùng lưu trữ phương pháp phân tích phức tạp theo bước, để sử dụng lại sau với liệu Thay phải cấu hình lại kiểm tra, người dùng gọi lại cách đơn giản Điều làm cho hữu ích cho mục đích xác nhận xác nhận Các nhà nghiên cứu khám phá mơ hình thống kê để xác nhận chúng kiểm tra cơng việc có họ để tìm lỗi xảy Mặc dù biết đến ngơn ngữ phức tạp hơn, ngôn ngữ phổ biến để phân tích liệu 192 Quan trọng hơn, việc sử dụng R thay phần mềm đóng gói có nghĩa cơng ty xây dựng cách để kiểm tra lỗi mơ hình phân tích dễ dàng sử dụng lại truy vấn có phân tích đặc biệt Trong học thuật lĩnh vực thiên nghiên cứu hơn, R cơng cụ vơ giá, lĩnh vực nghiên cứu thường u cầu mơ hình độc đáo cụ thể cao Ví dụ nhỏ cách viết chương trình: Tính tổng bình phương (sum of squares): 12 + 22 + 32 + 42 + 52 = ? Thay khai báo biến dùng vịng lặp for để tính tổng theo cách lập trình thơng thường với R ta thực hiện: > x x x sum(x^2) [1] 55 > 3.2 Python Python ngôn ngữ kịch hướng đối tượng, dễ đọc, viết, bảo trì cơng cụ mã nguồn mở miễn phí Nó phát triển Guido van Rossum vào cuối năm 1980, hỗ trợ phương pháp lập trình chức cấu trúc Phython dễ học giống với JavaScript, Ruby PHP Ngồi ra, Python có thư viện máy học tốt Scikitlearn, Theano, Tensorflow Keras Một tính quan trọng khác Python lắp ráp tảng máy chủ SQL, sở liệu MongoDB JSON Python xử lý liệu văn tốt Python cơng cụ ngày phổ biến để phân tích liệu Trong năm gần đây, số thư viện đạt đến độ chín muồi, cho phép người dùng R Stata tận dụng vẻ đẹp, tính linh hoạt hiệu suất Python mà hy sinh chức mà chương trình cũ tích lũy nhiều năm Python ngơn ngữ lập trình đa mục đích phổ biến sử dụng rộng rãi tính linh hoạt nó, sưu tập thư viện phong phú nó, có giá trị cho phân tích tính tốn phức tạp 193 Khả mở rộng Python có nghĩa có hàng nghìn thư viện dành riêng cho phân tích, bao gồm Thư viện phân tích liệu Python sử dụng rộng rãi (còn gọi Pandas) Đối với hầu hết phần, thư viện phân tích liệu Python phần có nguồn gốc từ thư viện NumPy, bao gồm hàng trăm phép tính tốn học, phép tốn hàm Các cơng cụ phân tích Python trở nên phổ biến ngơn ngữ máy tính áp dụng rộng rãi tính linh hoạt phát triển giải pháp đa diện Ngoài ra, khả hiệu suất Python cao nhiều so với ngôn ngữ phổ biến khác sử dụng phân tích liệu khả tương thích với nhiều ngơn ngữ khác có nghĩa đơn giản thuận tiện hầu hết trường hợp Việc sử dụng tương đối nhẹ nhớ tài nguyên xử lý khác Python có nghĩa nhanh chóng vượt xa ngơn ngữ MatLab R, ngôn ngữ xây dựng đặc biệt cho phân tích thống kê Cách thức sử dụng Python để phân tích liệu: - Một cách sử dụng phổ biến Python khả tạo quản lý cấu trúc liệu cách nhanh chóng - chẳng hạn Pandas cung cấp nhiều cơng cụ để thao tác, phân tích chí biểu diễn cấu trúc liệu liệu phức tạp Điều bao gồm chuỗi thời gian cấu trúc liệu phức tạp hợp nhất, xoay vòng bảng cắt để tạo khung nhìn quan điểm tập hợp có - Cách khác, cơng cụ Scikit-Learn (còn gọi Sklearn) cung cấp cơng cụ phân tích nâng cao kết hợp với khả máy học phức tạp Điều cho phép người dùng xây dựng mơ hình phức tạp hơn, thực phép hồi quy đa biến phức tạp hơn, tiền xử lý liệu Được kết hợp với thư viện iPython NumPy, cơng cụ tạo thành tảng phân tích liệu mạnh mẽ - Ngồi ra, người dùng sử dụng Python để viết thuật tốn phân tích liệu riêng tích hợp trực tiếp vào cơng cụ kinh doanh thơng minh thơng qua API Ví dụ nhỏ cách viết chương trình: In dãy Fibonacci python: 194 Thay khai báo biến gán biến, dùng hoán vị dùng đệ quy để xuất dãy Fibonacii theo cách lập trình thơng thường với R ta thực hiện: >>> a, b=0,1 >>> while a>> a, b=0,1 >>> while a