Tiền xử lý dữ liệu ETL và phân tích đa chiều OLAP Nguyễn Danh Tú... OLAP Cube: Là một khối dữ liệu nhiều chiều mà có thể dễ dàng phân tích... Dimension & FactPivot Chart Kéo vào Filters,
Trang 1Tiền xử lý dữ liệu (ETL)
và phân tích đa chiều OLAP Nguyễn Danh Tú
Trang 2Tiền xử lý & OLAP
Trang 3● OLAP: Hệ thống
phân tích dữ liệu đa chiều
Trang 4OLTP và OLAP
Trang 5OLAP - Online analytical processing
Trang 7OLAP Cube: Là một khối dữ liệu nhiều chiều mà có thể dễ dàng phân tích
Trang 8Dimension & Fact
Pivot Chart Kéo vào Filters, Legend (Series), Axis
Kiểu dữ liệu Thường là Category/Danh mục Thường là số hoặc các giá trị để đếm (count)
Khách hàngSản phẩm/Dòng sản phẩmTỉnh/Vùng/Miền/Quốc gia/Khu vực
Doanh số
Số lượng khách hàng
Số lượng sản phẩmChất lượng chăm sóc
Tỷ lệ chuyển đổi
Tỷ lệ lỗi
Trang 9OLAP Cube: Ví dụ
Trang 11Hệ thống chiều khái niệm (voi dim)/ Data taxonamy
Bộ phận Chức danh Loại phụ cấp Loại lương Nhân viên Loại BHXH Tháng Fact
Bộ phận bán
Bộ phận
Trang 12Roll-up: Tổng hợp dữ liệu theo một công thức nào đó theo các chiều dữ liệu
Trang 14Các khái niệm
● Slice: Lọc dữ liệu theo một chiều
Ví dụ:
● Từ báo cáo doanh số theo từng vùng miền =>
○ Báo cáo doanh số miền bắc
● Từ báo cáo sản lượng theo từng quý =>
○ Báo cáo sản lượng trong quý III
Slice: Lọc giá trị trong một chiều dữ liệu
Trang 15Dice: Chọn một vài dữ liệu trong một chiều
Trang 16Pivot: Xoay dữ liệu
○ Báo cáo doanh số từng sản phẩm hàng năm
● Từ báo cáo sản lượng từng dòng sản phẩm theo từng quý =>
○ Báo cáo sản lượng từng phân xưởng theo từng quý
Trang 18OLAP Data model
Thực hành: Vẽ Data model cho Nhân sự
Trang 19Mô hình dữ liệu OLTP vs OLAP
OLTP
OLAP
Trang 20Mô hình hình sao (Star model)
Trang 21Mô hình bông tuyết (Snowflake Model)
Trang 22Mô hình dải thiên hà (Galaxy model)
Trang 23ETL-Extract, Transform, Load
Tiền xử lý dữ liệu
Trang 24ETL - Extract, Transform, Load
Trang 25Vùng Staging - Thực hiện các hoạt động tiền xử lý dữ liệu
Chứa các bản copy của dữ liệu được tải vào từ dữ liệu hoạt động
- Dữ liệu được chuẩn bị trong vùng staging (tích hợp, làm sạch,…)
Trang 26Type of Transform (Concept) Tools/Example Examples
Bucketing/Binning Date, Split, Add Column Lấy dữ liệu Năm, Tháng, Lấy Tỉnh thành từ một chuỗi
Data Aggregation/ Data
Summarization Group by Lấy doanh thu theo tháng, chủng loại hàng, loại khách hàng
Data Cleansing Remove Error, Remove Column, Row, Replace Values Bỏ các dữ liệu lỗi, bỏ các cột, dòng thừa
Data Deduplication Remove duplicate Loại bỏ dùng trùng
Data Derivation Add column, Split Trích rút thông tin từ một hoặc 1 vài trường dữ liệu Từ ngày, tháng, năm -> Date Data Filtering Filter
Data Integration New sources, Append Queries Tích hợp dữ liệu từ nhiều nguồn
Data Joining Merge Queries
Data Splitting Split Column, Text to Column
Data Validation Data Type, Data Validation
Format Revision Data Type Dữ liệu ngày tháng bị loạn, chuẩn hóa lại Dữ liệu số dạng Text, chuẩn hóa lại Key Restructuring Index Colum
Z-Score Normalization and
Max-Min Scaling
Data Rotation Transpose, Pivot, Unpivot
Trang 27Data Validation
Trang 28Data Binning
Trang 29Data Integration - Append Queries
Trang 30Data Join - Merge Queries
Trang 31Data join
Trang 32Data Rotation - Pivot
Trang 33Data Rotation - Unpivot
Trang 34Mô tả hoạt động kinh doanh:
● Kinh doanh sữa ngô tươi
● Giao cho các đại lý, cửa hàng bán lẻ (rất nhiều điểm)
● Sản phẩm khi không tiêu thụ hết được hoàn/đổi trả
● Sản phẩm sau khi trả/đổi là mất vì là đồ tươi Không sử dụng được
Vấn đề cần giải:
● Cần giảm được tỷ lệ hoàn/đổi trả
● Giảm thiểu tối đa thiệt hại khi tôi ưu (VD: giảm doanh thu, giảm khách hàng
Giải pháp: Đưa ra được các phương án tối ưu dựa trên dữ liệu
● Cần làm gì để tối ưu?
● Khi làm việc đó thì tác động lên doanh nghiệp ntn? (doanh thu, tỷ lệ đổi trả, )
Trang 35Tổng kết
1 Hệ thống xử lý giao dịch (OLTP): ERP, CRM, …
2 Hệ thống phân tích dữ liệu đa chiều (OLAP)
3 Khối dữ liệu OLAP: Dimension, Fact
4 Các thao tác với khối dữ liệu
3 Data Rotation (Pivot, Unpivot)
4 Data Integration (Merge-Join, Append-Union)
5 …
Trang 36Tài liệu tham khảo
Trang 38OLAP