1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiền xử lý dữ liệu etl và phân tích đa chiều olap

38 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 4,02 MB

Nội dung

Tiền xử lý dữ liệu ETL và phân tích đa chiều OLAP Nguyễn Danh Tú... OLAP Cube: Là một khối dữ liệu nhiều chiều mà có thể dễ dàng phân tích... Dimension & FactPivot Chart Kéo vào Filters,

Trang 1

Tiền xử lý dữ liệu (ETL)

và phân tích đa chiều OLAP Nguyễn Danh Tú

Trang 2

Tiền xử lý & OLAP

Trang 3

● OLAP: Hệ thống

phân tích dữ liệu đa chiều

Trang 4

OLTP và OLAP

Trang 5

OLAP - Online analytical processing

Trang 7

OLAP Cube: Là một khối dữ liệu nhiều chiều mà có thể dễ dàng phân tích

Trang 8

Dimension & Fact

Pivot Chart Kéo vào Filters, Legend (Series), Axis

Kiểu dữ liệu Thường là Category/Danh mục Thường là số hoặc các giá trị để đếm (count)

Khách hàngSản phẩm/Dòng sản phẩmTỉnh/Vùng/Miền/Quốc gia/Khu vực

Doanh số

Số lượng khách hàng

Số lượng sản phẩmChất lượng chăm sóc

Tỷ lệ chuyển đổi

Tỷ lệ lỗi

Trang 9

OLAP Cube: Ví dụ

Trang 11

Hệ thống chiều khái niệm (voi dim)/ Data taxonamy

Bộ phận Chức danh Loại phụ cấp Loại lương Nhân viên Loại BHXH Tháng Fact

Bộ phận bán

Bộ phận

Trang 12

Roll-up: Tổng hợp dữ liệu theo một công thức nào đó theo các chiều dữ liệu

Trang 14

Các khái niệm

● Slice: Lọc dữ liệu theo một chiều

Ví dụ:

● Từ báo cáo doanh số theo từng vùng miền =>

○ Báo cáo doanh số miền bắc

● Từ báo cáo sản lượng theo từng quý =>

○ Báo cáo sản lượng trong quý III

Slice: Lọc giá trị trong một chiều dữ liệu

Trang 15

Dice: Chọn một vài dữ liệu trong một chiều

Trang 16

Pivot: Xoay dữ liệu

○ Báo cáo doanh số từng sản phẩm hàng năm

● Từ báo cáo sản lượng từng dòng sản phẩm theo từng quý =>

○ Báo cáo sản lượng từng phân xưởng theo từng quý

Trang 18

OLAP Data model

Thực hành: Vẽ Data model cho Nhân sự

Trang 19

Mô hình dữ liệu OLTP vs OLAP

OLTP

OLAP

Trang 20

Mô hình hình sao (Star model)

Trang 21

Mô hình bông tuyết (Snowflake Model)

Trang 22

Mô hình dải thiên hà (Galaxy model)

Trang 23

ETL-Extract, Transform, Load

Tiền xử lý dữ liệu

Trang 24

ETL - Extract, Transform, Load

Trang 25

Vùng Staging - Thực hiện các hoạt động tiền xử lý dữ liệu

Chứa các bản copy của dữ liệu được tải vào từ dữ liệu hoạt động

- Dữ liệu được chuẩn bị trong vùng staging (tích hợp, làm sạch,…)

Trang 26

Type of Transform (Concept) Tools/Example Examples

Bucketing/Binning Date, Split, Add Column Lấy dữ liệu Năm, Tháng, Lấy Tỉnh thành từ một chuỗi

Data Aggregation/ Data

Summarization Group by Lấy doanh thu theo tháng, chủng loại hàng, loại khách hàng

Data Cleansing Remove Error, Remove Column, Row, Replace Values Bỏ các dữ liệu lỗi, bỏ các cột, dòng thừa

Data Deduplication Remove duplicate Loại bỏ dùng trùng

Data Derivation Add column, Split Trích rút thông tin từ một hoặc 1 vài trường dữ liệu Từ ngày, tháng, năm -> Date Data Filtering Filter

Data Integration New sources, Append Queries Tích hợp dữ liệu từ nhiều nguồn

Data Joining Merge Queries

Data Splitting Split Column, Text to Column

Data Validation Data Type, Data Validation

Format Revision Data Type Dữ liệu ngày tháng bị loạn, chuẩn hóa lại Dữ liệu số dạng Text, chuẩn hóa lại Key Restructuring Index Colum

Z-Score Normalization and

Max-Min Scaling

Data Rotation Transpose, Pivot, Unpivot

Trang 27

Data Validation

Trang 28

Data Binning

Trang 29

Data Integration - Append Queries

Trang 30

Data Join - Merge Queries

Trang 31

Data join

Trang 32

Data Rotation - Pivot

Trang 33

Data Rotation - Unpivot

Trang 34

Mô tả hoạt động kinh doanh:

● Kinh doanh sữa ngô tươi

● Giao cho các đại lý, cửa hàng bán lẻ (rất nhiều điểm)

● Sản phẩm khi không tiêu thụ hết được hoàn/đổi trả

● Sản phẩm sau khi trả/đổi là mất vì là đồ tươi Không sử dụng được

Vấn đề cần giải:

● Cần giảm được tỷ lệ hoàn/đổi trả

● Giảm thiểu tối đa thiệt hại khi tôi ưu (VD: giảm doanh thu, giảm khách hàng

Giải pháp: Đưa ra được các phương án tối ưu dựa trên dữ liệu

● Cần làm gì để tối ưu?

● Khi làm việc đó thì tác động lên doanh nghiệp ntn? (doanh thu, tỷ lệ đổi trả, )

Trang 35

Tổng kết

1 Hệ thống xử lý giao dịch (OLTP): ERP, CRM, …

2 Hệ thống phân tích dữ liệu đa chiều (OLAP)

3 Khối dữ liệu OLAP: Dimension, Fact

4 Các thao tác với khối dữ liệu

3 Data Rotation (Pivot, Unpivot)

4 Data Integration (Merge-Join, Append-Union)

5 …

Trang 36

Tài liệu tham khảo

Trang 38

OLAP

Ngày đăng: 11/05/2024, 17:13

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w