CHƯƠNG 1 : TỔNG QUAN VỀ BÀI TOÁN NGHIÊN CỨU
2.1 Giới thiệu về kho dữ liệu
Kho dữ liệu là nơi tổng hợp dữ liệu từ các nguồn khác nhau, chuẩn hoá và tổ chức theo hướng chủ đề và các chiều thông tin. Dữ liệu trong kho dữ liệu được lưu trữ lâu dài và không thay đổi theo thời gian, dữ liệu mới được cập nhật bổ sung và tồn tại song song với dữ liệu cũ. Dưới đây là mơ hình kiến trúc kho dữ liệu, bao gồm các thành phần chính như sau (Vincent Rainardi, 2008):
Hình 2.1: Kiến trúc kho dữ liệu
Lê Th Thu Trangị 21
Profiler Data Là cơng cụ có khả năng phân tích dữ liệu.
ETL (Extract-Tranform-Load)
ETL là hệ thống có khả năng kết nối đến nhiều nguồn dữ liệu, đọc dữ liệu và chuyển đổi dữ liệu, đưa dữ liệu đến khu tập trung dữ liệu và DDS (Dimensional Data Store).
DDS (Dimensional Data Store)
DDS lưu trữ liệu của Data Ware House, bao gồm một tập hợp các Fact table và các Dimesion table tương ứng, chứa dữ liệu là các hoạt động của tổ chức.
DQ (Data Quality)
Khi hệ thống ETL tiến hành đưa dữ liệu vào DDS, thì những dữ liệu không đạt chất lượng sẽ được chuyển đến cở sở dữ liệu DQ. Dữ liệu ở DQ sẽ được báo cáo và chuyển về nơi chứa dữ liệu nguồn để được chỉnh sửa.
thống ETL. The audit system
Ghi lại hoạt động của hệ thống, dữ liệu được lưu trữ trong cơ sở dữ liệu Metadata. Ngồi ra cịn có tác dụng kiểm soát hoạt động và ghi lại lịch sử hoat động của hệ thống ETL nhằm theo dõi tiến trình xử lý dữ liệu trong quá trình ETL.
Spreadsheets, Pivot Tables, Reporting
Tools, SQL Là các công cụ được người sử dụng
dùng để trích xuất và phân tích dữ liệu trong DDS.
MDB (Multidimensional Database)
Là cơ sở dữ liệu đa chiều, chứa dữ liệu được chuyển từ DDS.
MDB còn được biết đến với như các Cube.
Cube: Là nơi dữ liệu được lưu trữ đa chiều, mỗi một ô trong cube là một giá trị được tạo ra bởi các dimension.
Analytics applications, data mining, scorecards, dashboards,
multidimensional reporting tools, BI tools.
Có chức năng lấy dữ liệu từ MDB, để tạo ra các báo cáo trực quan giúp người dùng có nắm bắt tình hình hoạt động cơng ty.
Lê Th Thu Trangị 22
Bảng 2.1: Thành phần trong kho dữ liệu
Khóa lu n t t nghi pậ ố ệ
Trên thực tế, kho dữ liệu khơng nhất thiết phải có đầy đủ các thành phần trên. Dưới đây là mơ hình kho dữ liệu đơn giản nhất.
Hình 2.2: Kiến trúc đơn giản nhất của kho dữ liệu