Kiến trúc của kho dữ liệu thường gồm nhiều vùng chứa dữ liệu (data store) nhỏ. Những vùng chứa dữ liệu này được phân loại dựa trên cấu trúc bao gồm (Building a DW - With examples in SQL Server, 2008):
- Vùng xử lí (staging area): Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu
thu được từ nguồn trước khi chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu.
- Vùng chứa dữ liệu dạng chuẩn hoá (normalized data store): Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích hợp từ nhiều nguồn khác nhau. Trong
dạng lai giữa vùng dữ liệu chuẩn hoá và cơ sở dữ liệu hoạt động (operational database). Mục đích của nó ngoài việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn được dùng như là cơ sở dữ liệu hoạt động tập trung (centralized).
- Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều (dimesional data store): Là vùng kho dữ liệu đầu cuối, phía người dùng. Trong vùng này, dữ liệu được lưu trữ dưới dạng mô hình hoá đa chiều (dimensional modeling) nhằm hỗ trợ các ứng dụng hay truy vấn dạng phân tích đầu cuối.
Hình 2.3: Kiến trúc Data warehouse
Các hệ thống nguồn (Source Systems): là hệ thống các OLTP bao gồm dữ liệu muốn lưu trữ vào Data warehouse. OLTP (Online Transaction Processing: xử lý giao dịch trực tuyến) là hệ thống với mục đích chính là sao chép và lưu trữ các giao dịch kinh doanh (the business transactions). Dữ liệu của các hệ thống nguồn được kiểm tra bằng các sử dụng data profiler để hiểu và biết được đặc điểm của từng dữ liệu.
Data Profiler: là một công cụ có thể phân tích dữ liệu như phát hiện được có bao nhiêu dòng trong mỗi bảng, bao nhiêu dòng có giá trị NULL...
Hệ thống ETL (Extract, Transform, Load) mang các dữ liệu từ các hệ thống nguồn
khác nhau vào một vùng riêng (staging area). ETL là một hệ thống có khả năng kết nối các hệ thống nguồn, đọc dữ liệu, chuyển dữ liệu và lưu trữ vào một hệ thống đích (a target
DDS (dimensional data store): là CSDL lưu trữ dữ liệu của Data warehouse dưới những dạng khác nhau của OLTP. Nguyên nhân của việc lấy dữ liệu từ hệ thống nguồn rồi chuyển vào DDS, sau đó truy vấn dữ liệu từ DDS thay vì truy vấn trực tiếp hệ thống nguồn là do dữ liệu của DDS được sắp xếp theo chiều và tiện lợi hơn cho việc phân tích.
Nguyên nhân thứ hai chính là DDS tích hợp dữ liệu từ một vài hệ thống nguồn.
DQ (data quality): khi hệ thống ETL lưu trữ dữ liệu vào DDS, DQ bắt buộc phải kiểm tra chất lượng của dữ liệu. Dữ liệu xấu (Bad data) sẽ được đưa vào CSDL DQ để báo cáo và sau đó chỉnh sửa trong các hệ thống nguồn. Dữ liệu xấu có thể tự động chỉnh sửa (correct, tolerate) trong giới hạn cho phép. Hệ thống ETL được quản lý và bố trí lại bởi hệ thống điều khiển (control system) dựa trên thứ tự, quy tắc và lưu trữ logic trong metadata.
Metadata: là một CSDL bao gồm thông tin về cấu trúc dữ liệu, nghĩa của dữ liệu, cách sử dụng dữ liệu cũng như các thông tin khác về dữ liệu. Hệ thống kiểm toán (audit system) đánh giá và ghi lại những hoạt động của hệ thống cũng như việc sử dụng CSDL metadata.
Audit System: là một phần của hệ thống ETL dùng để giám sát các hoạt động của những quy trình ETL và ghi lại các con số trong quá tình hoạt động. Nó được dùng để tìm hiểu những gì đã xảy ra trong suốt chu trình của ETL.
Người dùng sử dụng nhiều công cụ đầu - cuối như spreadsheet, pivot table, các công cụ báo cáo và các công cụ truy vấn SQL để truy xuất và phân tích dữ liệu trong DDS. Một số ứng dụng hoạt động dưới dạng một mô hình CSDL đa chiều (multidimensional DB format).
MDB (Multidimensional Database): với những ứng dụng trên, dữ liệu trong
DDS được lưu trữ vào các CSDL đa chiều, vốn được biết đến như những cubes.
Một MDB là một dạng của DB, là nơi dữ liệu được lưu trữ trong các cell và vị trí của mỗi cell được xác định bởi một số biến gọi là các chiều. Mỗi cell đại diện cho một sự kiện kinh doanh (business event) và giá trị của các chiều thể hiện sự kiện đã diễn ra ở đâu và khi nào.