Nơi lưu trữ dữ liệu là thành phần quan trọng trong kiến trúc dòng dữ liệu: là một hay nhiều CSDL hoặc tệp chứa dữ liệu DWH, sắp xếp trong một định dạng nhất định. Có 3 dạng lưu trữ dữ liệu:
- Lưu trữ dữ liệu trực tiếp tiếp xúc với người dùng: nơi hiện hữu đối với người dùng cuối và được truy vấn bởi người dùng cuối
- Nơi lưu trữ dữ liệu nội tại: được sử dụng bên trong các thành phần DWH nhằm mục đích tích hợp, làm sạch, ghi vết, dữ liệu chuẩn bị. Những nơi này không được mở để phục vụ truy vấn cho người dùng cuối
- Lai ghép: có chức năng và tính chất cả hai loại trên
Nơi lưu trữ dữ liệu chủ thuộc dạng 1 hoặc 3 chứa toàn bộ tập dữ liệu của DWH bao gồm tất cả các phiên bản và tất cả dữ liệu lịch sử.
Dựa trên định dạng dữ liệu, có thể chia nơi lưu trữ dữ liệu DWH thành 4 dạng:
- Trạm trung chuyển: phục vụ chuyển đổi và chuẩn bị dữ liệu xuất phát từ hệ thống nguồn trước khi dữ liệu này được tải vào các vị trí lưu trữ khác trong DWH
- Nơi lưu trữ dữ liệu được chuẩn hóa (NDS): là nơi lưu dữ liệu chính bên trong, có chuẩn một trong hoặc nhiều CSDL quan hệ được chuẩn hóa. Mục đích phục vụ cho dữ liệu tích hợp từ nhiều nguồn được nắm bắt trong một trạm trước khi dữ liệu này được tải vào vị trí lưu trữ trực tiếp người dùng
- Nơi lưu trữ dữ liệu điều hành (ODS) thuộc dạng lai, chứa đựng dữ liệu giao tác và phiên bản mới nhất của dữ liệu chính. Mục đích hỗ trợ cho các ứng dụng điều hành - Nơi lưu trữ dữ liệu chiều (DDS): là nơi lưu dữ liệu trực tiếp với người dùng, nằm trong
2.1.1 ETL
Một gói ETL bao gồm nhiều tiến tiến trình ETL. Một tiến trình ETL là chương trình lấy dữ liệu từ một hay nhiều nguồn và đẩy đến một bảng đích. Tiến trình ETL bao gồm nhiều bước, mỗi bước thực hiện một tác vụ cụ thể. Gói ETL trong DTW được quản lý bởi một hệ thống điều khiển, trong đó nó được điều khiển thời gian chạy, tổ chức thứ tự thực thi tiến trình cung cấp khả năng khởi động lại gói từ một điểm lỗi. Cơ chế để lưu vết kết quả của mỗi bước của một tiến trình được gọi là ETL audit. Ví dụ ETL audit: bao nhiêu bản ghi được chuyển đổi hay tải tại bước đó, thời gian bắt đầu và kết thúc tác vụ.
Bản mô tả mỗi tiến trình ETL được lưu trong Metadata, mô tả này bao gồm các thông tin: - nguồn để trích tách dữ liệu
- đích tải dữ liệu đến
- phép chuyển đổi được áp dụng - tiến trình cha
- lịch biểu mỗi ETL
Trong DTW, metadata ngoài lưu định nghĩa dữ liệu, cấu trúc dữ liệu của mỗi nơi lưu trữ, cấu trúc dữ liệu của các hệ thống nguồn, mô tả các tiến trình ETL, những mô tả luật chất lượng dữ liệu, vết của tất cả các tiến trình và hành động của DWH.
Tiến trình chất lượng hóa dữ liệu là cơ chế để đảm bảo rằng dữ liệu trong DTW là đúng và hoàn chỉnh, nó bao gồm tất cả các cách để tìm ra dữ liệu hư và sửa lại chúng. Tường lửa dữ liệu là chương trình kiểm tra liệu dữ liệu đi vào có tuân thủ các luật chất lượng dữ liệu không. Luật chất lượng dữ liệu là ngưỡng mà xác định dữ liệu từ hệ thống nguồn có nằm trong một dãy cho trước và trong định dạng đúng hay không. Một CSDL chất lượng dữ liệu là một CSDL chứa dữ liệu đi vào và tuân thủ các luật chất lượng dịch vụ
- Kiến trúc DDS đơn có trạm và DDS
- kiến trúc NDS + DDS
- kiến trúc ODS + DDS
- kiến trúc FDW
Trong kiến trúc DDS đơn chỉ có một nơi lưu trữ dữ liệu chiều. DDS bao gồm một hoặc nhiều trung tâm dữ liệu chủ thể . Trung tâm dữ liệu chủ thể là một nhóm các bảng sự kiện có liên quan đến nhau và các bảng chiều tương ưng chứa các độ
Hình 2.3: Một kiến trúc theo dòng dữ liệu với hệ thống điều khiển, siêu dữ liệu và tiến trình làm chất lượng dữ liệu
NDS + DDS
ODS + DDS
FDW (phối hợp các DW)
Hình 2.7. Kiến trúc ODS + DDS
Hình 2.6: Kiến trúc luồng dữ liệu NDS + DDS Hình 2.5 Kiến trúc có ETL và DDS kết hợp
Một FDW chứa nhiều DW với một tầng lấy dữ liệu nằm trên các DW này. FDW sẽ lấy dữ liệu từ các DW sau đó đưa vào vào kho lưu dữ liệu theo chiều mới. Độ hạt của dữ liệu FDW là lớn hoặc bằng với độ hạt lớn nhất của các DW. Ví dụ G1 là ngày, G2 là tuần và G3 là tháng thì G của FDW sẽ là tháng. Điều này cũng dễ hiểu khi ta xét đến quá trình chuyển đổi dữ liệu