4. Thiết kế logic hệ thống Data Warehouse và Business Intelligence
4.1.5. Thiết kế CSDL trung chuyển (Data Staging Area – DSA)
Data Staging Area (DSA) là một tập các CSDL đóng vai trò trung chuyển dữ liệu giữa các nguồn dữ liệu với EM. DSA là môi trường dữ liệu trung gian, lưu trữ tạm thời dữ liệu để xử lý, làm sạch và tích hợp trước khi đưa vào EM.
Đặc điểm dữ liệu tại DSA:
- Chỉ lưu trữ tạm thời của một phiên, khi xử lý xong thì xóa đi để chuẩn bị xử lý cho phiên tiếp theo
- Có hai loại DSA: o DSA đích:
Là CSDL có cấu trúc tương đương với EM (CSDL hình bông tuyết), là nơi chứa dữ liệu kết quả cuối cùng của giai đoạn xử lý, làm sạch và tích hợp trước khi đưa vào EM
Chỉ có một DSA đích o DSA nguồn:
Là CSDL có cấu trúc tương đương với dữ liệu nguồn (mô hình CSDL quan hệ thông thường) và chứa dữ liệu nguyên bản của nguồn (sau đó mới xử lý, làm sạch).
Có nhiều DSA nguồn: ứng với mỗi dữ liệu nguồn cần một DSA nguồn. Các bước thực hiện thiết kế DSA
- Thiết kế DSA đích (dựa trên bản thiết kế EM đã có):
o Vẽ sơ đồ ERD cho DSA đích giống với ERD của EM (nên tạo các bảng trùng tên với bảng tương ứng trong EM)
o Thiết kế các bảng danh mục, các bảng sự kiện, các bảng slave giống như trong EM
o Thiết kế các index: tương như index EM - Thiết kế các DSA nguồn:
o Mục tiêu của thiết kế các DSA nguồn:
Cấu trúc DSA nguồn đảm bảo tính nguyên bản của dữ liệu nguồn (kiểu dữ liệu tương đương, nội dung dữ liệu tương đương) tại thời điểm trước khi xử lý.
Cấu trúc DSA nguồn đảm bảo cung cấp đầy đủ dữ liệu nguồn cho DSA đích.
o Dựa trên tài liệu khảo sát dữ liệu nguồn, xác định danh sách các nguồn dữ liệu cần đưa vào DW, với mỗi nguồn dữ liệu thiết kế một DSA nguồn:
Phân tích sơ đồ ERD của CSDL nguồn để nắm được mối quan hệ dữ liệu giữa các bảng dữ liệu nguồn.
Phân tích mối quan hệ dữ liệu giữa các bảng dữ liệu nguồn với các bảng trong DSA đích, từ đó xác định danh sách các bảng, các trường sẽ đưa vào DSA nguồn.
Vẽ sơ đồ ERD cho DSA nguồn (dựa trên các kết quả phân tích)
Thiết kế các bảng cho DSA nguồn: cấu trúc các bảng của DSA nguồn tương đương với cấu trúc các bảng của CSDL nguồn (tương đương về kiểu dữ liệu của các trường, về primary key, foreign key)