CHƯƠNG II: TỔNG QUAN VỀ KHO DỮ LIỆU
2.3. Ki ến trúc Kho dữ liệu
Tùy vào tình trạng của tổ chức thì kho dữ liệu được thiết kế theo nhiều cách khác nhau. Dưới đây sẽ trình bày 3 kiến trúc phổ biến trong kho dữ liệu:
2.3.1. Kiến trúc kho dữ liệu căn bản
Kiến trúc kho dữ liệu cơ bản không phải là một cách thiết kế được sử dụng thường xuyên trong Data warehouse. Mục tiêu chính của kiến trúc là tạo ra một tập dữ liệu nhỏ gọn và giảm thiểu dữ liệu được lưu trữ [2].
Hình 2.5. Kiến trúc kho dữ liệu cơ bản
Kiến trúc cơ bản của hệ thống Data Warehouse gồm 3 phần:
• Data Source: Là nơi dữ liệu từ nhiều nguồn khác nhau được thu thập.
• Warehouse: Đây là nơi lưu trữ dữ liệu đã được xử lý bao gồm Metadata, Raw Data và Summary Data.
• User: Gồm các hệ thống phân tích, báo cáo và data mining.
Đây là một kiến trúc đơn giản với phần ETL (extraction, transformation, and loading) đã bị lược bỏ, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua data warehouse [2].
2.3.2. Kiến trúc kho dữ liệu với staging area
Hình 2.6. Kiến trúc kho dữ liệu với staging area
Tại kiến trúc, hệ thống nguồn được tách khỏi DW thêm vào đó là vùng lưu trữ trung gian Staging Area. Dữ liệu trước khi đưa vào Data Warehouse, được tích hợp từ nhiều nguồn, chuyển đổi và lưu trữ tại vùng dữ liệu Staging Area, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua Data Warehouse. Việc thêm Staging area đảm bảo tất cả dữ liệu tải vào kho được làm sạch và ở định dạng thích hợp [2].
2.3.3. Kiến trúc kho dữ liệu với staging area và data marts
Hình 2.7. Kiến trúc kho dữ liệu với staging area và data marts
Đây là kiến trúc kho dữ liệu phổ biến nhất thường được sử dụng cho các hệ thống kho dữ liệu. Kiến trúc này bổ sung thêm bước ETL, giúp phân Warehouse ra thành các chủ đề nhỏ hơn (Data mart)
Tại kiến trúc kho dữ liệu với staging area và data marts có 3 tầng chính như sau:
• Bottom tier: Tầng dưới chủ yếu nhằm trích rút thông tin từ nhiều nguồn khác nhau, sau đó sử dụng các tool ETL thực hiện các thao tác chuyển đổi, làm sạch, load hay refresh.
• Middler tier: Tầng giữa gồm máy chủ OLAP, chuyển đổi dữ liệu thành 1 cấu trúc phù hợp cho các phân tích và truy vấn phức tạp
• Top tier: Tầng trên cùng gồm các tool cho phân tích, thống kê, lập báo cáo… ở phía client.
2.3.4. Cách tiếp cận kho dữ liệu
Theo cách tiếp cận của Ralph Kimball nhấn mạnh tầm quan trọng của data mart, là kho lưu trữ dữ liệu thuộc các lĩnh vực kinh doanh cụ thể. Kho dữ liệu chỉ đơn giản là sự kết hợp của các kho dữ liệu khác nhau tạo điều kiện thuận lợi cho việc báo cáo và phân tích. Thiết kế kho dữ liệu Kimball sử dụng phương pháp tiếp cận “Bottom-up”. Khi ETL tải dữ liệu vào data mart sau đó tải dữ liệu vào DW, thông tin được lưu trữ trong DW. Cách tiếp cận này gọi là Bottom-up.
Hình 2.8. Cách tiếp cận Bottom-up
Còn theo Bill Inmon thì kho dữ liệu là kho lưu trữ tập trung cho tất cả dữ liệu doanh nghiệp. Trong cách tiếp cận này, trước tiên một tổ chức tạo ra một mô hình kho dữ liệu chuẩn hóa. Dimensional data marts sau đó được tạo dựa trên mô hình DW. Đây được gọi là cách tiếp cận từ trên xuống. Phương pháp mà ETL tải thông tin trực tiếp đến DW sau đó tải dữ liệu vào data mart được gọi là Top-down
Hình 2.9. Cách tiếp cận Top-down
− Khác nhau giữa Top-down và Bottom-up
Top-down Bottom-up
- Cung cấp góc nhìn dữ liệu theo chiều nhất quán trên các data mart( vì cùng từ một nguồn là data warehouse mà ra)
- Đây là mô hình được nhiều công ty lớn lựa chọn
-Tốn nhiều thời gian, chi phí
- Báo cáo có thể được tạo dễ dàng vì Data mart được tạo trước và việc tương tác với data mart là tương đối dễ dàng.
- Không tốt bằng Top-down nhưng kho dữ liệu có thể được mở rộng và tăng số lượng data mart
-Chi phí thấp hơn