Kiến trúc kho dữ liệu cơ bản

Một phần của tài liệu Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống e banking tại NH TMCP công thương việt nam 758 (Trang 33 - 36)

Kiến trúc cơ bản của hệ thống Data Warehouse gồm 3 phần:

• Data Source: Là nơi dữ liệu từ nhiều nguồn khác nhau được thu thập.

• Warehouse: Đây là nơi lưu trữ dữ liệu đã được xử lý bao gồm Metadata, Raw Data và Summary Data.

• User: Gồm các hệ thống phân tích, báo cáo và data mining.

Đây là một kiến trúc đơn giản với phần ETL (extraction, transformation, and loading) đã bị lược bỏ, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua data warehouse [2].

2.3.2. Kiến trúc kho dữ liệu với staging area

Hình 2.6. Kiến trúc kho dữ liệu với staging area

Tại kiến trúc, hệ thống nguồn được tách khỏi DW thêm vào đó là vùng lưu trữ trung gian Staging Area. Dữ liệu trước khi đưa vào Data Warehouse, được tích hợp từ nhiều nguồn, chuyển đổi và lưu trữ tại vùng dữ liệu Staging Area, người dùng cuối truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua Data Warehouse. Việc thêm Staging area đảm bảo tất cả dữ liệu tải vào kho được làm sạch và ở định dạng thích hợp [2].

2.3.3. Kiến trúc kho dữ liệu với staging area và data marts

Hình 2.7. Kiến trúc kho dữ liệu với staging area và data marts

Đây là kiến trúc kho dữ liệu phổ biến nhất thường được sử dụng cho các hệ thống kho dữ liệu. Kiến trúc này bổ sung thêm bước ETL, giúp phân Warehouse ra thành các chủ đề nhỏ hon (Data mart)

Tại kiến trúc kho dữ liệu với staging area và data marts có 3 tầng chính như sau: • Bottom tier: Tầng dưới chủ yếu nhằm trích rút thơng tin từ nhiều nguồn

khác nhau, sau đó sử dụng các tool ETL thực hiện các thao tác chuyển đổi, làm sạch, load hay refresh.

Bottom-up - Cung cấp góc nhìn dữ liệu

theo

chiều nhất quán trên các data

mart( vì

cùng từ một nguồn là data warehouse

mà ra)

- Đây là mơ hình được nhiều

cơng ty

lớn lựa chọn

- Báo cáo có thể được tạo dễ dàng vì

Data mart được tạo trước và việc

tương tác với data mart là tương đối

dễ dàng.

- Không tốt bằng Top-down nhưng

kho dữ liệu có thể được mở

Middler tier: Tầng giữa gồm máy chủ OLAP, chuyển đổi dữ liệu thành 1

cấu trúc phù hợp cho các phân tích và truy vấn phức tạp

Top tier: Tầng trên cùng gồm các tool cho phân tích, thống kê, lập báo

cáo... ở phía client.

2.3.4. Cách tiếp cận kho dữ liệu

Theo cách tiếp cận của Ralph Kimball nhấn mạnh tầm quan trọng của data mart, là kho lưu trữ dữ liệu thuộc các lĩnh vực kinh doanh cụ thể. Kho dữ liệu chỉ đơn giản là sự kết hợp của các kho dữ liệu khác nhau tạo điều kiện thuận lợi cho việc báo cáo và phân tích. Thiết kế kho dữ liệu Kimball sử dụng phương pháp tiếp cận “Bottom-up”. Khi ETL tải dữ liệu vào data mart sau đó tải dữ liệu vào DW, thông tin được lưu trữ trong DW. Cách tiếp cận này gọi là Bottom-up.

Một phần của tài liệu Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống e banking tại NH TMCP công thương việt nam 758 (Trang 33 - 36)

Tải bản đầy đủ (DOCX)

(92 trang)
w