Cơ chế trích lọc dữ liệu

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 25)

Cơ chế trích lọc dữ liệu trong kho dữ liệu ngân hàng BIDV chỉ được thiết kế dưới dạng [ET][L] và [EL][T]. Tức là máy chủ DTS (máy chủ cài đặt công cụ ETL) chỉ có nhiệm vụ trích xuất (Extract) hoặc truyền tải (Load) dữ liệu, việc chuyển đổi (Transform) dữ liệu chỉ có thể được thực hiện trên máy chủ CSDL nguồn hoặc máy chủ CSDL đích. Máy chủ DTS không có chức năng chuyển đổi, tính toán dữ liệu.

DTS SERVER EXTRACT LOAD TRANSFORM SOURCE DESTINATION Hình 2.2.1.1. Cơ chế xử lý [EL][T]

EXTRACT TRANSFORM LOAD SOURCE DESTINATION DTS SERVER Hình 2.2.1.2. Cơ chế xử lý [ET][L]

Ví dụ: Cơ sở dữ liệu nguồn có 2 bảng KHACHHANG lưu thông tin khách hàng, bảng GIAODICH lưu giao dịch của từng khách hàng, 2 bảng này liên kết với nhau qua trường MaKH. KHACHHANG MaKH TenKH 001 Nguyễn Văn A 002 Nguyễn Thị B 003 Nguyễn C GIAODICH MaGD MaKH SoTien

123 003 1000

124 002 5000

125 002 2000

Thông tin cần trích xuất sang cơ sở dữ liệu đích là tên khách hàng và thông tin giao dịch:

MaGD TenKH SoTien

123 Nguyễn C 1000

124 Nguyễn Thị B 5000 125 Nguyễn Thị B 2000

Câu lệnh truy vấn SQL cho ví dụ trên:

SELECT B.MaGD, A.TenKH, B.SoTien

FROM KHACHHANG A INNER JOIN GIAODICH B ON A.MaKH=B.MaKH

Nếu thiết kế DTS dưới dạng [EL][T] thì hai bảng KHACHHANG và GIAODICH sẽ được kết xuất từ máy chủ nguồn sang máy chủ đích. Máy chủ DTS chỉ có nhiệm vụ chuyển dữ liệu 2 bảng KHACHHANG và GIAODICH sang CSDL đích. Việc tính toán chuyển đổi “join” giữa hai bảng được thực hiện trên máy chủ cơ sở dữ liệu đích.

DTS SERVER EXTRACT LOAD TRANSFORM SOURCE DESTINATION MaKH TenKH 1 Nguyễn Văn A 2 Nguyễn Thị B 3 Nguyễn C KHACHHANG

MaGD MaKH SoTien

123 3 1000 124 2 5000 125 2 2000 GIAODICH MaKH TenKH 1Nguyễn Văn A 2Nguyễn Thị B 3Nguyễn C KHACHHANG

MaGD MaKH SoTien

123 31000 124 25000 125 22000

GIAODICH

MaGD TenKH SoTien

123 Nguyễn C 1000 124 Nguyễn Thị B5000 125 Nguyễn Thị B2000

Hình 2.2.1.3. Ví dụ xử lý [EL][T] của DTS

Như vậy tốc độ chuyển đổi ETL của DTS phụ thuộc phần lớn cấu hình của máy chủ nguồn hoặc máy chủ đích tùy vào việc thiết kế.

Với kho dữ liệu ngân hàng, máy chủ nguồn là AS/400, việc thiết kế DTS trên kho chủ yếu dưới dạng [ET][L], tận dụng được tài nguyên hệ thống core-banking trước giờ giao dịch hằng ngày, tuy nhiên hiện tại hệ thống kết thúc chuyển đổi dữ liệu rất muộn (tới 10 giờ sáng), vì vậy gây ảnh hưởng tới hoạt động giao dịch của core-banking.

Đối với cơ chế xử lý [E][T][L], việc trích xuất (Extract) thực hiện trên máy chủ nguồn, chuyển đổi (Transform) thực hiện trên một máy chủ cài đặt công cụ ETL độc lập, tải (Load) được thực hiện trên máy chủ đích.

EXTRACT LOAD TRANSFORM SOURCE DESTINATION ETL SERVER Hình 2.2.1.4. Cơ chế xử lý [E][T][L]

Xét ví dụ trên, máy chủ ETL sẽ tải 2 bảng KHACHHANG và GIAODICH, thực hiện “join” tính toán dữ liệu trên chính máy chủ ETL này, sau đó thông tin cuối cùng được chuyển tải sang máy chủ cơ sở dữ liệu đích.

Đối với bài toán kho dữ liệu ngân hàng hiện tại, ta có thể giảm tải được hệ thống core-banking vào đầu giờ giao dịch bằng việc thiết kế gói xử lý chuyển đổi dữ liệu trong quá trình “chuẩn bị báo cáo” dưới dạng [E][T][L].

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 25)