Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Hình 4. Mô hình kho dữ liệu của BIDV
Hình 4 mô tả mô hình kho dữ liệu của BIDV, mô hình này thể hiện khá rõ ràng các cấu phần của một kho dữ liệu.
Nhìn chung, kho dữ liệu của BIDV cũng có 3 cấu phần chính như các kho dữ liệu khác: ETL, tổng hợp, phân tích dữ liệu và tạo kho dữ liệu OLAP, phân phối báo cáo tới người sử dụng cuối. Ngoài ra, kho dữ liệu của BIDV còn có các cấu phần khác để phù hợp với tình hình thực tế của đơn vị mình, đó là các cấu phần cơ sở dữ liệu tạm thời (staging database), kho dữ liệu quan hệ (Relational datawarehouse).
* Cơ sở dữ liệu trung gian: Như đã trình bày ở mục Hệ điều hành và cơ sở dữ liệu nguồn, BIDV sử dụng hệ thống phần mềm giao dịch ngân hàng trên cơ sở dữ liệu DB2 tích hợp với hệ điều hành AS400, ngoài ra còn một số hệ thống giao dịch đơn lẻ khác sử dụng MS SQL. Trong khi đó, kho dữ liệu của BIDV lại dựa trên công nghệ MS-SQL của Windows vì vậy cần phải có một cơ sở dữ liệu trung gian để lưu trữ dữ liệu sau khi trích rút dữ liệu. Với các hệ quản trị cơ sở dữ liệu đang sử dụng tại BIDV, tiện nhất là sử dụng một trong 2 hệ quản trị cơ sở dữ liệu, hoặc là MS SQL hoặc là DB2 để làm cơ sở dữ liệu trung gian. Do lượng dữ liệu được lấy để nạp vào kho dữ liệu chủ yếu là dữ liệu từ cơ sở dữ liệu DB2 (100 GB) lớn hơn rất nhiều so với lượng dữ liệu được lấy từ các cơ sở dữ liệu SQL (5 GB) nên cơ sở dữ liệu trung gian được lựa chọn là DB2.
Một lý do khác để lựa chọn DB2 làm cơ sở dữ liệu trung gian là với lượng dữ liệu lớn như trên, hiệu năng xử lý của máy chủ Windows sẽ thấp hơn rất nhiều so với hiệu năng xử lý của máy chủ AS400. Ngoài ra dung lượng lưu trữ của máy chủ AS400 cũng cao hơn rất nhiều so với dung lượng lưu trữ của máy chủ Windows
* Kho dữ liệu quan hệ: Sau khi được rút trích vào cơ sở dữ liệu trung gian, module tổng hợp và phân tích sẽ xử lý dữ liệu và đưa vào kho dữ liệu quan hệ. Việc xây dựng kho dữ liệu quan hệ là tiền đề để xây dựng kho dữ liệu OLAP. Kho dữ liệu quan hệ chứa các bảng yếu tố (fact table) và các bảng dimesion (dimension tables). Các bảng này được liên kết thông qua các khoá chính (primary key) và khoá ngoài (foreign key). Kho dữ liệu OLAP sẽ lấy thông tin từ các bảng trên để tạo thành các báo cáo nhiều chiều (OLAP cube). Do lượng
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
dữ liệu được lưu trữ trên kho dữ liệu quan hệ khá lớn (khoảng 100 GB) nên kho dữ liệu quan hệ cũng được đặt trên cơ sở dữ liệu DB2.
Một đặc điểm nữa của kho dữ liệu đang sử dụng tại BIDV là sử dụng môi trường MS SQL để thực hiện các quá trình ETL cũng như quá trình tổng hợp, phân tích dữ liệu và tạo kho dữ liệu OLAP.
2. Cách thức hoạt động của kho dữ liệu tại BIDV
Hình 6. Sơ đồ luồng dữ liệu của kho dữ liệu BIDV
Quá trình nạp dữ liệu vào kho dữ liệu bao gồm các bước như sau:
- ETL: Quá trình ETL sẽ thực hiện rút trích dữ liệu từ hai nguồn dữ liệu: DB2 và MS SQL. Sau khi thực hiện chuẩn hoá dữ liệu theo các quy tắc trong bước Transformation, dữ liệu được nạp vào cơ sở dữ liệu trung gian (staging database). Thực tế, quá trình rút trích dữ liệu chỉ lấy một số trường dữ liệu cần thiết để tạo báo cáo cuối cùng chứ không lấy toàn bộ dữ liệu trên hai cơ sở dữ liệu DB2 và MS SQL.
- Quá trình tiếp theo sẽ lấy dữ liệu từ cơ sở dữ liệu trung gian (staging database), tổng hợp và phân tích dữ liệu theo các đặc tả người sử dụng sau đó đẩy dữ liệu cuối cùng vào kho dữ liệu quan hệ. Tại kho dữ liệu quan hệ, dữ liệu được chia làm 2 dạng bảng: bảng yếu tố (fact table) đây là bảng dữ liệu chính
USERFRONT- END SOURC E DATA DATA WAREHOUSE STAGING AREA SIBS TREASURY STAGING DATABASE ENTERPRISE DATA MODEL (EDM) MIS/SBV/ INTERNAL REPORTS (EXCEL FILE FORMAT) OLAP CUBES OLAP CUBE
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
chứa các dữ liệu cơ bản trong báo cáo nhiều chiều, dạng thứ hai là bảng dữ liệu chiều (dimension table) đây là bảng dữ liệu chứa các thông tin về các chiều của báo cáo nhiều chiều. Hai bảng này được liên kết với nhau thông qua khoá chính trên bảng dimension và khoá ngoại trên bảng yếu tố. Dạng bảng cuối cùng trong kho dữ liệu quan hệ là bảng lịch sử (hist table).
Do đặc thù yêu cầu báo cáo của ngân hàng là dữ liệu thay đổi theo từng ngày, Kho dữ liệu tại BIDV được thiết kế để nạp dữ liệu theo ngày. Lượng dữ liệu được nạp hàng ngày khá lớn, do đó, nếu thiết kế bảng fact theo kiểu ghi đè (overwriting) thì thời gian cũng như tài nguyên máy chủ phải tiêu tốn cho công việc nạp dữ liệu hàng ngày là rất lớn. Vì lý do đó, Kho dữ liệu tại BIDV được thiết kế để nạp dữ liệu hàng ngày theo kiểu bổ sung (appending), và dữ liệu đầy đủ sẽ được lưu trữ trong bảng lịch sử (hist table), dữ liệu một ngày sẽ được lưu trong bảng yếu tố (fact table), dữ liệu trong bảng yếu tố sẽ được append vào bảng lịch sử.
Quá trình tổng hợp, phân tích dữ liệu và tạo kho dữ liệu OLAP sử dụng công cụ Analysis Managerment của Microsoft SQL 2000 để thực hiện việc tạo báo cáo nhiều chiều (OLAP cube) dựa trên các bảng dữ liệu trong kho dữ liệu quan hệ. Dữ liệu được đưa vào kho dữ liệu OLAP cũng sử dụng cơ chế append.
- Dữ liệu trong kho dữ liệu OLAP sẽ được phân phối tới người sử dụng cuối cùng thông qua hệ thống chương trình phân phối báo cáo. Các báo cáo được đưa ở dạng pivot table reports của excel, nguồn dữ liệu của các báo cáo này là các OLAP cube. Đặc điểm của cách phân phối báo cáo này là:
+ Cho phép xoay chiều và tạo các báo cáo theo nhiều dạng khác nhau như dạng bảng ngang (horizontal), bảng dọc (vertical), bảng kết hợp (across), cũng như các dạng đồ thị khác nhau.
+ Cung cấp các công cụ thực hiện các thao tác với dữ liệu như: Drill (phân tích dữ liệu theo chiều sâu), Slice (cắt lát dữ liệu), Dice (phân tích theo ô) và xoay chiều dữ liệu (Graphical Pivot).
+ Khá tiện lợi với người sử dụng
+ Cho phép phân quyền người sử dụng thông qua các tài khoản truy cập của Hệ điều hành Windows.
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Tuy nhiên chương trình phân phối báo cáo của Kho dữ liệu BIDV hiện tại chưa được hoàn chỉnh vì nó được phát triển như một ứng dụng độc lập trên windows, do đó phải cài đặt tại máy tính của người sử dụng cuối, bắt buộc phải sử dụng Microsoft Office 2003 bản đầy đủ. Điều này gây bất tiện cho người sử dụng và khó triển khai trên toàn hệ thống của BIDV. Chính vì những đặc điểm nêu trên, hiện tại Kho dữ liệu tại BIDV mới chỉ phục vụ công tác báo cáo điều hành tại Hội sở chính, chưa triển khai được đến các chi nhánh trên toàn quốc.