Chƣơng 3 ÁP DỤNG HỆ THỐNG CẢI TIẾN CHO BÁO CÁO SPTG
3.4. Thiết kế kho dữ liệu chuyên đề SPTG
3.4.1. Thiết kế dữ liệu chỉ tiêu a. Chiều (Dimension) a. Chiều (Dimension)
- Loại hình khách hàng (Là cá nhân/Tổ chức/Định chế tài chính) - Theo kỳ hạn (Ngắn hạn/Trung hạn/Dài hạn)
- Loại tiền
- Ngành nghề kinh tế
- Chỉ số dự theo phân loại nợ - Trạng thái quá hạn
- Tài khoản vay
- Phòng giao dịch/Quỹ tiết kiệm
b. Giá trị (Measure)
- Dư nợ cuối kỳ
- Lãi dự thu (Bao gồm cả lãi treo) - Lãi đã thu (Tính luỹ kế từ đầu năm) - Doanh số cho vay
3.4.2. Thiết kế chi tiết CSDL a. Mô hình quan hệ a. Mô hình quan hệ zCusSeg SEG_ID SEG_NM MIN_NUMBER MAX_NUMBER zAccsts STS_ID STS_NM zTerm TERM_ID TERM_NM TERM_MIN TERM_MAX TERM1_ID zTerm1 TERM1_ID TERM_NM TERM2_ID zTerm2 TERM2_ID TERM_NM zProd1 PROD1_ID PROD1_NM PROD2_ID zProd2 PROD2_ID PROD2_NM zRMTerm TERMRM_ID TERMRM_NM MINDAY MINDAY zBranch BRANCH_ID BRANCH_NM MAIN_ID zMainBrn MAIN_ID BRANCH_NM REGION_ID zRegion REGION_ID REGION_NM zCurr CURR_ID CURR_NM zAcc Acctno AcName Prod0_id zProd0 Prod0_ID Prod0_NM Prod1_ID zTime DataDate Day Month Year zCus CIFNO CLAS zCLASS CLAS DESC GROUP_ID zCUSGROUP GROUP_ID FT_SPTG DATADATE BRANCH_ID CURR_ID ACCTNO DATE_OPN DATE_MAT CBAL RATE PRN_IN PRN_OUT TERM_ID TERM_DAYS RMTERM_ID TERM_DAYS CIFNO SEG_ID STS_ID
b. Danh mục các bảng
Bảng 3.4.2.1. Danh sách các bảng trong CSDL SPTG
STT Tên bảng Mô tả
1 zBranch Bảng tham số về mã BDS
2 zMainBrn Bảng tham số về BDS cha có BDS con 3 zRegion Bảng tham số về cụm động lực
4 zCurr Bảng tham số về tiền tệ
5 zProd0 Bảng tham số chi tiết về loại sản phẩm
6 zProd1 Bảng tham số về loại sản phẩm cấp 1 (mức Goup Code) 7 zProd2 Bảng tham số về loại sản phẩm cấp 2
8 zAcc Bảng tham số về tài khoản vay
9 zTerm Bảng tham số về loại kỳ hạn tuần của tài khoản tiền gửi 10 zTerm1 Bảng tham số về 03 loại kỳ hạn của tiền gửi (KKH, Kỳ
hạn dưới 12 tháng, Kỳ hạn trên 12 tháng)
11 zTerm2 Bảng tham số về kỳ hạn mức tổng quát: KKH và CKH 12 zRMTerm Bảng tham số về kỳ hạn còn lại của tài khoản
13 zAccsts Bảng tham số về trạng thái của tài khoản
14 zCusSeg Bảng tham số phân đoạn số tiền gửi khách hàng 15 zCUSGROUP Bảng tham số lưu các nhóm khách hàng là:
1. Cá nhân 2. Doanh nghiệp 3. Định chế tài chính
16 zCLASS Bảng tham số lưu thông tin về phân loại chi tiết từng khách hàng
17 zCus Bảng tham số về thông tin từng khách hàng
18 FT_SPTG Bảng lưu dữ liệu chi tiết tài khoản tiền gửi của khách hàng cá nhân lớn
3.5. Thiết kế job trích xuất dữ liệu từ EDM vào kho dữ liệu chuyên đề SPTG
Tất cả các bảng trong kho dữ liệu chuyên đề SPTG đều được trích xuất và chế biến từ thư viện EDM.
“Main Job” là job xử lý chính của kho dữ liệu SPTG trong hình 3.5.1:
Hình 3.5.1. “Main Job” xử lý trích xuất dữ liệu cho kho dữ liệu SPTG “Main Job” thực hiện các xử lý sau:
- Job PARAMETERS_SPTG xử lý lấy dữ liệu tham số phục vụ cho các bảng chiều.
- Job DAILY_SPTG xử lý lấy dữ liệu ngày đưa vào 1 bảng tạm trên kho dữ liệu SPTG.
- Job FT_SPTG chờ 2 job PARAMETERS_SPTG và DAILY_SPTG chạy xong, lấy dữ liệu ngày đổ vào bảng fact.
Hình 3.5.3. Job PARAMETERS_SPTG xử lý trích xuất dữ liệu các bảng chiều Job PARAMETERS_SPTG trong hình 3.5.3 đầu tiên xử lý lấy dữ liệu ngày hệ Job PARAMETERS_SPTG trong hình 3.5.3 đầu tiên xử lý lấy dữ liệu ngày hệ thống “sysdate”, sau đó lấy dữ liệu từ thư viện EDM vào các bảng tham số chiều cho CSDL SPTG.
3.6. Thiết kế dữ liệu đa chiều SPTG
Sử dụng công cụ IBM Infosphere Warehouse Design Studio để thiết kế dữ liệu đa chiều SPTG, ta cần thiết kế 2 phần:
- OLAP Model: Đặc tả mô hình dữ liệu đa chiều. - OLAP Security: Bảo mật mức dữ liệu đa chiều.
3.6.1. Thiết kế OLAP Metadata
Import các bảng chiều và bảng fact trên CSDL SPTG, Design Studio sẽ tự động tạo mô hình cube nhờ các khóa chính, khóa ngoài đã được thiết kế trên trên các bảng đó.
Hình 3.6.1.1. Màn hình thiết kế OLAP Metadata trên Design Studio
Sau khi OLAP Metadata đã được tạo tự động, ta có thể định nghĩa, đặt tên lại một số chiều hoặc độ đo để nghiệp vụ dễ dàng khai thác hơn.
3.6.2. Thiết kế OLAP Security
Kho dữ liệu SPTG phục vụ cho cả hội sở chính và toàn bộ chi nhánh. Thiết lập chế độ bảo mật ở chiều CHI_NHANH:
- Tạo 200 nhóm quyền bảo mật ở chiều CHI_NHANH. - Hạn chế dữ liệu CHI_NHANH tương ứng với nhóm quyền.
3.6.3. Xây dựng hệ thống phân phối báo cáo
IBM Cognos là một công cụ BI để khai thác, phân tích và phân phối báo cáo. Để triển khai được ta cần phải thiết kế:
- Triển khai OLAP Model lên Cognos Server
- Đồng bộ nhóm quyền Cognos Server với OLAP Security.
3.6.4. Triển khai OLAP Metadata lên Cognos Server
Sử dụng Framework Manager trong bộ công cụ của IBM Cognos để kết nối tới dữ liệu đa chiều trên DB2, sau đó import OLAP Model để triển khai lên Cognos Server.
Hình 3.6.4.1. Triển khai OLAP Model lên Cognos Server
3.6.5. Đồng bộ nhóm quyền Cognos Server và OLAP Security
Cognos Group 1 User A User B User A Cognos Group 2 User C User D Login DB2 Group 1 User X DB2 Group 2 User Y User X Use Login
Cognos Server Cubing ServicesDB2
Client
User X
User Y
Hình 3.6.5.1. Đồng bộ nhóm quyền Cognos Server và OLAP Security
Cognos Server và DB2 là hai hệ thống độc lập, vì vậy chúng cũng quản lý nhóm quyền độc lập với nhau.
Như hình 3.6.5.1 trên, để khai thác và phân tích cube trong DB2 Cubing Service thông qua bộ công cụ BI – IBM Cognos, Cognos cần phải thiết lập một user để kết nối tới DB2, user này thuộc quyền quản lý của DB2.
- Mỗi nhóm quyền trên Cognos Server sử dụng 1 user tương ứng với nhóm quyền trên DB2 để kết nối tới DB2.
Mỗi chi nhánh sẽ được cấp một hay nhiều user trong một nhóm quyền của chi nhánh đó trên Cognos Server. Chi nhánh truy cập vào IBM Cognos từ máy trạm và chỉ có thể khai thác hay phân tích số liệu của chi nhánh đó.
3.7. Kết quả thử nghiệm
Kết quả thử nghiệm được thể hiện ở bảng 3.7.1 và hình 3.7.1 dưới đây (càng thấp càng tốt):
Bảng 3.7.1. Kết quả thử nghiệm cho hệ thống kho dữ liệu báo cáo SPTG
Dữ liệu kết xuất
hàng ngày ~ 2 GB
Thời gian kết xuất hằng ngày kho dữ liệu chuyên đề SPTG
Kiểu [ET][L] cũ bằng DTS
Kiểu [E][T][L] mới bằng Datastage
~ 25 phút ~ 20 phút
% CPU sử dụng trên
core-banking ~ 25 % ~ 4.5 %
Thời gian tiền xử lý OLAP
MOLAP cũ ROLAP mới
Toàn bộ thiết kế trên đã được cài đặt theo mô hình mới (thay cơ chế trích xuất dữ liệu từ [ET][L] trên DTS sang [E][T][L] dựa trên Datastage, lưu trữ dữ liệu theo cấu trúc ROLAP) và tiến hành thử nghiệm với các yêu cầu kỹ thuật như đã phân tích.
Hằng ngày kết xuất dữ liệu hơn 5 triệu bản ghi tương ứng với hơn 2 GB triệu dữ liệu khách hàng.
Kết thúc gói đẩy dữ liệu vào kho dữ liệu chuyên đề khoảng 7 giờ sáng, phục vụ kịp thời cho công tác phân tích và đánh giá nghiệp vụ.
Hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu sản phẩm tiền gửi, cho phép nhiều chi nhánh cùng truy cập vào máy trạm cùng lúc để tổng hợp báo cáo nghiệp vụ và người sử dụng chỉ cần duy nhất một tài khoản để đăng nhập hệ thống.
KẾT LUẬN
Luận văn này bước đầu chứng tỏ được tính hiệu quả của hệ thống mới do tác giả đề xuất so với hệ thống hiện có. Nếu được triển khai áp dụng sẽ cải tiến và tối ưu được hệ thống kho dữ liệu hiện tại, giảm tải hệ thống core-banking, mở ra một hướng mới trong phát triển bài toán phân tích và phân phối dữ liệu tại Ngân hàng TMCP Đầu tư và Phát triển Việt Nam, cung cấp công cụ chuyên nghiệp cho người lập trình tại Trung tâm CNTT cũng như người sử dụng cuối ở các bộ phận nghiệp vụ.
Nghiên cứu làm chủ được công nghệ ETL, OLAP, khai thác và phân tích dữ liệu của IBM sẽ ứng dụng cho nhiều kho dữ liệu chuyên đề, chương trình báo cáo và mở rộng ứng dụng cho hệ thống báo cáo tập trung của BIDV. Giảm tải nhân lực cho việc phát triển các chương trình báo cáo riêng lẻ, giải phóng nhân lực để nghiên cứu các lĩnh vực mới.
Các kết quả của luận văn có thể được tóm tắt:
1. Nghiên cứu hệ thống kho dữ liệu ngân hàng hiện có, từ đó phân tích, đánh giá và đưa ra các mặt hạn chế của hệ thống cũ.
2. Đề xuất hệ thống kho dữ liệu mới nhằm cải tiến các mặt hạn chế của mô hình cũ, trong đó:
- Thay đổi cơ chế trích lọc dữ liệu từ thiết kế dưới dạng [ET][L] và [EL][T] sang dạng [E][T][L].
- Chuyển đổi kho dữ liệu từ mô hình MOLAP sang mô hình ROLAP.
3. Xây dựng thêm hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu đến người dùng cuối, người sử dụng chỉ cần duy nhất một tài khoản đăng nhập hệ thống.
4. Thiết kế các thử nghiệm trên mô hình. Xây dựng được hệ thống kho dữ liệu thử nghiệm theo mô hình cho chương trình báo cáo sản phẩm tiền gửi.
Trong tương lai, nếucác kho dữ liệu chuyên đề hoặc chương trình báo cáo phục vụ công tác quản trị điều hành được phát triển trên hệ thống này, hiệu quả kinh tế sẽ được phát huy rõ rệt. Người sử dụng có thể chủ động sử dụng công cụ này để tự khai thác và xây dựng các báo cáo nghiệp vụ.
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Đỗ Trung Tuấn (1998), Cơ sở dữ liệu quan hệ, NXB Giáo dục.
2. Jeffrey D. Ullman (1999), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức, Biên dịch : Trần Đức Quang tập 1, tập 2, NXB Thống kê.
3. Trang tin điện tử Ngân hàng Nhà nước Việt Nam, http://sbv.gov.vn/wps/portal/
Tiếng Anh
4. Bach Pedersen, Torben, S. Jensen, Christian (2001), Multidimensional Database Technology, Distributed Systems Online (IEEE).
5. Elmasri, Ramez (2011), Fundamentals of database systems, Boston, Addison- Wesley.
6. IBM Data warehousing, http://www-
142.ibm.com/software/products/us/en/category/SWM00?lnk=msoST-dwar-usen 7. Jiawei Han, Micheline Kamber (2009), Data Mining: Concepts and Techniques. 8. Microsoft TechNet, TechNet Library, http://technet.microsoft.com/en-
us/library/
9. Oracle Data Warehousing,
http://www.oracle.com/us/products/database/datawarehousing/overview/index.html 10.R. Kimball, The Data Warehouse Toolkit, Wiley Computer Publishing, New York, 1996.
11.SilverLake (2004), Technical Document Data Warehouse.
12.Thomsen, E., OLAP Solutions: Building Multidimensional Information Systems, Wiley, New York.
PHỤ LỤC
Dưới đây là chi tiết cấu trúc dữ liệu của các bảng trong kho dữ liệu thử nghiệm: Bảng zBranch
Column Datatype Nullable
BRANCH_ID CHAR(3) BRANCH_NM CHAR(70) Y
MAIN_ID CHAR(3)
Bảng zMainBrn
Column Datatype Nullable
MAIN_ID CHAR(3)
BRANCH_NM CHAR(70) Y
REGION_ID CHAR(3) Y
Bảng zRegion
Column Datatype Nullable
REGION_ID CHAR(3) REGION_NM CHAR(100) Bảng zCurr
Column Datatype Nullable
CURR_ID CHAR(3) CURR_NM CHAR(100) Bảng zProd0
PROD_ID CHAR(20) PROD_NM CHAR(100) PROD1_ID CHAR(20) Bảng zProd1
Column Datatype Nullable
PROD1_ID CHAR(20) PROD1_NM CHAR(50) PROD2_ID CHAR(20) Bảng zProd2
Column Datatype Nullable
PROD2_ID CHAR(20) PROD2_NM CHAR(50) Bảng zAcc
Column Datatype Nullable
ACCTNO DECIMAL
ACNAME VARCHAR(5)
PROD2_NM CHAR(20) Bảng zTerm
Column Datatype Nullable
TERM_ID CHAR(10)
TERM_MAX INTERGER Y
TERM_NM CHAR(100) Y
TERM1_ID CHAR(5) Bảng zTerm1
Column Datatype Nullable
TERM1_ID CHAR(10) TERM_NM CHAR(100) Y TERM2_ID CHAR(5) Bảng zTerm2
Column Datatype Nullable
TERM2_ID CHAR(10) TERM_NM CHAR(100) Y Bảng zRMTerm
Column Datatype Nullable
TERMRM_ID CHAR(10) TERMRM_NM CHAR(100) Y
MINDAY CHAR(3) Y
MINDAY CHAR(3) Y
Bảng zAccsts
Column Datatype Nullable
STS_NM CHAR(10) Bảng zCusSeg
Column Datatype Nullable
SEG_ID CHAR(5)
SEG_NM CHAR(100) Y
MIN_NUMBER NUMERIC Y MAX_NUMBER NUMERIC Y Bảng zCUS
Column Datatype Nullable
CUSNO CHAR(10)
CUSNAME CHAR(100)
CLASS CHAR(1)
Bảng zCLASS
Column Datatype Nullable
CLASS CHAR(1)
CLASS_NM CHAR(50)
CUSGROUP_ID CHAR(2) Bảng ZCUSGROUP
Column Datatype Nullable
CUSGROUP_ID VARCHAR(2 CUSGROUP_NM VARCHAR(50)
Bảng FT_SPTG
Column Datatype Nullable
DATADATE SMALLDATETIME BRANCH CHAR(3) CURR_ID CHAR(3) CUS_ID CHAR(20) ACCTNO CHAR(19) DATE_OPNEN TIMESTAMP Y DATE_MATURED TIMESTAMP(10) Y CBAL NUMERIC(24,6) Y RATE NUMERIC(13,7) Y PRN_IN NUMERIC(24,6) Y PRN_OUT NUMERIC(24,6) Y TERM_ID CHAR(5) Y TERM_DAYS INTERGER RMTerm_id CHAR(10) Y REM_DAYS INTERGER Y PROD_ID CHAR(20) Y AccSts_ID CHAR(1) Y SEG_ID CHAR(1) Y