Thiết kế tổng thể kho dữ liệu

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 58)

3.3.1. Mô hình logic IBM COGNOS DB2 AS/400

STAGING AREA ENTERPRISE

DATA MODEL SOURCE DATA DD CD LN GL ATM STAGING DATABASE EDM DTS REPORTING ANALYSIS Datastage DTS SPTG

Hình 3.3.1.1. Mô hình logic kho dữ liệu thử nghiệm

Với mô hình kho dữ liệu thử nghiệm cho chương trình báo cáo sản phẩm tiền gửi, quá trình chuyển dữ liệu từ dữ liệu nguồn sang vùng staging và quá trình xử lý từ staging sang vùng EDM vẫn được giữ nguyên.

Các cấu phần mới bao gồm:

 Quá trình chuẩn bị dữ liệu từ EDM sang kho dữ liệu chuyên đề SPTG được cải tiến bởi việc sử dụng công cụ IBM Infosphere Datastage: Thiết kế trích xuất chuyển đổi dữ liệu dạng [E][T][L] nhằm giảm tải hệ thống core-banking đồng thời tối ưu tốc độ trích xuất chuyển đổi.

 Kho dữ liệu chuyên đề SPTG được lưu trữ bằng IBM DB2 dưới dạng dữ liệu đa chiều mô hình ROLAP: Tối ưu phần xử lý số liệu OLAP.

 Cung cấp cho nghiệp vụ một công cụ khai thác, phân tích báo cáo chuyên nghiệp.

3.3.2. Mô hình vật lý Report Viewer Report Viewer Report Viewer COGNOS SERVER AS/400 EDM SPTG SERVER CLIENT DATASTAGE SERVER

Hình 3.3.2.1. Mô hình vật lý hệ thống kho dữ liệu thử nghiệm Các máy chủ cần bổ sung thêm:

- Máy chủ Datastage: Cài đặt công cụ ETL IBM Infosphere Datastage.

- Máy chủ SPTG: Cài đặt CSDL IBM DB2, sử dụng cho kho dữ liệu chuyên đề sản phẩm tiền gửi, dữ liệu đa chiều.

- Máy chủ IBM Cognos: Cài đặt IBM Cognos.

Hệ điều hành 3 máy chủ mới: Windows Server 2003 64 bit.

3.3.3. Luồng thiết kế Thiết kế kho dữ Thiết kế kho dữ liệu chuyên đề (CSDL SPTG) Thiết kế dữ liệu đa chiều Thiết kế Job trích xuất dữ liệu từ EDM vào CSDL SPTG

Phân phối báo cáo

Hình 3.3.3.1. Luồng thiết kế hệ thống kho dữ liệu thử nghiệm

3.3.4. Thiết kế bảo mật

Sử dụng phương án bảo mật phân tầng: Tầng ứng dụng, tầng truyền thông và hệ thống firewall sẵn có của BIDV. Cụ thể như sau:

- Bảo mật ở ứng dụng phân phối báo cáo Cognos:

 Sử dụng chính sách bảo mật user trên Active Directory tích hợp vào hệ thống phân quyền trên Cognos.

- Bảo mật mức cơ sở dữ liệu:

 Máy chủ CSDL SPTG được bảo mật với tài khoản/mật khẩu theo chế độ bảo mật của hệ quản trị CSDL DB2.

Thiết kế bảo mật sẽ được tích hợp vào trong phần thiết kế dữ liệu đa chiều và phân phối báo cáo qua Cognos.

3.4. Thiết kế kho dữ liệu chuyên đề SPTG

3.4.1. Thiết kế dữ liệu chỉ tiêu a. Chiều (Dimension) a. Chiều (Dimension)

- Loại hình khách hàng (Là cá nhân/Tổ chức/Định chế tài chính) - Theo kỳ hạn (Ngắn hạn/Trung hạn/Dài hạn)

- Loại tiền

- Ngành nghề kinh tế

- Chỉ số dự theo phân loại nợ - Trạng thái quá hạn (adsbygoogle = window.adsbygoogle || []).push({});

- Tài khoản vay

- Phòng giao dịch/Quỹ tiết kiệm

b. Giá trị (Measure)

- Dư nợ cuối kỳ

- Lãi dự thu (Bao gồm cả lãi treo) - Lãi đã thu (Tính luỹ kế từ đầu năm) - Doanh số cho vay

3.4.2. Thiết kế chi tiết CSDL a. Mô hình quan hệ a. Mô hình quan hệ zCusSeg SEG_ID SEG_NM MIN_NUMBER MAX_NUMBER zAccsts STS_ID STS_NM zTerm TERM_ID TERM_NM TERM_MIN TERM_MAX TERM1_ID zTerm1 TERM1_ID TERM_NM TERM2_ID zTerm2 TERM2_ID TERM_NM zProd1 PROD1_ID PROD1_NM PROD2_ID zProd2 PROD2_ID PROD2_NM zRMTerm TERMRM_ID TERMRM_NM MINDAY MINDAY zBranch BRANCH_ID BRANCH_NM MAIN_ID zMainBrn MAIN_ID BRANCH_NM REGION_ID zRegion REGION_ID REGION_NM zCurr CURR_ID CURR_NM zAcc Acctno AcName Prod0_id zProd0 Prod0_ID Prod0_NM Prod1_ID zTime DataDate Day Month Year zCus CIFNO CLAS zCLASS CLAS DESC GROUP_ID zCUSGROUP GROUP_ID DESC FT_SPTG DATADATE BRANCH_ID CURR_ID ACCTNO DATE_OPN DATE_MAT CBAL RATE PRN_IN PRN_OUT TERM_ID TERM_DAYS RMTERM_ID TERM_DAYS CIFNO SEG_ID STS_ID Hình 3.4.2.1. Mô hình quan hệ CSDL SPTG

b. Danh mục các bảng

Bảng 3.4.2.1. Danh sách các bảng trong CSDL SPTG

STT Tên bảng Mô tả

1 zBranch Bảng tham số về mã BDS

2 zMainBrn Bảng tham số về BDS cha có BDS con 3 zRegion Bảng tham số về cụm động lực

4 zCurr Bảng tham số về tiền tệ

5 zProd0 Bảng tham số chi tiết về loại sản phẩm

6 zProd1 Bảng tham số về loại sản phẩm cấp 1 (mức Goup Code) 7 zProd2 Bảng tham số về loại sản phẩm cấp 2

8 zAcc Bảng tham số về tài khoản vay

9 zTerm Bảng tham số về loại kỳ hạn tuần của tài khoản tiền gửi 10 zTerm1 Bảng tham số về 03 loại kỳ hạn của tiền gửi (KKH, Kỳ

hạn dưới 12 tháng, Kỳ hạn trên 12 tháng)

11 zTerm2 Bảng tham số về kỳ hạn mức tổng quát: KKH và CKH 12 zRMTerm Bảng tham số về kỳ hạn còn lại của tài khoản

13 zAccsts Bảng tham số về trạng thái của tài khoản

14 zCusSeg Bảng tham số phân đoạn số tiền gửi khách hàng 15 zCUSGROUP Bảng tham số lưu các nhóm khách hàng là:

1. Cá nhân 2. Doanh nghiệp 3. Định chế tài chính

16 zCLASS Bảng tham số lưu thông tin về phân loại chi tiết từng khách hàng

17 zCus Bảng tham số về thông tin từng khách hàng

18 FT_SPTG Bảng lưu dữ liệu chi tiết tài khoản tiền gửi của khách hàng cá nhân lớn

3.5. Thiết kế job trích xuất dữ liệu từ EDM vào kho dữ liệu chuyên đề SPTG

Tất cả các bảng trong kho dữ liệu chuyên đề SPTG đều được trích xuất và chế biến từ thư viện EDM.

“Main Job” là job xử lý chính của kho dữ liệu SPTG trong hình 3.5.1:

Hình 3.5.1. “Main Job” xử lý trích xuất dữ liệu cho kho dữ liệu SPTG “Main Job” thực hiện các xử lý sau:

- Job PARAMETERS_SPTG xử lý lấy dữ liệu tham số phục vụ cho các bảng chiều.

- Job DAILY_SPTG xử lý lấy dữ liệu ngày đưa vào 1 bảng tạm trên kho dữ liệu SPTG. (adsbygoogle = window.adsbygoogle || []).push({});

- Job FT_SPTG chờ 2 job PARAMETERS_SPTG và DAILY_SPTG chạy xong, lấy dữ liệu ngày đổ vào bảng fact.

Hình 3.5.3. Job PARAMETERS_SPTG xử lý trích xuất dữ liệu các bảng chiều Job PARAMETERS_SPTG trong hình 3.5.3 đầu tiên xử lý lấy dữ liệu ngày hệ thống “sysdate”, sau đó lấy dữ liệu từ thư viện EDM vào các bảng tham số chiều cho CSDL SPTG.

3.6. Thiết kế dữ liệu đa chiều SPTG

Sử dụng công cụ IBM Infosphere Warehouse Design Studio để thiết kế dữ liệu đa chiều SPTG, ta cần thiết kế 2 phần:

- OLAP Model: Đặc tả mô hình dữ liệu đa chiều. - OLAP Security: Bảo mật mức dữ liệu đa chiều.

3.6.1. Thiết kế OLAP Metadata

Import các bảng chiều và bảng fact trên CSDL SPTG, Design Studio sẽ tự động tạo mô hình cube nhờ các khóa chính, khóa ngoài đã được thiết kế trên trên các bảng đó.

Hình 3.6.1.1. Màn hình thiết kế OLAP Metadata trên Design Studio

Sau khi OLAP Metadata đã được tạo tự động, ta có thể định nghĩa, đặt tên lại một số chiều hoặc độ đo để nghiệp vụ dễ dàng khai thác hơn.

3.6.2. Thiết kế OLAP Security

Kho dữ liệu SPTG phục vụ cho cả hội sở chính và toàn bộ chi nhánh. Thiết lập chế độ bảo mật ở chiều CHI_NHANH:

- Tạo 200 nhóm quyền bảo mật ở chiều CHI_NHANH. - Hạn chế dữ liệu CHI_NHANH tương ứng với nhóm quyền.

3.6.3. Xây dựng hệ thống phân phối báo cáo

IBM Cognos là một công cụ BI để khai thác, phân tích và phân phối báo cáo. Để triển khai được ta cần phải thiết kế:

- Triển khai OLAP Model lên Cognos Server

- Đồng bộ nhóm quyền Cognos Server với OLAP Security.

3.6.4. Triển khai OLAP Metadata lên Cognos Server

Sử dụng Framework Manager trong bộ công cụ của IBM Cognos để kết nối tới dữ liệu đa chiều trên DB2, sau đó import OLAP Model để triển khai lên Cognos Server.

Hình 3.6.4.1. Triển khai OLAP Model lên Cognos Server

3.6.5. Đồng bộ nhóm quyền Cognos Server và OLAP Security

Cognos Group 1 User A User B User A Cognos Group 2 User C User D Login DB2 Group 1 User X DB2 Group 2 User Y User X Use Login

Cognos Server Cubing ServicesDB2

Client

User X

User Y

Hình 3.6.5.1. Đồng bộ nhóm quyền Cognos Server và OLAP Security

Cognos Server và DB2 là hai hệ thống độc lập, vì vậy chúng cũng quản lý nhóm quyền độc lập với nhau.

Như hình 3.6.5.1 trên, để khai thác và phân tích cube trong DB2 Cubing Service thông qua bộ công cụ BI – IBM Cognos, Cognos cần phải thiết lập một user để kết nối tới DB2, user này thuộc quyền quản lý của DB2.

Như vậy để hơn 200 chi nhánh và hội sở chính khai thác và phân tích báo cáo trên công cụ IBM Cognos, cần thiết kế:

- Mỗi nhóm quyền trên Cognos Server sử dụng 1 user tương ứng với nhóm quyền trên DB2 để kết nối tới DB2. (adsbygoogle = window.adsbygoogle || []).push({});

 Mỗi chi nhánh sẽ được cấp một hay nhiều user trong một nhóm quyền của chi nhánh đó trên Cognos Server. Chi nhánh truy cập vào IBM Cognos từ máy trạm và chỉ có thể khai thác hay phân tích số liệu của chi nhánh đó.

3.7. Kết quả thử nghiệm

Kết quả thử nghiệm được thể hiện ở bảng 3.7.1 và hình 3.7.1 dưới đây (càng thấp càng tốt):

Bảng 3.7.1. Kết quả thử nghiệm cho hệ thống kho dữ liệu báo cáo SPTG

Dữ liệu kết xuất

hàng ngày ~ 2 GB

Thời gian kết xuất hằng ngày kho dữ liệu chuyên đề SPTG

Kiểu [ET][L] cũ bằng DTS

Kiểu [E][T][L] mới bằng Datastage

~ 25 phút ~ 20 phút

% CPU sử dụng trên

core-banking ~ 25 % ~ 4.5 %

Thời gian tiền xử lý OLAP

MOLAP cũ ROLAP mới

~ 20 phút Không có

Toàn bộ thiết kế trên đã được cài đặt theo mô hình mới (thay cơ chế trích xuất dữ liệu từ [ET][L] trên DTS sang [E][T][L] dựa trên Datastage, lưu trữ dữ liệu theo cấu trúc ROLAP) và tiến hành thử nghiệm với các yêu cầu kỹ thuật như đã phân tích.

Hằng ngày kết xuất dữ liệu hơn 5 triệu bản ghi tương ứng với hơn 2 GB triệu dữ liệu khách hàng.

Kết thúc gói đẩy dữ liệu vào kho dữ liệu chuyên đề khoảng 7 giờ sáng, phục vụ kịp thời cho công tác phân tích và đánh giá nghiệp vụ.

Hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu sản phẩm tiền gửi, cho phép nhiều chi nhánh cùng truy cập vào máy trạm cùng lúc để tổng hợp báo cáo nghiệp vụ và người sử dụng chỉ cần duy nhất một tài khoản để đăng nhập hệ thống.

KẾT LUẬN

Luận văn này bước đầu chứng tỏ được tính hiệu quả của hệ thống mới do tác giả đề xuất so với hệ thống hiện có. Nếu được triển khai áp dụng sẽ cải tiến và tối ưu được hệ thống kho dữ liệu hiện tại, giảm tải hệ thống core-banking, mở ra một hướng mới trong phát triển bài toán phân tích và phân phối dữ liệu tại Ngân hàng TMCP Đầu tư và Phát triển Việt Nam, cung cấp công cụ chuyên nghiệp cho người lập trình tại Trung tâm CNTT cũng như người sử dụng cuối ở các bộ phận nghiệp vụ.

Nghiên cứu làm chủ được công nghệ ETL, OLAP, khai thác và phân tích dữ liệu của IBM sẽ ứng dụng cho nhiều kho dữ liệu chuyên đề, chương trình báo cáo và mở rộng ứng dụng cho hệ thống báo cáo tập trung của BIDV. Giảm tải nhân lực cho việc phát triển các chương trình báo cáo riêng lẻ, giải phóng nhân lực để nghiên cứu các lĩnh vực mới.

Các kết quả của luận văn có thể được tóm tắt:

1. Nghiên cứu hệ thống kho dữ liệu ngân hàng hiện có, từ đó phân tích, đánh giá và đưa ra các mặt hạn chế của hệ thống cũ.

2. Đề xuất hệ thống kho dữ liệu mới nhằm cải tiến các mặt hạn chế của mô hình cũ, trong đó:

- Thay đổi cơ chế trích lọc dữ liệu từ thiết kế dưới dạng [ET][L] và [EL][T] sang dạng [E][T][L].

- Chuyển đổi kho dữ liệu từ mô hình MOLAP sang mô hình ROLAP.

3. Xây dựng thêm hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu đến người dùng cuối, người sử dụng chỉ cần duy nhất một tài khoản đăng nhập hệ thống.

4. Thiết kế các thử nghiệm trên mô hình. Xây dựng được hệ thống kho dữ liệu thử nghiệm theo mô hình cho chương trình báo cáo sản phẩm tiền gửi.

Trong tương lai, nếucác kho dữ liệu chuyên đề hoặc chương trình báo cáo phục vụ công tác quản trị điều hành được phát triển trên hệ thống này, hiệu quả kinh tế sẽ được phát huy rõ rệt. Người sử dụng có thể chủ động sử dụng công cụ này để tự khai thác và xây dựng các báo cáo nghiệp vụ. (adsbygoogle = window.adsbygoogle || []).push({});

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Đỗ Trung Tuấn (1998), Cơ sở dữ liệu quan hệ, NXB Giáo dục.

2. Jeffrey D. Ullman (1999), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức, Biên dịch : Trần Đức Quang tập 1, tập 2, NXB Thống kê.

3. Trang tin điện tử Ngân hàng Nhà nước Việt Nam, http://sbv.gov.vn/wps/portal/

Tiếng Anh

4. Bach Pedersen, Torben, S. Jensen, Christian (2001), Multidimensional Database Technology, Distributed Systems Online (IEEE).

5. Elmasri, Ramez (2011), Fundamentals of database systems, Boston, Addison- Wesley.

6. IBM Data warehousing, http://www-

142.ibm.com/software/products/us/en/category/SWM00?lnk=msoST-dwar-usen 7. Jiawei Han, Micheline Kamber (2009), Data Mining: Concepts and Techniques. 8. Microsoft TechNet, TechNet Library, http://technet.microsoft.com/en-

us/library/

9. Oracle Data Warehousing,

http://www.oracle.com/us/products/database/datawarehousing/overview/index.html 10.R. Kimball, The Data Warehouse Toolkit, Wiley Computer Publishing, New York, 1996.

11.SilverLake (2004), Technical Document Data Warehouse.

12.Thomsen, E., OLAP Solutions: Building Multidimensional Information Systems, Wiley, New York.

PHỤ LỤC

Dưới đây là chi tiết cấu trúc dữ liệu của các bảng trong kho dữ liệu thử nghiệm: Bảng zBranch

Column Datatype Nullable

BRANCH_ID CHAR(3) BRANCH_NM CHAR(70) Y

MAIN_ID CHAR(3)

Bảng zMainBrn

Column Datatype Nullable

MAIN_ID CHAR(3)

BRANCH_NM CHAR(70) Y

REGION_ID CHAR(3) Y

Bảng zRegion

Column Datatype Nullable

REGION_ID CHAR(3) REGION_NM CHAR(100) Bảng zCurr

Column Datatype Nullable

CURR_ID CHAR(3) CURR_NM CHAR(100) Bảng zProd0 (adsbygoogle = window.adsbygoogle || []).push({});

PROD_ID CHAR(20) PROD_NM CHAR(100) PROD1_ID CHAR(20) Bảng zProd1

Column Datatype Nullable

PROD1_ID CHAR(20) PROD1_NM CHAR(50) PROD2_ID CHAR(20) Bảng zProd2

Column Datatype Nullable

PROD2_ID CHAR(20) PROD2_NM CHAR(50) Bảng zAcc

Column Datatype Nullable

ACCTNO DECIMAL

ACNAME VARCHAR(5)

PROD2_NM CHAR(20) Bảng zTerm

Column Datatype Nullable

TERM_ID CHAR(10)

TERM_MAX INTERGER Y

TERM_NM CHAR(100) Y

TERM1_ID CHAR(5) Bảng zTerm1

Column Datatype Nullable

TERM1_ID CHAR(10) TERM_NM CHAR(100) Y TERM2_ID CHAR(5) Bảng zTerm2

Column Datatype Nullable

TERM2_ID CHAR(10) TERM_NM CHAR(100) Y Bảng zRMTerm

Column Datatype Nullable

TERMRM_ID CHAR(10) TERMRM_NM CHAR(100) Y

MINDAY CHAR(3) Y

MINDAY CHAR(3) Y

Bảng zAccsts

Column Datatype Nullable

STS_NM CHAR(10) Bảng zCusSeg

Column Datatype Nullable

SEG_ID CHAR(5)

SEG_NM CHAR(100) Y

MIN_NUMBER NUMERIC Y MAX_NUMBER NUMERIC Y Bảng zCUS

Column Datatype Nullable (adsbygoogle = window.adsbygoogle || []).push({});

CUSNO CHAR(10)

CUSNAME CHAR(100)

CLASS CHAR(1)

Bảng zCLASS

Column Datatype Nullable

CLASS CHAR(1)

CLASS_NM CHAR(50)

CUSGROUP_ID CHAR(2) Bảng ZCUSGROUP

Column Datatype Nullable

CUSGROUP_ID VARCHAR(2 CUSGROUP_NM VARCHAR(50)

Bảng FT_SPTG

Column Datatype Nullable

DATADATE SMALLDATETIME BRANCH CHAR(3) CURR_ID CHAR(3) CUS_ID CHAR(20) ACCTNO CHAR(19) DATE_OPNEN TIMESTAMP Y DATE_MATURED TIMESTAMP(10) Y CBAL NUMERIC(24,6) Y RATE NUMERIC(13,7) Y PRN_IN NUMERIC(24,6) Y PRN_OUT NUMERIC(24,6) Y TERM_ID CHAR(5) Y TERM_DAYS INTERGER RMTerm_id CHAR(10) Y REM_DAYS INTERGER Y PROD_ID CHAR(20) Y AccSts_ID CHAR(1) Y SEG_ID CHAR(1) Y

Một phần của tài liệu Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng (Trang 58)