THỬ NGHIỆM VỚI BÀI TOÁN PHÂN TÍCH KHÁCH HÀNG

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng kho dữ liệu đảm bảo hiệu năng cho ngân hàng BIDV và thử nghiệm với hệ thống báo cáo phân tích khách hàng (Trang 48)

HÀNG

3.1 Mục tiêu

Trong chương này luận văn xây dựng một hệ thống thử nghiệm cho bài toán

“Phân tích khách hàng” dựa vào mô hình hệ thống kho dữ liệu mới. Các yêu cầu và đánh giá thực tế thông qua thực nghiệm trên cơ sở dữ liệu của ngân hàng BIDV đã chỉ ra những ưu điểm của hệ thống mới.

3.2 Yêu cầu chức năng

Kho dữ liệu thử nghiệm cho bài toán “Phân tích khách hàng” phải đáp ứng một số yêu cầu chức năng sau:

o Cung cấp kịp thời, số liệu chính xác các báo cáo trước 8 giờ sáng hàng ngày. o Người dùng khai thác báo cáo theo mô hình dữ liệu đa chiều, dữ liệu được

khai thác dưới dạng báo cáo đa chiều (báo cáo khai thác động).

o Số lượng các đơn vị tham gia truy cập tối đa vào chương trình: 300 đơn vị bao gồm các ban hội sở chính và chi nhánh.

o Chương trình chịu tải cho khoảng 350 user truy cập đồng thời. o Hệ thống phải lưu trữ dữ liệu lịch sử ít nhất 3 năm gần nhất.

o Cho phép khai thác, phân tích báo cáo động: Người sử dụng tự thiết kế khai thác báo cáo dựa trên số liệu có sẵn.

o Hệ thống báo cáo tập trung.

o Phân phối báo cáo theo nhiều định dạng: Html, Pdf, Excel, v.v…

o Tích hợp, tương thích với nhiều hệ thống user: Active Directory, Email, v.v…

3.3 Thiết kế tổng thể

3.3.1 Mô hình logic

Trong hình Hình 3.1 thì bài toán “Phân tích khách hàng” là một dữ liệu chuyên đề thuộc vào nhóm chuyên đề Profitability (nhóm chuyên đề đánh giá lợi nhuận trong mô hình của IBM Banking Data Model). Như vậy có nghĩa là những yêu cầu phân tích, khai thác về thông dữ liệu cơ bản đã có trong mô hình chung của IBM Banking Data Model người dùng chỉ vào để xem những chỉ tiêu phù hợp sau đó đưa ra thành những dữ liệu chuyên đề cho phù hợp với bài toán phân tích của người dùng.

Hình 3.1 Nhóm chuyên đề lợi nhuận trong mô hình kho dữ liệu

Hình vẽ 3.2 thể hiện mối quan hệ của dữ liệu chuyên đề “Phân tích khách hàng”

trong sơ đồ tổng quát của kho dữ liệu mới.

http:// www.google.com/ imgres?imgurl=http:// tinhocvanphong.edu.v n/wp-content/ uploads/2013/10/ khoa-hoc-excel- 2010.jpg&imgrefurl=ht tp:// tinhocvanphong.edu.v n/hoc-tin-hoc/excel- 2010/khoa-hoc-excel- 2010/ &h=529&w=1024&tbn id=-- J3eLOuaKdWkM:&doci d=- qfVLXIiqWX1zM&ei=_ 5GuVcfaI8ermAWi- 7H4Aw&tbm=isch&ve d=0CEcQMygeMB5qF QoTCIfWiNrv7MYCFcc Vpgodon0MPw CoreBanking (AS400/DB2) AMT System (AS400/DB2) Cadencies (Oracle) Payment System (Oracle) Treasury System (Sysbase) Contact Center (Oracle) HR, ERP... Automic Summary STG (Staging Area)

Asset and Liability Management Investment Management Payments Profitability Regulatory Compliance Relationship Marketing Risk Management Wealth Management

ETL ETL ETL System Center Reporting

Reporting

Analysis

Mining

Mô hình tổng quan hệ thống kho dữ liệu mới

Phân tích khách hàng

Hình 3.2 Bài toán phân tích khách hàng trong mô hình kho dữ liệu mới Cấu hình hệ thống thực nghiệm cho bài toán Phân tích khách hàng. Hệ thống máy Cấu hình hệ thống thực nghiệm cho bài toán Phân tích khách hàng. Hệ thống máy chủ được thử nghiệm trên các cấu hình máy chủ như sau: Máy chủ Cơ sở dữ liệu IBM Netezza Version máy TwinFin 6, máy chủ trích xuất dữ liệu IBM Datastage IBM x3650 M4 (Xeon 8C E5-2670), máy chủ công cụ phân phối vào khai thác báo cáo IBM Cognos

3.3.2Thiết kế bảo mật

Sử dụng phương án bảo mật theo từng tầng: Tầng ứng dụng, tầng truyền thông và hệ thống firewall sẵn có của BIDV. Cụ thể như sau: Bảo mật ở ứng dụng phân phối báo cáo Cognos Sử dụng chính sách bảo mật người truy cập trên AD (Active Directory) tích hợp vào hệ thống phân quyền tập trung trên Cognos. Bảo mật mức cơ sở dữ liệu Máy chủ cơ sở dữ liệu Netezza được bảo mật với tài khoản/mật khẩu theo chế độ bảo mật của hệ quản trị cơ sở dữ liệu Netezza.

Thiết kế bảo mật theo người dùng sẽ được tích hợp vào trong phần thiết kế dữ liệu đa chiều và phân phối báo cáo qua Cognos, người dùng của chi nhánh nào chỉ được xem dữ liệu của chi nhánh đó, Hội sở chính có quyền xem toàn bộ dữ liệu của hệ thống.

3.4 Thiết kế dữ liệu chuyên đề Phân tích khách hàng

3.4.1Thiết kế dữ liệu chỉ tiêu

Thiết kế dữ liệu chuyên đề “Phân tích khách hàng” theo dữ liệu đa chiều với các chiều (Demenstion) và giá trị (Measure) được quy định như sau:

Chiều chiều dữ liệu phân tích:

o Thời gian: Phân cấp theo năm, quý, tháng, ngày

o Khách hàng: Phân cấp theo Dân tộc, Quốc tịch, Trình độ học vấn, Khách hàng o Trạng thái khách hàng o Xếp hạng tín dụng o Nơi cư chú o Giới tính o Ngành nghề kinh doanh o Tình trạng hôn nhân o Nghề nghiệp o Nhóm nợ o Độ tuổi

Giá trị dữ liệu phân tích:

o Tổng số dư huy động cuối kỳ quy đổi

o Tổng số dư huy động cuối tháng trước quy đổi o Tổng số dư huy động cuối quý trước quy đổi o Tổng số dư huy động cuối năm trước quy đổi

o Tổng số dư huy động bình quân trong kỳ từ đầu tháng quy đổi o Tổng số dư huy động bình quân trong kỳ từ đầu quý quy đổi o Tổng số dư huy động bình quân trong kỳ từ đầu năm quy đổi o Tổng số dư tín dụng cuối kỳ quy đổi

o Tổng số dư tín dụng cuối tháng trước quy đổi o Tổng số dư tín dụng cuối quý trước quy đổi o Tổng số dư tín dụng cuối năm trước quy đổi

o Tổng số dư tín dụng bình quân trong kỳ từ đầu tháng quy đổi o Tổng số dư tín dụng bình quân trong kỳ từ đầu quý quy đổi o Tổng số dư tín dụng bình quân trong kỳ từ đầu năm quy đổi

3.4.2Thiết kế mô hình dữ liệu đa chiều với công cụ IBM Cognos Framework Manager Mô hình quan hệ giữ các thực thể trong thiết kế dữ liệu đa chiều

Hình 3.3 Mô hình thực thể trong thiết kế dữ liệu đa chiều

Dùng IBM Cognos Framework Manager kết nối với kho dữ liệu để thiết kế mô hình dữ liệu đa chiều.

Hình 3.4 Thiết kế dữ liệu đa chiều

Khi kết nối IBM Cognos Framework Manager tới cơ sở dữ liệu của kho dữ liệu thì phần mềm tự phân chia ra thành mô hình nhiều lớp: Lớp Physical Model lớp kết nối trực tiếp tới cơ sở dữ liệu. Lớp Logical Model lớp ánh xạ của lớp Physical. Lớp Subject Area được tự tạo để quản lý các lớp liên quan tới các bảng chiều (dim table) và bảng dữ liệu (fact table). Tầng Dimension Layer: Là tầng thiết kế chính của mô hình dữ liệu đa chiều cho phép thiết lập các quan hệ để tạo ra các mô hình dữ liệu tương ứng như bông tuyết, ngôi sao, v.v…

3.4.3Thiết kế job trích xuất dữ liệu từ kho dữ liệu vào kho dữ liệu chuyên đề Phân tích khách hàng khách hàng

Do việc đã quy hoạch toàn bộ kho dữ liệu tổng thể, thống nhất toàn ngân hàng do đó đối với các bảng dữ liệu thông tin về chiều dữ liệu (Dim table) được dùng chung toàn bộ hệ thống điều đó có nghĩa là việc đẩy dữ liệu vào các bảng chiều không cần thiết do đó chỉ xử lý đối với bảng dữ liệu giá trị (Fact table) được triết xuất từ kho dữ liệu điều này đã giảm được công sức rất nhiều trong vấn đề phát triển các bài toán phân tích, khai thác dữ liệu do đã tận dụng được những dữ liệu dùng chung cho toàn ngân hàng mà không phải phát triển lại cấu phần đó. Điều này đối với hệ thống kho dữ liệu cũ là không thể làm được vì vấn đề lưu trữ liệu đa chiều trên hệ thống cũ đóng băng trên từng bài toán chuyên đề về

dữ liệu đa chiều mà không thể dùng chung cho các bài toán khác mặc dù dữ liệu về thông tin chiều là như nhau.

Luồng xử lý chạy jobs dữ liệu:

Sau khi hệ thống triết xuất dữ liệu đầu ngày của kho dữ liệu tập kết xong vào khu vực SoR thì sẽ chạy tiếp các bài toán chuyên đề theo từng mảng nghiệp vụ theo nhu cầu khai thác của người dùng. Sau đây là một số luồng tổng hợp dữ liệu của hệ thống kho dữ liệu trong đó có phần luồng của bài toán “Phân tích khách hàng”.

Hình 3.5 Luồng jobs DWH_MASTER Hình 3.5 là luồng jobs tổng của toàn bộ kho dữ liệu trong đó: Hình 3.5 là luồng jobs tổng của toàn bộ kho dữ liệu trong đó:

Load_Source_to_STG: Luồng jobs tập kết dữ liệu từ nguồn về khu vự staging của kho dữ liệu.

STG_TO_SoR: Luồng jobs xử lý dữ liệu từ khu vực tập kế dữ liệu nguồn vào kho dữ liệu theo mô hình IBM Banking Data Model

DataMart: Luồng jobs của các dữ liệu chuyên đề Finish_DWH: Luồng jobs kết thúc kho dữ liệu

Hình 3.7 Luồng jobs dữ liệu chuyên đề

3.4.4Thiết kế lớp bảo mật phân quyền theo người dùng

Dữ liệu chuyên đề “Phân tích khách hàng” được dùng cho toàn hệ thống, chi nhánh nào chỉ được xem dữ liệu của chi nhánh đó, Hội sở chính có quyền xem toàn bộ dữ liệu do đó trong sẽ thiết lập chế độ bảo mật dữ liệu trong bảng dữ liệu giá trị (Fact table) theo chiều chi nhánh.

Hệ thống Cognos sẽ kết nối với hệ thống AD do đó mỗi người dùng đăng nhập đều có mã thuộc vào một đơn vị chi nhánh hoặc Hội sở chính, do dữ liệu đã được phân quyền theo chi nhánh trên bảng dữ liệu giá trị đảm bảo người dùng được xem xem dữ liệu trong thẩm quyền quy đinh.

3.4.5Triển khai dữ liệu đa chiều lên máy chủ Cognos

Sử dụng IBM Cognos Framework Manager để public package lên máy chủ Cognos

Hình 3.9 Triển khai dữ liệu đa chiều lên máy chủ Cognos

3.4.6 Khai thác dữ liệu đa chiều

Với thiết kế dữ liệu đa chiều cho phép người dùng tùy biến yêu cầu khai thác dữ liệu, chủ dộng phân tích và thiết lập báo cáo theo mong muốn mà không cần sự can thiệp của cán bộ công nghệ.

Hình 3.10 Mành hình khai thác dữ liệu đa chiều

Bên phải Hình 3.10 là danh sách các chiều và giá trị của dữ liệu đa chiều “Phân tích khách hàng” người dùng có thể tùy biến kéo thả các chiều và chỉ tiêu để tạo ra những báo cáo theo ý muốn.

Ví dụ muốn khai thác thông sau: Tổng số dư huy động cuối kỳ quy đổi, Tổng số dư huy động bình quân trong kỳ quy đổi, Tổng số dư tín dụng cuối kỳ quy đổi, Tổng số dư tín dụng bình quân trong kỳ quy đổi phân theo giới tính của ngày dữ liệu 08/09/2015. Hình 3.10 sau khi thực hiện kéo thả các chiều, chỉ tiêu tương ứng cho ta kết quả tương ứng.

3.4.7Kết quả thử nghiệm

Với thử nghiệm với bài toán “Phân tích khách hàng” được thiết kế hoàn toàn theo mô hình kho dữ liệu mới đã chứng minh được một số ưu điểm như sau:

Việc thiết kế dữ liệu chuyên đề được tái sử dụng những dữ liệu dùng chung cho toàn hệ thống mà không phải mất công thiết kế lại những cấu phần đó.

Rút gắn thời gian việc phát triển một bài toán dữ liệu chuyên đề do tận dụng được những mô hình có sẵn trong IBM Banking Data Model mà chỉnh sửa là ít nhất. IBM Banking Data Model đã cung cấp được khoảng 80% những bài toán dữ liệu chuyên đề thường hay sử dụng trong các tổ chức tài chính ngân hàng do đó việc nghiên cứu tìm hiểu và tiếp cận với những kiến thức mới về nghiệp vụ khai thác dữ liệu là hết sức đơn giản.

Triển khai phần phân phối và khai thác báo cáo tập trung cho toàn ngân hàng, người dùng chỉ cần vào một địa chỉ duy nhất để khai thác toàn bộ hệ thống báo cáo của ngân hàng. Dễ dàng phát triển, triển khai, và khai thác sử dụng dữ liệu đa chiều với sản phẩn IBM Cognos.

KẾT LUẬN

Luận văn đã tiến hành nghiên cứu, xây dựng, thử nghiệm và kiểm chứng với bài toán cụ thể về hiệu năng của kho dữ liệu mới và đã đạt được những kết quả khả quan, mang lại những hiệu quả thiết thực cho ngân hàng, giảm tải hệ thống Core Banking, xây dựng kiến trúc tổng thể về kho dữ liệu cho ngân hàng, mở ra một hướng đi mới trong phát triển bài toán phân tích và phân phối dữ liệu tại ngân hàng.

Tác giả đã nghiên cứu và làm chủ được những công nghệ, sản phẩm hàng đầu về kho dữ liệu tiên tiến trên thế giới như IBM Netezza, IBM Datastage, IBM Cognos, IBM Banking Data Model. Một số công việc tác giả đã thực hiện và kết quả chính của luận văn có thể tóm tắt như sau:

Công việc thực hiện:

o Nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống kho dữ liệu hiện tại trong ngân hàng.

o Đề xuất mô hình kiến trúc hệ thống kho dữ liệu mới nhằm giải quyết các hạn chế của hệ thống kho dữ liệu cũ trong đó bao gồm các thành phần bổ sung chính như sau:

Hạ tầng của kho dữ liệu bao gồm: Cơ sở dữ liệu chuyên dụng cho

bài toán kho dữ liệu, kiến trúc cho phép mở rộng về mô hình các công cụ trích lọc dữ liệu, công cụ phân tích và khai thác báo cáo, đáp ứng đối với dữ liệu ngày càng tăng trưởng trong ngân hàng.

Mô hình của kho dữ liệu: Nghiên cứu và áp dụng mô hình kho dữ

liệu tiên tiến của IBM.

o Thiết kế thử nghiệm với hệ thống báo cáo phân tích khách hàng nhằm đánh giá hiệu năng xử lý của kho dữ liệu mới.

Kết quả đạt được:

Xây dựng hệ thống kho dữ liệu mới áp dụng cho toàn ngân hàng, thay thế hệ thống cũ và hệ thống kho dữ liệu mới đáp ứng hiệu năng xử lý, giải quyết những hạn chế của hệ thống cũ.

Hướng nghiên cứu phát triển tiếp theo:

o Tiếp tục nghiên cứu chuyên sâu về các dữ liệu chuyên đề về các mảng như: Quản lý rủi ro, các bài toán về báo cáo tuân thủ Basel II, FATCA, v.v…

o Nghiên cứu và phát triển tiếp các thành phần bổ sung cho kho dữ liệu để hoàn thiện mô hình mở rộng cho kho dữ liệu như: Quản lý dữ liệu (Data Governance), quản lý từ điển thuật ngữ (Business Glossary), v.v…

o Tiếp tục nghiên cứu bước phát triển tiếp theo của kho dữ liệu trong ngân hàng tiến tới là BigData.

TÀI LIỆU THAM KHẢO

[1] W. H. .Inmon, Building the Data Warehouse. 1st Edition, 1992. [2] SilverLake, Technical Document Data Warehouse., 2004. [3] Đ. T. Tuấn, Cơ sở dữ liệu quan hệ, NXB Giáo dục, 1998.

[4] Microsoft, "Introduction to New Data Warehouse," [Online]. Available: https://technet.microsoft.com/en-us/library. [Accessed 8 2015].

[5] Oracle, "Oracle Data Warehouse," [Online]. Available:

https://www.oracle.com/database/data-warehouse/index.html. [Accessed 8 2015]. [6] IBM, "IBM Banking Data Warehouse," [Online]. Available:

http://www-03.ibm.com/software/products/en/banking. [Accessed 8 2015]. [7] IBM, "Data warehousing," [Online]. Available:

http://www-03.ibm.com/software/products/en/category/SWM00. [Accessed 8 2015]. [8] IBM, "IBM InfoSphere Information Server Deployment Architectures,"

[Online]. Available: http://www.redbooks.ibm.com/redbooks/pdfs/sg248028.pdf. [Accessed 9 2015].

[9] IBM, "IBM Cognos Business Intelligence V10.1" [Online]. Available: http://www.redbooks.ibm.com/redbooks/pdfs/sg247912.pdf. [Accessed 10 2015]. [10] IBM, "IBM Banking and Financial Markets Data Warehouse," [Online].

Available: http://www-03.ibm.com/software/products/en/ibm-banking-financial- markets-dw. [Accessed 9 2015].

PHỤC LỤC

1. Danh sách các phân cấp chiều dữ liệu trong bài toán phân tích khách hàng o Thời gian: Phân cấp theo năm, quý, tháng, ngày

o Khách hàng: Phân cấp theo Dân tộc, Quốc tịch, Trình độ học vấn, Khách hàng

o Trạng thái khách hàng

o Nơi cư chú

o Ngành nghề kinh doanh

o Nghề nghiệp

o Độ tuổi

2. Danh sách các phân cấp chiều giá trị dữ liệu trong bài toán phân tích khách hàng

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng kho dữ liệu đảm bảo hiệu năng cho ngân hàng BIDV và thử nghiệm với hệ thống báo cáo phân tích khách hàng (Trang 48)

Tải bản đầy đủ (PDF)

(66 trang)