CHƯƠNG I TỔNG QUAN
1. Tích hợp Data Lake vào trong kiến trúc hệ thống EDW
Thay đổi đề xuất đầu tiên trong “hiện đại hóa” kiến trúc hệ thống EDW của ngân hàng TMCP Công Thương Việt Nam là việc tích hợp thêm nền tảng công nghệ Data Lake, hỗ trợ lưu trữ đa dạng các nguồn dữ liệu dưới nhiều định dạng khác nhau và hạn chế tối thiểu việc loại bỏ các nguồn tri thức tiềm ẩn trong khối lượng lớn dữ liệu thô, mà tạm thời vẫn chưa đem lại nhiều giá trị thực tiễn trong hoạt động tài chính dịch vụ và quy trình ra quyết định tại các cấp quản lý của ngân hàng.
1.1. Tổng quan kiến thức cơ bản về Data Lake
Data Lake là kho dữ liệu dùng trong phân tích khối lượng lớn các luồng dữ liệu phân tán dưới nhiều định dạng khác nhau. Data Lake được xem là nơi lưu trữ dữ liệu thô và là điểm truy xuất nguồn dữ liệu nguyên gốc đến các hệ thống nghiệp vụ hoặc chuẩn hóa
1Xem thêm phần 3 chương II “Nhận định các vấn đề dữ liệu trong hoạt động quản trị quan hệ khách hàng tại ngân hàng TMCP Công Thương Việt Nam”
Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp
vào trong khối kiến trúc Data Warehouse, sau đó phân phối đến các phòng ban chức năng hoặc đơn vị kinh doanh tùy theo nhu cầu sử dụng dữ liệu.
Data Lake là nền tảng kiến trúc đồng thời cũng là cơ sở lưu trữ mọi định dạng dữ liệu trên toàn hệ thống trong tổ chức. Các nguồn dữ liệu này có thể phát sinh từ máy móc thiết bị (IoTs, activities log files,...) hoặc do người dùng tạo ra (tweets, email, social data,.) hay là các nguồn dữ liệu phát sinh trong hoạt động kinh doanh sản xuất truyền thống (sales, transactions, inventory.)
Real-time Indicators/Scorecard
Hình 1-1 Khung kiến trúc tích hợp luồng dữ liệu lưu động trên nền tảng Data Lake [62]
Các nguồn dữ liệu được thu thập và lưu trữ vào trong Data Lake dưới sự hỗ trợ của các công cụ xử lý luồng dữ liệu phân tán, có hệ thống theo dấu và cảnh báo những thay đổi trong lưu trữ và chuyển đổi các nguồn dữ liệu. Các hệ thống trong tổ chức như ERP,
CRM và Data Warehouse. được tự động tích hợp và kết nối với nền tảng cơng nghệ Data Lake, cho phép người dùng nghiệp vụ và đặc biệt là các chuyên gia phân tích xử lý đồng thời nhiều cụm dữ liệu và biểu diễn kết quả trên khung thời gian thực.
1.1. Thiết kế kiến trúc hệ thống EDW tích hợp Data Lake
Dựa trên lý thuyết về khối kiến trúc tổng quan Big Data1 và hệ thống EDW của ngân
hàng TMCP Công Thương Việt Nam2, khóa luận đưa ra đề xuất tích hợp thêm hệ cơ sở Data Lake, đảm nhiệm vai trò trung gian lưu trữ dữ liệu trong giai đoạn chuyển tiếp giữa
các nguồn thông tin thu thập bên ngoài vào lưu trữ trong hệ thống cơ sở dữ liệu EDW.
1 Xem thêm mục 3 phần 1 chương I “Kiến trúc Big Data”.
2 Xem thêm mục 2 phần 2 chương II “Thực trạng khả năng phát triển và ứng dụng nền tảng công nghệ
(1) Data Warehouse ÷ Active Archive: quá trình truy vấn dựa trên các chính sách
và tiêu chuẩn về dữ liệu. Đây là giai đoạn dữ liệu được xác định giá trị và chuyển
Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp
Hình 1-2 Đề xuất tích hợp Data Lake vào kiến trúc hệ thống EDW
Đầu tiên về nguồn dữ liệu thu thập,
Ngoại trừ 22 nguồn dữ liệu thu thập từ các hệ thống nghiệp vụ trong nội bộ ngân hàng, kiến trúc EDW mới được đề xuất tích hợp thêm các nguồn dữ liệu bán cấu trúc và
phi cấu trúc bên ngoài, như dữ liệu từ các trang mạng xã hội, dữ liệu lưu trữ lịch sử duyệt web xác định thông qua các API của khách hàng, dữ liệu đa phương tiện, dữ liệu khoanh vùng phạm vi lãnh thổ và vị trí địa lý, dữ liệu đến từ hệ thống mobile banking hay các điểm truy cập touchpoint...
Thứ hai về vùng lưu trữ thông tin dữ liệu,
Dữ liệu không được chuyển đổi và lưu trữ trực tiếp vào EDW mà phải thông qua hệ
cơ sở Data Lake. Nền tảng cơng nghệ Data Lake được tích hợp với vai trị giảm thiểu bộ nhớ lưu trữ yêu cầu trong hệ thống EDW và giữ lại toàn bộ nội dung cũng như định dạng gốc của tất cả các nguồn dữ liệu lưu động trong hệ thống ngân hàng thông qua phân vùng lưu trữ trung gian Staging/ODS.
Active Archive được tích hợp trong Data Lake với mục đích tăng cường tính sẵn sàng của dữ liệu mỗi khi có các yêu cầu truy vấn. Có hai chiều truy vấn được thực hiện qua phân vùng Active Archive:
(1) Active Archive ÷ Data Warehouse/ User Access Layer: truy vấn liên kết đến các báo cáo hiện hành và những dữ liệu lịch sử của ngân hàng. Đây là giai đoạn phân tích và xác định giá trị các nguồn dữ liệu thô dựa trên nhu cầu sử dụng của
ngân hàng (“schema on read”).
Trần Phương Lan - K17HTTTB 47
Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp
tiếp đến cơ sở dữ liệu Data Warehouse (“schema on write”), thường sử dụng cơng nghệ ảo hóa dữ liệu.