1. Trang chủ
  2. » Tài Chính - Ngân Hàng

Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng

13 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng tập trung nghiên cứu kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng dựa trên cơ sở tham chiếu đến mô hình dữ liệu của hãng IBM. Tiếp theo bài báo phân tích vai trò và sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng.

Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng Ngô Thùy Linh Khoa Hệ thống thông tin quản lý, Trường Học viện Ngân hàng Ngày nhận: 29/04/2022 Ngày nhận sửa: 16/06/2022 Ngày duyệt đăng: 22/06/2022 Tóm tắt: Data lake (hồ liệu) khái niệm xuất năm gần thời đại liệu lớn (big data) Mặc dù chủ đề big data thảo luận nhiều thách thức nghiên cứu, đặc biệt đa dạng liệu Một thách thức làm để tích hợp truy vấn khối lượng liệu lớn từ nhiều nguồn khác phương thức lưu trữ liệu truyền thống kho liệu không đáp ứng Data lake- Hồ liệu đề xuất giải pháp cho vấn đề Bài báo tập trung nghiên cứu kiến trúc hồ liệu cho mơ hình liệu ngân hàng dựa sở tham chiếu đến mơ hình liệu hãng IBM Tiếp theo báo phân tích vai trò cần thiết hồ liệu, trình bày quy trình xây dựng kiến trúc hồ liệu phù hợp tổ chức tài ngân hàng Cuối thảo luận lợi ích hồ liệu giúp cho phận nghiệp vụ truy cập phân tích liệu toàn tổ chức, thách thức công nghệ Data lake architecture: big data storage and analysis in financial banking organizations Abstract: Data Lake is one of the dominant concepts in the era of big data Although big data has been discussed, it still has many research challenges, especially the variety of data It poses a huge difficulty to efficiently integrate and query the large volume of diverse data in information silos with the traditional approaches such as data warehouses Data lakes have been proposed as a solution to this problem This paper focuses on studying data lake architecture for banking data model based on reference to IBM’s data model Next, this paper analyzes the role and necessity of a data lake, presents the data lake execution process and the right data lake architecture in financial banking organizations Finally, the author discusses the benefits of data lakes in helping business departments access and analyze data across the organization, besides the technological challenges of implementing data lakes in financial and banking institutions also described in this paper Keywords: data lake architecture, the financial banking organizations, data lake, data warehouse, big data Ngo, Thuy Linh Email: linhnt@hvnh.edu.vn Faculty of Management Information System, Banking Academy of Vietnam © Học viện Ngân hàng ISSN 1859 - 011X 59 Tạp chí Khoa học & Đào tạo Ngân hàng Số 243- Tháng 2022 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng trình triển khai hồ liệu tổ chức tài ngân hàng nêu báo Từ khóa: kiến trúc hồ liệu, tổ chức tài ngân hàng, hồ liệu, kho liệu, liệu lớn Giới thiệu Theo báo cáo tập đoàn liệu quốc tế (IDC- International Data Corporation, 2021), năm 2020 có 64,2 ZB (Zettabyte1) liệu tạo lượng liệu sinh ngày lớn tổng lượng liệu tạo năm thời điểm năm 2000 Câu hỏi đặt là: nên lưu trữ số đó? Nhiều tổ chức nhận thấy phương pháp quản lý liệu truyền thống trở nên lỗi thời, chậm để đưa phản hồi (Michael Lock, 2017) Chẳng hạn với giải pháp xây dựng kho liệu (data warehouse) giúp tổ chức doanh nghiệp tích hợp liệu từ nhiều hệ thống khác phận, phòng ban Cách thiết kế triển khai kho liệu làm đơn giản hóa việc truy cập liệu, đồng thời hỗ trợ cho tổ chức việc đưa câu trả lời cần thiết kinh doanh Tuy nhiên, lường trước câu hỏi mang tính chất định báo cáo mà doanh nghiệp cần theo thời gian thực, giải pháp nhiều thời gian để đưa kết chuyên sâu từ liệu thu thập Khối lượng liệu tăng lên ngày dẫn đến thách thức ngày lớn kho liệu phải đối mặt với vấn đề Trong kiến trúc liệu đại, việc thu thập liệu phải tương đối dễ dàng để tiến hành phân tích cách nhanh chóng Khối lượng liệu bùng nổ doanh nghiệp khám phá giá trị thông tin phương tiện truyền 60 ZB = 1021 byte thông mạng xã hội, nhận xét, bình luận, ứng dụng cài đặt thiết bị thông minh Vào đầu năm 2000, tổ chức doanh nghiệp chưa nghĩ đến việc phải theo dõi “lượt thích” khách hàng kênh mạng xã hội Nhưng ngày nay, việc nắm bắt phân tích thơng tin thực tế mang lại hội kinh doanh quan trọng Một lần khẳng định liệu chìa khóa để tạo định tổ chức doanh nghiệp Do vậy, giải pháp hồ liệu (data lake) khắc phục hạn chế mà kho liệu chưa làm Cụ thể, hồ liệu cho phép lưu lại đầy đủ thuộc tính liệu nhằm mục đích trả lời câu hỏi xuất tương lai (Geoffrey Keating, 2021) Theo báo cáo tổ chức nghiên cứu thị trường lớn giới năm 2022 (Research and Markets, 2022), thị trường hồ liệu đạt 7,4 tỷ USD năm 2021 Dự kiến ​​thị trường lên tới 30,2 tỷ USD vào năm 2027, với tốc độ tăng trưởng kép hàng năm (CAGR- Compounded Annual Growth Rate) 26,4% giai đoạn 2022- 2027 Hồ liệu vượt xa kho liệu trở thành lựa chọn kinh tế cho tổ chức chi phí trì hồ liệu thấp chi phí xây dựng sở liệu cho kho liệu Với tốc độ tăng trưởng liệu ngày lớn đa dạng khiến cho việc lưu trữ liệu theo cách truyền thống tổ chức gặp nhiều hạn chế đề cập trên, nhận định hồ liệu giải pháp thay tối ưu Nội dung Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 2022 NGÔ THÙY LINH báo trình bày tổng quan hồ liệu; kiến trúc hồ liệu cho mô hình liệu ngân hàng; cuối thảo luận lợi ích, thách thức triển khai hồ liệu Tổng quan hồ liệu 2.1 Khái niệm đặc điểm hồ liệu Vào tháng 10/2010, James Dixon, người sáng lập cựu giám đốc công nghệ (Chief Technology Officer- CTO) Pentaho, đưa thuật ngữ “Data Lake” (Saurabh Gupta & Venkata Giri, 2018) Ý tưởng thiết kế data lake- hồ liệu khu vực lưu trữ tập trung, hợp cho liệu thơ, khơng có cấu trúc, bán cấu trúc có cấu trúc, lấy từ nhiều nguồn khơng có lược đồ xác định trước Các hồ liệu tạo để lưu “dữ liệu có giá trị tiềm ẩn” Giá trị liệu hiểu biết sâu sắc thu từ hồ ẩn số thay đổi tùy theo câu hỏi đặt nghiên cứu thực Hồ liệu cho phép người dùng thực loại phân tích khác liệu ngôn ngữ truy vấn sở liệu SQL (Structured Query Language), phân tích liệu lớn, phân tích liệu theo thời gian thực học máy để đưa định tốt Hồ liệu chứa lượng lớn liệu thô dạng nguyên doanh nghiệp xác định việc sử dụng liệu Nền tảng hồ liệu hệ thống lưu trữ chứa tất liệu tổ chức, từ thông tin chất lượng nhà cung cấp, giao dịch khách hàng, đến liệu hiệu suất sản phẩm theo thời gian thực Hơn nữa, hồ liệu cung cấp thơng tin chi tiết hữu ích tùy chỉnh để đáp ứng nhu cầu mong muốn khách hàng Theo Saurabh Gupta & Venkata Giri (2018), hồ liệu có số đặc điểm quan trọng sau: - Khả mở rộng quy mô sở hạ tầng phần cứng - Tính khả dụng: liệu hồ liệu phải xác sẵn sàng cho tất người dùng họ cần xử lý thơng tin - Khả tiếp cận: mơ hình truy cập chia sẻ để đảm bảo liệu truy cập tất ứng dụng - Khả truy xuất nguồn gốc: lưu trữ toàn liệu tổ chức quản lý liệu lưu trữ suốt vòng đời nó, từ định nghĩa, truy cập lưu trữ liệu đến xử lý, phân tích ứng dụng - Các sách quản trị liệu khơng thực thi ràng buộc liệu Đặc điểm hồ liệu cho thấy thực cần thiết hỗ trợ cho chiến lược liệu tổ chức doanh nghiệp, đảm bảo lưu trữ xử lý với đặc tính liệu lớn khối lượng, vận tốc, tính xác thực đa dạng nhằm đáp ứng kỳ vọng khách hàng tồn cầu hóa nhanh chóng kinh tế 2.2 Quy trình lập kế hoạch xây dựng hồ liệu Quy trình lập kế hoạch xây dựng hồ liệu theo bước Hình Quy trình lập kế hoạch xây dựng hồ liệu gồm bước: xác định thách thức tổ chức, xây dựng giải pháp chiến lược, dự đoán tăng trưởng liệu, lên kế hoạch sở hạ tầng, xác định chiến lược hoạt động Sau lập kế hoạch bước cần thực để xây dựng hồ liệu: xác định nguồn liệu người dùng hệ thống, xây dựng chiến lược thu thập liệu, thiết lập chiến lược lưu trữ liệu, xác định mơ hình phân tích liệu, cuối mục đích sử dụng liệu Dựa sở chung quy trình lập kế Số 243- Tháng 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 61 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng khách hàng, lịng trung thành khách hàng Các tổ chức tài ngân hàng dựa quy trình xây dựng hồ liệu mô tả giai đoạn để triển khai thực tế tổ chức Kiến trúc hồ liệu cho mơ hình liệu ngân hàng Trước đưa kiến trúc hồ liệu phục vụ cho lĩnh vực ngân hàng, cần tham chiếu đến kiến trúc hồ liệu chung, viết tập trung Nguồn: Saurabh Gupta & Venkata Giri (2018) tham chiếu đến mơ hình hồ Hình Quy trình lập kế hoạch xây dựng hồ liệu liệu hãng International Business Machines (IBM) hoạch xây dựng hồ liệu, quy trình Ngồi IBM, cịn có số mơ hình hồ triển khai hồ liệu cho ngân hàng liệu nhà cung cấp khác Hewlett đề xuất sau (Indium Software, 2020): Packard Enterprise (HPE), Microsoft - Xây dựng kiến trúc nghiệp vụ mô tả việc Azure Amazon Web Services (AWS)… theo dõi thông tin từ khách hàng/người Theo TechTarget (2022), Microsoft Azure dùng cuối tảng kỹ thuật số AWS nhà cung cấp hồ liệu ngân hàng lớp khác chức dựa đám mây lớn nhất, IBM năng, bảo mật, ứng dụng, liệu sở HPE nhà cung cấp hạ tầng công nghệ lưu trữ lớn giúp doanh - Xây dựng mơ hình liệu cho hồ liệu nghiệp xây dựng hồ liệu chỗ hỗ trợ báo cáo hoạt động, báo cáo tổng IBM cung cấp triển khai hồ liệu thông quan phân tích nâng cao qua sản phẩm Power Spectrum - Phát triển kiến trúc kỹ thuật hồ Scale Các tổ chức doanh nghiệp lựa liệu (hoặc tảng liệu kết hợp) để thiết chọn xây dựng hồ liệu chỗ, lập khuôn khổ tiêu chuẩn cho việc di đám mây kết hợp hai, chuyển liệu IBM với đối tác Cloudera cung cấp - Phát triển đưa khung để quản trị khả phân tích, bảo mật cao quản trị liệu, bảo mật, tích hợp, quản lý liệu chủ liệu hiệu Việc lựa chọn nhà cung siêu liệu cấp phụ thuộc vào loại tảng lưu trữ- - Xây dựng triển khai thành phần chỗ đám mây- loại đường ống liệu, sở liệu, thành liệu quản trị liệu tổ chức phần hồ liệu, báo cáo, mơ hình phân tích Một điểm bật mơ hình báo cáo tổng quan liệu IBM so với mơ hình nhà - Vận hành mơ hình phân tích vào cung cấp khác có tách biệt định chức nghiệp vụ tiếp thị, thu hút nghĩa từ vựng nghiệp vụ hệ thống 62 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 2022 NGƠ THÙY LINH Hình Kiến trúc tham chiếu cho Hồ liệu định nghĩa cấu trúc liên quan sử dụng việc thiết kế hồ liệu Việc sử dụng từ vựng IBM cho phép tất người sử dụng hồ sơ liệu có nhìn thống nghiệp vụ hệ thống Mặt khác tổ chức cần định nghĩa trước lược đồ Nguồn: IBM (2016) liệu mơ hình liệu IBM với định nghĩa rõ ràng cấu trúc liệu đảm bảo tính quán kho lưu trữ hồ liệu (IBM, 2016) Hình cung cấp tóm tắt tương tác thành phần khác mơ hình hồ liệu IBM, nơi lưu trữ xử lý Nguồn: Awadallah and Graham (2011) Hình Hệ thống tồn hồ liệu kho liệu Số 243- Tháng 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 63 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng Bảng Sự khác kho liệu hồ liệu Tiêu chí Hồ liệu Kho liệu Kiểu liệu Tất liệu lưu giữ nguồn cấu Bao gồm liệu trích xuất từ ​​các hệ thống trúc ban đầu Dữ liệu giữ dạng thô, giao dịch Dữ liệu làm chuyển đổi chuyển đổi sẵn sàng để sử dụng Lịch sử Công nghệ liệu lớn sử dụng hồ Không giống liệu lớn, khái niệm kho liệu tương đối liệu sử dụng nhiều thập kỷ Thu thập liệu Tất loại liệu cấu trúc, bán cấu trúc Dữ liệu có cấu trúc xếp chúng khơng cấu trúc dạng ban đầu chúng từ lược đồ xác định cho mục đích xây hệ thống nguồn dựng kho liệu Thời gian Các hồ liệu giữ lại tất liệu Điều Trong trình phát triển kho liệu, thời gian không bao gồm liệu sử đáng kể dành cho việc phân tích dụng mà cịn bao gồm liệu sử dụng nguồn liệu khác tương lai Ngoài ra, liệu lưu giữ lúc để quay ngược thời gian thực phân tích Người dùng Hồ liệu lý tưởng cho người dùng muốn Kho liệu lý tưởng cho người sử dụng phân tích sâu nhà khoa học liệu, cấu trúc tốt, dễ sử dụng dễ hiểu người cần công cụ phân tích tiên tiến với khả mơ hình dự đốn phân tích thống kê Chi phí Chi phí lưu trữ rẻ so với kho liệu Nhiệm vụ Chứa tất liệu kiểu liệu; cho Cung cấp thơng tin chi tiết câu hỏi phép người dùng truy cập liệu trước trình xác định trước cho loại liệu xác chuyển đổi, làm có cấu trúc định trước Thời gian xử lý Thời gian xử lý nhanh Các hồ liệu trao quyền cho người dùng truy cập liệu trước chuyển đổi, làm có cấu trúc Do đó, cho phép người dùng nhận kết họ nhanh so với kho liệu truyền thống Lợi ích Tích hợp loại liệu khác để đưa Cung cấp báo cáo số hiệu suất câu hỏi hoàn tồn Hạn chế Dữ liệu giữ dạng thơ, chuyển đổi Khơng có khả thay đổi liệu sẵn sàng để sử dụng Tương đối đắt Thời gian xử lý chậm Kho liệu cung cấp thông tin chi tiết câu hỏi xác định trước cho loại liệu xác định Vì vậy, thay đổi kho liệu cần thêm thời gian Nguồn: David Taylor (2022) liệu lớn sử dụng tảng Hadoop số hệ quản trị liệu quan hệ truyền thống khác để lưu trữ liệu có cấu trúc Trong kiến trúc tham chiếu Hồ liệu Hình 2, từ vựng nghiệp vụ hệ thống phải sở cho hoạt động tìm kiếm khám phá thực người dùng phận phòng ban tổ chức doanh nghiệp nhà khoa học liệu Mơ hình vật lý thứ nguyên để triển khai cấu trúc cần thiết để xây dựng kho liệu 64 Mơ hình vật lý Hadoop sử dụng tảng công nghệ Hadoop để xử lý làm việc với khối lượng liệu lớn, mơ hình vật lý triển khai Sandbox hỗ trợ cho cơng việc nghiên cứu phân tích liệu nhà khoa học liệu (IBM, 2016) Với liệu có cấu trúc kho liệu lựa chọn phù hợp để xây dựng biết lược đồ liệu Ngược lại, hồ liệu triển khai để tích hợp lượng lớn liệu phi cấu trúc nhật ký, hình ảnh, video Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 2022 NGÔ THÙY LINH Nguồn: Darko Golec (2019) Hình Kiến trúc hồ liệu cho mơ hình liệu ngân hàng tài liệu liệu có cấu trúc Nếu dự kiến liệu tổ chức tăng trưởng đáng kể theo thời gian sinh với tốc độ lớn, tồn dạng khác nhau, tiềm ẩn thơng tin tạo giá trị kinh doanh cao, trường hợp này, kiến trúc hồ liệu thích hợp kiến trúc kho liệu Trong nhiều tổ chức, hai giải pháp tồn (Awadallah and Graham, 2011), thể Hình Sự khác kho liệu hồ liệu trình bày Bảng Bảng mô tả khác kho liệu hồ liệu Khác với kho liệuchỉ lưu trữ liệu có cấu trúc lựa chọn chuẩn hóa cho mục đích cụ thể, cịn hồ liệu tích hợp lưu trữ loại liệu định dạng gốc với quy mơ để phục vụ cho phân tích liệu tương lai Vì việc sử dụng liệu xác định trước nên kiến ​​trúc kho liệu yêu cầu lập kế hoạch cẩn thận: loại liệu truy xuất, công cụ sử dụng để thu thập, tổ chức, xử lý truy xuất liệu Ngược lại hồ liệu lưu trữ liệu thô, phi cấu trúc, bán cấu trúc có cấu trúc mà khơng cần xử lý trước nên giải pháp hồ liệu giải pháp thực tế chi phí thấp Ngồi hồ liệu linh hoạt dễ quản lý, khơng có trở ngại việc giới thiệu kiểu liệu mới, giúp cho tổ chức sử dụng ứng dụng khác dễ dàng Và việc mở rộng quy mô vấn đề hồ liệu nên hồ liệu kiến ​​trúc ưa thích cho liệu lớn (David Taylor, 2022) Như kho liệu hồ liệu có ưu điểm hạn chế, chúng khơng thể thay mà tồn để bổ sung hỗ trợ Dựa sở tham chiếu đến mơ hình Hình Hình 3, Hình thể kiến trúc hồ liệu xây dựng cho mô hình liệu ngân hàng đưa Ngân hàng Thế giới (World Bank) Kiến trúc hồ liệu cho mơ hình liệu ngân hàng trình bày Hình Số 243- Tháng 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 65 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng kiến trúc hồ liệu khả thi chi phí, khả mở rộng, bảo mật cho mơ hình liệu ngân hàng (Darko Golec, 2019) Kiến trúc hồ liệu bao gồm thành phần sau: - Vùng lưu trữ (Archive): Thu thập lưu trữ liệu từ nguồn bên theo lô theo thời gian thực - Vùng quản lý ánh xạ (Master and Map): vùng quản lý liệu chủ vùng quản lý ánh xạ (mapping) liệu - Vùng cục (Units): vùng quản lý liệu địa phương vùng quản lý báo cáo - Vùng tích hợp báo cáo (Intergration and Report): vùng quản lý kho liệu vùng quản lý báo cáo - Vùng mơ hình phân tích (Models and Analytics): vùng sử dụng công cụ kinh doanh thông minh vùng phân tích liệu Một cách tổng quát tồn liệu lớn thu thập, lưu trữ quản trị, ràng buộc vùng tồn (Coexistence zone) với hệ sinh thái đó, chẳng hạn vùng: “Danh mục Quản trị” (Catalog and Governance), Quản lý siêu liệu (Metadata), Dòng liệu, Bảo mật Truy cập Dữ liệu cho nhân viên, người dùng hệ thống truy cập vùng “thụ hưởng phân phát” (Consumption and Delivery) Kiến trúc hồ liệu Hình trình bày phân vùng tồn để lưu trữ, tích hợp liệu từ nhiều nguồn bên bên tổ chức Để đáp ứng điều kho liệu thiết kế để lưu trữ liệu có cấu trúc từ hệ thống nghiệp vụ Như tổ chức tài ngân hàng triển khai thực đồng thời hai giải pháp kho liệu hồ liệu để quản trị liệu tổ chức minh họa kiến trúc hồ liệu Hình 4 Lợi ích thách thức triển khai hồ liệu 66 Một số lợi ích triển khai hồ liệu Thứ nhất, hồ liệu cho phép tổ chức tài ngân hàng lưu trữ truy cập loại liệu khác nhau, giúp cho việc chia sẻ phân tích liệu tồn doanh nghiệp trở nên nhanh chóng, dễ dàng Theo báo cáo Erik Nordmark (2020), tập đoàn ngân hàng Bắc Âu- Baltic ngày có lượng lớn liệu phi cấu trúc sinh từ kênh tương tác liệu có cấu trúc giao dịch khách hàng ghi lại hệ thống nghiệp vụ khiến cho việc lưu trữ, tích hợp phân tích liệu trở nên khó khăn Từ thực trạng này, ngân hàng tiến hành xây dựng triển khai hồ liệu để quản lý khối lượng lớn liệu từ nguồn liệu bên bên ngoài, cung cấp quyền truy cập liệu toàn ngân hàng, đáp ứng số sáng kiến chiến lược ​​kinh doanh ngân hàng Ngồi ra, việc phân tích liệu hồ liệu hỗ trợ xử lý kiện theo thời gian thực Một số kết đạt ngân hàng Baltic triển khai hồ liệu sử dụng kỹ thuật phân tích liệu dựa trí tuệ nhân tạo là: + Chống rửa tiền phân loại rủi ro + Dự đốn dịng tiền phân nhóm hành vi tài + Thực mơ hình chuyển nhượng chấp hồ liệu + Các kế hoạch tốt để quản lý quan hệ khách hàng Cho đến nay, ngân hàng Baltic trải nghiệm số khả năng, lợi từ việc lưu trữ phân tích liệu hồ liệu Nhờ đó, ngân hàng hiểu rõ hành vi mua hàng khách hàng khai thác liệu giao dịch họ để đưa “hành động tốt tiếp theo” phù hợp với nhu cầu khách hàng vào thời điểm Cùng với kỹ thuật phân tích liệu dựa trí tuệ nhân tạo, ngân hàng dự đốn rủi ro khách hàng chấm dứt Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 2022 NGÔ THÙY LINH hợp đồng chấp họ vòng hai tháng (Erik Nordmark, 2020) Như nhận định hồ liệu giúp cho tổ chức tài ngân hàng truy cập phân tích liệu tồn tổ chức cách dễ dàng Điều thể rõ qua báo cáo Research and Markets (2021), số ngân hàng tăng cường hồ liệu để tích hợp liệu nhiều lĩnh vực khác nhằm tạo sở liệu trung tâm Tập đoàn Ngân hàng Úc New Zealand (ANZ) thực dự án tổng hợp tất kho liệu lĩnh vực để tạo hồ liệu trung tâm cho hoạt động ngân hàng Sự gia tăng toán kỹ thuật số người tiêu dùng thúc đẩy lượng liệu lưu trữ với ngân hàng giao dịch Do đó, hội cho phân tích liệu lớn ngày tăng Hơn nữa, Mox Bank Limited (Mox), ngân hàng Hồng Kông, đăng ký 35.000 khách hàng tháng đầu tiên, sử dụng giải pháp từ AWS để thu thập, lưu trữ, xử lý an toàn phân tích liệu giao dịch, tận dụng liệu thơng tin chi tiết để xây dựng trải nghiệm ngân hàng lấy khách hàng làm trung tâm sử dụng dịch vụ từ Amazon dựa hồ liệu Việc triển khai hồ liệu lĩnh vực ngân hàng phá vỡ số lượng thông tin silo (thông tin thực thể lưu trữ nhiều hệ thống khác lại không giống nhau) Lưu trữ liệu sở hạ tầng quản lý tập trung sở hạ tầng hồ liệu dựa Apache Hadoop giúp cắt giảm số lượng silo thông tin tổ chức, giúp người dùng tồn tổ chức truy cập có nhìn thống liệu (Research and Markets, 2021) Ngân hàng Quốc gia Canada tổ chức dịch vụ tài hàng đầu Canada tiếp cận liệu lớn hồ liệu vịng chưa đầy tuần Nhóm cơng cụ phái sinh vốn chủ sở hữu toàn cầu (GED- Global Equity Derivatives Group) ngân hàng quốc gia Canada đơn vị đầu việc cung cấp giải pháp giao dịch chứng khoán nhằm quản lý chứng khoán giao dịch trao đổi cổ phiếu, quỹ, hợp đồng tương lai GED thu thập xử lý khối lượng liệu tài thị trường chứng khốn phát triển nhanh chóng, chẳng hạn thơng tin lịch sử thương mại báo giá Trước đây, tổ chức gặp phải khó khăn việc mở rộng tảng phân tích liệu sử dụng mơi trường cơng nghệ thông tin chỗ, môi trường phần cứng truyền thống việc lưu trữ liệu có cấu trúc hệ quản trị sở liệu quan hệ theo kịp tốc độ tăng trưởng liệu GED Ngân hàng cần mơi trường có khả mở rộng để phân tích liệu hiệu quả, đưa thông tin chi tiết có ý nghĩa GED tìm kiếm cách hiệu để xử lý liệu tài chính, ngân hàng cần xử lý phân tích liệu phi cấu trúc liệu có cấu trúc, chẳng hạn trrường hợp có số lượng lớn tệp nhật ký cần phân tích dựa liệu thị trường cập nhật Từ thực trạng này, GED tiến hành triển khai xây dựng hồ liệu vòng chưa đầy tuần Họ sử dụng TickVault đám mây AWS, dễ dàng xử lý phân tích hàng trăm terabyte liệu thương mại liệu báo giá lịch sử, bên cạnh xem xét liệu từ 10 năm trước cần thiết Các nhà phân tích kinh doanh GED tiến hành phân tích giao dịch thương mại nhanh nhiều so với trước đây: Các quy trình thao tác liệu nhiều ngày phút hồ liệu Hơn nữa, việc truy vấn liệu lịch sử vài đồng hồ Giờ đây, GED phục vụ khách hàng Số 243- Tháng 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 67 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng tốt Điều thể rõ qua phát biểu Pascal Bergeron, Giám đốc giao dịch thuật toán (Director of Algorithmic Trading) Ngân hàng Quốc gia Canada: “Chúng tơi có khả phân tích sau giao dịch nhanh tốt cách sử dụng TickVault AWS Nhờ đó, chúng tơi cải thiện tối ưu hóa hoạt động giao dịch tạo thêm doanh thu cho Ngân hàng Quốc gia Canada Chúng tơi sử dụng liệu để xem cách chúng tơi giao dịch với giá tốt cho khách hàng mình” (AWS, 2016) Từ minh chứng khẳng định rằng, lợi ích triển khai hồ liệu tổ chức tài ngân hàng liệu lưu trữ tập trung nơi, từ giúp cho ngân hàng truy cập liệu khác theo thời gian, kể truy vấn liệu lịch sử, đảm bảo phận nghiệp vụ có nhìn chung thống liệu khắc phục tượng thơng tin silo Việc chia sẻ liệu trở nên dễ dàng kết hợp với ứng dụng trí tuệ nhân tạo để phân tích, khai thác liệu hồ liệu giúp cho ngân hàng thu hút giữ chân khách hàng, phát hiện, ngăn chặn rủi ro giao dịch khách hàng hiệu trước tổ chức triển khai hồ liệu Lợi ích thứ hai mà hồ liệu mang lại cung cấp nhìn tổng quan khách hàng, tăng cường khả dự đoán xu hướng tài cải thiện cá nhân hóa trải nghiệm khách hàng Các tổ chức dịch vụ tài triển khai hồ liệu sử dụng nhiều nguồn liệu khác để có nhìn tồn diện khách hàng, tạo trải nghiệm khách hàng cá nhân hóa hỗ trợ chương trình giữ chân khách hàng, chẳng hạn chương trình khách hàng thân thiết Một hồ liệu 68 quản lý tốt cho phép tổ chức tập hợp tất liệu vào tảng thống cung cấp cho nhà tiếp thị quyền truy cập có kiểm sốt vào liệu cần thiết cho việc nhắm đến khách hàng mục tiêu Nền tảng trực quan hóa tương tác cung cấp góc nhìn khác liệu cho phép nhà tiếp thị lập hồ sơ khách hàng để phân tích (Zaloni, 2016) Cũng theo báo cáo Research and Markets (2021), 60% tổ chức tài Hoa Kỳ tin phân tích liệu lớn mang lại lợi cạnh tranh đáng kể so với đối thủ 90% công ty tin sáng kiến ​​dữ liệu lớn xác định hội thành công tương lai Phát ngăn chặn gian lận giao dịch khách hàng ngân hàng lợi ích thứ ba mà hồ liệu đem lại cho tổ chức tài ngân hàng Gian lận giao dịch, gian lận danh tính rửa tiền mối quan tâm lớn tổ chức dịch vụ tài chính, ngân hàng Một lý nhiều kẻ gian lận thao túng việc toán nhanh mức mà nhà điều tra kiểm tra Một hồ liệu quản lý tốt cho phép nhập liệu theo thời gian thực phát gian lận tự động với thuật toán phát dạng gian lận tiềm ẩn khối lượng liệu khổng lồ Tạo danh mục liệu tập trung cung cấp giao diện người dùng trực quan để tìm kiếm phân tích tất liệu hỗ trợ nhân viên nhanh chóng thực phân tích liệu tự phục vụ thông qua giao diện người dùng trực quan (Zaloni, 2016) Hơn nữa, hiệu thu hồi nợ ngân hàng cải thiện đáng kể cách phân tích hiệu thu hồi dựa liệu giao dịch khách hàng lưu trữ hồ liệu, bên cạnh việc phân nhóm khách hàng nhằm xác định ưu tiên khách hàng liên hệ sớm giúp tổ chức tài ngân hàng nâng cao hiệu thu nợ Bên cạnh đó, thị trường khu vực Bắc Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 2022 NGÔ THÙY LINH Mỹ thúc đẩy yếu tố việc ngày nhiều liệu tạo từ lượng nhấp chuột, nhật ký máy chủ, liệu người đăng ký, liệu hệ thống quản lý quan hệ khách hàng (CRM- Customer Relationship Management) hệ thống hoạch định nguồn lực doanh nghiệp (ERPEnterprise Resource Planning), dự kiến ​​sẽ thúc đẩy tăng trưởng thị trường với nhà cung cấp đưa giải pháp dịch vụ hồ liệu khác Ngoài ra, tỷ lệ áp dụng trí tuệ nhân tạo học máy cao khu vực dự kiến ​​sẽ thúc đẩy tăng trưởng thị trường hồ liệu (Research and Markets, 2021) Như vậy, khảo sát Research and Markets (2021) cho thấy thị trường hồ liệu năm gần dự kiến tăng đáng kể lĩnh vực tài ngân hàng Đặc biệt khu vực Bắc Mỹ dự kiến ​​sẽ triển khai giải pháp hồ liệu mức cao Thách thức triển khai hồ liệu Thách thức gặp phải triển khai hồ liệu thách thức công nghệ, thách thức quy trình, thách thức nhân (Melissa Coates, 2017) - Về cơng nghệ, số khó khăn liên quan đến thực thi, phục hồi liệu, quản lý thay đổi, kiến trúc đa tầng phức tạp, khả mở rộng lưu trữ chưa rõ ràng, làm việc với liệu bị lỗi, sai… Các hồ liệu lưu trữ lượng lớn liệu Vì vậy, tổ chức cần phải có sách quản lý liệu tốt Nếu không, hồ liệu biến thành “đầm lầy liệu” khơng thể sử dụng Các tổ chức cần cập nhật liệu thực thao tác hợp nhất, xóa liệu cần thiết, liệu có giá trị khơng bị lãng phí (Gulbahar Karatas, 2021) - Thách thức quy trình bảo mật quản trị liệu, chất lượng liệu… Đôi liệu yêu cầu bảo mật lưu trữ hồ liệu Trong trường hợp này, thách thức lớn lưu trữ liệu hồ mà khơng có biện pháp bảo mật giám sát (Gulbahar Karatas, 2021) Không vấn đề bảo mật liệu mà vấn đề chất lượng liệu hồ liệu cần quan tâm Các hồ liệu thu thập liệu từ nguồn khác tích hợp vào hệ thống nhất, q trình gây khó khăn cho việc kiểm tra chất lượng liệu Hơn quyền sở hữu quản lý liệu không xác định rõ ràng cho lĩnh vực chủ đề liệu nguồn liệu ban đầu chất lượng liệu bị ảnh hưởng Do đó, chất lượng liệu khơng đảm bảo khơng xác thơng tin phân tích khơng hỗ trợ cho việc kinh doanh tổ chức, gây niềm tin nhân viên, người dùng vào hồ liệu, chí vào lãnh đạo nhà quản lý Để giải vấn đề này, cần có cộng tác nhiều nhóm quản trị quản lý liệu để liệu hồ liệu tổ chức hiệu Ngồi cần có sách hành động cụ thể để đảm bảo cải thiện chất lượng liệu tổ chức (Michael Dixon, 2020) - Về mặt nhân có số khó khăn nỗ lực khơng cần thiết liên quan đến việc chuẩn hóa xây dựng lược đồ liệu, kỳ vọng nhà phân tích tự thực thao tác chuẩn bị, tích hợp, làm sạch, phân tích liệu Mặc dù hồ liệu cung cấp quyền truy cập cho người tổ chức việc tham gia vào hồ liệu thực tế tiếp cận Vì hồ liệu lưu trữ liệu phi cấu trúc, nên người dùng khơng có chun mơn cơng nghệ thơng tin khơng dễ dàng phân tích cú pháp truy vấn liệu (Gulbahar Karatas, 2021) Số 243- Tháng 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 69 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng Như bên cạnh lợi ích mà hồ liệu mang lại tồn số thách thức vận hành triển khai hồ liệu Khắc phục thách thức địi hỏi tổ chức phải đưa giải pháp kỹ thuật tồn diện phải điều chỉnh số quy định nghiệp vụ kinh doanh, dẫn đến chuyển đổi văn hóa làm việc cần, để nhận giá trị, lợi ích tối đa từ hồ liệu Kết luận số khuyến nghị cho Việt Nam Dữ liệu chìa khóa tạo thông tin chi tiết giúp tổ chức thiết kế sản phẩm, dịch vụ chiến lược tốt hơn, phù hợp với nhu cầu khách hàng Tuy nhiên, thân liệu đặt thách thức thực tế liệu tồn nhiều định dạng khác dạng có cấu trúc, phi cấu trúc, bán cấu trúc, dạng văn bản, hình ảnh, video định dạng khác khiến cho việc lưu trữ liệu theo phương thức cũ gặp khó khăn Cơ sở liệu truyền thống không trang bị để xử lý lượng lớn, đa dạng liệu Do đó, ngồi kho liệu để lưu trữ liệu có cấu trúc liệu chuyển đổi, tổ chức tài ngân hàng cần có hồ liệu để lưu trữ quản lý liệu phi cấu trúc liệu thô tất định dạng khác Bài báo trình bày tổng quan hồ liệu, phân tích cần thiết việc triển khai hồ liệu tổ chức ngân hàng nay, quy trình lập kế hoạch xây dựng, kiến trúc hồ liệu cho mơ hình liệu ngân hàng cuối thảo luận lợi ích thách thức triển khai hồ liệu Từ phân tích này, tổ chức tài ngân hàng tiến hành lên kế hoạch phát triển dự án hồ liệu cho tổ chức Tại Việt Nam, mợt khảo sát vào tháng 9/2020 Ngân hàng Nhà nước Việt Nam (NHNN) cũng cho thấy, 50% ngân hàng xây dựng kho liệu tập trung, 27% xây dựng hồ liệu để thu thập liệu thô đến từ điểm tiếp xúc số, khoảng 50% ngân hàng ứng dụng phân tích liệu để tối ưu hóa quy trình vận hành, tăng hiệu hoạt động, quản trị rủi ro Tuy nhiên, trình xây dựng hệ thống quản trị liệu gặp phải nhiều khó khăn thách thức như: có nhiều loại liệu hệ thống; logic nghiệp vụ phức tạp; nguồn nhân lực chưa đáp ứng yêu cầu, khuôn khổ pháp lý hỗ trợ công tác khai thác liệu lớn, bảo đảm an toàn, bảo mật liệu cho khách hàng (Hồng Anh, 2020) Một số khuyến nghị cho tổ chức tài ngân hàng Việt Nam tiến hành triển khai hồ liệu là: thứ nhất, tổ chức cần có chiến lược sách quản trị liệu nội liệu bên ngồi, liệu có cấu trúc, phi cấu trúc để đảm bảo việc tích hợp quản trị liệu hồ liệu xác hiệu quả; thứ hai, tổ chức nên đưa sách đẩy mạnh việc khám phá thông tin tiềm ẩn hồ liệu cách sử dụng kỹ thuật học máy, học sâu trí tuệ nhân tạo để đổi sáng tạo kinh doanh Trong nghiên cứu này, vấn đề bảo mật liệu quản trị liệu hồ liệu chưa đề cập tới cách rõ ràng chi tiết, vừa hạn chế nghiên cứu vừa hướng nghiên cứu tác giả tìm hiểu sâu hồ liệu ■ Tài liệu tham khảo Awadallah and Graham, 2011, “Hadoop and the Data Warehouse: When to Use Which”, [Online: marketing.teradata com/When-to-Use-Hadoop] 70 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 2022 NGÔ THÙY LINH AWS, 2016, “National Bank of Canada Case Study”, Amazon [Online: https://aws.amazon.com/vi/partners/featured/ financial-services/data-lakes-analytics/] Darko Golec, 2019, “Data Lake Architecture for a Banking Data Model”, ENTRENOVA [Online: https://www thecognizant.com/blog/case-a-banks-new-data-lake-is-built-for-business/] David Taylor, 2022, “Data Lake vs Data Warehouse: What’s the Difference?”, Guru99 Erik Nordmark, 2020, “Case: A Bank’s New Data Lake is Built for Business”, Cognizant Sweden IBM, 2016, “IBM Industry Model support for a data lake architecture”, ©IBM Corporation IDC, 2021, “Data Creation and Replication Will Grow at a Faster Rate than Installed Storage Capacity, According to the IDC Global DataSphere and StorageSphere Forecasts”, IDC Corporation Indium Software, 2020, “Data Lakes for Digital Banks”, ©Indium Software DIXON J 2010, “Pentaho, Hadoop, and Data Lake”, [Online: https://jamesdixon.wordpress.com/2010/10/14/pentahohadoop-and-data-lakes/] Geoffrey Keating, 2021, “Data Lakes: What They Are and Why Companies Use Them”, [Online: https://segment.com/ blog/data-lakes/] Gulbahar Karatas, 2021, “Data Lake: What it is, What are the Benefits& Challenges”, Aimultiple Hồng Anh, 2020, “Quản lý liệu thông minh lĩnh vực ngân hàng, tài chính”, [Online: https://nhandan.vn/tin-tuckinh-te/quan-ly-du-lieu-thong-minh-trong-linh-vuc-ngan-hang-tai-chinh-618516/] Michael Lock, 2017, “ANGLING FOR INSIGHT IN TODAY’S DATA LAKE”, ABERDEEN Michael Dixon, 2020, “The challenges of using data lakes in big data management”, Selerity Research And Markets, 2021, Data Lakes Market - Growth, Trends, COVID-19 Impact, and Forecasts (2021 - 2026) , [Online: https://www.researchandmarkets.com/reports/4602227/data-lakes-market-growth-trends-covid19#rela2-5562494 ] Research And Markets, 2022, “Data Lakes Market: Global Industry Trends, Share, Size, Growth, Opportunity and Forecast 2022-2027”, [Online: https://www.researchandmarkets.com/reports/5562494/data-lakes-market-globalindustry-trends-share#relc0-4602227] Saurabh Gupta & Venkata Giri, 2018, “Practical Enterprise Data Lake Insights”, Apress Melissa Coates, 2017, Designing a Modern Data Warehouse + Data Lake, SentryOne TechTarget, 2022, “Explore top data lake providers for substantial storage use”, [Online; https://www.techtarget.com/ searchstorage/tip/Explore-top-data-lake-providers-for-substantial-storage-use] Zaloni, 2016, “Data Lake 360° Financial Services”, Zaloni’s Arena software Số 243- Tháng 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 71 .. .Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng trình triển khai hồ liệu tổ chức tài ngân hàng nêu báo Từ khóa: kiến trúc hồ liệu, tổ chức tài ngân hàng, hồ liệu, ... 24 3- Tháng 202 2- Tạp chí Khoa học & Đào tạo Ngân hàng 61 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng khách hàng, lòng trung thành khách hàng Các tổ chức tài ngân hàng. .. học & Đào tạo Ngân hàng 65 Kiến trúc hồ liệu: lưu trữ phân tích liệu lớn tổ chức tài chính- ngân hàng kiến trúc hồ liệu khả thi chi phí, khả mở rộng, bảo mật cho mơ hình liệu ngân hàng (Darko Golec,

Ngày đăng: 27/09/2022, 11:39

HÌNH ẢNH LIÊN QUAN

- Xây dựng mơ hình dữ liệu cho hồ dữ liệu sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng  quan cũng như phân tích nâng cao. - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
y dựng mơ hình dữ liệu cho hồ dữ liệu sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng quan cũng như phân tích nâng cao (Trang 4)
liệu thì mơ hình dữ liệu IBM với các định nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm  bảo tính nhất quán của các kho được lưu  trữ trong hồ dữ liệu (IBM, 2016) - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
li ệu thì mơ hình dữ liệu IBM với các định nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm bảo tính nhất quán của các kho được lưu trữ trong hồ dữ liệu (IBM, 2016) (Trang 5)
Hình 2 cung cấp tóm tắt về sự tương tác chính của các thành phần khác nhau trong  mơ hình hồ dữ liệu IBM, nơi lưu trữ và xử lý  - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
Hình 2 cung cấp tóm tắt về sự tương tác chính của các thành phần khác nhau trong mơ hình hồ dữ liệu IBM, nơi lưu trữ và xử lý (Trang 5)
Mơ hình vật lý Hadoop sử dụng nền tảng công nghệ Hadoop để xử lý và làm việc với  khối lượng dữ liệu lớn, mơ hình vật lý này  triển  khai  Sandbox  hỗ  trợ  cho  công  việc  nghiên cứu và phân tích dữ liệu của các nhà  khoa học dữ liệu (IBM, 2016) - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
h ình vật lý Hadoop sử dụng nền tảng công nghệ Hadoop để xử lý và làm việc với khối lượng dữ liệu lớn, mơ hình vật lý này triển khai Sandbox hỗ trợ cho công việc nghiên cứu và phân tích dữ liệu của các nhà khoa học dữ liệu (IBM, 2016) (Trang 6)
Bảng 1 mô tả sự khác nhau giữa kho dữ liệu và hồ dữ liệu. Khác với kho dữ liệu-  chỉ lưu trữ dữ liệu có cấu trúc đã được lựa  chọn  và  chuẩn  hóa  cho  mục  đích  cụ  thể,  còn hồ dữ liệu có thể tích hợp và lưu trữ  mọi loại dữ liệu ở định dạng gốc với b - Kiến trúc hồ dữ liệu: Lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính - ngân hàng
Bảng 1 mô tả sự khác nhau giữa kho dữ liệu và hồ dữ liệu. Khác với kho dữ liệu- chỉ lưu trữ dữ liệu có cấu trúc đã được lựa chọn và chuẩn hóa cho mục đích cụ thể, còn hồ dữ liệu có thể tích hợp và lưu trữ mọi loại dữ liệu ở định dạng gốc với b (Trang 7)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN