Tích hợp Apache Hadoop vào trong kiến trúc hệ thống EDW

Một phần của tài liệu Nghiên cứu và đánh giá mức độ sẵn sàng trong triển khai ứng dụng big data trong hoạt động quản trị quan hệ khách hàng tại NH TMCP công thương việt nam khoá luận tốt nghiệp 331 (Trang 66)

CHƯƠNG I TỔNG QUAN

2. Tích hợp Apache Hadoop vào trong kiến trúc hệ thống EDW

Thay đổi đề xuất thứ hai trong “hiện đại hóa” kiến trúc hệ thống EDW của ngân hàng TMCP Công Thương Việt Nam là việc tích hợp thêm nền tảng công nghệ Apache Hadoop, hỗ trợ việc thu thập và xử lý các nguồn dữ liệu bán cấu trúc và phi cấu trúc trong thời gian thực, là công cụ tương tác và thực hiện chuyển đổi dữ liệu giữa công nghệ Data Lake và hệ thống EDW.

2.1. Tổng quan kiến thức cơ bản về Apache Hadoop

Apache Hadoop là framework mã nguồn mở miễn phí, được viết bằng java, cho phép xử lý phân tán các tập dữ liệu lớn trên các cụm máy tính thơng qua mơ hình lập trình đơn giản, có thể mở rộng quy mô từ một máy chủ đơn sang hàng nghìn máy tính khác theo thuật toán chuyên biệt. Apache Hadoop hiện được xem là nền tảng công nghệ phổ biến nhất cho việc thu thập và xử lý các nguồn dữ liệu Big Data.

hiệu suất cao. HDFS phân tách dữ liệu lớn thành các mảnh nhỏ hơn, sau đó thực hiện phân tán và sao chép nhiều lần trên các node khác nhau.

S MapReduce: là mơ hình lập trình xử lý tập dữ liệu lớn song song. MapReduce

gồm thủ tục Map() và Reduce(). Thủ tục Map() lọc và phân loại dữ liệu, còn thủ tục Reduce() tiến hành tổng hợp dữ liệu.

S Hive: là hạ tầng kho dữ liệu, cung cấp khả năng tổng hợp, truy vấn và phân tích dữ liệu, hỗ trợ truy xuất tương tự ngôn ngữ SQL với dữ liệu có cấu trúc. S Pig - Pig Latin: là nền tảng tạo các chương trình, hỗ trợ thu thập và xử lý dữ

liệu đầu vào với một chuỗi các biến đổi để tạo ra kết quả mong muốn. S Sqoop (SQL to Hadoop): là cơng cụ dùng trích xuất dữ liệu từ non-Hadoop

(RDBMS) sang Hadoop.

S Zookeeper: là dịch vụ tập trung để duy trì thơng tin cấu hình, đặt tên, cung cấp sự đồng bộ phân tán, và cung cấp các dịch vụ nhóm.

S Flume: là khn khổ để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu đăng nhập hoặc các tệp văn bản vào và ra khỏi Hadoop.

S Hbase: là cơ sở dữ liệu phân tán, sử dụng HDFS để lưu trữ cơ bản.

S Oozie: là một hệ thống công việc/phối hợp để quản lý công việc Hadoop.

2.2. Thiết kế kiến trúc hệ thống EDW tích hợp Apache Hadoop

Apache Hadoop được đề xuất tích hợp vào trong kiến trúc hệ thống EDW với mục đích hỗ trợ phân tích và xử lý song song những dữ liệu đa cấu trúc đến từ nhiều nguồn trong khung thời gian thực.

Hình 2-1 Hệ sinh thái Apache Hadoop [63]

Một hệ sinh thái Apache Hadoop bao gồm nhiều thành phần:

J HDFS (Hadoop Distributed File System - Hệ xử lý phân tán): là hệ thống lưu trữ chính, cung cấp khả năng truy cập dữ liệu lưu trữ trên cụm Hadoop với

Trần Phương Lan - K17HTTTB 48

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp

Báo cáo Phân tích nâng cao xử lý trong thời gian thực

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp

Kết hợp với nền tảng công nghệ Data Lake, hệ sinh thái Apache Hadoop cung cấp các công cụ tương tác, thực hiện chuyển đổi và truy vấn giữa các lớp dữ liệu trong kiến trúc hệ thống EDW.

Để thực hiện thao tác với các nguồn dữ liệu đa định dạng và không cố định trong Data Lake, phương pháp trích xuất dữ liệu truyền thống ETL khơng đủ khả năng thực hiện kết nối giữa nguồn dữ liệu lưu trữ với các hệ thống thông tin nghiệp vụ khác trong nội bộ ngân hàng. Những nguồn dữ liệu mới yêu cầu được phân tích và xử lý dựa trên các công cụ và kỹ thuật đặc biệt. Do vậy, nền tảng công nghệ Apache Hadoop được đề xuất với khả năng lưu trữ và xử lý dữ liệu phân tán thơng qua hệ thống HDFS và các quy trình MapReduce. Đặc biệt, ngơn ngữ lập trình NoSQL được cung cấp hỗ trợ trong việc phân tích và truy vấn các nguồn dữ liệu phi cấu trúc hoặc khơng có cấu trúc rõ ràng.

Các cơng cụ và thuật tốn phân tích nâng cao như Machine Learning, AI, Association Rule Mining hay Pattern Mining... được hỗ trợ trong đưa ra các phân tích dự đốn và mơ phỏng những kịch bản nghiệp vụ có thể xảy ra thơng qua khả năng xử lý dữ liệu trong thời gian thực.

2. Tích hợp Hybrid Cloud Computing vào trong kiến trúc hệ thống EDW

Thay đổi đề xuất cuối cùng trong “hiện đại hóa” kiến trúc hệ thống EDW của ngân hàng TMCP Cơng Thương Việt Nam là việc tích hợp thêm nền tảng công nghệ Hybrid Cloud Computing, hỗ trợ việc lưu trữ và xử lý các nguồn dữ liệu thông qua hạ tầng mạng

lưới internet trong thời gian thực, giảm thiểu gánh nặng về dung lượng lưu trữ và khả năng đồng bộ hóa các nguồn dữ liệu. Các vấn đề bảo mật cũng được đảm bảo do có sự kết hợp giữa lưu trữ các nguồn thông tin nhạy cảm trên hạ tầng đặt tại ngân hàng và một

số nguồn thông tin khác trên nền tảng Cloud.

2.1. Tổng quan kiến thức cơ bản về Cloud Computing

Cloud Computing, là mơ hình điện tốn sử dụng các cơng nghệ máy tính và phát triển dựa vào mạng Internet, tất cả khả năng liên quan đến công nghệ thông tin đều được

cung cấp dưới dạng các "dịch vụ", cho phép người sử dụng truy cập dịch vụ công nghệ từ một nhà cung cấp trên nền tảng Cloud mà khơng cần phải có các kiến thức, kinh nghiệm hay hiểu biết về cơ sở hạ tầng phục vụ cơng nghệ đó.

Về cơ bản, Cloud Computing chia thành ba loại:

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp

Hình 3-1 Phân loại hạ tầng dịch vụ Cloud Computing (Nguồn: Antoanthongtin)

(1) Public Cloud

Thực hiện lưu trữ dữ liệu người dùng trên nền tảng internet và ủy quyền bảo mật cho nhà cung cấp dịch vụ quản lý. Những thông tin thu thập được của khách hàng, từ tất

cả các nguồn công khai như trên các trang mạng xã hội, sẽ được lấy về và lưu trữ tại Public Cloud trước khi xử lý và đưa vào thông tin khách hàng trên Data Mart đặt tại nền

tảng on-premise của ngân hàng Công Thương.

(2) Private Cloud

Thực hiện lưu trữ dữ liệu nội bộ hoặc được ủy quyền quản lý bởi một bên thứ ba, có mức độ riêng tư và bảo mật cao. Là hạ tầng nền tảng lưu trữ trên internet chỉ hoạt động cho một tổ chức, ngân hàng duy nhất. Giống như Data Mart on-premise, ngân hàng

Công Thương được bảo đảm độ an tồn bảo mật thơng tin, dữ liệu cao hơn cho cả ngân hàng và khách hàng của ngân hàng.

(3) Hybrid Cloud

Ket hợp lưu trữ trên cả Public Cloud và Private Cloud. Là một thành phần của hai hoặc nhiều nền tảng Cloud, Hybrid vẫn giữ nguyên các thực thể duy nhất nhưng liên kết

chúng với nhau, cung cấp các lợi ích của nhiều mơ hình triển khai. Bằng cách sử dụng kiến trúc Hybrid, ngân hàng có thể xử lý các lỗi, kết hợp với khả năng sử dụng tại chỗ ngay lập tức mà không cần phụ thuộc vào kết nối internet.

3.2. Thiết kế kiến trúc hệ thống EDW tích hợp Hybrid Cloud Computing

Hạ tầng Hybrid Cloud Computing được đề xuất tích hợp vào trong kiến trúc hệ thống EDW với mục đích hỗ trợ việc triển khai ứng dụng hệ sinh thái Apache Hadoop, giảm tải các nguồn lực và khoản chi phí đầu tư trong mở rộng và duy trì dung lượng bộ

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp

nhớ dữ liệu cho hạ tầng cơ sở on-premise của ngân hàng. Tăng tốc độ truy vấn và đồng bộ hóa các nguồn dữ liệu trên toàn bộ hệ thống, đồng thời vẫn đảm bảo an tồn bảo mật

cho các nguồn thơng tin nhạy cảm do có sự phân chia lưu trữ trên hai hạ tầng Private Cloud và Public Cloud.

Hình 3-2 Đề xuất tích hợp nền tảng Hybrid Cloud vào kiến trúc hệ thống EDW

Cụ thể, một số nguồn dữ liệu nhạy cảm và yêu cầu sự bảo mật cao trong hệ thống ngân hàng như dữ liệu lịch sử giao dịch, thông tin dịch vụ tài chính, hệ thống quản lý doanh thu bán hàng và cung cấp các chương trình marketing đến khách hàng, nguồn dữ liệu về khả năng thanh khoản, các thơng tin dự đốn thị trường, các vấn đề trong bảo mật tín dụng và xác thực đối tượng khách hang... đều được lưu trữ trên nền tảng Private Cloud để hạn chế tối đa nguy cơ rị rỉ thơng tin và nâng cao mức độ bảo mật dữ liệu.

Các nguồn thông tin thu thập được từ một số nguồn dịch vụ cộng đồng như các trang

mạng xã hội, thông tin nhân khẩu học. được tiến hành phân tích xử lý trên nền tảng Public Cloud trước khi quyết định lưu trữ vào trong các mơ hình cơ sở dữ liệu Dart Mart

của ngân hàng. Các quy trình thu thập, phân tích và xử lý dữ liệu được thực hiện riêng biệt, chia thành các khối dữ liệu riêng lẻ và được xử lý trong HBASE, HIVE và HDFS. Kho dữ liệu cho CRM được tổ chức thành hai trạm dữ liệu. Dữ liệu phi cấu trúc từ các mạng xã hội được lưu trữ trong cơ sở dữ liệu Apache Public Hive. Sau khi đã được tích hợp với những dữ liệu nhạy cảm và riêng tư như hồ sơ khách hàng hoặc hồ sơ giao dịch

bảo mật, các nguồn dữ liệu này sẽ được tiến hành lưu trữ vào trong cơ sở dữ liệu Apache

Private Hive.

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp

4. Đề xuất tái cấu trúc hệ thống EDW tích hợp nền tảng cơng nghệ Big Data

Ket hợp cả ba nền tảng công nghệ: Data Lake, Apache Hadoop và Hybrid Cloud Computing, khóa luận đưa ra đề xuất trong thiết kế và tái cấu trúc hệ thống EDW giống như hình sau:

Hình 4-1 Đề xuất tái cấu trúc hệ thống EDW

Theo như kiến trúc hệ thống EDW đề xuất, nguồn dữ liệu được tích hợp vào trong hệ thống ngân hàng bao gồm cả nguồn có cấu trúc, bán cấu trúc và khơng cấu trúc. Các nguồn dữ liệu có cấu trúc đến từ các hệ thống nội bộ trong ngân hàng được trích xuất và

chuyển đổi vào Data Lake. Các nguồn dữ liệu đa cấu trúc phát sinh bên ngoài ngân hàng

được thu thập và xử lý trên nền tảng Public Cloud. Sau khi xác định giá trị và mức độ tin cậy, dữ liệu được chuyển tiếp vào Private Cloud và tích hợp với các nguồn dữ liệu lưu trữ trong Data Lake dựa trên nền tảng công nghệ Apache Hadoop. Từ đó dữ liệu được đưa vào lưu trữ trong Data Warehouse hoặc được trực tiếp truy xuất sử dụng cho mục đích tạo các báo cáo phân tích và thơng tin dự đoán hành vi khách hàng cũng như xu hướng thị trường.

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp

KẾT LUẬN CHƯƠNG III

Trong chương III khóa luận đã được ra được các đề xuất trong tái cấu trúc hệ thống EDW của ngân hàng TMCP Công Thương Việt Nam ứng dụng các nền tảng công nghệ Big Data như Data Lake, Apache Hadoop và Hybrid Cloud trong khai phá tri thức ẩn hỗ trợ hoạt động quản trị quan hệ khách hàng tại ngân hàng.

Kiến trúc hệ thống EDW đề xuất dựa trên ý tưởng tích hợp đầy đủ các nguồn dữ liệu đa cấu trúc, kết hợp với các cơng cụ có khả năng xử lý phân tán và đồng bộ các luồng dữ liệu lưu động trong thời gian thực. Nền tảng Hybrid Cloud Computing được đưa vào đề xuất với mục đích tăng cường hiệu suất xử lý dữ liệu đồng thời vẫn đảm bảo các tiêu chí bảo mật dữ liệu của ngân hàng.

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Công Thương Việt Nam Khóa luận tốt nghiệp

KẾT LUẬN

Sau một khoảng thời gian dài nghiên cứu, khóa luận đã đạt được những thành tựu nhất định, song song với đó là một số điểm hạn chế cần giải quyết trong tương lai.

Những đóng góp của đề tài

Khép lại quá trình nghiên cứu, đề tài “Nghiên cứu và đánh giá mức độ sẵn sàng triển

khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Công Thương Việt Nam” đã đạt được những kết quả sau:

Thứ nhất, về mặt lý thuyết, đề tài đã làm rõ cơ sở lý luận liên quan tới nền tảng công

nghệ Big Data, ứng dụng của Big Data trong khai phá tri thức ẩn hỗ trợ hoạt động quản trị quan hệ khách hàng trong ngành tài chính - ngân hàng và nền tảng lý thuyết các mơ hình năng lực trưởng thành BDMM.

Thứ hai, đề tài nghiên cứu đã xây dựng được mơ hình đánh giá năng lực trưởng thành dữ liệu BDBA và nêu lên thực trạng dữ liệu trong hoạt động quản trị quan hệ khách hàng tại ngân hàng TMCP Cơng Thương Việt Nam, đưa ra những phân tích, đánh

giá và nhận định hai vấn đề dữ liệu mà ngân hàng đang phải đối mặt.

Thứ ba, khóa luận đề xuất giải pháp ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại ngân hàng TMCP Cơng Thương Việt Nam.

Kết quả của đề tài có thể được ứng dụng trong mơi trường giáo dục, tài chính ngân hàng, phục vụ cho các nghiên cứu khoa học và có thể áp dụng trong thực tế hỗ trợ giải quyết các bài toán về khách hàng đối với bất kỳ ai quan tâm tới việc nâng cao hiệu suất hoạt động quản trị quan hệ khách hàng. Và đặc biệt phải nói đến khả năng ứng dụng trong kinh doanh giúp ngân hàng có cái nhìn đa chiều hơn về khách hàng.

Hạn chế và khắc phục

Tuy nhiên, do thời gian nghiên cứu có hạn, đề tài vẫn cịn một số điểm hạn chế như:

các phân tích tìm hiểu chưa bao qt tồn bộ thực trạng chung trong ngành tài chính ngân hàng nói riêng và thị trường kinh doanh nói chung, giải pháp ứng dụng cơng nghệ Big Data chưa đưa ra hướng giải quyết cụ thể trong triển khai các nền tảng công nghệ mà mới chỉ dừng ở thiết kế kiến trúc tổng quan.

Các hạn chế cần có thời gian để nghiên cứu và tìm hiểu sâu hơn để tiến hành đánh giá tồn diện về hoạt động quản trị quan hệ khách hàng đang diễn ra trong nội tại ngân hàng TMCP Công Thương Việt Nam trong sự so sánh tương ứng với thực trạng dữ liệu tại các ngân hàng thương mại trên toàn Việt Nam và thị trường kinh tế đất nước nói chung. Đồng thời việc triển khai các nền tảng công nghệ cũng cần có thời gian nghiên cứu và hỗ trợ thêm nhiều từ phía ban lãnh đạo về nguồn ngân sách đầu tư.

Mức độ sẵn sàng triển khai ứng dụng Big Data trong hoạt động quản trị quan hệ khách hàng tại Ngân hàng TMCP Cơng Thương Việt Nam Khóa luận tốt nghiệp

Hướng phát triển tương lai

Đề tài nghiên cứu về thực trạng hoạt động quản trị quan hệ khách hàng tại ngân hàng TMCP Công Thương là giai đoạn đầu của việc nghiên cứu Big Data trong hoạt động quản trị quan hệ khách hàng. Vậy nên, tương lai có hai hướng phát triển có thể thực hiện song song.

Hướng thứ nhất, tiếp tục tìm hiểu và đánh giá thực trạng hoạt động quản trị quan hệ

khách hàng tại các ngân hàng thương mại Việt Nam nhằm đem lại cái nhìn tổng quan về hoạt động quản trị quan hệ khách hàng nói chung. Từ đó xác định những vấn đề tồn tại trong nội tại tại các ngân hàng Việt Nam.

Hướng thứ hai, tìm hiểu hạ tầng cơng nghệ Big Data hỗ trợ các hoạt động phân tích.

Cần xác định chiến lược và thực nghiệm triển khai các hoạt động nghiên cứu Big Data tại ngân hàng. Từ đó đánh giá mức độ sẵn sàng cho triển khai Big Data tại các ngân hàng thương mại Việt Nam.

Kết hợp kết quả của hai hướng phát triển này, xây dựng lộ trình triển khai Big Data cho hoạt động hỗ trợ quản trị quan hệ khách hàng tại các ngân hàng thương mại Việt Nam, mục đích nhằm mang lại cái nhìn tồn cảnh và rõ nét về từng đối tượng khách hàng của ngân hàng.

TÀI LIỆU THAM KHẢO

[1] Techopedia, "Big Data," Techopedia, [Online]. Available: https://www.techopedia.com/definition/27745/big-data.

[2] Oracle, "What is Big Data?," Oracle, [Online]. Available: https://www.oracle.com/big-data/guide/what-is-big-data.html.

[3] L. Arthur, "What Is Big Data?," Forbes, 15 08 2013. [Online]. Available: https://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-

data/#146479e95c85.

[4] B. Violino, "What is big data? Everything you need to know," InfoWorld IDG, 29 01 2018. [Online]. Available: https://www.infoworld.com/article/3220044/big- data/what-is-big-data-everything-you-need-to-know.html.

Một phần của tài liệu Nghiên cứu và đánh giá mức độ sẵn sàng trong triển khai ứng dụng big data trong hoạt động quản trị quan hệ khách hàng tại NH TMCP công thương việt nam khoá luận tốt nghiệp 331 (Trang 66)

Tải bản đầy đủ (DOCX)

(102 trang)
w