1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập lớn môn năng lực số ứng dụng ứng dụng của big data tronglĩnh vực ngân hàng

32 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Ví dụ: Dữ liệu lớn cho ngân hàng có thể được xem xét từ góc độ mô hình chi tiêu, thông tin tín dụng, tình hình tài chính và giám sát phương tiện truyền thông xã hội để hiểu rõ hơn về hàn

Trang 1

HỌC VIỆN NGÂN HÀNGHỆ THỐNG QUẢN THÔNG TIN QUẢN LÝ

Trang 2

BẢNG PHÂN CÔNG CÔNG VIỆC

Nhận xét

Ứng dụng của BigData trong các hoạt động của ngân hàng & Lý thuyết của Big Data

100% hoàn thành đúng hạn

Ứng dụng của BigData trong các hoạt động của ngân hàng

100% hoàn thành đúng hạn

100% hoàn thành đúng hạn

Thách thức, hạn chế và giải pháp khi ứng dụng Big Data trong ngân hàng

100% hoàn thành đúng hạn

Trang 3

MỤC LỤC

LỜI MỞ ĐẦU 2

CHƯƠNG 1: KHÁI NIỆM, ĐẶC TRƯNG CỦA DỮ LIỆU LỚN VÀ SỰ KHÁC BIỆT VỚI KHAI THÁC DỮ LIỆU 3

1.1.Khái niệm Big Data 3

1.2.Đặc trưng của Big data 3

1.3.Phân loại Big data 5

1.4.Tầm quan trọng của dữ liệu lớn tài chính trong Ngân hàng 7

1.4.1.Phát hiện và ngăn chặn gian lận 7

1.4.2.Đánh giá rủi ro chính xác 8

1.4.3.Phân loại hoặc giải thể khách hàng 8

1.4.4.Tăng hiệu quả của các quy trình thủ công 8

1.5 Cách thức hoạt động của Big data 8

1.6 So sánh Big Data và Data mining (Khai thác dữ liệu) 10

1.7 Bộ công cụ và bộ kĩ năng cho Big Data trong ngân hàng 11

1.7.1 Bộ công cụ cho Big Data trong ngân hàng 11

1.7.2 Bộ kỹ năng cho Big Data trong ngân hàng 15

CHƯƠNG 2 ĐẶC ĐIỂM VÀ ỨNG DỤNG CỦA BIG DATA TRONG LĨNH VỰC NGÂN HÀNG 16

2.1 Phân tích thói quen hành vi chi tiêu của khách hàng 17

2.3 Marketing cá nhân hóa 18

2.4 Nâng cao chất lượng dịch vụ chăm sóc khách hàng 19

2.5 Thay đổi cách thức cung cấp dịch vụ đến khách hàng 19

2.6 Ngăn chặn các hành vi lừa đảo, vi phạm pháp luật 20

2.7 Kiểm soát rủi ro, tuân thủ luật pháp và minh bạch trong báo cáo tài chính 21

2.8 Bán chéo thêm các dịch vụ 21

2.9 Tham gia vào việc kiểm soát đánh giá và nâng cao hiệu quả làm việc của nhân viên 22

2.10 Dự đoán xu hướng tài chính 22

3.1.2.Big data 4.0 liên tục thay đổi 24

3.1.3.Dữ liệu lớn đang trở nên không thể quản lý 24

3.1.4.Đòi hỏi thay đổi văn hóa doanh nghiệp 24

Trang 4

3.1.6.Thiếu chuyên gia công nghệ gây cản trở trong việc ứng dụng Big Data Industry 4.0.

Trang 5

LỜI MỞ ĐẦU

năng thay đổi đáng kể cách các tổ chức sử dụng thông tin để nâng cao trải nghiệm của khách hàng và chuyển đổi mô hình kinh doanh của họ Làm thế nào để một công ty sử dụng dữ liệu để có lợi thế tốt nhất? Biến một lượng lớn dữ liệu thành kiến thức có nghĩa là gì? Trong cuốn sách này, chúng tôi cung cấp cho bạn thông tin chi tiết về cách chuyển đổi công nghệ trong phần mềm, phần cứng và mô hình phân phối đang thay đổi cách dữ liệu có thể được sử dụng theo những cách mới Dữ liệu lớn không phải là một thị trường duy nhất Thay vào đó, nó là sự kết hợp của các công nghệ quản lý dữ liệu đã phát triển theo thời gian Dữ liệu lớn cho phép các tổ chức lưu trữ, quản lý và thao tác một lượng lớn dữ liệu với tốc độ phù hợp và đúng thời điểm để có được thông tin chi tiết phù hợp

Chìa khóa để hiểu dữ liệu lớn là dữ liệu phải được quản lý để nó có thể đáp ứng yêu cầu kinh doanh mà một giải pháp nhất định được thiết kế để hỗ trợ Hầu hết các công ty đang ở giai đoạn đầu với hành trình dữ liệu lớn của họ Nhiều công ty đang thử nghiệm các kỹ thuật cho phép họ thu thập một lượng lớn dữ liệu để xác định xem liệu các mẫu ẩn có tồn tại trong dữ liệu đó có thể là dấu hiệu ban đầu của một thay đổi quan trọng hay không Một số dữ liệu có thể chỉ ra rằng mô hình mua hàng của khách hàng đang thay đổi hoặc các yếu tố mới trong doanh nghiệp cần được giải quyết trước khi quá muộn Khi các công ty bắt đầu đánh giá các loại giải pháp dữ liệu lớn mới, nhiều cơ hội mới sẽ mở ra Ví dụ, các công ty sản xuất có thể theo dõi dữ liệu đến từ các cảm biến máy để xác định cách các quy trình cần được sửa đổi trước khi một sự kiện thảm khốc xảy ra Các nhà bán lẻ sẽ có thể theo dõi dữ liệu trong thời gian thực để bán thêm các sản phẩm liên quan đến khách hàng khi họ đang thực hiện giao dịch Các giải pháp dữ liệu lớn có thể được sử dụng trong chăm sóc sức khỏe để xác định nguyên nhân gây bệnh và cung cấp cho bác sĩ hướng dẫn về các lựa chọn điều trị Tuy nhiên, dữ liệu lớn không phải là một giải pháp cô lập Việc triển khai một giải pháp dữ liệu lớn đòi hỏi phải có cơ sở hạ tầng để hỗ trợ khả năng mở rộng, phân phối và quản lý dữ liệu đó Do đó,điều quan trọng là phải đưa ra cả chiến lược kinh doanh và kỹ thuật để sử dụng điều quan trọng này xu hướng công nghệ Vì nhiều lý do quan trọng, chúng tôi nghĩ rằng điều quan trọnglà bạn phải hiểu các công nghệ dữ liệu lớn và biết các cách mà các công ty đang sử dụng các công nghệ mới nổi như Hadoop, MapReduce và các công cụ cơ sở dữ liệu mới để kinh doanh Sự trỗi dậy của Dữ liệu lớn đã có tác động đáng kể đến ngành tài chính Khách hàng không còn phải đến chi nhánh ngân hàng địa phương và giải quyết mọi nhu cầu ngân hàng của họ với sự hỗ trợ của nhân viên thu ngân Trên thực tế, hầu hết khách hàng hiện nay đều sử dụng các ứngdụng điện thoại thông minh và ngân hàng trực tuyến cũng như các dịch vụ truyền thống tại chi nhánh để truy cập nhiều loại sản phẩm tài chính Với sự phát triển của internet và phương tiện truyền thông xã hội, ngành ngân hàng, giống như phần còn lại của nền kinh tế toàn cầu, đã trải

Trang 6

qua một biến động cơ bản Ngành ngân hàng Dữ liệu lớn có quyền truy cập vào rất nhiều nguồn dữ liệu mà họ có thể sử dụng để hiểu rõ hơn về người tiêu dùng và cung cấp cho họ các dịch vụ và sản phẩm được cá nhân hóa hơn Ví dụ: Dữ liệu lớn cho ngân hàng có thể được xem xét từ góc độ mô hình chi tiêu, thông tin tín dụng, tình hình tài chính và giám sát phương tiện truyền thông xã hội để hiểu rõ hơn về hành vi và mô hình của người tiêu dùng Dữ liệu lớn để phân tích khách hàng ngân hàng thúc đẩy cơ hội doanh thu.

3

Trang 7

CHƯƠNG 1: KHÁI NIỆM, ĐẶC TRƯNG CỦA DỮ LIỆU LỚN VÀ SỰ KHÁC BIỆTVỚI KHAI THÁC DỮ LIỆU

1.1.Khái niệm Big Data

Big Data là các tập dữ liệu có khối lượng lớn và phức tạp Độ lớn đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.

Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc, không có cấu trúc và bán cấu trúc, mỗi tập có thể được khai thác để tìm hiểu insights.

1.2.Đặc trưng của Big data

Big Data (Dữ liệu lớn) là tập hợp các dữ liệu được tổng hợp từ nhiều nguồn và thường được miêu tả bằng 5 đặc điểm: Volume (Khối lượng), Variety (Tính đa dạng), Velocity (Tốc độ), Value (Tính giá trị), Veracity (Độ tin cậy).

Trang 8

*Volume (Khối lượng dữ liệu)

Là sự tăng trưởng về mặt khối lượng của tệp dữ liệu Dữ liệu trong các hệ thống thông tin luôn và liên tục tăng lên về mặt kích thước Thực vậy, trong khi những dữ liệu thông thường có thể đo lường bằng những đơn vị quen thuộc như là Megabyte (MB), Gigabyte (GB), Terabyte (TB), thì Big Data được lưu trữ bằng Petabyte (PB), Exabyte (EB), Zettabyte (ZB) Để mô tả rõ sự khác biệt về kích thước của hai loại dữ liệu, trường Đại Học Berkeley đã nghiên cứu và đưa ra kết luận rằng: 1GB có khối lượng dữ liệu tương đương với một video với chất lượng HD trong vòng 7 phút thì 1 ZB lại tương đương với 250 tỷ đĩa DVD.*Variety (Tính đa dạng)

Là sự gia tăng về tính đa dạng của dữ liệu Trong khi dữ liệu truyền thống chỉ có một loại dữ liệu được tổ chức và sắp xếp ở trong cơ sở dữ liệu lên quan thì Big Data còn có thêm loại dữ liệu phi cấu trúc và dữ liệu bán cấu trúc như là văn bản, âm thanh và video Điều đó có nghĩa là nó đòi hỏi phải có thêm một số phương pháp xử lý để tìm ra ý nghĩa của dữ liệu và cùng tổng hợp chúng thành thông tin có ý nghĩa.

*Velocity (Tốc độ)

Là tốc độ tăng trưởng của dữ liệu Khái niệm này chỉ khoảng thời gian cần thiết để tạo ra, phân tích, quản lý toàn bộ dữ liệu Mặc dù Big Data có khối lượng lớn dữ liệu khổng lồ nhưng nó cần phải được xử lý với tốc độ cực nhanh để sinh ra những thông tin cần thiết Ngày nay, khi thời đại tốc độ Internet phát triển mạnh mẽ, tốc độ của một dữ liệu được tạo ra,tìm kiếm và rồi dịch chuyển sang vị trí khác hiện tại đã đạt đến mức đáng kinh ngạc, chỉ vài micro giây, cho phép người dùng có thể phân tích trực tiếp các thông số của các dữ liệu được tạo ra trong thời gian thực.

4

Trang 9

*Value (Tính giá trị)

Tính giá trị của dữ liệu thường được đánh giá bởi giá trị kinh tế hoặc xã hội tiềm năng mà dữ liệu có thể đưa cho doanh nghiệp Đây được coi là một trong những đặc điểm quan trọng nhấtcủa công nghệ Big Data đối với doanh nghiệp, bởi không phải dữ liệu nào cũng có ý nghĩa Vậy nên, các doanh nghiệp cần phải hoạch định được những giá trị thông tin hữu ích của Big Data đối với các vấn đề hoặc mô hình hoạt động kinh doanh của họ.

*Veracity (Độ tin cậy)

Độ tin cậy của dữ liệu được định nghĩa như là sự chính xác của dữ liệu Đặc biệt, trong thời kì các phương tiện truyền thông xã hội và mạng xã hội phát triển mạnh mẽ, mỗi ngày người dùng tạo ra vô vàn thông tin, kiến thức mới, khiến cho độ xác thực và tin cậy của dữ liệu càngngày càng khó xác định hơn, tạo nên sự không đồng nhất của các tệp dữ liệu và gây cản trở cho các quy trình xử lý và quản lý nó Vậy nên, doanh nghiệp cần phải đảm bảo độ chính xác của dữ liệu để giảm bớt những sai lệch có thể xảy ra.

1.3.Phân loại Big data

Big Data bao gồm các dữ liệu có cấu trúc, dữ liệu phi cấu trúc và các dữ liệu bán cấu trúc Theo Tạp chí Thế giới máy tính, có tới hơn 70-80% tất cả các dữ liệu trong các tổ chức là dữ liệu phi cấu trúc như là video, ảnh, trang website,… Và mỗi loại dữ liệu lớn này đều có những công cụ để lưu trữ và xử lý riêng biệt.

*Dữ liệu có cấu trúc:

Trang 10

Dữ liệu có cấu trúc thường được lưu trữ, sắp xếp một cách có tổ chức dưới dạng bảng và cột chứa thông tin để mô tả các thuộc tính và mối quan hệ với các dữ liệu khác Các

dữ liệu loại này thường được quản lý thông qua cơ sở dữ liệu quan hệ Bên cạnh đó dữ liệu cócấu trúc thường được tìm kiếm, xử lí bằng cách sử dụng ngôn ngữ truy vấn có cấu trúc Structured Query Language (SQL).

*Dữ liệu phi cấu trúc:

Dữ liệu phi cấu trúc không thể chứa trong cơ sở dữ liệu dạng hàng và cột, và nó cũng không có mô hình dữ liệu liên quan nào Đây là loại dữ liệu gốc và có rất nhiều định dạng như: video và hình ảnh, văn bản, âm thanh, nội dung từ mạng xã hội,… Chính vì

6

Trang 11

vậy, những dữ liệu này rất khó tìm kiếm, quản lý và phân tích nên các doanh nghiệp thường bỏ qua loại dữ liệu này cho đến khi sự ra đời của trí tuệ nhân tạo và các thuật toán máy tự họcgiúp quá trình này trở nên dễ dàng hơn Ngoài ra, dữ liệu phi cấu trúc thường được lưu trữ trong một cơ sở dữ liệu không quan hệ là No Structured Query Language (NoSQL).*Dữ liệu bán cấu trúc:

Dữ liệu bán cấu trúc có một số tính chất đồng nhất có thể xác định được, nhưng lại không hình thành một cấu trúc rõ ràng để phù hợp với cơ sở dữ liệu quan hệ dưới dạng bảng và cột Một vài ví dụ cho dạng cấu trúc này là email thuộc dạng không có cấu trúc

nhưng lại chứa những dữ liệu có cấu trúc như tên, địa chỉ người nhận, thời gian gửi thư, hay những bức ảnh chụp từ điện không có cấu trúc với những dữ liệu cơ sở liên quan nhưng lại được gắn những dữ liệu cấu trúc như thời gian chụp, nơi chụp, ID của thiết bị.

1.4.Tầm quan trọng của dữ liệu lớn tài chính trong Ngân hàng

Dữ liệu lớn trong tài chính hoặc ngân hàng Dữ liệu lớn đề cập đến hàng petabyte dữ liệu có tổ chức và phi cấu trúc có thể được các ngân hàng và tổ chức tài chính sử dụng để dự đoán hành vi của khách hàng và phát triển chiến lược Lĩnh vực tài chính tạo ra một lượng lớn dữ liệu Dữ liệu có cấu trúc là thông tin được xử lý trong một công ty để cung cấp những hiểu biết quan trọng về việc ra quyết định Dữ liệu phi cấu trúc đang được tích lũy từ nhiều nguồn khác nhau với số lượng ngày càng tăng, mang lại những cơ hội phân tích to lớn.

Mỗi ngày, hàng tỷ đô la đi qua thị trường toàn cầu và các nhà phân tích được giao nhiệm vụ theo dõi thông tin này với độ chính xác, bảo mật và tốc độ để đưa ra dự báo, tìm ra mô hình và phát triển các chiến thuật dự đoán Cách dữ liệu này được thu thập, xử lý, lưu trữ và phân tích sẽxác định giá trị của nó Các nhà phân tích ngày càng lựa chọn các giải pháp dữ liệu đám mây vì các hệ thống cũ không thể chứa dữ liệu phi cấu trúc và tách biệt nếu không có sự tham gia rộng rãi và phức tạp của CNTT Các ngân hàng sử dụng Dữ liệu lớn có thể đưa ra những đánh giá sáng suốt về những thứ như cải thiện dịch vụ chăm sóc khách hàng, ngăn chặn gian lận, nhắm mục tiêu khách hàng tốt hơn, hiệu suất kênh hàng đầu và đánh giá mức độ rủi ro với khả năng đánh giá các loại dữ liệu khác nhau.

Các tổ chức tài chính không phải là những người bản địa về kỹ thuật số và đã phải trải qua một quá trình chuyển đổi kéo dài, đòi hỏi những thay đổi về hành vi và công nghệ Ngành ngân hàngDữ liệu lớn đã trải qua những tiến bộ công nghệ đáng kể trong những năm gần đây, mang đến các giải pháp thuận tiện, phù hợp và an toàn cho doanh nghiệp Do đó, phân tích Dữ liệu lớn củangân hàng đã có thể cách mạng hóa không chỉ các hoạt động kinh doanh riêng lẻ mà còn cả toànbộ ngành dịch vụ tài chính Chúng ta hãy xem xét một số cách cụ thể Dữ liệu lớn đã hiện đại hóa và cách mạng hóa tài chính.

1.4.1.Phát hiện và ngăn chặn gian lận

Trang 12

Việc phát hiện và ngăn chặn gian lận được hỗ trợ rất nhiều nhờ học máy, được hỗ trợ bởi dữ liệulớn Các mối đe dọa về bảo mật thẻ tín dụng đã được giảm bớt nhờ các phân tích phân tích xu hướng mua hàng Khi thông tin thẻ tín dụng vừa an toàn vừa có giá trị bị đánh cắp, các ngân hàng giờ đây có thể đóng băng thẻ và giao dịch ngay lập tức, đồng thời cảnh báo người tiêu dùng về mối nguy hiểm về bảo mật.

1.4.2.Đánh giá rủi ro chính xác

Học máy ngày càng được sử dụng để đưa ra các lựa chọn tài chính quan trọng như đầu tư và chovay Các quyết định dựa trên phân tích dự đoán xem xét mọi thứ từ nền kinh tế, phân khúc khách hàng đến vốn doanh nghiệp để xác định các mối nguy tiềm ẩn như khoản đầu tư hoặc thanh toán bị lỗi.

1.4.3.Phân loại hoặc giải thể khách hàng

Đây là một tính năng rất hữu ích và hiệu quả được cung cấp bởi Big Data trong hoạt động kinh doanh ngân hàng Nó có khả năng phân loại khách hàng dựa trên các hoạt động tài chính của họ,chẳng hạn như thu nhập, chi tiêu, tiết kiệm và đầu tư Thông tin chức năng và quan trọng của khách hàng được ghi nhận và phân loại dựa trên yêu cầu tài chính của họ Điều này cho phép ban quản lý ngân hàng nắm bắt tốt hơn các giới hạn dịch vụ tài chính mà họ cần nâng cấp hoặc hạ cấp Tính năng này đã hỗ trợ và tiếp tục hỗ trợ quản lý ngân hàng trong việc hoạch định lãi suất và các dịch vụ tài chính khác.

1.4.4.Tăng hiệu quả của các quy trình thủ công

Khả năng mở rộng là một tính năng của các giải pháp tích hợp dữ liệu cho phép chúng phát triểnkhi nhu cầu kinh doanh thay đổi Các công ty thẻ tín dụng có thể tự động hóa các hoạt động thường ngày, giảm giờ làm của nhân viên CNTT và cung cấp thông tin chi tiết về hoạt động hàng ngày của khách hàng bằng cách truy cập vào bức tranh hoàn chỉnh về tất cả các giao dịch hàng ngày.

1.5 Cách thức hoạt động của Big data

8

Trang 13

Big Data cung cấp cho bạn thông tin chi tiết mới, mở ra cơ hội và mô hình kinh doanh mới Bắt đầu bao gồm ba hành động chính:

*Tích hợp

Big Data tập hợp dữ liệu từ nhiều nguồn và ứng dụng khác nhau Các cơ chế tích hợp dữ liệu truyền thống, chẳng hạn như trích xuất, chuyển đổi và tải (ETL) thường không phù hợp với nhiệm vụ Nó đòi hỏi các chiến lược và công nghệ mới để phân tích các tập Big Data ở quy mô terabyte, hoặc thậm chí là petabyte.

Trong quá trình tích hợp, bạn cần đưa dữ liệu vào, xử lý và đảm bảo dữ liệu được định dạng và có sẵn ở dạng mà các nhà phân tích kinh doanh của bạn có thể bắt đầu.

*Quản lý

Big Data yêu cầu lưu trữ Giải pháp lưu trữ của bạn có thể trên đám mây, tại chỗ hoặc cả hai Bạn có thể lưu trữ dữ liệu của mình ở bất kỳ hình thức nào bạn muốn và đưa các yêu cầu xử lý mong muốn cũng như các công cụ xử lý cần thiết vào các tập dữ liệu đó theo yêu cầu Nhiều người chọn giải pháp lưu trữ của họ theo nơi dữ liệu của họ hiện đang cư trú Đám mây đang dần trở nên phổ biến vì nó hỗ trợ các yêu cầu tính toán hiện tại của bạn và cho phép bạn sử dụng tài nguyên khi cần thiết.

*Phân tích

Trang 14

Khoản đầu tư của bạn vào Big Data sẽ được đền đáp khi bạn phân tích và hành động trên dữ liệu của mình Có được sự rõ ràng mới với phân tích trực quan về các tập dữ liệu đa dạng của bạn Khám phá thêm dữ liệu để tạo ra những khám phá mới Chia sẻ những phát hiện của bạnvới những người khác Xây dựng mô hình dữ liệu bằng máy học và trí tuệ nhân tạo Đưa dữ liệu của bạn vào hoạt động.

1.6 So sánh Big Data và Data mining (Khai thác dữ liệu)

Big DataData Mining là hai khái niệm quan trọng trong lĩnh vực quản lý dữ liệu và phân tích dữ liệu Dưới đây là một so sánh giữa chúng:

*Định nghĩa:

Big Data: Big Data đề cập đến việc xử lý và phân tích dữ liệu lớn, có kích thước lớn và phức tạp Nó không chỉ giới hạn trong việc lưu trữ mà còn bao gồm cả khả năng xử lý và phân tích dữ liệu có kích thước lớn.

Data Mining: Data Mining là quá trình khám phá các mẫu tiềm ẩn, thông tin hữu ích hoặc tri

thức từ dữ liệu có cấu trúc hoặc không cấu trúc.*Mục tiêu chính:

Big Data: Mục tiêu chính của Big Data là quản lý và xử lý dữ liệu lớn, giúp tổ chức hiểu rõ

hơn về môi trường kinh doanh của họ, đưa ra quyết định thông tin và tối ưu hóa hiệu suất.

Data Mining: Mục tiêu chính của Data Mining là phát hiện mẫu tiềm ẩn, quy luật, và thông

tin hữu ích từ dữ liệu để hỗ trợ quyết định và dự đoán.*Quy mô dữ liệu:

Big Data: Xử lý dữ liệu ở quy mô lớn, thường là dữ liệu có kích thước từ terabytes đến

Data Mining: Có thể áp dụng trên các bộ dữ liệu lớn, nhưng không nhất thiết phải là dữ liệu

lớn Các kỹ thuật Data Mining có thể được sử dụng trên dữ liệu có kích thước nhỏ hơn.10

Trang 15

*Phương pháp:

Big Data: Sử dụng các công nghệ như Hadoop, Spark để lưu trữ và xử lý dữ liệu lớn, cũng

như các công nghệ in-memory để tối ưu hóa hiệu suất.

Data Mining: Sử dụng các thuật toán máy học, thống kê, khai phá dữ liệu để khám phá thông

tin từ dữ liệu.*Ứng dụng:

Big Data: Thường được sử dụng để phân tích xu hướng thị trường, dự đoán nhu cầu của

khách hàng, tối ưu hóa quy trình kinh doanh.

Data Mining: Có thể được áp dụng trong nhiều lĩnh vực như tiếp thị, y tế, tài chính để phân

tích mô hình và dự đoán.*Liên quan:

Big Data: Là nguồn cung cấp dữ liệu cho Data Mining Dữ liệu lớn cung cấp nguồn dữ liệu

phong phú để áp dụng các kỹ thuật khai thác dữ liệu.

Data Mining: Cần có dữ liệu để phân tích, và dữ liệu lớn cung cấp một nguồn cung cấp dữ

liệu lớn để áp dụng các kỹ thuật khai thác dữ liệu.

=>Tóm lại, Big Data tập trung vào quản lý và xử lý dữ liệu lớn, trong khi Data Mining tập trung vào việc khám phá thông tin từ dữ liệu để hỗ trợ quyết định và dự đoán Cả hai đều là các khía cạnh quan trọng của lĩnh vực quản lý dữ liệu và phân tích dữ liệu.

1.7 Bộ công cụ và bộ kĩ năng cho Big Data trong ngân hàng

1.7.1 Bộ công cụ cho Big Data trong ngân hàngHadoop

Hadoop được tạo ra như một giải pháp Dữ liệu lớn tiên phong giúp xử lý khối lượng khổng lồ dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc Nó là một khung phân tán để lưu trữ dữ liệu và chạy các ứng dụng trên các cụm phần cứng thông dụng Khi được giới thiệu lần đầu tiên vào năm 2006, nó gần như ngay lập tức gắn liền với Dữ liệu lớn Hadoop được tạo thành từ bốn phần chính:

Yet Another Resource Negotiator, hay YARN, là một chương trình lên lịch thực thi các công việc trên các nút cụm và gán tài nguyên hệ thống cho chúng.

Hadoop MapReduce, một công cụ xử lý hàng loạt tích hợp sẵn giúp phân chia các phép tính lớn và chạy chúng trên các nút khác nhau để cân bằng tốc độ và tải; và Hadoop MapReduce, một công cụ xử lý hàng loạt tích hợp sẵn giúp phân chia các

Trang 16

phép tính lớn và chạy chúng trên các nút khác nhau để cân bằng tốc độ và tải; và Hadoop MapReduce.

HDFS (Hệ thống tệp phân tán Hadoop) chia dữ liệu thành các khối để lưu trữ trên các nút cụm, sử dụng cơ chế sao chép để ngăn ngừa mất dữ liệu và điều chỉnh việc truy cập dữ liệu.

Hadoop Common là tập hợp các tiện ích và thư viện mà mọi người đều có thể sử dụng.

Trường hợp điển hình: Công cụ dữ liệu lớn dựa trên Hadoop để phân tích thống kê sửdụng thiết bị

Luồng khí

Airflow là phần mềm quản lý quy trình làm việc dành cho các hệ thống dữ liệu lớn, cho phépchúng lên lịch và chạy các đường ống dữ liệu phức tạp Nó cho phép các kỹ sư dữ liệu và những người dùng khác đảm bảo rằng mỗi bước trong quy trình làm việc được hoàn thành theo đúng thứ tự và tất cả tài nguyên hệ thống đều có sẵn Airflow cũng được tiếp thị là dễ sửdụng: Quy trình làm việc được viết bằng Python, ngôn ngữ lập trình có thể được sử dụng để xây dựng mô hình học máy, truyền dữ liệu và thực hiện nhiều tác vụ khác Đây là một số yếutố chính của Airflow:

giao diện người dùng ứng dụng web để trực quan hóa đường dẫn dữ liệu, theo dõi trạng thái sản xuất và khắc phục sự cố;

một thiết kế mô-đun và có thể mở rộng dựa trên khái niệm biểu đồ tuần hoàn có hướng (DAG), mô tả sự phụ thuộc lẫn nhau giữa các nhiệm vụ của quy trình công việc;

và các kết nối được tạo sẵn với các nền tảng đám mây chính và các dịch vụ bên thứba khác.

Tổ ong

Hive là phần mềm cơ sở hạ tầng kho dữ liệu sử dụng SQL để đọc, ghi và quản lý các tập dữ liệu khổng lồ trong các hệ thống lưu trữ phân tán Facebook đã phát minh ra nó, nhưng sau đó nó được mở nguồn cho Apache, công ty này vẫn tiếp tục phát triển và hỗ trợ nó.

12

Ngày đăng: 19/06/2024, 18:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w