Niên luận cơ sở ngành mạng máy tính và truyền thông dữ liệu tìm hiểu về dữ liệu lớn big – data

Ví dụ về các công nghệ Dữ liệu Lớn đó chính là Hadoop, một khuôn khổ cho tất cả tiến trình của dữ liệu lớn, Hệ thống file phân tán, lưu trữ dữ liệu khổng lồ được sử dụng bởi Hadoop - Had

Mục tiêu của niên luận cơ sở

Niên Luận cơ sở này sẽ đề cập đến việc giới thiệu về dữ liệu lớn, xác định dữ liệu lớn thật ra có nghĩa như thế nào Những hạn chế của cơ sở dữ liệu truyền thống, dẫn đến sự phát triển của Dữ Liệu Lớn, sẽ được giải thích, cung cấp và đưa ra cái nhìn sâu sắc về những ý chính của dữ liệu lớn Một nghiên cứu so sánh đã được thực hiện giữa dữ liệu lớn và cơ sở dữ truyền thống đưa ra một hình ảnh rõ ràng về những bất lợi của cơ sở dữ liệu truyền thống và những thuận lợi của dữ liệu lớn 3 từ V của dữ liệu lớn (khối lượng - volume, tốc độ - velocity, và đa dạng - variety) được phân biệt từ những giải thích của cơ sở dữ liệu truyền thống Với sự phát triển của dữ liệu lớn, chúng ta không còn giới hạn lâu hơn trong dữ liệu có cấu trúc Những loại dữ liệu khác nhau của con người và máy móc đã được tạo ra- nghĩa là, dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc-có thể được xử lý bằng những giải thích của dữ liệu lớn Những nguồn khác nhau đóng góp đến khối lượng dữ liệu lớn này đã được cung cấp bằng một hình ảnh rõ ràng Chương này sẽ mở rộng để cho thấy những giai đoạn khác nhau của vòng đời dữ liệu lớn bắt đầu từ tạo dữ liệu, thu thập, xử lý, tích hợp, làm sạch, chuyển đổi, phân tích, và trực quan hóa để đưa ra những quyết định kinh doanh Và sẽ sẽ làm sáng tỏ những thử thách khác nhau của dữ liệu lớn do tính không đồng nhất của nó, khối lượng, tốc độ, v.v…

GIỚI THIỆU VỀ BIG DATA

Khái niệm tổng quan về Big Data

Với tốc độ tăng trưởng nhanh chóng của người dùng Internet, có một sự gia tăng nhanh chóng theo cấp số nhân trong dữ liệu được tạo ra Dữ liệu được tạo ra từ hàng triệu tin nhắn và được gửi qua WhatsApp, Facebook hoặc Twitter từ hàng nghìn tỷ những bức ảnh được chụp, và hàng giờ những video được tải lên

YouTube trong mỗi phút Theo một cuộc khảo sát gần đây với 2.5 triệu tỷ (2 500

000 000 000 000 000, hay 2,5 X 〖10〗^18) byte dữ liệu được tạo ra mỗi ngày Lượng dữ liệu khổng lồ này được tạo ra được gọi là dữ liệu lớn (Big Data) Dữ liệu lớn không chỉ có nghĩa là một tập dữ liệu quá lớn, nó là một thuật ngữ chung cho dữ liệu có kích thước quá lớn, có tính chất phức tạp, mà có thể có cấu trúc hoặc phi cấu trúc, và đạt được với tốc độ cao Theo dữ liệu hiện có cho thấy, có 80% dữ liệu đã được tạo ra trong vài năm gần đây Sự phát triển của dữ liệu lớn thực tế đã được thúc đẩy bởi nhiều dữ liệu được tạo ra cần phải được thu thập ở nhiều nơi trên thế giới

Việc nắm bắt được dữ liệu khổng lồ này dù chỉ mang lại giá trị nhỏ trừ khi giá trị của công nghệ thông tin chuyển hóa thành giá trị kinh doanh Quản lý dữ liệu và và phân tích chúng luôn luôn mang lợi ích cho tổ chức; bên cạnh đó, việc chuyển đổi dữ liệu này thành những hiểu biết về kinh doanh luôn là thách thức lớn nhất Các nhà khoa học dữ liệu đang đấu tranh để tìm các kỹ thuật thiết thực để phân tích dữ liệu thu thập được Dữ liệu phải được quản lý ở tốc độ và thời gian phù hợp để thu được những thông tin có giá trị sâu sắc từ dữ liệu đó Những dữ liệu này rất phức tạp đến mức khó có thể xử lý nó bằng cách sử dụng những hệ thống quản lý cơ sở dữ liệu truyền thống, điều này đã kích động đến sự phát triển của kỷ nguyên dữ liệu lớn Ngoài ra, có những hạn chế về lượng dữ liệu mà cơ sở dữ liệu truyền thống có thể xử lý Với sự gia tăng kích thước dữ liệu sẽ có sự giảm sút về hiệu suất hay độ trễ tăng hoặc sẽ rất tốn kém nếu bổ sung vào các đơn vị bộ nhớ Tất cả những hạn chế này đã được khắc phục với sự phát triển của công nghệ dữ liệu lớn điều đó cho phép chúng ta thu thập, lưu trữ, xử lý và phân tích dữ liệu trong mỗi môi trường phân tán Ví dụ về các công nghệ Dữ liệu Lớn đó chính là Hadoop, một khuôn khổ cho tất cả tiến trình của dữ liệu lớn, Hệ thống file phân tán, lưu trữ dữ liệu khổng lồ được sử dụng bởi Hadoop - Hadoop Distributed File System (HDFS) để lưu trữ hệ thống phân tán và mô hình được thiết kế độc quyền bởi Google, có khả năng lập trình xử lý các tập dữ liệu lớn song song và phân tán thuật toán trên một cụm máy tính (MapReduce) để xử lý.

Hình 1.1 : Tổng quan về BigData

Sự phát triển của dữ liệu lớn

Sự xuất hiện tài liệu đầu tiên của dữ liệu lớn đó là một bài báo vào năm 1997 bởi các nhà khoa học của NASA đã nói lên những vấn đề phải đối mặt trong việc trực quan hóa các tập dữ liệu lớn, đó là một thách thức hấp dẫn đến với các nhà khoa học dữ liệu, Các tập dữ liệu đủ lớn, gây mệt mỏi cho nhiều tài nguyên bộ nhớ Vấn đề này được gọi là dữ liệu lớn Dữ liệu lớn, khái niệm rộng hơn, lần đầu tiên được đưa ra bởi một nhà tư vấn: McKinsey Ba chiều hướng của dữ liệu lớn, cụ thể là, khối lượng, tốc độ và sự đa dạng, được nhà phân tích Doug Laney xác định Vòng đời xử lý của dữ liệu lớn có thể được phân loại vào việc thu thập, xử lý, lưu trữ và quản lý, quyền riêng tư và bảo mật, phân tích và trực quan hóa

Thuật ngữ rộng hơn của dữ liệu lớn bao gồm tất cả mọi thứ mọi thứ như dữ liệu web, chẳng hạn như dữ liệu từ luồng nhấp chuột, dữ liệu sức khỏe của bệnh nhân, dữ liệu gen từ việc nghiên cứu sinh học, v.v…

Hình 1.1 cho thấy sự phát triển của dữ liệu lớn Sự tăng trưởng về dữ liệu là rất lớn trong những năm qua Nó chỉ có 600MB vào những năm 1950 nhưng vào năm

2010 đã tăng lên 100PB, tương đương với 100 000 000 000 MB.

Hình 1.2 : Sự phát triển của dữ liệu lớn

Dữ liệu lớn được phân biệt bởi các những đặc điểm đặc biệt của nó với những khía cạnh khác nhau Hình 1.2 minh họa các khía cạnh khác nhau của dữ liệu lớn Khía cạnh đầu tiên của nó là khối lượng của dữ liệu Khối lượng dữ liệu tăng một phần do lưu trữ theo cụm (cluster storage) với phần cứng thương mại đã làm tiết kiệm về chi phí có hiệu quả Phần cứng thương mại là một phần cứng có chi phí thấp, hiệu suất thấp, thông số kỹ thuật thấp và không có chức năng đặc biệt Điều này được gọi bằng thuật ngữ “khối lượng” trong công nghệ dữ liệu lớn Khía cạnh thứ hai đó là sự đa dạng, mô tả tính không đồng nhất để nó chấp nhận các loại dữ liệu, có cấu trúc, phi cấu trúc hoặc cả hai Khía cạnh thứ ba là tốc độ, liên quan đến tốc độ dữ liệu được tạo ra và xử lý để lấy giá trị mong muốn từ dữ liệu thô chưa được xử lý

Hình 1.3: 3V của dữ liệu lớn.

Sự phức tạp của dữ liệu đã đặt ra một cơ hội mới cũng như là một thách thức mới cho thời đại công nghệ thông tin thời nay.

 Volume (Tổng dung lượng lưu trữ) :

Dữ liệu được tạo và xử lý bởi dữ liệu lớn đang không ngừng phát triển Khối lượng tăng theo cấp số nhân do thực tế là các doanh nghiệp kinh doanh đang liên tục thu thập dữ liệu để tạo ra các giải pháp kinh doanh tốt hơn và lớn hơn Khối lượng của dữ liệu lớn được đo từ terabyte đến zettabyte (1024GB = 1 terabyte; 1024 TB = 1 petabyte; 1024 PB = 1 exabyte; 1024EB =1 zettabyte; 1024ZB = 1 yottabyte) Nắm bắt dữ liệu khổng lồ này đã được cho là một cơ hội đặc biệt để có được dịch vụ khách hàng tốt hơn và lợi thế kinh doanh tốt hơn Khối lượng dữ liệu này ngày càng tăng, đòi hỏi khả năng mở rộng phải càng cao và lưu trữ phải tin cậy Những nguồn chính đóng góp cho sự tăng trưởng này là phương tiện truyền thông mạng xã hội, điểm giao dịch bán hàng, ngân hàng điện tử, cảm biến GPS, cảm biến ô tô Facebook tạo ra khoảng 500 terabyte dữ liệu mỗi ngày Mỗi khi nhấp vào một liên kết trên một trang web, mua trực tuyến một mặt hàng, một video được đăng tải lên YouTube, dữ liệu đều sẽ được tạo ra.

 Velocity (Khả năng xử lý tốc độ cao ):

Với sự gia tăng đáng kể của khối lượng dữ liệu, tốc độ tạo nên dữ liệu cũng tăng lên Thuật ngữ “tốc độ” ngoài việc đề cập đến tốc độ và dữ liệu được tạo ra, mà còn đề cập đến tốc độ

Hình 1.4: Bộ dữ liệu tốc độ cao được tạo ra trực tuyến trong 60 giây. dữ liệu đã được xử lý và phân tích Trong kỷ nguyên của dữ liệu lớn, một lượng lớn dữ liệu được tạo ra ở tốc độ cao, và đôi khi dữ liệu này đến quá nhanh khiến việc nắm bắt dữ liệu trở nên khó khăn, nhưng nó vẫn cần phải được phân tích. Hình 1.3 đã minh họa việc dữ liệu được tạo ra trong 60 giây: 3.3 triệu bài đăng trên Facebook, 450 nghìn lượt tweet, 400 giờ video được đăng tải và 3.1 triệu lượt tìm kiếm trên Google

 Varieti (Đa dạng kiểu dữ liệu ):

Sự đa dạng của dữ liệu lớn được đề cập đến định dạng dữ liệu được hỗ trợ bởi dữ liệu lớn Dữ liệu đến ở định dạng có cấu trúc, bán cấu trúc và phi cấu trúc Dữ liệu có cấu trúc đề cập đến dữ liệu được xử lý bởi các hệ thống quản lý cơ sở dữ liệu truyền thống, nơi dữ liệu được tổ chức trong các bảng, như chi tiết về nhân viên, chi tiết về khách hàng của ngân hàng Dữ liệu bán cấu trúc là sự kết hợp của dữ liệu có cấu trúc và phi cấu trúc, chẳng hạn như XML Dữ liệu XML là bán cấu trúc do nó không phù hợp với mô hình dữ liệu chính thức (bảng) được liên kết với cơ sở dữ liệu truyền thống, đúng hơn, nó chứa các thẻ để tổ chức các trường trong dữ liệu Dữ liệu phi cấu trúc đề cập đến dữ liệu không có cấu trúc xác định, như tin nhắn email, ảnh và trang web Dữ liệu đến từ nguồn cấp dữ liệu Facebook cũng như Twitter, cảm biến vận tốc và hộp đen của máy bay đều không có cấu trúc, mà cơ sở dữ liệu truyền thống không thể xử lý, và đây là lúc dữ liệu lớn xuất hiện

Ngoài 3 đặc trưng chính trên của Doug Laney, thì còn có thêm rất nhiều tiêu chí khác xác định đặc trưng của Big data, bao gồm: Veracity (Xác thực), Value (Giá trị), Relationality (Mối quan hệ),

 Variability (Độ chính xác) Vì đa dạng về các kiểu dữ liệu, nên sự không thống nhất của tập dữ liệu có thể cản trở các quy trình để xử lý và quản lý nó Do đó, độ chính xác của công nghệ này có thể đảm bảo giúp cho việc giảm bớt sự sai lệch đáng tiếc có thể xảy ra.

 Value (Mức độ giá trị của thông tin) Chất lượng dữ liệu của những dữ liệu lấy được có thể thay đổi rất nhiều, điều này sẽ ảnh hưởng rất mạnh đến việc phân tích chính xác những đấy Ta có thể xem đây là tính chất cũng là khái niệm mà những doanh nghiệp hay nhà nghiên cứu muốn sử dụng và khai thác Big Data phải nắm giữ và am hiểu nó đầu tiên.

Phân loại Big Data

Big data thường được phân loại dựa trên 3 yếu tố dữ liệu phổ biến: Dữ liệu có cấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc

 Dữ liệu có cấu trúc : Dữ liệu có cấu trúc được xem là dữ liệu đơn giản nhất để quản lý và tìm kiếm Nó là những dữ liệu có thể truy cập, lưu trữ và xử lý ở định dạng cố định Các thành phần của dữ liệu có cấu trúc được phân loại dễ dàng, cho phép các nhà thiết kế và quản trị viên cơ sở dữ liệu xác định các thuật toán đơn giản để tìm kiếm và phân tích.

 Dữ liệu phi cấu trúc : Dữ liệu phi cấu trúc là bất kỳ tập hợp dữ liệu nào không được tổ chức hoặc xác định rõ ràng Loại dữ liệu này hỗn loạn, khó xử lý, khó hiểu và đánh giá Nó không có cấu trúc cố định và có thể thay đổi vào những thời điểm khác nhau Dữ liệu phi cấu trúc bao gồm các nhận xét, tweet, lượt chia sẻ, bài đăng trên mạng xã hội, video trên YouTube mà người dùng xem,

 Dữ liệu bán cấu trúc : Dữ liệu bán cấu trúc là sự kết hợp giữa dữ liệu có cấu trúc và dữ liệu phi cấu trúc Email là một ví dụ điển hình vì chúng bao gồm dữ liệu phi cấu trúc trong nội dung thư, cũng như nhiều thuộc tính tổ chức khác như người gửi, người nhận, chủ đề và ngày tháng Các thiết bị sử dụng gắn thẻ địa lý,thời gian cũng có thể cung cấp dữ liệu có cấu trúc bên cạnh nội dung phi cấu trúc ấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.

Nguồn của dữ liệu lớn

Nhiều nguồn dữ liệu khác nhau chịu trách nhiệm cho sự gia tăng đáng kể về khối lượng của dữ liệu lớn Phần lớn sự gia tăng dữ liệu có thể là do số hóa hầu hết tất cả và mọi thứ trên toàn cầu Thanh toán hóa đơn điện tử, mua sắm trực tuyến, giao tiếp thông qua phương tiện truyền thông mạng xã hội, giao dịch thư điện tử trong các tổ chức khác nhau, biểu diễn kỹ thuật số của tổ chức dữ liệu, v.v… là một số ví dụ về số hóa dữ liệu trên toàn cầu.

Cảm biến: Các cảm biến đóng góp vào khối lượng của dữ liệu lớn được liệt kê bên dưới.

- Cảm biến gia tốc được cài đặt trong thiết bị di động để cảm nhận rung động và các chuyển động khác.

- Cảm biến tiệm cận được sử dụng ở những nơi công cộng để phát hiện sự hiện diện của vật thể mà không cần tiếp xúc vật lý với vật thể

- Cảm biến trong xe và thiết bị y tế.

Chăm sóc sức khỏe: Các nguồn chính của dữ liệu lớn trong chăm sóc sức khỏe là

- Hồ sơ sức khỏe điện tử (Electronic Health Records - EHRs) thu thập và hiển thị thông tin bệnh nhân chẳng hạn như tiền sử bệnh, đơn thuốc của bác sĩ và kết quả xét nghiệm trong phòng thí nghiệm.

- Cổng thông tin bệnh nhân cho phép bệnh nhân truy cập hồ sơ y tế cá nhân của họ đã lưu trong hồ sơ sức khỏe điện tử

- Kho lưu trữ dữ liệu lâm sàng tổng hợp các hồ sơ bệnh nhân riêng lẻ từ nhiều nguồn lâm sàng khác nhau và hợp nhất chúng để đưa ra một cái nhìn thống nhất về lịch sử bệnh nhân.

Hộp đen: Dữ liệu được tạo ra bởi hộp đen trong máy bay, máy bay trực thăng và máy bay phản lực Hộp đen sẽ ghi lại hoạt động của chuyến bay, thông báo của phi hành đoàn, tổ bay, và thông tin hiệu suất máy bay.

Hình 1.6 : Nguồn của dữ liệu lớn

Những hạn chế của dữ liệu truyền thống so với dữ liệu lớn

Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS - The Relational Database Management Systems) là phương tiện lưu trữ dữ liệu phổ biến nhất cho đến gần đây để lưu trữ dữ liệu bởi các tổ chức tạo ra Một số lượng lớn nhà cung cấp đã cung cấp những hệ thống cơ sở dữ liệu Các RDBMS này đã được tạo ra để lưu trữ các dữ liệu khi đã vượt quá khả năng lưu trữ của một máy tính Sự ra đời của một công nghệ mới luôn do những hạn chế của các công nghệ cũ và đây cũng là sự cần thiết để vượt qua chúng Dưới đây là những hạn chế của cơ sở dữ liệu truyền thống trong việc xử lý dữ liệu lớn.

Khối lượng dữ liệu tăng theo cấp số nhân, có quy mô tính bằng terabyte và petabyte, đã trở thành một thách thức đối với RDBMS trong việc xử lý khối lượng dữ liệu khổng lồ như vậy. Để giải quyết vấn đề này, RDBMS đã tăng số lượng bộ xử lý và thêm nhiều đơn vị bộ nhớ, do đó đã làm tăng chi phí

Gần 80% dữ liệu được lấy có định dạng cấu trúc là phi cấu trúc mà RDBMS không thể xử lý được.

RDBMS không thể nắm bắt dữ liệu đến với tốc độ cao.

So sánh Big Data và Data mining

Big Data và Data Mining đều là những công nghệ và phương pháp xử lý dữ liệu quan trọng trong thế giới kỹ thuật số hiện nay Tuy nhiên, chúng có mục đích, quy mô và ứng dụng khác nhau và được sử dụng trong các lĩnh vực khác nhau.

Yếu tố so sánh Big Data Data Mining Định nghĩa

Là khối lượng dữ liệu lớn và phức tạp, đòi hỏi các công nghệ và phương pháp xử lý

Là quá trình khai thác tri thức từ dữ liệu, bao gồm việc phân tích dữ liệu để khám đặc biệt để tìm kiếm thông tin hữu ích và triển khai các ứng dụng. phá các mối quan hệ tiềm ẩn, mô hình hóa, dự đoán và tìm kiếm các mẫu.

Giúp tổng hợp và phân tích dữ liệu lớn để tìm ra thông tin cần thiết và tạo ra giá trị.

Tập trung vào phát hiện các mối quan hệ, kiến thức mới và dự đoán trong dữ liệu.

Quy mô dữ liệu Lớn, có thể đến hàng tỷ hoặc triệu GB.

Thường nhỏ hơn so với Big Data, thường chỉ vài GB đến vài TB.

Công nghệ chính Hadoop, Spark, NoSQL,

Phân tích dữ liệu, mô hình hóa, khai thác dữ liệu, phân loại, gom cụm, …

Bảng 1.2 So sánh Big Data và Data Mining

Cơ sở hạ tầng của dữ liệu lớn

Các thành phần cốt lõi của công nghệ dữ liệu lớn là các công cụ và công nghệ cung cấp khả năng lưu trữ, xử lý và phân tích dữ liệu Phương pháp lưu trữ dữ liệu trong các bảng không còn hỗ trợ cho sự phát triển của dữ liệu với 3V, cụ thể là khối lượng, tốc độ và sự đa dạng RDBMS chuẩn mạnh không còn hiệu quả về chi phí Việc mở rộng RDBMS để lưu trữ và xử lý lượng dữ liệu khổng lồ trở nên đắt đỏ Điều này dẫn đến sự xuất hiện của công nghệ mới, có khả năng mở rộng cao với chi phí cực thấp.

Ba công nghệ chính là :

Hadoop – Apache Hadoop, được viết bằng ngôn ngữ Java, là khung nguồn mở hỗ trợ xử lý các tập dữ liệu lớn Nó có thể lưu trữ một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc trong một hệ thống tệp phân tán và xử lý song song Nó là một nền tảng lưu trữ có khả năng mở rộng cao và tiết kiệm chi phí Khả năng mở rộng của Hadoop đề cập đến khả năng duy trì của nó để ngay cả khi tải tăng cao bằng cách thêm nhiều nút hơn Các tệp Hadoop được viết một lần và được đọc nhiều lần Nội dung của các tập tin không thể thay đổi Một số lượng lớn các máy tính được kết nối với nhau làm việc cùng nhau như một hệ thống duy nhất được gọi là một cụm Các cụm Hadoop được thiết kế để lưu trữ và phân tích lượng dữ liệu khổng lồ khác nhau trong môi trường điện toán phân tán theo cách tiết kiệm chi phí.

Hadoop Distributed File system – HDFS được thiết kế để lưu trữ các tập dữ liệu lớn với mẫu truy cập trực tuyến chạy trên phần cứng thương mại giá rẻ Nó không yêu cầu độ tin cậy cao, phần cứng đắt tiền Tập dữ liệu được tạo từ nhiều nguồn, được lưu trữ trong hệ thống tệp HDFS trong một lần ghi, mô hình đọc nhiều lần và các phân tích được thực hiện trên tập dữ liệu để trích xuất kiến thức từ nó.

MapReduce – MapReduce là mô hình lập trình xử lý hàng loạt cho khung

Hadoop, áp dụng nguyên tắc chia để trị Nó có khả năng mở rộng cao, đáng tin cậy và chịu lỗi, có khả năng xử lý dữ liệu đầu vào với bất kỳ định dạng nào trong môi trường điện toán song song và phân tán chỉ hỗ trợ khối lượng công việc hàng loạt Hiệu suất của nó giúp giảm đáng kể thời gian xử lý so với mô hình xử lý hàng loạt truyền thống, vì cách tiếp cận truyền thống là di chuyển dữ liệu từ nền tảng lưu trữ sang nền tảng xử lý, trong khi mô hình xử lý MapReduce nằm trong khung nơi dữ liệu thực sự nằm trong đó.

Cách thức hoạt động

 Tích hợp : Big data có thể tích hợp dữ liệu từ các nguồn, ứng dụng, công cụ khác nhau Với cơ chế tích hợp dữ liệu truyền thống như trích xuất, biến đổi và tải (ETL) không còn phù hợp với nhiệm vụ mới Do đó, cần có công nghệ và chiến lược mới để phân tích các tập cơ sở dữ liệu Big data ở quy mô khổng lồ, như terabyte, thậm chí là petabyte.Trong quá trình tích hợp, cần đảm bảo dữ liệu được định dạng và luôn có sẵn để các nhà phân tích kinh doanh xử lý và đưa ra kết luận chính xác dựa trên nguồn dữ liệu đó.

 Quản lý : Khối lượng dữ liệu lớn cũng đồng nghĩa cần một kho lưu trữ lớn, đó có thể là Cloud (Đám mây điện tử), lưu trữ tại chỗ, cũng có thể là cả hai Cho dù quản lý ở hình thức nào, chỉ cần đưa ra yêu cầu xử lý thì các công cụ đó sẽ hỗ trợ một cách linh hoạt.

 Phân tích :Để có được kết quả phù hợp từ việc phân tích Big data, các nhà khoa học dữ liệu và phân tích dữ liệu phải hiểu chi tiết về các dữ liệu có sẵn cùng những điều mà họ đang tìm kiếm ở đó Việc chuẩn bị dữ liệu như lập hồ sơ, xác nhận, chuyển đổi các tập dữ liệu là những bước đầu tiên trong quá trình phân tích.

Lĩnh vực sử dụng BigData

 Ngân hàng : Khi thu thập được một khối lượng lớn dữ liệu từ các nguồn, ngân hàng phải tìm ra những phương pháp mới để quản lý Big data Bên cạnh việc hiểu và làm hài lòng khách hàng, các ngân hàng cũng phải giảm thiểu rủi ro và chống gian lận mà vẫn tuân thủ quy định của pháp luật. Ứng dụng Big data vào hoạt động giúp các ngân hàng đưa ra quyết định quan trọng, chẳng hạn:

- Hệ thống phân tích có thể xác định các địa điểm xây dựng chi nhánh mới - nơi tập trung các khách hàng tiềm năng.

- Dự đoán số lượng tiền mặt cần thiết để cung ứng tại một địa điểm giao dịch cụ thể.

- Đặc biệt là các ngân hàng số, dữ liệu chính là xương sống của họ.

- Học máy, AI được sử dụng để phát hiện các hành vi gian lận và kịp thời báo cáo cho các chuyên viên làm nhiệm vụ.

 Giáo dục : Trong ngành giáo dục, việc xử lý các dữ liệu bảo mật, thông tin về học sinh, sinh viên, giảng viên, tài liệu, đều phải được xử lý nhanh gọn Do đó, Big data ứng dụng vào giáo dục mang lại nhiều chức năng hữu ích, bao gồm:

- Phân tích, lưu trữ, quản lý các bộ dữ liệu lớn bao gồm hồ sơ của sinh viên, học sinh.

- Sử dụng hệ thống quản lý Big data có khả năng trích xuất phân cấp để duy trì tính bảo mật.

- Cung cấp các dữ liệu cần thiết về các hoạt động trong lớp và giúp đưa ra quyết định cho giáo viên, người tham gia giảng dạy.

- Giúp các bộ đề kiểm tra không thể bị lộ.

 Nghành bán lẻ : Trong ngành bán lẻ, một khối lượng dữ liệu lớn luôn cần được xử lý, những dữ liệu này được các doanh nghiệp bán lẻ thu thập để đưa ra chiến lược phát triển sản phẩm, các chiến dịch Marketing, Ứng dụng Big data trong ngành bán lẻ bao gồm những chức năng như sau:

- Giúp nhà quản lý xây dựng mô hình chi tiêu của mỗi khách hàng

- Với các phân tích dự đoán, có thể nắm bắt và so sánh được tỷ lệ cung - cầu, đồng thời tránh các sản phẩm không phù hợp với nhu cầu thị trường

- Xác định được vị trí bày trí các sản phẩm lên kệ dựa vào thói quen và nhu cầu mua sắm của khách hàng

- Kết hợp phân tích các dữ liệu về thời điểm, truyền thông xã hội, giao dịch, để xác định các sản phẩm phù hợp nhằm cung ứng cho khách hàng.

 Y tế :Một hệ thống kém hiệu quả có thể kìm hãm những lợi ích chăm sóc sức khỏe tốt hơn Điều này xảy ra khi dữ liệu điện tử không đủ hoặc không có sẵn Big data sẽ đóng góp nhiều chức năng hữu ích trong ngành Y tế Tại Việt Nam, ngành Y tế đang sử dụng các dữ liệu thu thập được từ ứng dụng điện thoại về những bệnh nhân bị Covid để quản lý và đưa ra những thông tin kịp thời.

Hoặc tại một số bệnh viện hiện nay sử dụng Big data để thu thập dữ liệu thông tin người khám bệnh, đặt lịch hẹn với bác sĩ thông qua ứng dụng điện thoại Một số chức năng của Big data trong ngành Y tế bao gồm:

- Cho phép người quản lý ca biết được bác sĩ cụ thể vào những thời điểm khác nhau.

- Dựa vào hồ sơ sức khỏe điện tử để theo dõi tình trạng của bệnh nhân

- Đánh giá tình trạng bệnh thông qua các triệu chứng và xác định một số bệnh ở giai đoạn đầu.

- Sử dụng các thiết bị kỹ thuật số như vòng đeo tay thông minh, hệ thống Big data có thể dựa vào đó để theo dõi tình trạng bệnh và gửi báo cáo cho bác sĩ.

- Lưu trữ những hồ sơ nhạy cảm, có tính bảo mật cao một cách hiệu quả

- Ứng dụng Big data cũng có thể báo các khu vực có nguy cơ bùng phát dịch như sốt rét, sốt xuất huyết, Covid-19,

 Truyền thông và giải trí :Các công ty truyền thông và giải trí cần đẩy mạnh chuyển đổi số để phân phối sản phẩm và nội dung nhanh nhất đến thị trường

Big data có nhiều ứng dụng hữu ích như:

- Xác định thiết bị và thời gian có hiệu quả nhất thông qua việc phân tích các dữ liệu

- Các công ty truyền thông, nghệ sĩ hoặc người phụ trách truyền thông có thể chọn địa điểm tần suất phân phối.

- Xem xét mức độ phổ biến, nghệ sĩ có thể chọn thiết bị, hệ điều hành để phân phối các sản phẩm, nội dung của mình.

 Digital Marketing :Giờ đây, dường như bất kỳ doanh nghiệp nào cũng cần đến Digital Marketing để đưa sản phẩm/ dịch vụ của mình đến gần và rộng hơn với người tiêu dùng.

Big data đã góp một phần lớn cho Digital Marketing phát triển mạnh mẽ như hiện tại, ví dụ:

- Phân tích thị trường và các đối thủ cạnh tranh Đồng thời đánh giá mục tiêu kinh doanh của doanh nghiệp, xác định đâu là cơ hội, đâu là thách thức để tiếp tục tiến hành các kế hoạch kinh doanh khác.

- Xác định người dùng trên các phương tiện truyền thông xã hội, dựa vào nhân khẩu học như giới tính, tuổi tác, sở thích, thu nhập, để xác định khách hàng mục tiêu.

- Xác định các chủ đề, nội dung được người dùng tìm kiếm nhiều để xây dựng chiến lược nội dung SEO trên công cụ tìm kiếm.

- Tạo các đối tượng tương tự thông qua việc sử dụng các cơ sở dữ liệu đối tượng hiện có để nhắm mục tiêu đến các khách hàng tương tự, từ đó kiếm được lợi nhuận.

 Giao thông vận tải : Ứng dụng Big data vào ngành giao thông vận tải cũng mang lại nhiều chức năng như:

- Kiểm soát các tuyến đường xe buýt để cung cấp thông tin cho người dùng, bắt tuyến xe đúng điểm dừng và đúng thời gian.

- Các công ty vận tải tư nhân có thể ứng dụng Big data vào quản lý tài sản, kiểm tra và cải tiến công cụ, tối ưu hóa quy trình vận hành,

- Ứng dụng Big data vào lập kế hoạch lộ trình, sắp xếp các phương tiện đi lại, di chuyển tới các điểm điểm khác nhau khi đi du lịch,

 Dịch vụ khách hàng : Ngoài chất lượng sản phẩm, dịch vụ tốt là điều mà khách hàng kỳ vọng nhiều nhất Trong giai đoạn mới tham gia vào thị trường, Big data sẽ giúp chủ doanh nghiệp tìm ra những giải pháp và những đề xuất tối ưu để hiểu được khách hàng và tìm ra lợi thế cạnh tranh.

Cách thức ứng dụng Big Data vào dịch vụ khách hàng

- Xác định yêu cầu khách hàng, tập trung thực hiện các nhu cầu và kỳ vọng để làm hài lòng họ.

DỮ LIỆU LỚN VÀ ĐIỆN TOÁN ĐÁM MÂY

Điện toán đám mây

Điện toán đám mây (Cloud Computing), còn gọi là điện toán máy chủ ảo, là mô hình điện toán sử dụng công nghệ máy tính và phát triển dựa vào mạng Internet Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ mạng Internet (dựa vào cách được bố trí của nó trong sơ đồ mạng máy tính) và như sự liên tưởng về độ phức tạp của các cơ sở hạ tầng chứa trong nó Ở mô hình điện toán này, mọi khả năng liên quan đến công nghệ thông tin đều được cung cấp dưới dạng các "dịch vụ", cho phép người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp nào đó "trong đám mây" mà không cần phải có các kiến thức, kinh nghiệm về công nghệ đó, cũng như không cần quan tâm đến các cơ sở hạ tầng phục vụ công nghệ đó Theo tổ chức IEEE: "Nó là hình mẫu trong đó thông tin được lưu trữ thường trực tại các máy chủ trên Internet và chỉ được lưu trữ tạm thời ở các máy khách, bao gồm máy tính cá nhân, trung tâm giải trí, máy tính trong doanh nghiệp, các phương tiện máy tính cầm tay, " Điện toán đám mây là khái niệm tổng thể bao gồm cả các khái niệm như phần mềm dịch vụ, Web 2.0 và các vấn đề khác xuất hiện gần đây, các xu hướng công nghệ nổi bật, trong đó đề tài chủ yếu của nó là vấn đề dựa vào Internet để đáp ứng những nhu cầu điện toán của người dùng Ví dụ, dịch vụ Google AppEngine cung cấp những ứng dụng kinh doanh trực tuyến thông thường, có thể truy nhập từ một trình duyệt web, còn các phần mềm và dữ liệu đều được lưu trữ trên các máy chủ.Điện toán đám mây là mô hình cung cấp tài nguyên máy tính cho người dùng tùy theo mục đích sử dụng thông qua kết nối Internet Nguồn tài nguyên này bao gồm rất nhiều thứ liên quan đến điện toán và máy tính, ví dụ như: phần mềm, dịch vụ, phần cứng,… và sẽ nằm tại các máy chủ ảo (đám mây) trên mạng Người dùng có thể truy cập vào bất cứ tài nguyên nào trên đám mây Vào bất kỳ thời điểm nào và ở bất kỳ đâu, chỉ cần kết nối với hệ thống internet.

Các loại điện toán đám mây

Điện toán đám mây làm cho việc chia sẻ tài nguyên đơn giản hơn đáng kể Với sự phát triển của công nghệ điện toán đám mây, các tài nguyên được kết nối thông qua các mạng công cộng hoặc tư nhân để cung cấp cơ sở hạ tầng có khả năng mở rộng cao để lưu trữ và các ứng dụng khác Client chọn dịch vụ đám mây không cần phải lo lắng về việc cập nhật phiên bản phần mềm mới nhất, sẽ được các nhà cung cấp dịch vụ đám mây chăm sóc Công nghệ điện toán đám mây được phân loại thành ba loại dựa trên cơ sở hạ tầng của nó: Đám mây công khai : Trong một đám mây công khai, các dịch vụ được cung cấp qua internet bởi các nhà cung cấp thứ ba Các tài nguyên như lưu trữ được cung cấp cho Client thông qua Internet Client được phép sử dụng các dịch vụ trên mô hình trả tiền, giúp giảm đáng kể chi phí Trong một mô hình trả tiền, Client được yêu cầu chỉ trả tiền cho các tài nguyên được tiêu thụ Ưu điểm của đám mây công khai là tính khả dụng, giảm đầu tư và giảm bảo trì vì tất cả các hoạt động bảo trì bao gồm phần cứng và phần mềm được thực hiện bởi các nhà cung cấp dịch vụ đám mây Các Client được cung cấp các phiên bản cập nhật của phần mềm và bất kỳ sự gia tăng không lường trước nào trong các yêu cầu về năng lực phần cứng được xử lý bởi các nhà cung cấp dịch vụ Dịch vụ đám mây công khai có quy mô lớn hơn, cung cấp theo yêu cầu

Khả năng mở rộng cho Client của mình Một vài ví dụ về đám mây công khai là IBM Blue Cloud, Amazon, Cloud và Windows Azure Services nền tảng Mây công khai có thể không phải là một lựa chọn đúng đắn cho tất cả các tổ chức vì những hạn chế về cấu hình và bảo mật vì các yếu tố này được quản lý hoàn toàn bởi các nhà cung cấp dịch vụ Lưu tài liệu vào iCloud, Google Drive và phát nhạc từ Amazon Cloud Cloud Player đều là những dịch vụ đám mây công khai. Đám mây riêng : Một đám mây riêng còn được gọi là đám mây công ty hoặc đám mây nội bộ Chúng được sở hữu độc quyền bởi một công ty duy nhất có quyền kiểm soát duy trì trung tâm dữ liệu của riêng mình Mục đích chính của một đám mây riêng là không bán dịch vụ cho Client bên ngoài mà là để có được những lợi ích của kiến trúc đám mây Mây tư nhân tương đối đắt hơn so với các đám mây công khai Mặc dù chi phí gia tăng và bảo trì đám mây riêng, các công ty thích một đám mây riêng để giải quyết mối quan tâm liên quan đến bảo mật của dữ liệu và giữ tài sản trong tường lửa, thiếu một đám mây riêng Mây tư nhân không phù hợp nhất cho doanh nghiệp vừa và nhỏ, nhưng chúng phù hợp hơn cho các doanh nghiệp lớn hơn Hai biến thể của một đám mây riêng là đám mây riêng trên cơ sở và đám mây riêng được lưu trữ bên ngoài Đám mây riêng tại chỗ là đám mây nội bộ được lưu trữ trong trung tâm dữ liệu của một tổ chức Nó cung cấp nhiều bảo mật hơn nhưng thường có giới hạn về kích thước và khả năng mở rộng của nó Đây là những điều phù hợp nhất cho các doanh nghiệp yêu cầu kiểm soát hoàn toàn bảo mật Một đám mây riêng được lưu trữ bên ngoài được lưu trữ bởi các nhà cung cấp dịch vụ đám mây bên ngoài với sự đảm bảo đầy đủ về quyền riêng tư Trong một đám mây riêng được lưu trữ bên ngoài, các máy khách được cung cấp một môi trường đám mây độc quyền Kiểu kiến trúc đám mây này được ưa thích bởi các tổ chức không quan tâm đến việc sử dụng đám mây công khai vì các vấn đề bảo mật và rủi ro liên quan đến việc chia sẻ tài nguyên. Đám mây lai: Mây lai là sự kết hợp giữa các đám mây công khai và riêng tư trong đó lợi thế của cả hai loại môi trường đám mây Một đám mây lai sử dụng các nhà cung cấp dịch vụ đám mây của bên thứ ba hoặc một phần Một đám mây lai có ít nhất một đám mây công khai và một đám mây riêng Do đó, một số tài nguyên được quản lý trong nhà và một số tài nguyên được mua từ các nguồn bên ngoài

Nó đặc biệt có lợi trong các cửa sổ bảo trì theo lịch trình Nó đã tăng tính linh hoạt của điện toán và cũng có khả năng cung cấp khả năng mở rộng theo yêu cầu.

Mô hình dịch vụ Điện toán đám mây

Mô hình dịch vụ điện toán đám mây chủ yếu đề cập đến cách thức phân phối các tài nguyên công nghệ thông tin (cả phần mềm và phần cứng) qua mạng internet tới người dùng.

Các mô hình dịch vụ điện toán đám mây đều được xây dựng dựa trên cấu trúc cơ bản của điện toán đám mây: Chúng cung cấp tài nguyên công nghệ thông tin qua internet, có thể miễn phí hoặc thu phí người dùng dựa theo mức sử dụng Ngoài ra, khách hàng có thể yêu cầu ngừng sử dụng dịch vụ bất cứ khi nào họ muốn

Tuy nhiên mỗi mô hình lại khác nhau ở thiết kế, mức độ linh hoạt, khả năng mở rộng, kiểm soát và quản lý Hiện nay có 3 mô hình dịch vụ điện toán đám mây chủ yếu là SaaS, PaaS và IaaS Mỗi mô hình đáp ứng nhu cầu của những đối tượng người dùng khác nhau.

Hình 1.7 : Mô phỏng mức độ cung cấp tài nguyên CNTT của SaaS, PaaS và IaaS.

 SaaS – Phần mềm dưới dạng dịch vụ : Trong các loại dịch vụ điện toán đám mây, mô hình SaaS chính là mô hình phổ biến nhất hiện nay, có thể sử dụng rộng rãi cho mọi đối tượng.

SaaS là viết tắt của thuật ngữ “Software as a Service”, là mô hình dịch vụ cung cấp cho người dùng quyền truy cập vào một ứng dụng hoặc phần mềm được xây dựng hoàn chỉnh Chúng có đầy đủ chức năng và tác vụ đáp ứng các nhu cầu của người dùng (phần lớn là người dùng cuối) và giúp họ giải quyết các vấn đề cụ thể.

Các ứng dụng SaaS được cung cấp tới người dùng dựa trên nền tảng điện toán đám mây theo một trong các dạng: ứng dụng trên máy tính ,ứng dụng cho thiết bị di động ,tiện ích trên trình duyệt web.

- Đặc điểm của mô hình dịch vụ điện toán đám mây SaaS : SaaS là giải pháp giúp người sử dụng tiết kiệm chi phí, năng lượng, nguồn lực CNTT nhờ những đặc điểm nổi bật.

Triển khai nhanh chóng, dễ sử dụng: Khi đăng ký mua một sản phẩm theo mô hình SaaS, người dùng sẽ nhận về một giải pháp hoàn thiện và sẵn sàng để truy cập, sử dụng Họ không cần đầu tư nhiều cơ sở hạ tầng, tài nguyên điện toán để thiết lập, cấu hình và vận hành ứng dụng; cũng không cần phải nâng cấp phần mềm hay bảo trì máy chủ và hệ điều hành mà ứng dụng đang chạy, những việc này thuộc về trách nhiệm của nhà cung cấp.

Tuy nhiên điều này cũng đồng nghĩa với việc người dùng khó có thể tùy chỉnh phần mềm để đáp ứng tối đa mọi nhu cầu của mình bởi đây là ứng dụng được thiết kế sẵn.

Nhà cung cấp SaaS lưu trữ và duy trì các máy chủ, cơ sở dữ liệu, mã code cấu thành ứng dụng Người dùng chỉ cần đăng ký và sử dụng.

Khả năng truy cập dễ dàng: Người dùng có thể truy cập ứng dụng SaaS từ mọi nơi, trên mọi thiết bị có kết nối internet.

Tuy nhiên, chính vì mô hình dịch vụ SaaS hoạt động dựa trên internet, vì vậy khi kết nối mạng không ổn định hoặc bị lỗi thì có thể sinh ra thời gian chết, người dùng sẽ không thể truy cập vào ứng dụng và các dữ liệu đã được lưu trên đám mây.

Có thể tích hợp với các nền tảng và dịch vụ khác: Để đáp ứng tốt hơn nhu cầu của người dùng, một ứng dụng SaaS có thể sử dụng giao thức API để tích hợp với các ứng dụng hoặc nền tảng khác Từ đó giúp người dùng tùy chỉnh các tính năng của ứng dụng một cách dễ dàng và tiết kiệm chi phí.

Chi phí phải trả dựa theo nhu cầu hoặc mức sử dụng (Pay-as-you-go): Chi phí sử dụng SaaS (nếu có) được thanh toán định kỳ hàng tháng hoặc hàng năm Các nhà cung cấp SaaS thường đưa ra nhiều lựa chọn đăng ký gói cước, các gói được thiết kế dựa trên nhu cầu sử dụng ít hay nhiều của người dùng và được định giá từ cao tới thấp.

- SaaS phù hợp cho ứng dụng nào : Mô hình SaaS được sử dụng phổ biến cho mục đích hợp tác hoặc làm việc nhóm, điều phối quy trình làm việc cho một tổ chức/doanh nghiệp Các ứng dụng phổ biến nhất của SaaS có thể kể đến:

Hệ thống CRM quản lý quan hệ khách hàng

Hệ thống ERP hoạch định nguồn lực của doanh nghiệp.

Quản lý nội dung web.

Phục vụ các chiến dịch email marketing (tiếp thị qua email).

Phục vụ ngành bán lẻ và thương mại điện tử.

Các phần mềm thanh toán và lập hóa đơn, phần mềm kế toán, phần mềm bán hàng, phần mềm nhân sự, phần mềm bảo mật, hệ thống quản lý tài sản,…

Phần mềm phục vụ hội họp, trò chuyện qua cuộc gọi video,…

Phần mềm quản lý dự án.

Hình 1.9 : Các sản phẩm SaaS

Các sản phẩm SaaS cực kỳ đa dạng và có thể đáp ứng rất nhiều yêu cầu của người dùng.

Ví dụ về SaaS : Một số dịch vụ điện toán đám mây triển khai dựa trên mô hình

SaaS nổi tiếng hiện nay là Microsoft 365, Google Workspace, Salesforce, Slack, VNPT Invoice, VNPT eContract,…

So sánh các loại hình dịch vụ của điện toán đám mây

Việc so sánh và nắm bắt sự khác biệt của ba loại mô hình SaaS, PaaS và IaaS sẽ giúp khách hàng lựa chọn được bộ dịch vụ phù hợp nhất Đặc biệt là với các cơ quan, doanh nghiệp, vì mỗi đơn vị đều có quy mô, định hướng, nguồn lực, thế mạnh và đối mặt với những vấn đề thách thức khác nhau, vì vậy việc áp dụng mô hình đám mây phù hợp là điều rất quan trọng.

Sự khác biệt lớn nhất giữa IaaS, PaaS và SaaS là mức độ trách nhiệm của nhà cung cấp là nhiều hay ít.

Giải thích theo cách dễ hiểu nhất, IaaS tương tự như việc thuê một căn hộ trống

Trong khi đó, PaaS tương tự như việc thuê một căn hộ có nội thất cơ bản, nhưng người thuê vẫn phải sắm sửa các đồ gia dụng và đồ dùng sinh hoạt hàng ngày

Và cuối cùng, việc sử dụng SaaS có thể hiểu như việc thuê một căn hộ đầy đủ mọi tiện nghi.

Hình 1.14 : Sự phân chia trách nhiệm quản lý của các loại mô hình dịch vụ điện toán đám mây so với mô hình tại chỗ. Để có sự nhìn nhận cụ thể hơn, mời bạn đọc tham khảo bảng so sánh ba loại hình dịch vụ của điện toán đám mây dưới đây:

Cung cấp Tài nguyên phần cứng cơ bản

Một giải pháp đóng gói gồm công cụ phần cứng và phần mềm kết hợp Ứng dụng hoàn chỉnh, sẵn sàng để sử dụng

Mục đích Tạo nền tảng để triển khai công nghệ tương tự như điện toán đám mây

Phát triển ứng dụng Đáp ứng những nhu cầu và tác vụ cụ thể

Truy cập Thông qua API hoặc dashboard

Thông qua web Thông qua một trình duyệt hoặc ứng dụng Đối tượng sử dụng

Kỹ sư cơ sở hạ tầng và mạng

Nhà lập trình ứng dụng Người dùng cuối

Trách nhiệm quản lý của nhà cung cấp

Phần mềm giám sát máy ảo (Hypervisor), Máy chủ, Lưu trữ, Mạng vật lý

Thời gian chạy, Phần mềm trung gian, Hệ điều hành, Mạng ảo, Hypervisor, Máy chủ, Lưu trữ, Mạng vật lý

Cung cấp, bảo trì và nâng cấp ứng dụng – bao gồm cả cơ sở hạ tầng cơ bản: Ứng dụng, Thời gian chạy, Phần mềm trung gian,

Hệ điều hành, Mạng ảo, Hypervisor, Máy chủ, Lưu trữ, Mạng vật lý

Trách nhiệm quản lý của người dùng

Dữ liệu, Ứng dụng, Thời gian chạy, Phần mềm trung gian, Hệ điều hành, Mạng ảo(Không cần quản lý và bảo trì cơ sở hạ tầng phần cứng cơ bản)

Trách nhiệm quản lý của người dùng

X Độ linh hoạt Mức độ linh hoạt cao

Khả năng kiểm soát gần như trực tiếp đối với cơ sở hạ tầng CNTT

Mức độ linh hoạt tương đối.

Quyền kiểm soát hệ điều hành ít hơn IaaS nhưng lại dễ vận hành hơn

Tính tùy chỉnh không cao

Phụ thuộc vào việc vận hành, quản lý và bảo trì của nhà cung cấp

Tự xây dựng chính sách bảo mật riêng, không phụ thuộc nhiều vào chính sách của bên cung cấp.

Người dùng phụ thuộc hầu hết vào các chính sách và điều khoản sẵn có của nhà cung cấp

Người dùng thiếu một số quyền kiểm soát đối với giải pháp PaaS, phải phụ thuộc vào chính sách của nhà cung cấp

Mọi dữ liệu ứng dụng được lưu trữ trên cơ sở dữ liệu đám mây của nhà cung cấp PaaS.

Vì vậy có thể xảy ra rủi ro về quyền riêng tư và dữ liệu người dùng nếu không chọn nhà cung cấp đáng tin cậy

Có thể xảy ra các rủi ro về bảo mật nếu không chọn ứng dụng của nhà cung cấp uy tín

Hình thức kinh doanh nên áp dụng

Phù hợp cho cả công ty mới thành lập, doanh nghiệp nhỏ, các tập đoàn lớn, các tổ chức đang mở rộng quy mô nhanh chóng.

Phù hợp cho doanh nghiệp vừa và nhỏ; hoặc các doanh nghiệp lớn triển khai đám mây riêng tư (Private cloud).

Cả B2B và B2C Phù hợp cho cả doanh nghiệp lớn, doanh nghiệp SME, người dùng cá nhân

Tiết kiệm chi phí đầu tư mà vẫn được tiếp cận hạ tầng máy chủ, bộ lưu trữ và thiết bị mạng tốt nhất.

Không tốn thời gian thiết lập cơ sở hạ tầng CNTT, nhờ đó mà đẩy nhanh tiến độ công việc, giảm thời gian đưa sản phẩm tiếp cận thị trường.

Mức độ linh hoạt cao nhất, có thể thêm dung lượng nhanh chóng vào thời gian cao điểm và giảm quy mô khi cần.

Hỗ trợ khắc phục sau

Tạo và triển khai ứng dụng với chi phí thấp hoặc miễn phí Không cần chi phí vận hành cơ sở hạ tầng như IaaS.

Tiết kiệm thời gian định cấu hình hệ thống, giảm số lượng mã code tạo ứng dụng Có thể tạo ứng dụng đa nền tảng rất nhanh chóng.

Không cần bảo trì liên tục

Quá trình bảo trì cũng dễ dàng hơn so với mô hình IaaS.

Bản nâng cấp PaaS do nhà cung cấp quản lý và thực hiện, người dùng không cần

Chi phí rẻ nhất, rủi ro đầu tư thấp, chỉ cần mất một khoản phí đăng ký rất nhỏ. Ứng dụng sẵn có, triển khai nhanh chóng, dễ hiểu, dễ vận hành Không cần kiến thức kỹ thuật.

Dễ dàng mở rộng quy mô hoặc tích hợp với các dịch vụ SaaS khác.

Luôn tự động bảo trì, cải tiến, cập nhật các phiên bản mới nhất, thảm họa Giảm thời gian chết IaaS có thể chạy ngay cả khi máy chủ gặp sự cố.

Có thể làm việc trên một phần cứng duy nhất ở mọi nơi và mọi lúc. can thiệp.

Dễ dàng cộng tác nhóm Có thể truy cập và làm việc trên PaaS từ mọi nơi. đảm bảo theo kịp xu hướng phát triển công nghệ trên thế giới.

Dễ dàng làm việc nhóm Có thể sử dụng cho mọi bộ phận/phòng ban trong doanh nghiệp.

Bảng 1.3 : Bảng so sánh ba loại hình dịch vụ của điện toán đám mây

Tùy theo nhu cầu và mục tiêu phát triển, trong một tổ chức có thể sử dụng kết hợp từ hai hoặc cả ba mô hình dịch vụ điện toán đám mây Tuy nhiên trước khi xem xét triển khai các loại mô hình này, người dùng cần cân nhắc một số điều quan trọng:

 Người dùng phải xác định mình cần bao nhiêu dung lượng lưu trữ.

 Xem xét mọi chính sách và thỏa thuận của nhà cung cấp liên quan đến tính bảo mật

 Phải có chuyên viên CNTT có trình độ và khả năng xử lý khối lượng công việc với IaaS

 Đề phòng những cuộc tấn công hệ thống mạng diễn ra từ trong nội bộ như hành vi nghe trộm, đánh cắp hoặc hủy hoại dữ liệu…

 Người dùng cần biết về chính sách và các biện pháp bảo mật của nhà cung cấp để đảm bảo hệ thống và dữ liệu không bị tấn công

 Trao đổi với nhà cung cấp để nắm rõ khả năng tương thích với các mô hình khác.

 Nắm rõ quy trình đồng bộ hóa thông tin từ cơ sở lưu trữ tại chỗ sang bộ lưu trữ của PaaS

 Một khi đã chọn dịch vụ Paas của một nhà cung cấp, sẽ rất khó để thay đổi nhà cung cấp khác và khó kết nối với các nền tảng PaaS khác.

Chọn sản phẩm SaaS từ nhà cung cấp uy tín để tránh nguy cơ bị lộ thông tin, bị đánh cắp dữ liệu trái phép Ngoài ra, luôn phải có biện pháp tự bảo vệ dữ liệu.

Nhìn chung, các mô hình dịch vụ điện toán đám mây SaaS, PaaS và IaaS đều mang lại những lợi thế riêng cho người dùng và có các trường hợp sử dụng phù hợp Dù lựa chọn mô hình nào thì điều quan trọng là cần tìm nhà cung cấp dịch vụ uy tín cho người dùng

Tại Việt Nam, tập đoàn VNPT là một trong những đơn vị cung cấp hệ sinh thái chuyển đổi số uy tín, bao gồm các giải pháp IaaS cho hạ tầng mạng ảo, và các sản phẩm SaaS hỗ trợ giao dịch điện tử, quản trị doanh nghiệp và phục vụ chuyên môn

Bằng việc đầu tư cơ sở hạ tầng hiện đại và các trung tâm lưu trữ dữ liệu đạt tiêu chuẩn quốc tế cao nhất, VNPT đảm bảo hỗ trợ khách hàng xây dựng môi trường làm việc linh hoạt, hợp lý hóa quy trình, nâng cao năng suất, hiệu quả công việc và đặc biệt an toàn, bảo mật.

Mối quan hệ của Điện toán đám mây và Big Data

Big data lấy xuất phát điểm từ đám mây Apache Hadoop, một trong những công nghệ big data phổ biến nhất hiện nay, được xây dựng trên cơ sở nghiên cứu từ phía Google và triển khai lần đầu tại Yahoo Ban đầu, Google sáng tạo ra công nghệ này bởi việc biên soạn lập chỉ mục các trang Web là bất khả thi với hệ thống sẵn có lúc bấy giờ Giờ đây các công ty sử dụng Hadoop đang đưa kiến trúc đám mây vào các trung tâm dữ liệu của họ.

Hình 1.15 : Sự kết hợp giữa Dữ liệu lớn và Điện toán đám mây

Sự trỗi dậy đồng thời của cả đám mây và big data không hẳn là trùng hợp Trên thực tế, chúng yểm trợ và hoàn thiện lẫn nhau Sự mở rộng của đám mây không ngừng thúc đẩy khởi tạo và vận hành những công nghệ big data mới thông qua việc tiết kiệm và đơn giản hóa truy cập hệ thống lưu trữ và tài nguyên máy tính Các kiến trúc big data cũng đóng một vai trò quan trọng trong xu thế này Một ví dụ cụ thể có thể kể đến những cải tiến gần đây của hệ sinh thái Apache Hadoop đã cho phép một lượng lớn công việc được chia sẻ và thực thi trên cùng một cluster

Người dùng sẽ có thể chạy nhiều dạng thức kiến trúc trên cùng một Hadoop cluster, còn cluster này sẽ được khởi chạy trên một kiến trúc đám mây Trong hoàn cảnh các kiến trúc big data đang dần trở nên tương đồng hơn, kiến trúc đám mây sẽ bổ sung được nhiều dịch vụ chuyên dụng cho lưu trữ, xử lý và phân tích dữ liệu.

Việc kết hợp giữa big data, điện toán đám mây và các thuật toán, kỹ thuật mới trong biểu thị thông tin làm cho hoạt động phân tích hội tụ – tiến hành phân tích trên dữ liệu từ nhiều nguồn khác nhau trở nên khả thi Những kỹ thuật mới hỗ trợ vận chuyển và quản lý dữ liệu này cũng cho phép phát triển Analytics as a service (AaaS) dựa trên nền tảng đám mây.

Từ mô hình bảo mật và riêng tư tới mô hình định giá, sự kết hợp giữa big data và điện toán đám mây còn tác động không nhỏ tới những khía cạnh ngoài công nghệ của cuộc sống Tồn tại một sự mâu thuẫn giữa mong muốn phân tích hội tụ và điện toán đám mây, bởi cloud thiên nhiều hơn về chia sẻ nhiều dữ liệu và tài nguyên máy tính đa dạng hơn về người truy cập, và nhu cầu kiểm soát bảo mật cá nhân và bảo mật dữ liệu dữ liệu chặt chẽ hơn Mô hình định giá dựa trên thói quen sử dụng đang hướng chúng ta đến suy nghĩ khác về cách sản xuất và sử dụng công nghệ Các nghiên cứu trong tương lai sẽ xem xét những ứng dụng trên các lĩnh vực kinh tế và chính trị được phát triển từ những bước tiến hiện đại trong công nghệ này.

Không chỉ thế, nghiên cứu tới đây sẽ kiểm nghiệm cách thức con người vận dụng kết hợp những xu thế này với nhau, sự phát triển của big data trên nền tảng đám mây, và cách mà chúng ta đang dùng data để cải tiến tối ưu đám mây.

Kiến trúc đám mây

Kiến trúc đám mây (Cloud Architecture) là bộ khung thiết kế và tổ chức các thành phần cơ bản, phần mềm, dịch vụ và quy trình để xây dựng và vận hành một môi trường điện toán đám mây Nó bao gồm các yếu tố về cơ sở hạ tầng, dịch vụ, quản lý, an ninh và triển khai ứng dụng và tài nguyên IT trong môi trường đám mây.

Các thành phần cơ bản của kiến trúc đám mây bao gồm:

Cơ sở hạ tầng hệ thống: Đây là phần cung cấp tài nguyên vật lý và ảo, bao gồm máy chủ, mạng, lưu trữ và các nguồn tài nguyên tính toán để hỗ trợ các dịch vụ và ứng dụng đám mây.

 Dịch vụ điện toán: Bao gồm các dịch vụ cung cấp tính toán, lưu trữ, mạng, quản lý, dữ liệu và nhiều dịch vụ khác, được triển khai trên môi trường đám mây và cung cấp cho người dùng.

 Phần mềm và ứng dụng: Các ứng dụng và phần mềm được phát triển và triển khai trên môi trường đám mây, bao gồm ứng dụng web, mobile, dịch vụ thông tin, trí tuệ nhân tạo, machine learning, IoT và nhiều loại ứng dụng khác.

 Quản lý tài nguyên và tự động hóa: Các công cụ và quy trình để quản lý và tự động hóa việc triển khai, giám sát, và quản lý tài nguyên trong môi trường đám mây, bao gồm cả quản lý mật khẩu, quản lý người dùng và quản lý quyền.

Bảo mật và Tuân thủ Quy định: Đảm bảo an toàn và bảo mật cho dữ liệu, hệ thống và tài nguyên thông tin, đồng thời tuân thủ các chuẩn mạng, quy định pháp luật và các tiêu chuẩn bảo mật.

Kiến trúc đám mây thường đa dạng và có thể linh hoạt, có thể được triển khai dưới nhiều hình thức khác nhau như đám mây công cộng, riêng tư, hybrid và multi- cloud, phụ thuộc vào nhu cầu và yêu cầu cụ thể của tổ chức hoặc doanh nghiệp Mục tiêu chính của kiến trúc này là tạo ra một môi trường ổn định, linh hoạt và an toàn để triển khai và vận hành các dịch vụ và ứng dụng trên môi trường đám mây.

CLOUD Challenges

Điện toán đám mây được đặt ra với nhiều thách thức trong xử lý dữ liệu và thông tin Một số thách thức là:

- Bảo mật và Quyền riêng tư: Bảo mật luôn là một vấn đề lớn khi dữ liệu được lưu trữ và xử lý trên đám mây Lo ngại về việc dữ liệu có thể bị hack, lộ thông tin, hoặc vi phạm quyền riêng tư của người dùng đều là những thách thức đáng kể.

- Độ tin cậy và sẵn sàng của dịch vụ: Điện toán đám mây đang phải đối mặt với thách thức về độ tin cậy và sẵn sàng của dịch vụ Sự cố kỹ thuật hoặc gián đoạn trong mạng có thể gây ra nguy cơ mất dữ liệu hoặc làm gián đoạn các dịch vụ quan trọng.

- Quản lý dữ liệu: Quản lý dữ liệu trên môi trường đám mây, đặc biệt là khi có lượng dữ liệu lớn, có thể trở nên phức tạp Việc sao lưu, đồng bộ và quản lý dữ liệu một cách hiệu quả đòi hỏi sự chú ý đặc biệt.

- Tuân thủ quy định và pháp luật: Các nhà cung cấp dịch vụ đám mây cần tuân thủ nhiều quy định pháp luật về bảo vệ dữ liệu, quyền riêng tư và an ninh thông tin Điều này đặt ra nhiều thách thức trong việc duy trì sự tuân thủ đầy đủ và đáp ứng yêu cầu pháp lý đa dạng.

- Hiệu suất và Tốc độ: Đôi khi, việc truy cập dữ liệu và ứng dụng từ môi trường đám mây có thể chậm hơn so với việc sử dụng cơ sở hạ tầng nội bộ Điều này có thể ảnh hưởng đến hiệu suất và trải nghiệm người dùng.

- Chi phí và Tính linh hoạt: Mặc dù điện toán đám mây có thể tiết kiệm chi phí so với việc xây dựng cơ sở hạ tầng riêng, nhưng việc dự đoán chi phí có thể trở thành một thách thức Đôi khi, việc tính toán chi phí và quản lý ngân sách trong môi trường đám mây có thể phức tạp.

LƯU TRỮ VÀ TÍNH TOÁN DỮ LIỆU LỚN TRONG HADOOP

APACHE HADOOP

Hadoop là một dạng framework, cụ thể là Apache Apache Hadoop là một mã nguồn mở cho phép sử dụng các distributed processing (ứng dụng phân tán) để quản lý và lưu trữ những tệp dữ liệu lớn Hadoop áp dụng mô hình MapReduce trong hoạt động xử lý Big Data.

Vậy MapReduce là gì? MapReduce vốn là một nền tảng được Google tạo ra để quản lý dữ liệu của họ Nhiệm vụ của MapReduce là tiếp nhận một khối lượng dữ liệu lớn Sau đó sẽ tiến hành tách các dữ liệu này ra thành những phần nhỏ theo một tiêu chuẩn nào đó Từ đó sẽ sắp xếp, trích xuất các tệp dữ liệu con mới phù hợp với yêu cầu của người dùng Đây cũng là cách mà thanh tìm kiếm của Google hoạt động trong khi chúng ta sử dụng hằng ngày.

Còn bản thân Hadoop cũng là một dạng công cụ mẫu giúp phân tán dữ liệu theo mô hình như vậy Cho nên MapReduce được sử dụng như một nền tảng lý tưởng của Hadoop Về cơ bản, Hadoop sẽ giúp người dùng tổng hợp và xử lý một lượng thông tin lớn trong thời gian ngắn bằng MapReduce.

Còn với chức năng lưu trữ, Hadoop sẽ dùng HDFS HDFS là gì? Nó được biết đến như một kho thông tin có độ truy cập nhạy và chi phí thấp.

Hadoop được phát triển nên từ ngôn ngữ Java Tuy nhiên nó vẫn hỗ trợ một số ngôn ngữ lập trình khác như C++, Python hay Pearl nhờ cơ chế streaming.

Kiến trúc của Apache Hadoop

Hadoop có một cấu trúc liên kết master-slave Trong cấu trúc này, chúng ta có một node master và nhiều node slave Chức năng của node master là gán một tác vụ cho các node slave khác nhau và quản lý tài nguyên Các node slave là máy tính thực tế có thể không mạnh lắm Các node slave lưu trữ dữ liệu thực trong khi trên master chúng ta có metadata.

Kiến trúc của Hadoop bao gồm các thành phần chính sau:

 Hadoop Common: Đây là tập hợp các thư viện và các công cụ hỗ trợ cho các thành phần khác của Hadoop Bao gồm các thư viện và công cụ cần thiết để hỗ trợ xử lý dữ liệu trong hệ thống đám mây.

 Hadoop Distributed File System (HDFS): HDFS là hệ thống tập tin phân tán của Hadoop, được thiết kế để lưu trữ dữ liệu trên các nút khác nhau trong một cụm Nó chia nhỏ dữ liệu thành các khối và phân phối chúng trên nhiều nút để đảm bảo tính sẵn sàng và an toàn của dữ liệu.

 YARN (Yet Another Resource Negotiator): YARN là một framework quản lý tài nguyên trong Hadoop Nó giúp quản lý và phân phối tài nguyên tính toán (CPU, bộ nhớ) trên các nút trong cụm Hadoop để chạy các ứng dụng MapReduce hoặc các framework khác.

 MapReduce: MapReduce là mô hình lập trình và framework cho xử lý dữ liệu song song trong Hadoop Nó chia nhỏ các tác vụ xử lý thành các phần nhỏ được thực hiện trên nhiều nút trong cụm, sau đó tổng hợp kết quả từ các phần nhỏ này để tạo ra kết quả cuối cùng.

 Hadoop Ecosystem: Ngoài các thành phần cơ bản, Hadoop có một hệ sinh thái phong phú với các thành phần khác nhau như Hive (truy vấn dữ liệu có cấu trúc), Pig (xử lý dữ liệu), HBase (cơ sở dữ liệu phân tán), Spark

(framework xử lý dữ liệu nhanh), và nhiều công cụ khác Các thành phần này mở rộng khả năng và tính linh hoạt của Hadoop cho nhiều mục đích xử lý dữ liệu khác nhau.

Hình 1.17 : 3 lớp chính của kiến trúc Hadoop

Tổng quan về các thành phần trong hệ sinh thái Hadoop

Hệ sinh thái Hadoop gồm 4 lớp khác nhau:

Lớp lưu trữ dữ liệu: gồm HDFS và HBase, Trong HDFS dữ liệu được lưu trữ trong môi trường phân tán, HBase là cơ sở dữ liệu hướng cột lưu trữ dữ liệu có cấu trúc.

Lớp xử lý dữ liệu: bao gồm MapReduce và YARN Quá trình xử lý công việc được thực hiện bởi Reduce Map, việc phân bổ tài nguyên, lập lịch và giám sát công việc được thực hiện bởi YARN.

Lớp truy cập dữ liệu: bao gồm Hive, Pig, Mahout, Avro và SQOOP Hive là một ngôn ngữ truy vấn dùng để truy cập vào dữ liệu trong HDFS, Pig là một ngôn ngữ kịch bản phân tích dữ liệu cấp cao Mahout là nền tảng máy học Avro là một thư viện tuần tự hóa dữ liệu, SQOOP là một công cụ chuyển đổi dữ liệu từ cơ sở dữ liệu truyền thống sang HDFS và ngược lại.

Lớp quản lý dữ liệu tương tác với người dùng cuối bao gồm Oozie,

Chukwa, Flume, và Zookeeper Oozie là một công cụ lập lịch trình công việc, Chukwa được sử dụng để thu thập và giám sát dữ liệu, Flume sử dụng để định hướng luồng dữ liệu từ nguồn vào HDFS.

Lưu trữ trong Hadoop

- HDFS (Hadoop Distributes File System):HDFS là từ viết tắt của Hadoop Distributes File System, là một hệ thống lưu trữ dữ liệu phân tán được thiết kế chạy trên phần cứng thông thường để lưu trữ các tệp dữ liệu có kích thước lớn trên nhiều nút máy tính trong một mạng Hadoop HDFS cũng tương tự như những hệ thống file phân tán khác Tuy nhiên, sự khác biệt ở đây là HDFS có khả năng chịu lỗi cao (fault-tolerant) và được thiết kế để deploy trên các phần cứng rẻ tiền HDFS cũng cung cấp khả năng truy cập high throughput từ ứng dụng và thích hợp với các ứng dụng có tập dữ liệu lớn HDFS là một phần của nền tảng Hadoop và là một phần quan trọng của việc xử lý dữ liệu lớn.

HDFS được thiết kế để chịu được sự cố và có thể xử lý các tệp dữ liệu có kích thước rất lớn HDFS lưu trữ dữ liệu dưới dạng các khối, mỗi khối có kích thước mặc định là 128MB, nhưng có thể tùy chỉnh kích thước theo nhu cầu sử dụng Dữ liệu được phân tán trên nhiều nút máy tính trong một mạng Hadoop, giúp tăng tốc độ truy xuất dữ liệu và giảm thời gian xử lý.

HDFS sử dụng kiến trúc Master/Slave, bao gồm hai thành phần chính là

NameNode và DataNode NameNode là trung tâm điều khiển của HDFS và lưu trữ thông tin về vị trí và trạng thái các khối dữ liệu DataNode là các nút lưu trữ dữ liệu thực sự và phân tán dữ liệu trên các nút khác nhau.

Một cụm HDFS bao gồm hai loại nút (Node) hoạt động theo mô hình nút chủ (Master) - nút thợ (Worker):

 Một cụm HDFS có 1 NameNode (Master).

 Một cụm HDFS có một hoặc nhiều các DataNode (Worker).

NameNode quản lý các Namespace Filesystem Nó quản lý một Filesystem Tree và các metadata cho tất cả file và thư mục trên tree Thông tin này được lưu trữ trên đĩa vật lý dưới dạng không gian tên ảnh và nhật ký (edit log) NameNode còn quản lý thông tin các khối (block) của một tập tin được lưu trên những

HDFS đưa ra một không gian tên cho phép dữ liệu được lưu trên tập tin Trong đó một tập tin được chia ra thanh một hay nhiều khối (block) và các block được lưu trên một tập các DataNode NameNode thực thi các hoạt động trên hệ thống quản trị không gian tên tập tin như mở, đóng đổi tên tập tin và thư mục Các DataNode có tính năng xử lý các yêu cầu về đọc ghi từ máy khách Ngoài ra các DataNode còn thực hiện việc tạo, xóa, lặp các khối theo sự hướng dẫn của DataNode.

HDFS cũng cung cấp các cơ chế tối ưu hóa hiệu suất để cải thiện hiệu suất của hệ thống Nó cung cấp các tính năng như tối ưu hóa băng thông, cơ chế lưu trữ đa cấp, cơ chế lưu trữ đệm, đồng bộ hóa dữ liệu và các cơ chế lưu trữ lớn HDFS cũng cung cấp các cơ chế quản lý bảo mật, bảo vệ dữ liệu và các cơ chế phân tán để bảo vệ dữ liệu trước các cuộc tấn công bên ngoài Ngoài ra, HDFS cũng cung cấp các cơ chế để tối ưu hóa và bảo trì hệ thống, bao gồm các cơ chế như tự động phân phối dữ liệu, cấu trúc dữ liệu và các cơ chế lưu trữ lớn.

HDFS cung cấp các tính năng như sao lưu dữ liệu, phục hồi dữ liệu, xử lý song song và truy vấn dữ liệu từ xa HDFS cũng cung cấp các API để cho các ứng dụng khác truy cập vào xử lý dữ liệu trên HDFS HDFS cũng cung cấp các cơ chế để quản lý dữ liệu, bao gồm các cơ chế như tự động phân phối dữ liệu, cấu trúc dữ liệu và các cơ chế lưu trữ lớn.

Đọc dữ liệu trên HDFS:

Với khối dữ liệu (block) ID và địa chỉ IP đích máy chủ (host) của Datanode, máy khách (client) có thể liên lạc với các DataNode còn lại để đọc các khối (block) cần thiết Quá trình này lặp lại cho đến khi tất cả các khối trong file được đọc và máy khách đóng luồng đọc file trực tuyến.

 Ghi dữ liệu trên HDFS:

Việc ghi dữ liệu sẽ phức tạp hơn việc đọc dữ liệu đối với hệ thống HDFS Trong bên dưới, ban đầu, máy khách gửi yêu cầu đến tạo một file bằng việc sử dụng Hadoop FileSystem APIs Một yêu cầu được gửi đến NameNode để tạo tập tin metadata nếu user có quyền tạo Thông tin metadata cho tập tin mới đã được tạo; tuy nhiên lúc này chưa có một block nào liên kết với tập tin này Một tiến trình trả về kết quả được gửi lại cho máy khách xác nhận yêu cầu tạo file đã hoàn thành và bắt dầu có thể ghi dữ liệu Ở mức API, một đối tượng JAVA là stream sẽ trả về Dữ liệu của máy khách sẽ ghi vào luồng này và được chia ra thành các gói, lưu trong queue của bộ nhớ Một tiến trình riêng biệt sẽ liên hệ với NameNode để yêu câu một tập DataNode phục vụ cho việc sao lưu dữ liệu vào các khối (block) Máy khách sẽ tạo ra một kết nối trực tiếp đến DataNode đầu tiên trong danh sách DataNode đầu tiên đó sẽ kết nối lần lượt đến các DataNode khác Các gói dữ liệu được ghi dần vào các DataNode Mỗi DataNode sẽ phản hồi dữ liệu ghi thành công hay không Quá trình này kết thúc khi toàn bộ các gói dữ liệu đã được lưu tại các khối (block) của DataNode.

Tuy nhiên, HDFS cũng có một số hạn chế Vì mỗi tệp dữ liệu được chia thành các khối dữ liệu và lưu trữ trên các nút khác nhau, việc truy xuất dữ liệu trở nên chậm hơn so với việc truy xuất dữ trên đĩa cục bộ Hơn nữa, HDFS không phù hợp cho các tác vụ yêu cầu truy xuất một phần của tệp dữ liệu, vì việc truy xuất phải được thực hiện trên toàn bộ khối dữ liệu.

Tóm lại, Hadoop Distributes FileSystem (HDFS) là một hệ thống lưu trữ dữ liệu phân tán được thiết kế lưu trữ và quản lý các tệp dữ liệu lớn trên các cụm máy tính phân tán trong một mạng Hadoop Nó sử dụng kiến trúc Master/Slave, Với các tính năng như sao lưu dữ liệu, phục hồi dữ liệu, xử lý song song và truy cập dữ liệu từ xa, HDFS là một phần quan trọng của việc xử lý dữ liệu của Hadoop.

MapReduce là một khung làm việc xử lý dữ liệu phân tán được sử dụng để xử lý dữ liệu lớn trên Hadoop MapReduce được phát triển bởi Google và sau đó được Apache Software Foundation phát triển và phát hành dưới dạng một phần của hệ sinh thái Hadoop.

MapReduce thực hiện xử lý dữ liệu bằng cách phân tách dữ liệu thành các phần nhỏ hơn và xử lý chúng song song trên các nút máy tính khác nhau trong cùng một mạng Hadoop Khung làm việc MapReduce được thiết kế để hoạt động trên các phần dữ liệu độc lập, do đó, các phần dữ liệu có thể được xử lý độc lập và đồng thời tăng tốc độ xử lý.

MapReduce bao gồm hai pha chính là pha Map và pha Reduce Trong pha Map, dữ liệu được xử lý và phân tích bằng các hàm Map để tạo ra các cặp key-value Key- value này sau đó được chuyển đến pha Reduce để được tổng hợp và xử lý tiếp theo

Trong pha Reduce, các cặp key-value được tổng hợp và xử lý bằng các hàm Reduce để tạo ra kết quả cuối cùng.

ỨNG DỤNG CỦA BIG DATA VÀO TRONG LĨNH VỰC CÔNG NGHỆ THÔNG TIN

Cơ sở hạ tầng IT để hỗ trợ Big Data

Cơ sở hạ tầng IT để hỗ trợ Big Data đóng vai trò quan trọng để xử lý và quản lý các dữ liệu lớn, phức tạp và đa dạng:

- Hệ thống lưu trữ phân tán : Bao gồm các máy chủ và hệ thống lưu trữ được kết nối với nhau thông qua mạng Các hệ thống này giúp lưu trữ và quản lý dữ liệu lớn của Big Data.

- Cụm máy chủ (Cluster): Sử dụng cụm máy chủ làm nơi lưu trữ và xử lý dữ liệu.

Cụm máy chủ cho phép mở rộng và mở rộng khả năng xử lý để đáp ứng yêu cầu của Big Data.

- Công nghệ ảo hóa (Virtualization): Công nghệ ảo hóa giúp tối ưu hóa sử dụng tài nguyên máy chủ và hỗ trợ trong việc triển khai các ứng dụng Big Data.

- Mạng lưới (Networking): Hỗ trợ kết nối giữa các thành phần hệ thống, mạng lưới chất lượng cao giúp truyền tải dữ liệu hiệu quả trong môi trường Big Data.

- Bảo mật và an ninh: Cơ sở hạ tầng Big Data cần có các biện pháp bảo mật và an ninh để đảm bảo tính toàn vẹn, riêng tư và an toàn của dữ liệu.

- Khả năng mở rộng : Cơ sở hạ tầng IT cần thiết phải có khả năng mở rộng linh hoạt để đáp ứng nhu cầu gia tăng của dữ liệu Big Data theo thời gian.

Các công nghệ đặc biệt dành cho Big Data

Là hệ sinh thái được xem là phổ biến và có sự liên quan mật thiết với Big data Apache Hadoop là dự án phát triển phần mềm mã nguồn mở dành cho máy tính, có khả năng mở rộng và phân tán.

- Thư viện phần mềm Hadoop - nơi cho phép xử lý khối lượng dữ liệu lớn trên các nhóm máy tính sử dụng mô hình lập trình đơn giản Công nghệ này giúp mở rộng từ một máy chủ sang hàng ngàn máy khác, mỗi máy lưu trữ cục bộ và cung cấp tính toán Dự án này bao gồm nhiều phần:

Hadoop Common : Các tiện ích và thư viện phổ biến hỗ trợ các mô đun Hadoop khác

Hadoop Distributed File System : Cung cấp khả năng truy cập những dữ liệu ứng dụng cao.

Hadoop YARN : Khuôn mẫu để lên kế hoạch làm việc và quản lý các tài nguyên cụm

Hadoop MapReduce : Hệ thống dựa trên YARN nhằm xử lý song song các tập dữ liệu lớn

- Apache Spark :Apache Spark thuộc một phần trong hệ sinh thái Hadoop, đây là khuôn mẫu tính toán cụm nguồn mở được sử dụng nhằm xử lý Big data trong Hadoop Apache Spark hiện đã trở thành một trong những khuôn mẫu xử lý Big data phổ biến và quan trọng, có thể được triển khai theo nhiều cách khác nhau.

- Data lakes : Data Lakes là nơi chứa một khối lượng dữ liệu thô cực kỳ lớn ở định dạng gốc Sự phát triển của IoT và phong trào chuyển đổi số đã giúp Data lakes tăng trưởng mạnh mẽ Công nghệ này được thiết kế giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu bất cứ khi nào họ có nhu cầu.

- NoSQL Databases : Công nghệ này là hệ thống quản lý dữ liệu không yêu cầu một sơ đồ cố định, được xem là lựa chọn hoàn hảo đối với những dữ liệu lớn, thô và phi cấu trúc NoSQL có nghĩa là “không chỉ SQL”, các cơ sở dữ liệu này có thể xử lý nhiều mô hình dữ liệu khác nhau một cách linh hoạt.

- In-memory databases : In-memory databases (IMDB - Cơ sở dữ liệu trong bộ nhớ) là hệ thống quản lý cơ sở dữ liệu thường dựa vào Ram thay vì HDD để lưu trữ dữ liệu Cơ sở dữ liệu trong đĩa không thể nhanh bằng cơ sở dữ liệu trong bộ nhớ, do đó, đây là một điểm quan trọng để phân tích Big data và tạo ra các siêu dữ liệu, kho dữ liệu khổng lồ.

Ứng dụng của Big Data vào lĩnh vực Mạng Máy Tính

Big data có thể được áp dụng trong nhiều lĩnh vực của mạng máy tính để cải thiện quản lý, hiệu suất và an ninh Dưới đây là một số ứng dụng cụ thể của big data trong lĩnh vực này:

 Giám sát Mạng: Sử dụng big data để thu thập và phân tích dữ liệu từ các thiết bị mạng, bao gồm routers, switches, firewalls, và các thiết bị khác Việc này giúp nhận biết các vấn đề trong mạng, dự đoán sự cố, và cải thiện hiệu suất.

 An Ninh Mạng : Phân tích dữ liệu lớn từ các log và dữ liệu mạng để phát hiện và ngăn chặn các mối đe dọa an ninh mạng Big data có thể giúp xác định các mô hình không bình thường, nhận biết tấn công, và cung cấp cơ sở để phòng ngừa.

 Quản Lý Tài Nguyên Mạng : Big data có thể được sử dụng để tối ưu hóa việc sử dụng tài nguyên mạng như băng thông, CPU, hoặc lưu trữ Phân tích dữ liệu lớn giúp đưa ra quyết định thông minh về việc cấp phát tài nguyên và tối ưu hóa mạng.

 Tối Ưu Hóa Cơ Sở Hạ Tầng Mạng : Sử dụng big data để dự đoán nhu cầu và tải làm việc trên cơ sở hạ tầng mạng Điều này có thể giúp trong việc mở rộng, nâng cấp, hoặc tái cấu trúc mạng để đáp ứng yêu cầu người dùng một cách hiệu quả.

 Phân Tích Tập Trung và Tự Động Hóa: Tích hợp dữ liệu từ nhiều nguồn khác nhau và sử dụng công nghệ big data để tạo ra các báo cáo tổng hợp, đánh giá hiệu suất, và hỗ trợ quyết định trong việc quản lý mạng.

 Phục Vụ Người Dùng: Phân tích big data có thể giúp hiểu rõ hơn về các mô hình sử dụng của người dùng và cung cấp dịch vụ mạng phù hợp hơn, dựa trên việc hiểu rõ hành vi và yêu cầu của họ.

Những ứng dụng này minh họa khả năng của big data trong việc cải thiện quản lý, hiệu suất và an ninh trong lĩnh vực mạng máy tính, giúp tạo ra môi trường mạng ổn định và hiệu quả hơn.

Trang web và ứng dụng liên quan đến Big Data

Dưới đây là một số trang web và ứng dụng có liên quan đến big data và được sử dụng trong lĩnh vực mạng máy tính:

 Splunk: https://www.splunk.com/

Splunk là một nền tảng phân tích dựa trên big data chuyên về giám sát và quản lý dữ liệu log từ hệ thống và ứng dụng mạng Nó giúp theo dõi, phân tích và bảo mật mạng máy tính.

 Wireshark: https://www.wireshark.org/

Wireshark là một công cụ phân tích gói tin mạng miễn phí Nó cho phép bạn kiểm tra và phân tích dữ liệu truyền qua mạng để tìm hiểu về vấn đề và sự cố trong mạng máy tính.

 Nagios: https://www.nagios.org/

Nagios là một hệ thống giám sát mạng mã nguồn mở giúp theo dõi và báo cáo về tình trạng và hiệu suất của các thiết bị và dịch vụ trong mạng.

 Elasticsearch: https://www.elastic.co/

Elasticsearch là một hệ thống tìm kiếm và phân tích dữ liệu mã nguồn mở Nó có thể được sử dụng để lưu trữ, tìm kiếm và phân tích log mạng lớn.

 Logstash: https://www.elastic.co/logstash

Logstash là một công cụ thu thập và xử lý dữ liệu log mạng Nó thường được kết hợp với Elasticsearch và Kibana để tạo thành "ELK Stack" cho việc quản lý dữ liệu log.

 PRTG Network Monitor: https://www.paessler.com/prtg

PRTG là một công cụ giám sát mạng cho phép bạn theo dõi và kiểm tra tình trạng của các thiết bị và dịch vụ trong mạng máy tính.0

 Zabbix: https://www.zabbix.com /

Zabbix là một hệ thống giám sát mạng mã nguồn mở giúp theo dõi hiệu suất và tình trạng của các phần tử mạng, và cung cấp thông báo về các sự cố.

Nhớ rằng, các công cụ này thường được sử dụng để giám sát, phân tích và quản lý dữ liệu log và dữ liệu mạng trong môi trường mạng máy tính Chúng cung cấp các công cụ mạnh mẽ để phân tích và quản lý dữ liệu lớn trong mạng máy tính và hỗ trợ trong việc đảm bảo hiệu suất và bảo mật của hệ thống mạng.

GIỚI THIỆU DEMO

Mô tả app PRTG Network Monitor

PRTG Network Monitor là một công cụ giám sát mạng được sử dụng rộng rãi để theo dõi và quản lý hệ thống mạng Được phát triển bởi Paessler AG, PRTG cung cấp các tính năng mạnh mẽ cho việc giám sát mạng, máy chủ, thiết bị, và ứng dụng trong môi trường IT. Điểm mạnh của PRTG Network Monitor bao gồm:

 Giám sát Đa dạng: Nó cung cấp khả năng giám sát đa dạng với hơn 200 loại cảm biến (sensors) khác nhau, từ kiểm tra kết nối mạng, băng thông, tình trạng của máy chủ đến theo dõi thông số của các thiết bị và ứng dụng.

 Giao diện Dễ sử dụng: Giao diện người dùng thân thiện và dễ sử dụng cho phép người quản trị mạng dễ dàng cấu hình, theo dõi và quản lý hệ thống mạng.

 Báo cáo và Thông báo: PRTG cung cấp tính năng báo cáo linh hoạt và thông báo trực tuyến hoặc qua email khi có sự cố xảy ra hoặc khi các chỉ số vượt quá ngưỡng được xác định.

 Tích hợp và Mở rộng: Có khả năng tích hợp với nhiều loại thiết bị và ứng dụng khác nhau Nó cũng hỗ trợ API để mở rộng tính năng hoặc tích hợp với các hệ thống tự động hóa khác.

 Đa nền tảng: Có khả năng giám sát trên nhiều nền tảng như Windows, Linux, VMware, và các thiết bị mạng từ nhiều nhà sản xuất khác nhau.

Với khả năng giám sát toàn diện và dễ sử dụng, PRTG Network Monitor đã trở thành một công cụ quan trọng trong việc duy trì và quản lý hệ thống mạng và máy chủ trong nhiều tổ chức và doanh nghiệp.

Mục tiêu của Demo

Hiểu được cách cài đặt và sử dụng app PRTG Network Monitor để giám sát mạng , theo dõi và quản lý hệ thống mạng.

Cài đặt app PRTG Network Monitor

Bước 1 : Tải app PRTG Network Monitor tại đây

Bước 2: Sau khi download về thì tạo tài khoản Xong đăng nhập vào hệ thống

Bước 3: Vào trang chủ của hệ thống

Bước 4: Nơi thăm dò các thiết bị vào (Có thể tạo mới để thêm nhóm thiết bị vào):

Bước 5: Kiểm traSSL bảo mật

Bước 6: Giám sát theo bản đồ và bảng điều khiển Dashboard

Trực quan hóa mạng bằng bản đồ thời gian thực với trạng thái thông tin trực tiếp. Tạo bảng điều khiển với trình thiết kế bản đồ PRTG và tích hợp tất cả các thành phần mạng của bạn với hơn 300 đối tượng bản đồ khác nhau – từ biểu tượng thiết bị và trạng thái đến biểu đồ lưu lượng truy cập và top lists Cá nhân hóa bản đồ của bạn bằng tùy chỉnh HTML.

Chia sẻ bản đồ chỉ cung cấp URL duy nhất trên bảng điều khiển trong mạng LAN của công ty hoặc bên ngoài công ty của bạn.

Phầm mềm PRTG Network Monitor

Một giải pháp cho mọi thứ

Xem toàn bộ mạng, hệ thống và ứng dụng của bạn trong một giải pháp toàn diện, duy nhất.

 Hiệu suất và tính sẵn sàng

 Phần cứng và ứng dụng

 Môi trường ảo, email, web, lưu trữ, máy in, v.v.

 Giám sát nhiều vị trí với một cài đặt duy nhất

- Cấp phép hợp lý và đơn giản

PRTG có cấu trúc cấp phép rõ ràng, đơn giản và giá cả hợp lý cho các mạng thuộc mọi quy mô.

 Mỗi tính năng được bao gồm trong mỗi giấy phép

 Bao gồm giám sát đa vị trí và cụm chuyển đổi dự phòng

 Mô hình nâng cấp hợp lý – chỉ cần trả chênh lệch giá

- Dễ dàng tùy chỉnh giám sát

Dễ dàng điều chỉnh PRTG Network Monitor theo yêu cầu cá nhân của bạn.

Tiêu đề	Niên Luận Cơ Sở Ngành Mạng Máy Tính Và Truyền Thông Dữ Liệu Tìm Hiểu Về Dữ Liệu Lớn Big – Data
Tác giả	Nguyễn Thị Kim Ngân, Nguyễn Như Thể
Người hướng dẫn	Nguyễn Trọng Nghĩa
Trường học	Đại Học Cần Thơ
Chuyên ngành	Mạng Máy Tính Và Truyền Thông
Thể loại	niên luận
Năm xuất bản	2023-2024
Thành phố	Cần Thơ

Định dạng
Số trang	83
Dung lượng	7,27 MB