Niên luận cơ sở ngành mạng máy tính và truyền thông dữ liệu tìm hiểu về dữ liệu lớn big – data

83 0 0
Niên luận cơ sở ngành mạng máy tính và truyền thông dữ liệu tìm hiểu về dữ liệu lớn big – data

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG

-NIÊN LUẬN CƠ SỞ NGÀNH MẠNG MÁY TÍNHVÀ TRUYỀN THÔNG DỮ LIỆU

TÌM HIỂU VỀ DỮ LIỆU LỚN BIG – DATA

Giảng viên hướng dẫn Nhóm sinh viên thực hiệnNguyễn Trọng Nghĩa 1 Nguyễn Thị Kim Ngân

Mssv : B2013486 K46 2 Nguyễn Như Thể Mssv : B2013564 K46

Trang 2

ĐẠI HỌC CẦN THƠ

TRƯỜNG CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNGKHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG

-NIÊN LUẬN CƠ SỞ NGÀNH MẠNG MÁY TÍNHVÀ TRUYỀN THÔNG DỮ LIỆU

TÌM HIỂU VỀ DỮ LIỆU LỚN BIG – DATA

Giảng viên hướng dẫn Nhóm sinh viên thực hiện Nguyễn Trọng Nghĩa 1 Nguyễn Thị Kim Ngân Mssv : B2013486 K46 2 Nguyễn Như Thể

Trang 3

Mssv : B2013564 K46

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến GVHD : Nguyễn Trọng Nghĩa Trong quá trình học tập và tìm hiểu bộ môn Niên luận cơ sở Mạng máy tính và truyền thông dữ liệu, em đã nhận được sự quan tâm giúp đỡ, hướng dẫn tận tình, chi tiết của Thầy.

Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức, trong bài báo cáo này chắc chắn sẽ không thoát khỏi những thiếu sót Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía Thầy để bài Báo cáo của em được hoàn thiện hơn.

Lời cuối cùng, em xin kính chúc Thầy có nhiều sức khỏe, thành công và hạnh phúc.

Trang 5

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN

Trang 6

Mục Lục

I PHẦN GIỚI THIỆU 5

1 Mục tiêu của niên luận cơ sở 5

II PHẦN NỘI DUNG 6

CHƯƠNG 1 GIỚI THIỆU VỀ BIG DATA 6

1 Khái niệm tổng quan về Big Data 6

2 Sự phát triển của dữ liệu lớn 8

3 3V của Big Data 9

4 Phân loại Big Data 14

5 Nguồn của dữ liệu lớn 15

6 Những hạn chế của dữ liệu truyền thống so với dữ liệu lớn 16

7 So sánh Big Data và Data mining 17

8 Cơ sở hạ tầng của dữ liệu lớn 18

9 Cách thức hoạt động 19

10 Lĩnh vực sử dụng BigData 20

CHƯƠNG 2 : DỮ LIỆU LỚN VÀ ĐIỆN TOÁN ĐÁM MÂY 24

1 Điện toán đám mây 24

2 Các loại điện toán đám mây 25

3 Mô hình dịch vụ Điện toán đám mây 27

4 So sánh các loại hình dịch vụ của điện toán đám mây 41

5 Mối quan hệ của Điện toán đám mây và Big Data 46

Trang 7

3 Tổng quan về các thành phần trong hệ sinh thái Hadoop 54

4 Lưu trữ trong Hadoop 54

CHƯƠNG 4 : ỨNG DỤNG CỦA BIG DATA VÀO TRONG LĨNH VỰC CÔNG NGHỆ THÔNG TIN 66

VÀ MẠNG MÁY TÍNH 66

1 Cơ sở hạ tầng IT để hỗ trợ Big Data 66

2 Các công nghệ đặc biệt dành cho Big Data : 66

3 Ứng dụng của Big Data vào lĩnh vực Mạng Máy Tính 68

4 Trang web và ứng dụng liên quan đến Big Data 69

III DEMO ỨNG DỤNG PRTG NETWORK MONITOR 71

CHƯƠNG 1 : GIỚI THIỆU DEMO 71

1 Mô tả app PRTG Network Monitor 71

2 Mục tiêu của Demo 72

3 Cài đặt app PRTG Network Monitor 72

Trang 8

I PHẦN GIỚI THIỆU 1 Mục tiêu của niên luận cơ sở

Niên Luận cơ sở này sẽ đề cập đến việc giới thiệu về dữ liệu lớn, xác định dữ liệu lớn thật ra có nghĩa như thế nào Những hạn chế của cơ sở dữ liệu truyền thống, dẫn đến sự phát triển của Dữ Liệu Lớn, sẽ được giải thích, cung cấp và đưa ra cái nhìn sâu sắc về những ý chính của dữ liệu lớn Một nghiên cứu so sánh đã được thực hiện giữa dữ liệu lớn và cơ sở dữ truyền thống đưa ra một hình ảnh rõ ràng về những bất lợi của cơ sở dữ liệu truyền thống và những thuận lợi của dữ liệu lớn 3 từ V của dữ liệu lớn (khối lượng - volume, tốc độ - velocity, và đa dạng - variety) được phân biệt từ những giải thích của cơ sở dữ liệu truyền thống Với sự phát triển của dữ liệu lớn, chúng ta không còn giới hạn lâu hơn trong dữ liệu có cấu trúc Những loại dữ liệu khác nhau của con người và máy móc đã được tạo ra-nghĩa là, dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc-có thể được xử lý bằng những giải thích của dữ liệu lớn Những nguồn khác nhau đóng góp đến khối lượng dữ liệu lớn này đã được cung cấp bằng một hình ảnh rõ ràng Chương này sẽ mở rộng để cho thấy những giai đoạn khác nhau của vòng đời dữ liệu lớn bắt đầu từ tạo dữ liệu, thu thập, xử lý, tích hợp, làm sạch, chuyển đổi, phân tích, và trực quan hóa để đưa ra những quyết định kinh doanh Và sẽ sẽ làm sáng tỏ những thử thách khác nhau của dữ liệu lớn do tính không đồng nhất của nó, khối lượng, tốc độ, v.v…

Trang 9

II PHẦN NỘI DUNG

CHƯƠNG 1 GIỚI THIỆU VỀ BIG DATA 1 Khái niệm tổng quan về Big Data

Với tốc độ tăng trưởng nhanh chóng của người dùng Internet, có một sự gia tăng nhanh chóng theo cấp số nhân trong dữ liệu được tạo ra Dữ liệu được tạo ra từ hàng triệu tin nhắn và được gửi qua WhatsApp, Facebook hoặc Twitter từ hàng nghìn tỷ những bức ảnh được chụp, và hàng giờ những video được tải lên

YouTube trong mỗi phút Theo một cuộc khảo sát gần đây với 2.5 triệu tỷ (2 500 000 000 000 000 000, hay 2,5 X 〖10〗^18) byte dữ liệu được tạo ra mỗi ngày Lượng dữ liệu khổng lồ này được tạo ra được gọi là dữ liệu lớn (Big Data) Dữ liệu lớn không chỉ có nghĩa là một tập dữ liệu quá lớn, nó là một thuật ngữ chung cho dữ liệu có kích thước quá lớn, có tính chất phức tạp, mà có thể có cấu trúc hoặc phi cấu trúc, và đạt được với tốc độ cao Theo dữ liệu hiện có cho thấy, có 80% dữ liệu đã được tạo ra trong vài năm gần đây Sự phát triển của dữ liệu lớn thực tế đã được thúc đẩy bởi nhiều dữ liệu được tạo ra cần phải được thu thập ở nhiều nơi trên thế giới

Việc nắm bắt được dữ liệu khổng lồ này dù chỉ mang lại giá trị nhỏ trừ khi giá trị của công nghệ thông tin chuyển hóa thành giá trị kinh doanh Quản lý dữ liệu và và phân tích chúng luôn luôn mang lợi ích cho tổ chức; bên cạnh đó, việc chuyển đổi dữ liệu này thành những hiểu biết về kinh doanh luôn là thách thức lớn nhất Các nhà khoa học dữ liệu đang đấu tranh để tìm các kỹ thuật thiết thực để phân tích dữ liệu thu thập được Dữ liệu phải được quản lý ở tốc độ và thời gian phù hợp để thu

Trang 10

được những thông tin có giá trị sâu sắc từ dữ liệu đó Những dữ liệu này rất phức tạp đến mức khó có thể xử lý nó bằng cách sử dụng những hệ thống quản lý cơ sở dữ liệu truyền thống, điều này đã kích động đến sự phát triển của kỷ nguyên dữ liệu lớn Ngoài ra, có những hạn chế về lượng dữ liệu mà cơ sở dữ liệu truyền thống có thể xử lý Với sự gia tăng kích thước dữ liệu sẽ có sự giảm sút về hiệu suất hay độ trễ tăng hoặc sẽ rất tốn kém nếu bổ sung vào các đơn vị bộ nhớ Tất cả những hạn chế này đã được khắc phục với sự phát triển của công nghệ dữ liệu lớn điều đó cho phép chúng ta thu thập, lưu trữ, xử lý và phân tích dữ liệu trong mỗi môi trường phân tán Ví dụ về các công nghệ Dữ liệu Lớn đó chính là Hadoop, một khuôn khổ cho tất cả tiến trình của dữ liệu lớn, Hệ thống file phân tán, lưu trữ dữ liệu khổng lồ được sử dụng bởi Hadoop - Hadoop Distributed File System (HDFS) để lưu trữ hệ thống phân tán và mô hình được thiết kế độc quyền bởi Google, có khả năng lập trình xử lý các tập dữ liệu lớn song song và phân tán thuật toán trên một cụm máy tính (MapReduce) để xử lý.

Trang 11

Hình 1.1 : Tổng quan về BigData

2 Sự phát triển của dữ liệu lớn

Sự xuất hiện tài liệu đầu tiên của dữ liệu lớn đó là một bài báo vào năm 1997 bởi các nhà khoa học của NASA đã nói lên những vấn đề phải đối mặt trong việc trực quan hóa các tập dữ liệu lớn, đó là một thách thức hấp dẫn đến với các nhà khoa học dữ liệu, Các tập dữ liệu đủ lớn, gây mệt mỏi cho nhiều tài nguyên bộ nhớ Vấn đề này được gọi là dữ liệu lớn Dữ liệu lớn, khái niệm rộng hơn, lần đầu tiên được đưa ra bởi một nhà tư vấn: McKinsey Ba chiều hướng của dữ liệu lớn, cụ thể là, khối lượng, tốc độ và sự đa dạng, được nhà phân tích Doug Laney xác định Vòng đời xử lý của dữ liệu lớn có thể được phân loại vào việc thu thập, xử lý, lưu trữ và quản lý, quyền riêng tư và bảo mật, phân tích và trực quan hóa

Trang 12

Thuật ngữ rộng hơn của dữ liệu lớn bao gồm tất cả mọi thứ mọi thứ như dữ liệu web, chẳng hạn như dữ liệu từ luồng nhấp chuột, dữ liệu sức khỏe của bệnh nhân, dữ liệu gen từ việc nghiên cứu sinh học, v.v…

Hình 1.1 cho thấy sự phát triển của dữ liệu lớn Sự tăng trưởng về dữ liệu là rất lớn trong những năm qua Nó chỉ có 600MB vào những năm 1950 nhưng vào năm 2010 đã tăng lên 100PB, tương đương với 100 000 000 000 MB.

Hình 1.2 : Sự phát triển của dữ liệu lớn3 3V của Big Data

Dữ liệu lớn được phân biệt bởi các những đặc điểm đặc biệt của nó với những khía cạnh khác nhau Hình 1.2 minh họa các khía cạnh khác nhau của dữ liệu lớn Khía cạnh đầu tiên của nó là khối lượng của dữ liệu Khối lượng dữ liệu tăng một phần do lưu trữ theo cụm (cluster storage) với phần cứng thương mại đã làm tiết kiệm về chi phí có hiệu quả Phần cứng thương mại là một phần cứng có chi phí thấp, hiệu suất thấp, thông số kỹ thuật thấp và không có chức năng đặc biệt Điều này được

Trang 13

gọi bằng thuật ngữ “khối lượng” trong công nghệ dữ liệu lớn Khía cạnh thứ hai đó là sự đa dạng, mô tả tính không đồng nhất để nó chấp nhận các loại dữ liệu, có cấu trúc, phi cấu trúc hoặc cả hai Khía cạnh thứ ba là tốc độ, liên quan đến tốc độ dữ liệu được tạo ra và xử lý để lấy giá trị mong muốn từ dữ liệu thô chưa được xử lý

Hình 1.3: 3V của dữ liệu lớn.

Sự phức tạp của dữ liệu đã đặt ra một cơ hội mới cũng như là một thách thức mới cho thời đại công nghệ thông tin thời nay.

 Volume (Tổng dung lượng lưu trữ) :

Dữ liệu được tạo và xử lý bởi dữ liệu lớn đang không ngừng phát triển Khối lượng tăng theo cấp số nhân do thực tế là các doanh nghiệp kinh doanh đang liên tục thu

Trang 14

thập dữ liệu để tạo ra các giải pháp kinh doanh tốt hơn và lớn hơn Khối lượng của dữ liệu lớn được đo từ terabyte đến zettabyte (1024GB = 1 terabyte; 1024 TB = 1 petabyte; 1024 PB = 1 exabyte; 1024EB =1 zettabyte; 1024ZB = 1 yottabyte) Nắm bắt dữ liệu khổng lồ này đã được cho là một cơ hội đặc biệt để có được dịch vụ khách hàng tốt hơn và lợi thế kinh doanh tốt hơn Khối lượng dữ liệu này ngày càng tăng, đòi hỏi khả năng mở rộng phải càng cao và lưu trữ phải tin cậy Những nguồn chính đóng góp cho sự tăng trưởng này là phương tiện truyền thông mạng xã hội, điểm giao dịch bán hàng, ngân hàng điện tử, cảm biến GPS, cảm biến ô tô Facebook tạo ra khoảng 500 terabyte dữ liệu mỗi ngày Mỗi khi nhấp vào một liên kết trên một trang web, mua trực tuyến một mặt hàng, một video được đăng tải lên YouTube, dữ liệu đều sẽ được tạo ra.

 Velocity (Khả năng xử lý tốc độ cao ):

Với sự gia tăng đáng kể của khối lượng dữ liệu, tốc độ tạo nên dữ liệu cũng tăng lên Thuật ngữ “tốc độ” ngoài việc đề cập đến tốc độ và dữ liệu được tạo ra, mà còn đề cập đến tốc độ

Trang 15

Hình 1.4: Bộ dữ liệu tốc độ cao được tạo ra trực tuyến trong 60 giây.

dữ liệu đã được xử lý và phân tích Trong kỷ nguyên của dữ liệu lớn, một lượng lớn dữ liệu được tạo ra ở tốc độ cao, và đôi khi dữ liệu này đến quá nhanh khiến việc nắm bắt dữ liệu trở nên khó khăn, nhưng nó vẫn cần phải được phân tích Hình 1.3 đã minh họa việc dữ liệu được tạo ra trong 60 giây: 3.3 triệu bài đăng trên Facebook, 450 nghìn lượt tweet, 400 giờ video được đăng tải và 3.1 triệu lượt tìm kiếm trên Google

 Varieti (Đa dạng kiểu dữ liệu ):

Sự đa dạng của dữ liệu lớn được đề cập đến định dạng dữ liệu được hỗ trợ bởi dữ liệu lớn Dữ liệu đến ở định dạng có cấu trúc, bán cấu trúc và phi cấu trúc Dữ liệu

Trang 16

có cấu trúc đề cập đến dữ liệu được xử lý bởi các hệ thống quản lý cơ sở dữ liệu truyền thống, nơi dữ liệu được tổ chức trong các bảng, như chi tiết về nhân viên, chi tiết về khách hàng của ngân hàng Dữ liệu bán cấu trúc là sự kết hợp của dữ liệu có cấu trúc và phi cấu trúc, chẳng hạn như XML Dữ liệu XML là bán cấu trúc do nó không phù hợp với mô hình dữ liệu chính thức (bảng) được liên kết với cơ sở dữ liệu truyền thống, đúng hơn, nó chứa các thẻ để tổ chức các trường trong dữ liệu Dữ liệu phi cấu trúc đề cập đến dữ liệu không có cấu trúc xác định, như tin nhắn email, ảnh và trang web Dữ liệu đến từ nguồn cấp dữ liệu Facebook cũng như Twitter, cảm biến vận tốc và hộp đen của máy bay đều không có cấu trúc, mà cơ sở dữ liệu truyền thống không thể xử lý, và đây là lúc dữ liệu lớn xuất hiện Ngoài 3 đặc trưng chính trên của Doug Laney, thì còn có thêm rất nhiều tiêu chí khác xác định đặc trưng của Big data, bao gồm: Veracity (Xác thực), Value (Giá trị), Relationality (Mối quan hệ),

Trang 17

Hình 1.5 : 5V của BigData

Variability (Độ chính xác) Vì đa dạng về các kiểu dữ liệu, nên sự không thống

nhất của tập dữ liệu có thể cản trở các quy trình để xử lý và quản lý nó Do đó, độ chính xác của công nghệ này có thể đảm bảo giúp cho việc giảm bớt sự sai lệch đáng tiếc có thể xảy ra.

Value (Mức độ giá trị của thông tin) Chất lượng dữ liệu của những dữ liệu lấy

được có thể thay đổi rất nhiều, điều này sẽ ảnh hưởng rất mạnh đến việc phân tích chính xác những đấy Ta có thể xem đây là tính chất cũng là khái niệm mà những doanh nghiệp hay nhà nghiên cứu muốn sử dụng và khai thác Big Data phải nắm giữ và am hiểu nó đầu tiên.

4 Phân loại Big Data

Big data thường được phân loại dựa trên 3 yếu tố dữ liệu phổ biến: Dữ liệu có cấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc

Dữ liệu có cấu trúc : Dữ liệu có cấu trúc được xem là dữ liệu đơn giản nhất để

quản lý và tìm kiếm Nó là những dữ liệu có thể truy cập, lưu trữ và xử lý ở định dạng cố định Các thành phần của dữ liệu có cấu trúc được phân loại dễ dàng, cho phép các nhà thiết kế và quản trị viên cơ sở dữ liệu xác định các thuật toán đơn giản để tìm kiếm và phân tích.

Dữ liệu phi cấu trúc : Dữ liệu phi cấu trúc là bất kỳ tập hợp dữ liệu nào không

được tổ chức hoặc xác định rõ ràng Loại dữ liệu này hỗn loạn, khó xử lý, khó hiểu và đánh giá Nó không có cấu trúc cố định và có thể thay đổi vào những thời điểm khác nhau Dữ liệu phi cấu trúc bao gồm các nhận xét, tweet, lượt chia sẻ, bài đăng trên mạng xã hội, video trên YouTube mà người dùng xem,

Trang 18

Dữ liệu bán cấu trúc : Dữ liệu bán cấu trúc là sự kết hợp giữa dữ liệu có cấu

trúc và dữ liệu phi cấu trúc Email là một ví dụ điển hình vì chúng bao gồm dữ liệu phi cấu trúc trong nội dung thư, cũng như nhiều thuộc tính tổ chức khác như người gửi, người nhận, chủ đề và ngày tháng Các thiết bị sử dụng gắn thẻ địa lý, thời gian cũng có thể cung cấp dữ liệu có cấu trúc bên cạnh nội dung phi cấu trúc ấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.

5.Nguồn của dữ liệu lớn

Nhiều nguồn dữ liệu khác nhau chịu trách nhiệm cho sự gia tăng đáng kể về khối lượng của dữ liệu lớn Phần lớn sự gia tăng dữ liệu có thể là do số hóa hầu hết tất cả và mọi thứ trên toàn cầu Thanh toán hóa đơn điện tử, mua sắm trực tuyến, giao tiếp thông qua phương tiện truyền thông mạng xã hội, giao dịch thư điện tử trong các tổ chức khác nhau, biểu diễn kỹ thuật số của tổ chức dữ liệu, v.v… là một số ví dụ về số hóa dữ liệu trên toàn cầu.

Cảm biến: Các cảm biến đóng góp vào khối lượng của dữ liệu lớn được liệt kê bên

- Cảm biến gia tốc được cài đặt trong thiết bị di động để cảm nhận rung động và

các chuyển động khác.

- Cảm biến tiệm cận được sử dụng ở những nơi công cộng để phát hiện sự hiện

diện của vật thể mà không cần tiếp xúc vật lý với vật thể - Cảm biến trong xe và thiết bị y tế.

Chăm sóc sức khỏe: Các nguồn chính của dữ liệu lớn trong chăm sóc sức khỏe là

Trang 19

- Hồ sơ sức khỏe điện tử (Electronic Health Records - EHRs) thu thập và hiển thị thông tin bệnh nhân chẳng hạn như tiền sử bệnh, đơn thuốc của bác sĩ và kết quả xét nghiệm trong phòng thí nghiệm.

- Cổng thông tin bệnh nhân cho phép bệnh nhân truy cập hồ sơ y tế cá nhân của họ đã lưu trong hồ sơ sức khỏe điện tử

- Kho lưu trữ dữ liệu lâm sàng tổng hợp các hồ sơ bệnh nhân riêng lẻ từ nhiều nguồn lâm sàng khác nhau và hợp nhất chúng để đưa ra một cái nhìn thống nhất về lịch sử bệnh nhân.

Hộp đen: Dữ liệu được tạo ra bởi hộp đen trong máy bay, máy bay trực thăng và

máy bay phản lực Hộp đen sẽ ghi lại hoạt động của chuyến bay, thông báo của phi hành đoàn, tổ bay, và thông tin hiệu suất máy bay.

Trang 20

Hình 1.6 : Nguồn của dữ liệu lớn6 Những hạn chế của dữ liệu truyền thống so với dữ liệu lớn

Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS - The Relational Database Management Systems) là phương tiện lưu trữ dữ liệu phổ biến nhất cho đến gần đây để lưu trữ dữ liệu bởi các tổ chức tạo ra Một số lượng lớn nhà cung cấp đã cung cấp những hệ thống cơ sở dữ liệu Các RDBMS này đã được tạo ra để lưu trữ các dữ liệu khi đã vượt quá khả năng lưu trữ của một máy tính Sự ra đời của một công nghệ mới luôn do những hạn chế của các công nghệ cũ và đây cũng là sự cần thiết để vượt qua chúng Dưới đây là những hạn chế của cơ sở dữ liệu truyền thống trong việc xử lý dữ liệu lớn.

Khối lượng dữ liệu tăng theo cấp số nhân, có quy mô tính bằng terabyte và

petabyte, đã trở thành một thách thức đối với RDBMS trong việc xử lý khối lượng dữ liệu khổng lồ như vậy.

Để giải quyết vấn đề này, RDBMS đã tăng số lượng bộ xử lý và thêm nhiều đơn vị bộ nhớ, do đó đã làm tăng chi phí

Gần 80% dữ liệu được lấy có định dạng cấu trúc là phi cấu trúc mà RDBMS không thể xử lý được.

RDBMS không thể nắm bắt dữ liệu đến với tốc độ cao.

7 So sánh Big Data và Data mining

Big Data và Data Mining đều là những công nghệ và phương pháp xử lý dữ liệu quan trọng trong thế giới kỹ thuật số hiện nay Tuy nhiên, chúng có mục đích, quy mô và ứng dụng khác nhau và được sử dụng trong các lĩnh vực khác nhau.

Yếu tố so sánhBig DataData Mining

Định nghĩa

Là khối lượng dữ liệu lớn và phức tạp, đòi hỏi các công nghệ và phương pháp xử lý

Là quá trình khai thác tri thức từ dữ liệu, bao gồm việc phân tích dữ liệu để khám

Trang 21

đặc biệt để tìm kiếm thông tin hữu ích và triển khai các ứng dụng.

phá các mối quan hệ tiềm ẩn, mô hình hóa, dự đoán và tìm kiếm các mẫu.

Mục đích chính

Giúp tổng hợp và phân tích dữ liệu lớn để tìm ra thông tin cần thiết và tạo ra giá trị.

Tập trung vào phát hiện các mối quan hệ, kiến thức mới và dự đoán trong dữ liệu Quy mô dữ liệu Lớn, có thể đến hàng tỷ hoặctriệu GB.

Thường nhỏ hơn so với Big Data, thường chỉ vài GB đến vài TB.

Công nghệ chính Hadoop, Spark, NoSQL,HBase, Cassandra, Kafka, …

Phân tích dữ liệu, mô hình hóa, khai thác dữ liệu, phân loại, gom cụm, …

Bảng 1.2 So sánh Big Data và Data Mining

8 Cơ sở hạ tầng của dữ liệu lớn

Các thành phần cốt lõi của công nghệ dữ liệu lớn là các công cụ và công nghệ cung cấp khả năng lưu trữ, xử lý và phân tích dữ liệu Phương pháp lưu trữ dữ liệu trong các bảng không còn hỗ trợ cho sự phát triển của dữ liệu với 3V, cụ thể là khối lượng, tốc độ và sự đa dạng RDBMS chuẩn mạnh không còn hiệu quả về chi phí Việc mở rộng RDBMS để lưu trữ và xử lý lượng dữ liệu khổng lồ trở nên đắt đỏ Điều này dẫn đến sự xuất hiện của công nghệ mới, có khả năng mở rộng cao với chi phí cực thấp.

Ba công nghệ chính là :

Trang 22

Hadoop – Apache Hadoop, được viết bằng ngôn ngữ Java, là khung nguồn mở hỗ

trợ xử lý các tập dữ liệu lớn Nó có thể lưu trữ một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc trong một hệ thống tệp phân tán và xử lý song song Nó là một nền tảng lưu trữ có khả năng mở rộng cao và tiết kiệm chi phí Khả năng mở rộng của Hadoop đề cập đến khả năng duy trì của nó để ngay cả khi tải tăng cao bằng cách thêm nhiều nút hơn Các tệp Hadoop được viết một lần và được đọc nhiều lần Nội dung của các tập tin không thể thay đổi Một số lượng lớn các máy tính được kết nối với nhau làm việc cùng nhau như một hệ thống duy nhất được gọi là một cụm Các cụm Hadoop được thiết kế để lưu trữ và phân tích lượng dữ liệu khổng lồ khác nhau trong môi trường điện toán phân tán theo cách tiết kiệm chi phí.

Hadoop Distributed File system – HDFS được thiết kế để lưu trữ các tập dữ liệu

lớn với mẫu truy cập trực tuyến chạy trên phần cứng thương mại giá rẻ Nó không yêu cầu độ tin cậy cao, phần cứng đắt tiền Tập dữ liệu được tạo từ nhiều nguồn, được lưu trữ trong hệ thống tệp HDFS trong một lần ghi, mô hình đọc nhiều lần và các phân tích được thực hiện trên tập dữ liệu để trích xuất kiến thức từ nó.

MapReduce – MapReduce là mô hình lập trình xử lý hàng loạt cho khung

Hadoop, áp dụng nguyên tắc chia để trị Nó có khả năng mở rộng cao, đáng tin cậy và chịu lỗi, có khả năng xử lý dữ liệu đầu vào với bất kỳ định dạng nào trong môi trường điện toán song song và phân tán chỉ hỗ trợ khối lượng công việc hàng loạt Hiệu suất của nó giúp giảm đáng kể thời gian xử lý so với mô hình xử lý hàng loạt truyền thống, vì cách tiếp cận truyền thống là di chuyển dữ liệu từ nền tảng lưu trữ sang nền tảng xử lý, trong khi mô hình xử lý MapReduce nằm trong khung nơi dữ liệu thực sự nằm trong đó

9 Cách thức hoạt động

Trang 23

Tích hợp : Big data có thể tích hợp dữ liệu từ các nguồn, ứng dụng, công cụ khác

nhau Với cơ chế tích hợp dữ liệu truyền thống như trích xuất, biến đổi và tải (ETL) không còn phù hợp với nhiệm vụ mới Do đó, cần có công nghệ và chiến lược mới để phân tích các tập cơ sở dữ liệu Big data ở quy mô khổng lồ, như terabyte, thậm chí là petabyte Trong quá trình tích hợp, cần đảm bảo dữ liệu được định dạng và luôn có sẵn để các nhà phân tích kinh doanh xử lý và đưa ra kết luận chính xác dựa trên nguồn dữ liệu đó.

Quản lý : Khối lượng dữ liệu lớn cũng đồng nghĩa cần một kho lưu trữ lớn, đó có

thể là Cloud (Đám mây điện tử), lưu trữ tại chỗ, cũng có thể là cả hai Cho dù quản lý ở hình thức nào, chỉ cần đưa ra yêu cầu xử lý thì các công cụ đó sẽ hỗ trợ một cách linh hoạt.

Phân tích : Để có được kết quả phù hợp từ việc phân tích Big data, các nhà khoa

học dữ liệu và phân tích dữ liệu phải hiểu chi tiết về các dữ liệu có sẵn cùng những điều mà họ đang tìm kiếm ở đó Việc chuẩn bị dữ liệu như lập hồ sơ, xác nhận, chuyển đổi các tập dữ liệu là những bước đầu tiên trong quá trình phân tích.

10 Lĩnh vực sử dụng BigData

Ngân hàng : Khi thu thập được một khối lượng lớn dữ liệu từ các nguồn, ngân

hàng phải tìm ra những phương pháp mới để quản lý Big data Bên cạnh việc hiểu và làm hài lòng khách hàng, các ngân hàng cũng phải giảm thiểu rủi ro và chống gian lận mà vẫn tuân thủ quy định của pháp luật.

Ứng dụng Big data vào hoạt động giúp các ngân hàng đưa ra quyết định quan trọng, chẳng hạn:

Trang 24

- Hệ thống phân tích có thể xác định các địa điểm xây dựng chi nhánh mới - nơi

tập trung các khách hàng tiềm năng.

- Dự đoán số lượng tiền mặt cần thiết để cung ứng tại một địa điểm giao dịch cụ

- Đặc biệt là các ngân hàng số, dữ liệu chính là xương sống của họ.

- Học máy, AI được sử dụng để phát hiện các hành vi gian lận và kịp thời báo cáo

cho các chuyên viên làm nhiệm vụ.

Giáo dục : Trong ngành giáo dục, việc xử lý các dữ liệu bảo mật, thông tin về học

sinh, sinh viên, giảng viên, tài liệu, đều phải được xử lý nhanh gọn Do đó, Big data ứng dụng vào giáo dục mang lại nhiều chức năng hữu ích, bao gồm:

- Phân tích, lưu trữ, quản lý các bộ dữ liệu lớn bao gồm hồ sơ của sinh viên, học

- Sử dụng hệ thống quản lý Big data có khả năng trích xuất phân cấp để duy trì

tính bảo mật.

- Cung cấp các dữ liệu cần thiết về các hoạt động trong lớp và giúp đưa ra quyết

định cho giáo viên, người tham gia giảng dạy.

- Giúp các bộ đề kiểm tra không thể bị lộ.

Nghành bán lẻ : Trong ngành bán lẻ, một khối lượng dữ liệu lớn luôn cần được xử

lý, những dữ liệu này được các doanh nghiệp bán lẻ thu thập để đưa ra chiến lược phát triển sản phẩm, các chiến dịch Marketing,

Ứng dụng Big data trong ngành bán lẻ bao gồm những chức năng như sau:

- Giúp nhà quản lý xây dựng mô hình chi tiêu của mỗi khách hàng

- Với các phân tích dự đoán, có thể nắm bắt và so sánh được tỷ lệ cung - cầu,

đồng thời tránh các sản phẩm không phù hợp với nhu cầu thị trường

Trang 25

- Xác định được vị trí bày trí các sản phẩm lên kệ dựa vào thói quen và nhu cầu

mua sắm của khách hàng

- Kết hợp phân tích các dữ liệu về thời điểm, truyền thông xã hội, giao dịch, để

xác định các sản phẩm phù hợp nhằm cung ứng cho khách hàng.

Y tế : Một hệ thống kém hiệu quả có thể kìm hãm những lợi ích chăm sóc sức khỏe

tốt hơn Điều này xảy ra khi dữ liệu điện tử không đủ hoặc không có sẵn Big data sẽ đóng góp nhiều chức năng hữu ích trong ngành Y tế Tại Việt Nam, ngành Y tế đang sử dụng các dữ liệu thu thập được từ ứng dụng điện thoại về những bệnh nhân bị Covid để quản lý và đưa ra những thông tin kịp thời.

Hoặc tại một số bệnh viện hiện nay sử dụng Big data để thu thập dữ liệu thông tin người khám bệnh, đặt lịch hẹn với bác sĩ thông qua ứng dụng điện thoại Một số chức năng của Big data trong ngành Y tế bao gồm:

- Cho phép người quản lý ca biết được bác sĩ cụ thể vào những thời điểm khác

- Dựa vào hồ sơ sức khỏe điện tử để theo dõi tình trạng của bệnh nhân

- Đánh giá tình trạng bệnh thông qua các triệu chứng và xác định một số bệnh ở

giai đoạn đầu.

- Sử dụng các thiết bị kỹ thuật số như vòng đeo tay thông minh, hệ thống Big data

có thể dựa vào đó để theo dõi tình trạng bệnh và gửi báo cáo cho bác sĩ.

- Lưu trữ những hồ sơ nhạy cảm, có tính bảo mật cao một cách hiệu quả

- Ứng dụng Big data cũng có thể báo các khu vực có nguy cơ bùng phát dịch như

sốt rét, sốt xuất huyết, Covid-19,

Truyền thông và giải trí : Các công ty truyền thông và giải trí cần đẩy mạnh chuyển

đổi số để phân phối sản phẩm và nội dung nhanh nhất đến thị trường

Trang 26

Big data có nhiều ứng dụng hữu ích như:

- Xác định thiết bị và thời gian có hiệu quả nhất thông qua việc phân tích các dữ

- Các công ty truyền thông, nghệ sĩ hoặc người phụ trách truyền thông có thể chọn

địa điểm tần suất phân phối.

- Xem xét mức độ phổ biến, nghệ sĩ có thể chọn thiết bị, hệ điều hành để phân

phối các sản phẩm, nội dung của mình.

Digital Marketing : Giờ đây, dường như bất kỳ doanh nghiệp nào cũng cần đến

Digital Marketing để đưa sản phẩm/ dịch vụ của mình đến gần và rộng hơn với người tiêu dùng.

Big data đã góp một phần lớn cho Digital Marketing phát triển mạnh mẽ như hiện tại, ví dụ:

- Phân tích thị trường và các đối thủ cạnh tranh Đồng thời đánh giá mục tiêu kinh

doanh của doanh nghiệp, xác định đâu là cơ hội, đâu là thách thức để tiếp tục tiến hành các kế hoạch kinh doanh khác.

- Xác định người dùng trên các phương tiện truyền thông xã hội, dựa vào nhân

khẩu học như giới tính, tuổi tác, sở thích, thu nhập, để xác định khách hàng mục tiêu.

- Xác định các chủ đề, nội dung được người dùng tìm kiếm nhiều để xây dựng

chiến lược nội dung SEO trên công cụ tìm kiếm.

Trang 27

- Tạo các đối tượng tương tự thông qua việc sử dụng các cơ sở dữ liệu đối tượng

hiện có để nhắm mục tiêu đến các khách hàng tương tự, từ đó kiếm được lợi nhuận.

Giao thông vận tải : Ứng dụng Big data vào ngành giao thông vận tải cũng mang

lại nhiều chức năng như:

- Kiểm soát các tuyến đường xe buýt để cung cấp thông tin cho người dùng, bắt tuyến xe đúng điểm dừng và đúng thời gian.

- Các công ty vận tải tư nhân có thể ứng dụng Big data vào quản lý tài sản, kiểm tra và cải tiến công cụ, tối ưu hóa quy trình vận hành,

Ứng dụng Big data vào lập kế hoạch lộ trình, sắp xếp các phương tiện đi lại, di

chuyển tới các điểm điểm khác nhau khi đi du lịch,

Dịch vụ khách hàng : Ngoài chất lượng sản phẩm, dịch vụ tốt là điều mà khách

hàng kỳ vọng nhiều nhất Trong giai đoạn mới tham gia vào thị trường, Big data sẽ giúp chủ doanh nghiệp tìm ra những giải pháp và những đề xuất tối ưu để hiểu được khách hàng và tìm ra lợi thế cạnh tranh.

Cách thức ứng dụng Big Data vào dịch vụ khách hàng

- Xác định yêu cầu khách hàng, tập trung thực hiện các nhu cầu và kỳ vọng để làm hài lòng họ.

- Phân tích hành vi, sự quan tâm của khách hàng để tạo ra các sản phẩm/ dịch vụ khách hàng phù hợp, đồng thời thiết kế mô hình tiếp thị tối ưu.

- Nắm được sự tương đồng giữa khách hàng và nhu cầu, kỳ vọng của họ, từ đó có

thể xây dựng các chiến dịch quảng cáo chính xác và mang lại hiệu quả cao.

CHƯƠNG 2 : DỮ LIỆU LỚN VÀ ĐIỆN TOÁN ĐÁM MÂY 1 Điện toán đám mây

Trang 28

Điện toán đám mây (Cloud Computing), còn gọi là điện toán máy chủ ảo, là mô

hình điện toán sử dụng công nghệ máy tính và phát triển dựa vào mạng Internet Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ mạng Internet (dựa vào cách được bố trí của nó trong sơ đồ mạng máy tính) và như sự liên tưởng về độ phức tạp của các cơ sở hạ tầng chứa trong nó Ở mô hình điện toán này, mọi khả năng liên quan đến công nghệ thông tin đều được cung cấp dưới dạng các "dịch vụ", cho phép người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp nào đó "trong đám mây" mà không cần phải có các kiến thức, kinh nghiệm về công nghệ đó, cũng như không cần quan tâm đến các cơ sở hạ tầng phục vụ công nghệ đó Theo tổ chức IEEE: "Nó là hình mẫu trong đó thông tin được lưu trữ thường trực tại các máy chủ trên Internet và chỉ được lưu trữ tạm thời ở các máy khách, bao gồm máy tính cá nhân, trung tâm giải trí, máy tính trong doanh nghiệp, các phương tiện máy tính cầm tay, " Điện toán đám mây là khái niệm tổng thể bao gồm cả các khái niệm như phần mềm dịch vụ, Web 2.0 và các vấn đề khác xuất hiện gần đây, các xu hướng công nghệ nổi bật, trong đó đề tài chủ yếu của nó là vấn đề dựa vào Internet để đáp ứng những nhu cầu điện toán của người dùng Ví dụ, dịch vụ Google AppEngine cung cấp những ứng dụng kinh doanh trực tuyến thông thường, có thể truy nhập từ một trình duyệt web, còn các phần mềm và dữ liệu đều được lưu trữ trên các máy chủ.Điện toán đám mây là mô hình cung cấp tài nguyên máy tính cho người dùng tùy theo mục đích sử dụng thông qua kết nối Internet Nguồn tài nguyên này bao gồm rất nhiều thứ liên quan đến điện toán và máy tính, ví dụ như: phần mềm, dịch vụ, phần cứng,… và sẽ nằm tại các máy chủ ảo (đám mây) trên mạng Người dùng có thể truy cập vào bất cứ tài nguyên nào trên đám mây Vào bất kỳ thời điểm nào và ở bất kỳ đâu, chỉ cần kết nối với hệ thống internet.

Trang 29

2.Các loại điện toán đám mây

Điện toán đám mây làm cho việc chia sẻ tài nguyên đơn giản hơn đáng kể Với sự phát triển của công nghệ điện toán đám mây, các tài nguyên được kết nối thông qua các mạng công cộng hoặc tư nhân để cung cấp cơ sở hạ tầng có khả năng mở rộng cao để lưu trữ và các ứng dụng khác Client chọn dịch vụ đám mây không cần phải lo lắng về việc cập nhật phiên bản phần mềm mới nhất, sẽ được các nhà cung cấp dịch vụ đám mây chăm sóc Công nghệ điện toán đám mây được phân loại thành ba loại dựa trên cơ sở hạ tầng của nó:

Đám mây công khai: Trong một đám mây công khai, các dịch vụ được cung cấp

qua internet bởi các nhà cung cấp thứ ba Các tài nguyên như lưu trữ được cung cấp cho Client thông qua Internet Client được phép sử dụng các dịch vụ trên mô hình trả tiền, giúp giảm đáng kể chi phí Trong một mô hình trả tiền, Client được yêu cầu chỉ trả tiền cho các tài nguyên được tiêu thụ Ưu điểm của đám mây công khai là tính khả dụng, giảm đầu tư và giảm bảo trì vì tất cả các hoạt động bảo trì bao gồm phần cứng và phần mềm được thực hiện bởi các nhà cung cấp dịch vụ đám mây Các Client được cung cấp các phiên bản cập nhật của phần mềm và bất kỳ sự gia tăng không lường trước nào trong các yêu cầu về năng lực phần cứng được xử lý bởi các nhà cung cấp dịch vụ Dịch vụ đám mây công khai có quy mô lớn hơn, cung cấp theo yêu cầu

Khả năng mở rộng cho Client của mình Một vài ví dụ về đám mây công khai là IBM Blue Cloud, Amazon, Cloud và Windows Azure Services nền tảng Mây công khai có thể không phải là một lựa chọn đúng đắn cho tất cả các tổ chức vì những hạn chế về cấu hình và bảo mật vì các yếu tố này được quản lý hoàn toàn

Trang 30

bởi các nhà cung cấp dịch vụ Lưu tài liệu vào iCloud, Google Drive và phát nhạc từ Amazon Cloud Cloud Player đều là những dịch vụ đám mây công khai.

Đám mây riêng: Một đám mây riêng còn được gọi là đám mây công ty hoặc đám

mây nội bộ Chúng được sở hữu độc quyền bởi một công ty duy nhất có quyền kiểm soát duy trì trung tâm dữ liệu của riêng mình Mục đích chính của một đám mây riêng là không bán dịch vụ cho Client bên ngoài mà là để có được những lợi ích của kiến trúc đám mây Mây tư nhân tương đối đắt hơn so với các đám mây công khai Mặc dù chi phí gia tăng và bảo trì đám mây riêng, các công ty thích một đám mây riêng để giải quyết mối quan tâm liên quan đến bảo mật của dữ liệu và giữ tài sản trong tường lửa, thiếu một đám mây riêng Mây tư nhân không phù hợp nhất cho doanh nghiệp vừa và nhỏ, nhưng chúng phù hợp hơn cho các doanh nghiệp lớn hơn Hai biến thể của một đám mây riêng là đám mây riêng trên cơ sở và đám mây riêng được lưu trữ bên ngoài Đám mây riêng tại chỗ là đám mây nội bộ được lưu trữ trong trung tâm dữ liệu của một tổ chức Nó cung cấp nhiều bảo mật hơn nhưng thường có giới hạn về kích thước và khả năng mở rộng của nó Đây là những điều phù hợp nhất cho các doanh nghiệp yêu cầu kiểm soát hoàn toàn bảo mật Một đám mây riêng được lưu trữ bên ngoài được lưu trữ bởi các nhà cung cấp dịch vụ đám mây bên ngoài với sự đảm bảo đầy đủ về quyền riêng tư Trong một đám mây riêng được lưu trữ bên ngoài, các máy khách được cung cấp một môi trường đám mây độc quyền Kiểu kiến trúc đám mây này được ưa thích bởi các tổ chức không quan tâm đến việc sử dụng đám mây công khai vì các vấn đề bảo mật và rủi ro liên quan đến việc chia sẻ tài nguyên.

Đám mây lai: Mây lai là sự kết hợp giữa các đám mây công khai và riêng tư trong

đó lợi thế của cả hai loại môi trường đám mây Một đám mây lai sử dụng các nhà

Trang 31

cung cấp dịch vụ đám mây của bên thứ ba hoặc một phần Một đám mây lai có ít nhất một đám mây công khai và một đám mây riêng Do đó, một số tài nguyên được quản lý trong nhà và một số tài nguyên được mua từ các nguồn bên ngoài Nó đặc biệt có lợi trong các cửa sổ bảo trì theo lịch trình Nó đã tăng tính linh hoạt của điện toán và cũng có khả năng cung cấp khả năng mở rộng theo yêu cầu.

3.Mô hình dịch vụ Điện toán đám mây

Mô hình dịch vụ điện toán đám mây chủ yếu đề cập đến cách thức phân phối các tài nguyên công nghệ thông tin (cả phần mềm và phần cứng) qua mạng internet tới người dùng.

Các mô hình dịch vụ điện toán đám mây đều được xây dựng dựa trên cấu trúc cơ bản của điện toán đám mây: Chúng cung cấp tài nguyên công nghệ thông tin qua internet, có thể miễn phí hoặc thu phí người dùng dựa theo mức sử dụng Ngoài ra, khách hàng có thể yêu cầu ngừng sử dụng dịch vụ bất cứ khi nào họ muốn

Tuy nhiên mỗi mô hình lại khác nhau ở thiết kế, mức độ linh hoạt, khả năng mở rộng, kiểm soát và quản lý Hiện nay có 3 mô hình dịch vụ điện toán đám mây chủ yếu là SaaS, PaaS và IaaS Mỗi mô hình đáp ứng nhu cầu của những đối tượng người dùng khác nhau.

Trang 32

Hình 1.7 : Mô phỏng mức độ cung cấp tài nguyên CNTT của SaaS, PaaS và IaaS.

SaaS – Phần mềm dưới dạng dịch vụ : Trong các loại dịch vụ điện toán

đám mây, mô hình SaaS chính là mô hình phổ biến nhất hiện nay, có thể sử dụng rộng rãi cho mọi đối tượng.

SaaS là viết tắt của thuật ngữ “Software as a Service”, là mô hình dịch vụ cung cấp cho người dùng quyền truy cập vào một ứng dụng hoặc phần mềm được xây dựng hoàn chỉnh Chúng có đầy đủ chức năng và tác vụ đáp ứng các nhu cầu của người dùng (phần lớn là người dùng cuối) và giúp họ giải quyết các vấn đề cụ thể.

Các ứng dụng SaaS được cung cấp tới người dùng dựa trên nền tảng điện toán đám mây theo một trong các dạng: ứng dụng trên máy tính ,ứng dụng cho thiết bị di động ,tiện ích trên trình duyệt web.

Trang 33

- Đặc điểm của mô hình dịch vụ điện toán đám mây SaaS: SaaS là giải pháp

giúp người sử dụng tiết kiệm chi phí, năng lượng, nguồn lực CNTT nhờ những đặc điểm nổi bật.

Triển khai nhanh chóng, dễ sử dụng: Khi đăng ký mua một sản phẩm theo mô

hình SaaS, người dùng sẽ nhận về một giải pháp hoàn thiện và sẵn sàng để truy cập, sử dụng Họ không cần đầu tư nhiều cơ sở hạ tầng, tài nguyên điện toán để thiết lập, cấu hình và vận hành ứng dụng; cũng không cần phải nâng cấp phần mềm hay bảo trì máy chủ và hệ điều hành mà ứng dụng đang chạy, những việc này thuộc về trách nhiệm của nhà cung cấp.

Tuy nhiên điều này cũng đồng nghĩa với việc người dùng khó có thể tùy chỉnh phần mềm để đáp ứng tối đa mọi nhu cầu của mình bởi đây là ứng dụng được thiết kế sẵn.

Hình 1.8 : Mô hình SaaS

Trang 34

Nhà cung cấp SaaS lưu trữ và duy trì các máy chủ, cơ sở dữ liệu, mã code cấu thành ứng dụng Người dùng chỉ cần đăng ký và sử dụng.

Khả năng truy cập dễ dàng: Người dùng có thể truy cập ứng dụng SaaS từ mọi

nơi, trên mọi thiết bị có kết nối internet.

Tuy nhiên, chính vì mô hình dịch vụ SaaS hoạt động dựa trên internet, vì vậy khi kết nối mạng không ổn định hoặc bị lỗi thì có thể sinh ra thời gian chết, người dùng sẽ không thể truy cập vào ứng dụng và các dữ liệu đã được lưu trên đám mây.

Có thể tích hợp với các nền tảng và dịch vụ khác: Để đáp ứng tốt hơn nhu cầu

của người dùng, một ứng dụng SaaS có thể sử dụng giao thức API để tích hợp với các ứng dụng hoặc nền tảng khác Từ đó giúp người dùng tùy chỉnh các tính năng của ứng dụng một cách dễ dàng và tiết kiệm chi phí.

Chi phí phải trả dựa theo nhu cầu hoặc mức sử dụng (Pay-as-you-go): Chi phí

sử dụng SaaS (nếu có) được thanh toán định kỳ hàng tháng hoặc hàng năm Các nhà cung cấp SaaS thường đưa ra nhiều lựa chọn đăng ký gói cước, các gói được thiết kế dựa trên nhu cầu sử dụng ít hay nhiều của người dùng và được định giá từ cao tới thấp.

- SaaS phù hợp cho ứng dụng nào : Mô hình SaaS được sử dụng phổ biến cho mục

đích hợp tác hoặc làm việc nhóm, điều phối quy trình làm việc cho một tổ chức/doanh nghiệp Các ứng dụng phổ biến nhất của SaaS có thể kể đến: Hệ thống CRM quản lý quan hệ khách hàng

Hệ thống ERP hoạch định nguồn lực của doanh nghiệp.

Trang 35

Quản lý nội dung web.

Phục vụ các chiến dịch email marketing (tiếp thị qua email) Phục vụ ngành bán lẻ và thương mại điện tử.

Các phần mềm thanh toán và lập hóa đơn, phần mềm kế toán, phần mềm bán hàng, phần mềm nhân sự, phần mềm bảo mật, hệ thống quản lý tài sản,…

Phần mềm phục vụ hội họp, trò chuyện qua cuộc gọi video,… Phần mềm quản lý dự án.

Hình 1.9 : Các sản phẩm SaaS

Các sản phẩm SaaS cực kỳ đa dạng và có thể đáp ứng rất nhiều yêu cầu của người dùng.

Trang 36

Ví dụ về SaaS : Một số dịch vụ điện toán đám mây triển khai dựa trên mô hình

SaaS nổi tiếng hiện nay là Microsoft 365, Google Workspace, Salesforce, Slack, VNPT Invoice, VNPT eContract,…

PaaS – Nền tảng dưới dạng dịch vụ : Trong khi SaaS cung cấp một giải pháp

phần mềm ứng dụng hoàn chỉnh, thì PaaS mang lại các công cụ để xây dựng, phát triển các phần mềm, ứng dụng đó mà không cần phải lo về tài nguyên máy tính PaaS là viết tắt của thuật ngữ “Platform as a Service” – “Nền tảng dưới dạng dịch vụ” Trong khi SaaS là sản phẩm hoàn chỉnh giúp giải quyết trực tiếp các vấn đề của người dùng, thì PaaS chính là một hệ sinh thái, cung cấp môi trường hoàn chỉnh để người dùng tự thiết kế, tạo dựng, phát triển, thử nghiệm, triển khai và lưu

Công cụ phát triển: Trình chỉnh sửa mã nguồn, trình gỡ lỗi, trình biên dịch, các công cụ hỗ trợ viết/ triển khai/ gỡ lỗi/ quản lý mã…

Hệ điều hành, API trung gian,…

Trang 37

Hình 1.10 : Kiến trúc của PaaS

Có thể hiểu kiến trúc của PaaS tương tự như một mô hình điện toán đám mây không

có máy chủ.

-Đặc điểm của mô hình dịch vụ điện toán đám mây PaaS : Khi sử dụng PaaS, mọi

quy trình xây dựng, kiểm thử, triển khai và điều chỉnh ứng dụng được thực hiện nhanh chóng và tiết kiệm chi phí hơn Đó là nhờ một số đặc điểm nổi bật của mô hình PaaS gồm:

Chạy vòng đời ứng dụng hiệu quả: Chỉ với một môi trường tích hợp duy nhất,

PaaS cung cấp danh mục nền tảng đa dạng để người dùng chạy mọi giai đoạn trong vòng đời ứng dụng, bao gồm: phát triển, thử nghiệm, triển khai, quản lý và cập nhật.

Không yêu cầu mức độ quản lý cao:Người dùng PaaS không cần đầu tư phần cứng đắt tiền mà chỉ cần tập trung vào xây dựng, thử nghiệm và quản lý ứng dụng

Trang 38

Mọi tài nguyên gồm máy chủ, hệ điều hành, công cụ phát triển đều được nhà cung cấp cấp sẵn dưới dạng “bộ kit”.

Người dùng PaaS sẽ được cấp quyền truy cập ngay vào môi trường phát triển phần mềm này, sử dụng các công nghệ có sẵn giúp rút ngắn quá trình viết mã ứng dụng, góp phần nhanh chóng đưa sản phẩm ra mắt thị trường

Ngoài ra, người dùng cũng không cần thực hiện các công việc như bảo trì, vá lỗi hệ điều hành, cài đặt cập nhật bảo mật,… Đây là trách nhiệm do nhà cung cấp thực hiện để duy trì nền tảng PaaS luôn ổn định.

Khả năng tiếp cận rộng rãi: Sử dụng PaaS, các nhà lập trình có thể tạo ứng dụng

cho nhiều nền tảng và thiết bị khác nhau Ngoài ra, PaaS có thể truy cập trực tuyến

từ mọi vị trí, dễ dàng phục vụ cho các hoạt động cộng tác nhóm.

Tính linh hoạt cao, khả năng mở rộng hiệu quả: PaaS cung cấp rất nhiều công cụ

sẵn có để lên ý tưởng, thiết kế và phát triển ứng dụng phần mềm theo ý riêng của

người dùng, không cần bất kỳ sự phụ thuộc nào vào bên bán sản phẩm như SaaS

Bên cạnh đó, mô hình PaaS cũng có thể mở rộng quy mô tài nguyên điện toán đám mây khi có nhu cầu, và hủy sử dụng tài nguyên khi không cần thiết.

Trả tiền theo mức sử dụng:Mô hình dịch vụ điện toán đám mây PaaS được cung cấp tới người dùng theo nguyên tắc trả tiền theo nhu cầu sử dụng Một dịch vụ PaaS sẽ đưa ra nhiều lựa chọn gói cước được định giá theo khả năng tính toán hệ thống, dung lượng lưu trữ và các tài nguyên mạng Nhờ đó, người dùng có thể phát triển các ứng dụng mới và được giảm bớt gánh nặng về chi phí lẫn trách nhiệm.

Trang 39

Hình 1.11 : Môi trường PaaS

PaaS cung cấp môi trường và đầy đủ bộ công cụ để người dùng phát triển ứng dụng trong toàn bộ vòng đời.

-PaaS phù hợp cho ứng dụng nào?

PaaS được sử dụng phổ biến cho những trường hợp: Triển khai ứng dụng web.

Trang 40

Các đơn vị chuyên cho thuê phần mềm quản trị cơ sở dữ liệu, các phần mềm quản lý tin tức

Xây dựng các API để kiểm soát, chia sẻ dữ liệu giữa các thiết bị và ứng dụng; API thông báo đẩy…

Bộ dịch vụ di động (Mobile services) Học máy (Machine learning).

- Ví dụ về PaaS : Các dịch vụ đám mây dựa theo mô hình PaaS phổ biến có thể kể

tới: AWS Elastic Beanstalk, Microsoft Azure App Service, Google App Engine, VMware Cloud Foundry.

IaaS – Cơ sở hạ tầng dưới dạng dịch vụ

Trong khi SaaS là mô hình dễ sử dụng nhất, thì IaaS là phương án tốt nhất để người dùng kiểm soát tối đa môi trường công nghệ và tự tạo sản phẩm riêng với mức chi phí tiết kiệm hơn phần mềm tại chỗ truyền thống.

IaaS là viết tắt của thuật ngữ “Infrastructure as a Service”, là mô hình dịch vụ tạo nền tảng để triển khai công nghệ điện toán đám mây Thông qua nhà cung cấp IaaS, người dùng có quyền truy cập qua internet để vào các tài nguyên CNTT phần cứng và cốt lõi gồm:

Máy chủ ảo hoặc máy chủ chuyên dụng chạy trên nền máy tính vật lý Các dịch vụ kết nối mạng.

Ngày đăng: 11/04/2024, 21:15

Tài liệu cùng người dùng

Tài liệu liên quan