Khóa luận tốt nghiệp Mạng máy tính và truyền thông dữ liệu: Hệ thống phát hiện hiệu suất bất thường dựa trên học bầy đàn cho cơ sở hạ tầng đám mây

Để tăng độ bảo mật thì học máy đã được áp dụng như một công cụ trong việc tăng cường bảo mật cho các hệ thống đám mây.. Các hệ thống học máy hiện nay chủ yếu được triển khai theo mô hình

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRƯỜNG DAI HỌC CONG NGHỆ THONG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG

NGUYEN ĐÀM NHẬT ANH - 20520880

KHOA LUAN TOT NGHIEP

A SWARM LEARNING-BASED ANOMALIES PERFORMANCE

DETECTION SYSTEM FOR CLOUD INFRASTRUCTURE

CU NHÂN NGÀNH MẠNG MAY TÍNH VA TRUYEN THONG DU LIEU

GIANG VIÊN HƯỚNG DẪN

ThS Nguyễn Khánh Thuật

TP HO CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Trong suốt thời gian thực hiện Khóa luận tốt nghiệp, em đã có cơ hội được tiếp

cận và nắm thêm những kiến thức lý thuyết mang tính ứng dụng cao qua những bàibáo khoa học phục vụ như tài liệu tham khảo Em tin rằng những kiến thức này sẽ

đem lại nhiều lợi ích cho công việc và học tập trong tương lai.

Với lòng biết ơn vô cùng sâu sắc, em xin gửi lời cảm ơn đến thay/ThS NguyễnKhánh Thuật - Giảng viên hướng dẫn trực tiếp Khóa luận tốt nghiệp vì những buổitrao đổi, thảo luận mang lại nhiều trao đổi, góc nhìn, kiến thức bổ ích, góp phan tolớn vào sự hoàn thành của khóa luận.

Với sự đầu tư tâm huyết và nghiêm túc, nhưng lại cũng không tránh khỏi nhữngthiếu sót do vốn kiến thức còn hạn hẹp và điều kiện nghiên cứu còn hạn chế, em vẫn mong báo cáo khóa luận này có thể thể hiện khả năng và vốn kiến thức của bản thântrong quá trình nghiên cứu qua Rất mong nhận được những lời nhận xét và đónggóp để báo cáo hoàn thiện nhất có thể Em xin chân thành cảm ơn!

Nhóm tác giả

Nguyễn Đàm Nhật Anh

li

Trang 3

TOM TAT

Trong bối cảnh công nghệ hiện dai, các hệ thống được triển khai trên nền tangđiện toán đám mây đóng vai trò vô cùng quan trọng, bởi chúng cung cấp khả nănglưu trữ dit liệu linh hoạt, mở rộng quy mô dễ dàng đồng thời giảm thiểu chi phi vậnhành Tuy nhiên, việc triển khai các hệ thống trên nền tảng này cũng đối mặt với nhiều thách thức, đặc biệt là về mặt bảo mật Khi số lượng và quy mô của các hệthống đám mây ngày càng lớn, nguy cơ về các cuộc tan công mạng cũng tăng lên,

đòi hỏi các biện pháp bảo mật phải được nâng cao để đảm bảo an toàn cho dữ liệu

và hoạt động của hệ thống

Để tăng độ bảo mật thì học máy đã được áp dụng như một công cụ trong việc tăng cường bảo mật cho các hệ thống đám mây Các thuật toán học máy có khả năng

tự động phát hiện các mô hình phức tạp trong dữ liệu, từ đó dự đoán và ngăn chặn

kịp thời các mối de dọa tiềm ẩn Tuy nhiên, mặc dù học máy đem lại nhiễu lợi ich,song van ton tại những điểm yếu khi được triển khai trong môi trường đám mây Các

hệ thống học máy hiện nay chủ yếu được triển khai theo mô hình tập trung, việc nàylàm gia tăng nguy cơ về bảo mật, khi toàn bộ dữ liệu có thể bị tổn hại nếu trung tâmnày bị tấn công.

Để khắc phục các điểm yếu trên, Swarm Learning đã được đề xuất như một giảipháp tiềm năng Khác với mô hình tập trung, Swarm Learning là một phương pháp

học máy phi tập trung, trong đó các máy tính cá nhân hoặc các nút mạng cùng tham

gia vào quá trình học mà không cần chia sẻ trực tiếp dữ liệu của mình Ở khóa luận

tốt nghiệp này tác giả đã đề xuất một mô hình học máy phi tập trung sử dụng SwarmLearning Trong đó có 2 node sẽ huấn luyện mô hình LSTM trên các dữ liệu time- series, dữ liệu bao gồm 2 tập dữ liệu được công khai cùng với 1 tập dữ liệu được thuthập trên môi trường thật Kết quả thu được cho thấy giá trị dự đoán chính xác của

mô hình LSTM trên Swarm Learning tương đồng với mô hình LSTM trên học máytập trung Với những dữ liệu lớn và có nhiều đặc trưng Swarm Learning cho các kếtquả ấn tượng, nhỉnh hơn so với học máy tập trung Với kết quả đó có thể thay Swarm Learning là một kiến trúc học máy đáng được quan tâm.

1H

Trang 4

MỤC LỤC

Thông tin hội đồng bảo vệ khóa luận i

Lời cảm on ii

Tóm tắt iii

Muc luc iv

Danh muc cac bang vii

Danh mục các hình vẽ và đồ thị viii Danh mục từ viết tắt x

Chương1 Mở dau 1

11 Lýdochọnđểtài 1

1.2 Các nghiên cứu lên quan - 3

1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu 3

1.3.1 Mục tiêunghiên cỨu 3

1.3.2 Đối tượng nghiêncứu - 4

143.3 Phạmvinghincứu 4

1.4 Phương pháp nghiên cỨu - 4

1.5 Các đóng góp chính của đề tài - 4

1.6 Cấu trúc Khoá luận tốtnghiệp - 5

Chương 2 Co sở lý thuyết 6 2.1 Điện toán đấm mây ẶẶ 6 2.1.1 Kiến trúc của điện toán đám may 7

2.1.2 Các loại hình của điện toán đám mây 8

2.1.2.1 Môhìnhdịchvụ 8

2.1.2.2 Mô hình triển khai 10

2.2 Thu thập và quản lý nhậtký - 11

1V

Trang 5

MỤC LỤC

2.3.1 Lịch sử phát triểncủahọcmáy 15

23.2 Phân loạhọcmáy Ặ 17 2.3.2.1 Họccógiámsất 17

2.3.2.2 Học không giámsát 18

2.3.2.3 Học bán giám sát 19

2.3.2.4 Học tăngcường 19

24 Họcsâu Q HQ Q HQ vo 20 2.5 Long Short-Term Memory 21

2.6 Hoc máy bay đàn 22

2.6.1 Y tưởng của học máy bay đàn 23

2.6.2 Kiến trúc của hoc máy bay đàn 24

2.6.3 Các thành phần trong học máy bay đàn 27

2.6.4 Thuật toán bầu chọn lãnh đạo 29

2.7 MẤt cân bằng dữ liệu 29

2.7.1 Tổng, *.SÀà \ / .ộẶ 30 Chương 3 Phương pháp thực hiện 31 3.1 Môhìnhhọcmáy ẶẶ Ặ ẶS.Ặ.e 31 3.1.1 Nghiên cứu mô hìnhphùhợp 31

3.1.2 Triển khai các mô hình đã nghiêncứu 32

3.2 Nềntảnghọcbầyđàn 34

3.2.1 Nghiên cứu kiến trúc hệ thống - 34

3.2.2 Triển khai nền tảng học bầy đàn 35

3.2.2.1 Cài đặt máy chủ quản lý giấy phép 35

3.2.2.2 Cài đặt HPE Swarm Learning Management UI 36

3.2.2.3 Cài dat Swarm Learning sử dụng SLM-UI 37

3.2.2.4 Thực hiện vi dụ với hoc máy bay đàn 37

3.2.3 Triển khai mô hình học máy 42

3.2.4 Thiết kế hệthống - 43

3.3 Thu thập và tiền xử líđữ liệu - 45

3.3.1 Môtádữliệu Ặ.ẶẶẶẶ 46

Trang 6

MỤC LỤC

3.3.2 Dữ liệu bấtthường

3.3.3 Thuthậpdữ liệu

3.3.4 Tiền xử lí dữ

liệu -3.3.4.1 Mất cân bằng dữ liệu

3.3.4.2 Đánh nhãn dữ liệu

3.3.5 Tổng kết TQ ee Chương 4 Thực nghiệm, đánh giá và thảo luận 4.1 Quy trình thực nghiệm

4.1.1 Huấn luyện trên học máy tập trung

-4.1.2 Huấn luyện mô hình trên học máy bay đàn

4.2 Kết quả thựcnghiệm

-42.1 Các têu

chíđánhgiá -4.2.2 Kếtquả-Đánhgiá

42.3 Tongkét 0 ee ee Chương 5 Kết luận và hướng phát triển 5.1 Kết luận 5.2 Han chế 5.3 Hướng pháttriển

Tài liệu tham khảo

VI

54 54 54 55

56

56 57 59

60 60 60 61

65

Trang 7

DANH MUC CAC BANG

Bảng giai đoạn phát triển của học máy

Bang mô tả tổng quát các tập dữ liệu

-Bảng mô tả cấu hình tham số huấn luyện mô hình trên nền tảng họcbay đần eee

Bảng các tiêu chí đánh giá và ham tính toán các tiêu chí đánh gia

Accuracy, Precision, Recall, Fl-score và thời gian của học máy tập

trung và học máy bay đàn trên tập dif liệu Server Machine Dataset

Accuracy, Precision, Recall, Fl-score và thời gian của học máy tậptrung và học máy bay đàn trên 2 tập dữ liệu Vichalana và tập dữ liệu

tự thu thập L1 v2

vil

57

Trang 8

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

2.1 Tổng quan về điện toán đám may! 7

2.2 Kiến trúc của điện toán đám mây [11] - 7

2.3 Các loại mô hình dịch vụ của điện toán đám mây? 9

2.4 Các loại mô hình triển khai của điện toán đám may? 10

2.5 Tổng quan về phần mềm thu thập và quản lý nhật ký Splunk* 12

2.6 Kiến trúc tổng quan va các thành phần của phần mềm thu thập va quản lý nhật ký SplunkŠ - 13

2.7 Quy trình cơ ban của học máy [l4] 14

2.8 Lịch sử phát triển của trí tuệ nhân tao, học máy và học sâu 5_ 15

2.9 Phân loại học máy phổ biến [14] 17

2.10 Học máy giám sát ẶẶẶ ẶQẶ ee es 17 2.11 Học máy không giám sát - 18

2.12 Học máy bán giám sát - 19

2.13 Học tăng cường Ặ.Ặ Ặ SẺ 20 2.14 Hoc sau fy WA a 20 2.15 Kiến trúc mạng nơ ron của mô hình LSTM [20] 21

2.16 Tổng quan về nền tảng học máy bay đàn [21] 22

2.17 Ý tưởng của nén tang học máy bay đàn [2l] 23

2.18 Quy trình hoạt động của nền tang học bay đàn [2l] 26

2.19 Kiến trúc của nền tang học bầy đàn [2l] .- 28

3.1 Sơ đồ kếtnốicá VPS Ặ.ẶẶ 34

3.2 Kiến trúc hệ thống nền tang học máy bầy đàn 44

3.3 Mô tả các trường đặc trưng của tập dữ liệu SMD 46

3.4 Biểu đồ mô tả mật độ dữ liệu của từng trường đặc trưng của tập dữ lệuSMD ee 47 3.5 Mô tả kịch bản nhãn 1 của tập dữ liệu Vichalana Anomaly Benchmark 47 3.6 Mô tả các trường đặc trưng của tập dữ liệu Vichalana 48 3.7 Biểu đồ mô tả mật độ dữ liệu của từng trường đặc trưng của tập dữ

Trang 9

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

3.8 Mô tả các trường đặc trưng của tập dữ liệu tự thuthập 493.9 Biểu đồ mô tả mật độ dữ liệu của từng trường đặc trưng của tập dữ

3.10 Đồ thị dữ liệu bất thường trong khoảng thời gian của tập dữ liệu

3.11 Đồ thị dữ liệu bất thường trong khoảng thời gian của tập dữ liệu tự

4.1 Đồ thị diễn ta giá trị accuracy trên từng epoch của tập dữ liệu SMD

của học máy tập trung và học máy bay đàn 59 4.2 Đồ thị diễn tả giá tri accuracy trên từng epoch của tập dữ liệu Vicha-

lana và tập dữ liệu tự thu thập của học máy tập trung và học máy bầy

1X

Trang 10

DANH MỤC TU VIET TAT

APLS AutoPass License Server

CNN Convolutional Neural Network

FL Federated Learning

GPU Graphics Processing Unit

HPE Hewlett Packard Enterprise

laaS Infrastructure as a Service

KVM Kernel-based Virtual Machine

LSTM Long Short-Term Memory

ML Machine Learning

non-IID non-Independent and Identically Distributed

PaaS Platform as a Service

PoS Proof of Stake

PoW Proof of Work

RNN Recurrent Neural Network

SaaS Software as a Service

SL Swarm Learning

SLM-UI Swarm Learning Management User

SMOTE Synthetic Minority Over-sampling

Trang 11

Chương 1 MỞ ĐẦU

1.1 Lý do chọn dé tài

Điện toán đám mây (Cloud Computing) hay điện toán máy chủ ảo là mô hình cung

cấp công nghệ, tài nguyên máy tính liên kết với mạng internet Sử dụng mô hìnhnày, người dùng có thể tiếp cận các tài nguyên từ công nghệ, năng lượng điện toán,lưu trữ cơ sở dif liệu từ các nhà cung cấp dịch vụ đám mây Sử dụng cơ sở hạ tangđiện toán đám mây mang lại nhiễu lợi ích to lớn cho doanh nghiệp và cá nhân Trong

đó, lợi ích quan trọng nhất là tiết kiệm chi phí cùng với khả năng mở rộng linh hoạtcho phép doanh nghiệp thích nghi nhanh chóng với sự biến đổi trong nhu cầu kinh

doanh

Tuy nhiên, việc thay đổi từ các máy chủ vật lý sang điện toán đám mây cũng đốimặt với một số khó khăn, bao gồm vấn đề về bảo mật dữ liệu, hiệu năng kết nối,quản lý tài nguyên, chi phí ẩn, và sự phụ thuộc vào nhà cung cấp dich vụ Máy chủđám mây có thể trở thành mục tiêu dé dàng nếu người quản trị không cài đặt cấuhình bảo mật đúng cách hoặc để lộ thông tin xác thực Theo thống kê của Cục An toàn thông tin, chỉ trong quý I năm 2024 Việt Nam đã có hơn 150 triệu cảnh báo về các nguy cơ bảo mật, đồng thời Cục An toàn thông tin đã phân tích và phát hiện hơn

13 nghìn sự kiện liên quan tới mã độc ransomware trên các hệ thống! Các cuộc tấncông vào máy chủ phố biến gần đây: Công ty chứng khoán VNDirect bị tấn côngvào ngày 24 tháng 3°; Tổng công ty Dầu Việt Nam (PVOil) bị tan công vào ngày 2tháng 4°; và gần đây nhất, Bưu điện Việt Nam (VNPost) cũng bị tấn công vào ngày

4 tháng 6, gây ảnh hưởng nghiêm trọng đến việc thực hiện các hoạt động liên quan

tới dịch vụ chuyển phát.

Các hiệu suất bất thường dễ gặp như là tăng hay giảm đột ngột response timecủa các ứng dụng, dịch vụ đang hoạt động trên hệ thống, hay các tài nguyên của hệthống như CPU usage, Memory usage, disk usage, tăng đột ngột so với thườngngày hay trong 1 khoảng thời gian [1, 2] Có nhiều nguyên nhân gây ra việc hiệu

Trang 12

CHUONG 1 MỞ ĐẦU

suất bất thường như hệ thống đang bị khai thác hoặc đang bị tấn công từ bên ngoài

hệ thống, các dịch vu va ứng dụng gặp lỗi trong quá trình hoạt động [1, 2] Việcxuất hiện các bất thường này sẽ làm ảnh hưởng đến trải nghiệm người dùng của ứng dụng và cũng như làm gián đoạn việc triển khai các dịch vụ trên hệ thống Vì vậy,việc phát hiện va dự đoán được hiệu suất bat thường trong thời gian sớm nhất là vôcùng quan trọng đối với việc kinh doanh sử dụng hệ thống đám mây

Đã có các dé xuất áp dụng mô hình máy học và học sâu, phần lớn các nghiên

cứu tập trung vào việc tăng cường độ chính xác và khả năng áp dụng vào các tập

dataset khác Tuy nhiên các nghiên cứu này được thực hiện trên mô hình tập trung.Hai thách thức chính liên quan đến phương pháp học tập trung truyền thống là quyền

sở hữu dữ liệu và quyên riêng tu Federated Learning (FL) [3] nổi lên như một giải

pháp khả thi cho những thách thức này, có khả năng phù hợp với các tiêu chuẩn bảo

vệ dữ liệu có thể xung đột với các phương pháp học tập trung truyền thống FL hứa

hẹn cải thiện đáng kể về bảo mật, công bằng và minh bạch, đặt ra một tiêu chuẩn

mới cho quản lý dữ liệu số và huấn luyện mô hình FL thúc đẩy học tập hợp tác màvan bảo vệ quyền riêng tư Nó giải quyết van đề lưu trữ dữ liệu tập trung bằng cáchcho phép dữ liệu thô vẫn còn trên các thiết bị địa phương tại mỗi nút tham gia Tuynhiên, FL vẫn dễ bị tan công bởi các mối đe dọa mang tinh vi, bao gồm các cuộc tancông suy luận thành viên và tái cấu trúc dữ liệu, gây ra những rủi ro đáng kể về viphạm dữ liệu FL cũng có những hạn chế về băng thông mạng gây ra các độ trễ [3,

4, 5] Để giảm thiểu những điểm yếu này cũng như tăng tính bảo mật, riêng tư thì

mô hình học máy bay đàn (Swarm learning?) được dé xuất để khắc phục các điểmyếu trên Swarm Learning (SL) là một giải pháp học máy phi tập trung sử dụng điện

toán biên và công nghệ blockchain để cho phép hợp tác ngang hàng Nó cho phép

nhiều cộng tác viên chia sẻ những hiểu biết từ dữ liệu mà không cần chia sẻ dữ liệuthực tế, bảo vệ quyên riêng tư và bảo mật dữ liệu trong khi vẫn cho phép tat cả nhữngngười đóng góp được hưởng lợi từ việc học tập chung.

Shttps:// github.com/HewlettPackard/swarm-learning

Trang 13

1.2 CÁC NGHIÊN CUU LIEN QUAN

1.2 Các nghiên cứu liên quan

Chưa có nhiều nghiên cứu tại Việt Nam về van dé hiệu suất bất thường, tuy nhiênđây là vấn đề được các kĩ sư vận hành hệ thống quan tâm Đã có rất nhiều nghiêncứu liên quan tới van dé này trên thé giới, có thể kể đến như: Ruyue Xin [2] và cộng

sự đã nghiên cứu va công bố bao gồm tích hợp nhiều phương pháp phát hiện batthường truyền thống (IForest, KNN, LOE, OCSVM) kết hợp với học tổng hợp tăng

độ chính xác để đánh giá hiệu quả trên các bộ dữ liệu khác nhau (DApp monitoring

data, SMD data, Vichalana data) với kết quả ARP_score cao nhất là 5,1821; FaisalShahzad [6] và cộng sự đã nghiên cứu va công bố đóng góp là sự cải thiện kết qua

bằng cách sử dụng các điểm trung tâm của giá trị thuộc tính trong giai đoạn tiền xử

ly dt liệu với mô hình sử dụng bao gồm Ensemble learning, SVM, KNN, Decision Trees trên tập dữ liệu UNSW-NB15 cho ra Độ chính xác cao nhất dat 99.25% với

phân loại nhị phân, 76.96% với phân loại đa nhãn; Katerina Mitropoulou [7] và cộng

sự đã nghiên cứu sử dụng mô hình Graph embedding (SAGE) kết hợp với 2 thuật

toán học máy không giám sát là CBLOF (Cluster-Based Local Outlier Factor) va

Isolation Forest trên tập dự liệu họ tự thu thập cho ra kết quả đáng kể trong việc pháthiện các bat thường đồng thời cho thay CBLOF có hiệu suất tốt hơn so với IsolationForest Max Landauer [8] và cộng sự đã khảo sát về 62 phương pháp nhằm phát hiệncác sự kiện hoặc quá trình bất thường trong dữ liệu nhật ký hệ thống bằng cách sửdụng học sâu, việc khảo sát này đã cho thấy các kiến trúc mô hình đa dạng đều phùhợp cho mục đích phát hiện bất thường

143 Mục tiêu, đối tượng và phạm vi nghiên cứu

1.3.1 Mục tiêu nghiên cứu

* Nghién cứu các mô hình học bay đàn phù hợp với bài toán phát hiện bat thường

* Nghiên cứu triển khai hệ thống phát hiện bất thường bằng các mô hình học

máy trên nền tảng học bầy đàn

« Đánh giá hiệu suất của nền tang học bầy đàn so với học máy tập trung.

Trang 14

CHƯƠNG I MỞ ĐẦU

1.3.2 Đối tượng nghiên cứu

» Kiến trúc về ha tầng đám mây va các dịch vụ, mô hình được triển khai trên hạ

tầng đám mây

» Kiến trúc của nền tang học bay dan

s Các mô hình học máy.

« Phần mềm thu thập và quản lý nhật ky Splunk.

« Các kỹ thuật tiền xử lí dữ liệu.

1.3.3 Phạm vi nghiên cứu

« Điện toán đám mây, hiệu suất bất thường, học máy, nền tang học bay đàn, dữ

liệu phân tán, bảo mật thông tin.

1.4 Phuong pháp nghiên cứu

¢ Phương pháp thu thập số liệu.

¢ Phương pháp nghiên cứu định lượng.

s® Phương pháp thực nghiệm.

* Phương pháp phân tích tổng kết kinh nghiệm.

1.5 Các đóng góp chính của đề tài

« Triển khai và huấn luyện mô hình LSTM trên kiến trúc học bay dan.

* Triển khai và đánh giá học bay đàn so với học máy tập trung

» Thu thập dữ liệu thực tế, so sánh và đánh giá kết quả của hoc bay đàn dựa trên

dữ liệu public với dữ liệu thực tế

* So sánh điểm mạnh của học bầy đàn so với học máy tập trung

4

Trang 15

1.6 CẤU TRÚC KHOA LUẬN TỐT NGHIỆP

1.6 Cấu trúc Khoá luận tốt nghiệp

Khóa luận với đề tài “HỆ THONG PHÁT HIỆN HIỆU SUẤT BAT THƯỜNG DUA

TREN HOC BAY DAN CHO CƠ SỞ HẠ TANG DAM MAY” được trình bày bao

gồm 5 chương Nội dung tóm tat từng chương được trình bày như sau:

¢ Chương 1: Mở đầu: Tổng quan về dé tài, trình bày lý do chọn dé tài và các

nghiên cứu liên quan đến đề tài Giới thiệu mục tiêu, đối tượng và phạm vinghiên cứu Đồng thời trình bày các phương pháp nghiên cứu và các đóng góp

chính của đề tài.

¢ Chương 2: Cơ sở lý thuyết: Trình bày tổng quan về Học máy, Học máy bầy

đàn, mô hình học máy LSTM Chương này còn trình bày thiết kế mô hình học bầy đàn được sử dụng Đồng thời trình bày phương pháp thu thập dữ liệu sử dụng phần mềm Splunk và một số kĩ thuật tiền xử li dit liệu.

¢ Chương 3: Phương pháp thực hiện: Trinh bày các phương pháp thực hiện

với các nội dung, mục tiêu đã đê ra.

« Chương 4: Thực nghiệm, đánh giá va thảo luận: Trình bày các kịch ban

triển khai, mô tả tập dữ liệu, môi trường và cấu hình triển khai Đưa ra các tiêu chí đánh giá và trình bày kết quả đã triển khai.

* Chương 5: Kết luận và hướng phát triển: Đánh giá kết quả dat được, so

sánh các ưu điểm, nhược điểm giữa học bầy đàn với học máy tập trung và đềxuất hướng phát triển trong tương lai.

Trang 16

Chương 2 CƠ SỞ LÝ THUYET

Chương 2 giới thiệu các khái niệm và công nghệ cơ bản được sử dụng trong nộidung nghiên cứu, bao gồm tổng quan về học máy, giới thiệu học sâu và mô hìnhLong Short-Term Memory (LSTM) Tập trung vào nền tang học bay đàn, tổng quan

về điện toán đám mây, van dé mat cân bằng dif liệu và giới thiệu phần mềm hỗ trợ

thu thập và quản lý nhật ký Chương này sẽ tổng quan nội dung nghiên cứu để giải

quyết bài toán phát hiện hiệu suất bất thường cho cở sở hạ tầng đám mây

2.1 Điện toán dam mây

Cloud computing [9] hay điện toán đám mây, là một sự thay đổi trong mô hình quản

lý và sử dụng tài nguyên phần cứng và phần mềm Sự xuất hiện của dịch vụ kiến trúcđịnh hướng (Service Oriented Architecture - SOA) đã làm nền tảng cho điện toán

đám mây, cho phép các tổ chức chia sẻ cơ sở vật chất phi vật lý Ý tưởng bắt nguồn

từ các khóa cạnh của cơ sở hạ tầng trong công nghệ thông tin, khi mà có thể làmcho cơ sở hà tậng có thể tái sử dụng, từ đó có thể phân phối lại chi phí Những khả

năng này làm giảm đáng kể thời gian lắp đặt, chi phí dau tư và chi phí vận hành các

cơ sở hạ tầng Theo định nghĩa của National Institute of Standards and Technology

(NIST)!: "Điện toán đám mây là một mô hình cho phép các dịnh vụ tiện lợi, theo yêu

cầu quyền truy cập vào nhóm tài nguyên có thể cau hình và được chia sẻ như mạng, máy chủ, lưu trữ, ứng dụng, Có thể được cung cấp và phát hành nhanh chóng với

sự quản lý tối thiểu của nhà cung cấp dịch vụ."

' https://nvIpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-145.pdf

Trang 17

2.1 ĐIỆN TOÁN DAM MAY

Hình 2.1 Tổng quan về điện toán đám mây ?

2.1.1 Kiên trúc của điện toán đám mây

Điện toán đám mây [10] sẽ có 4 lớp bao gồm: Lớp phần cứng/trung tâm dif liệu, lớp

Trang 18

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

° Lớp phần cứng: Lớp này chịu trách nhiệm quản lý tài nguyên vật ly của đám

mây, bao gồm máy chủ, bộ định tuyến, bộ chuyển mạch, nguồn và hệ thốnglàm mát Lớp phần cứng đặt tại trung tâm dữ liêu Trong trung tâm dif liệu,

có hàng nghìn máy chủ được bố trí trên các giá đỡ và được liên kết bằng bộchuyển mạch, bộ định tuyến hoặc loại khác Các thách thức ở lớp phần cứngbao gồm việc quản lý lưu lượng truy cập, nguồn điện, khả năng chịu lỗi và cáckhía cạnh phần cứng

* Lớp cơ sở hạ tầng: Lớp ảo hóa là lớp được xây dựng trực tiếp trên lớp phần

cứng Bằng cách phân chia các tài nguyên vật lý bởi các công nghệ ảo hóa

như Xen, Kernel-based Virtual Machine (KVM), VMware , lớp cơ sở hạ tầngcung cấp một nhóm tài nguyên lưu trữ và tính toán Vì các tính năng như phân

bổ tài nguyên linh hoạt chỉ khả dụng thông qua công nghệ ảo hóa nên lớp cơ

sở hạ tầng rất cần thiết cho điện toán đám mây

« Lớp nền tảng: Lớp cơ sở hạ tầng là nền tảng cho lớp này Lớp nền tang được

tạo thành từ các hệ điều hành và các nền tảng ứng dụng Mục tiêu của lớp này

là giảm bớt công việc liên quan đến triển khai trực tiếp các chương trình vào

(Virtual Machine (VM)) container.

* Lớp ứng dụng: Lớp ứng dung nằm ở vị trí cao nhất trong hệ thống phân cấp

Lớp này bao gồm các ứng dụng đám mây Không giống các ứng dụng truyềnthống, ứng dụng đám mây có thể tối ưu hóa tính năng tự động mở rộng quy

mô để cải thiện hiệu suất, tính khả dụng và giảm chi phí vận hành.

2.1.2 Các loại hình của điện toán đám mây

Trang 19

2.1 ĐIỆN TOÁN DAM MAY

SaaS

Used by end users

©eƒ.®

Hình 2.3 Các loại mô hình dịch vụ của điện toán đám mây

* laaS (Infrastructure as a Service): Cơ sở hạ tầng dưới dang dịch vụ hoạt động

như lớp cơ sở của mô hình dịch vụ Hỗ trợ hai mô hình dịch vụ PaaS và SaaS.

IaaS cung cấp bộ lưu trữ, CPU, hệ điều hành, phần mềm ứng dụng và các tainguyên khác cho người dùng cuối IaaS sử dụng công nghệ ảo hóa để chuyểnđổi tài nguyên vật lý thành tài nguyên logic, đồng thời phân bố và hủy theonhu cầu của khách hàng Khách hàng sử dụng dịch vụ tùy thuộc vào mô hình

để trả tiền theo nhu cầu, mô hình này chỉ trả tiền cho các tài nguyên của nó.Các nhà cung cấp dịch vụ sẽ xử lý có sở hạ tầng nền trong khi khách hàng cóthể kiểm soát hệ điều hành và các ứng dụng được triển khai

* PaaS (Platform as a Service): Nền tảng dưới dang dich vu là mô hình dịch vụ

cấp nền tang bao gồm soạn thảo, biên dịch, xây dựng và triển khai các khanăng giúp thiết kế, triển khai, phát triển và lưu trữ ứng dụng dựa trên websitecho người dùng cuối Người dùng PaaS không quản lý cơ sở hạ tầng nền nhưmạng, hệ điều hành và bộ lưu trữ mà chỉ kiểm soát cầu hình và môi trường lưutrữ ứng dụng Bat kỳ ai có kết nối internet đều có thể truy cập được các dịch

*https://medium.com/@vaddenenisrikanth/c-e5đ76c5abb94

9

Trang 20

vụ này và phát triển các ứng dung mà không phải lo lắng về chi phí và cơ sở

hạ tầng Mô hình PaaS rất nhanh và tiết kiệm chi phí so với mô hình cơ sở hạtang cơ bản; nó đảm nhiệm van dé bao mật, cơ sở dữ liệu, tích hợp cơ sở dữliệu, tính linh hoạt và khả năng mở rộng.

* SaaS (Software as a Service): Phần mềm dưới dang dich vu là lớp trên cùng

của mô hình dịch vụ đám mây và được người dùng cuối trực tiếp sử dung Với

mô hình SaaS, việc quản lý cơ sở hạ tầng được thực hiện bởi nhà cung cấp Cácphần mềm, web sẽ được cung cấp bới đám mây thông qua trình duyệt web Do

đó SaaS là phần mềm theo yêu cầu và hoạt động theo mô hình trả tiền khi sử

dụng.

2.1.2.2 Mô hình triển khai

Có 4 loai loại mô hình triển khai cơ bản [10] là Public (External) Cloud, Private

(Internal/Corporate) Cloud, Hybrid Cloud, Community Cloud mà người dùng khác

nhau có thể áp dụng bất kỳ mô hình nào dựa trên tổ chức, ngân sách, yêu cầu

Cloud Deployment Models

laaS PaaS SaaS

Information As A Service Platform As A Service Software As A Service

Hình 2.4 Các loại mô hình triển khai của điện toán đám mây +

* Public (External) Cloud: Dam mây công cộng là đám mây được sử dụng ở mọi

nợi mặc dù có nhà cung cấp dịch vụ đám mây bên thứ ba sở hữu Mô hình

* https://www.linkedin.com/pulse/embracing-cloud-transforming-business-operations-driving-prince-j ain-cjk4c/

10

Trang 21

2.2 THU THẬP VÀ QUẢN LÝ NHẬT KÝ

này tạo điều kiện cho các các nhân và tổ chức lưu trữ, chỉnh sữa, quản lý dữliệu của họ Các đám mây thực hiện lưu trữ được đặt ở một số vị trí từ xa có

thể truy cập qua internet Người dùng có thể tận dụng loại hình này dựa trên

mô hình trả khi sử dụng Một số ví dụ là Rackspace, Amazon EC2, Window

Azure, IBM’s blue cloud

* Private (Internal/Corporate) Cloud: Đám mây nội bộ được sở hữu bởi một tổ

chức cụ thể và được quản lý bởi một quản trị viên Chỉ một số nhóm ngườiđược xác định trong tổ chức mới có quyển truy cập vào đám mây Mô hình nay

có tài nguyên lưu trữ và khả năng tính toán hạn chế, chỉ dành riêng cho việcphục vụ một tổ chức Một số ví dụ như S3, Red Hat, Amazon EC2

¢ Hybrid Cloud: Đám mây lai là kết hợp của các đặc điểm hoạt của hai hay nhiều

từ đám mây công cộng, đám mây cộng đồng và đám mây nội bộ Các tổ chứckinh doanh thường sử dụng mô hình này vì họ cần chia sẻ thông tin chỉ tiết vềsản phẩm và dịch vụ của mình với mọi người Một số tài nguyên như dữ liệu nhiên viên hay chi tiết doanh nghiệp chỉ được chia sẻ trong tổ chức Một số tổ

chức sử dụng mô hình này như Netflix, Uber,

* Community Cloud: Đám mây cộng đồng có điểm tương đồng với đám mây

nội bộ; điểm khác biệt duy nhất là đám mây riêng dành cho một tổ chức cụthể trong khi đám mây công đồng dành cho nhiều tổ chức có yêu cầu cụ thể

về kỹ thuật Dam mây cộng đồng có kiến trúc trung tâm dữ liệu tập trung với

cơ sở khởi tạo, phát triển, quản lý và triển khai hiệu quả, đơn giản cho một dự

án Một số ví dụ về đám mây cộng đồng như IGT Cloud và Optum Healthcare

Cloud.

2.2 Thu thập va quan lý nhật ký

Phần mềm thu thập và quản lý nhật ký Splunk [12] là một phần mềm thu thập vàquản lý hệ thống thông qua dữ liệu nhật ký Splunk hỗ trợ người dùng thực hiện cáccông việc như tìm kiếm thông tin, giám sát hệ thống và phân tích điều tra các dữliệu lớn được sinh ra từ các ứng dụng, các hệ thống và các thiết bị hạ tầng mạng

II

Trang 22

Splunk hỗ trợ tốt với nhiều loại dịnh dạng dữ liệu khác nhau (Syslog, csv, log, access_combined, ) Splunk được xây dựng dựa trên nền tang Lucene and

apache-MongoDB với giao diện website trực quan.

Coe Co Soo Nework Pons = — Em

Hình 2.5 Tổng quan về phần mềm thu thập và quản lý nhật ký Splunk Š

Các tính năng chính của Splunk bao gồm:

¢ Hiển thị thông tin

Các thành phần trong Splunk bao gồm:

5 https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/UCS_CVDs/ucs_HX_bigdata_splunk.html

12

Trang 23

* Indexer: Đây là thành phần chịu trách nhiệm nhận dữ liệu từ Splunk Forwarder

và lưu trữ chúng vào cơ sở dữ liệu Splunk, được gọi là "index" Splunk Indexertạo ra các chỉ mục va metadata để tìm kiếm và truy xuất dif liệu một cáchnhanh chóng Nó cũng thực hiện các hoạt động xử lý dữ liệu như phân tích và

chuyển đổi dữ liệu để chuẩn bị cho việc truy van và hiển thị.

¢ Search Head: Đây là giao diện người dùng cho Splunk, cho phép người dùng

tìm kiếm, thăm dò và trực quan hóa dữ liệu Splunk Search Head cung cấp các

công cu phân tích mạnh mẽ và trực quan hóa dữ liệu để giúp người dùng hiểu

và phân tích thông tin từ các nguồn dữ liệu Nó tương tác với Splunk Indexer

để truy xuất dữ liệu từ cơ sở dữ liệu và hiển thị kết quả cho người dùng

« Forwarder: Đây là thành phần được cài đặt trên các máy chủ và thiết bị để thu

®https://valentesecuritylabs.medium.com/an-overview-of-splunk-infrastructure-64bb8909dd9e

13

Trang 24

thập dữ liệu từ các nguồn và gửi chúng đến Splunk để xử lý Splunk Forwarder

có thể thu thập dữ liệu từ nhiều nguồn khác nhau như nhật ký hệ thống, sự kiệnmạng, cơ sở dữ liệu, và gửi chúng đến Splunk Indexer

* Deployment Server: Đây là thành phan quản lý trong Splunk, cho phép bạn

quản lý và triển khai cấu hình Splunk trên nhiều máy chủ và thiết bị Splunk

Deployment Server giúp đảm bảo rằng cấu hình của Splunk được duy trì đồng

nhất và cập nhật trên toàn hệ thống Nó cung cấp khả năng quản lý từ xa và tự

động hóa việc triển khai và cập nhật.

2.3 Học máy

Học máy [13] hay Machine Learning (ML) có thể được định nghĩa là một quá trình

xây dựng hệ thống máy tính thực hiện quy trình học tập và tự động cải thiện theokinh nghiệm Ngoài ra học máy còn có thể hiểu là học lý thuyết một cách tự động

từ đữ liệu thông qua quá trình phân tích, suy luận và điều chỉnh mô hình Học máy

được sử dụng với mục đích tạo ra các biểu thức phân loại đơn giản và dễ hiểu Học

máy sẽ học theo các lý luận của con người để cung cấp nhiều góc nhìn để ra quyết

Trang 25

2.3 HỌC MÁY

2.3.1 Lịch sử phát triển của học máy

Học máy đã được nghiên cứu, sử dụng, ứng dụng và tái phát minh bởi các nhà khoa

học, kỹ sư, nhà nghiên cứu, các doanh nghiệp hay thậm chí các sinh viên trong hơn

60 năm [15] Nền tảng toán học của học máy chính là đại số, xác suất và thống

kê Sự phát minh đầu tiên của học máy bắt nguồn từ những năm 1940 và 1960 bởi

sự đóng góp của các nhà nghiên cứu Alan Turing, John McCarthy, Arthur Samuels,

Alan Newell và Frank Rosenblatt Samuels đã đề xuất một mô hình máy học đầutiên trong phần mềm Optimizing Checkers Rosenblatt đã tạo ra Perceptron, mộtthuật toán học máy phổ biến dựa trên các nơ-ron sinh học, việc này đã đặt nền móngcho Mạng nơ-ron nhân tạo cho tới hiện nay.

ARTIFICIAL

INTELLIBENCE

MACHINE LEARNING

DEEP LEARNING

1950's 1960's 1970's 1980's 1990's 2000's 2010's

Since an early flush of optimism in the 1950s, smaller subsets of artificial intelligence - first machine learning, then

deep learning, a subset of machine learning - have created ever larger disruptions.

Hình 2.8 Lich sử phát triển của trí tuệ nhân tạo, học máy và học sâu 7

Thttps://blogs.nvidia.com/blog/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/?ref=200lab.io

15

Trang 26

CHƯƠNG 2. CƠ SỞ LÝ THUYET

Bảng 2.1 Bảng giai đoạn phát triển của học máy.

Cộtmốc | Mô tả

Năm 1943 | Warren McCulloch va Walter Pitts nghiên cứu về các mạng nơ-ron nhân

tạo thực hiện các chức năng logic đơn giản Đây cũng là tiền thân của

học sâu hiện nay

Năm 1949 | Donald Hebb đã dé xuất về việc học dựa trên phỏng đoán của các mạng

nơ-ron và cho cho thấy khả năng kết nối của các nơ-ron có thể thay đổimạnh hay yếu theo thời gian

Năm 1957 | Frank Rosenblatt đã giớ thiệu Perceptron, mạng nơ-ron nhân tao dau

tiên cho phép nhận dạng mẫu dựa trên một mạng học tập máy tính Năm 1959 | Arthur Samuel đưa ra khái niệm học máy (ML), cho rang có thể lập

trình một máy tính để nó học chơi cờ caro tốt hơn người viết ra chương

trình có thể chơi

Năm 1964 | Daniel Bobrow đã phát triển ra phan mềm STUDENT, một phần mềm

máy tính có thể hiểu được ngôn ngữ con người

Năm "Mùa đông Artifial Intelligence" dau tiên

1974-1980

Năm 1981 | Nhật Bản đã cấp ngân sách 850 triệu USD để phát triển các máy tính có

thể thực hiện cuộc hội thoại, dịch ngôn ngữ, hiểu được hình ảnh và cách

suy luận giống con người

Năm "Mùa đông Artifial Intelligence" lần thứ hai

1987-1993

Năm 1997 | Deep Blue của IBM là chương trình máy tính đầu tiên đánh bại nhà vô

địch cờ vua thé giớiNăm 2000 | Honda lần đầu ra mắt robot hình người ASIMO

Nam 2006 | Artifial Intelligence xuât hiện trong kinh doanh Các công ty lớn cũng

bắt đầu sử dụng Artifial Intelligence như Facebook, Twitter, Netflix,

Nam 2016 | “Công dan robot” dau tiên được giới thiệu Sophia là robot hình người

được Hanson Robotics chế tạo, Sophia có thể giao tiếp bằng lời nói,

nhận dạng khuôn mặt và biểu hiện cảm xúc trên khuôn mặt Năm 2020 | OpenAI phát hành mô hình xử lí ngôn ngữ tự nhiên GPT-3 có thể tạo ra

văn bản bằng Artifial Intelligence

Năm 2022 | OpenAI công bô chatbot Artifial Intelligence ChatGPT, một chatbot có

thể tương tác ở dạng cuộc trò chuyện và đưa ra phản hồi bằng ngôn ngữ

tự nhiên

Năm 2023 | Cuộc đua công nghệ giữa các công ty công nghệ khi các ông lớn như

Microsoft, Google, Alibaba, Baidu, đều tham gia vào nghiên cứu,

phát triển và ứng dụng Artifial Intelligence

Năm 2024 | OpenAI ra mắt GPT-4o, biến ChatGPT thành trợ lý ảo có thể thể hiện

16

Trang 27

2.3 HỌC MÁY

2.3.2 Phân loại học may

Có rất nhiều cách để phân loại học máy Cách phân loại phổ biến nhất là phân theoviệc huấn luyện có được giám sát hay không và được chia thành 4 loại chính sau:Học có giám sát, học không giám sát, học bán giám sát và học tăng cường.

Phân loại thông thường sẽ có 2 loại là phân loại nhị phân và phân loại đa nhãn.

Ví dụ phân loại nhị phân sẽ là phân loại giữa 2 vật hoặc phân loại giữa có hoặc

không, phân loại đa nhãn sẽ là phân loại giữa nhiều kết quả ví dụ phân loại chữ viết

17

Trang 28

tay của các số từ 0 tới 9

Hồi quy là loại học cơ bản của dự đoán dựa vào các giá trị đầu vào Ví dụ trongtính toán giá tiền căn nhà, hồi quy sẽ được áp dụng để tính toán giá tiền dựa vào các

dữ liệu đầu vào như là diện tích căn nhà, số phòng của căn nhà và cả dif liệu đầu ra

là giá tiền của căn nhà Thông qua việc học cả dif liệu dầu vào va đầu ra, các dự

đoán về giá tiền của căn nhà mới có thể thực hiện cho các đầu vào mới.

2.3.2.2 Học không giám sát

Hoc không giám sát [13] là một cách học phổ biến thứ 2, không giống với học giám

sát, học không giám sát sử dụng tập dữ liệu không có nhãn Mô hình học từ dữ liệuđầu vào không có giá trị mong đợi và tập dữ liệu không cung cấp đầu ra cho nhiệm

vụ nhất định Thay vì dán nhãn hoặc dự đoán kết quả đầu ra, học không giám sát tập

trung vào việc nhóm dữ liệu dựa trên đặc điểm của chúng, mục tiêu là dạy cho máy

phát hiện các mẫu và nhóm dữ liệu mà không cần một câu trả lời đúng duy nhất.

Học không giám sát cũng thường được chia thành hai phương pháp: Phân cụm và

Hình 2.11 Hoc máy không giám sát

Phân cụm là việc nhóm các dữ liệu dựa trên những điểm tường đồng và khác biệt

của chúng Ví dụ dễ thấy là việc phân loại viên bi theo màu sắc, hay phân loại các

mảnh ghép có hình thù và màu sắc khác nhau

Kết hợp là phương pháp phân tích mối quan hệ giữa các dif liệu trong tập dữ liệu

hay phân tích ra một quy luật dựa trên những dữ liệu đó Ví dụ một khách hàng có

xu hướng mua các vật dụng nội thất, dựa vào đó có thể phân tích và gợi ý các vậtdụng cho khách hàng nhằm thúc đẩy nhu cầu mua bán

18

Trang 29

2.3 HỌC MÁY

2.3.2.3 Học bán giám sát

Học bán giám sát [16] là sự kết hợp của học giám sát và học không giám sát Trong

đó tập dữ liệu đầu vào sẽ là hỗn hợp của các mẫu có nhãn và mẫu không có nhãn

Với phương pháp học này mô hình có thể sử dụng học không giám sát để khám phá

và tìm hiểu cấu trúc của dif liệu đầu vào đồng thời sử dụng học giám sát để dự đoán

các dữ liệu không được gan nhãn Sau đó đưa dữ liệu vừa dự đoán trở lại vào làm dữliệu đầu vào để học giám sát cho mô hình để có thể sử dụng cho dự đoán các dữ liệu

tác nhân sẽ quan sát trạng thái của môi trường, sau đó tác nhân thực hiện một hành

động và môi trường phản hồi bằng việc cung cấp một phần thưởng cho hành độngvừa thực hiện, cuối cùng tác nhân sử dụng phần thưởng này để cập nhật dữ liệu củamình, nhằm tối ưu hóa các hành động tiếp theo Quá trình này được lặp lại liên tụccho đến khi tác nhân tìm ra kết quả tối ưu, có thể đạt được mục tiêu một cách hiệuquả nhất

19

Trang 30

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Tập dữ liệu

Reward

State

Best Action

Hoc sâu [18] là một phan trong học máy, được lấy ý tưởng từ nơ-ron thần kinh của

con người Học sâu sử dụng mạng lưới thần kinh cố gắng bắt chước bộ não con

người thông qua sự kết hợp của dé liệu đầu vào, trọng số va độ lệch Tất cả đều hoạtđộng như các tế bào thần kinh Chúng sẽ phối hợp với nhau để nhận dạng, phân loại

và mô tả chính xác các đối tượng trong dữ liệu

Classical Machine Learning

Shttps://www.linkedin.com/pulse/understanding-concepts-deep-learning-priyadarshini-rangarajan/

20

Trang 31

2.5 LONG SHORT-TERM MEMORY

nhiều GPU có thể tạo ra nhu cầu lớn về tài nguyên nội bộ và cực kỳ tốn kém khi

mở rộng quy mô Đối với các yêu cầu về phần mềm, hầu hết các ứng dụng học sâuđều được mã hóa bằng một trong ba nền tảng sau: JAX, PyTorch hoặc TensorFlow.Hoc sâu có các mô hình sau: Convolutional Neural Network (CNN) Mạng thần kinhtích chập, Recurrent Neural Network (RNN) - Mang thần kinh hồi quy, VariationalAutoencoders (VAEs), Generative Adversarial Networks (GANs) - Mang sinh đối

khang, Diffusion models va Transformer models.

2.5 Long Short-Term Memory

Long Short-Term Memory [19] hay LSTM là một mang thần kinh hồi quy (RNN).LSTM được thiết kế để tránh vấn dé phụ thuộc từ xa Việc ghi nhớ thông tin trongkhoảng thời gian dài là đặc tính của LSTM Core của LSTM là trạng thái tế bào,chính là đường chạy ngang xuyên suốt phía trên được minh họa trong hình Trạngthái tế bào giống như một băng truyền Nó chạy xuyên suốt toàn bộ các nút mạng vàchỉ tương tác tuyến tính Vì vậy mà các thông tin có thể dễ dàng truyền đi mà không

sợ bị thay đổi Mọi mạng hồi quy đều có dạng là một chuỗi các mô-đun lặp đi lặplại của mạng nơ-ron Với mạng thần kinh hồi quy, các mô-dun có cấu trúc đơn giản, thường là một tang tanh, và LSTM cũng có cấu trúc chuỗi như vậy Nhưng khác vớiRNN, LSTM có tới 4 tầng để tương tác với nhau

&)

Hình 2.15 Kiến trúc mạng nơ ron của mô hình LSTM [20]

21

Trang 32

CHƯƠNG 2 CƠ SỞ LÝ THUYET

2.6 Học máy bay đàn

Học máy bay dan [21] - Swarm Learning là nền tang học máy phi tập trung, sử dụng

công nghệ Blockchain và điện toán biên (Edge computing) cho phép hoạt động mang

ngang hàng (peer-to-peer) Học máy bầy đàn cho phép các nút chia sẻ các kiến thức

về dữ liệu mà không cần chia sẻ dữ liệu đó bảo vệ quyển riêng tư và bảo mật dữliệu đồng thời cho phép tất cả những nút cùng đóng góp được hưởng lợi từ việc họctập chung Học máy bầy đàn còn cho phép đào tạo mô hình trên thiết bị mà khôngcần trao đổi dữ liệu thô, dữ liệu sẽ được lưu trữ tại mỗi nút, giảm đáng kể lưu lượngkhi truyền các kiến thức đã học Học máy bầy đàn sử dụng công nghệ Blockchain

để tạo ra một mạng ngang hàng tự trị mà không cần một cơ nút trung tâm Việc này

sẽ đảm bảo tính bảo mật và phân tán dữ liệu.

Swarm Network

Private Permissioned Blockchain Network

Parameters Parameters end) 101

Trang 33

2.6 HỌC MÁY BẦY ĐÀN

2.6.1 Ý tưởng của học máy bay đàn

Về mặt lý thuyết, hoc máy có thể được thực hiện tại cục bộ néu có đủ dữ liệu và thiết

bị phần cứng đủ yêu cầu [21] Dữ liệu và các mô hình sẽ lưu trữ ở những thiết bịkhác nhau ở những nơi khác nhau Trong học máy tập trung dựa vào điện toán đám

mây, dif liệu được tập trung để có thể sử dụng điện toán đám mây tập trung thực hiện việc học máy Việc này cải thiện đáng kể lượng dữ liệu sẵn sàng cho việc đàotạo do đó cải thiện kết quả của học máy Tuy nhiên, có một số nhược điểm như lưulượng dif liệu tăng và trùng lặp, cũng như các van dé về quyền riêng tư và bảo mật

dữ liệu Trong FL, việc điều chỉnh các tham số để cài đặt mô hình được quản lý bởimáy chủ tập trung, trong khi đó dữ liệu và việc huấn luyện mô hình vẫn được thựchiện ở cục bộ Các máy chủ tham số chuyên dụng chịu trách nhiệm thu thập và phântán việc học tập cục bộ trong FL [21] Còn học máy bay đàn loại bỏ nhu cầu về máychủ chuyên dụng Học máy bầy đàn sẽ phân phối các tham số trên Swarm Network

và phát triển các mô hình riêng biệt tại từng nút bằng cách sử dụng dữ liệu riêng tư

A) Local learning (Disconnected)

D) Swarm Learning ( Data Ss Data

A) Moderated learning and Parameters at the Edge)

( Parameters Central)

Hình 2.17 Ý tưởng của nền tang hoc máy bay dan [21]

23

Trang 34

Việc tích hợp các mô hình học máy vào nền tảng học máy bầy đàn có thể tăng

tỷ lệ đào tạo mô hình Bản chất phi tập trung của học máy bầy đàn cho phép xử lý

dữ liệu cục bộ tại các nút biên, giảm độ trễ và có khả năng tăng tốc quá trình đào tạo Học máy bay đàn còn tận dụng sức mạnh tính toán của nhiều nút phi tập trung,qua đó cải thiện tốc độ đào tạo mô hình Hoc máy bay đàn giảm chi phí giao tiếp

bằng cách phân phối khối lượng công việc trên các nút, giảm nhu cầu liên lạc thường

xuyên của các nút Thành phần blockchain trong học máy bầy đàn quản lý các sựthay đổi của các nút một cách an toàn và hiệu quả, giảm thiểu sự chậm trễ Các cuộc

bầu chọn nút lãnh đạo linh hoạt sẽ tối ưu quá trình đào tạo bằng cách chọn các nút

phù hợp nhất cho các nhiệm vụ quan trọng Cách tiếp cận của SL để xử lý dữ liệu

non-HD (non-Independent and Identically Distributed (non-IID)) trên các nút khác

nhau có thể nâng cao độ mạnh mẽ và độ chính xác của mô hình nhanh hơn so với

các phương pháp tập trung Khả năng hoạt động của học máy bầy đàn trên các nút

có khả năng tính toán khác nhau cho phép tối ưu hóa tài nguyên

Tuy nhiên, việc tích hợp các phương pháp học máy vào nền tảng học máy bầy đàn có thể gây ra sự phức tạp, gây khó khăn cho việc phân tích các cải thiện về tỷ lệ đào tạo Các phương pháp học máy truyền thống có thể khác nhau về kiến trúc và

độ phức tạp, ảnh hưởng đến tốc độ học, hành vi hội tụ và hiệu quả Bản chất phi tậptrung của học máy bầy đàn và các tài nguyên tính toán khác nhau có thể ảnh hưởngđến hiệu quả và khả năng mở rộng Công nghệ blockchain hỗ trợ đồng bộ hoá có thểgây tăng các chi phí và thời gian thực hiện Đồng thời việc điều chỉnh các phươngpháp học máy để phù hợp với hoc máy bay đàn có thể làm phức tạp việc đánh giá

hiệu suât.

2.6.2 Kiến trúc của học máy bay đàn

Kiến trúc của học máy bay đàn [21] bao gồm hai lớp chính: lớp ứng dụng và lớpphan cứng Lớp ứng dụng bao gồm nên tang học máy, blockchain, và các thư việnphục vụ học máy bay đàn Lớp phần cứng là nơi lưu trữ các nguồn dữ liệu và các

mô hình Hệ thống học máy bầy đàn bao gồm hai thành phần: các nút biên và mạngblockchain Với việc sử dụng công nghệ blockchain, học máy bầy đàn có các đặc

điểm và ưu điểm sau:

24

Trang 35

¢ Lưu trữ cục bộ một lượng dữ liệu lớn

s Giảm lưu lượng dữ liệu bằng cách không yêu cầu trao đổi dữ liệu thô

* Không yêu cau bảo mật mạng trung tâm

* Cung cấp bảo mật dữ liệu và bảo mật mô hình khỏi các cuộc tan công

* Cho phép các thành viên trong mạng hợp nhất tham số với quyền ngang nhau

Theo sơ đồ của học máy bầy đàn [21], các nút biên được thiết lập để trao đổi các tham số để học, cùng với công nghệ blockchain với vai trò hỗ trợ Dữ liệu ở mỗi nút

sẽ được riêng tư, kết hợp với các mô hình máy học được Swarm Network cung cấp

sẽ đảm bảo việc học được bảo mật và phi tập trung Để được tham gia vào đào tạo

mô hình, các nút biên phải đăng ký thông qua hợp đồng thông minh của blockchain.Sau đó toàn bộ các nút phải tải xuống mô hình toàn cục đầu tiên từ blockchain vàhuấn luyện mô hình cục bộ bằng dữ liệu cục bộ của nó Các nút biên sẽ gửi cáctham số của mô hình trong quá trình đào tạo cho người nút đầu thông qua SwarmNetwork Hợp đồng thông minh trên blockchain sẽ chọn nút lãnh đạo các nút biêntrong thời gian thực Nút lãnh đạo sẽ tính trung bình các tham số của mô hình cục

bộ được gửi đến Để tiếp tục đào tạo mô hình cục bộ, mỗi nút biên sẽ phải tải xuống

mô hình tổng hợp từ Swarm Network cho đến khi mô hình tổng hợp đáp ứng các yêucầu của mô hình tổng hợp được đào tạo Nếu không đáp ứng yêu cầu, nút lãnh đạo

sẽ tạo ra mô hình tổng hợp Quy trình cập nhật mô hình trong học bầy đàn bao gồm

hai giai đoạn chính [21]:

25

Trang 36

"T35 Y mm mImImImY

Permissioned Blockchain

Swarm Network

Interact with each other

to maintain global state

information

Hình 2.18 Quy trình hoạt động của nền tảng học bầy đàn [21]

* Ban đầu, các tổ chức riêng lẻ đào tạo mô hình cục bộ của họ va cập nhật

bằng các nút SL của riêng họ Những cập nhật này sẽ được hợp nhất trên các

26

Trang 37

blockchain được cấp phép

* Trong giai đoạn tiếp theo, các tổ chức sử dụng mạng lưới blockchain để tinh

chỉnh thêm các mô hình cục bộ của họ và đồng bộ hoá trạng thái của mô hìnhtoàn cục Cách tiếp cận mô hình chia sẻ trên các chuỗi khối khác nhau này

thúc đẩy quy trình SL phi tập trung hơn và giảm thiểu rủi ro bảo mật từ các

thực thể bên ngoài.

2.6.3 Các thành phan trong học máy bay dan

Kiến trúc của học máy bầy đàn [21] gồm các thành phần sau:

° SL node: Các nút SL là thành phan cốt lõi của học máy bay đàn, thực hiện

công việc chia sẽ các kêt quả đã học với nhau

* Swarm Network (SN) node: Sử dụng Blockchain trên nền Ethereum, các nút

SN trao đổi thông tin với nhau nhằm theo dõi tiến trình và lưu thông tin trạng

thái của toàn cục của mô hình Ngoài ra, trong quá trình khởi tạo, toàn bộ nút

SL sẽ đăng ký với nút SN trên cùng một máy và mỗi nút SN sẽ thực hiện việc

quản lý quy trình huấn luyện cho các nút SL tương ứng đã đăng ký Tuy nhiên,các tham số của mô hình sẽ không được lưu lại bởi blockchain, thay vào đó các giá trị metadata như trạng thái, tiền trình đạo tạo sẽ được ghi lại.

¢ Swarm Operator (SWOP) node: Nút SWOP thực hiện công việc quản lý các

hoạt động của hệ thống học máy bay đàn, thực hiện các công việc như bắt đầuhay tạm dừng hệ thống, khởi tạo và nâng cấp các container Machine Learning

và chia sẻ mô hình cho việc đào tạo.

¢ Swarm Learning Command Interface (SWCI) node: các nút SWCI hỗ trợ giao

diện lệnh để thao tác với hệ thống học máy bay đàn Ngoài ra các nút SWCI

có thể kế nối tới bất kì nút SN nào để quản lý hệ thống

27

Tiêu đề	Hệ thống phát hiện hiệu suất bất thường dựa trên học bầy đàn cho cơ sở hạ tầng đám mây
Tác giả	Nguyễn Đàm Nhật Anh
Người hướng dẫn	ThS. Nguyễn Khánh Thuật
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Mạng máy tính và truyền thông dữ liệu
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	75
Dung lượng	79,25 MB