Để tăng độ bảo mật thì học máy đã được áp dụng như một công cụ trong việc tăng cường bảo mật cho các hệ thống đám mây.. Các hệ thống học máy hiện nay chủ yếu được triển khai theo mô hình
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRƯỜNG DAI HỌC CONG NGHỆ THONG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG
NGUYEN ĐÀM NHẬT ANH - 20520880
KHOA LUAN TOT NGHIEP
A SWARM LEARNING-BASED ANOMALIES PERFORMANCE
DETECTION SYSTEM FOR CLOUD INFRASTRUCTURE
CU NHÂN NGÀNH MẠNG MAY TÍNH VA TRUYEN THONG DU LIEU
GIANG VIÊN HƯỚNG DẪN
ThS Nguyễn Khánh Thuật
TP HO CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Trong suốt thời gian thực hiện Khóa luận tốt nghiệp, em đã có cơ hội được tiếp
cận và nắm thêm những kiến thức lý thuyết mang tính ứng dụng cao qua những bàibáo khoa học phục vụ như tài liệu tham khảo Em tin rằng những kiến thức này sẽ
đem lại nhiều lợi ích cho công việc và học tập trong tương lai.
Với lòng biết ơn vô cùng sâu sắc, em xin gửi lời cảm ơn đến thay/ThS NguyễnKhánh Thuật - Giảng viên hướng dẫn trực tiếp Khóa luận tốt nghiệp vì những buổitrao đổi, thảo luận mang lại nhiều trao đổi, góc nhìn, kiến thức bổ ích, góp phan tolớn vào sự hoàn thành của khóa luận.
Với sự đầu tư tâm huyết và nghiêm túc, nhưng lại cũng không tránh khỏi nhữngthiếu sót do vốn kiến thức còn hạn hẹp và điều kiện nghiên cứu còn hạn chế, em vẫn mong báo cáo khóa luận này có thể thể hiện khả năng và vốn kiến thức của bản thântrong quá trình nghiên cứu qua Rất mong nhận được những lời nhận xét và đónggóp để báo cáo hoàn thiện nhất có thể Em xin chân thành cảm ơn!
Nhóm tác giả
Nguyễn Đàm Nhật Anh
li
Trang 3TOM TAT
Trong bối cảnh công nghệ hiện dai, các hệ thống được triển khai trên nền tangđiện toán đám mây đóng vai trò vô cùng quan trọng, bởi chúng cung cấp khả nănglưu trữ dit liệu linh hoạt, mở rộng quy mô dễ dàng đồng thời giảm thiểu chi phi vậnhành Tuy nhiên, việc triển khai các hệ thống trên nền tảng này cũng đối mặt với nhiều thách thức, đặc biệt là về mặt bảo mật Khi số lượng và quy mô của các hệthống đám mây ngày càng lớn, nguy cơ về các cuộc tan công mạng cũng tăng lên,
đòi hỏi các biện pháp bảo mật phải được nâng cao để đảm bảo an toàn cho dữ liệu
và hoạt động của hệ thống
Để tăng độ bảo mật thì học máy đã được áp dụng như một công cụ trong việc tăng cường bảo mật cho các hệ thống đám mây Các thuật toán học máy có khả năng
tự động phát hiện các mô hình phức tạp trong dữ liệu, từ đó dự đoán và ngăn chặn
kịp thời các mối de dọa tiềm ẩn Tuy nhiên, mặc dù học máy đem lại nhiễu lợi ich,song van ton tại những điểm yếu khi được triển khai trong môi trường đám mây Các
hệ thống học máy hiện nay chủ yếu được triển khai theo mô hình tập trung, việc nàylàm gia tăng nguy cơ về bảo mật, khi toàn bộ dữ liệu có thể bị tổn hại nếu trung tâmnày bị tấn công.
Để khắc phục các điểm yếu trên, Swarm Learning đã được đề xuất như một giảipháp tiềm năng Khác với mô hình tập trung, Swarm Learning là một phương pháp
học máy phi tập trung, trong đó các máy tính cá nhân hoặc các nút mạng cùng tham
gia vào quá trình học mà không cần chia sẻ trực tiếp dữ liệu của mình Ở khóa luận
tốt nghiệp này tác giả đã đề xuất một mô hình học máy phi tập trung sử dụng SwarmLearning Trong đó có 2 node sẽ huấn luyện mô hình LSTM trên các dữ liệu time- series, dữ liệu bao gồm 2 tập dữ liệu được công khai cùng với 1 tập dữ liệu được thuthập trên môi trường thật Kết quả thu được cho thấy giá trị dự đoán chính xác của
mô hình LSTM trên Swarm Learning tương đồng với mô hình LSTM trên học máytập trung Với những dữ liệu lớn và có nhiều đặc trưng Swarm Learning cho các kếtquả ấn tượng, nhỉnh hơn so với học máy tập trung Với kết quả đó có thể thay Swarm Learning là một kiến trúc học máy đáng được quan tâm.
1H
Trang 4MỤC LỤC
Thông tin hội đồng bảo vệ khóa luận i
Lời cảm on ii
Tóm tắt iii
Muc luc iv
Danh muc cac bang vii
Danh mục các hình vẽ và đồ thị viii Danh mục từ viết tắt x
Chương1 Mở dau 1
11 Lýdochọnđểtài 1
1.2 Các nghiên cứu lên quan - 3
1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu 3
1.3.1 Mục tiêunghiên cỨu 3
1.3.2 Đối tượng nghiêncứu - 4
143.3 Phạmvinghincứu 4
1.4 Phương pháp nghiên cỨu - 4
1.5 Các đóng góp chính của đề tài - 4
1.6 Cấu trúc Khoá luận tốtnghiệp - 5
Chương 2 Co sở lý thuyết 6 2.1 Điện toán đấm mây ẶẶ 6 2.1.1 Kiến trúc của điện toán đám may 7
2.1.2 Các loại hình của điện toán đám mây 8
2.1.2.1 Môhìnhdịchvụ 8
2.1.2.2 Mô hình triển khai 10
2.2 Thu thập và quản lý nhậtký - 11
1V
Trang 5MỤC LỤC
2.3.1 Lịch sử phát triểncủahọcmáy 15
23.2 Phân loạhọcmáy Ặ 17 2.3.2.1 Họccógiámsất 17
2.3.2.2 Học không giámsát 18
2.3.2.3 Học bán giám sát 19
2.3.2.4 Học tăngcường 19
24 Họcsâu Q HQ Q HQ vo 20 2.5 Long Short-Term Memory 21
2.6 Hoc máy bay đàn 22
2.6.1 Y tưởng của học máy bay đàn 23
2.6.2 Kiến trúc của hoc máy bay đàn 24
2.6.3 Các thành phần trong học máy bay đàn 27
2.6.4 Thuật toán bầu chọn lãnh đạo 29
2.7 MẤt cân bằng dữ liệu 29
2.7.1 Tổng, *.SÀà \ / .ộẶ 30 Chương 3 Phương pháp thực hiện 31 3.1 Môhìnhhọcmáy ẶẶ Ặ ẶS.Ặ.e 31 3.1.1 Nghiên cứu mô hìnhphùhợp 31
3.1.2 Triển khai các mô hình đã nghiêncứu 32
3.2 Nềntảnghọcbầyđàn 34
3.2.1 Nghiên cứu kiến trúc hệ thống - 34
3.2.2 Triển khai nền tảng học bầy đàn 35
3.2.2.1 Cài đặt máy chủ quản lý giấy phép 35
3.2.2.2 Cài đặt HPE Swarm Learning Management UI 36
3.2.2.3 Cài dat Swarm Learning sử dụng SLM-UI 37
3.2.2.4 Thực hiện vi dụ với hoc máy bay đàn 37
3.2.3 Triển khai mô hình học máy 42
3.2.4 Thiết kế hệthống - 43
3.3 Thu thập và tiền xử líđữ liệu - 45
3.3.1 Môtádữliệu Ặ.ẶẶẶẶ 46
Trang 6MỤC LỤC
3.3.2 Dữ liệu bấtthường
3.3.3 Thuthậpdữ liệu
3.3.4 Tiền xử lí dữ
liệu -3.3.4.1 Mất cân bằng dữ liệu
3.3.4.2 Đánh nhãn dữ liệu
3.3.5 Tổng kết TQ ee Chương 4 Thực nghiệm, đánh giá và thảo luận 4.1 Quy trình thực nghiệm
4.1.1 Huấn luyện trên học máy tập trung
-4.1.2 Huấn luyện mô hình trên học máy bay đàn
4.2 Kết quả thựcnghiệm
-42.1 Các têu
chíđánhgiá -4.2.2 Kếtquả-Đánhgiá
42.3 Tongkét 0 ee ee Chương 5 Kết luận và hướng phát triển 5.1 Kết luận 5.2 Han chế 5.3 Hướng pháttriển
Tài liệu tham khảo
VI
54 54 54 55
56
56 57 59
60 60 60 61
65
Trang 7DANH MUC CAC BANG
Bảng giai đoạn phát triển của học máy
Bang mô tả tổng quát các tập dữ liệu
-Bảng mô tả cấu hình tham số huấn luyện mô hình trên nền tảng họcbay đần eee
Bảng các tiêu chí đánh giá và ham tính toán các tiêu chí đánh gia
Accuracy, Precision, Recall, Fl-score và thời gian của học máy tập
trung và học máy bay đàn trên tập dif liệu Server Machine Dataset
Accuracy, Precision, Recall, Fl-score và thời gian của học máy tậptrung và học máy bay đàn trên 2 tập dữ liệu Vichalana và tập dữ liệu
tự thu thập L1 v2
vil
57
Trang 8DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
2.1 Tổng quan về điện toán đám may! 7
2.2 Kiến trúc của điện toán đám mây [11] - 7
2.3 Các loại mô hình dịch vụ của điện toán đám mây? 9
2.4 Các loại mô hình triển khai của điện toán đám may? 10
2.5 Tổng quan về phần mềm thu thập và quản lý nhật ký Splunk* 12
2.6 Kiến trúc tổng quan va các thành phần của phần mềm thu thập va quản lý nhật ký SplunkŠ - 13
2.7 Quy trình cơ ban của học máy [l4] 14
2.8 Lịch sử phát triển của trí tuệ nhân tao, học máy và học sâu 5_ 15
2.9 Phân loại học máy phổ biến [14] 17
2.10 Học máy giám sát ẶẶẶ ẶQẶ ee es 17 2.11 Học máy không giám sát - 18
2.12 Học máy bán giám sát - 19
2.13 Học tăng cường Ặ.Ặ Ặ SẺ 20 2.14 Hoc sau fy WA a 20 2.15 Kiến trúc mạng nơ ron của mô hình LSTM [20] 21
2.16 Tổng quan về nền tảng học máy bay đàn [21] 22
2.17 Ý tưởng của nén tang học máy bay đàn [2l] 23
2.18 Quy trình hoạt động của nền tang học bay đàn [2l] 26
2.19 Kiến trúc của nền tang học bầy đàn [2l] .- 28
3.1 Sơ đồ kếtnốicá VPS Ặ.ẶẶ 34
3.2 Kiến trúc hệ thống nền tang học máy bầy đàn 44
3.3 Mô tả các trường đặc trưng của tập dữ liệu SMD 46
3.4 Biểu đồ mô tả mật độ dữ liệu của từng trường đặc trưng của tập dữ lệuSMD ee 47 3.5 Mô tả kịch bản nhãn 1 của tập dữ liệu Vichalana Anomaly Benchmark 47 3.6 Mô tả các trường đặc trưng của tập dữ liệu Vichalana 48 3.7 Biểu đồ mô tả mật độ dữ liệu của từng trường đặc trưng của tập dữ
Trang 9DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
3.8 Mô tả các trường đặc trưng của tập dữ liệu tự thuthập 493.9 Biểu đồ mô tả mật độ dữ liệu của từng trường đặc trưng của tập dữ
3.10 Đồ thị dữ liệu bất thường trong khoảng thời gian của tập dữ liệu
3.11 Đồ thị dữ liệu bất thường trong khoảng thời gian của tập dữ liệu tự
4.1 Đồ thị diễn ta giá trị accuracy trên từng epoch của tập dữ liệu SMD
của học máy tập trung và học máy bay đàn 59 4.2 Đồ thị diễn tả giá tri accuracy trên từng epoch của tập dữ liệu Vicha-
lana và tập dữ liệu tự thu thập của học máy tập trung và học máy bầy
1X
Trang 10DANH MỤC TU VIET TAT
APLS AutoPass License Server
CNN Convolutional Neural Network
FL Federated Learning
GPU Graphics Processing Unit
HPE Hewlett Packard Enterprise
laaS Infrastructure as a Service
KVM Kernel-based Virtual Machine
LSTM Long Short-Term Memory
ML Machine Learning
non-IID non-Independent and Identically Distributed
PaaS Platform as a Service
PoS Proof of Stake
PoW Proof of Work
RNN Recurrent Neural Network
SaaS Software as a Service
SL Swarm Learning
SLM-UI Swarm Learning Management User
SMOTE Synthetic Minority Over-sampling
Trang 11Chương 1 MỞ ĐẦU
1.1 Lý do chọn dé tài
Điện toán đám mây (Cloud Computing) hay điện toán máy chủ ảo là mô hình cung
cấp công nghệ, tài nguyên máy tính liên kết với mạng internet Sử dụng mô hìnhnày, người dùng có thể tiếp cận các tài nguyên từ công nghệ, năng lượng điện toán,lưu trữ cơ sở dif liệu từ các nhà cung cấp dịch vụ đám mây Sử dụng cơ sở hạ tangđiện toán đám mây mang lại nhiễu lợi ích to lớn cho doanh nghiệp và cá nhân Trong
đó, lợi ích quan trọng nhất là tiết kiệm chi phí cùng với khả năng mở rộng linh hoạtcho phép doanh nghiệp thích nghi nhanh chóng với sự biến đổi trong nhu cầu kinh
doanh
Tuy nhiên, việc thay đổi từ các máy chủ vật lý sang điện toán đám mây cũng đốimặt với một số khó khăn, bao gồm vấn đề về bảo mật dữ liệu, hiệu năng kết nối,quản lý tài nguyên, chi phí ẩn, và sự phụ thuộc vào nhà cung cấp dich vụ Máy chủđám mây có thể trở thành mục tiêu dé dàng nếu người quản trị không cài đặt cấuhình bảo mật đúng cách hoặc để lộ thông tin xác thực Theo thống kê của Cục An toàn thông tin, chỉ trong quý I năm 2024 Việt Nam đã có hơn 150 triệu cảnh báo về các nguy cơ bảo mật, đồng thời Cục An toàn thông tin đã phân tích và phát hiện hơn
13 nghìn sự kiện liên quan tới mã độc ransomware trên các hệ thống! Các cuộc tấncông vào máy chủ phố biến gần đây: Công ty chứng khoán VNDirect bị tấn côngvào ngày 24 tháng 3°; Tổng công ty Dầu Việt Nam (PVOil) bị tan công vào ngày 2tháng 4°; và gần đây nhất, Bưu điện Việt Nam (VNPost) cũng bị tấn công vào ngày
4 tháng 6, gây ảnh hưởng nghiêm trọng đến việc thực hiện các hoạt động liên quan
tới dịch vụ chuyển phát.
Các hiệu suất bất thường dễ gặp như là tăng hay giảm đột ngột response timecủa các ứng dụng, dịch vụ đang hoạt động trên hệ thống, hay các tài nguyên của hệthống như CPU usage, Memory usage, disk usage, tăng đột ngột so với thườngngày hay trong 1 khoảng thời gian [1, 2] Có nhiều nguyên nhân gây ra việc hiệu
Trang 12CHUONG 1 MỞ ĐẦU
suất bất thường như hệ thống đang bị khai thác hoặc đang bị tấn công từ bên ngoài
hệ thống, các dịch vu va ứng dụng gặp lỗi trong quá trình hoạt động [1, 2] Việcxuất hiện các bất thường này sẽ làm ảnh hưởng đến trải nghiệm người dùng của ứng dụng và cũng như làm gián đoạn việc triển khai các dịch vụ trên hệ thống Vì vậy,việc phát hiện va dự đoán được hiệu suất bat thường trong thời gian sớm nhất là vôcùng quan trọng đối với việc kinh doanh sử dụng hệ thống đám mây
Đã có các dé xuất áp dụng mô hình máy học và học sâu, phần lớn các nghiên
cứu tập trung vào việc tăng cường độ chính xác và khả năng áp dụng vào các tập
dataset khác Tuy nhiên các nghiên cứu này được thực hiện trên mô hình tập trung.Hai thách thức chính liên quan đến phương pháp học tập trung truyền thống là quyền
sở hữu dữ liệu và quyên riêng tu Federated Learning (FL) [3] nổi lên như một giải
pháp khả thi cho những thách thức này, có khả năng phù hợp với các tiêu chuẩn bảo
vệ dữ liệu có thể xung đột với các phương pháp học tập trung truyền thống FL hứa
hẹn cải thiện đáng kể về bảo mật, công bằng và minh bạch, đặt ra một tiêu chuẩn
mới cho quản lý dữ liệu số và huấn luyện mô hình FL thúc đẩy học tập hợp tác màvan bảo vệ quyền riêng tư Nó giải quyết van đề lưu trữ dữ liệu tập trung bằng cáchcho phép dữ liệu thô vẫn còn trên các thiết bị địa phương tại mỗi nút tham gia Tuynhiên, FL vẫn dễ bị tan công bởi các mối đe dọa mang tinh vi, bao gồm các cuộc tancông suy luận thành viên và tái cấu trúc dữ liệu, gây ra những rủi ro đáng kể về viphạm dữ liệu FL cũng có những hạn chế về băng thông mạng gây ra các độ trễ [3,
4, 5] Để giảm thiểu những điểm yếu này cũng như tăng tính bảo mật, riêng tư thì
mô hình học máy bay đàn (Swarm learning?) được dé xuất để khắc phục các điểmyếu trên Swarm Learning (SL) là một giải pháp học máy phi tập trung sử dụng điện
toán biên và công nghệ blockchain để cho phép hợp tác ngang hàng Nó cho phép
nhiều cộng tác viên chia sẻ những hiểu biết từ dữ liệu mà không cần chia sẻ dữ liệuthực tế, bảo vệ quyên riêng tư và bảo mật dữ liệu trong khi vẫn cho phép tat cả nhữngngười đóng góp được hưởng lợi từ việc học tập chung.
Shttps:// github.com/HewlettPackard/swarm-learning
Trang 131.2 CÁC NGHIÊN CUU LIEN QUAN
1.2 Các nghiên cứu liên quan
Chưa có nhiều nghiên cứu tại Việt Nam về van dé hiệu suất bất thường, tuy nhiênđây là vấn đề được các kĩ sư vận hành hệ thống quan tâm Đã có rất nhiều nghiêncứu liên quan tới van dé này trên thé giới, có thể kể đến như: Ruyue Xin [2] và cộng
sự đã nghiên cứu va công bố bao gồm tích hợp nhiều phương pháp phát hiện batthường truyền thống (IForest, KNN, LOE, OCSVM) kết hợp với học tổng hợp tăng
độ chính xác để đánh giá hiệu quả trên các bộ dữ liệu khác nhau (DApp monitoring
data, SMD data, Vichalana data) với kết quả ARP_score cao nhất là 5,1821; FaisalShahzad [6] và cộng sự đã nghiên cứu va công bố đóng góp là sự cải thiện kết qua
bằng cách sử dụng các điểm trung tâm của giá trị thuộc tính trong giai đoạn tiền xử
ly dt liệu với mô hình sử dụng bao gồm Ensemble learning, SVM, KNN, Decision Trees trên tập dữ liệu UNSW-NB15 cho ra Độ chính xác cao nhất dat 99.25% với
phân loại nhị phân, 76.96% với phân loại đa nhãn; Katerina Mitropoulou [7] và cộng
sự đã nghiên cứu sử dụng mô hình Graph embedding (SAGE) kết hợp với 2 thuật
toán học máy không giám sát là CBLOF (Cluster-Based Local Outlier Factor) va
Isolation Forest trên tập dự liệu họ tự thu thập cho ra kết quả đáng kể trong việc pháthiện các bat thường đồng thời cho thay CBLOF có hiệu suất tốt hơn so với IsolationForest Max Landauer [8] và cộng sự đã khảo sát về 62 phương pháp nhằm phát hiệncác sự kiện hoặc quá trình bất thường trong dữ liệu nhật ký hệ thống bằng cách sửdụng học sâu, việc khảo sát này đã cho thấy các kiến trúc mô hình đa dạng đều phùhợp cho mục đích phát hiện bất thường
143 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.3.1 Mục tiêu nghiên cứu
* Nghién cứu các mô hình học bay đàn phù hợp với bài toán phát hiện bat thường
* Nghiên cứu triển khai hệ thống phát hiện bất thường bằng các mô hình học
máy trên nền tảng học bầy đàn
« Đánh giá hiệu suất của nền tang học bầy đàn so với học máy tập trung.
Trang 14CHƯƠNG I MỞ ĐẦU
1.3.2 Đối tượng nghiên cứu
» Kiến trúc về ha tầng đám mây va các dịch vụ, mô hình được triển khai trên hạ
tầng đám mây
» Kiến trúc của nền tang học bay dan
s Các mô hình học máy.
« Phần mềm thu thập và quản lý nhật ky Splunk.
« Các kỹ thuật tiền xử lí dữ liệu.
1.3.3 Phạm vi nghiên cứu
« Điện toán đám mây, hiệu suất bất thường, học máy, nền tang học bay đàn, dữ
liệu phân tán, bảo mật thông tin.
1.4 Phuong pháp nghiên cứu
¢ Phương pháp thu thập số liệu.
¢ Phương pháp nghiên cứu định lượng.
s® Phương pháp thực nghiệm.
* Phương pháp phân tích tổng kết kinh nghiệm.
1.5 Các đóng góp chính của đề tài
« Triển khai và huấn luyện mô hình LSTM trên kiến trúc học bay dan.
* Triển khai và đánh giá học bay đàn so với học máy tập trung
» Thu thập dữ liệu thực tế, so sánh và đánh giá kết quả của hoc bay đàn dựa trên
dữ liệu public với dữ liệu thực tế
* So sánh điểm mạnh của học bầy đàn so với học máy tập trung
4
Trang 151.6 CẤU TRÚC KHOA LUẬN TỐT NGHIỆP
1.6 Cấu trúc Khoá luận tốt nghiệp
Khóa luận với đề tài “HỆ THONG PHÁT HIỆN HIỆU SUẤT BAT THƯỜNG DUA
TREN HOC BAY DAN CHO CƠ SỞ HẠ TANG DAM MAY” được trình bày bao
gồm 5 chương Nội dung tóm tat từng chương được trình bày như sau:
¢ Chương 1: Mở đầu: Tổng quan về dé tài, trình bày lý do chọn dé tài và các
nghiên cứu liên quan đến đề tài Giới thiệu mục tiêu, đối tượng và phạm vinghiên cứu Đồng thời trình bày các phương pháp nghiên cứu và các đóng góp
chính của đề tài.
¢ Chương 2: Cơ sở lý thuyết: Trình bày tổng quan về Học máy, Học máy bầy
đàn, mô hình học máy LSTM Chương này còn trình bày thiết kế mô hình học bầy đàn được sử dụng Đồng thời trình bày phương pháp thu thập dữ liệu sử dụng phần mềm Splunk và một số kĩ thuật tiền xử li dit liệu.
¢ Chương 3: Phương pháp thực hiện: Trinh bày các phương pháp thực hiện
với các nội dung, mục tiêu đã đê ra.
« Chương 4: Thực nghiệm, đánh giá va thảo luận: Trình bày các kịch ban
triển khai, mô tả tập dữ liệu, môi trường và cấu hình triển khai Đưa ra các tiêu chí đánh giá và trình bày kết quả đã triển khai.
* Chương 5: Kết luận và hướng phát triển: Đánh giá kết quả dat được, so
sánh các ưu điểm, nhược điểm giữa học bầy đàn với học máy tập trung và đềxuất hướng phát triển trong tương lai.
Trang 16Chương 2 CƠ SỞ LÝ THUYET
Chương 2 giới thiệu các khái niệm và công nghệ cơ bản được sử dụng trong nộidung nghiên cứu, bao gồm tổng quan về học máy, giới thiệu học sâu và mô hìnhLong Short-Term Memory (LSTM) Tập trung vào nền tang học bay đàn, tổng quan
về điện toán đám mây, van dé mat cân bằng dif liệu và giới thiệu phần mềm hỗ trợ
thu thập và quản lý nhật ký Chương này sẽ tổng quan nội dung nghiên cứu để giải
quyết bài toán phát hiện hiệu suất bất thường cho cở sở hạ tầng đám mây
2.1 Điện toán dam mây
Cloud computing [9] hay điện toán đám mây, là một sự thay đổi trong mô hình quản
lý và sử dụng tài nguyên phần cứng và phần mềm Sự xuất hiện của dịch vụ kiến trúcđịnh hướng (Service Oriented Architecture - SOA) đã làm nền tảng cho điện toán
đám mây, cho phép các tổ chức chia sẻ cơ sở vật chất phi vật lý Ý tưởng bắt nguồn
từ các khóa cạnh của cơ sở hạ tầng trong công nghệ thông tin, khi mà có thể làmcho cơ sở hà tậng có thể tái sử dụng, từ đó có thể phân phối lại chi phí Những khả
năng này làm giảm đáng kể thời gian lắp đặt, chi phí dau tư và chi phí vận hành các
cơ sở hạ tầng Theo định nghĩa của National Institute of Standards and Technology
(NIST)!: "Điện toán đám mây là một mô hình cho phép các dịnh vụ tiện lợi, theo yêu
cầu quyền truy cập vào nhóm tài nguyên có thể cau hình và được chia sẻ như mạng, máy chủ, lưu trữ, ứng dụng, Có thể được cung cấp và phát hành nhanh chóng với
sự quản lý tối thiểu của nhà cung cấp dịch vụ."
' https://nvIpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-145.pdf
Trang 172.1 ĐIỆN TOÁN DAM MAY
Hình 2.1 Tổng quan về điện toán đám mây ?
2.1.1 Kiên trúc của điện toán đám mây
Điện toán đám mây [10] sẽ có 4 lớp bao gồm: Lớp phần cứng/trung tâm dif liệu, lớp
Trang 18CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
° Lớp phần cứng: Lớp này chịu trách nhiệm quản lý tài nguyên vật ly của đám
mây, bao gồm máy chủ, bộ định tuyến, bộ chuyển mạch, nguồn và hệ thốnglàm mát Lớp phần cứng đặt tại trung tâm dữ liêu Trong trung tâm dif liệu,
có hàng nghìn máy chủ được bố trí trên các giá đỡ và được liên kết bằng bộchuyển mạch, bộ định tuyến hoặc loại khác Các thách thức ở lớp phần cứngbao gồm việc quản lý lưu lượng truy cập, nguồn điện, khả năng chịu lỗi và cáckhía cạnh phần cứng
* Lớp cơ sở hạ tầng: Lớp ảo hóa là lớp được xây dựng trực tiếp trên lớp phần
cứng Bằng cách phân chia các tài nguyên vật lý bởi các công nghệ ảo hóa
như Xen, Kernel-based Virtual Machine (KVM), VMware , lớp cơ sở hạ tầngcung cấp một nhóm tài nguyên lưu trữ và tính toán Vì các tính năng như phân
bổ tài nguyên linh hoạt chỉ khả dụng thông qua công nghệ ảo hóa nên lớp cơ
sở hạ tầng rất cần thiết cho điện toán đám mây
« Lớp nền tảng: Lớp cơ sở hạ tầng là nền tảng cho lớp này Lớp nền tang được
tạo thành từ các hệ điều hành và các nền tảng ứng dụng Mục tiêu của lớp này
là giảm bớt công việc liên quan đến triển khai trực tiếp các chương trình vào
(Virtual Machine (VM)) container.
* Lớp ứng dụng: Lớp ứng dung nằm ở vị trí cao nhất trong hệ thống phân cấp
Lớp này bao gồm các ứng dụng đám mây Không giống các ứng dụng truyềnthống, ứng dụng đám mây có thể tối ưu hóa tính năng tự động mở rộng quy
mô để cải thiện hiệu suất, tính khả dụng và giảm chi phí vận hành.
2.1.2 Các loại hình của điện toán đám mây
Trang 192.1 ĐIỆN TOÁN DAM MAY
SaaS
Used by end users
©eƒ.®
Hình 2.3 Các loại mô hình dịch vụ của điện toán đám mây
* laaS (Infrastructure as a Service): Cơ sở hạ tầng dưới dang dịch vụ hoạt động
như lớp cơ sở của mô hình dịch vụ Hỗ trợ hai mô hình dịch vụ PaaS và SaaS.
IaaS cung cấp bộ lưu trữ, CPU, hệ điều hành, phần mềm ứng dụng và các tainguyên khác cho người dùng cuối IaaS sử dụng công nghệ ảo hóa để chuyểnđổi tài nguyên vật lý thành tài nguyên logic, đồng thời phân bố và hủy theonhu cầu của khách hàng Khách hàng sử dụng dịch vụ tùy thuộc vào mô hình
để trả tiền theo nhu cầu, mô hình này chỉ trả tiền cho các tài nguyên của nó.Các nhà cung cấp dịch vụ sẽ xử lý có sở hạ tầng nền trong khi khách hàng cóthể kiểm soát hệ điều hành và các ứng dụng được triển khai
* PaaS (Platform as a Service): Nền tảng dưới dang dich vu là mô hình dịch vụ
cấp nền tang bao gồm soạn thảo, biên dịch, xây dựng và triển khai các khanăng giúp thiết kế, triển khai, phát triển và lưu trữ ứng dụng dựa trên websitecho người dùng cuối Người dùng PaaS không quản lý cơ sở hạ tầng nền nhưmạng, hệ điều hành và bộ lưu trữ mà chỉ kiểm soát cầu hình và môi trường lưutrữ ứng dụng Bat kỳ ai có kết nối internet đều có thể truy cập được các dịch
*https://medium.com/@vaddenenisrikanth/c-e5đ76c5abb94
9
Trang 20CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
vụ này và phát triển các ứng dung mà không phải lo lắng về chi phí và cơ sở
hạ tầng Mô hình PaaS rất nhanh và tiết kiệm chi phí so với mô hình cơ sở hạtang cơ bản; nó đảm nhiệm van dé bao mật, cơ sở dữ liệu, tích hợp cơ sở dữliệu, tính linh hoạt và khả năng mở rộng.
* SaaS (Software as a Service): Phần mềm dưới dang dich vu là lớp trên cùng
của mô hình dịch vụ đám mây và được người dùng cuối trực tiếp sử dung Với
mô hình SaaS, việc quản lý cơ sở hạ tầng được thực hiện bởi nhà cung cấp Cácphần mềm, web sẽ được cung cấp bới đám mây thông qua trình duyệt web Do
đó SaaS là phần mềm theo yêu cầu và hoạt động theo mô hình trả tiền khi sử
dụng.
2.1.2.2 Mô hình triển khai
Có 4 loai loại mô hình triển khai cơ bản [10] là Public (External) Cloud, Private
(Internal/Corporate) Cloud, Hybrid Cloud, Community Cloud mà người dùng khác
nhau có thể áp dụng bất kỳ mô hình nào dựa trên tổ chức, ngân sách, yêu cầu
Cloud Deployment Models
laaS PaaS SaaS
Information As A Service Platform As A Service Software As A Service
Hình 2.4 Các loại mô hình triển khai của điện toán đám mây +
* Public (External) Cloud: Dam mây công cộng là đám mây được sử dụng ở mọi
nợi mặc dù có nhà cung cấp dịch vụ đám mây bên thứ ba sở hữu Mô hình
* https://www.linkedin.com/pulse/embracing-cloud-transforming-business-operations-driving-prince-j ain-cjk4c/
10
Trang 212.2 THU THẬP VÀ QUẢN LÝ NHẬT KÝ
này tạo điều kiện cho các các nhân và tổ chức lưu trữ, chỉnh sữa, quản lý dữliệu của họ Các đám mây thực hiện lưu trữ được đặt ở một số vị trí từ xa có
thể truy cập qua internet Người dùng có thể tận dụng loại hình này dựa trên
mô hình trả khi sử dụng Một số ví dụ là Rackspace, Amazon EC2, Window
Azure, IBM’s blue cloud
* Private (Internal/Corporate) Cloud: Đám mây nội bộ được sở hữu bởi một tổ
chức cụ thể và được quản lý bởi một quản trị viên Chỉ một số nhóm ngườiđược xác định trong tổ chức mới có quyển truy cập vào đám mây Mô hình nay
có tài nguyên lưu trữ và khả năng tính toán hạn chế, chỉ dành riêng cho việcphục vụ một tổ chức Một số ví dụ như S3, Red Hat, Amazon EC2
¢ Hybrid Cloud: Đám mây lai là kết hợp của các đặc điểm hoạt của hai hay nhiều
từ đám mây công cộng, đám mây cộng đồng và đám mây nội bộ Các tổ chứckinh doanh thường sử dụng mô hình này vì họ cần chia sẻ thông tin chỉ tiết vềsản phẩm và dịch vụ của mình với mọi người Một số tài nguyên như dữ liệu nhiên viên hay chi tiết doanh nghiệp chỉ được chia sẻ trong tổ chức Một số tổ
chức sử dụng mô hình này như Netflix, Uber,
* Community Cloud: Đám mây cộng đồng có điểm tương đồng với đám mây
nội bộ; điểm khác biệt duy nhất là đám mây riêng dành cho một tổ chức cụthể trong khi đám mây công đồng dành cho nhiều tổ chức có yêu cầu cụ thể
về kỹ thuật Dam mây cộng đồng có kiến trúc trung tâm dữ liệu tập trung với
cơ sở khởi tạo, phát triển, quản lý và triển khai hiệu quả, đơn giản cho một dự
án Một số ví dụ về đám mây cộng đồng như IGT Cloud và Optum Healthcare
Cloud.
2.2 Thu thập va quan lý nhật ký
Phần mềm thu thập và quản lý nhật ký Splunk [12] là một phần mềm thu thập vàquản lý hệ thống thông qua dữ liệu nhật ký Splunk hỗ trợ người dùng thực hiện cáccông việc như tìm kiếm thông tin, giám sát hệ thống và phân tích điều tra các dữliệu lớn được sinh ra từ các ứng dụng, các hệ thống và các thiết bị hạ tầng mạng
II
Trang 22CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Splunk hỗ trợ tốt với nhiều loại dịnh dạng dữ liệu khác nhau (Syslog, csv, log, access_combined, ) Splunk được xây dựng dựa trên nền tang Lucene and
apache-MongoDB với giao diện website trực quan.
Coe Co Soo Nework Pons = — Em
Hình 2.5 Tổng quan về phần mềm thu thập và quản lý nhật ký Splunk Š
Các tính năng chính của Splunk bao gồm:
¢ Hiển thị thông tin
Các thành phần trong Splunk bao gồm:
5 https://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/UCS_CVDs/ucs_HX_bigdata_splunk.html
12
Trang 23* Indexer: Đây là thành phần chịu trách nhiệm nhận dữ liệu từ Splunk Forwarder
và lưu trữ chúng vào cơ sở dữ liệu Splunk, được gọi là "index" Splunk Indexertạo ra các chỉ mục va metadata để tìm kiếm và truy xuất dif liệu một cáchnhanh chóng Nó cũng thực hiện các hoạt động xử lý dữ liệu như phân tích và
chuyển đổi dữ liệu để chuẩn bị cho việc truy van và hiển thị.
¢ Search Head: Đây là giao diện người dùng cho Splunk, cho phép người dùng
tìm kiếm, thăm dò và trực quan hóa dữ liệu Splunk Search Head cung cấp các
công cu phân tích mạnh mẽ và trực quan hóa dữ liệu để giúp người dùng hiểu
và phân tích thông tin từ các nguồn dữ liệu Nó tương tác với Splunk Indexer
để truy xuất dữ liệu từ cơ sở dữ liệu và hiển thị kết quả cho người dùng
« Forwarder: Đây là thành phần được cài đặt trên các máy chủ và thiết bị để thu
®https://valentesecuritylabs.medium.com/an-overview-of-splunk-infrastructure-64bb8909dd9e
13
Trang 24CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
thập dữ liệu từ các nguồn và gửi chúng đến Splunk để xử lý Splunk Forwarder
có thể thu thập dữ liệu từ nhiều nguồn khác nhau như nhật ký hệ thống, sự kiệnmạng, cơ sở dữ liệu, và gửi chúng đến Splunk Indexer
* Deployment Server: Đây là thành phan quản lý trong Splunk, cho phép bạn
quản lý và triển khai cấu hình Splunk trên nhiều máy chủ và thiết bị Splunk
Deployment Server giúp đảm bảo rằng cấu hình của Splunk được duy trì đồng
nhất và cập nhật trên toàn hệ thống Nó cung cấp khả năng quản lý từ xa và tự
động hóa việc triển khai và cập nhật.
2.3 Học máy
Học máy [13] hay Machine Learning (ML) có thể được định nghĩa là một quá trình
xây dựng hệ thống máy tính thực hiện quy trình học tập và tự động cải thiện theokinh nghiệm Ngoài ra học máy còn có thể hiểu là học lý thuyết một cách tự động
từ đữ liệu thông qua quá trình phân tích, suy luận và điều chỉnh mô hình Học máy
được sử dụng với mục đích tạo ra các biểu thức phân loại đơn giản và dễ hiểu Học
máy sẽ học theo các lý luận của con người để cung cấp nhiều góc nhìn để ra quyết
Trang 252.3 HỌC MÁY
2.3.1 Lịch sử phát triển của học máy
Học máy đã được nghiên cứu, sử dụng, ứng dụng và tái phát minh bởi các nhà khoa
học, kỹ sư, nhà nghiên cứu, các doanh nghiệp hay thậm chí các sinh viên trong hơn
60 năm [15] Nền tảng toán học của học máy chính là đại số, xác suất và thống
kê Sự phát minh đầu tiên của học máy bắt nguồn từ những năm 1940 và 1960 bởi
sự đóng góp của các nhà nghiên cứu Alan Turing, John McCarthy, Arthur Samuels,
Alan Newell và Frank Rosenblatt Samuels đã đề xuất một mô hình máy học đầutiên trong phần mềm Optimizing Checkers Rosenblatt đã tạo ra Perceptron, mộtthuật toán học máy phổ biến dựa trên các nơ-ron sinh học, việc này đã đặt nền móngcho Mạng nơ-ron nhân tạo cho tới hiện nay.
ARTIFICIAL
INTELLIBENCE
MACHINE LEARNING
DEEP LEARNING
1950's 1960's 1970's 1980's 1990's 2000's 2010's
Since an early flush of optimism in the 1950s, smaller subsets of artificial intelligence - first machine learning, then
deep learning, a subset of machine learning - have created ever larger disruptions.
Hình 2.8 Lich sử phát triển của trí tuệ nhân tạo, học máy và học sâu 7
Thttps://blogs.nvidia.com/blog/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/?ref=200lab.io
15
Trang 26CHƯƠNG 2. CƠ SỞ LÝ THUYET
Bảng 2.1 Bảng giai đoạn phát triển của học máy.
Cộtmốc | Mô tả
Năm 1943 | Warren McCulloch va Walter Pitts nghiên cứu về các mạng nơ-ron nhân
tạo thực hiện các chức năng logic đơn giản Đây cũng là tiền thân của
học sâu hiện nay
Năm 1949 | Donald Hebb đã dé xuất về việc học dựa trên phỏng đoán của các mạng
nơ-ron và cho cho thấy khả năng kết nối của các nơ-ron có thể thay đổimạnh hay yếu theo thời gian
Năm 1957 | Frank Rosenblatt đã giớ thiệu Perceptron, mạng nơ-ron nhân tao dau
tiên cho phép nhận dạng mẫu dựa trên một mạng học tập máy tính Năm 1959 | Arthur Samuel đưa ra khái niệm học máy (ML), cho rang có thể lập
trình một máy tính để nó học chơi cờ caro tốt hơn người viết ra chương
trình có thể chơi
Năm 1964 | Daniel Bobrow đã phát triển ra phan mềm STUDENT, một phần mềm
máy tính có thể hiểu được ngôn ngữ con người
Năm "Mùa đông Artifial Intelligence" dau tiên
1974-1980
Năm 1981 | Nhật Bản đã cấp ngân sách 850 triệu USD để phát triển các máy tính có
thể thực hiện cuộc hội thoại, dịch ngôn ngữ, hiểu được hình ảnh và cách
suy luận giống con người
Năm "Mùa đông Artifial Intelligence" lần thứ hai
1987-1993
Năm 1997 | Deep Blue của IBM là chương trình máy tính đầu tiên đánh bại nhà vô
địch cờ vua thé giớiNăm 2000 | Honda lần đầu ra mắt robot hình người ASIMO
Nam 2006 | Artifial Intelligence xuât hiện trong kinh doanh Các công ty lớn cũng
bắt đầu sử dụng Artifial Intelligence như Facebook, Twitter, Netflix,
Nam 2016 | “Công dan robot” dau tiên được giới thiệu Sophia là robot hình người
được Hanson Robotics chế tạo, Sophia có thể giao tiếp bằng lời nói,
nhận dạng khuôn mặt và biểu hiện cảm xúc trên khuôn mặt Năm 2020 | OpenAI phát hành mô hình xử lí ngôn ngữ tự nhiên GPT-3 có thể tạo ra
văn bản bằng Artifial Intelligence
Năm 2022 | OpenAI công bô chatbot Artifial Intelligence ChatGPT, một chatbot có
thể tương tác ở dạng cuộc trò chuyện và đưa ra phản hồi bằng ngôn ngữ
tự nhiên
Năm 2023 | Cuộc đua công nghệ giữa các công ty công nghệ khi các ông lớn như
Microsoft, Google, Alibaba, Baidu, đều tham gia vào nghiên cứu,
phát triển và ứng dụng Artifial Intelligence
Năm 2024 | OpenAI ra mắt GPT-4o, biến ChatGPT thành trợ lý ảo có thể thể hiện
16
Trang 272.3 HỌC MÁY
2.3.2 Phân loại học may
Có rất nhiều cách để phân loại học máy Cách phân loại phổ biến nhất là phân theoviệc huấn luyện có được giám sát hay không và được chia thành 4 loại chính sau:Học có giám sát, học không giám sát, học bán giám sát và học tăng cường.
Phân loại thông thường sẽ có 2 loại là phân loại nhị phân và phân loại đa nhãn.
Ví dụ phân loại nhị phân sẽ là phân loại giữa 2 vật hoặc phân loại giữa có hoặc
không, phân loại đa nhãn sẽ là phân loại giữa nhiều kết quả ví dụ phân loại chữ viết
17
Trang 28CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
tay của các số từ 0 tới 9
Hồi quy là loại học cơ bản của dự đoán dựa vào các giá trị đầu vào Ví dụ trongtính toán giá tiền căn nhà, hồi quy sẽ được áp dụng để tính toán giá tiền dựa vào các
dữ liệu đầu vào như là diện tích căn nhà, số phòng của căn nhà và cả dif liệu đầu ra
là giá tiền của căn nhà Thông qua việc học cả dif liệu dầu vào va đầu ra, các dự
đoán về giá tiền của căn nhà mới có thể thực hiện cho các đầu vào mới.
2.3.2.2 Học không giám sát
Hoc không giám sát [13] là một cách học phổ biến thứ 2, không giống với học giám
sát, học không giám sát sử dụng tập dữ liệu không có nhãn Mô hình học từ dữ liệuđầu vào không có giá trị mong đợi và tập dữ liệu không cung cấp đầu ra cho nhiệm
vụ nhất định Thay vì dán nhãn hoặc dự đoán kết quả đầu ra, học không giám sát tập
trung vào việc nhóm dữ liệu dựa trên đặc điểm của chúng, mục tiêu là dạy cho máy
phát hiện các mẫu và nhóm dữ liệu mà không cần một câu trả lời đúng duy nhất.
Học không giám sát cũng thường được chia thành hai phương pháp: Phân cụm và
Hình 2.11 Hoc máy không giám sát
Phân cụm là việc nhóm các dữ liệu dựa trên những điểm tường đồng và khác biệt
của chúng Ví dụ dễ thấy là việc phân loại viên bi theo màu sắc, hay phân loại các
mảnh ghép có hình thù và màu sắc khác nhau
Kết hợp là phương pháp phân tích mối quan hệ giữa các dif liệu trong tập dữ liệu
hay phân tích ra một quy luật dựa trên những dữ liệu đó Ví dụ một khách hàng có
xu hướng mua các vật dụng nội thất, dựa vào đó có thể phân tích và gợi ý các vậtdụng cho khách hàng nhằm thúc đẩy nhu cầu mua bán
18
Trang 292.3 HỌC MÁY
2.3.2.3 Học bán giám sát
Học bán giám sát [16] là sự kết hợp của học giám sát và học không giám sát Trong
đó tập dữ liệu đầu vào sẽ là hỗn hợp của các mẫu có nhãn và mẫu không có nhãn
Với phương pháp học này mô hình có thể sử dụng học không giám sát để khám phá
và tìm hiểu cấu trúc của dif liệu đầu vào đồng thời sử dụng học giám sát để dự đoán
các dữ liệu không được gan nhãn Sau đó đưa dữ liệu vừa dự đoán trở lại vào làm dữliệu đầu vào để học giám sát cho mô hình để có thể sử dụng cho dự đoán các dữ liệu
tác nhân sẽ quan sát trạng thái của môi trường, sau đó tác nhân thực hiện một hành
động và môi trường phản hồi bằng việc cung cấp một phần thưởng cho hành độngvừa thực hiện, cuối cùng tác nhân sử dụng phần thưởng này để cập nhật dữ liệu củamình, nhằm tối ưu hóa các hành động tiếp theo Quá trình này được lặp lại liên tụccho đến khi tác nhân tìm ra kết quả tối ưu, có thể đạt được mục tiêu một cách hiệuquả nhất
19
Trang 30CHƯƠNG 2 CƠ SỞ LÝ THUYET
Tập dữ liệu
Reward
State
Best Action
Hoc sâu [18] là một phan trong học máy, được lấy ý tưởng từ nơ-ron thần kinh của
con người Học sâu sử dụng mạng lưới thần kinh cố gắng bắt chước bộ não con
người thông qua sự kết hợp của dé liệu đầu vào, trọng số va độ lệch Tất cả đều hoạtđộng như các tế bào thần kinh Chúng sẽ phối hợp với nhau để nhận dạng, phân loại
và mô tả chính xác các đối tượng trong dữ liệu
Classical Machine Learning
Shttps://www.linkedin.com/pulse/understanding-concepts-deep-learning-priyadarshini-rangarajan/
20
Trang 312.5 LONG SHORT-TERM MEMORY
nhiều GPU có thể tạo ra nhu cầu lớn về tài nguyên nội bộ và cực kỳ tốn kém khi
mở rộng quy mô Đối với các yêu cầu về phần mềm, hầu hết các ứng dụng học sâuđều được mã hóa bằng một trong ba nền tảng sau: JAX, PyTorch hoặc TensorFlow.Hoc sâu có các mô hình sau: Convolutional Neural Network (CNN) Mạng thần kinhtích chập, Recurrent Neural Network (RNN) - Mang thần kinh hồi quy, VariationalAutoencoders (VAEs), Generative Adversarial Networks (GANs) - Mang sinh đối
khang, Diffusion models va Transformer models.
2.5 Long Short-Term Memory
Long Short-Term Memory [19] hay LSTM là một mang thần kinh hồi quy (RNN).LSTM được thiết kế để tránh vấn dé phụ thuộc từ xa Việc ghi nhớ thông tin trongkhoảng thời gian dài là đặc tính của LSTM Core của LSTM là trạng thái tế bào,chính là đường chạy ngang xuyên suốt phía trên được minh họa trong hình Trạngthái tế bào giống như một băng truyền Nó chạy xuyên suốt toàn bộ các nút mạng vàchỉ tương tác tuyến tính Vì vậy mà các thông tin có thể dễ dàng truyền đi mà không
sợ bị thay đổi Mọi mạng hồi quy đều có dạng là một chuỗi các mô-đun lặp đi lặplại của mạng nơ-ron Với mạng thần kinh hồi quy, các mô-dun có cấu trúc đơn giản, thường là một tang tanh, và LSTM cũng có cấu trúc chuỗi như vậy Nhưng khác vớiRNN, LSTM có tới 4 tầng để tương tác với nhau
&)
Hình 2.15 Kiến trúc mạng nơ ron của mô hình LSTM [20]
21
Trang 32CHƯƠNG 2 CƠ SỞ LÝ THUYET
2.6 Học máy bay đàn
Học máy bay dan [21] - Swarm Learning là nền tang học máy phi tập trung, sử dụng
công nghệ Blockchain và điện toán biên (Edge computing) cho phép hoạt động mang
ngang hàng (peer-to-peer) Học máy bầy đàn cho phép các nút chia sẻ các kiến thức
về dữ liệu mà không cần chia sẻ dữ liệu đó bảo vệ quyển riêng tư và bảo mật dữliệu đồng thời cho phép tất cả những nút cùng đóng góp được hưởng lợi từ việc họctập chung Học máy bầy đàn còn cho phép đào tạo mô hình trên thiết bị mà khôngcần trao đổi dữ liệu thô, dữ liệu sẽ được lưu trữ tại mỗi nút, giảm đáng kể lưu lượngkhi truyền các kiến thức đã học Học máy bầy đàn sử dụng công nghệ Blockchain
để tạo ra một mạng ngang hàng tự trị mà không cần một cơ nút trung tâm Việc này
sẽ đảm bảo tính bảo mật và phân tán dữ liệu.
Swarm Network
Private Permissioned Blockchain Network
Parameters Parameters end) 101
Trang 332.6 HỌC MÁY BẦY ĐÀN
2.6.1 Ý tưởng của học máy bay đàn
Về mặt lý thuyết, hoc máy có thể được thực hiện tại cục bộ néu có đủ dữ liệu và thiết
bị phần cứng đủ yêu cầu [21] Dữ liệu và các mô hình sẽ lưu trữ ở những thiết bịkhác nhau ở những nơi khác nhau Trong học máy tập trung dựa vào điện toán đám
mây, dif liệu được tập trung để có thể sử dụng điện toán đám mây tập trung thực hiện việc học máy Việc này cải thiện đáng kể lượng dữ liệu sẵn sàng cho việc đàotạo do đó cải thiện kết quả của học máy Tuy nhiên, có một số nhược điểm như lưulượng dif liệu tăng và trùng lặp, cũng như các van dé về quyền riêng tư và bảo mật
dữ liệu Trong FL, việc điều chỉnh các tham số để cài đặt mô hình được quản lý bởimáy chủ tập trung, trong khi đó dữ liệu và việc huấn luyện mô hình vẫn được thựchiện ở cục bộ Các máy chủ tham số chuyên dụng chịu trách nhiệm thu thập và phântán việc học tập cục bộ trong FL [21] Còn học máy bay đàn loại bỏ nhu cầu về máychủ chuyên dụng Học máy bầy đàn sẽ phân phối các tham số trên Swarm Network
và phát triển các mô hình riêng biệt tại từng nút bằng cách sử dụng dữ liệu riêng tư
A) Local learning (Disconnected)
D) Swarm Learning ( Data Ss Data
A) Moderated learning and Parameters at the Edge)
( Parameters Central)
Hình 2.17 Ý tưởng của nền tang hoc máy bay dan [21]
23
Trang 34CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Việc tích hợp các mô hình học máy vào nền tảng học máy bầy đàn có thể tăng
tỷ lệ đào tạo mô hình Bản chất phi tập trung của học máy bầy đàn cho phép xử lý
dữ liệu cục bộ tại các nút biên, giảm độ trễ và có khả năng tăng tốc quá trình đào tạo Học máy bay đàn còn tận dụng sức mạnh tính toán của nhiều nút phi tập trung,qua đó cải thiện tốc độ đào tạo mô hình Hoc máy bay đàn giảm chi phí giao tiếp
bằng cách phân phối khối lượng công việc trên các nút, giảm nhu cầu liên lạc thường
xuyên của các nút Thành phần blockchain trong học máy bầy đàn quản lý các sựthay đổi của các nút một cách an toàn và hiệu quả, giảm thiểu sự chậm trễ Các cuộc
bầu chọn nút lãnh đạo linh hoạt sẽ tối ưu quá trình đào tạo bằng cách chọn các nút
phù hợp nhất cho các nhiệm vụ quan trọng Cách tiếp cận của SL để xử lý dữ liệu
non-HD (non-Independent and Identically Distributed (non-IID)) trên các nút khác
nhau có thể nâng cao độ mạnh mẽ và độ chính xác của mô hình nhanh hơn so với
các phương pháp tập trung Khả năng hoạt động của học máy bầy đàn trên các nút
có khả năng tính toán khác nhau cho phép tối ưu hóa tài nguyên
Tuy nhiên, việc tích hợp các phương pháp học máy vào nền tảng học máy bầy đàn có thể gây ra sự phức tạp, gây khó khăn cho việc phân tích các cải thiện về tỷ lệ đào tạo Các phương pháp học máy truyền thống có thể khác nhau về kiến trúc và
độ phức tạp, ảnh hưởng đến tốc độ học, hành vi hội tụ và hiệu quả Bản chất phi tậptrung của học máy bầy đàn và các tài nguyên tính toán khác nhau có thể ảnh hưởngđến hiệu quả và khả năng mở rộng Công nghệ blockchain hỗ trợ đồng bộ hoá có thểgây tăng các chi phí và thời gian thực hiện Đồng thời việc điều chỉnh các phươngpháp học máy để phù hợp với hoc máy bay đàn có thể làm phức tạp việc đánh giá
hiệu suât.
2.6.2 Kiến trúc của học máy bay đàn
Kiến trúc của học máy bay đàn [21] bao gồm hai lớp chính: lớp ứng dụng và lớpphan cứng Lớp ứng dụng bao gồm nên tang học máy, blockchain, và các thư việnphục vụ học máy bay đàn Lớp phần cứng là nơi lưu trữ các nguồn dữ liệu và các
mô hình Hệ thống học máy bầy đàn bao gồm hai thành phần: các nút biên và mạngblockchain Với việc sử dụng công nghệ blockchain, học máy bầy đàn có các đặc
điểm và ưu điểm sau:
24
Trang 352.6 HỌC MÁY BẦY ĐÀN
¢ Lưu trữ cục bộ một lượng dữ liệu lớn
s Giảm lưu lượng dữ liệu bằng cách không yêu cầu trao đổi dữ liệu thô
* Không yêu cau bảo mật mạng trung tâm
* Cung cấp bảo mật dữ liệu và bảo mật mô hình khỏi các cuộc tan công
* Cho phép các thành viên trong mạng hợp nhất tham số với quyền ngang nhau
Theo sơ đồ của học máy bầy đàn [21], các nút biên được thiết lập để trao đổi các tham số để học, cùng với công nghệ blockchain với vai trò hỗ trợ Dữ liệu ở mỗi nút
sẽ được riêng tư, kết hợp với các mô hình máy học được Swarm Network cung cấp
sẽ đảm bảo việc học được bảo mật và phi tập trung Để được tham gia vào đào tạo
mô hình, các nút biên phải đăng ký thông qua hợp đồng thông minh của blockchain.Sau đó toàn bộ các nút phải tải xuống mô hình toàn cục đầu tiên từ blockchain vàhuấn luyện mô hình cục bộ bằng dữ liệu cục bộ của nó Các nút biên sẽ gửi cáctham số của mô hình trong quá trình đào tạo cho người nút đầu thông qua SwarmNetwork Hợp đồng thông minh trên blockchain sẽ chọn nút lãnh đạo các nút biêntrong thời gian thực Nút lãnh đạo sẽ tính trung bình các tham số của mô hình cục
bộ được gửi đến Để tiếp tục đào tạo mô hình cục bộ, mỗi nút biên sẽ phải tải xuống
mô hình tổng hợp từ Swarm Network cho đến khi mô hình tổng hợp đáp ứng các yêucầu của mô hình tổng hợp được đào tạo Nếu không đáp ứng yêu cầu, nút lãnh đạo
sẽ tạo ra mô hình tổng hợp Quy trình cập nhật mô hình trong học bầy đàn bao gồm
hai giai đoạn chính [21]:
25
Trang 36CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
"T35 Y mm mImImImY
Permissioned Blockchain
Swarm Network
Interact with each other
to maintain global state
information
Hình 2.18 Quy trình hoạt động của nền tảng học bầy đàn [21]
* Ban đầu, các tổ chức riêng lẻ đào tạo mô hình cục bộ của họ va cập nhật
bằng các nút SL của riêng họ Những cập nhật này sẽ được hợp nhất trên các
26
Trang 372.6 HỌC MÁY BẦY ĐÀN
blockchain được cấp phép
* Trong giai đoạn tiếp theo, các tổ chức sử dụng mạng lưới blockchain để tinh
chỉnh thêm các mô hình cục bộ của họ và đồng bộ hoá trạng thái của mô hìnhtoàn cục Cách tiếp cận mô hình chia sẻ trên các chuỗi khối khác nhau này
thúc đẩy quy trình SL phi tập trung hơn và giảm thiểu rủi ro bảo mật từ các
thực thể bên ngoài.
2.6.3 Các thành phan trong học máy bay dan
Kiến trúc của học máy bầy đàn [21] gồm các thành phần sau:
° SL node: Các nút SL là thành phan cốt lõi của học máy bay đàn, thực hiện
công việc chia sẽ các kêt quả đã học với nhau
* Swarm Network (SN) node: Sử dụng Blockchain trên nền Ethereum, các nút
SN trao đổi thông tin với nhau nhằm theo dõi tiến trình và lưu thông tin trạng
thái của toàn cục của mô hình Ngoài ra, trong quá trình khởi tạo, toàn bộ nút
SL sẽ đăng ký với nút SN trên cùng một máy và mỗi nút SN sẽ thực hiện việc
quản lý quy trình huấn luyện cho các nút SL tương ứng đã đăng ký Tuy nhiên,các tham số của mô hình sẽ không được lưu lại bởi blockchain, thay vào đó các giá trị metadata như trạng thái, tiền trình đạo tạo sẽ được ghi lại.
¢ Swarm Operator (SWOP) node: Nút SWOP thực hiện công việc quản lý các
hoạt động của hệ thống học máy bay đàn, thực hiện các công việc như bắt đầuhay tạm dừng hệ thống, khởi tạo và nâng cấp các container Machine Learning
và chia sẻ mô hình cho việc đào tạo.
¢ Swarm Learning Command Interface (SWCI) node: các nút SWCI hỗ trợ giao
diện lệnh để thao tác với hệ thống học máy bay đàn Ngoài ra các nút SWCI
có thể kế nối tới bất kì nút SN nào để quản lý hệ thống
27