TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG TRẦN ĐỨC LƯƠNGVƯƠNG MINH TIẾN ĐỒ ÁN CHUYÊN NGÀNH ĐẦU ĐỘC HỆ THỐNG PHÁT HIỆN XÂM NHẬP BẰNG MÔ HÌNH MẠNG SINH ĐỐI KHÁNG
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG
TRẦN ĐỨC LƯƠNGVƯƠNG MINH TIẾN
ĐỒ ÁN CHUYÊN NGÀNH
ĐẦU ĐỘC HỆ THỐNG PHÁT HIỆN XÂM NHẬP BẰNG MÔ HÌNH MẠNG SINH ĐỐI KHÁNG TRONG
MÔI TRƯỜNG HỌC CỘNG TÁC
POISONING ATTACK AGAINST FEDERATED
LEARNING-BASED INTRUSION DETECTION SYSTEM USING
GENERATIVE ADVERSARIAL NETWORKS
KỸ SƯ NGÀNH AN TOÀN THÔNG TIN
TP Hồ Chí Minh, 2022
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG
TRẦN ĐỨC LƯƠNG - 19521815VƯƠNG MINH TIẾN - 19522346
ĐỒ ÁN CHUYÊN NGÀNH
ĐẦU ĐỘC HỆ THỐNG PHÁT HIỆN XÂM NHẬP BẰNG MÔ HÌNH MẠNG SINH ĐỐI KHÁNG TRONG
MÔI TRƯỜNG HỌC CỘNG TÁC
POISONING ATTACK AGAINST FEDERATED
LEARNING-BASED INTRUSION DETECTION SYSTEM USING
GENERATIVE ADVERSARIAL NETWORKS
KỸ SƯ NGÀNH AN TOÀN THÔNG TIN
GIẢNG VIÊN HƯỚNG DẪN:
ThS Phan Thế Duy
TS Phạm Văn Hậu
TP.Hồ Chí Minh - 2022
Trang 3LỜI CẢM ƠN
Trong quá trình nghiên cứu và hoàn thành đồ án chuyên ngành, nhóm đãnhận được sự định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lờiđộng viên của các giáo viên hướng dẫn và giáo viên bộ môn Nhóm xin bày tỏlời cảm ơn tới thầy Phan Thế Duy, thầy Phạm Văn Hậu đã tận tình trực tiếphướng dẫn, giúp đỡ trong quá trình nghiên cứu
Trang 4MỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iv
DANH MỤC CÁC HÌNH VẼ v
DANH MỤC CÁC BẢNG BIỂU v
MỞ ĐẦU 1
CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN 3 1.1 Đặt vấn đề 3
1.2 Các công trình nghiên cứu liên quan 6
1.2.1 Những mối đe dọa đối với mô hình học cộng tác 6
1.2.2 Tấn công nhiễm độc trong ngữ cảnh học cộng tác 7
1.3 Tính mới và sáng tạo 8
1.4 Cấu trúc đồ án chuyên ngành 8
CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 9 2.1 Hệ thống phát hiện xâm nhập 9
2.2 Mô hình học máy 10
2.3 Mô hình học cộng tác 11
2.4 Mô hình mạng sinh đối kháng (GAN) 12
2.4.1 GAN là gì? 12
2.4.2 Cấu trúc mạng GAN 13
CHƯƠNG 3 PHƯƠNG PHÁP LUẬN VÀ THIẾT KẾ HỆ THỐNG 15 3.1 Phát sinh dữ liệu đối kháng bằng mô hình IDSGAN 15 3.2 Quy trình huấn luyện mô hình IDS theo cơ chế cộng tác (IDS-FL) 17
Trang 53.3 Tổng quan mô hình đề xuất 19
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM, PHÂN TÍCH – ĐÁNH GIÁ 20 4.1 Môi trường thực nghiệm 20
4.1.1 Tài nguyên 20
4.1.2 Tập dữ liệu 21
4.1.3 Tiền xử lý dữ liệu 21
4.1.4 Mô hình IDSGAN 22
4.1.5 Mô hình Federated Learning 23
4.1.6 Bộ công cụ ART 23
4.1.7 Cơ chế phòng thủ LOF 24
4.2 Kết quả thí nghiệm 25
4.2.1 Khả năng vượt mặt IDS của các mẫu đối kháng sinh ra bởi IDSGAN 25
4.2.2 Khả năng huấn luyện phân tán của FL 27
4.2.3 Khả năng tấn công đầu độc mô hình FL của IDSGAN 27
4.2.4 Khả năng vượt mặt mô hình IDS cộng tác có trang bị cơ chế phòng thủ LOF của IDSGAN 29
4.2.5 Tấn công chuyển giao bằng IDSGAN đối với mô hình IDS cộng tác đã được huấn luyện 30
CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 33 5.1 Kết luận 33
5.2 Hướng phát triển 34
Trang 6DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
K Số client tham gia cộng tác
R Số round huấn luyện mô hình cộng tác
FL Federated Learning
IDS Intrusion Detection System
GAN Generative Adversarial Networks
BN Batch Normalization
FedAvg Federated Averaging
input_dim Sô chiều của đầu vào
output_dim Số chiều của đầu ra
LOF Local Outlier Factor
ART Adversarial Robustness Toolbox
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Mô hình học cộng tác Federated Learning 4
Hình 1.2 Mô hình mạng sinh đối kháng 5
Hình 2.1 Ảnh mặt người sinh bởi GAN 13
Hình 3.1 Nguyên lý hoạt động của mô hình IDSGAN 15
Hình 3.2 Mô hình tấn công đề xuất 19
Hình 4.1 Kiến trúc mạng CNN 23
Hình 4.2 So sánh Accuracy (Trái) và F1-Score (Phải) của mô hình cộng tác khi không bị tấn công, bị tấn công bằng IDSGAN, bị tấn công bằng ART 28
Hình 4.3 Kiến trúc CNN của black-box IDS 31
Trang 8DANH MỤC CÁC BẢNG BIỂU
Bảng 4.1 Kiến trúc Generator và Discriminator trong IDSGAN 22Bảng 4.2 Hiệu suất của IDS trước và sau khi bị qua mặt bởi các mẫuđối kháng IDSGAN 26Bảng 4.3 Hiệu suất mô hình IDS cộng tác khi không bị tấn công 27Bảng 4.4 Hiệu suất của mô hình IDS cộng tác khi bị tấn công bởiART và IDSGAN 28Bảng 4.5 Hiệu suất của mô hình IDS cộng tác có trang bị LOF khi
bị tấn công bởi IDSGAN 29Bảng 4.6 Khả năng tấn công chuyển giao bằng IDSGAN 32
Trang 9TÓM TẮT ĐỀ TÀI
Xây dựng đô thị thông minh là mục tiêu mà nhiều quốc gia trên thế giớiđang hướng tới Để thực hiện được mục tiêu này việc cần làm là số hoá thôngtin của toàn xã hội Trong quá trình chuyển đổi số, vấn đề về an toàn bảo mậtthông tin trở nên cấp thiết do dữ liệu ngày càng trở nên nhạy cảm, mang tính
cá nhân, chứa nhiều bí mật riêng tư của các cá nhân, tổ chức Hiện nay, các
hệ thống ứng dụng của nhiều tổ chức, cá nhân dần dần áp dụng các mô hìnhtrí tuệ nhân tạo (Artificial Intelligence - AI) để nâng cao khả năng giải quyếtvấn đề chính xác và hiệu quả hơn Trong đó, trình phát hiện xâm nhập mạng(Intrusion Detection System - IDS) là một trong những hệ thống cần ứng dụng
AI trong ngữ cảnh an toàn thông tin Tuy vậy, để IDS trên có thể đạt đượchiệu quả cao nhất đòi hỏi cần phải được huấn luyện với một lượng lớn dữ liệu.Những dữ liệu cần được bảo vệ càng có giá trị trong việc huấn luyện Các chủ
sở hữu dữ liệu cũng không sẵn lòng chia sẻ những dữ liệu này do có lo ngại về
sự xâm phạm quyền riêng tư Phương pháp học cộng tác (Federated Learning FL) chính là giải pháp được sử dụng để giải quyết vấn đề huấn luyện mô hìnhIDS học máy nhưng vẫn đảm bảo quyền riêng tư dữ liệu Khi sử dụng FL, ưuđiểm lớn nhất là mô hình học máy được huấn luyện trực tiếp tại máy đang nắmgiữ dữ liệu sau đó chia sẻ mô hình huấn luyện được cho máy chủ vì thế dữ liệukhông bị lộ ra bên ngoài Tuy nhiên, mặc dù giải quyết được vấn đề về tính bảomật của dữ liệu, FL vẫn còn tồn tại một số lỗ hổng quan trọng Cụ thể, môhình FL hoàn toàn có thể bị tấn công nhiễm độc (poisoning attack) bởi chínhcác cá nhân, tổ chức tham gia huấn luyện cộng tác Do đó, trong đề tài nàychúng tôi trình bày một kĩ thuật ứng dụng mô hình sinh đối kháng (GenerativeAdversarial Network - GAN) nhằm tấn công đầu độc hệ thống phát hiện xâmnhập IDS máy học trong môi trường cộng tác Cụ thể, các kẻ tấn công giả danh
Trang 10-là những cá nhân, tổ chức -lành tính, thực hiện cập nhật các mô hình IDS cục
bộ độc hại được huấn luyện bằng các dữ liệu đối kháng Kết quả chúng tôi thuthập được phần nào chứng minh được rằng, mô hình IDS trong FL có thể bịđánh bại bởi kĩ thuật ứng dụng GAN đề xuất Tóm lại, chúng tôi mong muốnchỉ ra những điểm yếu của kiến trúc FL, từ đó có thể tiếp tục nghiên cứu ranhững cơ chế phòng thủ đối với loại tấn công đầu độc nêu trên
Trang 11CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN
Chương này giới thiệu về vấn đề và các công trình nghiên cứu liên quan Đồngthời, trong chương này chúng tôi cũng trình bày phạm vi và cấu trúc của Đồ án
1.1 Đặt vấn đề
Ngày nay, khi các hệ thống mạng ngày càng phổ biến, rủi ro từ các vấn đềxâm nhập mạng trái phép đã buộc các tổ chức phải triển khai, bổ sung thêmcác hệ thống để kiểm tra các lỗ hổng bảo mật tồn tại trong các hệ thống thôngtin quan trọng Trong số những giải pháp đó, hệ thống phát hiện xâm nhập(Intrusion Detection System – IDS) được biết đến như một công cụ hỗ trợ bảomật hiệu quả IDS được triển khai nhằm hỗ trợ bước đầu tiên để phản ứng bảo
vệ, ngăn chặn tấn công vào hệ thống mạng bằng cách giám sát lưu lượng mạng
và phát hiện những hành vi bất thường trong hệ thống Bên cạnh đó, các nghiêncứu về học máy (Machine Learning - ML) liên tiếp đạt được thành tựu và cónhiều tiến bộ đáng kể trong những năm gần đây, cụ thể là trong các lĩnh vực xử
lí hình ảnh, nhận diện giọng nói, Với hi vọng mang đến bước đột phá tronglĩnh vực an toàn thông tin, đã có nhiều nghiên cứu áp dụng các phương pháphọc máy vào các hệ thống phát hiện xâm nhập (IDS) Tuy nhiên, các IDS họcmáy (Machine Learning-based IDS) đòi hỏi được huấn luyện với lượng dữ liệulớn và cần thu thập nhiều nơi, nhiều kiểu tấn công khác nhau, trong khi việcchia sẻ những dữ liệu mạng như thế này lại gặp hạn chế do lo ngại về quyềnriêng tư (của cá nhân, tổ chức)
Trong ngữ cảnh đó, phương pháp học cộng tác (Federated Learning) xuấthiện như một giải pháp có thể đảm bảo được sự cân bằng giữa việc huấn luyện
dữ liệu hiệu quả mà vẫn đảm bảo tính bảo mật và riêng tư của dữ liệu [12]
Trang 12[9] Phương pháp học này không đòi hỏi việc chia sẻ dữ liệu huấn luyện mộtcách tường minh giống như phương pháp học truyền thống là học tập trung(Centralized Learning) Federated Learning chỉ chia sẻ các tham số học được
từ mỗi bộ dữ liệu cục bộ của từng thành viên, tổ chức, thực thể tham gia nhưtrong Hình 1.1 Ở thời điểm hiện tại, một số nghiên cứu sử dụng phương pháphọc cộng tác như một cách huấn luyện mô hình hiệu quả theo cách cục bộ, đápứng nhu cầu bảo vệ quyền riêng tư trên dữ liệu người dùng [12] [2]
Hình 1.1: Mô hình học cộng tác Federated Learning
Nhưng không có giải pháp nào thật sự hoàn hảo, Federated Learning cũng
có những điểm yếu của mình khi đối mặt những cá nhân hay tổ chức tham giakhông thiện chí Những kẻ tấn công dưới danh nghĩa người tham gia cộng tác
cố tình cập nhật các tham số đầu ra của quá trình huấn luyện dựa trên dữ liệuriêng tư không chính xác lên máy chủ trung tâm Kiểu tấn công này được gọi
là tấn công đầu độc mô hình (poisoning attack) nhằm phá hoại các hệ thốngdựa trên phương pháp học cộng tác Cụ thể, để đầu độc mô hình, kẻ tấn côngthực hiện thao túng một phần dữ liệu huấn luyện, đồng thời thay đổi các tham
số học trong giai đoạn huấn luyện dữ liệu Điều đó trực tiếp tác động đến hiệu
Trang 13suất chung của mô hình học, gây nên sự nhầm lẫn và sai sót trong quá trìnhhuấn luyện của toàn bộ hệ thống tham gia học cộng tác Hơn nữa trong môhình Federated Learning, không chỉ có duy nhất một kẻ tấn công mà có thểxuất hiện nhiều thực thể độc hại cùng lúc, gây nên hậu quả sai sót nghiêm trọngnếu không lường được những rủi ro và đưa ra cách phòng chống thích hợp.
Từ những phân tích trên, việc ứng dụng Federated Learning trong huấn luyệnIDS vẫn để lại nhiều vấn đề bảo mật cần phải giải quyết [10] Tính nguy hiểmcủa kiểu tấn công đầu độc mô hình học cộng tác nhắm vào IDS có thể gây thiệthại lớn trong việc huấn luyện Machine Learning-based IDS (ML-IDS) Nói cáchkhác, các IDS học cộng tác sẽ đưa ra các kết quả dự đoán sai, từ đó tạo nên các
lỗ hổng bảo mật của IDS trong hệ thống mạng Trường hợp này có thể giúp kẻtấn công xâm nhập sâu vào bên trong hệ thống nhằm thực hiện những hành vinguy hiểm khác sau khi qua mặt được IDS
Hình 1.2: Mô hình mạng sinh đối kháng
Trong khi đó, mô hình mạng sinh đối kháng (Generative Adversarial Networks
- GANs) đang được giới nghiên cứu quan tâm nhiều trong những năm trở lạiđây kể từ khi được giới thiệu năm 2014 bởi Ian Goodfellow [4] [5] GAN là môhình sinh dữ liệu cho phép phát sinh dữ liệu mới giống thật từ phân phối xácsuất của dữ liệu trong tập cho sẵn Nguyên lý hoạt động của GAN (Hình 1.2)
có thể được hình dung như một trò chơi đối kháng giữa hai mạng nơron đốinghịch nhau là bộ sinh Generator (G) và bộ phân biệt Discriminator (D), khi
Trang 14mà D sẽ có nhiệm vụ phân biệt mẫu đối kháng từ G và dữ liệu ban đầu rồi G
sẽ tạo ra những mẫu đối kháng dựa vào dữ liệu đầu vào ban đầu còn bộ phânbiệt trả về kết quả cho G Trò chơi sẽ diễn ra liên tục cho đến khi bộ phân biệt
D sẽ không còn khả năng phân biệt được mẫu gốc và mẫu được tạo ra, tức làkhi mẫu đối kháng tối ưu Thế nên GAN có thể đi sâu vào chi tiết dữ liệu và
dễ dàng diễn giải thành vô số phiên bản dữ liệu mới khác nhau, tạo nên nguồncung cấp dữ liệu phong phú, đa dạng trong nhiều bài toán của mô hình FL Và
để tận dụng khả năng của GAN, một phương pháp tái hiện cuộc tấn công đầuđộc (poisoning attack) nhắm đến mô hình FL được triển khai để chứng minhđược điểm yếu của việc huấn luyện cộng tác mô hình ML-IDS
Bằng những dẫn chứng phân tích trên, trong nghiên cứu này, dựa trên ý tưởngcủa nghiên cứu của Jiale [13], nhóm chúng tôi đề xuất nghiên cứu mô hình ứngdụng GAN với biến thể WGAN trong việc tấn công nhiễm độc IDS sử dụngphương pháp học cộng tác
1.2 Các công trình nghiên cứu liên quan
1.2.1 Những mối đe dọa đối với mô hình học cộng tác
Mặc dù cung cấp một cơ chế huấn luyện đảm bảo tính riêng tư dữ liệu, FLvẫn phải đối mặt với nhiều mối đe dọa khi tồn tại các lỗ hổng có thể bị khai tháctheo nhiều cách khác nhau Cụ thể, Lingjuan Lyu và các cộng sự [7] [8] đã chứngminh rằng FL có thể bị tấn công dựa trên hai khía cạnh: tính riêng tư (privacy)
và tính bền vững (robustness) Cụ thể, các hệ thống FL có thể vi phạm tínhriêng tư của dữ liệu nếu như xảy ra cuộc tấn công suy luận (inference attack).Đây là kiểu tấn công mà máy chủ trung tâm độc hại có thể trích xuất được cácthông tin về tập dữ liệu huấn luyện của các tổ chức cộng tác thông qua mô hìnhcục bộ được họ cập nhật lên Một số phương pháp phòng thủ cũng đã được bàibáo [8] đề xuất như sử dụng mã hóa đồng cấu (Homomorphic Encryption), hayquyền riêng tư khác biệt (Differential Privacy) Trong khi đó, tính bền vững và
Trang 15hiệu năng của mô hình cộng tác FL có thể bị phá vỡ bằng các cuộc tấn côngnhiễm độc (poisoning attack) được thực hiện bởi chính các thực thể, tổ chứccộng tác không thiện chí Các kẻ tấn công này cố gắng nhiễm độc mô hình cục
bộ bằng cách huấn luyện bằng những dữ liệu đối kháng hoặc cố tình cập nhậtcác tham số học độc hại để từ đó làm giảm hiệu suất của mô hình toàn cục.Tạo ra các lỗ hổng cửa sau (backdoor) cũng là một mục tiêu của cách tấn côngpoisoning này
1.2.2 Tấn công nhiễm độc trong ngữ cảnh học cộng tác
Dựa trên những điểm yếu sẵn có của hệ thống FL, nhiều công trình nghiêncứu [11] [13] [14] đã phân tích và khẳng định tính hiệu quả của các phương pháptấn công nhiễm độc (poisoning attacks) khác nhau trong việc tác động tiêu cựcđến hiệu năng của mô hình học cộng tác Bài báo [13] của Jiale Zhang là mộttrong những công trình đầu tiên thực hiện đầu độc mô hình phân loại ảnh cộngtác trên bộ dữ liệu MNIST và AT&T bằng các mẫu sinh bởi GAN Trong đó,các kẻ tấn công giả danh là những tổ chức tham gia lành tính, thực hiện huấnluyện một mạng GAN cơ bản với Discriminator chính là mô hình phân loại ảnhtoàn cục Khi đó, từ một tập véc-tơ nhiễu, Generator có thể sinh ra tập cácmẫu dữ liệu giống với tập dữ liệu MNIST và AT&T mà các tổ chức lành tính
đã sử dụng để huấn luyện trình phân loại ảnh toàn cục Bằng cách thức tấncông tương tự cộng với phương pháp lật nhãn (label-flipping), nghiên cứu gầnđây [11] của tác giả Nguyễn Chí Vỹ cũng đã làm rõ khả năng bị qua mặt củacác trình IDS được huấn luyện trong môi trường FL Hậu quả, hiệu suất nhậndiện xâm nhập mạng của mô hình IDS giảm đáng kể từ 99% xuống còn xấp xỉ40%, gây nên các cảnh báo sai trong hệ thống mạng Bên cạnh đó, bài báo cũng
đã đưa ra một giải pháp chống tán công mang tên LOF (Local Outliner Factor)giúp mô hình FL loại bỏ các cập nhật độc hại dựa vào lịch sử cập nhật mô hình
từ các tổ chức lành tình khác
Trang 161.3 Tính mới và sáng tạo
Với những tiềm năng của Federated Learning đã được nêu trên, nhiều tác giảcũng đã nghiên cứu và phát triển các mô hình phát hiện xâm nhập IDS trongmôi trường cộng tác Tuy nhiên, không nhiều trong số đó đề cập đến trườnghợp mô hình bị tấn công bởi chính các thực thể tham gia huấn luyện FL Điều
đó dẫn đến tính cấp bách của đề tài này khi áp dụng mô hình mạng sinh đốikháng GAN nhằm chỉ rõ điểm yếu của Federated Learning khi huấn luyện phântán mô hình học máy trên các thiết bị cục bộ Đồng thời, chúng tôi còn muốncoi đây là một tiền đề để từ đó nghiên cứu thêm các giải pháp bảo vệ tính bềnvững của IDS trước các cuộc tấn công zero-day Bên cạnh đó, để tăng tính hội
tụ cũng như ổn định cho mô hình GAN, chúng tôi cũng sử dụng biến thể của
nó là Wasserstein GAN (WGAN) để sinh dữ liệu đối kháng đầu độc mô hình
1.4 Cấu trúc đồ án chuyên ngành
Chúng tôi xin trình bày nội dung của Đồ án theo cấu trúc như sau:
• Chương 1: Giới thiệu tổng quan về đề tài và những công trình nghiên cứuliên quan
• Chương 2: Sơ lược kiến thức nền tảng liên quan đến đề tài
• Chương 3: Trình bày phương pháp luận và thiết kế hệ thống cho các phươngpháp sinh dữ liệu, tấn công hệ thống cộng tác
• Chương 4: Hiện thực phương pháp đề xuất và đánh giá kết quả
• Chương 5: Kết luận và hướng phát triển của đề tài
Trang 17Có nhiều loại IDS khác nhau, mỗi loại có một chức năng và nhiệm vụ riêngchúng bao gồm:
• NIDS (Network Intrusion Detection Systems): thường được bố trí tại nhữngđiểm dễ bị tấn công trong hệ thống mạng NIDS được sử dụng để giám sátlưu lượng mạng đến (inbound) và đi (outbound) từ tất cả các thiết bị trênmạng Điểm cộng lớn nhất của NIDS là có thể quét tất cả traffic inbound
và outbound, nhưng việc này có thể làm giảm tốc độ chung của mạng
• HIDS (Host Intrusion Detection Systems): hệ thống phát hiện xâm nhậpnày hoạt động trên tất cả các thiết bị trong hệ thống có thể kết nối Internet.HIDS chỉ giám sát các gói dữ liệu inbound và outbound từ thiết bị hoặcnhững hành động đáng ngờ tại cấp truy cập nội bộ
• Signature-Based IDS: Đây là các IDS hoạt động dựa trên dấu hiệu đã họcđược, giám sát các gói tin trên mạng tương tự như cách phần mềm diệtvirus hoạt động Tuy nhiên Signature-Based có thể không phát hiện được
Trang 18những mối đe dọa mới, khi dấu hiệu để nhận biết nó chưa được IDS cậpnhật.
• Anomaly-Based IDS: IDS này được sử dụng để phát hiện mối đe dọa dựatrên sự bất thường Anomaly-Based sẽ giám sát traffic mạng và so sánh vớiđường cơ sở (baseline) đã được thiết lập từ trước Baseline sẽ xác định đâu
là mức bình thường của mạng và cảnh báo cho quản trị viên mạng hoặcngười dùng khi phát hiện traffic truy cập bất thường hoặc khác biệt so vớibaseline
2.2 Mô hình học máy
Học máy hay máy học (Machine Learning) là một loại trí tuệ nhân tạo (AI)cho phép các ứng dụng phần mềm trở nên chính xác hơn trong việc dự đoán kếtquả mà không cần được lập trình rõ ràng để làm như vậy Các thuật toán họcmáy sử dụng dữ liệu lịch sử làm đầu vào để dự đoán các giá trị đầu ra mới.Một số ứng dụng phổ biến của học máy bao gồm hệ thống đề xuất (recommendsystem), hệ thống phát hiện bất thường (anomaly detection), phát hiện xâmnhập (ids), phần mềm độc hại (malwares), lọc thư rác (spam email)
Học máy cổ điển thường được phân loại theo cách một thuật toán học đểtrở nên chính xác hơn trong các dự đoán của nó Có bốn cách tiếp cận cơ bản:học có giám sát, học không giám sát, học bán giám sát và học tăng cường Loạithuật toán mà các nhà khoa học sử dụng tùy thuộc vào loại dữ liệu họ muốn dựđoán
• Học có giám sát (Supervised Machine Learning): Trong loại học máy này,các nhà nghiên cứu cung cấp các thuật toán với dữ liệu huấn luyện đượcgắn nhãn và xác định các biến mà họ muốn thuật toán đánh giá để tìm mốitương quan Cả đầu vào và đầu ra của thuật toán đều được chỉ định
• Học không giám sát (Unsupervised Machine Learning): Loại học máy này
Trang 19liên quan đến các thuật toán đào tạo trên dữ liệu không được gắn nhãn.Thuật toán quét qua các tập dữ liệu để tìm kiếm bất kỳ kết nối có ý nghĩanào Dữ liệu mà các thuật toán đào tạo cũng như các dự đoán hoặc khuyếnnghị mà chúng xuất ra được xác định trước.
• Học bán giám sát (Semi-Supervised Learning): Cách tiếp cận này đối vớihọc máy liên quan đến sự kết hợp của hai loại trước đó Các nhà khoa học
dữ liệu có thể cung cấp một thuật toán chủ yếu là dữ liệu đào tạo được gắnnhãn, nhưng mô hình có thể tự do khám phá dữ liệu và phát triển sự hiểubiết của riêng mình về tập dữ liệu
• Học tăng cường (Reinforcement Learning): những người nghiên cứu thường
sử dụng học tăng cường để dạy máy hoàn thành một quy trình gồm nhiềubước trong đó có các quy tắc được xác định rõ ràng Các nhà khoa họclập trình một thuật toán để hoàn thành một nhiệm vụ và cung cấp cho nónhững dấu hiệu tích cực hoặc tiêu cực khi nó tìm ra cách hoàn thành mộtnhiệm vụ Nhưng phần lớn, thuật toán tự quyết định những bước cần thựchiện trong quá trình thực hiện
2.3 Mô hình học cộng tác
Đối với các phương pháp máy học truyền thống, người ta sẽ tập trung toàn
bộ dữ liệu để thực hiện các thao tác huấn luyện Việc làm này vừa tốn thời gianthu thập, truyền tải dữ liệu từ nhiều nguồn khác nhau, đồng thời vừa đòi hỏimáy chủ huấn luyện phải đảm bảo khả năng xử lí cao Vì vậy một phương pháphọc mới được ra đời được gọi là Federated Learning (FL) hay còn biết đến làphương pháp học cộng tác
Federated Learning (FL) là phương pháp học mà không cần phải tập trung
dữ liệu tại một máy chủ trung tâm mà có thể huấn luyện phân tán tại các thiết
bị chứa dữ liệu Các thiết bị sau khi huấn luyện mô hình cục bộ có nhiệm vụ gửicác trọng số đã huấn luyện lên một máy chủ trung tâm để thực hiện việc tổng
Trang 20hợp trọng số Ngay sau đó, mô hình mới với trọng số sau khi được tổng hợp sẽtiếp tục được phân phối xuống các thiết bị để tiếp tục quá trình huấn luyện chođến khi đạt được hiệu năng mong muốn Bằng nguyên lí hoạt động như vậy, FLgiúp giảm thời gian và công sức để thu thập dữ liệu tập trung, đồng thời tiếtkiệm chi phí huấn luyện mô hình cho máy chủ trung tâm.
Bên cạnh đó, phương pháp này còn giúp chúng ta có thể bảo vệ tính riêng tư
dữ liệu của các cá nhân, tổ chức khi tham gia huấn luyện các mô hình học máy
Cụ thể, máy chủ và các tổ chức tham gia huấn luyện chỉ tương tác với nhau quacác trọng số mô hình chứ không phải là dữ liệu như phương pháp truyền thống
Vì vậy, các cá nhân, tố chức có thể sẵn sàng cộng tác với nhau để xây dựng một
mô hình máy học đủ tốt có thể hoạt động hiệu quả mà không phải lo lắng vềvấn đề lộ dữ liệu nhạy cảm
FL được chia làm hai loại chính:
• Vertical federated learning: là phương pháp học mà các máy sẽ chia sẻ thôngtin của cùng một đối tượng nhưng khác các đặc trưng Ví dụ: thông tin củangười dùng ở ngân hàng và bệnh viện trong một khu vực nào đó Ở ngânhàng sẽ có những đặc trưng khác với bệnh viện khi có cùng một khách hàng
vì vậy ngân hàng và bệnh viện có thể chia sẽ với nhau và bổ sung cho nhau
ở khía cạnh các đặc trưng
• Horizontal federated learning: là phương pháp học mà các máy sẽ chia sẻ vểlượng thông tin cho nhau Ví dụ: thông tin của người dùng ở hai ngân hàngtrong các vùng khác nhau Họ sẽ chia sẻ thông tin khách hàng với nhau
2.4 Mô hình mạng sinh đối kháng (GAN)
2.4.1 GAN là gì?
Mô hình mạng sinh đối kháng (Generative Adversarial Networks - GAN) làmột mô hình sinh mẫu trong học máy, được quan tâm rất nhiều trong xu hướng
Trang 21áp dụng trí tuệ nhân tạo vào giải quyết các vấn đề trong đời sống hiện nay, từnhận diện xử lý ảnh, tới các vấn đề bảo mật, an toàn thông tin cho các hệ thống.GAN thuộc nhóm generative model, trong đó generative là tính từ nghĩa là khảnăng sinh ra, model nghĩa là mô hình Vậy hiểu đơn giản generative model nghĩa
là mô hình có khả năng sinh ra dữ liệu Hay nói cách khác, GAN là mô hình
có khả năng sinh ra dữ liệu mới Ví dụ như những ảnh mặt người ở Hình 2.1chúng ta thấy là do GAN sinh ra, không phải mặt người thật Dữ liệu sinh ranhìn như thật nhưng không phải thật
Hình 2.1: Ảnh mặt người sinh bởi GAN
2.4.2 Cấu trúc mạng GAN
Mô hình mạng GAN được cấu tạo bởi 2 mạng nơ-ron luôn hoạt động đốinghịch nhau: bộ sinh (Generator) và bộ phân biệt (Discriminator)
• Generator: Học cách sinh ra dữ liệu giả để lừa mô hình Discriminator Để
có thể đánh lừa được Discriminator thì đòi hỏi mô hình sinh ra output phảithực sự tốt Do đó chất lượng dữ liệu phải càng như thật càng tốt
• Discriminator: Học cách phân biệt giữa dữ liệu giả được sinh từ mô hình
Trang 22Generator với dữ liệu thật Discriminator như một giáo viên chấm điểmcho Generator biết cách nó sinh dữ liệu đã đủ tinh xảo để qua mặt đượcDiscriminator chưa và nếu chưa thì Generator cần tiếp tục phải học để tạo
ra dữ liệu thật hơn Đồng thời Discriminator cũng phải cải thiện khả năngphân biệt của mình vì chất lượng dữ liệu được tạo ra từ Generator càngngày càng giống thật hơn Thông qua quá trình huấn luyện thì cả Generator
và Discriminator cùng cải thiện được khả năng của mình
Ý tưởng của GAN bắt nguồn từ zero-sum non-cooperative game, hiểu đơngiản như trò chơi đối kháng 2 người (cờ vua, cờ tướng), nếu một người thắngthì người còn lại sẽ thua Ở mỗi lượt thì cả 2 đều muốn maximize cơ hội thắngcủa mình và minimize cơ hội thắng của đối phương Discriminator và Generatortrong mạng GAN giống như 2 đối thủ trong trò chơi, theo đó, mô hình GANhội tụ khi cả Generator và Discriminator đạt tới trạng thái Nash equilibrium,tức là 2 người chơi đạt trạng thái cân bằng và đi tiếp các bước không làm tăng
cơ hội thắng