Khóa luận tốt nghiệp An toàn thông tin: Tăng cường khả năng phát hiện tấn công bằng mạng sinh đối kháng trong mạng khả lập trình

Trong phạm vi khóa luận, chúng tôi thiết kế và giới thiệu DIGFuPAS Deceive IDS with GAN and Function-Preserving on Adversarial Samples, một bộ khung Framework dựa trên mạng sinh đối khán

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA MANG MAY TINH VA TRUYEN THONG

CAO PHAN XUAN QUI

DANG HONG QUANG

KHOA LUAN TOT NGHIEP

MANG KHA LAP TRINH

STRENGTHENING ROBUSTNESS OF IDS USING GAN IN

SDN-ENABLED NETWORKS

KY SU NGANH AN TOAN THONG TIN

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MÁY TÍNH VÀ TRUYÈN THÔNG

CAO PHAN XUAN QUI - 17520953

DANG HONG QUANG - 17520944

KHOA LUAN TOT NGHIEP

TANG CUONG KHA NANG PHAT HIEN TAN CONG

BANG MANG SINH DOI KHANG TRONG

MANG KHA LAP TRINH

STRENGTHENING ROBUSTNESS OF IDS USING GAN IN

SDN-ENABLED NETWORKS

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

TS PHAM VAN HAU

THS PHAN THE DUY

TP HO CHi MINH, 2021

Trang 3

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Dé hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Bangiám hiệu Trường Dai học Công nghệ Thông tin — Đại học Quốc Gia Thành Phố HồChí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô giảng

dạy tại trường nói chung và Khoa Mạng máy tính & Truyền thông nói riêng vì đãtruyền đạt những kiến thức chuyên môn bé ích, những kinh nghiệm thực tế quý báu

mà chúng tôi đã học hỏi được trong suốt quá trình học tập, rèn luyện tại trường

Chúng tôi xin gửi lời tri ân và biết ơn đến TS Phạm Văn Hậu đã trực tiếp quantâm, hướng dẫn tận tình trong suốt quá trình thực hiện đề tài Xin đặc biệt gửi lời cảm

ơn trân trọng nhất đến ThS Phan Thế Duy, là người đã định hướng, dẫn dắt va đồnghành rất sớm cùng chúng tôi không chỉ trong khoá luận này mà cả trong toàn bộ

những thành tựu chúng tôi đã đạt được.

Bên cạnh đó, với tình cảm sâu sắc và chân thành, chúng tôi cũng xin cảm ơncác thầy cô, anh chị đang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab

vì đã luôn tạo điều kiện về cơ sở vật chất với hệ thống máy chủ hiện đại, luôn sẵn

sàng nhiệt tình hỗ trợ chúng tôi về chuyên môn lẫn kinh nghiệm trong các hoạt động

nghiên cứu và thực hiện khoá luận.

Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắnkhông tránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp,phê bình từ quý thầy cô trong hội đồng dé khóa luận được hoàn thiện hơn

Nhóm thực hiện.

Trang 5

MỤC LỤC

Chương 1 TONG QUAN ĐÈ TÀI ¿5£ SE SE+EE+EEEEEEEE2EEEEEEEEEEEEkrrxrrrrei 2

LL Lý đo chọn đề tài - - 5s 5+1 2E EEEEEEEEE1211011211211 21111111111 11c ty 2

1.2 Mục tiêu nghiÊn CỨU 5 << <3 111 TH nh 3

2.1 Tình hình nghiên cứu va các công trình liên quan s5 + 55<++ss>+ 5

2.2 Một số cải tiến so với khoá luận trước : cccc+cc+c+ccverrrrxeerrrrked 7

23 Ý nghĩa khoa học và thực tiễn của GG tài tt ng HT rrggrrrkg 8

2.3.1 Ý nghĩa khoa học 2-ce+Ek+Ek‡EEEEEEEEEEEEEEEEErrkerkrred 8

2.3.2 Ý nghĩa thực tiễn -¿©-+c+ckcEEkerkerkrrrrerkrerkesree 92.3.3 Công bố khoa học ¿- 2 £+E+E£EE‡EESEEEEEEEEEE2EEEEEEEerkerkrree 10Chương 3 CO SỞ LÝ THUYÊTT 2-52 ©ESE+EE+EE£EEEEE2EEEEEEEerkerkrrkrree 11

3.1 Kiến trúc mạng khả lập trình SDN ou eesecseessessessessessessesseestesesseesees 11

3.1.1 TOmg Quaneeeccecceccccccccscsssseesessessessesssssssussesscsessesscsscsussecsessesseesessesseaee 113.1.2 Ung dụng SDN trong các hệ thống mạng hiện đại - 153.2 Hệ thống phát hiện xâm nhập IDS - 222 2+++£E£+£z+£++zxzxeez 17

3.2.1 Tổng quan 52+5£+E£+EEEEEEEEEEEEEEEEE1212111 211 xe 17

3.2.2 IDS dựa trên phương pháp học máy - -. «+s«x++ccsskessesees 19

3.2.3 Nhu cầu kiểm tra và huấn luyện tăng cường IDS - 21

Trang 6

3.3.1 Tổng quan -. c2cc2ck2EkEEEEEEEEEkrrrkerrerkrerkee 223.3.2 Một số ứng dụng -¿- 25c + EEEEEE121121121 2111111 cxe 23

3.3.3 Mô hình Wasserstein-GAN nn SH HS ng ven, 25

3.3.3.1 Khái niệm liên tục LIpCh1L7 55 5-5 + ksseereeeeesere 25

3.3.3.2 Wassertein GANN -ccQ ng HT ng ng ven 25

3.3.4 _ Tấn công đối kháng © +ce+Ek+EE2E2EEEEEEEEEEEEkerkrrree 27

3.3.5 Phong chống tấn công đối kháng - 2-2 z+cz+ce+rxerse+ 29

Chương 4 _ PHƯƠNG PHAP THỰC HIỆN -2- 2-©2+2z+£+z+zxczrseee 31

4.1 Xây dựng và huấn luyện bộ khung DIGFuPAS .: -:-5+ 3l

4.1.1 Tiền xử lý đữ liệu - - + +E+EESEESEEEEEEEEEEErkerkerkerkerkee 314.1.2 _ Xây dựng kiến trúc DIGFuPAS - 2 s+2sz+£z+reerxerseee 36

4.1.2.1 IDS hộp den (Blackbox IDS — B-IDS) - -<<-<<<+2 37

4.1.2.3 Bộ phân biệt (Discriminator — Ì)) - s << s£++se+seeeeses 40

4.1.3 Quá trình huấn luyện - 2 ++s++E+EE+EESEEEEESEEEEEerkerkerkerkee 414.2 Tự động kiểm thử va tăng cường khả năng phát hiện tan công cho IDS 414.3 Thiết kế mô hình triển khai trên kiến trúc mang SDN - 43Chương 5 KET QUA VÀ THẢO LUẬN 2- 2 2+5z+E+Ecrkerkerkerxersrree 46

5.1 Phuong phap danh gia ha 'A 46

5.2 Thực nghiệm DIGFuPAS va Tăng cường IDS .- c5 48

5.2.1 Môi trường thực nghiỆm sseeseeseeseeesseeseseesesseseeeseeeaees 48

5.2.3 _ Tăng cường IDDS - SG Gv 1 HH HH ng ng 50

Trang 7

5.3 Triển khai trên môi trường SDN -¿-2-©2++2++2cxv2zxvrxrerxesrxrrrxees

Chương 6 KÉT LUẬN VÀ HƯỚNG PHAT TRIEN

. : -: 6.1 Kết luận 2¿©2+c22+22+t2EE22E2E1E211221211211221211 211.21 tre

Trang 8

DANH MỤC HÌNH ANH

Hình 3.1: Mô hình mạng truyền thống . -2- 2 22 £+S£+££+E£E+rEerxerxersxee 11Hình 3.2: Ba thành phan chính trong kiến trúc mang SDN - 2-2 13Hình 3.3: Mô hình mạng trong kiến trúc SDN - 2 2 2++x£x+£x+zszzsse2 14Hình 3.4: Triển khai NIDS ở chế độ Promicious Mode - - ss+sesszszs+z 18Hình 3.5: Triển khai NIDS ở chế độ Inline Mode - : :¿+cs+z+ccvecz+ 19

Hình 3.6: Kiến trúc của ML IDS c¿¿-25+cctttEEkterrttrktrrrrtrtrrrrrrtrrrrrrrriig 20

Hình 3.7: IDS đóng vai trò phòng thủ quan trong ¿+ sssss+sx+essersss 21

Hình 3.8: Ví du sinh dữ liệu là các chữ số viết tay từ bộ dữ liệu MNISTT 22Hình 3.9: Mô hình Mang sinh đối kháng GAN ¿-2¿©2++2+z2cxrsrxerxesree 23Hình 3.10: Kiến trúc GAN cccccc2vt 2tr tre 26Hình 3.11: Kiến trúc WGAN -cccc222 tt tr rie 27Hình 3.12: Ví dụ về tan công đối kháng trong phân loại ảnh - 28Hình 4.1: Mô hình huấn luyện DIGEuPAS - 2 s2 2 £+££+E££E+zEezxerxzrszsez 37Hình 4.2: Quá trình sinh dữ liệu đối kháng bảo toàn chức năng 40Hình 4.3: Luéng xử lý của ML-Based IDS Container trong mang SDN 43Hình 4.4: Mô hình triển khai các chức năng phòng thủ dưới dạng VNE 45Hình 5.1: Mô tả luồng dif liệu qua các hoạt động - 2-2 2 se x+x+zs+zsse2 46Hình 5.2: Mô hình hệ thong mạng thực nghiỆm - - «+ + + +++xe++see+sses 52Hình 5.3: Log hoạt động của bộ trích xuất thuộc tính s- z s+x+xexzxzxezezxz 54

Hình 5.4: Log hoạt động của IDS - - - c1 c1 391 91 1 1 1 1H ng ng 54 Hình 5.5: Tép CSV đã được IDS gan nhãn - 5 SE + set 55

Trang 9

DANH MỤC BANG BIEU

Bảng 3.1: So sánh kiến trúc mạng truyền thống và kiến trúc mạng SDN 14Bảng 4.1: Thông tin phân bé dữ liệu trong bộ dit liệu CICIDS-2017 32Bang 4.2: Bảng phân bồ dữ liệu các nhóm tan công 2 2 ¿+ s2 s+£s2 +2 34Bang 4.3: Các thuộc tính đặc trưng cho từng nhóm tan công - 5 38Bảng 4.4 Bảng thiết kế bộ sinh ¿5:52 S222E2EEE2EE22EE2EE2EEE2EEEECEErrrkrcree 39Bảng 4.5: Bảng thiết kế bộ phân biệt - 2-22 52252 2E£2EE22EE2EEtEEEeExezrxerresree 40Bảng 4.6: Tiến trình bắt gói tin và trích xuất thuộc tính -¿ ¿sz5+=++ 44Bang 4.7: Tiến trình phân tích lưu lượng của mô-đun IDS - 2-5: 44Bang 5.1: Kết quả thử nghiệm tỉ lệ phát hiện của IDS ¿2-5 5552552 49Bang 5.2: Kết quả thử nghiệm tỉ lệ phát hiện của IDS tăng cường 50

Bang 5.3: So sánh FT Score của IDS trước và sau tăng cường -«« 51

Bang 5.4: Thông tin các thành phan trong mô hình mạng SDN .- 53

Trang 10

DANH MỤC TỪ VIET TAT

STT Thuật ngữ Mô tả

1 IDS Intrusion Detection System

2 IPS Intrusion Prevention System

3 ML Machine Learning

4 ML IDS Machine Learning Based IDS

5 SDN Software-Defined Networking

6 API Application Programming Interface

7 GAN Generative Adversarial Networks

8 WGAN — WassersteinGAN _ |

9 DIGFuPAS _ Deceive IDS with GAN and Function-Preserving on

Adversarial Samples

10 DOS Denied of Service

11 DDOS _ Distributed Denied of Service

12 DR Detection Rate

13 ODR Original Detection Rate

14 ADR Adversarial Detection Rate

15 Fl Fl Score

Trang 11

TÓM TẮT KHÓA LUẬN

Với sự bùng nỗ của dit liệu, các phương pháp học máy đã bắt đầu được áp dụngtrong một số hệ thống phát hiện xâm nhập (IDS) khác nhau va đạt được kết quả khả

quan Tuy nhiên, phương pháp này cho tỉ lệ báo động giả cao cũng như dễ bị vượt

qua bởi các cuộc tấn công tinh vi như tan công đối kháng Vì vậy, cần phải liên tụckiểm tra và cải tiến các hệ thống đã triển khai bang cách mô phỏng các đột biến tancông mang trong thé giới thực

Trong phạm vi khóa luận, chúng tôi thiết kế và giới thiệu DIGFuPAS (Deceive

IDS with GAN and Function-Preserving on Adversarial Samples), một bộ khung

(Framework) dựa trên mạng sinh đối kháng (GAN) có khả năng tạo ra dữ liệu mô

phỏng các cuộc tấn công đối kháng bảo toàn được các thuộc tính chức năng mà vẫn

đảm bảo tính hợp lệ, vượt qua được các IDS học máy (ML IDS) Chúng tôi thực

nghiệm trên bộ dữ liệu công khai CICIDS-2017 Kết quả cho thay dữ liệu tao ra từ

bộ khung có khả năng vượt qua được ML IDS với tỉ lệ cao, mang lại giá trị lớn trong

việc tự động kiểm thử Thêm vào đó, từ mẫu dữ liệu đối kháng thu được chúng tôi

cũng đã thành công trong việc tái huấn luyện ML IDS qua đó tăng cường khả năngphát hiện tan công của IDS

Một khía cạnh khác, kiến trúc mạng khả lập trình (SDN) là một kiến trúc mạng

được cho là xu hướng của tương lai khi có thể ứng dụng trong ngữ cảnh mạng thành

phố thông minh (Smart City) bởi sự linh động trong việc triển khai ké cả khi có sự

thay đôi các thành phan của hệ thống Đây là một kiến trúc mang mới và tiềm năng,

có nhiều ưu điểm nhưng cũng đặt ra nhiều vấn đề về bảo mật cần được nghiên cứu

Trước yêu cầu thực tiễn đó, chúng tôi đã tiến hành tìm hiểu và triển khai ML IDS trênmôi trường mạng SDN giả lập, từ đó khảo sát tính khả thi khi triển khai giải phápkiểm thử, hướng đến tăng cường khả năng phòng thủ cho IDS tự động ngay trên kiến

trúc mạng SDN.

Cuôi cùng, chúng tôi sẽ đưa ra một sô hướng phát triên với tính thực tiên cao cho việc mở rộng nghiên cứu trong tương lai.

Trang 12

Chương 1 ˆ TỎNG QUAN DE TÀI

Dé đối phó trước những nguy cơ do tan công mang gây ra, các hệ thống phòng

thủ trong đó tiêu biéu có thé kế đến là hệ thống phát hiện xâm nhập mang (NetworkIDS) được xây dựng dé giám sát lưu lượng mạng từ đó đưa ra các cảnh báo đến quan

trị viên nếu xác định được những lưu lượng không an toàn (độc hại) Hiện nay, với

sự bùng nô của dit liệu, các IDS hoc máy (Machine Learning Based IDS — ML IDS)

đã được sử dung và con dang được tiếp tục phát trién Tuy nhiên ML IDS dan danbộc lộ các điểm yêu trước các lưu lượng mạng đối kháng: các lưu lượng mang gầngiống với lưu lượng gốc nhưng lại được phân loại không chính xác Những kẻ tấn

công có thé khiến IDS phân loại sai bang cách sử dụng các bản ghi lưu lượng truy

cập độc hại đối kháng Chính vì vậy, chúng tôi quyết định xây dựng cơ chế kiểm thử

đánh giá an ninh và tăng cường khả năng của ML IDS một cách liên tục, tự động

băng việc áp dung mạng sinh đôi kháng (GAN)

Bên cạnh đó, kiến trúc mạng khả lập trình SDN cũng là một kiến trúc mạng mới

và linh động, được xem là một định hướng chuyên đổi trong tương lai Tuy nhiên,vẫn cần nhiều nghiên cứu hơn dé chuyên đổi các công nghệ từ kiến trúc mạng truyềnthống lên kiến trúc mạng mới này Nhận thấy rằng SDN cung cấp khả năng tự động

hóa cấu hình và dé dàng nâng cấp khả năng đáp ứng của hệ thống mạng là những tính

chất phù hợp dé triển khai cơ chế đánh giá an ninh mà nhóm nghiên cứu, nên chúng

tôi muốn đánh giá việc triển khai hệ thống đã xây dựng trên kiến trúc mạng này

Từ những lý do trên, chúng tôi chọn đề tài “Tăng cường khả năng phát hiện tấn

công bằng Mạng sinh đối kháng trong Mạng khả lập trình” làm đề tài nghiên cứu cho

khóa luận.

Trang 13

1.2 Mục tiêu nghiên cứu

Nghiên cứu, thiết kế, xây dựng hệ thống ứng dụng mạng sinh đối kháng vàoviệc phát sinh mẫu tan công đối kháng giúp cải thiện khả năng phát hiện tan công của

hệ thống phát hiện xâm nhập sử dụng phương pháp học máy trong kiến trúc mạng

khả lập trình.

1.3 Phạm vỉ nghiên cứu

- Các phương thức thực hiện va phát hiện tan công trong môi trường mang SDN

sử dụng phương pháp học máy.

- Tập trung nghiên cứu khả năng bị đánh lừa của IDS trước các kiểu tan công có

chứa nhiễu do mô hình GAN sinh ra.

- _ Nghiên cứu khả năng sử dung dữ liệu đối kháng trong việc tái huấn luyện tăng

cường IDS.

1.4 Đối tượng nghiên cứu

- Kiến trúc và nguyên tắc hoạt động của mạng kha lập trình SDN

- Các phương thức tan công trên kiến trúc mang SDN

- Hệ thống phát hiện xâm nhập trong mang SDN sử dung phương pháp hoc máy

- Các bộ dữ liệu tân công phô biến dùng dé đánh giá IDS: CICIDS-2017

- Mang sinh đối kháng va các biến thé

1.5 Phương pháp thực hiện

- Tìm hiểu các kiến thức nền tang về các đối tượng nghiên cứu trong đề tài

- Tìm hiểu các công trình nghiên cứu đã được thực hiện trong và ngoài nước

- Dua ra phương pháp xây dựng va triển khai hệ thống

- _ Thực nghiệm và đánh giá kết quả

Trang 14

1.6 Cấu trúc khoá luận

Khóa luận được tô chức trong 6 chương như sau:

Chương 1: TONG QUAN DE TÀI

Trình bày khái quát định hướng nghiên cứu của khóa luận mà chúng tôi muốn

hướng tới.

Chương 2: TONG QUAN TINH HÌNH NGHIÊN CỨU

Sơ lược một sô công trình liên quan có cùng hướng nghiên cứu mà đê tài có

tham khảo Giới thiệu các công trình khoa học liên quan chúng tôi đã công bô trong thời gian thực hiện khoá luận.

Chương 3: CƠ SỞ LÝ THUYÉT

Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tảng dé cóthê thực hiện được nghiên cứu

Chương 4: PHƯƠNG PHÁP THỰC HIỆN

Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương

pháp thực hiện và mô hình được sử dụng.

Chương 5: KET QUA VÀ THẢO LUẬN

Đề cập đến quá trình thực nghiệm cùng với kết quả thu được Đưa ra nhận xét

cho những công việc đã thực hiện ở Chương 4.

Chương 6: KET LUẬN VA HƯỚNG PHAT TRIEN

Dua ra ket luận vê đê tai, đê xuât một sô hướng phát triên mở rộng cho các nghiên cứu trong tương lai.

Trang 15

Chương2 | TONG QUAN TINH HÌNH NGHIÊN CỨU

2.1 Tình hình nghiên cứu và các công trình liên quan

Với sự phát triển ngày càng đa dạng và phức tạp của các mối đe dọa bảo mật

trên Internet, IDS trở thành công cụ thiết yếu dé phát hiện các cuộc tan công mạng và

hệ thống IDS giám sát lưu lượng mạng và đưa ra các cảnh báo nếu xác định được

những lưu lượng không an toàn (độc hai) thông qua việc phân loại lưu lượng mạng thành các bản ghi lành tính và các bản ghi độc hại.

Khi đề cập đến van đề phân loại, các thuật toán học máy đã được áp dụng rộngrãi trong thực tế trên nhiều lĩnh vực khác nhau như phân loại anh nói riêng va dữ liệunói chung, trong đó hướng tiếp cận của IDS dựa trên ML cũng đã đạt được những kếtquả tốt Nhiều thuật toán học máy khác nhau đã được dùng dé phân loại dit liệu, trong

đó có thé ké đến K-Nearest Neighbor, Support Vector Machine, Decision Tree, v.v

[1] Trong những năm gần đây, các thuật toán học sâu phát triển nhanh chóng, có thé

kế đến như Mạng thần kinh kết hợp (CNN), Mạng thần kinh hồi quy (RNN), Bộ mã

hóa tự động, v.v [2] Các thuật toán này giúp cải thiện độ chính xác và đơn giản hóa việc phát hiện xâm nhập [3].

Mặc dù vay, ML IDS lại dé dang bị các kẻ tan công khai thác bởi tính dé tốnthương trước các cuộc công sử dụng lưu lượng mạng đối kháng, trong đó mô hìnhGAN chính là phương pháp được lựa chọn tiềm năng Goodfellow và cộng sự đã giớithiệu GAN, một khuôn khổ dé huấn luyện các mô hình tạo sinh đối kháng [4], với ýtưởng chính là hai mạng thần kinh nhân tạo, mạng tao sinh (Generator) và mạng phânbiệt (Discriminator) cùng chơi trò chơi minimax dé hội tụ thành một giải pháp tối ưu[5] Không chỉ thể hiện bước tiến hiện đại trong việc tạo ra hình ảnh, âm thanh và văn

bản [6] [7] [8] GAN cũng đã được chú trọng trong lĩnh vực bảo mật thông tin trong

thời gian gần đây Các nghiên cứu hiện tại đã sử dụng GAN để cải thiện khả năng

phát hiện phần mềm độc hại hoặc tạo ra chính các mẫu phần mềm độc hại đối kháng,

từ đó khiến các cuộc tấn công ngày càng đe dọa và nghiêm trọng [9] [10]

Trang 16

Một nghiên cứu của Grosse và các cộng sự đã dé xuất áp dụng thuật toán dựa

trên dao hàm chuyền tiếp các mạng nơ-ron bị tan công dé tạo ra các phần mềm độchại đối kháng trên Android với chức năng độc hại được bảo toàn [11] Một công trình

khác sử dụng thuật toán học tăng cường với một tập hợp các hoạt động bảo toàn chức

năng dé tạo ra các phần mềm độc hại đối kháng [12] Trong khi đó, Rosenberg đã tạo

ra các ví dụ điển hình về đối kháng khi kết hợp chuỗi lệnh gọi API và các tính năng

tĩnh với bộ khung tạo tấn công end-to-end [13] Trong nghiên cứu của mình,

Al-Dujaili đã trình bày 4 phương pháp để tạo các phần mềm đối kháng được mã hóa nhị

phân với chức năng độc hại được bảo tồn với việc sử dụng SLEIPNIR dé dao tao các

bộ phát hiện mạnh mẽ [14] Bên cạnh đó, thu rác đối kháng cũng nhận được sự quan

tâm khi Zhou đã tạo ra thư rác bằng mô hình sinh đối kháng SVM và từ đó nghiêncứu cách tạo ra một bộ lọc thư rác mạnh mẽ hơn [15] Cùng với việc công nghệ đốikháng đã được áp dụng rộng rãi trong việc phát hiện phần mềm độc hại, đã có nhữngcông bố nghiên cứu việc tạo ra lưu lượng truy cập độc hại đối kháng chống lại IDS.Một nghiên cứu của James và các cộng sự cũng đã đề xuất một phương pháp đánhlừa IDS học máy trên các mẫu tấn công DoS đối kháng, bằng cách thay đổi một sốthuộc tính mạng [16] Tuy nhiên, mô hình của các tác giả hoạt động chủ yếu dựa trên

các thuộc tính cụ thê của tân công DoS nên khó có khả nang mở rộng.

GAN cũng đã được ứng dụng rộng rãi trong việc tạo ra các mẫu tấn công đốikháng trong bao mật thông tin Hu đã đề xuất một bộ khung GAN để tạo ra các phầnmềm độc hại cho các cuộc tấn công hộp đen [10] Hu cũng tận dụng một mô hìnhmới đề tạo một số chuỗi API đối kháng sẽ được chèn vào chuỗi API ban đầu của phầnmềm dé hình thành các cuộc tấn công, nhằm mục đích vượt qua các hệ thống pháthiện Mạng thần kinh hồi quy (RNN) [17] Không chỉ vậy, khả năng tạo ra các mẫuđối kháng của GAN cũng đã được tận dụng trong một số nghiên cứu nhằm vượt quaIDS Điền hình có thé ké đến nghiên cứu của Zilong Lin và cộng sự khi đề xuất môhình IDSGAN khi có thé tạo ra các lưu lượng tan công đối kháng có thể đánh lita MLIDS [18] Mô hình được thiết kế dựa trên kiến trúc WGAN để cải thiện khả năng hội

tụ trong quá trình huấn luyện Bộ sinh trong công trình này chon thay đôi một số

Trang 17

thuộc tính của lưu lượng mạng dé tao mẫu đối kháng, trong khi bộ phân biệt tim cách

bắt chước hoạt động của IDS máy học nhằm hỗ trợ gửi phản hồi cho bộ sinh Tuy

vậy, Usama và cộng sự đã chỉ ra vấn dé ton tại trong IDSGAN khi thay đổi một số

thuộc tính chức năng của lưu lượng mạng [19] IDSGAN đã vi phạm yêu cầu giữnguyên tính hợp lệ của lưu lượng mẫu đối kháng Nhóm tác giả nghiên cứu sau đó

đưa ra đề xuất cơ chế đảm bảo giữ nguyên các thuộc tính chức năng trong quá trình

tạo mẫu đối kháng, khi bộ sinh chỉ thực hiện thay đổi trên nhóm các thuộc tính phi

đặc trưng Nhưng giải pháp lại đề xuất sử dụng GAN cơ bản, vốn có thê đối mặt vớivan đề khó hội tụ trong quá trình huấn luyện

Dữ liệu đầu vào trong hướng tiếp cận sử dụng GAN cũng là một vấn đề cần

quan tâm của các nghiên cứu Một nghiên cứu của Msika và các cộng sự đã chứng

minh kích thước và độ đa dạng của đầu vào có thể ảnh hưởng đến hiệu suất của GAN[20] Nghiên cứu này sử dụng chính các thuộc tính phi chức năng làm đầu vào dé tạomẫu đối kháng, điều này có thể làm giảm tính đa dạng của dữ liệu được tạo so với

việc sử dụng nhiễu như công trình IDSGAN Mặt khác, tập dữ liệu KDD99 sử dụng

trong công trình của Usama tuy phố biến trong việc kiểm tra hoạt động của IDS nhưng

có thể chứa những bản ghi lưu lượng đã lỗi thời và không bao gồm các dữ liệu tấncông mới hiện nay Công trình IDSGAN sử dụng phiên bản cải tiến của KDD99 làNSL-KDD, tuy vậy về cơ bản tập dữ liệu này cũng gặp vấn đề tương tự

2.2 Một sô cải tiên so với khoá luận trước

Trong khoá luận này, chúng tôi sẽ giới thiệu DIGFuPAS là một bộ khung chúng

tôi đã làm việc và phát triển cùng với anh Lê Khắc Tiến — Kỹ su tài năng ngành Antoàn thông tin Khoá 2016 Trường Đại học Công nghệ Thông tin Anh Lê Khắc Tiến

đã hoàn thành và công bố DIGFuPAS trong khoá luận tốt nghiệp “PHAT SINH DULIEU TAN CÔNG CHONG LAI IDS BẰNG MÔ HÌNH DOI KHANG TẠO SINH”

nam 2020.

DIGFuPAS trong khoá luận của chúng tôi được thực hiện trên bộ dữ liệu mới CICIDS-2017 [21] so với bộ dữ liệu NSL-KDD đã cũ trong khoá luận trước đó.

Trang 18

Chúng tôi thực hiện một số điều chỉnh về thông số và thiết kế mô hình Cách bộ

sinh nhận di liệu đầu vào là sự khác biệt lớn nhất Khoá luận trước thử nghiệm 2

trường hợp gồm đầu vào là nhiễu và đầu vào là các thuộc tính phi chức năng.

- Đối với trường hợp dữ liệu đầu vào là nhiễu thi di liệu đầu ra đa dạng, nhưng

quá trình đào tạo khó khăn hơn vì các giá trị nhiễu ngẫu nhiên rời rạc.

- Đối với trường hợp dit liệu đầu vào là các thuộc tính phi chức năng có sự

liên kết do được thu thập từ thực tế thì huấn luyện dễ dàng hơn nhưng vớimỗi đầu vào chỉ cho 1 luồng lưu lượng đối kháng đầu ra tương ứng (do cáctrọng số của mô hình là cố định)

Vì vậy, chúng tôi lựa chọn giải pháp kết hợp: sử dụng nhiễu nối vào các thuộctính phi chức năng dé làm đầu vào cho bộ sinh Điều này vừa giúp cải thiện quá trình

huân luyện, vừa dam bao tính đa dạng của dữ liệu dau ra.

Khoá luận trước chỉ dừng ở việc sử dụng DIGFuPAS phát sinh dữ liệu đối kháng

có khả năng qua mặt IDS Chúng tôi ứng dụng DIGFuPAS và phát triển thêm dé ápdụng trong ngữ cảnh kiểm thử và tăng cường khả năng của IDS một cách tự động

Cuối cùng, chúng tôi không chỉ thử nghiệm trên bộ dữ liệu kiểm thử như khoáluận trước mà còn trién khai IDS thực nghiệm trên môi trường SDN nhăm đánh giákhả năng hoạt động trong môi trường thực tế

2.3 Y nghĩa khoa học và thực tiễn của đề tài

2.3.1 Y nghĩa khoa học

Như đã dé cập ở trên, những nghiên cứu khoa học đã được công bồ trước đây

vẫn còn một số hạn chế, trong đề tài này chúng tôi đã khắc phục và phát triển hướng

nghiên cứu như sau:

- Chúng tôi giới thiệu một bộ khung mới DIGFuPAS dựa trên GAN Bộ khung

không thay thế các thuộc tính chức năng của lưu lượng mạng, do đó chúng tôi bảotoàn được đặc tính tấn công cũng như đảm bảo được tính hợp lệ của lưu lượng đối

kháng sinh ra.

Trang 19

- Các nghiên cứu và thực nghiệm cũng đã chỉ ra rằng huấn luyện mô hình GAN

thường xuyên dẫn tới việc không hội tụ đến điểm cân bằng (Equilibrium Point) Trong

DIGFuPAS, chúng tôi sử dụng thuật toán Wasserstein GAN với những ưu điểm từ

hàm mất mát (loss function) vi vậy cải thiện đáng kế khả năng hội tụ và giúp việc

huân luyện bộ sinh trở nên ôn định hơn.

- Chúng tôi thử nghiệm mô hình trên IDS sử dung 6 thuật toán học máy khác

nhau, từ đó có thé giúp tối ưu mô hình với thuật toán cho kết quả tốt nhất

- Dékhac phục tình trạng tập dữ liệu bị lỗi thời, chúng tôi sử dụng bộ dit liệu đầy

đủ hơn là CICIDS-2017 [21] từ Viện An ninh mạng Canada thay thế Bộ dữ liệu về

cơ bản đã khắc phục được những vẫn đề còn tồn đọng khi bao gồm các lưu lượng tấn

công cập nhật mới.

- Chúng tôi đưa ra phương pháp tái huấn luyện IDS liên tục từ chính những lưulượng đối kháng sinh ra, cung cấp giải pháp trong việc tự động kiểm thử cũng nhưgiúp IDS tăng cường khả năng phát hiện tan công

- Bộ khung DIGFuPAS được triển khai trên kiến trúc mang định nghĩa bang phan

mềm SDN, một kiến trúc mạng mới tiềm năng của tương lai.

2.3.2 Ý nghĩa thực tiễn

Mặc dù giải pháp của nghiên cứu chỉ mới ở giai đoạn thử nghiệm trên môi

trường giả lập nhưng ứng dụng của nghiên cứu trong thực tiễn là rất tiềm năng

Trong xu thế chuyên đổi số, nghiên cứu có thể được triển khai thành một hệ

thống phòng thủ tan công tối ưu với khả năng tự động huấn luyện tăng cường liên tụctrên cơ sở hạ tầng công nghệ thông tin quan trọng hỗ trợ IoT (IoTCI]) Theo đó, hệ

thống phát hiện xâm nhập sử dụng bộ khung DIGFuPAS sẽ có đủ khả năng dé chốnglại các cuộc tấn công đối kháng từ những kẻ tấn công nguy hiểm

Hệ thống khi được triển khai không chỉ mang lại những lợi ích về mặt xã hội,

mà còn đảm bảo cung cấp một môi trường phát triển an toàn, mang lại hiệu quả vềmặt kinh tế Nhờ áp dụng kết hợp những công nghệ thiết thực và hiệu quả là GAN và

Trang 20

kiến trúc mạng SDN, giải pháp được hiện thực với chi phí đầu tư thấp, tài nguyêntiêu tốn ít cùng với khả năng lập trình cấu hình cao, dé dàng đổi mới, rất linh hoạt và

được tối ưu hóa

2.3.3 Công bố khoa học

Chúng tôi đã công bố các nghiên cứu là một phan nội dung được trình bày trong

khóa luận này tại các hội nghị, hội thảo và giải thưởng sau:

- Giải Nhat lĩnh vực Công nghệ thông tin Giải thưởng Sinh viên nghiên cứu Khoa

học Euréka lần thứ XXII năm 2020.

- — Giải Nghiên cứu trẻ xuất sắc tại Hội thảo khoa học Mạng lưới học thuật ViệtNam tại Nhật Bản về Khoa học và Công nghệ trong bình thường mới VANJ 2020

- _ Bài báo khoa học được đăng trong Kỷ yếu Hội nghị Quốc gia lần thứ XXIII vềĐiện tử, Truyền thông va Công nghệ Thông tin REV-ECIT 2020, ISBN: 978-604-

Ngoài ra, chúng tôi còn có 2 nghiên cứu khác đang đợi kết quả:

- Bài báo khoa hoc tại Hội nghị Quốc tế về Công nghệ máy tính và Truyền thông

RIVE 2021.

- Đề tài Sinh viên nghiên cứu khoa học đã được chấp nhận và đang tiếp tục thực

hiện.

10

Trang 21

Chương3 CƠ SỞ LÝ THUYET

3.1 Kiến trúc mạng khả lập trình SDN

3.1.1 Tổng quan

Trong những năm gan đây, cách mạng công nghiệp lần thứ 4 đang diễn ra nhanh

chóng, số lượng các hoạt động chuyền dịch lên hạ tầng công nghệ thông tin ngày càng

lớn Cùng với đó, sự phát triển bùng nỗ của mạng Internet đã làm cho hệ thống mạng

không ngừng trở nên đô sộ về cả sô lượng lần quy mô, kiên trúc, cơ sở hạ tang.

Nhu một hệ quả, việc quản tri và vận hành hệ thống trở nên khó khăn hơn trên

kiến trúc mạng có quy mô lớn, đòi hỏi sự thay đổi liên tục dé tương thích với mục

đích sử dụng ngày càng linh hoạt Một trong những nguyên nhân cơ bản gây nên sự

khó khăn này là do các thiết bị của hạ tầng mạng như bộ định tuyến (router), bộchuyển mạch (switch), hay các dịch vụ hạ tầng mạng như dich vụ VLAN, Security,

được xây dựng riêng biệt và độc quyền, với nhiều cơ chế khác nhau, bởi các nhà sản

xuất phan cứng khác nhau Việc phân mảnh, thiếu đồng bộ trong cơ chế quản lý, cauhình gây khó khăn trong việc vận hành toàn hệ thống

Data Center Network Diagram

Client = Clients Customs

Center Client Center

Hình 3.1: Mô hình mạng truyén thống !

! Nguồn: https://www.edrawsoft.com/template-data-center-network.html

lãi

Trang 22

Theo đó, mạng truyền thong hoạt động hầu như dựa trên việc triển khai các thiết

bị chuyên dụng, trong đó một thiết bị mạng thường bao gồm phần mềm và phần cứng.Phần mềm đảm nhiệm chức năng chính của thiết bị cũng như việc trao déi thông tinvới các thiết bị khác dé tính toán các đường định tuyến dựa trên những thông tin đãthu thập được Phần cứng đảm nhiệm chức năng chuyền các gói tin đến theo một lộtrình đã được phần mềm tính toán

Đối với mạng truyền thống thì các thiết bị định tuyến hoặc chuyển mạch trao

đôi các thông tin với nhau và tự tính toán đường đi cho riêng mình Các thiết bị mạng

phải được tích hợp nhiều chức năng dé đảm bảo khả năng hoạt động

Với sự phát triển của các công nghệ ảo hoá, ảo hoá mạng đang là xu hướng đượcquan tâm và đang ngày càng được triển khai rộng rãi với sự ra đời của kiến trúc mạng

khả lập trình SDN được phát triển nhằm mục đích làm cho các mạng trở nên linh

hoạt hơn, phân tách các quá trình điều khiển lưu thông lưu lượng mạng ra khỏi hatang phan cứng là các thiết bị vat lý, nhăm đảm bảo việc quản lý và kiểm soát thôngqua các API trở nên hoàn chỉnh và thông nhất hơn, cho phép các kỹ sư và người quảntrị nhanh chóng tạo ra các thay đồi trên môi trường mạng dé đáp ứng nhanh chóngcác yêu cầu hoạt động thông qua một bộ điều khiển tập trung

Trong SDN, kỹ sư hoặc quản trị viên có thé quản lý và cau hình toàn bộ hệ thong

từ bộ điều khiển tập trung mà không cần phải thiết lập trên từng thiết bị riêng lẻ, giúplàm giảm chi phí vận hành nhưng tăng hiệu suất làm việc, đồng thời tăng tốc thờigian đáp ứng khi có yêu cau thay đổi hoặc cung cấp thêm dich vu

SDN mang lại những tính năng vượt trội này thông qua việc phân tách hạ tầng

mạng thành 3 thành phan chính như biểu diễn ở Hình 3.2, gồm:

- Lớp ứng dụng (Appication Layer): La những ứng dung hoặc chức năng ma hệ

thống mạng cần sử dụng như các hệ thống phát hiện xâm nhập, cân bằng tải hoặctường lửa, Dé thực hiện các chức năng này trong kiến trúc mạng truyền thống cầnphải sử dụng một thiết bị chuyên dụng riêng biệt Trong khi với SDN các ứng dụngphần mềm với chức năng tương đương được triển khai kết hợp với các API do bộ

12

Trang 23

khiển cung cấp dé quản lý việc điều khiến lưu lượng mang thay thé cho các thiết bịphần cứng truyền thống Các phần mềm phía lớp ứng dụng giao tiếp với lớp điềukhiến thông qua Northbound API (API Cau Bắc).

- Lớp điều khiển (Control Layer/Control Plane): Đại diện cho phần mềm điều

khiển SDN tập trung hoạt động như bộ não của mang Bộ điều khiển này nằm trên

một máy chủ và quản lý các chính sách và luồng lưu lượng trên toàn mạng, cũng nhưcung cấp các API dé có thể xây dựng các ứng dụng cho hệ thống mạng

- Lớp ha tang (Infrastructure Layer/Data Plane): Bao gồm các thiết bi vật lý trongmạng thực hiện việc chuyên các gói tin trong hệ thống theo sự điều khiển của lớpđiều khiển thông qua các giao thức như OpenFlow Các bộ chuyển mạch trong lớp

hạ tầng giao tiếp với lớp điều khiển thông qua các Southbound API (API Cầu Nam)

API API API

Hình 3.2: Ba thành phan chính trong kiến trúc mang SDN [22]

Bộ điều khiển SDN quản lý tập trung các thiết bị vật lý cũng như các dịch vụmạng, bat kế loại thiết bị hay loại dich vụ

13

Trang 24

SDN Controller mart Grid Control Center

Là)

“

Hình 3.3: Mô hình mạng trong kiến trúc SDN [23]

Quá trình này là một bước tiến so với kiến trúc mạng truyền thống khi phần điềukhiến và xử logic được tách rời và quản lý tập trung ở bộ điều khién trung tâm, trongkhi các thiết bị mạng ở lớp hạ tầng không cần xử lý các giao thức phức tạp mà chúngchỉ vận chuyền dit liệu theo các luồng mà bộ điều khiển SDN chỉ định

Bảng 3.1: So sánh kiến trúc mạng truyền thống và kiến trúc mạng SDN

⁄ ⁄ _Mạng truyền thống Mạng SDN

“Phan điều khiến và Được tích hợp trong từng thiết Phần điều khiển được.

phần vận chuyền bị mạng tách riêng khỏi thiết bị

dữ liêu mạng và được chuyên

đến một thiết bị được gọi

là bộ điều khiển SDN

Phan thu thập và xử lý Được thực hiện ở tất cả các Xu lý tập trung xử lý ởcác thông tin phần tử trong mạng bộ điều khiến SDN

Kha năng lập trình dé Không thé được lập trình bởi Mang có thể lập trình bởi

câu hình bởi các ứng các ứng dụng Các thiệt bị các ứng dụng, bộ điêu

dụng mạng phải được cấu hình một | khiển SDN có thể tương

cách riêng lẻ và thủ công tác đến tất cả các thiết bị

trong mạng.

14

Trang 25

SDN bao gồm nhiều loại công nghệ mang được thiết kế để giúp mạng trở nên

linh hoạt hơn, hỗ trợ ảo hóa và cơ sở hạ tầng lưu trữ trong môi trường trung tâm dữliệu hiện đại tốt hơn

Dựa vào bộ điều khiến SDN, các nhà khai thác và người quản trị mang có thélập trình để cấu hình tự động thay vì phải thực hiện thủ công từng câu lệnh cấu hìnhtrên từng thiết bị riêng lẻ vốn có thé bị phân bé ở nhiều vị tri địa lý Điều này giúpviệc triển khai các ứng dụng mới và các dịch vụ mạng diễn ra nhanh chóng, kiến trúcmạng trở nên linh hoạt cũng như hiệu suất sử dụng cao và dễ quản lý hơn Tóm lại,chúng tôi tổng kết một số sự khác biệt cơ bản giữa mạng truyền thống và mạng SDN

trong Bảng 3.1.

3.1.2 Ứng dụng SDN trong các hệ thống mạng hiện đại

Trong những năm qua, SDN đã rất được các nhà nghiên cứu và các nhà khoahọc chú trọng Là một kiến trúc mới nhằm thay thế thiết kế mạng vật lý truyền thốngbang cơ sở hạ tang mang được lập trình và điều khiển bởi phần mềm, SDN được cho

là một giải pháp cung cấp khả năng thích ứng, tương đối hiệu quả về chi phi và năngđộng Sự linh động của SDN cho phép nó đáp ứng nhiều nhu cầu phức tạp từ các ứngdụng Tuy nhiên, phải thừa nhận kiến trúc mang SDN vẫn chưa phô biến trong thực

tế, nhưng cũng đã có một số trường hợp sử dụng SDN dé giải quyết các van đề đặcthù một cách hiệu quả hơn các phương pháp truyền thống

Có bốn đặc trưng quan trọng giúp SDN có thê tạo ra sự khác biệt so với kiếntrúc mạng truyền thống là:

- Tinh khả lập trình: SDN cho phép kiểm soát hành vi mạng bang phan mềm mà

không chịu sự hạn chế bởi các thiết bị phần cứng sử dụng trong hệ thống Có nghĩa

là quản trị viên có thé lập trình các chức năng cụ thé dé kiểm soát hành vi của cácmạng, hỗ trợ chính xác các yêu cầu mà dịch vụ hoặc khách hàng cần một cách dễ

dàng và nhanh chóng.

- Khả năng kiểm soát: Với việc tách biệt kiến trúc mạng, xử lý tập trung ở bộ điềukhiến, các thiết bị không bị hạn chế về thông tin trang thái chung của toàn mạng, cung

15

Trang 26

cấp khả năng kiểm soát và quản lý tài nguyên mạng thông minh như quản lý băng

thông, khôi phục sự cố, bảo mật và có thể xây dựng các chính sách thông minh, tối

ưu hiệu năng hệ thống dựa trên trạng thái toàn diện của mạng

- Trừu tượng hóa mang: Các dich vụ va ứng dung chạy trên công nghệ SDN được

trừu tượng hóa sẽ tương tác với mạng thông qua các API từ bộ điều khiển, thay vì các

giao diện câu hình từ các nha sản xuât kêt hợp chặt chẽ với phân cứng.

- Tính mở: SDN được xây dựng trên các tiêu chuẩn mở dùng chung nhưOpenFlow, không bị ràng buộc bởi các nền tảng đóng và các nhà sản xuất phần cứng.Các API mở dùng chung hỗ trợ một loạt các ứng dụng và dịch vụ có thé hoạt độnglinh hoạt theo cách người vận hành mong muốn

Theo tìm hiểu của chúng tôi, SDN đã được áp dụng vận hành trong một sỐtrường hợp thực tế như:

- Sonus Networks đã tiết lộ sử dụng SDN trong các dịch vụ video và nên tảngcộng tác mà công ty vận hành Bằng cách kết hợp SDN với nền tảng ảo hóa mạng của

Juniper, công ty có khả năng quan lý các phiên hoạt động của khách hang một cách

linh hoạt Việc sử dụng SDN cung cấp cho họ khả năng đảm chất lượng dịch vụ

(Quality of Services - QoS) được duy trì và quản lý tốt hơn Công ty này tin răng việc

sử dụng SDN giúp họ có quyền kiểm soát hệ thống mạng nhiều hơn, từ đó linh động

trong việc phục vụ mọi nhu câu của từng khách hàng một cách hiệu quả hơn.

- Điều phối các dịch vu di động: Các chức năng mang ảo hóa (NVF) va SDN đều

đã được sử dụng trong hệ thống của các công ty cung cấp dịch vụ mạng di động viễnthông Các nhà cung cấp đã bắt đầu sử dụng chúng để quản lý mạng của họ nhằm

đảm bảo sử dụng tài nguyên hiệu quả nhất, đồng thời tận dụng được khả năng điều

phối, cung cấp động các dịch vụ một cách nhanh chóng Điều này cho phép hệ thống

hạ tầng đáp ứng được nhu cầu của các nhà mạng một cách linh hoạt, giảm thời gian

triển khai, từ đó gia tăng hiệu suất tổng thé của toàn hệ thống

- Tang độ linh động trong trung tâm đữ liệu: Hiện các nha nghiên cứu tai Dai học

Illinois đang cố gắng sử dụng các bộ chuyển mach SDN đề thử nghiệm một hệ thống

16

Trang 27

mạng mới được triển khai cho một trung tâm dữ liệu Các nhà nghiên cứu có khảnăng đảm bảo tính mở rộng (Scalability) của hệ thống mà không phát sinh quá nhiềuchi phí phần cứng 13 thiết bị chuyên mạch Pica8 với tổng cộng khoảng 670 công đãđược lắp đặt Một khi mạng dữ liệu SDN được vận hành thường xuyên hơn, tốc độtruy cập có thể sẽ cao hơn rất nhiều do được hỗ trợ bởi tính năng cân bằng tải và việc

mở rộng băng thông sẽ được đảm bảo.

- SDN da gop phan vào su xuất hiện của một số công nghệ như Software DefineWide Area Network (SD-WAN), là hệ thống mạng diện rộng được định nghĩa bởi

phần mềm; hay một số nhà sản xuất lớn (như Cisco) đã sử dụng SDN làm nên tảng

dé triển khai một kiến trúc mạng tiên tiễn hơn nữa là Intend-Based Networking vận

hành tự động theo ngữ cảnh với sự hỗ trợ của trí tuệ nhân tạo.

- Cũng đã có nhiều san phẩm, hệ thống SDN được trién khai trong thực tế như hệ

thống mạng B4 của Google, hệ thống mạng truyền tai của Huawei.,

3.2 Hệ thống phát hiện xâm nhập IDS

3.2.1 Tong quan

Hệ thống phát hiện xâm nhập là thiết bị hoặc phần mềm có nhiệm vụ giám sát

lưu lượng mạng, các hành vi đáng ngờ và cảnh báo cho quản trị viên hệ thống Mục

đích của IDS là phát hiện và ngăn ngừa kịp thời các hoạt động bất thường bao gồm

việc tấn công, xâm nhập không mong muốn từ bên ngoài hoặc truy cập trái phép vào

hệ thống IDS cũng có thé phân biệt giữa những cuộc tan công nội bộ (từ chính nhân

viên hoặc khách hàng trong tổ chức) và tan công bên ngoài (từ hacker)

Khi phát hiện các hoạt động bất thường, IDS sẽ đưa ra các cảnh báo (alert) đểngười quản trị đưa ra các quyết định đối phó Tuỳ theo cách triển khai và cấu hình,IDS có thể tự động ngăn chặn các hành vi xâm nhập khi ở chế độ phòng chống xâm

nhập (IPS mode).

Có nhiều tiêu chí để phân loại IDS như:

- Phân loại theo chức nang:

17

Trang 28

e Hệ thống phát hiện xâm nhập mang (Network-Based IDS - NIDS):

Tập trung giám sát các hành vi tan công nhắm vào cơ sở hạ tang mạngbang cách thu thập lưu lượng trên toàn mạng rồi phân tích, kiểm tra déphát hiện ra các hành vi bất thường

NIDS có thé được triển khai ở chế độ Promicious Mode như mô hình

ở Hình 3.4 hay Inline Mode như mô hình ở Hình 3.5.

IDS ở chế độ Inline Mode có thé được cau hình dé trở thành Hệ thống

ngăn chặn xâm nhập (IPS), tuy nhiên sẽ làm tăng độ trễ cho mạng cũng

như gây ảnh hưởng tiêu cực do việc chặn nhằm gây ra

e Hệ thống phát hiện xâm nhập thiết bị (Host-Based IDS - HIDS): Tập

trung giám sát các hành vi xâm nhập vào hệ thống mà nó được cài lên

HIDS có thé bảo vệ hệ thống khỏi các lỗ hồng của ứng dụng hoặc cấp

độ hệ điều hành, cũng như giám sát tính toàn vẹn của các tệp, theo dõicác tiễn trình được chạy, các hoạt động độc hại ở cấp kernel và phântích nhật ky (log) dé tìm kiếm các hoạt động đáng ngờ

HIDS thường được triển khai cùng với một hệ thống quản lý tập trung

hỗ trợ trién khai các chính sách an toàn và theo dõi hiện trạng toàn bộ

hệ thống một cách nhanh chóng

Traffic Mirroring

Internet

Hình 3.4: Triển khai NIDS ở chế độ Promicious Mode

18

Trang 29

cs ®

Core Internal

Internet IDS Switch Network

Hình 3.5: Triển khai NIDS ở chế độ Inline Mode

- Phân loại theo phương pháp hoạt động (NIDS):

e IDS dựa trên dấu hiệu (Signature-Based IDS): Phát hiện tấn công dựa vào các

dau hiệu đặc trưng (signatures) đã biết trước của cuộc tan công, được biéu diễnbang các quy tắc (rules) do người quản trị cài đặt Hệ thống này có thé phân

loại các tắn công đã biết bằng cách so sánh các hành vi quan sát được với cácmẫu được lưu trữ Tuy nhiên, hệ thống loại này chỉ có thé phát hiện những loại

tấn công đã được nhận diện mà không thể phân biệt các kiểu tấn công mới

(zero-day attacks).

e IDS dựa trên bat thuong (Anomaly-Based IDS): Tim kiếm sự sai lệch từ các

hành vi quan sát được và so sánh với các hành vi bình thường Khi đó nếu

hành vi quan sát được không giống với các hành vi bình thường đã được định

nghĩa thì mô hình sẽ hiểu đó là hành vi tan công Phương pháp này thường áp

dụng các thuật toán học máy trong việc nhận dạng mẫu tấn công Chúng tôi

gọi các IDS sử dụng phương pháp học máy là các IDS học máy (Machine

Learning Based IDS, hay ML-IDS)

3.2.2 IDS dựa trên phương pháp học máy

Các IDS truyền thống phát hiện xâm nhập dựa trên dấu hiệu (Signature-BasedIDS) thực hiện so sánh lưu lượng truy cập với cơ sở dir liệu chứa các mẫu tấn công

(gọi là dấu hiệu/chữ ký) Kiểu IDS này khó phát hiện ra những dạng tan công bị giới

hạn bởi số lượng chữ ký cũng như không có khả năng nhận diện các cuộc tấn công

chưa được biết trước

19

Trang 30

Đề khắc phục các nhược điểm của IDS truyền thống, gần đây các thuật toán

Machine Learning (ML) được áp dụng trong IDS dé xác định và phân loại các mối

đe dọa bảo mật ML IDS dùng phương pháp thống kê lưu lượng mạng trong các

khoảng thời gian khác nhau dé tạo nên một đường cơ sở (baseline) và dựa vào đó dé

phát hiện ra những hành vi đáng ngờ Dang IDS nay sử dung các kỹ thuật hoc máy

để tạo ra một mô hình mô phỏng việc truy cập thông thường của người dùng mạng

Do đó nếu có một truy cập bất thường, ML IDS sẽ đưa ra cảnh báo

| Attack detection and response |

Hình 3.6: Kiến trúc của ML IDSThuật toán học máy không giám sát trong IDS có thê tự tìm hiểu các mô hìnhđiển hình của mạng và đưa ra cảnh báo nếu có bất thường xảy ra, mà không cần thiếttập dữ liệu phải được gán nhãn Sử dụng thuật toán dạng này có thể phát hiện các loạitan công mới, nhưng tỉ lệ phát hiện sai (false positive) cao Một số phương pháp hoc

không có giám sát là: K-means, C-Means, One-class SVM, Clustering.

Thuật toán học máy có giám sát trong IDS tỉ lệ phát hiện sai thấp hơn Đề làm

được điều này, cần có một tập dữ liệu đã được dán nhãn, sau đó xây dựng một mô

hình học máy có giám sát, tức huấn luyện cho mô hình phân biệt sự khác nhau giữagói tin của kết nối bình thường và gói của một kết nối tan công mạng Sau khi đượchuấn luyện đầy đủ, mô hình sẽ phát hiện ra những gói tin của những cuộc tấn công

đã biết, và cả những gói tin của các vụ tấn công là biến thé của chúng (chưa biết)

Các thuật toán giám sát bao gồm: Bayes Network, Random Forest, Random Tree,

MLP, Decision Table, One-class SVM.

20

Trang 31

3.2.3 Nhu cầu kiểm tra và huấn luyện tăng cường IDS

Trong bối cảnh các cuộc tan công ngày càng tinh vi và các cuộc tấn công mới

liên tục xuất hiện, các hệ thống phòng thủ sau một thời gian hoạt động đặt ra yêu cầu

cân phải được kiêm tra đê thích ứng với các loại tân công mới.

THE INTERNET FIREWALL OWN NETWORK °

Hinh 3.7: IDS dong vai tro phong thu quan trong

Có bốn trường hợp khi lưu lượng truy cập có gắng đi qua IDS Hai trường hợp

đầu tiên là lưu lượng truy cập bình thường đi qua và lưu lượng độc hại bị từ chối.Nhưng bên cạnh đó, sẽ có hai trường hợp lưu lượng có thé bi phân loại sai Dươngtính gia (false positive) là khi lưu lượng bình thường bị coi là độc hai và bi từ chốitrước khi vào hệ thống; trong khi đó, âm tính giả (false negative) là khi lưu lượng độchại được coi là bình thường và được phép vào hệ thống Các hệ thống AI đối nghịch

sẽ tập trung vào hai trường hợp cuối cùng bang cách liên tục tạo ra lưu lượng tan công

đối kháng giả mạo là lưu lượng lành tính để đánh lừa IDS

IDS đã bộc lộ điểm yếu là tính dé tổn thương trước các cuộc tấn công đối kháng

Đề khắc phục điều này, IDS cần thường xuyên được kiểm thử dé đánh giá khả năngphòng thủ và phát hiện tan công còn đạt kết quả trong phạm vi cho phép hay không

Theo đó, có nhiều phương pháp dé kiểm thử IDS đi cùng với việc cập nhật cơ

sở dữ liệu thủ công, bao gồm việc cập nhật chữ ký của lưu lượng tấn công đối vớiIDS truyền thống hoặc tái huấn luyện IDS với tập dữ liệu lưu lượng mới bao gồm cáclưu lượng tấn công đối kháng mới nhất Tuy nhiên các phương pháp đánh giá và kiêm

thử thủ công vẫn tỏ ra nhiều hạn chế khi tốn nhiều tài nguyên và công sức mà lại

không đạt được kết quả cao do những cuộc tấn công mới liên tục xuất hiện, từ đó đặt

ra nhu cầu cấp thiết về việc kiểm thử và huấn luyện tăng cường IDS tự động liên tục

21

Trang 32

3.3 Mạng sinh đối kháng

3.3.1 Tong quan

Mang sinh đối kháng (Generative Adversarial Networks — GAN) là một mô hình

gồm 2 mạng nơ-ron nhân tạo đối đầu nhau có kha năng sinh dit liệu Y tưởng củaGAN bắt nguồn từ những trò chơi đối kháng 2 người như cờ vua, cờ tướng khi nếumột người thắng thì người còn lại sẽ thua Ở mỗi lượt thì cả 2 đều muốn tối đa cơ hộithắng của mình và hạn chế cơ hội thắng của đối thủ Discriminator và Generator trongmạng GAN giống như 2 đối thủ trong trò chơi

Theo lý thuyết, mô hình GAN hội tụ khi cả Generator và Discriminator đạt tới

trạng thái cân bằng Nash, tức là 2 người chơi đạt trạng thái cân bằng, như thế hoàtrong môn cờ, và việc đi tiếp các bước không làm tăng cơ hội thắng Cũng giống nhưviệc 2 kỳ thủ đối đầu và học hỏi lẫn nhau sẽ giúp họ ngày càng giỏi và có thể sáng

tạo ra các nước cờ mới, sau quá trình huấn luyện, GAN, hay nói chính xác hơn là bộ

sinh của GAN cũng có khả năng sinh ra dữ liệu mới từ những dữ liệu đã học được.

Trang 33

- Bộ phân biệt: Mang có kha năng phân biệt kiểm định dữ liệu từ Bộ sinh, phân

biệt xem dữ liệu là thật (dữ liệu từ dataset) hay giả (dữ liệu sinh ra từ bộ sinh).

Có thé thấy bộ sinh hay bộ phân biệt đều là mang neural network và cùng cạnh

tranh với nhau Bộ sinh cố gắng tạo ra dữ liệu giống thật nhất có thé trong khi bộphân biệt cố gắng phân biệt dữ liệu mà bộ sinh đồ vào sau đó thông báo lại cho bộ

sinh dé cải thiện, cứ như thé quá trình này lặp đi lặp lại để bộ sinh có thé tạo ra mẫuđối kháng hoàn hảo nhất mà bộ phân biệt không thê phân biệt được nữa

Một trong những xu hướng nghiên cứu thu hút được đông đảo các nhà khoa học,

có tính ứng dụng cao và phát triên mạnh mẽ trong những năm gần đây chính là Mạng

sinh đối kháng GAN, trong đó có thê liệt kê ra một số ứng dụng tiêu biểu:

- Tao ra khuôn mặt người: GAN có khả năng tao ra những khuôn mặt nhân tao

mà rất khó phân biệt với người thật Chất lượng của những model GAN áp dụng trên

khuôn mặt ngày càng tốt hơn qua từng năm.

- Thay đổi độ tuổi của khuôn mặt: Dựa trên khuôn mặt của bạn hiện tại, GAN sẽ

sinh ra các biên thê theo từng độ tuôi của bạn.

- _ Sinh ảnh các vật thé: Những gi GAN đã thực hiện trên con người thì đều có théứng dụng được trên tất cả những loài động vật hay đồ vật khác

23

Trang 34

- Tạo nhân vật hoạt hình: GAN có thé làm việc hiệu qua bang vai trăm nghệ sĩ vẽ

tranh.

- Dich hình anh sang hình anh: Cùng một bức anh chụp quang cảnh, GAN có thé

tạo ra các bối cảnh khác nhau của nó như trời tối/trời sáng, ban ngày/ban đêm, thayđôi theo các mùa, Trước đây dé thực hiện được điều này là một việc rất khó vì

phải thực hiện chuyên đổi mau sắc (color transfering) bang các thuật toán cô điểntrong thị giác máy tính (computer vision) Hạn chế của chúng đó là chỉ dựa trên cáctinh chỉnh về màu sắc mà không tận dụng được các đặc trưng khái quát mà GAN học

được từ dữ liệu lớn Do đó ảnh sinh ra thường không tự nhiên và phải tùy chỉnh

(customize) lại rat nhiêu.

- Chuyên từ đoạn văn bản sang hình anh: GAN có thé tạo ra các bức anh phù hop

với nội dung mà một câu văn mô tả.

- Chuyên từ anh Semantic sang ảnh thật: Thuật toán Semantic Segmentation sẽchuyên từ ảnh thật sang các ảnh phân khúc Thuật toán GAN có thé chuyền đổi ngược

lại từ ảnh phân khúc sang ảnh thật.

- Khôi phục hình anh: Don cử nhất là GAN có thể tạo ảnh khuôn mặt nhìn từ

chính diện từ các ảnh nhìn từ hai bên.

- Tạo anh siêu phân giải: Đối với những bức anh bị mờ, GAN có thé khôi phục

chất lượng ảnh bằng cách tạo ra một ảnh có độ phân giải cao hơn từ ảnh góc

- Tạo tư thế người: Day là ứng dụng thường được sử dung trong lĩnh vực thờitrang Việc thuê người mẫu chụp ảnh với những bộ trang phục tốn khá nhiều thời gian

và chi phí Sử dung GAN để tạo ra những bức ảnh với những tư thế và bộ trang phụckhác nhau với chi phí tiết kiệm Van đề khó đào tạo khi huấn luyện

- Tạo các mau tan công đối kháng trong bảo mật và an toàn thông tin: Có thé kếđến một số nghiên cứu đã được trình bày tại mục 2.1

24

Trang 35

3.3.3.1 Khái niệm liên tục Lipchitz

Một khái niệm khá quan trọng ám chỉ các hàm số liên tục, khả vi và có độ lớn(về giá trị tuyệt đối) đạo hàm bị giới hạn đó là liên tục lipschitz Giả sử ƒ: IR > R

ƒŒ¿) — f(%2)

X= Xp | <K,Vx¡,x;€lR Công thức 3.1

Với K là một giá trị hằng số thì hàm f được gọi là liên tục K-lipchitz Ví dụ về

một hàm liên tục lipchitz phô biến đó chính là ham sin (x) vì giá trị độ lớn đạo hàm

của nó bị chặn trên bởi 1 Hàm x? không phải là hàm liên tục lipchitz vì đạo hàm của

nó là 2x không bị chặn trên Tương tự như vậy logi/o(x) cũng không liên tục

lipchitz vì đạo hàm của nó là Ð không bị chặn tại x = 0.

Do tính chất đạo hàm bị chặn nên khi sử dụng loss function là hàm liên tục lipchitz có thể khắc phục được hiện tượng đạo hàm bùng nỗ (explosion) dẫn tới thiếu

K-ồn định trong huấn luyện Cụ thể hơn chúng ta cùng tìm hiểu qua Wasserstein GAN

3.3.3.2 Wassertein GAN

Mô hình Wasserstein GAN [26] sẽ áp dung khoảng cách Wasserstein dé tim raphân phối gần nhất giữa 2 phân phối thật và giả Việc giải trực tiếp bài toán khoảngcách Wasserstein là khá khó Do đó áp dụng đối ngẫu Kantorovic-rubinstein chúng

ta chuyên về bài toán đôi ngau:

W (p,, = E,~ — E,WŒr Po) ie x vf (x)] x~pe Lf (x)] Công thức 3.2

25

Tiêu đề	Tăng cường Khả năng Phát hiện Tấn công bằng Mạng Sinh đối kháng trong Mạng Khả lập trình
Tác giả	Cao Phan Xuan Qui, Dang Hong Quang
Người hướng dẫn	TS. Pham Van Hau, THS. Phan The Duy
Trường học	Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Kỹ sư ngành An toàn thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	71
Dung lượng	38,57 MB