1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Phương pháp kết hợp mạng sinh đối kháng và học liên kết trong nhận diện tấn công trong mạng khả lập trình

50 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương pháp kết hợp mạng sinh đối kháng và học liên kết trong nhận diện tấn công trong mạng khả lập trình
Tác giả Nguyen Phan Nha Quynh
Người hướng dẫn THS. Do Thi Thu Hien
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành An Toàn Thông Tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 50
Dung lượng 24,22 MB

Nội dung

TOM TAT KHÓA LUẬNTheo sự phát triển của lĩnh vực khoa học máy tính, nhiều giải pháp áp dụng các mô hình học máy ML, học sâu DL dé phát hiện lưu lượng tan công bang cách sửdụng một lượng

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA MANG MAY TINH VA TRUYEN THONG

NGUYEN PHAN NHA QUYNH

KHOA LUAN TOT NGHIEP

A FUSION OF GANS AND FEDERATED LEARNING FOR

IDENTIFYING CYBERATTACKS IN SDN

KY SU NGANH AN TOAN THONG TIN

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA MẠNG MÁY TÍNH VÀ TRUYÈN THÔNG

NGUYÊN PHAN NHÃ QUYNH - 18520142

KHÓA LUẬN TÓT NGHIỆP

PHƯƠNG PHÁP KET HỢP MẠNG SINH DOI KHANG

VÀ HỌC LIEN KET TRONG NHAN DIỆN TAN CÔNG

TRONG MẠNG KHẢ LẬP TRÌNH

A FUSION OF GANS AND FEDERATED LEARNING FOR

IDENTIFYING CYBERATTACKS IN SDN

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

THS DO THI THU HIEN

TP HO CHÍ MINH, 2022

Trang 3

THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

Trang 4

kiến thức chuyên môn bồ ích, những kinh nghiệm thực tế quý báu mà tôi đã học hỏi

được trong suốt quá trình học tập, rèn luyện tại trường

Tôi xin gửi lời tri ân và biết ơn đến cô Đỗ Thị Thu Hiên, thay Phan Thế Duy vàanh Nghi Hoàng Khoa đã trực tiếp quan tâm, hướng dẫn tận tình trong suốt quá trìnhthực hiện đề tài Bên cạnh đó, với tình cảm sâu sắc và chân thành, tôi cũng xin cảm oncác thầy cô, anh chị đang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab

vì đã luôn tạo điều kiện về cơ sở vật chất với hệ thống máy chủ hiện đại, luôn sẵn sàngnhiệt tình hỗ trợ tôi về chuyên môn lẫn kinh nghiệm trong các hoạt động nghiên cứu và

thực hiện khoá luận.

Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắn khôngtránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình

từ quý thay cô trong hội đồng dé khóa luận được hoàn thiện hơn

Trân trọng.

Trang 5

MỤC LỤC

CHUONG 1 TONG QUAN DE TÀI I 2< s°s£ se se seessessersersee 11

LLY do chon 6 a '®':'^ 11

1.2 Mục tiêu nghién CỨU - G1 1901901901 HH 12 1.3 Pham 0¿0i an na 12

1.4 Đối tượng nghiên cứu -2¿+¿©2++2+++EE+2EEtEEEEEEESEEEEkErkrerkrsrkrrrrrs 12

1.5 Phương pháp thực hiỆn -. Ác 2.11213321131115 1 111111111 rree 12

1.6 Cấu trúc khoá luận - + + ++¿++++Ek£EEEEE2EEE21E71711211221 7121.211 crxeeg 13

CHUONG 2 TONG QUAN TINH HÌNH NGHIÊN CUU 14

2.1 Các nghiên cứu 16m QUaI -.- <5 0118311185311 91 1 1 19911 9 ng re 14

2.2 Ý nghĩa khoa học và thực tiễn của đề tài -©-¿c5+2cxccreerxeerxesrxee 15

2.2.1 Ý nghĩa khoa hoc ocscecscsssesssesssesssssseessessssesssssessusssssssecssecssecsecssecsueeseeeses 15

3.3 Mạng sinh đối kháng GAN ©22+2++EE+EE2EEEEEEEEE2E2112E171 21.2111 24

3.3.1 _ Vấn dé mat cân bang dit liệu 2-2 ©52+£2+EE+EEerEzEesrxerxerxee 24

3.3.2 _ Kiến trúc mạng GAN -¿+-+2cktEEeEkSrkrrrkerkrerkrsrree 25

Trang 6

3.3.3 Một số ứng dụng -¿22¿©2+2E+2EE2EEEEEEEEEEEErrrrrerkrrree 263.4 Hoc 0.086 aa+4 28

3.4.1 Tổng quan ++52+E+EEkEEEEEEEEEEE12112112111 1111111 xe 28

4.1.3 Tiền xử lý dữ liệu - ¿+S2+kEkEEkEEEEEE12112121 1111111 tee 33

4.2 Xây dựng mô hình FL-GAN trong SDN - che 34

4.2.1 Tổng quan 4© ⁄Z⁄.ư# ^ À 34

4.2.2 Xây dựng kiến trúc FL-GAN ¿ +¿©-++x++rx+rxerreerkeerxerrxee 34

CHUONG 5 THUC NGHIEM VÀ ĐÁNH GIÁ °-2-sssssses 42

5.1 Phuong pháp đánh gIá - 6 c1 1k HT TH HH TH HH nh ty 42

5.2 Triển khai môi trường SDN :- 2-22 +¿2E++2EE+EE++EE++Exerrxerkeerkerrxee 42

5.3 Đánh giá mô hình FL-based - - ¿+ + +3 E* + EE+vEEESeeEeeeerseereesereevee 43 5.4 Đánh giá mô hình FL-GAN - ¿52-52 SE2E£2E££EE£EEtEEEEEEEEeEErrkrrrrrrkerkee 45

5.5 Đánh giá mô hình FL-GAN với lưu lượng tan công thu được trong thực té 45

CHUONG 6 KET LUẬN VA HƯỚNG PHAT TRIEN - 47

6.1 Ket uaneccceccecceccccccsccccssesscssesscssesessessessssscsscsssssssssessesseseesucsuesssessessssstsasseesneaees 416.2 Hướng phat triỂn -:- +5 E+EE+EE2EEEEEEEEEEEEEE12112112111121 11111111, 47

TÀI LIEU THAM KHAO cssssssssesssesssssosssscsssessnssssssesanssanessesssecaneesseenecaseeanesseesses 49

Trang 7

Kiến trúc SDN cùng OpenFlow [§] ¿ ¿ s¿©++2s++zx2zxvzxeerxesred 22Kiến trúc mạng GAN [10] ¿- ¿+ ©2+2+++EE+2EEtEEEtEEeerkrsrkerkrerkesrki 25

Công thức tính ham loss của Bộ phân bIỆt .- 5 2555555 <<++<+++s+ 26 Công thức tính ham loss của Bộ sinh - 5 55+ *++s++sexseeexeseeees 26 Công thức tính ham loss của GANN - -. Ă SH HH ng rên 26

Mô hình đào tạo học liên kết [13] . ¿- 2s 2 +seEE+E£EE+EeEEeErkerxexerxee 29

Mô hình đào tạo FL [1Š ] - - c5 +2 *2< E9 E*EESEESkEEkrkrrirekrrrkrreee 30

Mô hình triển khai EL -:¿£+22+++++tEE+++tttEEkktrrtrkktrrrrrrrtrrrrrrrieg 35

Mô hình đào tạo và kiểm thử của FL-GAN trong từng host 36

Mô hình kiểm thử FL-GAN với IDS ¿- 5: 5¿©5£+2++£xccx+zxevrxerxrred 37

I/[081018800611 101111177 38

\/00101809067.900177 39

Mô hình hoạt động của FL Flower [ 19] .- «+5 «+ <++e+seeseeeseess 40

Mô hình triển khai IDS : -552¿2552t2222vt2EExvttrEttrsrrrtrrrrrtrrrrrrrree 41

Mô hình triển khai SDN ccscsscescsssscssssescsseeecssseessseeecssneecssnecssneessneeeessnees 43

Trang 8

DANH MỤC BANG BIEU

Bang 3.1 Các trường hợp xảy ra khi IDS nhận diện tan công 5-2 2¿ 19Bảng 4.1 Các loại tấn công trong bộ dtr liệu CIC-ToN-IoT [16] - 31Bảng 5.1 Kết quả thực nghiệm trên bộ dữ liệu CIC-ToN-IoT -s- 5z: 44Bảng 5.2 Kết quả thực nghiệm trên bộ dữ liệu CIC-IDS2018 -. - 44

Bảng 5.3 Kết quả thực nghiệm mô hình FL-GAN trên bộ CIC-IDS2018 45

Bang 5.4 Thông tin chi tiết bộ dé liệu thu thập được -s-csssseeereeereree 45Bang 5.5 Kết quả thực nghiệm trên bộ dữ liệu thực tẾ 2 ¿5+ 5 s+cs+£s+c+2 46

Trang 9

10

Thuật ngữ IDS

Intrusion Prevention System Machine Learning

Machine Learning Based IDS Software-Defined Networking Federated Learning

Generative Adversarial Networks

Deceive IDS with GAN and Function-Preserving on

Adversarial Samples

Denial of Service

Trang 10

TOM TAT KHÓA LUẬN

Theo sự phát triển của lĩnh vực khoa học máy tính, nhiều giải pháp áp dụng các

mô hình học máy (ML), học sâu (DL) dé phát hiện lưu lượng tan công bang cách sửdụng một lượng lớn dữ liệu được thu thập sẵn Tuy nhiên các phương pháp này cần tậptrung dữ liệu của người dùng, vốn nhạy cảm và yêu cầu quyền riêng tư nhất định Vìvậy cần phải phát triển một phương pháp mới hơn, đảm bảo quyền riêng tư dữ liệu và

khả năng phát hiện xâm nhập với độ chính xác cao.

Trong phạm vi khóa luận, tôi thiết kế và giới thiệu FL-GAN, một kiến trúc kết hợpgiữa học liên kết (FL) và mạng sinh đổi kháng (GAN) FL được định nghĩa như là một

kĩ thuật học máy (ML) đào tạo mô hình một cách phân tán, trong đó dữ liệu được lưu

trữ cục bộ trên các thiết bị Bên cạnh đó GAN có khả năng sinh thêm dữ liệu bố sungvào bộ dữ liệu có sin GAN hỗ trợ khắc phục vấn đề mắt cân băng dữ liệu vốn làm giảmhiệu suất đào tạo mô hình Tôi thực nghiệm trên bộ dữ liệu công khai CIC-IDS2018

Kết quả cho thấy FL-GAN có khả năng đào tạo mô hình trên một lượng lớn thiết bị dé

cho kết quả là một mô hình phát hiện tan công có độ chính xác cao

Bên cạnh đó, SDN là một kiến trúc mới đang phát triển, hứa hẹn là một giải pháp

cho các vấn đề của mạng truyền thông Điều khác biệt ở SDN là việc tách rời lớp điều

khiển khỏi lớp dữ liệu Tat cả các chức năng điều khién mạng được tích hợp vào mộtthiết bị duy nhất đóng vai trò là bộ điều khiển Điều này đồng nghĩa với khả năng quản

ly tập trung tat cả các hoạt động mang của SDN Bộ điều khiển tập trung hợp lý manglại nhiều lợi ích cho việc cấu hình và quản lý mạng, đặc biệt là trong lĩnh vực phát hiệntấn công Trước tiềm năng ứng dụng trong thực tế, tôi đã triển khai một IDS trên môitrường SDN giả lập và khảo sát hiệu suất của phương pháp FL-GAN trong ngữ cảnh

này.

Cuối cùng, tôi sẽ đưa ra một số hướng phát triển với tính thực tiễn cao cho việc

mở rộng nghiên cứu trong tương lai.

10

Trang 11

CHƯƠNG 1 TONG QUAN ĐÈ TÀI

1.1 Lý do chọn đề tài

Sự phát triển mạnh mẽ của các hệ thống Vạn vật kết nối (IoT) cả về quy mô sửdụng lẫn số lượng thiết bị đã làm gia tăng đáng kê nguy cơ tấn công của tội phạm mạng.Khi xét đến các tính năng và cả những hạn chế của các thiết bị di động, những biện phápbảo mật truyền thông có thể không hiệu quả trong môi trường IoT Đề đối phó với nguy

cơ từ các cuộc tân công này, một trong những biện pháp thông dụng là sử dụng hệ thống

phát hiện xâm nhập (IDS) dé giám sát và phát hiện sớm những cuộc tan công, từ đó

cảnh báo sớm và có cách ứng phó hiệu quả.

Khi xử lý các mạng có quy mô lớn và không đồng nhất như mạng IoT, mạng kha

lập trình (SDN) là một cách tiếp cận tiềm năng với nhiều ưu điểm: dễ dàng triển khai,quản lý linh hoạt và được sử dụng bởi nhiều nhà cung cấp mạng lớn Vì bộ điều khiểnSDN có thê cung cấp hệ thống giám sát toàn quyên, theo thời gian thực và chiếm it băng

thông, IDS có triển vọng được ứng dụng và hoạt động với hiệu suất cao Hiện nay, với

sự phát triển của thiết bị di động có khả năng truy cập mạng, lượng dt liệu lớn về lưu

lượng mạng có thể cung cấp cho các IDS máy học phát triển và hoàn thiện

Tuy nhiên việc tập trung dữ liệu tại một trung tâm dé dao tao mô hình may hoccho IDS lại vi phạm tinh riêng tư khi yêu cầu thông tin cá nhân người dùng Bên cạnh

đó, việc truyền dit liệu cá nhân đến một máy chủ tập trung có thé tốn băng thông mạng

và là cơ hội của cuộc tấn công giả mạo, đầu độc dữ liệu Phương pháp FL có thể xử lývan dé nay khi dao tạo mô hình trên chính thiết bị của người dùng Cụ thê hơn, trên mỗithiết bị có mô hình học máy đảo tạo băng chính dữ liệu của người dùng và chỉ cần cậpnhật trọng số của mô hình này cho một máy chủ trung tâm (thay vì dữ liệu cá nhân).Sau một khoảng thời gian cụ thể, máy chủ trung tâm sẽ tập hợp các mô hình phân tánnày và tối ưu thành một mô hình duy nhất Nhận thấy rang FL là phương pháp tốt détriển khai trong ngữ cảnh mạng SDN, tôi muốn nghiên cứu và đánh giá tính khả thi cũng

như độ hiệu quả của mô hình này.

Bên cạnh đó, mạng sinh đối kháng (GAN) là một mô hình học sâu không giám

sát, có khả năng tạo ra dữ liệu giả tương tự như dữ liệu đã có GAN còn phân biệt một

đầu vào có phải là dữ liệu giả hay không, từ đó nâng cao khả năng sinh ra dit liệu giả

11

Trang 12

gần giống dữ liệu thật Từ khả năng này, GAN được sử dụng dé bồ sung dữ liệu cho

những bộ dữ liệu bị mắt cân bằng, vốn là van dé làm giảm hiệu suất dao tạo mô hìnhmáy học Chất lượng của hệ thống phân biệt lưu lượng tan công có triển vọng tăng độchính xác nếu kết hợp với GAN

Từ những lí do trên, tôi chọn đề tài “Phương pháp kết hợp mạng sinh đối kháng vàhọc liên kết trong nhận diện tan công trong mạng khả lập trình” làm đề tài nghiên cứu

cho khóa luận.

1.2 Mục tiêu nghiên cứu

Nghiên cứu, thiết kế, xây dựng hệ thống ứng dụng FL kết hợp với GAN dé đào tạo môhình học máy có khả năng phát hiện lưu lượng tấn công mạng với độ chính xác caotrong kiến trúc SDN

1.3 Phạm vi nghiên cứu

- Hệ thống IDS ứng dụng những mô hình máy học cơ bản.

- Xử lý mat cân bằng dữ liệu bang GAN

- Triển khai mang FL đào tao mô hình học máy cho IDS

- Hiện thực một cuộc tân công và thu thập dữ liệu tấn công, kiểm tra khả năng

nhận diện của IDS.

1.4 Đối tượng nghiên cứu

- Các mô hình hoc máy áp dung cho bài toán phân loại nhị phân (phan biệt lưu

lượng tấn công và lưu lượng bình thường)

- Kha năng khắc phục van đề mắt cân bang dữ liệu của GAN

- Dao tạo mô hình máy hoc một cách phân tán trên mang FL.

- Triển khai mô hình FL kết hợp với GAN trên mạng SDN

1.5 Phương pháp thực hiện

- Tìm hiểu các kiến thức nền tảng về các đối tượng nghiên cứu trong đề tài

- Tim hiéu các công trình nghiên cứu đã được thực hiện trong và ngoai nước.

12

Trang 13

- Dua ra phương pháp xây dựng và triển khai hệ thống.

- Thực nghiệm và đánh giá kết quả

1.6 Cấu trúc khoá luận

Khóa luận được tổ chức trong 6 chương như sau:

Chương 1: TONG QUAN DE TÀI

Trinh bay khái quát định hướng nghiên cứu của khóa luận mà tôi muốn hướng tới

Chương 2: TÔNG QUAN TÌNH HÌNH NGHIÊN CỨU

Sơ lược một số công trình liên quan có cùng hướng nghiên cứu mà đề tài có tham khảo

Chương 3: CƠ SỞ LÝ THUYET

Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tang dé có thé thực

hiện được nghiên cứu.

Chương 4: PHƯƠNG PHÁP THỰC HIỆN

Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương pháp thực

hiện và mô hình được sử dụng.

Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

Đề cập đến quá trình thực nghiệm cùng với kết quả thu được Dua ra nhận xét cho

những công việc đã thực hiện ở Chương 4.

Chương 6: KET LUẬN VA HƯỚNG PHÁT TRIEN

Đưa ra kêt luận về đê tài, đê xuât một sô hướng phát triên mở rộng cho các nghiên cứu trong tương lai.

13

Trang 14

CHƯƠNG 2 TỎNG QUAN TÌNH HÌNH NGHIÊN CỨU

2.1 Các nghiên cứu liên quan

IoT là công nghệ được quan tâm rộng rãi trong nhiều lĩnh vực khác nhau Mụctiêu của mạng IoT là kết nối môi trường vật lý với Internet, từ đó tạo ra một mạng lướithiết bị dày đặc hơn, thông minh hơn và cung cấp nhiều tiện ích hơn cho mọi nguoi.IoT đã được ứng dụng trong phát triển nha thông minh, thành phó thông minh, ứng dụng

chăm sóc sức khỏe, mạng đám mây, Các ứng dụng này làm nay sinh các van dé bảo

mật thiết bị người dùng, các cuộc tấn công vào mạng cũng như tối ưu hóa tài nguyên

mang [1].

Mô hình FL cũng được phat triển bởi William Schneble và cộng sự được ứng

dụng cho ngành y tế, với tên gọi là MCPS (Medical Cyber-Physical Systems - mạngcác thiết bị y tế) [2] MCPS lưu trữ các dit liệu về sức khỏe bệnh nhân, thông tin cá nhânmang tính nhạy cảm và nếu bị ton hại sẽ gây nên hệ quả rat lớn Vì vậy yêu cầu của hệthống này là khả năng bảo mật cao, linh hoạt, sử dụng ít tài nguyên và cho độ chính xáccao Kết quả đạt được của nhóm tác giả rất ấn tượng khi đạt độ chính xác 99% và còn

giải quyét được van đê mat cân băng dữ liệu.

Bên cạnh đó, trong nghiên cứu của Mohamed Amine Ferrag và cộng sự [3], các

tác giả đã chỉ ra nhu cầu và thách thức trong việc phát hiện xâm nhập ở các thiết bị IoT,

điện thoại đi động và xe không người lái Nghiên cứu này cũng cung cấp cái nhìn tổngquát về những giải pháp deep learning sử dụng cho hệ thống thiết bị phân tán Ngoài ra,nghiên cứu này sử dụng các mô hình phân biệt ANN, CNN và DNN mang đến kết quảrat khả quan trên 2 bộ dữ liệu CID-DoS2019 và TON_IoT Tuy nhiên, giải pháp này lại

đòi hỏi tập trung dữ liệu cho quá trình phân tích cũng như đào tạo mô hình máy học (dữ

liệu được đưa từ lớp cảm biến trong môi trường lên lớp máy tính tập trung)

Dé đáp ứng được quyền riêng tu di liệu cho ngữ cảnh xây dựng mô hình phát

hiện tấn công mạng, Beibei Li và các cộng sự [4] đã đề xuất một mô hình FL, có tên làDeepFed, được sử dụng dé phat hién va giam thiểu các mối de doa mạng cho hệ thống

không gian mạng thực-ảo (Cyber-physical system - CPS) Mô hình này được các tác giả chứng minh là có tính hiệu quả cao va bảo mật dit liệu, vượt trội so với những nghiên

14

Trang 15

cứu hiện tại Ngoài ra, một giao thức an toàn dành riêng cho FL cũng được phát triển

dé đảm bảo các thông số mô hình được truyền đi đảm bảo bí mật và riêng tư

Tương tự, một nghiên cứu khác của Mohammad Rasouli và cộng sự [5] triểnkhai mô hình FL kết hợp với GAN Các tác gia chỉ ra van đề chung khi dao tạo cả môhình GAN lẫn FL là đảm bảo sự hội tụ, các phần khác nhau của mô hình phải cùng nhau

được cải thiện Báo cáo nay còn đưa ra giải pháp cải thiện so với những nghiên cứu

tương tự trước đó khi cho cả bộ sinh và bộ phân biệt cùng nam trên một thiết bị

Liên quan đến việc kết hợp SDN và IDS, công trình DIGFuPAS [6] đã sử dụngGAN để tạo mẫu tấn công cho IDS trong mạng có hỗ trợ SDN Nhóm tác giả chỉ ra

rằng, mặc dù sử dụng những thuật toán khác nhau có hiệu suất cao nhưng IDS vẫn bị

giảm hiệu qua đáng ké khi đối phó với những cuộc tan công này Nghiên cứu này mở

ra hướng tiếp cận mới dé cải thiện IDS bằng cách tạo những cuộc tan công chất lượngcao và đa dạng chủng loại Từ những ưu điểm trong ngữ cảnh thí nghiệm, DIGFuPAS

có thê được hoàn thiện hơn và trở thành một sản phẩm thương mại trong tương lai

Những nghiên cứu trên cùng một số nghiên cứu có liên quan khác là nguồn thamkhảo tốt dé triển khai đề tài nghiên cứu này

2.2 Y nghĩa khoa học và thực tiễn của đề tai

2.2.1 Ý nghĩa khoa học

Như đã đề cập ở phần những nghiên cứu liên quan, các ứng dụng của FL kết hợp

với GAN cho bài toán phát hiện xâm nhập vẫn còn chưa nghiên cứu rộng rãi, tôi đề xuất

một số điểm mới cho nghiên cứu về đề tài này:

- Để khắc phục tình trạng sử dụng những tập dữ liệu cũ, có nhiều lưu lượng lỗi

và trùng lặp, nghiên cứu này sử dụng bộ dữ liệu mới hơn là CIC-ToN-IoT

liên quan đến các cuộc tấn công trên thiết bị loT và CIC-IDS2018

- _ Nhằm có cái nhìn tổng quan hơn về hiệu suất đào tạo mô hình, tôi bổ sung

thêm những metric khác ngoài Accuracy (cụ thé là Recall, Precision và

F1-Score).

- _ Tôi thử nghiệm những thuật toán máy hoc khác nhau cho IDS dé so sánh va

rút ra giải pháp tốt nhất

15

Trang 16

- Việc bé sung GAN trong kiến trúc có lí do liên quan đến phân bó dữ liệu mat

cân bằng Trong thực tế, dữ liệu từ những thiết bị khác nhau có thé có tỉ lệgiữa các nhãn khác nhau, trong khi mô hình đòi hỏi sự ôn định Mat cân bằngnghiêm trọng có thê làm hiệu suất đào tạo mô hình cao nhưng không đáng

tin.

- _ Kiến trúc FL-GAN được triển khai trên SDN, là một kiến trúc mạng có ý

nghĩa lớn trong việc triển khai 5G, và hơn hết là phù hợp với tính năng đào

tạo mô hình phân tán của FL.

2.2.2 Ý nghĩa thực tiễn

Trong ngữ cảnh mạng IoT nói riêng và 5G nói chung đang được chuẩn hóa vàtriển khai thực tế, ý tưởng về một kiến trúc đào tạo mô hình máy học trên mạng SDN là

khả thi Các nghiên cứu cũng như ứng dụng sẵn có đã rất nhiều, nhưng trong lĩnh vực

An toàn thông tin, mà cụ thể là phát hiện xâm nhập vẫn còn hạn chế Bằng cách kết hợpnhững giải pháp khác nhau dé giải quyết bài toán phân biệt lưu lượng tan công trongmạng, nghiên cứu của tôi có thê là một giải pháp phát hiện xâm nhập kèm theo nhiều

tính năng hứa hẹn.

Nghiên cứu này khi được triên khai thành giải pháp có thê cung cấp lợi ích đào tạo

mô hình học máy tận dụng được lượng dữ liệu lớn trên các thiết bị mà đồng thời vẫn

đảm bảo riêng tu dit liệu cho người dùng Bên cạnh đó, một số lợi ích khác có thể kêđến là tối ưu băng thông mạng, đào tạo mô hình máy học hiệu quả hơn, tối ưu bộ nhớ

lưu trữ Từ những lợi ích trên, các hệ thống lớn có thé dat lợi ích tốt hơn về kinh tế,

hiệu quả hoạt động vả cả chính sách liên quan dữ liệu người dùng.

16

Trang 17

CHƯƠNG3 ˆ CƠ SỞ LÝ THUYET

3.1 Hệ thống phát hiện xâm nhập IDS

3.1.1 Tổng quan

Phát hiện xâm nhập là một biện pháp giúp bảo vệ máy tính và hệ thống mạngkhỏi nguy cơ bị khai thác Hệ thống phát hiện xâm nhập (IDS) tập hợp các thiết bị cókhả năng phân tích lưu lượng, nhận biết các dấu hiệu bất thường và đưa ra cảnh báo choquản trị viên IDS có thé được phân loại như sau:

- _ Dựa trên nơi dat IDS:

o Đặt tại một máy chủ (Host-based IDS): Thường là một phần mềm nam

trên máy chủ và giám sát một máy chủ duy nhất IDS này có khả năng

hoạt động ở tầng 7 của kiến trúc TCP/IP, soi sâu vào gói tin đã được giải

mã, vì vậy có khả năng giám sát những mối nguy hại tiềm 4n trong lưu

lượng Tuy nhiên triển khai host-based IDS có thê yêu cầu quyền truy cậpvào dữ liệu nhạy cảm của các máy chủ và cấu hình phân tán, làm tăng chỉphí đầu tư

internet

| I =) Ra

Hình 3.1 Host-based IDS.

17

Trang 18

o Đặt tại vùng biên của mang (Network-based IDS): Thường là một thiết bị

chuyên dụng, riêng biệt với đường truyền mạng và nhận phần dữ liệu saochép từ đường truyền mạng dé phân tích IDS dang này có khả năng giámsát diện rộng và kiêm soát một vùng mạng lớn Tuy nhiên, NIDS thiếu

khả năng soi sâu vào nội dung gói tin vì không hoạt động ở layer 7.

CS

Internet

BE la 1 =

Hinh 3.2 Network IDS.

Dựa trên ki thuật phát hiện xâm nhập:

o Phát hiện xâm nhập bang dau hiệu (Signature-based IDS): Day là phương

pháp so sánh các hành vi của lưu lượng với khuôn mẫu của các cuộc tấncông đã biết trước Từ đó IDS đưa ra đánh giá xem hành vi có phải là xâm

nhập hay không Đây là phương pháp có hiệu quả cao với những cuộc tấncông đã biết trước, tuy nhiên lại yêu thé trước những cuộc tan công chưa

được biết đến (các cuộc tấn công zero-day)

Phát hiện xâm nhập bằng các sự bất thường (Anomaly-based IDS): Đây

là phương pháp ứng dụng các kĩ thuật học máy dé nhận biết đâu là hành

vi bất thường so với các hành vi được gán nhãn bình thường Từ đó IDS

18

Trang 19

đưa ra đánh giá xem hành vi có phải là tắn công hay không Phương pháp

này có khả năng phát hiện các cuộc tấn công chưa biết trước Tuy nhiênloại IDS này có nhược điểm là có tỉ lệ cảnh báo sai, nghĩa là gán nhãn một

lưu lượng bình thường thành tan công

3.1.2 Cách đánh giá IDS

Một mô hình IDS khi sử dụng các thuật toán ML đã nhận diện tan công cần được

đánh giá khả năng phát hiện và so sánh giữ các thuật toán khác nhau Khả năng phát

hiện tan công của mô hình thường được đánh giá bằng tập dữ liệu kiểm thử Tập dữ liệukiểm thử chiếm khoảng 20 — 30% tổng số bản ghi của bộ dit liệu Tập dữ liệu kiêm thử

cần phải được chọn một cách ngẫu nhiên trong bộ dữ liệu và không được trùng với tập

dir liệu đào tạo mô hình.

Sau khi mô hình được đào tạo, tập dữ liệu kiêm thử sẽ được dùng làm đầu vào của

mô hình Đầu ra của mô hình khi này là giá trị nhãn dự đoán Bằng cách so sánh độ

chính xác giữa giá trị nhãn dự đoán của mô hình với giá trị nhãn sẵn có của bộ dữ liệu

kiểm thử, độ chính xác của mô hình có thể đo đạc được Như vậy, giữa kết quả mà mô

hình dự đoán với kết quả của bộ dữ liệu kiểm thử, có 4 trường hợp có thé xảy ra như

Bảng 3.1.

Bảng 3.1 Các trường hợp xảy ra khi IDS nhận diện tấn công.

Xay ra tan công (T) Không xảy ra tan công (F)

Dự đoán đúng (P) TP FP

Dự đoán sai (N) TN FN

Cu thé:

- True Positive (TP): Số trường hop là tan công và xác định đúng

- False Positive (FP): Số trường hợp là tan công và xác định sai (thường gọi là

báo động giả hay dương tính giả).

- True Negative (TN): Số trường hợp không phải là tấn công và xác định đúng

- False Negative (FN): Số trường hợp không phải là tan công và xác định sai

19

Trang 20

Dựa vào 4 chỉ số trên, một IDS sẽ được đánh giá là có hoạt động hiệu quả hay

không bằng một số metric (độ đo) Một số metric phố biến nhất là: Accuracy, ROC

curve, Recall, Precision, Fl-Score Với bài toán phân loại mà tập dữ liệu của các lớp bi

mắt cân bang, metric hiệu quả thường được sử dụng là Precision-Recall

3.1.2.1 Accuracy (độ chính xác)

Accuracy = (TP+TN)/(TP+FP+TN+FP) Trong đó:

- TP+TN: Tổng số trường hợp IDS xác định đúng

- TP+FP+TN+FP: Tổng số trường hợp xảy ra

- Accuracy cho biết tỉ lệ mà IDS xác định đúng nhãn của lưu lượng

3.1.2.2 Recall

Recall = TP/(TP+FN) Trong do:

- TP: Số trường hop là tan công va IDS xác định đúng

- TP+FN: Tong số trường hợp xảy ra tấn công

3.1.2.3 Precision

Precision = TP / (TP+FP)

- TP: Số trường hợp là tan công và IDS xác định đúng

- TP+FP: Tổng số trường hợp “tích cực” (trường hợp cuộc tấn công bị phát

hiện/không thực sự xảy ra tấn công)

3.1.2.4 F1-Score

F1-Score = 2*(Recall * Precision) / (Recall + Precision)

FI-Score là đánh giá tổng thé cho ca Recall va Precision

20

Trang 21

3.2 Kiến trúc mạng khả lập trình SDN

3.2.1 Tống quan

Hiện nay có nhiều định nghĩa về SDN, trong đó có định nghĩa của tổ chức Open

Networking Foundation (ONF), một tổ chức chuyên định nghĩa, phát triển và thương

mại hóa SDN Định nghĩa như sau: “Trong kiến trúc SDN, phần điều khiển mạng

(Control Plane) và chức năng vận chuyền dữ liệu (Forwarding Plane hay Data Plane)

được tách biệt, điều này cho phép việc điều khiển mạng có thé lập trình va cơ sở hạ tầng

mạng độc lập với các ứng dụng cũng như dịch vụ mạng” [7].

3.2.2 Kiến trúc SDN

ONF trình bày kiến trúc cấp cao của SDN gồm 3 lớp theo chiều doc, lần lượt làlớp cơ sở hạ tầng, lớp điều khiển và lớp ứng dụng (Hình 3.3)

Lớp cơ sở hạ tầng (infrastructure layer/data plane): Sẽ bao gồm các switch vật lý

(như Juniper Junos MX-series) và switch ảo (như Open vSwich) Cac switch nay có

thé truy cập thông qua interface, chịu trách nhiệm nhận và chuyền tiếp gói tin

- Lớp điều khiển (control layer/control plane): bao gồm các bộ điều khiển

(controller) được lập trình để cung cấp chức năng điều khiển mạng tổng hợp

qua các API, từ đó giám sát hành vi mang thông qua các interface mở Có 3

interface để SDN giao tiép: cầu nam (southbound), cầu bac (northbound) va

cầu đông/tây (east/westbound)

- _ Lớp ứng dụng: Thường bao gồm các ứng dụng dành cho người dùng cuối

SDN thường được liên kết với giao thức OpenFlow Giao thức OpenFlow là một

phần của kiến trúc SDN, cho phép switch điều khiển ở mức flow OpenFlow được sử

dung dé chuẩn hóa giao tiếp giữa switch và các bộ điều khiển có khả năng lập trìnhtrong kiến trúc SDN [7]

21

Trang 22

APPLICATION LAYER

CONTROL LAYER

INFRASTRUCTURE LAYER

Hình 3.3 Kiến trúc SDN cùng OpenFlow [8]

3.2.3 Ứng dụng

3.2.3.1 Điều phối đám mây

Trong mạng truyền thống, các máy chủ và đường truyền giữa các máy chủ được

quản lý riêng biệt Khi mà dịch vụ đám may phát triển với tốc độ nhanh chóng, kiếntrúc mạng truyền thống gây trở ngại cho các hoạt động trên đám mây Những cải tiến

chính liên quan đến điện toán đám mây thuộc về các công nghệ cho máy chủ, trung tâm

dữ liệu cũng như các thiết bị di động Đề thay đôi tình hình này, SDN được đề xuất nhưmột giải pháp dé triển khai ứng dụng đám mây một cách nhanh chóng và tự động

Vì bộ điều khiển SDN cũng như khung điều phối đám mây được cung cấp ở dạngphần mềm, một giao diện chung có thể thé giám sát cả hai khía cạnh này Giao diện này

có thé được sử dụng dé thông báo về việc di chuyên máy ảo, một liên kết nào đó bị quá

tải và cả về những mối đe đọa bảo mật Hiện nay phần mềm điều phối đám mây Open

Nebula được sử dụng để điều phối các máy chủ ảo, cho phép phát đi một thông báo

ngắn đến mạng SDN trước khi di chuyển máy chủ Việc này cho phép phiên của ngườidùng được duy trì trong quá trình di chuyền, tăng tính thân thiện với người dùng

22

Trang 23

3.2.3.2 Cân bằng tai

Bộ cân bang tải thường được sử dụng như một giải pháp tăng độ hiệu quả và tính

khả dụng của dữ liệu được người dùng yêu cầu Cụ thé hơn, bộ cân bang tai duoc trién

khai trên kiến trúc mạng có nhiều máy chủ, phân phối tai giữa các máy chỉ này theo một

thuật toán nhất định Thuật toán này có thé cố gắng giảm thiêu chi phí truyền dữ liệu

hoặc trung bình tải trọng mà nó phải xử lý.

Hiện tại, vấn đề cân băng tải trên SDN có thể xử lý bằng công cụ Open Flow.Tại bộ điều khiển OpenFlow, các quy tắc tổng hợp về luồng được đặt ra và thực thibang cách sử dụng những ký tự đại diện cho những phan tử trong mạng Bằng cách này,

một thiết bị cân bằng tải chuyên dụng trong mạng trở nên không cần thiết Một số nghiên

cứu hiện tại đang cải tiễn tính năng này, cho phép lập trình viên có khả năng trực tiếpđiều khiển những cơ chế liên quan đến cân bằng tải

3.2.3.3 Định tuyến

API giữa mặt phăng dữ liệu và bộ điều khiển tập trung của SDN có khả năng

cung cấp những chức năng hỗ trợ giao thức định tuyến, thông qua các module lập trình

Trên bộ điều khiển Openflow có những tùy chọn có sẵn như: Tối ưu hóa lưu lượng,định tuyến an toàn, kết nối giữa các phiên bản giao thức (Ipv4 và Ipv6)

3.2.3.4 Giám sát mạng

SDN có sẵn khả năng giám sát mạng so bộ, không cần tích hợp thêm thiết bị hay

bỏ thêm chi phí Khái niệm này được đưa ra bởi ONF và trong thực tế, SDN vốn thuthập dữ liệu từ mạng về bộ điều khiển Dữ liệu thu thập được có thể được xử lý dé thu

được những thông tin giám sát mạng.

3.2.3.5 Quan tri mang

Các chính sách quan ly mạng thường được quyết định từ trước, sau đó được quảntrị viên cấu hình cho các phần tử trong mạng Với quy mô mạng càng lớn thì độ phứctạp của cau hình càng cao Vậy nên một chính sách thường ít khi được thay đổi, dẫn đếnmạng kém linh động và hiệu quả Trong ngữ cảnh các mẫu lưu lượng liên tục thay đồi,mạng cần phải có khả năng điều chỉnh chính sách nhanh chóng và tự động dựa trên một

loạt tham số Điều này đòi hỏi một quy tắc chung cho chính sách mạng sau đó mới được

23

Trang 24

chuyên thành từng điều luật cụ thể cho từng thiết bị trong mạng Mặc phẳng điều khiển

tập trung của SDN có thé cung cấp khả năng như trên vì nó có sẵn tat cả thông tin về

mạng.

3.2.3.6 Nhận diện dịch vụ trong hệ thống

Trong các thế hệ mạng tiếp theo, một trong những mục tiêu hướng đến là sử

dụng tài nguyên mạng hiệu quả và tối ưu hóa lưu lượng dẫn đến tăng chất lượng trải

nghiệm của người dùng cuối Tuy nhiên, nếu quản trị viên không biết về những ứng

dụng đang chạy trên mạng và những trạng thái của chúng sẽ gây khó khăn trong việc

cải thiện chất lượng Cách tiếp cận trước đây thường là soi sâu vào gói tin dé dé xác

định các ứng dụng.

Với API từ cầu nam của bộ điều khiến, ứng dụng có thé thông báo về các thuộc

tính và trạng thái Bằng thông tin này, bộ điều khién mạng có thé điều khiển các luồnglưu lượng dựa trên các tình huống khác nhau trong mạng Trong trường hợp mạng không

có khả năng duy trì một dịch vụ ở một yêu cầu cấu hình nhất định cho thiếu tài nguyên,

bộ điều khiển có thé thông báo cho ứng dung dé sửa đổi hành vi của ứng dung

3.3 Mạng sinh đối kháng GAN

3.3.1 Vấn đề mắt cân bằng dữ liệu

IDS dựa trên máy học có thê phát hiện các bất thường trong hệ thống với độchính xác cao nhưng thiếu hụt dữ liệu sẽ hạn chế việc huấn luyện mô hình Hơn nữa

trong thực tế, hầu hết các bộ dit liệu có sẵn không cân băng và các loại dữ liệu tan công

khác nhau lại không có sẵn trên quy mô lớn so với dữ liệu thông thường [9].

Khi dit liệu cân bằng, tỉ lệ giữa các class trong dataset là như nhau (vi dụ 50:50).Nếu tỉ lệ trên không bang nhau, dữ liệu bị coi là mat cân bằng Trong trường hop matcân bang nhẹ (ví du 60:40), mô hình không bi anh hưởng đáng kể

Trong thực tế, các bộ dữ liệu đều rất khó đạt được trạng thái cân bằng mà luôn

có sự khác biệt nhau giữa các class Tuy nhiên nếu hiện tượng mất cân bằng nghiêm

trọng xảy ra (ví dụ 90:10), mô hình được xây dựng trên dataset này sẽ có những lỗi sai

nghiêm trọng Những lỗi sai này là tiềm ân, tức là không gây ra lỗi ngay lập tức khi mô

24

Trang 25

hình được xây dựng và sử dụng Nhưng kết quả đem lại có thể gây ngộ nhận về độ chính

xác của mô hình.

- _ Cách giải quyết: Sử dụng những kĩ thuật lấy lại mẫu dé cân bằng tập dit liệu

o_ Over sampling: tổng hợp tạo ra mẫu mới từ những mẫu hiện có của lớp

thiêu số Cách làm này có thé tạo nên nhiều dé liệu bị trùng lặp, khiến model

bị overfitting Một số model có thé sinh thêm dit liệu mới thay vì lấy lai đữ

liệu cũ, trong đó có GAN.

o Under sampling: loại bỏ bớt mẫu trong những lớp đa số Cách làm này có

thé làm mất đi đặc trưng quan trọng của class nếu không cân thận

Dữ liệu mât cân băng nghiêm trọng sẽ gây nên các hậu quả như:

- _ Độ chính xác của mô hình cao, nhưng không phan ánh đúng thực tế

- Di liệu của một class hiếm được lay mau lại nhiều lần, mô hình sẽ có hiện

tượng overfitting (quá khớp) đối với class đó

- M6 hình có xu hướng gán nhãn cho những mẫu chưa xác định thuộc những

class đa sô thay vì class thiêu sô.

3.3.2 Kiến trúc mạng GAN

GAN được giới thiệu bởi Goodfellow và cộng sự vào năm 2014 [10] Đây là một

trong những công cụ mạnh mẽ và đầy hứa hẹn trong học sâu Mô hình GAN bao gồm

2 mô hình con đối kháng nhau, gọi là bộ sinh (generator — G) và bộ phân biệt

(discriminator — D) Một cách khái quát, bộ sinh có nhiệm vu tạo ra dữ liệu giả sao cho

giống với dữ liệu thật, còn bộ phân biệt có nhiệm vụ phân biệt dữ liệu nhận được là thật

Ngày đăng: 08/11/2024, 17:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN