1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu

187 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu
Tác giả Mạc Đình Hiếu
Người hướng dẫn PGS.TS. Nguyễn Linh Giang, TS. Trần Hải Anh
Trường học Đại học Bách khoa Hà Nội
Chuyên ngành Mạng máy tính và truyền thông dữ liệu
Thể loại Luận án Tiến sĩ
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 187
Dung lượng 4,26 MB

Nội dung

Việc nghiên cứu và ứng dụng các kỹ thuật mớiđể phát hiện sớm và loại bỏ tận gốc các đối tượng thực hiện tấn công DDoS, cụ thểlà các mạng Botnet, trở thành nhu cầu cấp thiết và hướng nghiPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu

Trang 1

Hà Nội - 2024

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS Nguyễn Linh GiangTS Trần Hải Anh

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan tất cả các nội dung trong luận án “Phát hiện và phòng chống tấncông DGA Botnet sử dụng kỹ thuật học sâu” là công trình nghiên cứu của riêng tôidưới sự hướng dẫn của tập thể hướng dẫn Các số liệu, kết quả trong luận án làtrung thực và chưa từng được tác giả khác công bố trong bất kỳ công trình nào Việctham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu thamkhảo quy định

Hà Nội, ngày tháng năm 2024

TS Trần Hải Anh

Trang 3

LỜI CẢM ƠNTrước hết, tôi xin trân trọng cảm ơn Đại học Bách khoa Hà Nội, Trường Côngnghệ thông tin và Truyền thông, Ban Đào tạo, các thầy cô cùng các bạn học viên,sinh viên của Trung tâm An toàn an ninh thông tin đã tạo điều kiện thuận lợi và

đóng góp nhiều ý kiến quý báu giúp tôi hoàn thành bản luận án này.Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc đến Thầy hướng dẫn khoa học

PGS TS Nguyễn Linh Giang, TS Trần Hải Anh đã nhiệt tình hướng dẫn, giúp

đỡ và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện Luận án

Đặc biệt, tôi xin gửi lời cảm ơn đến PGS TS Trần Quang Đức, một người thầy,

người anh lớn đã dẫn dắt, chỉ bảo và giúp tôi đặt các nền móng vững chắc trên conđường nghiên cứu khoa học của mình

Đối với cá nhân tôi, quá trình làm nghiên cứu sinh là một chặng đường dài với rấtnhiều khó khăn và thử thách Tôi sẽ không thể hoàn thành nếu thiếu sự ủng hộ vôđiều kiện của bố mẹ, vợ và các con của tôi cũng như những người thân trong giađình đã luôn đứng phía sau tạo hậu phương vững chắc và động viên tôi trong nhữngthời điểm khó khăn nhất Từ tận đáy lòng tôi xin gửi lời cảm ơn đến gia đình thânyêu của mình

Tôi xin chân thành cảm ơn!

Nghiên cứu sinh

Trang 4

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vi

DANH MỤC CÁC BẢNG BIỂU viii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ x

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Đối tượng nghiên cứu và phương pháp nghiên cứu 3

3 Nội dung nghiên cứu 4

4 Ý nghĩa khoa học và ý nghĩa thực tiễn của luận án 5

5 Điểm mới của luận án 6

6 Cấu trúc của luận án 7

CHƯƠNG 1 TỔNG QUAN LĨNH VỰC NGHIÊN CỨU VÀ ĐỊNH HƯỚNGNGHIÊN CỨU CỦA LUẬN ÁN 8

1.1 Tổng quan DGA Botnet 8

1.1.1Khái niệm cơ sở của DGA Botnet 8

1.1.2Đặc trưng về ngữ nghĩa của tên miền tạo ra bởi DGA Botnet 12

1.1.3Đặc trưng về tần suất truy vấn và loại truy vấn DNS của DGA Botnet 18

1.2 Tổng quan nghiên cứu liên quan 20

1.2.1Phương pháp phát hiện DGA Botnet dựa trên truy vấn DNS 21

1.2.2Phương pháp phát hiện DGA Botnet dựa trên việc phân loại tên miền sử dụnghọc máy và học sâu 23

1.3 Định hướng nghiên cứu của luận án 27

Trang 5

2.4.2Các thang đo đánh giá 39

2.4.3Đánh giá hiệu năng của 2 phương pháp đề xuất với các phương pháp phân loạikhác………… 39

2.4.4Mức độ ảnh hưởng của Top Level Domain đến độ chính xác của bộ phân loạitên miền…… 51

2.4.5Thử nghiệm đánh giá kích thước mẫu huấn luyện đối với bộ phân loại tênmiền………… 52

Trang 6

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 105

TÀI LIỆU THAM KHẢO 106

PHỤ LỤC 115

Trang 7

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Domain

Tên miền sinh bởi thuậttoán

nhập

nhập

xác

Trang 8

vii

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1 Thống kê trung bình số NXDOMAIN /giờ của các mã độc DGA 19

Bảng 2.1 Số lượng mẫu của các lớp trong bộ dữ liệu, bao gồm tên miền từ 37 loạiDGA Botnet cùng với tên miền thông thường từ tập tên miền được truy cập nhiềunhất theo thống kê của Alexa Cột "Ý Nghĩa" chỉ ra liệu mã độc có sử dụng bộ từ

điểntrong quá trình tạo tên miền hay không, với "  " đại diện cho "có" và "  " đạidiệncho "không" 38

Bảng 2.2 Precision, Recall và F1-score của LSTM so với các phương pháp họcmáykhác như HMM, C5.0, ELM và SVM 46

Bảng 2.3 Precision, Recall và F1-score của các phương pháp dựa trên các biến thểcủa mạng LSTM 48

Bảng 2.4 Precision, Recall, F1-score và số loại DGA không nhận biết được của 2trường hợp: (1) dữ liệu đầu vào chỉ gồm tên miền mức hai (SLD) và (2) dữ liệu đầuvào bao gồm cả tên miền mức cao nhất và mức hai (TLD+SLD) 51

Bảng 3.1 So sánh hiệu năng của các phương pháp học nhạy chi phí khác nhau trongphân loại hai lớp 67

Bảng 3.2 So sánh hiệu năng của các phương pháp nhạy chi phí khác nhau trongtrường hợp đa lớp 68

Bảng 3.3 Hiệu năng của các phương pháp CS-NN, CS-SVM, CS-4.5 và WELM.71 Bảng 3.4 Hiệu năng của các phương pháp HMM, C5.0, LSTM và LSTM.MI73Bảng 3.5 Hạng các phương pháp bằng kiểm định Wilcoxon 74

Bảng 3.6 Tóm tắt các kết quả của Wilcoxon test Ký hiệu  thể hiện các phươngpháp ở hàng sẽ tốt hơn phương pháp ở cột với mức ý nghĩa của kiểm định  =0.95,trong khi  thể hiện các phương pháp ở cột sẽ tốt hơn ở hàng với mức ý nghĩa củakiểm định  =0.9 75

Bảng 3.7.Thời gian xử lý một tên miền của các phương pháp 76

Bảng 3.8 Thống kê số lượng truy vấn DNS của từng bộ dữ liệu 77

Bảng 4.1 Tổng quan bộ dữ liệu MalDGA 87 Bảng 4.2 Tóm tắt của bộ dữ liệu dựa trên Adversarial DGA bao gồm các mẫu củaNecurs, Suppobox, Qadars Đối với mỗi mẫu, các domain được truy vấn được thay

Trang 10

thế bằng những domain được tạo ra bởi CharBot, DeepDGA và MaskDGA 89

Trang 11

Bảng 4.3 TP, FP, TN, FN, Precision, Recall và F1-score của BotFighter và cácphương pháp phát hiện khác 92 Bảng 4.4 TPR (True Positive Rate) và TCD (Time to Correct Detection) của

BotFighter và các phương pháp phát hiện khác đối với các họ mã độc khác nhau 97 Bảng 4.5 Thời gian xử lý một truy vấn DNS của BotFighter và các phương pháp pháthiện khác 100 Bảng 4.6 So sánh hiệu năng của DeepDAD và BotFighter 101

Trang 12

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Kịch bản tấn công đặc trưng của DGA Botnet 9

Hình 1.2 Quy trình sinh tên miền bằng thuật toán DGA dựa trên giá trị nguồn làngàyhiện tại 11

Hình 1.3 Sự sai khác giữa tên miền bình thường và tên miền DGA theo các đặc

trưng(a) độ dài, (b) entropy và (c) mức độ ý nghĩa 15

Hình 1.4 Đặc trưng ngữ nghĩa/thống kê trích rút từ tên miền: (a) độ dài, (b)

Entropy,(c) Mức độ ý nghĩa, (d) 2-gram, (e) 3,4,5-gram 17

Hình 1.5 Ví dụ về hành vi truy vấn NXDOMAIN được tạo bởi (a) máy tính nhiễmmã độc DGA và (b) thiết bị bình thường 19

Hình 1.6 Mô hình phát hiện DGA sử dụng các phương pháp phân loại đa lớp với

đầuvào là các đặc trưng ngữ nghĩa và thống kê 24

Hình 2.1 Kiến trúc mạng LSTM và mô hình ứng dụng LSTM trong việc phân loạitên miền [27] 32

Hình 2.2 Sơ đồ phương pháp phát hiện phân loại tên miền sử dụng mạng LSTMtruyền thống kết hợp với các đặc trưng thống kê (LSTM + Auxiliary input) 34

Hình 2.3 Mô hình phát hiện DGA sử dụng mạng CNN kết hợp mạng BidirectionalLSTM (CNN + Bidirectional LSTM) 36

Hình 2.4 So sánh hiệu năng của phương pháp LSTM + Auxiliary input với LSTMtruyền thống và các phương pháp học máy khác trong phân loại 2 lớp 40

Hình 2.5 So sánh hiệu năng của phương pháp LSTM + Auxiliary input với LSTMtruyền thống và các phương pháp học máy khác trong phân loại đa lớp 42

Hình 2.6 Ma trận confusion matrix của phương pháp LSTM + Auxiliary input 43

Hình 2.7 So sánh hiệu năng của phương pháp LSTM + Auxiliary input và CNN +Bidirectional LSTM do nghiên cứu sinh đề xuất với việc sử dụng các biến thể kháccủa mạng LSTM trong phân loại đa lớp 45

Hình 2.8 Kết quả thử nghiệm ảnh hưởng của số lượng dữ liệu lên độ chính xác củaphương pháp (a) Precision, Recall và F1-score trong trường hợp Micro-averaging.(b) Precision, Recall và F1-score trong trường hợp Macro- averaging (c) Số lượngloại DGA không nhận biết được 53

Hình 3.1 Minh họa quá trình ngược của thuật toán Cost-Sensitive LSTM 60

Trang 13

Hình 3.2 Kiến trúc phương pháp LSTM.MI 62 Hình 3.3 Hiệu năng của Cost-Sensitive LSTM trong trường hợp phân loại hai lớp (a)

Macro-averaging Precision, Recall và F1-socre với tham số  [0,1], và (b) Đồ thị

Learning curves của LSTM và Cost-Sensitive LSTM (  =0.3) 64 Hình 3.4 Hiệu năng của Cost-Sensitive LSTM trong trường phân loại đa lớp (a)Macro-averaging Precision, Recall và F1-score, (b) Micro-averaging Precision,Recall và F1-score, (c) Số lượng họ DGA không nhận biết được theo giá trị  = [0,1],

(d) Đồ thị Learning curve trong trường hợp LSTM truyền thống và Cost-SensitiveLSTM (  =0.3) 65 Hình 3.5 Minh họa đường biên của (a) phương pháp LSTM truyền thống; Phươngpháp Cost-Sensitive LSTM với các giá trị (b) 𝛾 = 0.3 và (c) 𝛾 = 1 ; (d) PhươngphápLSTM.MI ( 𝛾 = 0.3 ) 67 Hình 3.6 Confusion matrix của các loại DGA mà phương pháp LSTM.MI khôngphát hiện được Các giá trị được chuẩn hóa về dạng [0,1] 1 được hiển thị bằng màuđen và 0 được hiển thị bởi màu trắng 76 Hình 3.7 Recall của phương pháp LSTM.MI với bộ dữ liệu thu thập trong thực tế 77Hình 4.1 Áp dụng mô hình Markov ẩn (HMM) để mô hình hoá sự biến đổi trạngtháicủa thiết bị 81 Hình 4.2 Kiến trúc hệ thống BotFighter 85 Hình 4.3 Precision, Recall và F1-score của BotFighter với các giá trị 𝜆 khác nhautrong khoảng từ 1 đên 10 91 Hình 4.4 Xác suất 𝑃𝑠𝑡 = 𝑆𝑎𝑓𝑒𝐷𝑡 của một thiết bị an toàn trong khoảng thời gian3,500 phút 94 Hình 4.5 Xác suất 𝑃𝑠𝑡 = 𝑆𝑎𝑓𝑒𝐷𝑡 của một thiết bị bị nhiễm mã độc Mydoom trongkhoảng thời gian 80 phút 95 Hình 4.6 Tỷ lệ TPR (%) của BotFighter và các bộ phát hiện khác trên bộ dữ liệuAdversarial DGA 99

Trang 14

MỞ ĐẦU1.Tính cấp thiết của đề tài

Trong những năm gần đây, Botnet đã trở thành một trong những mối đe dọanghiêm trọng nhất đối với Internet Botnet là một mạng lưới các máy tính bị nhiễmmã độc (malware), những máy tính này còn được gọi là bot, bị kiểm soát và điềukhiển từ xa bởi tin tặc (botmaster) thông qua máy chủ điều khiển (Command andControl server - C&C server) Với sự bùng nổ của máy tính, thiết bị di động, đặcbiệt là thiết bị Internet of Thing (IoT), quy mô Botnet có thể lên tới hàng trăm nghìnthậm chí hàng triệu bot Theo các tổ chức quốc tế, Việt Nam thường xuyên nằmtrong nhóm các nước có mức độ lây nhiễm mã độc cao nhất thế giới Theo số liệucủa Trung tâm giám sát an toàn không gian mạng quốc gia (NCSC) năm 2023 vẫncòn 456.699 địa chỉ IP của Việt Nam nằm trong các mạng Botnet [1] Điều đáng longại là các cơ quan, tổ chức sở hữu những địa chỉ IP này không hề hay biết về sựtồn tại của mã độc trong hệ thống mạng của mình

Ngày nay, đi theo xu thế của các loại hình tấn công có chủ đích (APT Advanced Persistent Threat), Botnet trở thành nền tảng, công cụ để triển khai cácđợt tấn công từ chối dịch vụ phân tán (Distributed Denial of Service - DDoS) có chủđích trên quy mô lớn Các máy tính ma nhận lệnh đồng thời từ tin tặc thông quamáy chủ điều khiển để gửi các yêu cầu đến máy nạn nhân như truy vấn của mộtngười dùng bình thường, nhưng do mạng Botnet có quy mô rất lớn, có thể phát sinhra hàng chục triệu kết nối đồng thời từ lớp 3 đến lớp 7, hệ thống máy chủ ứng dụngcần trả về hàng trăm Gbps đến hàng Tbps dữ liệu Việc này hoàn toàn bất thường sovới dung lượng thiết kế và khả năng chịu đựng của hầu hết các hệ thống trung tâmdữ liệu, từ đó gây nghẽn hạ tầng mạng, hạ tầng ứng dụng, làm gián đoạn dịch vụ,thậm chí có thể đánh sập hạ tầng công nghệ thông tin của bất kỳ cơ quan tổ chứcthậm chí ở mức quốc gia

-Với đặc điểm của các đợt tấn công quy mô cực lớn như vậy trong khi các truyvấn tấn công hoàn toàn tương đồng với các truy vấn dịch vụ thông thường đã khiếncho các phương pháp phát hiện và ngăn chặn DDoS truyền thống không còn hiệuquả Phần lớn các nghiên cứu và phương pháp truyền thống tìm cách phân ly các

Trang 15

2lưu luồng dữ liệu DDoS tấn công ra khỏi các luồng dữ liệu truy vấn thông thườngdựa trên sự

Trang 16

3sai khác về hành vi và các dấu hiệu của các dạng tấn công đã biết Tuy nhiên vớicác cuộc tấn công triển khai dựa trên mạng Botnet các truy vấn tấn công ngày cànggiống các truy vấn thông thường, đặc biệt nếu chỉ dựa trên quan sát từ phía máy chủnạn nhân Mặt khác khi quy mô tấn công có dung lượng quá lớn thì ngay cả khi hệthống phát hiện cũng không thể có các biện pháp ngăn chặn kịp thời và phòngchống được các đợt tấn công về sau Việc nghiên cứu và ứng dụng các kỹ thuật mớiđể phát hiện sớm và loại bỏ tận gốc các đối tượng thực hiện tấn công DDoS, cụ thểlà các mạng Botnet, trở thành nhu cầu cấp thiết và hướng nghiên cứu được quan tâmbởi nhiều nhóm nghiên cứu về an ninh mạng trong nước và trên thế giới trongnhững năm gần đây.

Gần đây, các dạng Botnet mới với cơ chế xác định máy chủ C&C thông quathuật toán sinh tên miền tự động (DGA - Domain Generation Algorithm), được gọilà DGA Botnet, đã được phát hiện Loại Botnet này kết hợp sự đơn giản của cấutrúc điều khiển tập trung với tính linh hoạt của mạng dựa trên peer-to-peer (P2P).Mỗi bot định kỳ khởi tạo danh sách tên miền ngẫu nhiên dựa trên tham số như thờigian hiện tại thông qua thuật toán đã được mã độc tích hợp Sau đó, bot gửi các truyvấn đến hệ thống phân giải tên miền (DNS) để tìm địa chỉ IP của máy chủ C&C.Khi một tên miền được phân giải thành công, bot sẽ kết nối và nhận lệnh từ tin tặc.Nếu một tên miền hoặc IP máy chủ C&C bị chặn, bot sẽ tiếp tục tìm kiếm máy chủmới trong chu kỳ truy vấn tiếp theo Sự nguy hiểm của DGA Botnet nằm ở khảnăng né tránh phát hiện, khi các bot liên tục sinh ra hàng loạt tên miền, làm cho việcchặn đứng máy chủ C&C trở nên khó khăn Ngoài ra, tính phân tán và khả dụng caocho phép Botnet hoạt động liên tục ngay cả khi bị gián đoạn Thuật toán DGAthường xuyên thay đổi theo thời gian và tham số ngẫu nhiên, làm cho việc dự đoánvà chặn các tên miền sử dụng trở nên phức tạp, khiến các biện pháp an ninh truyềnthống dựa trên danh sách đen kém hiệu quả Botnet này thường được sử dụng trongcác cuộc tấn công quy mô lớn như DDoS, phát tán ransomware hoặc lừa đảo, đedọa nghiêm trọng đến an ninh mạng toàn cầu Với khả năng tự điều chỉnh và thíchnghi linh hoạt, DGA Botnet có thể gây ảnh hưởng trên phạm vi rộng, lôi kéo hàngtriệu thiết bị tham gia vào mạng lưới tấn công, gây thiệt hại kinh tế lớn và làm giánđoạn các dịch vụ quan trọng

Trang 17

2.Đối tượng nghiên cứu và phương pháp nghiên cứu

Việc ứng dụng các giải thuật trong học sâu (Deep learning) để giải quyết các vấnđề trong lĩnh vực an toàn thông tin là một hướng nghiên cứu đang phát triển mạnhtrong những năm gần đây thu hút rất nhiều các công trình nghiên cứu khác nhau củacác nhà nghiên cứu trong và ngoài nước Không nằm ngoài xu thế chung của cộngđồng nghiên cứu, đối tượng nghiên cứu của luận án là các phương pháp phát hiệnDGA Botnet dựa trên các giải thuật học sâu Phát hiện DGA Botnet có thể chia làmba loại chính (1) phát hiện bot, (2) phát hiện máy chủ điều khiển - C&C, (3) pháthiện Botmaster (tin tặc) Trong luận án này nghiên cứu sinh tập trung vào việc pháthiện các bot dựa trên việc mô hình hóa các đặc trưng của một máy tinh bị nhiễm mãđộc DGA bằng các phương pháp học máy và học sâu

Từ những đối tượng nghiên cứu cụ thể và để đạt được mục tiêu đã đề ra, phươngpháp nghiên cứu được sử dụng trong luận án là kết hợp phương pháp nghiên cứu lýthuyết và phương pháp nghiên cứu thực tiễn Để mô hình hóa hành vi của mã độcDGA, luận án áp dụng phương pháp chuyên gia trong nghiên cứu thực tiễn, tức làtận dụng kết quả phân tích hành vi của các mẫu mã độc DGA đã được các chuyêngia bảo mật phân tích bằng kỹ thuật dịch ngược (reverse engineering) Thông quaquá trình này, dữ liệu được tổng hợp và phân loại nhằm xác định những hành vi đặctrưng trong các truy vấn DNS của mã độc DGA, từ đó so sánh với các truy vấnDNS thông thường trên hệ thống để phát hiện điểm khác biệt và xây dựng mô hìnhnhận diện Các phương pháp phát hiện DGA Botnet đã được công bố của các nhànghiên cứu khác được luận án tổng hợp, xem xét và hệ thống hóa để phân tích kỹcác ưu nhược điểm cũng như các hạn chế và thách thức mà các phương pháp nàyphải đối mặt giải quyết Từ đó có thể xác định xu hướng nghiên cứu hiện nay, cũngnhư xác định được hướng tiếp cận và nghiên cứu chuyên sâu, cụ thể ở đây là sửdụng giải thuật học sâu cho bài toán phát hiện DGA Botnet Các phương pháp do

Trang 18

5luận án đề xuất được kiểm

Trang 19

6chứng và chứng minh hiệu quả so với các phương pháp liên quan dựa trên việc đánhgiá bằng các thực nghiệm khoa học trên một bộ dữ liệu thử nghiệm với các tiêu chíđánh giá đồng nhất Dựa trên phân tích đánh giá các kết quả thử nghiệm, luận án cóthể xác định được các vấn đề hạn chế còn tồn tại cần phải giải quyết cũng như tìmra được hướng tiếp cận phù hợp nhất.

3.Nội dung nghiên cứu

Kế thừa các kết quả nghiên cứu đã có, luận án phân tích các đặc trưng của mãđộc DGA dựa trên việc tổng hợp lại các dữ liệu truy vấn DNS do các mã độc sinh rađược thu bắt được trong thực tế hoặc sử dụng kỹ thuật dịch ngược để tìm ra đượccác thuật toán sinh tên miền và triển khai lại các thuật toán này bằng ngôn ngữ lậptrình Các đặc trưng cơ bản của mã độc DGA là cơ sở để xác định ba nội dungnghiên cứu chính của luận án

Thứ nhất, nghiên cứu các cách tiếp cận phổ biến hiện nay trong việc phát hiệnDGA Botnet thông qua mô hình hóa các đặc trưng về hành vi của DGA Botnet, từđó lựa chọn hướng tiếp cận là chuyển bài toán phát hiện bot về bài toán xây dựngcác bộ phân loại tên miền dựa trên các giải thuật học sâu Trong đó luận án tậptrung nghiên cứu việc ứng dụng giải thuật Long Short-Term Memory (LSTM) cũngnhư đề xuất các phương pháp cải tiến theo các hướng tiếp cận khác nhau

Thứ hai, từ các kết quả thử nghiệm và đánh giá, luận án tìm ra những vấn đề còntồn tại của các phương pháp đề xuất như vấn đề mất cân bằng dữ liệu trong quátrình huấn luyện giữa các họ mã độc DGA Để giải quyết vấn đề này, tác giả tiếptục nghiên cứu các kỹ thuật xử lý vấn đề không đồng đều dữ liệu trong quá trìnhhuấn luyện mạng LSTM

Thứ ba, mặc dù các phương pháp phân loại tên miền có thể cho độ chính xác rấtcao, tuy nhiên một model có thể phân loại chính xác tên miền sinh bởi mã độc DGAvới độ chính xác đạt 100% là không khả thi trong thực tế do độ chính xác sẽ phụthuộc vào bộ dữ liệu huấn luyện Việc kết luận một máy tính là nhiễm mã độc DGAnếu chỉ dựa trên việc phân loại tên miền sẽ có tỷ lệ cảnh báo giả rất lớn Vì vậy luậnán tiếp tục nghiên cứu phương pháp phát hiện thiết bị bị nhiễm mã độc DGA dựatrên việc tích hợp các mô hình phân loại tên miền đã đề xuất với các đặc trưng khácliên quan đến truy vấn DNS của mã độc DGA Mục tiêu là xây dựng phương pháp

Trang 20

8hiện DGA Botnet có khả năng phát hiện chính xác thiết bị bị nhiễm mã độc với độ chính xác cao, đáp ứng yêu cầu xử lý theo thời gian thực và có tính ứng dụng thực tế.

4.Ý nghĩa khoa học và ý nghĩa thực tiễn của luận án

Các nghiên cứu của luận án đã đạt được một số kết quả nhất định, có đóng gópvề mặt khoa học và thực tiễn như sau:

a) Về ý nghĩa khoa học:Luận án đã đưa ra những đề xuất mới trong việc áp dụng các kỹ thuật học sâu đểgiải quyết các bài toán trong lĩnh vực an toàn thông tin Nghiên cứu sinh phát triểncác phương pháp mới dựa trên mạng LSTM để xây dựng các bộ phân loại tên miềnbình thường và tên miền do DGA Botnet sinh ra với độ chính xác cao Phương phápCost-Sensitive LSTM và LSTM.MI được đề xuất bởi nghiên cứu sinh là cách tiếpcận hiệu quả trong việc xử lý vấn đề không đồng đều của dữ liệu trong quá trìnhhuấn luyện mạng LSTM trong bài toán phân loại đa lớp và đã được tham chiếutrong nhiều công trình nghiên cứu khác trong lĩnh vực phát hiện và ngăn chặn DGABotnet Nghiên cứu sinh cũng đã đề xuất BotFighter là một hệ thống hiệu quả cókhả năng liên tục phát hiện các máy tính bị nhiễm mã độc DGA thông qua kết hợpđặc trưng ngữ nghĩa và tần suất truy vấn DNS trả về NXDOMAIN bằng mô hìnhMarkov Ẩn và Định lý Bayes Các công trình đã công bố liên quan đến luận án baogồm 04 công trình được công bố trong nước, ngoài nước và được cộng đồng nghiêncứu ghi nhận Cụ thể, luận án có 1 công trình được đăng trên tạp chí thuộc danhmục SCIE Q1 Neurocomputing (IF: 4.438) [2], 2 công trình đăng trên tạp chí trongnước là Jounal Reaseach and Deveopment on Infomation Communication andTechnology và Tạp chí Thông tin và truyền thông, 1 bài báo được trình bày và đăngtải trong kỷ yếu hội thảo Quốc tế thuộc danh mục SCOPUS Tính đến thời điểmhoàn thành luận án, các công bố của luận án đã được trích dẫn trong gần 300 côngtrình nghiên cứu của các tác giả khác theo thống kê của Google Schoolar [3] Ngoàira, phương pháp BotFighter đã được trình bày trong bản thảo gửi tới tạp chí SCIEQ1 Journal of Information Security and Applications và hiện đang trong quá trìnhxét duyệt

b)Ý nghĩa thực tiễn:

Trang 21

9Bên cạnh việc đóng góp về mặt học thuật, mục tiêu của luận án là các kết quảnghiên cứu phải có khả năng hiện thực hóa và áp dụng vào trong thực tế Phươngpháp BotFighter được phát triển trong luận án không chỉ mang lại giá trị lý thuyếtmà còn có tính ứng dụng cao Phương pháp này có khả năng phát hiện liên tục thiếtbị bị nhiễm mã độc với độ chính xác cao và đáp ứng yêu cầu xử lý theo thời gianthực Phương pháp đã được Cục Sở Hữu Trí Tuệ cấp bằng sáng chế độc quyền số31187 theo Quyết định số: 823w/QĐ-SHTT, ngày 18/01/2022 là minh chứng rõ nétvề ý nghĩa đối với thực tiễn của các công trình nghiên cứu trong luận án.

5.Điểm mới của luận án

Những điểm mới của luận án được thể hiện thông qua 03 đóng góp chính về họcthuật thông qua các phương pháp và cách tiếp cận mới trong bài toán phát hiệnDGA Botnet như sau:

1 Phát triển các phương pháp phân loại tên miền dựa trên giải thuật học sâuLong Short-Term Memory theo hai hướng tiếp cận (1) Kết hợp các giải thuậtkhác nhau trong học sâu CNN + Bidirectional LSTM, (2) Kết hợp các đặctrưng thống kê với các đặc trưng nội hàm của mạng LSTM Các thuật toánđề xuất đều cho độ chính xác vượt trội so với mạng LSTM truyền thốngtrong khi vẫn đảm bảo yếu tố hiệu năng xử lý theo thời gian thực

2 Đề xuất thuật toán Cost-Sensitive LSTM để giải quyết vấn đề không đồngđều dữ liệu giữa các họ mã độc DGA khác nhau trong bài toán phân loại đalớp Trong đó giá trị trọng số được đưa vào hàm mục tiêu nhằm tăng tỷ lệnhận dạng các mẫu mã độc Mô hình LSTM.MI, kết hợp giữa bộ phân loạihai lớp và đa lớp của thuật toán Cost-Sensitive LSTM giúp giảm tỷ lệ cảnhbáo giả đối với tên miền thông thường và tăng tỷ lệ phát hiện với các họ mãđộc có kích thước mẫu huấn luyện nhỏ

3 Đề xuất phương pháp phát hiện liên tục máy tính bị nhiễm mã độc DGA cókhả năng hoạt động theo thời gian thực Phương pháp được xây dựng dựatrên việc kết hợp kết quả của bộ phân loại tên miền dựa trên thuật toán họcsâu LSTM và đặc trưng tần suất truy vấn DNS trả về NXDOMAIN bằng môhình Hidden Markov Model (HMM) Phương pháp đề xuất mở ra mộthướng tiếp

Trang 22

10cận mới trong việc ứng dụng kết hợp học sâu và mô hình Markov ẩn cho các bài toán trong lĩnh vực an toàn thông tin.

6 Cấu trúc của luận án

Luận án được tổ chức thành năm phần chính bao gồm mở đầu, bốn chương nộidung, phần kết luận và tài liệu tham khảo

Chương 2: Phát hiện DGA Botnet dựa trên phân loại tên miền

Trình bày các thuật toán cải tiến cho giải thuật LSTM trong bài toán phân loạitên miền Bao gồm phương pháp kết hợp đặc trưng thống kê và đặc trưng nội hàmcủa mạng LSTM, cũng như sự kết hợp giữa các giải thuật học sâu CNN +Bidirectional LSTM cho mô hình phân loại tên miền

Chương 3: Phương pháp Cost-Sensitive LSTM

Trình bày về phương pháp Cost-Sensitive LSTM cho bài toán mất cân bằng dữliệu giữa các phân lớp trong quá trình huấn luyện mạng LSTM, bao gồm bản chấtcủa phương pháp, phương pháp LSTM.MI, thử nghiệm và đánh giá

Chương 4: Phương pháp phát hiện máy tính bị nhiễm mã độc DGA

Tập trung vào phương pháp phát hiện liên tục máy tính bị nhiễm mã độc DGA,chương này trình bày về thách thức, bản chất của phương pháp, phương pháp đềxuất, thử nghiệm và đánh giá

Cuối cùng, Chương 5: Kết luận và đề xuất trình bày tổng kết các kết quả chính

và đóng góp khoa học và thực tiễn của luận án Đồng thời cũng chỉ ra một số địnhhướng nghiên cứu tiếp theo trong tương lai

Trang 23

ĐỊNH HƯỚNG NGHIÊN CỨU CỦA LUẬN ÁN

Trong chương này, nghiên cứu sinh trình bày các khái niệm cơ bản về tấn côngDGA Botnet, đặc biệt tập trung vào mô hình hóa các đặc trưng cơ bản của DGABotnet cũng như các phương pháp phát hiện các cuộc tấn công này Phần 1.1 sẽ giớithiệu các khái niệm cơ bản và cơ chế hoạt động của DGA Botnet, đồng thời phântích chuyên sâu về hai đặc trưng chính liên quan đến cơ chế sinh tên miền tự động,đây là nền tảng cần thiết cho việc nghiên cứu sâu hơn Trong mục 1.2, tác giả sẽtrình bày một khảo sát tổng quan về lĩnh vực nghiên cứu, phân tích các hướngnghiên cứu liên quan để xác định ưu nhược điểm của từng hướng tiếp cận, cũng nhưxác định định hướng nghiên cứu của luận án Cuối cùng, mục 1.3 sẽ trình bày vềđịnh hướng nghiên cứu của luận án, bao gồm các ý tưởng cơ sở dẫn đến mạchnghiên cứu riêng và các nhiệm vụ nghiên cứu cụ thể đã được đặt ra Các phươngpháp học sâu được xem là những giải pháp tiềm năng để phát hiện DGA Botnet mộtcách hiệu quả và là trọng tâm nghiên cứu của luận án

1.1 Tổng quan DGA Botnet

1.1.1 Khái niệm cơ sở của DGA Botnet

Ngày nay, hầu hết các mạng Botnet đều sử dụng cơ chế thuật toán sinh tên miềntự động (Domain Generation Algorithm - DGA) để kết nối với máy chủ điều khiểnC&C (Command and Control) [4] Điều này nhằm mục đích tránh bị phát hiện,ngăn chặn và loại bỏ bởi các hệ thống phát hiện xâm nhập/hệ thống ngăn ngừa xâmnhập (Intrusion Detection System - IDS/Intrusion Prevention System - IPS)

Hình 1.1 mô tả một kịch bản tấn công mang đặc trưng của DGA Botnet Banđầu, người dùng truy cập một trang web độc hại, có thể là do nhấp vào liên kết độchại từ email, trang web không an toàn, hoặc một nguồn không đáng tin cậy khác.Các trang web này đã được thiết kế để tự động tải xuống và triển khai phần mềmđộc hại mà không đòi hỏi sự chấp nhận rõ ràng từ phía người dùng

Ngay sau khi trang web độc hại được truy cập, phần mềm độc hại tự động khaithác các lỗ hổng trong hệ thống của người dùng hoặc sử dụng các kỹ thuật xâmnhập khác để âm thầm cài đặt mã độc trên thiết bị của họ Thiết bị của người dùng

Trang 24

12sau đó

Trang 25

13chuyển đổi thành một "bot", bị điều khiển từ xa bởi máy chủ điều khiển (C&Cserver) thuộc quyền sở hữu của kẻ tấn công.

Mã độc DGA là một kỹ thuật sử dụng một hạt giống để tự động tạo ra các chuỗiký tự có định dạng giống như tên miền, hay còn được biết đến là tên miền được sinhra bởi thuật toán (Algorithmically Generated Domains - AGD) Người kiểm soátBotnet đăng ký một tên miền, và tên miền đã đăng ký này trỏ đến địa chỉ IP củamáy chủ C&C Bot sau đó lần lượt truy vấn để các tên miền được sinh ra bởi thuậttoán để phân giải địa chỉ IP của máy chủ C&C, từ đó thiết lập kênh giao tiếp vớimáy chủ C&C Khi đã kết nối, các bot nhận lệnh để thực hiện cuộc tấn công DDoSlên một nạn nhân Sau khi thực hiện xong một tấn công, quá trình kết nối với máychủ C&C vẫn được duy trì thông qua việc liên tục truy vấn các tên miền được sinhbởi thuật toán để đợi các lệnh tấn công tiếp theo

Trang 26

14Malicious websiteBotmasterDomain registrar

(4) The botmaster registers one AGD

The registered AGD(5) points to the C&C IP address

User visits

(1)maliciouswebsite

(2) The device is infected with malware to become abot

DGA relies on a(3) seed to

generate a list ofAGDs

C&C server

(7) The bot establishes a C&C channel

Computer device (bot)

yjxwzvzqjxwq.bizqfzrxqjyfzqk.infoNXDOMAIN20.0.25.177

DNS serverMalware The bot sends DNS queries

(6) using AGDs to resolve the C&C IP address

Hình 1.1 Kịch bản tấn công đặc trưng của DGA BotnetViệc kết nối với máy chủ C&C thông qua DGA làm cho mạng Botnet trở nênkhó phát hiện hơn so với việc sử dụng địa chỉ IP hoặc tên miền được "hardcode"trong chương trình mã độc Nhờ sự thay đổi liên tục của các tên miền theo thuậttoán đã thiết lập, ngay cả khi tên miền của máy chủ C&C bị phát hiện cũng khôngthể ngăn

Trang 27

chặn hoặc loại bỏ được mạng Botnet do các tên miền này chỉ được sử dụng trongmột thời gian ngắn trước khi bị loại bỏ khi chu kỳ sinh tên miền mới được bắt đầu.Vì vậy để vô hiệu hoá được mạng DGA Botnet sẽ phải xoá bỏ chương trình mã độcDGA trên tất cả các thiết bị bị lây nhiễm Trong thực tế, việc này không khả thi vìcác thiết bị bị lây nhiễm thường là các máy tính cá nhân, điện thoại di động, thiết bịIoT, camera, hoăc thiết bị mạng Việc loại bỏ mã độc phải do người dùng chủ độngphát hiện và thực hiện Tuy nhiên, điều này là không dễ dàng đối với người dùngphổ thông do hạn chế về nhận thức cũng như thiếu kiến thức và các kỹ năng cầnthiết.

Để có thể hiểu được các hành vi của DGA Botnet, các nhà nghiên cứu tiến hànhphân tích các mẫu mã độc DGA Botnet thu thập được cũng như phân tích dữ liệutruy vấn DNS do các mã độc sinh ra trong thực tế Trong báo cáo đầu tiên về DGAcủa Brett Stone-Gross và cộng sự [6] , dựa trên việc dịch ngược mã thực thi của mộtmẫu mã độc thu được, các tác giả đã xác định được thuật toán sinh tên miền sửdụng bởi Botnet Torpig Tác giả đã tìm ra được chu kỳ mỗi bot sinh ra một danhsách tên miền và sau đó liên lạc với máy chủ C&C Bằng cách giả mạo một máychủ C&C và đăng ký trước các tên miền, họ đã chiếm quyền điều khiển BotnetTorpig thành công trong vòng 10 ngày Johannes Bacher và các cộng sự [7] đã tiếnhành dịch ngược 43 mẫu mã độc DGA khác nhau được phát hiện trong thực tế Dựatrên các kết quả dịch ngược, các tác giả đã tìm ra được các thuật toán sinh tên miềnvà triển khai lại các thuật toán này bằng ngôn ngữ python Từ đó, họ đã tổng hợp vàthống kê lại các quy tắc và đặc điểm của các tên miền do thuật toán sinh của từngmã độc sinh ra Chi tiết vui lòng xem trong Phụ Lục

Về bản chất, DGA sử dụng một bộ sinh số giả ngẫu nhiên (PseudoRandomNumber Generator - PRNG) để tạo ra các tên miền ứng viên Tuy nhiên, chuỗi sinhra từ bộ sinh số giả ngẫu nhiên không thực sự là ngẫu nhiên hoàn toàn, mà nó dựavào một tập hợp các tham số cần thiết, được gọi là hạt giống (seed), và đóng vai tròlà một "shared secret" Các tham số này bao gồm các hằng số (ví dụ: độ dài của tênmiền hoặc hạt giống tạo số giả ngẫu nhiên) hoặc các chuỗi (ví dụ: bảng chữ cái haytập các Top Level Domain) Dựa vào giá trị seed, có hai loại chính của DGA (1)Giá trị seed khởi tạo phụ thuộc thời gian (Time dependence): DGA kết hợp với

Trang 28

nguồn thời gian (ví dụ: ngày giờ hiện tại, tỷ giá hối đoái, thời gian hệ thống của máychủ bị

Trang 29

xâm nhập) để tính toán các tên miền Những tên miền này sẽ chỉ có thời hạn hiệulực trong một khoảng thời gian cụ thể (2) Giá trị seed khởi tạo có tính xác định(Determinism): Loại DGA mà địa chỉ có thể quan sát được tại bất kỳ thời điểm nào,tức là, có thể được tính cho các trường hợp trong quá khứ và tương lai, dựa trên cáctham số đầu vào Hình 1.2 mô tả một thuật toán DGA đơn giản với giá trị seed khởitạo là ngày hiện tại Có hai phương pháp chính để DGA tạo ra các tên miền [9]:

- DGA dựa trên số học (Arithmetic-based DGAs): Sử dụng một hàm phânphối đều (uniform distribution generator) và các phép toán như nhân, chia,xor, dịch bit (bit shift), phép tìm dư (modulo) để tạo ra các chuỗi ký tự dạngtên miền như Conficker, Ramnit và nhiều loại khác

- DGA dựa trên danh sách các từ (Wordlist-based DGAs): Tạo ra các chuỗi kýtự bằng cách ghép các từ được lấy từ một hoặc nhiều danh sách từ Điều nàygiúp giảm tính ngẫu nhiên và tránh phương pháp phát hiện theo tên miền.Các danh sách từ này sẽ được nhúng trực tiếp vào mã nguồn của của phầnmềm độc hại hoặc thu từ một nguồn có thể truy cập công khai (nhưSuppobox kết hợp các từ trong từ điển tiếng anh với nhau để tạo ra các tênmiền)

InitializeTransform

seedindex

date

random state

Trang 30

tft

Hình 1.2 Quy trình sinh tên miền bằng thuật toán DGA dựa trên giá trị nguồn là

ngày hiện tạiDễ dàng nhận thấy, các tên miền do DGA tạo ra sẽ phụ thuộc vào giá trị seed và sơ đồ hình thành (Generation Schemes) của thuật toán Và đây cũng là điểm yếu chính

ebj3ykdfa8lq.inforandom

number Shi

frt

randomnumber Shi

frandomnumber Shi

3random number

qrandom number randomnumber

.info

Trang 31

của DGA là nếu ai biết được thuật toán và giá trị seed khởi tạo, họ có thể dự đoáncác tên miền sinh ra và ánh xạ chúng với địa chỉ IP của máy chủ C&C Điều này cóthể kiểm soát được mạng DGA Botnet.

Vì vậy, hướng tiếp cận truyền thống trong việc ngăn chặn được DGA Botnet làtìm ra các thuật toán sinh tên miền tự động và giá trị seed khởi tạo dựa trên các kỹthuật dịch ngược các mẫu mã độc lây nhiễm thu được Dựa trên thuật toán, các nhàbảo mật có thể tính toán được các tên miền sẽ sinh ra trong tương lai để có thểchiếm được quyền điều khiển Botnet trước tin tặc Tuy nhiên, việc thực hiện dịchngược không chỉ tốn nhiều thời gian mà còn đòi hỏi trình độ kỹ thuật cao Điều nàycòn kèm theo thực tế rằng việc dịch ngược mã nguồn (decomplier, disassembler)không phải lúc nào cũng khả thi, trong khi chỉ cần một sự thay đổi nhỏ, tin tặc cóthể tạo ra nhiều biến thể khác nhau của mã độc [5] Ngược lại, việc xác định thuậttoán và giá trị seed không phải là phương pháp duy nhất để dự đoán các tên miền

được sinh ra bởi DGA.Thông qua việc xem xét và đánh giá dựa trên phân tích một số họ mã độc DGAđã biết, các nhóm nghiên cứu đã nhận ra một số hành vi đặc trưng của DGA Botnet.Dễ dàng nhận thấy rằng các đặc trưng về hành vi của bot thường liên quan chặt chẽđến các truy vấn DNS Các bot trong mạng DGA Botnet sẽ tạo ra một lượng lớn cáctên miền dựa trên một cấu trúc nhất định tức là có mối quan hệ về ngữ nghĩa giữacác tên miền được sinh bởi cùng 1 thuật toán DGA Ngoài ra các bot truy vấn tất cảtên miền đã tạo đến các máy chủ DNS Tuy nhiên, chỉ một tập hợp nhỏ các tên miềnnày được đăng ký bởi tin tặc và được gán cho địa chỉ IP của máy chủ C&C và cáctên miền khác là không tồn tại Như vậy tần suất truy vấn tên miền mà trả vềNXDOMAIN của các bot trong mạng DGA Botnet sẽ lớn hơn các máy tính thôngthường Đây chính là hai đặc trưng nổi bật của DGA Botnet Trong phần tiếp theo,nghiên cứu sinh sẽ trình bày chi tiết về hai đặc trưng này của DGA Botnet

1.1.2 Đặc trưng về ngữ nghĩa của tên miền tạo ra bởi DGA Botnet

Dựa trên một giả định cơ bản rằng tên miền thông thường được tạo ra bởi conngười thường mang một ý nghĩa cụ thể và có thể phát âm, trong khi các tên miềnđược sinh tự động thường là ngẫu nhiên và không có ý nghĩa Hơn nữa, các tênmiền này tuân theo một cấu trúc nhất định, có thể tìm ra một mô hình ẩn dưới chúng

Trang 32

do cùng một thuật toán sinh ra Điều này mở ra khả năng chuyển bài toán phát hiệnDGA

Trang 33

Botnet thành bài toán phân loại tên miền là tên miền thông thường và tên miền do DGA tạo ra.

Để thiết lập cơ sở cho hướng nghiên cứu, nghiên cứu sinh đã thực hiện phân tíchsự khác biệt về đặc trưng ngữ nghĩa giữa các tên miền thông thường và tên miềnđược tạo ra bởi DGA Botnet Đại diện cho các tên miền thông thường (tên miền docon người tạo và đăng ký để sử dụng) được lựa chọn từ tập 1 triệu tên miền đượctruy cập nhiều nhất trên toàn cầu, theo thống kê của tổ chức Alexa thuộc Amazon

[37], sau đây gọi chung là tập Alexa (non-DGA) Các tên miền do các DGA Botnettạo ra được lấy từ danh sách các tên miền do mã độc DGA tạo ra từ bộ dữ liệuOSINT DGA feed của Bambenek Consulting [38], một tổ chức chuyên điều tra vềan ninh mạng và tội phạm mạng Bambenek Consulting đã thu thập các mẫu thựcthi của mã độc DGA và sử dụng kỹ thuật dịch ngược để xác định các thuật toán tạotên miền, sau đó mô phỏng lại bằng Python để thu thập danh sách tên miền do mãđộc DGA đó tạo ra

Nghiên cứu sinh đã chọn mẫu gồm 1.000 tên miền từ tập tên miền Alexa DGA) và 1.000 tên miền tạo ra bởi mã độc PT Goz/Zeus (DGA) Sau đó, thực hiệnphân tích các đặc trưng thống kê, bao gồm độ dài (số ký tự trong mỗi tên miền),entropy, và mức độ ý nghĩa của tên miền

(non-Entropy xác định độ bất định của một tên miền Với tên miền 𝑑, entropy 𝐸(𝑑)bằng:

Trang 34

-∑&𝑙𝑒𝑛(𝑤(𝑖))𝑀(𝑑) = # $%

Trong đó 𝑝 là độ dài của tên miền 𝑑 và 𝑛 là số từ có ý nghĩa trong tên miền Vídụ đối với chuỗi kí tự “stackoverflow”, mức độ ý nghĩa M được tính như biểu thứcbên dưới

Trang 35

𝑀(𝑑) = 𝑙𝑒𝑛(|𝑠𝑡𝑎𝑐𝑘|) + 𝑙𝑒𝑛(𝑜𝑣𝑒𝑟) + 𝑙𝑒𝑛(|𝑓𝑙𝑜𝑤|) 13 = 1 (1.3)

Trang 36

DGA DGA0

n-200

400 (b

)600800

1000

Trang 37

trưng (a) độ dài, (b) entropy và (c) mức độ ý nghĩa.Hình 1.3 thể hiện giá trị của các đặc trưng được tính toán từ 1.000 mẫu thuộc hailớp Alexa (non-DGA) và PT Goz/Zeus (DGA) Tên miền do DGA Botnet sinh rathường có độ dài lớn hơn so với tên miền bình thường Từ Hình 1.3 (a), ta thấy độdài của tên miền bình thường nằm trong khoảng từ 5 đến 15 ký tự và thường khácbiệt so với tên miền DGA (≥ 20 ký tự) Hình 1.3 (b) cho thấy sự khác nhau giữaentropy của tên miền bình thường và tên miền do DGA sinh ra Tên miền bìnhthường có dải entropy khá rộng từ 1.5 đến 3.4, còn đối với một mẫu DGA, entropythường lớn hơn và có dải phân bố hẹp từ 3.7 đến 4.3 Hình 1.3 (c) minh họa sự khácnhau giữa mức độ ý nghĩa của tên miền bình thường và tên miền do DGA sinh ra.Đối với tên miền bình thường M thường nằm khoảng 0.8 đến 1 Tên miền DGAthường có mức độ ý nghĩa nhỏ hơn do các ký tự được ghép một cách ngẫu nhiêntheo hàm mật độ phân bố đều Như vậy, có thể thấy các đặc trưng về ngữ nghĩa cóthể giúp phân loại một tên miền bình thường với tên miền do một thuật toán của mãđộc DGA sinh ra (từ đây sẽ gọi chung là tên miền độc hại) Đây là cơ sở cho hướngtiếp cận để xây dựng các bộ phân loại tên miền với đầu vào là các đặc trưng ngữnghĩa của tên miền và đầu ra xác định tên miền đó là bình thường hay tên miền độchại.

Một câu hỏi đặt ra là liệu có thể phân biệt ngữ nghĩa của các tên miền giữa cáchọ mã độc DGA khác nhau hay không? Để trả lời câu hỏi này, tiếp tục mở rộngthực nghiệm bằng cách lựa chọn 1,000 mẫu tên miền của 4 loại DGA khác nhau,bao gồm Ramnit, Ranbyus, Suppobox và Banjori Như minh họa trong Hình 1.4,

Trang 38

tên miền

Trang 39

DGA có độ dài lớn hơn và thể hiện mức độ ngẫu nhiên ngôn ngữ cao hơn so với tênmiền không phải DGA Điều này ám chỉ rằng ngữ nghĩa của tên miền có thể là mộtđặc điểm quan trọng trong việc phân biệt giữa các loại mã độc DGA Alexa vàSuppobox có điểm khớp từ điển tương đồng, vì Suppobox cũng dựa trên các tênmiền có thể phát âm được Quan sát cho thấy entropy và giá trị n-gram của Ramnitvà Ranbyus tương đồng với nhau Điều này xuất phát từ việc các mã độc này tậndụng cùng một bộ sinh ngẫu nhiên để thực hiện các phép nhân, chia và lấy dư trongmột hạt giống duy nhất Từ các phân tích trên, có thể thấy rằng các đặc trưng về ngữnghĩa đóng vai trò quan trọng trong quá trình phân loại giữa tên miền thông thườngvà tên miền độc hại Việc xây dựng một bộ phân loại đa lớp cho phép phân loại tênmiền thông thường và tên miền độc hại cũng như tên miền độc hại do các họ mãđộc khác nhau tạo ra là một hướng tiếp cận độc đáo trong bài toán phát hiện mã độcDGA Hiện nay, nhiều phương pháp phát hiện DGA Botnet dựa theo hướng tiếp cậnnày đã được các kết quả khả quan.

(a)

(b)

Trang 40

(d)

(e)Hình 1.4 Đặc trưng ngữ nghĩa/thống kê trích rút từ tên miền: (a) độ dài, (b)

Entropy, (c) Mức độ ý nghĩa, (d) 2-gram, (e) 3,4,5-gramTuy nhiên sẽ còn các thách thức mà các nhà nghiên cứu phải đối mặt và giảiquyết Với những đặc trưng riêng biệt về cú pháp và quy tắc xây dựng, việc xử lýtên miền sẽ phức tạp hơn so với xử lý từ trong các mô hình ngôn ngữ, nhưng cũngđơn giản hơn so với việc xử lý câu Rõ ràng, các đặc trưng thống kê đóng vai tròquan trọng

Ngày đăng: 16/09/2024, 11:56

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Thông B. T. T. (2024, January 22). "Số liệu phát triển lĩnh vực An toàn thông tin năm 2023". Cổng Thông tin điện tử Bộ Thông tin và Truyền thông.https://mic.gov.vn/so-lieu-phat-trien-linh-vuc-an-toan-thong-tin-nam-2023- 197240122085746464.htm Sách, tạp chí
Tiêu đề: Số liệu phát triển lĩnh vực An toàn thông tin năm 2023
Tác giả: Thông B. T. T
Năm: 2024
[2] Neurocomputing -Impact Score, Ranking, Indexing, https://listofjournals.com/impact-score.php?q=Neurocomputing, 2024-03-23 [3] https://scholar.google.com/citations?user=3IbkqIUAAAAJ&hl=en,2024-03-23 Sách, tạp chí
Tiêu đề: Neurocomputing -Impact Score, Ranking, Indexing,https://listofjournals.com/impact-score.php?q=Neurocomputing, 2024-03-23"[3]
[4] M. Antonakakis, R. Perdisci, Y. Nadji, N. Vasiloglou, S. Abu-Nimeh, W. Lee, D. Dagon, “From throw-away traffic to bots: Detecting the rise of dga-based malware”, in: Proceedings of the 21st USENIX Security Symposium, 2012, pp. 491–506 Sách, tạp chí
Tiêu đề: M. Antonakakis, R. Perdisci, Y. Nadji, N. Vasiloglou, S. Abu-Nimeh, W. Lee,D. Dagon, “From throw-away traffic to bots: Detecting the rise of dga-basedmalware”, "in: Proceedings of the 21st USENIX Security Symposium
[5] S. Schiavoni , F. Maggi , L. Cavallaro , S. Zanero , Phoenix , “DGA-based botnet track-ing and intelligence, in: Proceedings of the International Conference on De-tection of Intrusions and Malware, and Vulnerability Assessment (DIMVA)”, in: Lecture Notes in Computer Science, 8550, 2014, pp. 192–211 Sách, tạp chí
Tiêu đề: S. Schiavoni , F. Maggi , L. Cavallaro , S. Zanero , Phoenix , “DGA-basedbotnet track-ing and intelligence, in: Proceedings of the InternationalConference on De-tection of Intrusions and Malware, and VulnerabilityAssessment (DIMVA)”, "in: Lecture Notes in Computer Science
[7] Johannes Bader blog, https://bin.re/tag/malware-analysis/ , accessed 2024 [8] Tống Văn Vạn, Nguyễn Linh Giang, and Trần Quang Đức, “Phân loại tênmiền sử dụng các đặc trưng ngữ nghĩa trong phát hiện DGA Botnet,”Research and Development on Information and Communication Technology, vol. 11, pp. 57–62, 2016 Sách, tạp chí
Tiêu đề: Johannes Bader blog, https://bin.re/tag/malware-analysis/ , accessed 2024"[8]"Tống Văn Vạn, Nguyễn Linh Giang, and Trần Quang Đức, “Phân loại tênmiền sử dụng các đặc trưng ngữ nghĩa trong phát hiện DGA Botnet,”"Research and Development on Information and Communication Technology
[9] Plohmann, Daniel, et al. “A comprehensive measurement study of domain generating malware.” 25th {USENIX} Security Symposium ({USENIX}Security 16). 2016 Sách, tạp chí
Tiêu đề: Plohmann, Daniel, et al. “A comprehensive measurement study of domaingenerating malware.” "25th {USENIX} Security Symposium ({USENIX}"Security 16)
[10] L. Bilge, E. Kirda, C. Kruegel, and M. Balduzzi, “EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis”, The Network and Distributed System Security Symposium (NDSS), 2011 Sách, tạp chí
Tiêu đề: L. Bilge, E. Kirda, C. Kruegel, and M. Balduzzi, “EXPOSURE: FindingMalicious Domains Using Passive DNS Analysis”, "The Network andDistributed System Security Symposium (NDSS)
[11] R. Perdisci, I. Corona, G. Giacinto, “Early detection of malicious flux networks via large-scale passive DNS analysis”. IEEE Transactions on Dependable and Secure Computing vol. 9, no. 5, pp. 714–726, 2012 Sách, tạp chí
Tiêu đề: R. Perdisci, I. Corona, G. Giacinto, “Early detection of malicious fluxnetworks via large-scale passive DNS analysis”. "IEEE Transactions onDependable and Secure Computing
[12] D.K. McGrath, and M. Gupta, “Behind Phishing: An Examination of Phisher Modi Operandi”, First USENIX Workshop on Large-Scale Exploits and Emergent Threats (LEET), 2008 Sách, tạp chí
Tiêu đề: D.K. McGrath, and M. Gupta, “Behind Phishing: An Examination ofPhisher Modi Operandi
[13] Ma, L.K. Saul, S. Savage, and G. Voelker, “Beyond blacklists: Learning to detect malicious Web sites from suspicious URLs”. In: Proceedings of the Knowledge discovery and data mining ACM KDD, 2009 Sách, tạp chí
Tiêu đề: Ma, L.K. Saul, S. Savage, and G. Voelker, “Beyond blacklists: Learning todetect malicious Web sites from suspicious URLs”. "In: Proceedings of theKnowledge discovery and data mining ACM KDD
[14] S. Yadav, A.K.K. Reddy, A.L. Reddy, S. Ranjan, “Detecting algorithmically generated malicious domain names”, in: Proceedings of the Tenth ACM SIGCOMM Conference on Internet measurement, 2010, pp. 48–61 Sách, tạp chí
Tiêu đề: S. Yadav, A.K.K. Reddy, A.L. Reddy, S. Ranjan, “Detectingalgorithmically generated malicious domain names”, "in: Proceedings of theTenth ACM SIGCOMM Conference on Internet measurement
[6]Brett Stone-Gross, Marco Cova, Lorenzo Cavallaro, Bob Gilbert, Martin Szydlowski, Richard Kemmerer, Christopher Kruegel, and Giovanni Vigna Khác
[15] S. Yadav, A.K.K. Reddy, A.N. Reddy, and S. Ranjan, Detecting algorithmically generated domain-flux attacks with DNS traffic analysis, IEEE/ACM Transactions on Networking, vol. 20, no. 5, pp. 1663- 1677, 2012 Khác
[16] R.V. Salomon, J.C. Brustoloni, Identifying botnets using anomaly detection techniques applied to DNS traffic, The 5th IEEE Consumer Communications and Networking Conference (CNCC), pp. 476-481, 2008 Khác
[17] J. Kwon, J. Lee, H. Lee, and A. Perrig, PsyBoG: A scalable botnet detection method for large-scale DNS traffic. Computer Networks 97 pp. 48- 73, 2016 Khác
[18] G. Gu, R. Perdisci, J. Zhang, and W. Lee, BotMiner: Clustering Analysis of Network Traffic for Protocol-and Structure-Independent Botnet Detection Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w