Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu

Việc nghiên cứu và ứng dụng các kỹ thuật mớiđể phát hiện sớm và loại bỏ tận gốc các đối tượng thực hiện tấn công DDoS, cụ thểlà các mạng Botnet, trở thành nhu cầu cấp thiết và hướng nghi Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâuPhát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu

Trang 1

LỜI CAM ĐOAN

Tôi xin cam đoan tất cả các nội dung trong luận án “Phát hiện và phòng chống tấncông DGA Botnet sử dụng kỹ thuật học sâu” là công trình nghiên cứu của riêng tôidưới sự hướng dẫn của tập thể hướng dẫn Các số liệu, kết quả trong luận án làtrung thực và chưa từng được tác giả khác công bố trong bất kỳ công trình nào Việctham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu thamkhảo quy định

Hà Nội, ngày tháng năm 2024

Trang 2

LỜI CẢM ƠN

Trước hết, tôi xin trân trọng cảm ơn Đại học Bách khoa Hà Nội, Trường Côngnghệ thông tin và Truyền thông, Ban Đào tạo, các thầy cô cùng các bạn học viên,sinh viên của Trung tâm An toàn an ninh thông tin đã tạo điều kiện thuận lợi và

đóng góp nhiều ý kiến quý báu giúp tôi hoàn thành bản luận án này.Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc đến Thầy hướng dẫn khoa học

PGS TS Nguyễn Linh Giang, TS Trần Hải Anh đã nhiệt tình hướng dẫn, giúp

đỡ và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình thực hiện Luận án

Đặc biệt, tôi xin gửi lời cảm ơn đến PGS TS Trần Quang Đức, một người thầy,

người anh lớn đã dẫn dắt, chỉ bảo và giúp tôi đặt các nền móng vững chắc trên conđường nghiên cứu khoa học của mình

Đối với cá nhân tôi, quá trình làm nghiên cứu sinh là một chặng đường dài với rấtnhiều khó khăn và thử thách Tôi sẽ không thể hoàn thành nếu thiếu sự ủng hộ vôđiều kiện của bố mẹ, vợ và các con của tôi cũng như những người thân trong giađình đã luôn đứng phía sau tạo hậu phương vững chắc và động viên tôi trong nhữngthời điểm khó khăn nhất Từ tận đáy lòng tôi xin gửi lời cảm ơn đến gia đình thânyêu của mình

Tôi xin chân thành cảm ơn!

Hà Nội, ngày tháng năm 2024

Nghiên cứu sinh

Trang 3

1 Tính cấp thiết của đề tài 1

2 Đối tượng nghiên cứu và phương pháp nghiên cứu 3

3 Nội dung nghiên cứu 4

4 Ý nghĩa khoa học và ý nghĩa thực tiễn của luận án 5

5 Điểm mới của luận án 6

6 Cấu trúc của luận án 7

CHƯƠNG 1 TỔNG QUAN LĨNH VỰC NGHIÊN CỨU VÀ ĐỊNH HƯỚNGNGHIÊN CỨU CỦA LUẬN ÁN 8

1.1 Tổng quan DGA Botnet 8

1.1.1 Khái niệm cơ sở của DGA Botnet 8

1.1.2 Đặc trưng về ngữ nghĩa của tên miền tạo ra bởi DGA Botnet 12

1.1.3 Đặc trưng về tần suất truy vấn và loại truy vấn DNS của DGA Botnet 18

1.2 Tổng quan nghiên cứu liên quan 20

1.2.1 Phương pháp phát hiện DGA Botnet dựa trên truy vấn DNS 21

1.2.2 Phương pháp phát hiện DGA Botnet dựa trên việc phân loại tên miền sử dụnghọc máy và học sâu 23

1.3 Định hướng nghiên cứu của luận án 27

Trang 4

2.2 Phương pháp phân loại tên miền sử dụng LSTM dựa trên kết hợp với đặc

2.4.2 Các thang đo đánh giá 39

2.4.3 Đánh giá hiệu năng của 2 phương pháp đề xuất với các phương pháp phân loạikhác………… 39

2.4.4 Mức độ ảnh hưởng của Top Level Domain đến độ chính xác của bộ phân loạitên miền… 51

2.4.5 Thử nghiệm đánh giá kích thước mẫu huấn luyện đối với bộ phân loại tênmiền………… 52

Trang 5

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 105

TÀI LIỆU THAM KHẢO 106

PHỤ LỤC 115

Trang 6

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

1 AGD AlgorithmicallyDomain Generated Tên miền sinh bởi thuậttoán2 APT Advanced Persistent Threat Tấn công có chủ đích3 C&C Command and Control server Máy chủ điều khiển

11 IDS Intrusion Detection System Hệ thống phát hiện xâmnhập

13 IPS Intrusion Prevention System Hệ thống ngăn chặn xâm

nhập14 LSTM Long Short-Term Memory Bộ nhớ ngắn-dài hạn15 NXDOMAIN Non-Existing Domain Tên miền không tồn tại

22 TCD Time to Correct Detection Thời gian phát hiện chínhxác

Trang 7

24 TN True Negative Âm tính thật

26 TPR True Positive Rate Tỷ lệ phát hiện chính xác

Trang 8

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1 Thống kê trung bình số NXDOMAIN /giờ của các mã độc DGA 19

Bảng 2.1 Số lượng mẫu của các lớp trong bộ dữ liệu, bao gồm tên miền từ 37 loạiDGA Botnet cùng với tên miền thông thường từ tập tên miền được truy cập nhiềunhất theo thống kê của Alexa Cột "Ý Nghĩa" chỉ ra liệu mã độc có sử dụng bộ từđiển trong quá trình tạo tên miền hay không, với "" đại diện cho "có" và "" đạidiện cho "không" 38

Bảng 2.2 Precision, Recall và F1-score của LSTM so với các phương pháp họcmáy khác như HMM, C5.0, ELM và SVM 46

Bảng 2.3 Precision, Recall và F1-score của các phương pháp dựa trên các biến thểcủa mạng LSTM 48

Bảng 2.4 Precision, Recall, F1-score và số loại DGA không nhận biết được của 2trường hợp: (1) dữ liệu đầu vào chỉ gồm tên miền mức hai (SLD) và (2) dữ liệu đầuvào bao gồm cả tên miền mức cao nhất và mức hai (TLD+SLD) 51

Bảng 3.1 So sánh hiệu năng của các phương pháp học nhạy chi phí khác nhau trongphân loại hai lớp 67

Bảng 3.2 So sánh hiệu năng của các phương pháp nhạy chi phí khác nhau trongtrường hợp đa lớp 68

Bảng 3.3 Hiệu năng của các phương pháp CS-NN, CS-SVM, CS-4.5 và WELM.71 Bảng 3.4 Hiệu năng của các phương pháp HMM, C5.0, LSTM và LSTM.MI73Bảng 3.5 Hạng các phương pháp bằng kiểm định Wilcoxon 74

Bảng 3.6 Tóm tắt các kết quả của Wilcoxon test Ký hiệu  thể hiện các phươngpháp ở hàng sẽ tốt hơn phương pháp ở cột với mức ý nghĩa của kiểm định =0.95,trong khi  thể hiện các phương pháp ở cột sẽ tốt hơn ở hàng với mức ý nghĩa củakiểm định =0.9 75

Bảng 3.7.Thời gian xử lý một tên miền của các phương pháp 76

Bảng 3.8 Thống kê số lượng truy vấn DNS của từng bộ dữ liệu 77

Bảng 4.1 Tổng quan bộ dữ liệu MalDGA 87Bảng 4.2 Tóm tắt của bộ dữ liệu dựa trên Adversarial DGA bao gồm các mẫu củaNecurs, Suppobox, Qadars Đối với mỗi mẫu, các domain được truy vấn được thay

Trang 9

thế bằng những domain được tạo ra bởi CharBot, DeepDGA và MaskDGA 89

Trang 10

Bảng 4.3 TP, FP, TN, FN, Precision, Recall và F1-score của BotFighter và các phương pháp phát hiện khác 92Bảng 4.4 TPR (True Positive Rate) và TCD (Time to Correct Detection) của

BotFighter và các phương pháp phát hiện khác đối với các họ mã độc khác nhau 97Bảng 4.5 Thời gian xử lý một truy vấn DNS của BotFighter và các phương pháp phát hiện khác 100Bảng 4.6 So sánh hiệu năng của DeepDAD và BotFighter 101

Trang 11

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Kịch bản tấn công đặc trưng của DGA Botnet 9Hình 1.2 Quy trình sinh tên miền bằng thuật toán DGA dựa trên giá trị nguồn là ngày hiện tại 11Hình 1.3 Sự sai khác giữa tên miền bình thường và tên miền DGA theo các đặc trưng (a) độ dài, (b) entropy và (c) mức độ ý nghĩa 15Hình 1.4 Đặc trưng ngữ nghĩa/thống kê trích rút từ tên miền: (a) độ dài, (b)

Entropy, (c) Mức độ ý nghĩa, (d) 2-gram, (e) 3,4,5-gram 17Hình 1.5 Ví dụ về hành vi truy vấn NXDOMAIN được tạo bởi (a) máy tính nhiễm mã độc DGA và (b) thiết bị bình thường 19Hình 1.6 Mô hình phát hiện DGA sử dụng các phương pháp phân loại đa lớp với đầu vào là các đặc trưng ngữ nghĩa và thống kê 24Hình 2.1 Kiến trúc mạng LSTM và mô hình ứng dụng LSTM trong việc phân loại tên miền [27] 32Hình 2.2 Sơ đồ phương pháp phát hiện phân loại tên miền sử dụng mạng LSTM truyền thống kết hợp với các đặc trưng thống kê (LSTM + Auxiliary input) 34Hình 2.3 Mô hình phát hiện DGA sử dụng mạng CNN kết hợp mạng Bidirectional LSTM (CNN + Bidirectional LSTM) 36Hình 2.4 So sánh hiệu năng của phương pháp LSTM + Auxiliary input với LSTM truyền thống và các phương pháp học máy khác trong phân loại 2 lớp 40Hình 2.5 So sánh hiệu năng của phương pháp LSTM + Auxiliary input với LSTM truyền thống và các phương pháp học máy khác trong phân loại đa lớp 42Hình 2.6 Ma trận confusion matrix của phương pháp LSTM + Auxiliary input 43Hình 2.7 So sánh hiệu năng của phương pháp LSTM + Auxiliary input và CNN +Bidirectional LSTM do nghiên cứu sinh đề xuất với việc sử dụng các biến thể kháccủa mạng LSTM trong phân loại đa lớp 45Hình 2.8 Kết quả thử nghiệm ảnh hưởng của số lượng dữ liệu lên độ chính xác của

Trang 12

Hình 3.2 Kiến trúc phương pháp LSTM.MI 62Hình 3.3 Hiệu năng của Cost-Sensitive LSTM trong trường hợp phân loại hai lớp.(a) Macro-averaging Precision, Recall và F1-socre với tham số [0,1], và (b) Đồthị Learning curves của LSTM và Cost-Sensitive LSTM (=0.3) 64Hình 3.4 Hiệu năng của Cost-Sensitive LSTM trong trường phân loại đa lớp (a)Macro-averaging Precision, Recall và F1-score, (b) Micro-averaging Precision,Recall và F1-score, (c) Số lượng họ DGA không nhận biết được theo giá trị =[0,1],

(d) Đồ thị Learning curve trong trường hợp LSTM truyền thống và Cost-SensitiveLSTM (=0.3) 65Hình 3.5 Minh họa đường biên của (a) phương pháp LSTM truyền thống; Phươngpháp Cost-Sensitive LSTM với các giá trị (b) 𝛾 = 0.3 và (c) 𝛾 = 1; (d) Phươngpháp LSTM.MI (𝛾 = 0.3) 67Hình 3.6 Confusion matrix của các loại DGA mà phương pháp LSTM.MI khôngphát hiện được Các giá trị được chuẩn hóa về dạng [0,1] 1 được hiển thị bằng màuđen và 0 được hiển thị bởi màu trắng 76Hình 3.7 Recall của phương pháp LSTM.MI với bộ dữ liệu thu thập trong thực tế 77Hình 4.1 Áp dụng mô hình Markov ẩn (HMM) để mô hình hoá sự biến đổi trạngthái của thiết bị 81Hình 4.2 Kiến trúc hệ thống BotFighter 85Hình 4.3 Precision, Recall và F1-score của BotFighter với các giá trị 𝜆 khác nhautrong khoảng từ 1 đên 10 91Hình 4.4 Xác suất 𝑃𝑠𝑡 = 𝑆𝑎𝑓𝑒𝐷𝑡 của một thiết bị an toàn trong khoảng thờigian 3,500 phút 94Hình 4.5 Xác suất 𝑃𝑠𝑡 = 𝑆𝑎𝑓𝑒𝐷𝑡 của một thiết bị bị nhiễm mã độc Mydoomtrong

khoảng thời gian 80 phút 95Hình 4.6 Tỷ lệ TPR (%) của BotFighter và các bộ phát hiện khác trên bộ dữ liệuAdversarial DGA 99

Trang 13

MỞ ĐẦU1 Tính cấp thiết của đề tài

Trong những năm gần đây, Botnet đã trở thành một trong những mối đe dọanghiêm trọng nhất đối với Internet Botnet là một mạng lưới các máy tính bị nhiễmmã độc (malware), những máy tính này còn được gọi là bot, bị kiểm soát và điềukhiển từ xa bởi tin tặc (botmaster) thông qua máy chủ điều khiển (Command andControl server - C&C server) Với sự bùng nổ của máy tính, thiết bị di động, đặcbiệt là thiết bị Internet of Thing (IoT), quy mô Botnet có thể lên tới hàng trăm nghìnthậm chí hàng triệu bot Theo các tổ chức quốc tế, Việt Nam thường xuyên nằmtrong nhóm các nước có mức độ lây nhiễm mã độc cao nhất thế giới Theo số liệucủa Trung tâm giám sát an toàn không gian mạng quốc gia (NCSC) năm 2023 vẫncòn 456.699 địa chỉ IP của Việt Nam nằm trong các mạng Botnet [1] Điều đáng longại là các cơ quan, tổ chức sở hữu những địa chỉ IP này không hề hay biết về sựtồn tại của mã độc trong hệ thống mạng của mình

Ngày nay, đi theo xu thế của các loại hình tấn công có chủ đích (APT Advanced Persistent Threat), Botnet trở thành nền tảng, công cụ để triển khai cácđợt tấn công từ chối dịch vụ phân tán (Distributed Denial of Service - DDoS) có chủđích trên quy mô lớn Các máy tính ma nhận lệnh đồng thời từ tin tặc thông quamáy chủ điều khiển để gửi các yêu cầu đến máy nạn nhân như truy vấn của mộtngười dùng bình thường, nhưng do mạng Botnet có quy mô rất lớn, có thể phát sinhra hàng chục triệu kết nối đồng thời từ lớp 3 đến lớp 7, hệ thống máy chủ ứng dụngcần trả về hàng trăm Gbps đến hàng Tbps dữ liệu Việc này hoàn toàn bất thường sovới dung lượng thiết kế và khả năng chịu đựng của hầu hết các hệ thống trung tâmdữ liệu, từ đó gây nghẽn hạ tầng mạng, hạ tầng ứng dụng, làm gián đoạn dịch vụ,thậm chí có thể đánh sập hạ tầng công nghệ thông tin của bất kỳ cơ quan tổ chứcthậm chí ở mức quốc gia

Trang 14

-lưu luồng dữ liệu DDoS tấn công ra khỏi các luồng dữ liệu truy vấn thông thườngdựa trên sự

Trang 15

sai khác về hành vi và các dấu hiệu của các dạng tấn công đã biết Tuy nhiên vớicác cuộc tấn công triển khai dựa trên mạng Botnet các truy vấn tấn công ngày cànggiống các truy vấn thông thường, đặc biệt nếu chỉ dựa trên quan sát từ phía máy chủnạn nhân Mặt khác khi quy mô tấn công có dung lượng quá lớn thì ngay cả khi hệthống phát hiện cũng không thể có các biện pháp ngăn chặn kịp thời và phòngchống được các đợt tấn công về sau Việc nghiên cứu và ứng dụng các kỹ thuật mớiđể phát hiện sớm và loại bỏ tận gốc các đối tượng thực hiện tấn công DDoS, cụ thểlà các mạng Botnet, trở thành nhu cầu cấp thiết và hướng nghiên cứu được quan tâmbởi nhiều nhóm nghiên cứu về an ninh mạng trong nước và trên thế giới trongnhững năm gần đây.

Gần đây, các dạng Botnet mới với cơ chế xác định máy chủ C&C thông quathuật toán sinh tên miền tự động (DGA - Domain Generation Algorithm), được gọilà DGA Botnet, đã được phát hiện Loại Botnet này kết hợp sự đơn giản của cấutrúc điều khiển tập trung với tính linh hoạt của mạng dựa trên peer-to-peer (P2P).Mỗi bot định kỳ khởi tạo danh sách tên miền ngẫu nhiên dựa trên tham số như thờigian hiện tại thông qua thuật toán đã được mã độc tích hợp Sau đó, bot gửi các truyvấn đến hệ thống phân giải tên miền (DNS) để tìm địa chỉ IP của máy chủ C&C.Khi một tên miền được phân giải thành công, bot sẽ kết nối và nhận lệnh từ tin tặc.Nếu một tên miền hoặc IP máy chủ C&C bị chặn, bot sẽ tiếp tục tìm kiếm máy chủmới trong chu kỳ truy vấn tiếp theo Sự nguy hiểm của DGA Botnet nằm ở khảnăng né tránh phát hiện, khi các bot liên tục sinh ra hàng loạt tên miền, làm cho việcchặn đứng máy chủ C&C trở nên khó khăn Ngoài ra, tính phân tán và khả dụng caocho phép Botnet hoạt động liên tục ngay cả khi bị gián đoạn Thuật toán DGAthường xuyên thay đổi theo thời gian và tham số ngẫu nhiên, làm cho việc dự đoánvà chặn các tên miền sử dụng trở nên phức tạp, khiến các biện pháp an ninh truyềnthống dựa trên danh sách đen kém hiệu quả Botnet này thường được sử dụng trongcác cuộc tấn công quy mô lớn như DDoS, phát tán ransomware hoặc lừa đảo, đe

Trang 16

Với đề tài “Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuậthọc sâu”, nghiên cứu sinh tập trung vào giải quyết vấn đề phát hiện, truy vết nguồn

gốc tấn công, tìm và loại bỏ các bot của mạng DGA Botnet, tác nhân chính trongviệc thực hiện tấn công DDoS Từ đó làm giảm số lượng nguồn tấn công có thể giảiquyết tận gốc và triệt để các cuộc tấn công DDoS

2 Đối tượng nghiên cứu và phương pháp nghiên cứu

Việc ứng dụng các giải thuật trong học sâu (Deep learning) để giải quyết các vấnđề trong lĩnh vực an toàn thông tin là một hướng nghiên cứu đang phát triển mạnhtrong những năm gần đây thu hút rất nhiều các công trình nghiên cứu khác nhau củacác nhà nghiên cứu trong và ngoài nước Không nằm ngoài xu thế chung của cộngđồng nghiên cứu, đối tượng nghiên cứu của luận án là các phương pháp phát hiệnDGA Botnet dựa trên các giải thuật học sâu Phát hiện DGA Botnet có thể chia làmba loại chính (1) phát hiện bot, (2) phát hiện máy chủ điều khiển - C&C, (3) pháthiện Botmaster (tin tặc) Trong luận án này nghiên cứu sinh tập trung vào việc pháthiện các bot dựa trên việc mô hình hóa các đặc trưng của một máy tinh bị nhiễm mãđộc DGA bằng các phương pháp học máy và học sâu

Từ những đối tượng nghiên cứu cụ thể và để đạt được mục tiêu đã đề ra, phươngpháp nghiên cứu được sử dụng trong luận án là kết hợp phương pháp nghiên cứu lýthuyết và phương pháp nghiên cứu thực tiễn Để mô hình hóa hành vi của mã độcDGA, luận án áp dụng phương pháp chuyên gia trong nghiên cứu thực tiễn, tức làtận dụng kết quả phân tích hành vi của các mẫu mã độc DGA đã được các chuyêngia bảo mật phân tích bằng kỹ thuật dịch ngược (reverse engineering) Thông quaquá trình này, dữ liệu được tổng hợp và phân loại nhằm xác định những hành vi đặctrưng trong các truy vấn DNS của mã độc DGA, từ đó so sánh với các truy vấnDNS thông thường trên hệ thống để phát hiện điểm khác biệt và xây dựng mô hìnhnhận diện Các phương pháp phát hiện DGA Botnet đã được công bố của các nhànghiên cứu khác được luận án tổng hợp, xem xét và hệ thống hóa để phân tích kỹcác ưu nhược điểm cũng như các hạn chế và thách thức mà các phương pháp nàyphải đối mặt giải quyết Từ đó có thể xác định xu hướng nghiên cứu hiện nay, cũngnhư xác định được hướng tiếp cận và nghiên cứu chuyên sâu, cụ thể ở đây là sửdụng giải thuật học sâu cho bài toán phát hiện DGA Botnet Các phương pháp do

Trang 17

luận án đề xuất được kiểm

Trang 18

chứng và chứng minh hiệu quả so với các phương pháp liên quan dựa trên việc đánhgiá bằng các thực nghiệm khoa học trên một bộ dữ liệu thử nghiệm với các tiêu chíđánh giá đồng nhất Dựa trên phân tích đánh giá các kết quả thử nghiệm, luận án cóthể xác định được các vấn đề hạn chế còn tồn tại cần phải giải quyết cũng như tìmra được hướng tiếp cận phù hợp nhất.

3 Nội dung nghiên cứu

Kế thừa các kết quả nghiên cứu đã có, luận án phân tích các đặc trưng của mãđộc DGA dựa trên việc tổng hợp lại các dữ liệu truy vấn DNS do các mã độc sinh rađược thu bắt được trong thực tế hoặc sử dụng kỹ thuật dịch ngược để tìm ra đượccác thuật toán sinh tên miền và triển khai lại các thuật toán này bằng ngôn ngữ lậptrình Các đặc trưng cơ bản của mã độc DGA là cơ sở để xác định ba nội dungnghiên cứu chính của luận án

Thứ nhất, nghiên cứu các cách tiếp cận phổ biến hiện nay trong việc phát hiệnDGA Botnet thông qua mô hình hóa các đặc trưng về hành vi của DGA Botnet, từđó lựa chọn hướng tiếp cận là chuyển bài toán phát hiện bot về bài toán xây dựngcác bộ phân loại tên miền dựa trên các giải thuật học sâu Trong đó luận án tậptrung nghiên cứu việc ứng dụng giải thuật Long Short-Term Memory (LSTM) cũngnhư đề xuất các phương pháp cải tiến theo các hướng tiếp cận khác nhau

Thứ hai, từ các kết quả thử nghiệm và đánh giá, luận án tìm ra những vấn đề còntồn tại của các phương pháp đề xuất như vấn đề mất cân bằng dữ liệu trong quátrình huấn luyện giữa các họ mã độc DGA Để giải quyết vấn đề này, tác giả tiếptục nghiên cứu các kỹ thuật xử lý vấn đề không đồng đều dữ liệu trong quá trìnhhuấn luyện mạng LSTM

Thứ ba, mặc dù các phương pháp phân loại tên miền có thể cho độ chính xác rấtcao, tuy nhiên một model có thể phân loại chính xác tên miền sinh bởi mã độc DGAvới độ chính xác đạt 100% là không khả thi trong thực tế do độ chính xác sẽ phụthuộc vào bộ dữ liệu huấn luyện Việc kết luận một máy tính là nhiễm mã độc DGAnếu chỉ dựa trên việc phân loại tên miền sẽ có tỷ lệ cảnh báo giả rất lớn Vì vậy luậnán tiếp tục nghiên cứu phương pháp phát hiện thiết bị bị nhiễm mã độc DGA dựatrên việc tích hợp các mô hình phân loại tên miền đã đề xuất với các đặc trưng khácliên quan đến truy vấn DNS của mã độc DGA Mục tiêu là xây dựng phương pháp

Trang 19

hiện DGA Botnet có khả năng phát hiện chính xác thiết bị bị nhiễm mã độc với độ chính xác cao, đáp ứng yêu cầu xử lý theo thời gian thực và có tính ứng dụng thực tế.

4 Ý nghĩa khoa học và ý nghĩa thực tiễn của luận án

Các nghiên cứu của luận án đã đạt được một số kết quả nhất định, có đóng gópvề mặt khoa học và thực tiễn như sau:

a) Về ý nghĩa khoa học:Luận án đã đưa ra những đề xuất mới trong việc áp dụng các kỹ thuật học sâu đểgiải quyết các bài toán trong lĩnh vực an toàn thông tin Nghiên cứu sinh phát triểncác phương pháp mới dựa trên mạng LSTM để xây dựng các bộ phân loại tên miềnbình thường và tên miền do DGA Botnet sinh ra với độ chính xác cao Phương phápCost-Sensitive LSTM và LSTM.MI được đề xuất bởi nghiên cứu sinh là cách tiếpcận hiệu quả trong việc xử lý vấn đề không đồng đều của dữ liệu trong quá trìnhhuấn luyện mạng LSTM trong bài toán phân loại đa lớp và đã được tham chiếutrong nhiều công trình nghiên cứu khác trong lĩnh vực phát hiện và ngăn chặn DGABotnet Nghiên cứu sinh cũng đã đề xuất BotFighter là một hệ thống hiệu quả cókhả năng liên tục phát hiện các máy tính bị nhiễm mã độc DGA thông qua kết hợpđặc trưng ngữ nghĩa và tần suất truy vấn DNS trả về NXDOMAIN bằng mô hìnhMarkov Ẩn và Định lý Bayes Các công trình đã công bố liên quan đến luận án baogồm 04 công trình được công bố trong nước, ngoài nước và được cộng đồng nghiêncứu ghi nhận Cụ thể, luận án có 1 công trình được đăng trên tạp chí thuộc danhmục SCIE Q1 Neurocomputing (IF: 4.438) [2], 2 công trình đăng trên tạp chí trongnước là Jounal Reaseach and Deveopment on Infomation Communication andTechnology và Tạp chí Thông tin và truyền thông, 1 bài báo được trình bày và đăngtải trong kỷ yếu hội thảo Quốc tế thuộc danh mục SCOPUS Tính đến thời điểmhoàn thành luận án, các công bố của luận án đã được trích dẫn trong gần 300 côngtrình nghiên cứu của các tác giả khác theo thống kê của Google Schoolar [3] Ngoài

Trang 20

Bên cạnh việc đóng góp về mặt học thuật, mục tiêu của luận án là các kết quảnghiên cứu phải có khả năng hiện thực hóa và áp dụng vào trong thực tế Phươngpháp BotFighter được phát triển trong luận án không chỉ mang lại giá trị lý thuyếtmà còn có tính ứng dụng cao Phương pháp này có khả năng phát hiện liên tục thiếtbị bị nhiễm mã độc với độ chính xác cao và đáp ứng yêu cầu xử lý theo thời gianthực Phương pháp đã được Cục Sở Hữu Trí Tuệ cấp bằng sáng chế độc quyền số31187 theo Quyết định số: 823w/QĐ-SHTT, ngày 18/01/2022 là minh chứng rõ nétvề ý nghĩa đối với thực tiễn của các công trình nghiên cứu trong luận án.

5 Điểm mới của luận án

Những điểm mới của luận án được thể hiện thông qua 03 đóng góp chính về họcthuật thông qua các phương pháp và cách tiếp cận mới trong bài toán phát hiệnDGA Botnet như sau:

1 Phát triển các phương pháp phân loại tên miền dựa trên giải thuật học sâuLong Short-Term Memory theo hai hướng tiếp cận (1) Kết hợp các giải thuậtkhác nhau trong học sâu CNN + Bidirectional LSTM, (2) Kết hợp các đặctrưng thống kê với các đặc trưng nội hàm của mạng LSTM Các thuật toánđề xuất đều cho độ chính xác vượt trội so với mạng LSTM truyền thốngtrong khi vẫn đảm bảo yếu tố hiệu năng xử lý theo thời gian thực

2 Đề xuất thuật toán Cost-Sensitive LSTM để giải quyết vấn đề không đồngđều dữ liệu giữa các họ mã độc DGA khác nhau trong bài toán phân loại đalớp Trong đó giá trị trọng số được đưa vào hàm mục tiêu nhằm tăng tỷ lệnhận dạng các mẫu mã độc Mô hình LSTM.MI, kết hợp giữa bộ phân loạihai lớp và đa lớp của thuật toán Cost-Sensitive LSTM giúp giảm tỷ lệ cảnhbáo giả đối với tên miền thông thường và tăng tỷ lệ phát hiện với các họ mãđộc có kích thước mẫu huấn luyện nhỏ

3 Đề xuất phương pháp phát hiện liên tục máy tính bị nhiễm mã độc DGA cókhả năng hoạt động theo thời gian thực Phương pháp được xây dựng dựatrên việc kết hợp kết quả của bộ phân loại tên miền dựa trên thuật toán họcsâu LSTM và đặc trưng tần suất truy vấn DNS trả về NXDOMAIN bằng môhình Hidden Markov Model (HMM) Phương pháp đề xuất mở ra mộthướng tiếp

Trang 21

cận mới trong việc ứng dụng kết hợp học sâu và mô hình Markov ẩn cho các bài toán trong lĩnh vực an toàn thông tin.

6 Cấu trúc của luận án

Luận án được tổ chức thành năm phần chính bao gồm mở đầu, bốn chương nộidung, phần kết luận và tài liệu tham khảo

Chương 2: Phát hiện DGA Botnet dựa trên phân loại tên miền

Trình bày các thuật toán cải tiến cho giải thuật LSTM trong bài toán phân loạitên miền Bao gồm phương pháp kết hợp đặc trưng thống kê và đặc trưng nội hàmcủa mạng LSTM, cũng như sự kết hợp giữa các giải thuật học sâu CNN +Bidirectional LSTM cho mô hình phân loại tên miền

Chương 3: Phương pháp Cost-Sensitive LSTM

Trình bày về phương pháp Cost-Sensitive LSTM cho bài toán mất cân bằng dữliệu giữa các phân lớp trong quá trình huấn luyện mạng LSTM, bao gồm bản chấtcủa phương pháp, phương pháp LSTM.MI, thử nghiệm và đánh giá

Chương 4: Phương pháp phát hiện máy tính bị nhiễm mã độc DGA

Tập trung vào phương pháp phát hiện liên tục máy tính bị nhiễm mã độc DGA,chương này trình bày về thách thức, bản chất của phương pháp, phương pháp đềxuất, thử nghiệm và đánh giá

Trang 22

CHƯƠNG 1 TỔNG QUAN LĨNH VỰC NGHIÊN CỨU VÀ

ĐỊNH HƯỚNG NGHIÊN CỨU CỦA LUẬN ÁN

Trong chương này, nghiên cứu sinh trình bày các khái niệm cơ bản về tấn côngDGA Botnet, đặc biệt tập trung vào mô hình hóa các đặc trưng cơ bản của DGABotnet cũng như các phương pháp phát hiện các cuộc tấn công này Phần 1.1 sẽ giớithiệu các khái niệm cơ bản và cơ chế hoạt động của DGA Botnet, đồng thời phântích chuyên sâu về hai đặc trưng chính liên quan đến cơ chế sinh tên miền tự động,đây là nền tảng cần thiết cho việc nghiên cứu sâu hơn Trong mục 1.2, tác giả sẽtrình bày một khảo sát tổng quan về lĩnh vực nghiên cứu, phân tích các hướngnghiên cứu liên quan để xác định ưu nhược điểm của từng hướng tiếp cận, cũng nhưxác định định hướng nghiên cứu của luận án Cuối cùng, mục 1.3 sẽ trình bày vềđịnh hướng nghiên cứu của luận án, bao gồm các ý tưởng cơ sở dẫn đến mạchnghiên cứu riêng và các nhiệm vụ nghiên cứu cụ thể đã được đặt ra Các phươngpháp học sâu được xem là những giải pháp tiềm năng để phát hiện DGA Botnet mộtcách hiệu quả và là trọng tâm nghiên cứu của luận án

1.1 Tổng quan DGA Botnet1.1.1 Khái niệm cơ sở của DGA Botnet

Ngày nay, hầu hết các mạng Botnet đều sử dụng cơ chế thuật toán sinh tên miềntự động (Domain Generation Algorithm - DGA) để kết nối với máy chủ điều khiểnC&C (Command and Control) [4] Điều này nhằm mục đích tránh bị phát hiện,ngăn chặn và loại bỏ bởi các hệ thống phát hiện xâm nhập/hệ thống ngăn ngừa xâmnhập (Intrusion Detection System - IDS/Intrusion Prevention System - IPS)

Hình 1.1 mô tả một kịch bản tấn công mang đặc trưng của DGA Botnet Banđầu, người dùng truy cập một trang web độc hại, có thể là do nhấp vào liên kết độchại từ email, trang web không an toàn, hoặc một nguồn không đáng tin cậy khác.Các trang web này đã được thiết kế để tự động tải xuống và triển khai phần mềmđộc hại mà không đòi hỏi sự chấp nhận rõ ràng từ phía người dùng

Ngay sau khi trang web độc hại được truy cập, phần mềm độc hại tự động khaithác các lỗ hổng trong hệ thống của người dùng hoặc sử dụng các kỹ thuật xâmnhập khác để âm thầm cài đặt mã độc trên thiết bị của họ Thiết bị của người dùng

Trang 23

sau đó

Trang 24

chuyển đổi thành một "bot", bị điều khiển từ xa bởi máy chủ điều khiển (C&Cserver) thuộc quyền sở hữu của kẻ tấn công.

Mã độc DGA là một kỹ thuật sử dụng một hạt giống để tự động tạo ra các chuỗiký tự có định dạng giống như tên miền, hay còn được biết đến là tên miền được sinhra bởi thuật toán (Algorithmically Generated Domains - AGD) Người kiểm soátBotnet đăng ký một tên miền, và tên miền đã đăng ký này trỏ đến địa chỉ IP củamáy chủ C&C Bot sau đó lần lượt truy vấn để các tên miền được sinh ra bởi thuậttoán để phân giải địa chỉ IP của máy chủ C&C, từ đó thiết lập kênh giao tiếp vớimáy chủ C&C Khi đã kết nối, các bot nhận lệnh để thực hiện cuộc tấn công DDoSlên một nạn nhân Sau khi thực hiện xong một tấn công, quá trình kết nối với máychủ C&C vẫn được duy trì thông qua việc liên tục truy vấn các tên miền được sinhbởi thuật toán để đợi các lệnh tấn công tiếp theo

(4)The botmaster registers one AGD

The registered AGD(5)points to the C&C

IP address

User visits

(1)maliciouswebsite

(2)The device is infected with malware to become a bot

DGA relies on a(3)seed to

generate a list ofAGDs

C&C server

(7) The bot establishes a C&C channel

Computer device (bot)

yjxwzvzqjxwq.bizqfzrxqjyfzqk.infoNXDOMAIN20.0.25.177

DNS serverMalware The bot sends DNS queries

(6) using AGDs to resolve the C&C IP address

Hình 1.1 Kịch bản tấn công đặc trưng của DGA BotnetViệc kết nối với máy chủ C&C thông qua DGA làm cho mạng Botnet trở nênkhó phát hiện hơn so với việc sử dụng địa chỉ IP hoặc tên miền được "hardcode"trong chương trình mã độc Nhờ sự thay đổi liên tục của các tên miền theo thuậttoán đã thiết lập, ngay cả khi tên miền của máy chủ C&C bị phát hiện cũng không

Trang 25

thể ngăn

Trang 26

chặn hoặc loại bỏ được mạng Botnet do các tên miền này chỉ được sử dụng trongmột thời gian ngắn trước khi bị loại bỏ khi chu kỳ sinh tên miền mới được bắt đầu.Vì vậy để vô hiệu hoá được mạng DGA Botnet sẽ phải xoá bỏ chương trình mã độcDGA trên tất cả các thiết bị bị lây nhiễm Trong thực tế, việc này không khả thi vìcác thiết bị bị lây nhiễm thường là các máy tính cá nhân, điện thoại di động, thiết bịIoT, camera, hoăc thiết bị mạng Việc loại bỏ mã độc phải do người dùng chủ độngphát hiện và thực hiện Tuy nhiên, điều này là không dễ dàng đối với người dùngphổ thông do hạn chế về nhận thức cũng như thiếu kiến thức và các kỹ năng cầnthiết.

Để có thể hiểu được các hành vi của DGA Botnet, các nhà nghiên cứu tiến hànhphân tích các mẫu mã độc DGA Botnet thu thập được cũng như phân tích dữ liệutruy vấn DNS do các mã độc sinh ra trong thực tế Trong báo cáo đầu tiên về DGAcủa Brett Stone-Gross và cộng sự [6] , dựa trên việc dịch ngược mã thực thi của mộtmẫu mã độc thu được, các tác giả đã xác định được thuật toán sinh tên miền sửdụng bởi Botnet Torpig Tác giả đã tìm ra được chu kỳ mỗi bot sinh ra một danhsách tên miền và sau đó liên lạc với máy chủ C&C Bằng cách giả mạo một máychủ C&C và đăng ký trước các tên miền, họ đã chiếm quyền điều khiển BotnetTorpig thành công trong vòng 10 ngày Johannes Bacher và các cộng sự [7] đã tiếnhành dịch ngược 43 mẫu mã độc DGA khác nhau được phát hiện trong thực tế Dựatrên các kết quả dịch ngược, các tác giả đã tìm ra được các thuật toán sinh tên miềnvà triển khai lại các thuật toán này bằng ngôn ngữ python Từ đó, họ đã tổng hợp vàthống kê lại các quy tắc và đặc điểm của các tên miền do thuật toán sinh của từngmã độc sinh ra Chi tiết vui lòng xem trong Phụ Lục

Về bản chất, DGA sử dụng một bộ sinh số giả ngẫu nhiên (PseudoRandomNumber Generator - PRNG) để tạo ra các tên miền ứng viên Tuy nhiên, chuỗi sinhra từ bộ sinh số giả ngẫu nhiên không thực sự là ngẫu nhiên hoàn toàn, mà nó dựavào một tập hợp các tham số cần thiết, được gọi là hạt giống (seed), và đóng vai tròlà một "shared secret" Các tham số này bao gồm các hằng số (ví dụ: độ dài của tênmiền hoặc hạt giống tạo số giả ngẫu nhiên) hoặc các chuỗi (ví dụ: bảng chữ cái haytập các Top Level Domain) Dựa vào giá trị seed, có hai loại chính của DGA (1)Giá trị seed khởi tạo phụ thuộc thời gian (Time dependence): DGA kết hợp với

Trang 27

nguồn thời gian (ví dụ: ngày giờ hiện tại, tỷ giá hối đoái, thời gian hệ thống của máychủ bị

Trang 28

random number

qrandom number

ebj3ykdfa8lq.info

xâm nhập) để tính toán các tên miền Những tên miền này sẽ chỉ có thời hạn hiệulực trong một khoảng thời gian cụ thể (2) Giá trị seed khởi tạo có tính xác định(Determinism): Loại DGA mà địa chỉ có thể quan sát được tại bất kỳ thời điểm nào,tức là, có thể được tính cho các trường hợp trong quá khứ và tương lai, dựa trên cáctham số đầu vào Hình 1.2 mô tả một thuật toán DGA đơn giản với giá trị seed khởitạo là ngày hiện tại Có hai phương pháp chính để DGA tạo ra các tên miền [9]:

- DGA dựa trên số học (Arithmetic-based DGAs): Sử dụng một hàm phânphối đều (uniform distribution generator) và các phép toán như nhân, chia,xor, dịch bit (bit shift), phép tìm dư (modulo) để tạo ra các chuỗi ký tự dạngtên miền như Conficker, Ramnit và nhiều loại khác

- DGA dựa trên danh sách các từ (Wordlist-based DGAs): Tạo ra các chuỗi kýtự bằng cách ghép các từ được lấy từ một hoặc nhiều danh sách từ Điều nàygiúp giảm tính ngẫu nhiên và tránh phương pháp phát hiện theo tên miền.Các danh sách từ này sẽ được nhúng trực tiếp vào mã nguồn của của phầnmềm độc hại hoặc thu từ một nguồn có thể truy cập công khai (nhưSuppobox kết hợp các từ trong từ điển tiếng anh với nhau để tạo ra các tênmiền)

InitializeTransform

t

…

Hình 1.2 Quy trình sinh tên miền bằng thuật toán DGA dựa trên giá trị nguồn là

ngày hiện tạiDễ dàng nhận thấy, các tên miền do DGA tạo ra sẽ phụ thuộc vào giá trị seed và

random random

.infrandom

number Shifrt

randomnumber Shif randomnumber Shi

Trang 29

sơ đồ hình thành (Generation Schemes) của thuật toán Và đây cũng là điểm yếu chính

Trang 30

của DGA là nếu ai biết được thuật toán và giá trị seed khởi tạo, họ có thể dự đoáncác tên miền sinh ra và ánh xạ chúng với địa chỉ IP của máy chủ C&C Điều này cóthể kiểm soát được mạng DGA Botnet.

Vì vậy, hướng tiếp cận truyền thống trong việc ngăn chặn được DGA Botnet làtìm ra các thuật toán sinh tên miền tự động và giá trị seed khởi tạo dựa trên các kỹthuật dịch ngược các mẫu mã độc lây nhiễm thu được Dựa trên thuật toán, các nhàbảo mật có thể tính toán được các tên miền sẽ sinh ra trong tương lai để có thểchiếm được quyền điều khiển Botnet trước tin tặc Tuy nhiên, việc thực hiện dịchngược không chỉ tốn nhiều thời gian mà còn đòi hỏi trình độ kỹ thuật cao Điều nàycòn kèm theo thực tế rằng việc dịch ngược mã nguồn (decomplier, disassembler)không phải lúc nào cũng khả thi, trong khi chỉ cần một sự thay đổi nhỏ, tin tặc cóthể tạo ra nhiều biến thể khác nhau của mã độc [5] Ngược lại, việc xác định thuậttoán và giá trị seed không phải là phương pháp duy nhất để dự đoán các tên miền

được sinh ra bởi DGA.Thông qua việc xem xét và đánh giá dựa trên phân tích một số họ mã độc DGAđã biết, các nhóm nghiên cứu đã nhận ra một số hành vi đặc trưng của DGA Botnet.Dễ dàng nhận thấy rằng các đặc trưng về hành vi của bot thường liên quan chặt chẽđến các truy vấn DNS Các bot trong mạng DGA Botnet sẽ tạo ra một lượng lớn cáctên miền dựa trên một cấu trúc nhất định tức là có mối quan hệ về ngữ nghĩa giữacác tên miền được sinh bởi cùng 1 thuật toán DGA Ngoài ra các bot truy vấn tất cảtên miền đã tạo đến các máy chủ DNS Tuy nhiên, chỉ một tập hợp nhỏ các tên miềnnày được đăng ký bởi tin tặc và được gán cho địa chỉ IP của máy chủ C&C và cáctên miền khác là không tồn tại Như vậy tần suất truy vấn tên miền mà trả vềNXDOMAIN của các bot trong mạng DGA Botnet sẽ lớn hơn các máy tính thôngthường Đây chính là hai đặc trưng nổi bật của DGA Botnet Trong phần tiếp theo,nghiên cứu sinh sẽ trình bày chi tiết về hai đặc trưng này của DGA Botnet

1.1.2 Đặc trưng về ngữ nghĩa của tên miền tạo ra bởi DGA Botnet

Dựa trên một giả định cơ bản rằng tên miền thông thường được tạo ra bởi conngười thường mang một ý nghĩa cụ thể và có thể phát âm, trong khi các tên miềnđược sinh tự động thường là ngẫu nhiên và không có ý nghĩa Hơn nữa, các tênmiền này tuân theo một cấu trúc nhất định, có thể tìm ra một mô hình ẩn dưới chúng

Trang 31

do cùng một thuật toán sinh ra Điều này mở ra khả năng chuyển bài toán phát hiệnDGA

Trang 32

Botnet thành bài toán phân loại tên miền là tên miền thông thường và tên miền do DGA tạo ra.

Để thiết lập cơ sở cho hướng nghiên cứu, nghiên cứu sinh đã thực hiện phân tíchsự khác biệt về đặc trưng ngữ nghĩa giữa các tên miền thông thường và tên miềnđược tạo ra bởi DGA Botnet Đại diện cho các tên miền thông thường (tên miền docon người tạo và đăng ký để sử dụng) được lựa chọn từ tập 1 triệu tên miền đượctruy cập nhiều nhất trên toàn cầu, theo thống kê của tổ chức Alexa thuộc Amazon[37], sau đây gọi chung là tập Alexa (non-DGA) Các tên miền do các DGA Botnettạo ra được lấy từ danh sách các tên miền do mã độc DGA tạo ra từ bộ dữ liệuOSINT DGA feed của Bambenek Consulting [38], một tổ chức chuyên điều tra vềan ninh mạng và tội phạm mạng Bambenek Consulting đã thu thập các mẫu thựcthi của mã độc DGA và sử dụng kỹ thuật dịch ngược để xác định các thuật toán tạotên miền, sau đó mô phỏng lại bằng Python để thu thập danh sách tên miền do mãđộc DGA đó tạo ra

Nghiên cứu sinh đã chọn mẫu gồm 1.000 tên miền từ tập tên miền Alexa DGA) và 1.000 tên miền tạo ra bởi mã độc PT Goz/Zeus (DGA) Sau đó, thực hiệnphân tích các đặc trưng thống kê, bao gồm độ dài (số ký tự trong mỗi tên miền),entropy, và mức độ ý nghĩa của tên miền

(non-Entropy xác định độ bất định của một tên miền Với tên miền 𝑑, entropy 𝐸(𝑑)bằng:

-∑& 𝑙𝑒𝑛(𝑤(𝑖))𝑀(𝑑) = # $%

Trong đó 𝑝 là độ dài của tên miền 𝑑 và 𝑛 là số từ có ý nghĩa trong tên miền Ví

Trang 33

dụ đối với chuỗi kí tự “stackoverflow”, mức độ ý nghĩa M được tính như biểu thứcbên dưới.

Trang 34

0𝑀(𝑑) = 𝑙𝑒𝑛(|𝑠𝑡𝑎𝑐𝑘|) + 𝑙𝑒𝑛(𝑜𝑣𝑒𝑟) + 𝑙𝑒𝑛(|𝑓𝑙𝑜𝑤|) 13 = 1 (1.3)

DGA

(a)4

32

DGA0

200

400

Trang 35

trưng (a) độ dài, (b) entropy và (c) mức độ ý nghĩa.Hình 1.3 thể hiện giá trị của các đặc trưng được tính toán từ 1.000 mẫu thuộc hailớp Alexa (non-DGA) và PT Goz/Zeus (DGA) Tên miền do DGA Botnet sinh rathường có độ dài lớn hơn so với tên miền bình thường Từ Hình 1.3 (a), ta thấy độdài của tên miền bình thường nằm trong khoảng từ 5 đến 15 ký tự và thường khácbiệt so với tên miền DGA (≥ 20 ký tự) Hình 1.3 (b) cho thấy sự khác nhau giữaentropy của tên miền bình thường và tên miền do DGA sinh ra Tên miền bìnhthường có dải entropy khá rộng từ 1.5 đến 3.4, còn đối với một mẫu DGA, entropythường lớn hơn và có dải phân bố hẹp từ 3.7 đến 4.3 Hình 1.3 (c) minh họa sự khácnhau giữa mức độ ý nghĩa của tên miền bình thường và tên miền do DGA sinh ra.Đối với tên miền bình thường M thường nằm khoảng 0.8 đến 1 Tên miền DGAthường có mức độ ý nghĩa nhỏ hơn do các ký tự được ghép một cách ngẫu nhiêntheo hàm mật độ phân bố đều Như vậy, có thể thấy các đặc trưng về ngữ nghĩa cóthể giúp phân loại một tên miền bình thường với tên miền do một thuật toán của mãđộc DGA sinh ra (từ đây sẽ gọi chung là tên miền độc hại) Đây là cơ sở cho hướngtiếp cận để xây dựng các bộ phân loại tên miền với đầu vào là các đặc trưng ngữnghĩa của tên miền và đầu ra xác định tên miền đó là bình thường hay tên miền độchại.

Trang 36

tên miền

Trang 37

DGA có độ dài lớn hơn và thể hiện mức độ ngẫu nhiên ngôn ngữ cao hơn so với tênmiền không phải DGA Điều này ám chỉ rằng ngữ nghĩa của tên miền có thể là mộtđặc điểm quan trọng trong việc phân biệt giữa các loại mã độc DGA Alexa vàSuppobox có điểm khớp từ điển tương đồng, vì Suppobox cũng dựa trên các tênmiền có thể phát âm được Quan sát cho thấy entropy và giá trị n-gram của Ramnitvà Ranbyus tương đồng với nhau Điều này xuất phát từ việc các mã độc này tậndụng cùng một bộ sinh ngẫu nhiên để thực hiện các phép nhân, chia và lấy dư trongmột hạt giống duy nhất Từ các phân tích trên, có thể thấy rằng các đặc trưng về ngữnghĩa đóng vai trò quan trọng trong quá trình phân loại giữa tên miền thông thườngvà tên miền độc hại Việc xây dựng một bộ phân loại đa lớp cho phép phân loại tênmiền thông thường và tên miền độc hại cũng như tên miền độc hại do các họ mãđộc khác nhau tạo ra là một hướng tiếp cận độc đáo trong bài toán phát hiện mã độcDGA Hiện nay, nhiều phương pháp phát hiện DGA Botnet dựa theo hướng tiếp cậnnày đã được các kết quả khả quan.

(a)

Trang 38

(d)

(e)Hình 1.4 Đặc trưng ngữ nghĩa/thống kê trích rút từ tên miền: (a) độ dài, (b)

Entropy, (c) Mức độ ý nghĩa, (d) 2-gram, (e) 3,4,5-gramTuy nhiên sẽ còn các thách thức mà các nhà nghiên cứu phải đối mặt và giảiquyết Với những đặc trưng riêng biệt về cú pháp và quy tắc xây dựng, việc xử lýtên miền sẽ phức tạp hơn so với xử lý từ trong các mô hình ngôn ngữ, nhưng cũngđơn giản hơn so với việc xử lý câu Rõ ràng, các đặc trưng thống kê đóng vai trò

Trang 39

trong quá trình phân loại và phát hiện DGA Những đặc trưng này được chọn lọcdựa trên mối liên kết giữa tên miền hoặc tên miền với tập cơ sở dữ liệu.

Tuy nhiên, tin tặc liên tục nỗ lực tăng cường khả năng che giấu của các DGABotnet bằng cách sử dụng các thuật toán sinh tên miền phức tạp dựa trên cơ sở trithức có sẵn Điều này dẫn đến việc các tên miền sinh ra thường mang những đặctrưng tương đồng với tên miền bình thường Mặt khác, mỗi đặc trưng về ngữ nghĩachỉ phù hợp với một số loại DGA cụ thể, điều này làm cho việc xác định một tậphợp đặc trưng phù hợp cho nhiều loại DGA khác nhau trở thành một thách thức lớn

1.1.3 Đặc trưng về tần suất truy vấn và loại truy vấn DNS của DGA Botnet

Như đã trình bày trong mục 1.1, bên cạnh tất cả các truy vấn DNS thông thườngdo con người tạo ra, tồn tại các lưu lượng DNS được sinh ra bởi một DGA Botnetđể có được địa chỉ IP của máy chủ C&C Điều này có nghĩa rằng các bot sẽ tạo ramột số lượng lớn các truy vấn DNS dựa trên các tên miền độc hại tạo ra bởi DGA.Tất cả các tên miền này sau đó được yêu cầu tại một máy chủ DNS Tuy nhiên tintặc sẽ chỉ đăng ký một tập hợp nhỏ của các tên miền này và gán chúng cho địa chỉIP của máy chủ C&C Chính vì vậy mà phần lớn các truy vấn DNS sẽ thất bại và trảvề các NXDOMAIN Trong khi đối với người dùng bình thường, truy vấn một tênmiền và nhận về phản hồi NXDOMAIN là hiếm xảy ra, thường chỉ do lỗi gõ nhầm,hoặc tên miền đó không còn được chủ sở hữu tiếp tục sử dụng Dưới đây là một sốđặc điểm khác nhau giữa truy vấn tên miền bình thường và tên miền sinh ra bởiDGA:

- Số lượng truy vấn DNS trả về NXDOMAIN của một máy tính bị lây nhiễmDGA lớn hơn rất nhiều so với các máy tính thông thường

- Tên miền sinh ra bởi thuật toán sẽ được nhiều địa chỉ IP truy vấn đến tại mộtthời điểm Đối với tên miền bình thường, các truy vấn sẽ diễn ra ở nhữngthời điểm riêng biệt Mặt khác phần lớn các tên miền đó đều làNXDOMAIN

Trang 40

trả về NXDOMAIN sinh ra bởi thuật toán DGA sẽ khác với NXDOMAINsinh ra bởi sự vô tình của người sử dụng DGA dựa trên phần mềm mã độctruy vấn