1. Trang chủ
  2. » Giáo Dục - Đào Tạo

tt phát hiện và phòng chống tấn công dga botnet sử dụng kỹ thuật học sâu

27 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Phương pháp nghiên cứu kết hợp lý thuyết và thực tiễn, sử dụng dữ liệu phân tích từ các chuyên gia bảo mật để tổng hợp và phân loại các hành vi đặc trưng về truy vấn DNS của DGA Botnet..

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC BÁCH KHOA HÀ NỘI

Hà Nội – 2024

Trang 2

Công trình được hoàn thành tại: Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:

- PGS.TS Nguyễn Linh Giang - TS Trần Hải Anh

Phản biện 1: Phản biện 2: Phản biện 3:

Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội

Vào hồi …… giờ, ngày … tháng … năm 2024

Có thể tìm hiểu luận án tại thư viện: 1 Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội 2 Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU Tính cấp thiết của đề tài

Trong những năm gần đây, Botnet đã trở thành một trong những mối đe dọa nghiêm trọng nhất đối với Internet Botnet là một mạng lưới các máy tính bị nhiễm malware, được kiểm soát từ xa bởi tin tặc thông qua máy chủ C&C (Command-and-Control Server) Với sự bùng nổ của các thiết bị kết nối, quy mô Botnet có thể lên đến hàng triệu bot Việt Nam thường xuyên nằm trong nhóm các nước có mức độ lây nhiễm cao nhất thế giới Botnet trở thành công cụ cho các cuộc tấn công DDoS có chủ đích, gây ra sự cố lớn cho hạ tầng mạng và ứng dụng Các phương pháp truyền thống để phát hiện và ngăn chặn tấn công trở nên không hiệu quả khi mà các truy vấn tấn công ngày càng giống các truy vấn thông thường Các nghiên cứu mới tập trung vào phát hiện và loại bỏ các bot của Botnet, đặc biệt là DGA Botnet, một loại Botnet sử dụng thuật toán sinh tên miền tự động để tránh bị phát

hiện Với đề tài "Phát hiện và phòng chống tấn công DGA Botnet sử dụng kỹ thuật học sâu", nghiên cứu tập trung vào giải quyết vấn đề

này để giảm số lượng nguồn tấn công và ngăn chặn các cuộc tấn công DDoS

Đối tượng nghiên cứu và phương pháp nghiên cứu

Việc áp dụng các giải thuật học sâu để giải quyết các thách thức trong an toàn thông tin là một xu hướng nghiên cứu đang phát triển mạnh mẽ Luận án này tập trung vào phát hiện DGA Botnet bằng cách mô hình hóa đặc trưng của các máy tính bị nhiễm mã độc DGA thông qua các phương pháp học sâu Phương pháp nghiên cứu kết hợp lý thuyết và thực tiễn, sử dụng dữ liệu phân tích từ các chuyên gia bảo mật để tổng hợp và phân loại các hành vi đặc trưng về truy vấn DNS của DGA Botnet Luận án tổng hợp, xem xét và đánh giá các phương pháp phát hiện DGA Botnet khác nhau để xác định xu hướng và hướng tiếp cận hiệu quả nhất Các phương pháp đề xuất đã được kiểm chứng và chứng minh qua thực nghiệm khoa học trên các bộ dữ liệu thử nghiệm thu thập từ môi trường thực tế Kết quả đánh giá giúp xác định các vấn đề hạn chế và đề xuất hướng tiếp cận tối ưu hơn cho việc phát hiện DGA Botnet trong tương lai

Trang 4

2

Nội dung nghiên cứu

Luận án tập trung vào phân tích đặc trưng của mã độc DGA thông qua tổng hợp dữ liệu truy vấn DNS hoặc sử dụng kỹ thuật dịch ngược Các đặc trưng này là cơ sở cho ba nội dung chính của nghiên cứu Thứ nhất, luận án nghiên cứu các phương pháp phát hiện DGA Botnet thông qua mô hình hóa hành vi của chúng, tập trung vào ứng dụng giải thuật học sâu như LSTM và các phương pháp cải tiến Thứ hai, tác giả tìm ra vấn đề mất cân bằng dữ liệu giữa các họ mã độc DGA trong quá trình huấn luyện mạng LSTM và đề xuất các kỹ thuật xử lý vấn đề không đồng đều dữ liệu cho LSTM Thứ ba, luận án tiếp tục nghiên cứu phương pháp phát hiện thiết bị nhiễm mã độc DGA dựa trên việc tích hợp các mô hình phân loại tên miền với các đặc trưng liên quan đến truy vấn DNS của mã độc DGA, nhằm xây dựng phương pháp phát hiện liên tục có độ chính xác cao theo thời gian thực

Ý nghĩa khoa học và ý nghĩa thực tiễn của luận án

Luận án đã đưa ra những đề xuất mới trong việc áp dụng các kỹ thuật học sâu để giải quyết các bài toán trong lĩnh vực an toàn thông tin Nghiên cứu sinh phát triển các phương pháp mới dựa trên mạng LSTM để xây dựng các bộ phân loại tên miền bình thường và tên miền do DGA Botnet sinh ra với độ chính xác cao Phương pháp Cost-Sensitive LSTM và LSTM.MI được đề xuất bởi nghiên cứu sinh là cách tiếp cận hiệu quả trong việc xử lý vấn đề không đồng đều của dữ liệu trong quá trình huấn luyện mạng LSTM trong bài toán phân loại đa lớp và đã được tham chiếu trong nhiều công trình nghiên cứu khác trong lĩnh vực phát hiện và ngăn chặn DGA Botnet Nghiên cứu sinh cũng đã đề xuất BotFighter là một hệ thống hiệu quả có khả năng liên tục phát hiện các máy tính bị nhiễm mã độc DGA thông qua kết hợp đặc trưng ngữ nghĩa và tần suất truy vấn DNS trả về NXDOMAIN bằng mô hình Markov ẩn và Định lý Bayes Phương pháp này có thể được tích hợp với hệ thống IDPS hoặc triển khai trực tiếp trên các máy tính và thiết bị cá nhân của người dùng cuối để liên tục phát hiện các thiết bị bị nhiễm mã độc với độ chính xác cao và đáp ứng yêu cầu xử lý thời gian thực Luận án này có ý nghĩa quan trọng trong việc nâng cao khả năng phát hiện và loại bỏ các bot trong mạng DGA Botnet, từ

Trang 5

đó giảm thiểu nguồn gốc của các cuộc tấn công DDoS, loại hình tấn công nguy hiểm nhất trong không gian mạng hiện nay

Điểm mới của luận án

Những điểm mới của luận án được thể hiện thông qua 03 đóng góp chính về học thuật như sau:

1 Đề xuất 2 phương pháp cải tiến LSTM trong bài toán phân loại tên miền (1) Kết hợp CNN và Bidireactional LSTM (2) Kết hợp các đặc trưng thống kê với các đặc trưng nội hàm của mạng LSTM 2 Đề xuất thuật toán Cost-Sensitive LSTM để giải quyết vấn đề

không đồng đều dữ liệu giữa các họ mã độc DGA khác nhau trong bài toán phân loại đa lớp Mô hình LSTM.MI, kết hợp giữa bộ phân loại hai lớp và đa lớp của thuật toán Cost-Sensitive LSTM giúp giảm tỷ lệ cảnh báo giả đối với tên miền thông thường và tăng tỷ lệ phát hiện với các họ mã độc có kích thước mẫu huấn luyện nhỏ

3 Đề xuất phương pháp BotFighter phát hiện liên tục máy tính bị nhiễm mã độc DGA có khả năng hoạt động theo thời gian thực Phương pháp được xây dựng dựa trên việc tích hợp bộ phân loại tên miền dựa trên LSTM và các đặc trưng tần suất truy vấn DNS thông qua mô hình Hidden Markov Model (HMM) kết hợp với định lý Bayes

Cấu trúc nội dung của luận án

Luận án được chia thành năm phần chính, bao gồm mở đầu, bốn chương nội dung, phần kết luận và tài liệu tham khảo Sau phần mở đầu, Chương 1 giới thiệu về tổng quan về DGA Botnet, các đặc trưng của nó và các hướng nghiên cứu liên quan Chương 2 trình bày về các giải thuật cải tiến cho LSTM trong bài toán phân loại tên miền do tác giả đề xuất Chương 3 đề xuất phương pháp Cost-Sensitive LSTM, giải quyết vấn đề mất cân bằng dữ liệu trong quá trình huấn luyện mạng LSTM Chương 4 trình bày về BotFighter - phương pháp phát hiện liên tục máy tính bị nhiễm mã độc DGA Cuối cùng, Chương 5 tổng kết kết quả chính và đóng góp của luận án, cũng như đề xuất hướng nghiên cứu tiếp theo

Trang 6

4

CHƯƠNG 1: TỔNG QUAN LĨNH VỰC NGHIÊN CỨU VÀ

ĐỊNH HƯỚNG NGHIÊN CỨU CỦA LUẬN ÁN 1.1 Tổng quan về DGA Botnet

Botnet là một mạng lưới các máy tính (bot) đã bị nhiễm phần mềm độc hại và được điều khiển từ xa thông qua các máy chủ C&C (Command and Control) Để giữ liên lạc với máy chủ C&C và tránh bị phát hiện cũng như loại bỏ, Botnet thường sử dụng thuật toán sinh tên miền tự động (Domain Generation Algorithm - DGA) để tạo ra hàng loạt tên miền theo một cấu trúc nhất định Các bot lần lượt truy vấn các tên miền này để xác định địa chỉ IP của máy chủ C&C, và các Botnet này được gọi chung là DGA Botnet Hình 1.1 mô tả một kịch bản tấn công đặc trưng của DGA Botnet Máy tính của người dùng bị lây nhiễm mã độc và biến thành một bot Các bot sử dụng một hạt giống cụ thể để sinh ra các tên miền và thực hiện truy vấn DNS đến các tên miền này Tin tặc sẽ lựa chọn một tên miền trong số đó, đăng ký và trỏ đến máy chủ C&C, qua đó thiết lập kênh liên lạc cho phép bot nhận lệnh thực hiện các hành động như tấn công từ chối dịch vụ phân tán (DDoS)

Hình 1.1 Kịch bản tấn công đặc trưng của DGA Botnet Một trong những đặc điểm nổi bật của DGA Botnet là việc liên tục thay đổi các tên miền, khiến việc phát hiện và chặn các kết nối đến

Malicious website

Computer device (bot)

C&C server

qfzrxqjyfzqk.infoNXDOMAIN20.0.25.177yjxwzvzqjxwq.biz

The bot establishes a C&C channel(7)

The bot sends DNS queries C&C IP address (6)

The registered AGD address(5)The botmaster registers one AGD(4)

DGA relies on a a list of AGDs (3)The device is infected with

malware to become a bot (2)

User visits malicious website(1)

Trang 7

máy chủ C&C trở nên khó khăn Ngay cả khi tên miền của máy chủ C&C được phát hiện, chúng thường chỉ được sử dụng trong một khoảng thời gian ngắn trước khi bị thay thế bằng tên miền mới Tuy nhiên, cơ chế này cũng tạo ra các đặc trưng riêng của DGA Botnet, liên quan chặt chẽ đến các truy vấn DNS

Đặc trưng về ngữ nghĩa của tên miền tạo bởi DGA Botnet: Dựa

trên giả định về sự khác biệt giữa tên miền thông thường và tên miền được sinh tự động bởi DGA, tác giả đã tiến hành phân tích các đặc trưng ngữ nghĩa như độ dài tên miền, entropy thông tin, mức độ ý nghĩa và n-gram từ mẫu của tên miền bình thường (Alexa) và tên miền do Ramnit, Ranbyus, Suppobox và Banjori tạo ra Kết quả cho thấy các tên miền DGA thường dài hơn (thường từ 20 ký tự trở lên) so với tên miền thông thường (từ 5 đến 15 ký tự) Entropy của tên miền DGA cũng cao hơn, cho thấy mức độ ngẫu nhiên lớn hơn Tên miền thông thường có mức độ ý nghĩa cao hơn so với tên miền DGA, với Suppobox và Alexa có đặc điểm tương đồng vì đều dựa trên các tên miền có thể phát âm được Độ entropy và giá trị 2-gram của Ramnit và Ranbyus giống nhau do sử dụng cùng một bộ sinh ngẫu nhiên Các phân tích này cho thấy các đặc trưng ngữ nghĩa đóng vai trò quan trọng trong việc phân loại tên miền, mở ra hướng tiếp cận độc đáo trong việc phát hiện mã độc DGA là chuyển thành bài toán phân loại tên miền bình thường và tên miền độc hại

Đặc trưng về tần suất truy vấn DNS của DGA Botnet: Các tên

miền do DGA Botnet sinh ra thường gây ra nhiều truy vấn DNS trả về NXDOMAIN (tên miền không tồn tại), vì chỉ một số ít tên miền được tin tặc đăng ký và gán cho máy chủ C&C Điều này tạo ra sự khác biệt giữa truy vấn DNS của máy tính thông thường và máy tính bị nhiễm mã độc DGA Thứ nhất, số lượng truy vấn NXDOMAIN từ máy tính bị nhiễm DGA Botnet thường lớn hơn đáng kể so với máy tính thông thường Thứ hai, tên miền do DGA tạo ra thường được nhiều địa chỉ IP truy vấn cùng lúc, trong khi truy vấn tên miền thông thường diễn ra riêng lẻ Cuối cùng, một Botnet thường sinh ra và sử dụng các tên miền mới trong cùng một khoảng thời gian, trái ngược với các tên miền thông thường không có sự liên kết như vậy Những hành vi này có thể được sử dụng để phát hiện DGA Botnet Thống kê về phản hồi NXDOMAIN cho thấy sự khác biệt về tần suất phản hồi giữa các loại

Trang 8

6 mã độc DGA, gợi ý rằng các phương pháp phát hiện cần cân nhắc đặc điểm này để tăng hiệu quả phát hiện và ngăn chặn Botnet

1.2 Tổng quan nghiên cứu liên quan

Thay vì tập trung vào việc dịch ngược mã thực thi của mã độc DGA Botnet, các nhà nghiên cứu chuyển hướng sang mô hình hóa các hành vi truy vấn DNS của các mạng DGA Botnet dựa trên hai đặc trưng của DGA đã được phân tích trước đó Từ đó, các nghiên cứu đã áp dụng nhiều phương pháp khác nhau, bao gồm học máy và học sâu, để phát hiện và chống lại các mạng DGA Botnet hiệu quả hơn Có hai hướng tiếp cận chính trong việc phát hiện mã độc DGA

Phương pháp phát hiện DGA Botnet dựa trên truy vấn DNS:

Các phương pháp phát hiện DGA Botnet chủ yếu dựa vào lưu lượng truy vấn DNS, trong đó các mẫu NXDOMAIN hoặc SERVFAIL có thể chỉ ra hoạt động của DGA McGrath và Gupta [12], Ma et al [13], và các nghiên cứu khác như Salomon và Brustoloni [16], Yadav [14][15], và Kwon et al [17] đều đã phát triển phương pháp sử dụng đặc điểm như từ điển, độ dài tên miền, phân bố xác suất ký tự, để nhận diện botnet Antonakakis et al [4] giới thiệu hệ thống Pleiades, dùng truy vấn NXDOMAIN để phát hiện và phân loại DGA và C&C, hiệu

quả với nhiều loại DGA mới Schiavoni et al [5] phát triển Phoenix,

sử dụng ngữ nghĩa tên miền và IP để phân loại Bilge et al [10] giới thiệu EXPOSURE, sử dụng cây quyết định J4.8 và các đặc điểm thời gian, DNS, tên miền để nhận dạng tên miền bất thường Sharifnya và Abadi [21] phát triển DFBotKiller, đánh giá hoạt động lịch sử DNS, trong khi Wang et al [20] đề xuất DBod, dựa vào phân tích truy vấn DNS Singh et al [22] sử dụng mô hình Random Forest trong BotDAD

để phân tích hành vi DNS và phát hiện botnet chính xác Mặc dù hiệu

quả, các phương pháp này đòi hỏi thu thập dữ liệu DNS từ mạng lớn và phân tích lưu lượng trong thời gian dài, không thích hợp cho ứng

dụng thời gian thực do yêu cầu xử lý tức thì Phương pháp phát hiện DGA Botnet dựa trên việc phân loại tên miền sử dụng học máy và học sâu: Để phát hiện DGA Botnet,

các kỹ thuật thời gian thực chủ yếu sử dụng các phương pháp học máy và học sâu để xây dựng bộ phân loại tên miền Các nghiên cứu trước đã sử dụng các đặc trưng như độ dài, entropy, n-gram và mức độ ý

Trang 9

nghĩa của tên miền Ví dụ, C5.0 [10][25], SVM [24][88], và ELM [26] là những phương pháp học có giám sát được áp dụng Manasrah [82] trích xuất 15 đặc trưng, và TF-IDF [87] đo tần suất n-gram Luận án Tiến sĩ của Vũ Xuân Hạnh [91] giới thiệu hai mô hình CDM và WDM với các đặc trưng khác nhau Xuan Dau Hoang [83] sử dụng Random Forest với 24 đặc trưng Woodbridge [27] áp dụng LSTM để phát hiện DGA, trong khi Sidi [84] sử dụng Autoencoder Tong Anh Tuan [86] và công bố [89] giới thiệu các mô hình học sâu với các biến thể của mạng LSTM Mặc dù các phương pháp này cải thiện độ chính xác, chúng làm tăng chi phí tính toán và không giải quyết hoàn toàn vấn đề xác định thiết bị nhiễm mã độc từ kết quả phân loại tên miền

1.3 Định hướng nghiên cứu của luận án

Luận án tập trung vào việc xác định các thiết bị nhiễm DGA qua đặc trưng truy vấn DNS, bao gồm phân loại tên miền thông thường hay do DGA tạo ra và kết hợp với tần suất truy vấn để phát hiện chính xác Luận án sẽ kiểm chứng lý thuyết và ứng dụng thực tế, giải quyết các vấn đề qua ba mục tiêu cụ thể Thứ nhất, luận án sẽ phát triển phương pháp phân loại tên miền sử dụng kỹ thuật học sâu, bắt đầu từ nghiên cứu về mạng LSTM áp dụng trong bài toán phân loại tên miền, sau đó phát triển lên các mô hình kết hợp với các biến thể khác nhau của mạng LSTM để tăng cường khả năng phân loại cho nhiều họ mã độc khác nhau Thứ hai, phân tích vấn đề mất cân bằng dữ liệu sẽ được thực hiện để xác định ảnh hưởng của nó đến hiệu quả của mô hình phân loại và đề xuất các kỹ thuật cân bằng dữ liệu nhằm cải thiện khả năng phát hiện chính xác các họ mã độc DGA Botnet Thứ ba, nghiên cứu sẽ đánh giá khả năng sử dụng phương pháp phân loại tên miền để nhận diện máy tính bị nhiễm mã độc DGA Botnet, phân tích sự liên kết giữa tên miền độc hại và mã độc, và khảo sát việc tích hợp thông tin ngữ cảnh, như tần suất truy vấn NXDOMAIN, vào mô hình để nâng cao khả năng phát hiện thiết bị nhiễm DGA Botnet Các kết quả của những nghiên cứu này sẽ được trình bày trong ba chương: Chương 2 tập trung vào các kết quả của định hướng thứ nhất, Chương 3 thảo luận về định hướng thứ hai, và Chương 4 tổng kết định hướng thứ ba, cung cấp cái nhìn chi tiết về các phương pháp, dữ liệu và kết quả nghiên cứu, làm sáng tỏ cách các phương pháp học sâu được áp dụng để phát hiện DGA Botnet hiệu quả

Trang 10

8

CHƯƠNG 2: PHÁT HIỆN DGA BOTNET DỰA TRÊN PHÂN

LOẠI TÊN MIỀN

Nghiên cứu của Woodbridge và đồng nghiệp [28] đề xuất một phương pháp mới sử dụng mạng nơ-ron Long-Short Term Memory (LSTM) để phát hiện mã độc DGA theo thời gian thực Phương pháp này không cần trích xuất đặc trưng và đạt hiệu suất cao hơn so với các phương pháp khác Tác giả cũng đề xuất hai kỹ thuật mới, bao gồm (1) cải tiến LSTM dựa trên kết hợp với đặc trưng thống kê, gọi tắt LSTM + Auxiliary input và (2) kết hợp CNN và Bidirectional LSTM, nhằm nâng cao khả năng phân loại và đáp ứng nhanh chóng trong thời gian thực

2.1 Phương pháp phân loại tên miền sử dụng LSTM với đặc trưng thống kê

Tác giả đã thực hiện một loạt các thí nghiệm để đánh giá hiệu quả của việc kết hợp các đặc trưng thống kê và mạng nơ-ron LSTM trong việc phát hiện tên miền DGA Trong quá trình này, các đặc trưng thống kê như độ dài của tên miền, entropy và mức độ ý nghĩa đã được sử dụng để tăng cường khả năng phân loại của mô hình Kết quả của nghiên cứu cho thấy rằng việc kết hợp các đặc trưng thống kê này với mạng LSTM đã mang lại hiệu suất phân loại tốt hơn so với việc sử dụng mỗi phần một cách độc lập Cụ thể, sự kết hợp này giúp mô hình có khả năng nhận diện các tên miền DGA với độ chính xác cao hơn, đồng thời giảm thiểu số lượng các False Positive và False Negative

Trong quá trình huấn luyện mạng LSTM, tên miền được chuẩn hóa thành các vectơ với giá trị số, và sau đó được biểu diễn trong không gian vector với kích thước được xác định dựa trên tham số của mạng Mạng LSTM với 128 ô nhớ được sử dụng để trích xuất các đặc trưng nội hàm từ dữ liệu Các đặc trưng này đại diện cho mối liên hệ giữa các ký tự trong tên miền và tương tự như n-gram đã được sử dụng trong các nghiên cứu trước đó Cuối cùng, đặc trưng nội hàm sẽ kết hợp với đặc trưng thống kê và được đưa qua tầng Dense nhằm làm mượt và tăng độ chính xác trong mô hình đề xuất Bản chất của tầng Dense là phép hồi quy tuyến tính, các véc tơ đặc trưng sẽ được biến đổi thành các giá trị xác xuất Đối với kịch bản hai lớp, tên miền đầu vào được phân loại dựa trên hàm kích hoạt Sigmoid và là bình thường

Trang 11

nếu giá trị xác suất đầu ra lớn hơn 0,5 Đối với kịch bản đa lớp, tên miền sẽ được gán vào phân lớp có giá trị xác suất (giá trị hàm Softmax tương ứng) lớn nhất Trong Hình 2.2, tác gỉả đề xuất sử dụng ba tầng Dense Giá trị này được đưa ra trong quá trình thực nghiệm nhằm đảm bảo sự cân bằng về mặt hiệu năng và độ chính xác

Hình 2.2 Sơ đồ phương pháp phát hiện phân loại tên miền sử dụng mạng LSTM truyền thống kết hợp với các đặc trưng thống

kê (LSTM + Auxiliary input) Thực nghiệm được tiến hành trên bộ dữ liệu gồm 88.357 tên miền bình thường [37] và 81.490 tên miền do 37 loại mã độc DGA sinh ra [38] Mô hình LSTM + Auxiliary input cho thấy hiệu năng cao hơn so với LSTM truyền thống và các phương pháp học máy khác, với điểm số Micro-averaging F1 là 0.9224 so với 0.9201 của LSTM truyền thống Đáng chú ý, với Macro-averaging F1-score, LSTM + Auxiliary input đã tăng từ 0.3816 (LSTM truyền thống) lên 0.4417 nhờ việc nhận biết thêm 3 họ mã độc DGA (Qadars, Corebot và Cryptolocker) Tuy nhiên, phương pháp này, giống như HMM, C5.0 và LSTM truyền

Trang 12

10 thống, gặp khó khăn với các mẫu DGA như Suppobox, Matsnu, và Cryptowall, có tên miền giống bình thường và ít dữ liệu huấn luyện Sự thiếu dữ liệu này ảnh hưởng đến quá trình học và khai thác mối quan hệ phi tuyến giữa các tên miền

2.2 Phương pháp phân loại tên miền sử dụng mạng Convolutiuonal Neural Network kết hợp với Bidirectional LSTM

Trong mô hình này, dữ liệu đầu vào là một tên miền 𝒙 được tạo thành từ một chuỗi các ký tự [𝑥!, 𝑥", , 𝑥#] với 𝑛 là độ dài của tên miền 𝒙 và đầu ra 𝑦$ là loại DGA tương ứng hoặc một tên miền thông thường Một hình đề xuất được minh họa tại Hình 2.4 Trong đó nhiệm

vụ của lớp mạng Convolutiuonal Neural Network (CNN) là trích chọn

đặc trưng ở mức trừu tượng cao và cung cấp đặc trưng đó cho lớp mạng Bidirectional LSTM nhằm tiếp tục xử lý và phân loại tên miền

Hình 2.3 Mô hình phát hiện DGA sử dụng mạng CNN kết hợp mạng Bidirectional LSTM CNN + Bidirectional LSTM)

Trang 13

Convolutional Neural Network biến đổi tên miền đầu vào thành ma trận đặc trưng, sau đó sử dụng bộ lọc để tính toán giá trị cho mỗi w-gram Giá trị này được đưa qua hàm tanh để tạo ra biểu diễn của tên miền Sau đó, CNN sử dụng maxpooling để lấy giá trị lớn nhất từ các biểu diễn này Các đặc trưng này sau đó được đưa vào mạng Bidirectional LSTM Bidirectional LSTM [36] là một mở rộng của mạng nơ-ron hồi quy hai chiều (Bidirectional RNN) và LSTM, nhằm tăng hiệu quả trong xử lý chuỗi và các bài toán phức tạp Bidirectional RNN có hai lớp mạng RNN xử lý chuỗi theo cả hai hướng, trong khi Bidirectional LSTM sử dụng hai lớp mạng LSTM để tạo ra hai vector đầu ra, thu thập thông tin từ cả quá khứ và tương lai Hàm Softmax ở lớp đầu ra xác định xác suất của từng phân lớp tên miền x Bidirectional LSTM giúp mô hình hóa mối quan hệ của một ký tự trong chuỗi tên miền với các ký tự bên trái và phải xung quanh nó Điều này rất quan trọng trong phân loại tên miền, vì các tên miền thường được tạo từ các ký tự có thể phát âm được, giống như từ trong ngôn ngữ, nên các ký tự ảnh hưởng lẫn nhau theo cả hai chiều

Tương tự như mục 2.1, thực nghiệm cũng được tiến hành trên bộ dữ liệu gồm 88.357 tên miền bình thường và 81.490 tên miền do 37 loại mã độc DGA sinh ra Phương pháp đề xuất được so sánh với các biến thể của LSTM, bao gồm LSTM + Auxiliary input, Recurrent SVM [42], CNN + LSTM [43], và Bidirectional LSTM [47] Các kết quả cho thấy các biến thể LSTM vượt trội hơn hẳn so với LSTM truyền thống Mặc dù LSTM + Auxiliary input, Recurrent SVM, và CNN+LSTM không cải thiện đáng kể độ chính xác tổng thể (Micro-averaging F1-score), chúng lại nâng cao đáng kể khả năng phát hiện mã độc DGA, cải thiện Macro-averaging F1-score từ 6 đến 8% so với LSTM truyền thống Đặc biệt, Bidirectional LSTM cho thấy ưu thế trong việc phát hiện thêm 5 họ mã độc DGA như Suppobox, Locky, Qadars, Symmi, và Corebot Nổi bật nhất, sự kết hợp giữa CNN và Bidirectional LSTM (CNN + Bidirectional LSTM) mang lại kết quả ấn tượng với Micro-averaging F1-score và Macro-averaging F1-score lần lượt là 0.9333 và 0.5162, cao hơn nhiều so với chỉ số của LSTM truyền thống là 0.9201 và 0.3816 Những kết quả này chứng minh rằng phương pháp kết hợp CNN và Bidirectional LSTM mang lại hiệu suất cao nhất trong việc phát hiện mã độc DGA

Ngày đăng: 16/09/2024, 11:40

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w