Bài viết này đề xuất bổ sung một nhóm gồm 4 đặc trưng phân loại tên miền mới kết hợp với 3 nhóm gồm 18 đặc trưng đã có nhằm cải thiện hiệu quả phát hiện của mô hình phát hiện DGA botnet dựa trên học máy. Các kết quả thử nghiệm cho thấy, nhóm đặc trưng phân loại mới giúp tăng đáng kể độ chính xác phát hiện và giảm tỷ lệ phát hiện nhầm.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00047 PHÁT HIỆN DGA BOTNET SỬ DỤNG KẾT HỢP NHIỀU NHÓM ĐẶC TRƯNG PHÂN LOẠI TÊN MIỀN Vũ Xuân Hạnh 1, Hoàng Xuân Dậu2 Trung tâm Ngoại ngữ, Tin học Bồi dưỡng ngắn hạn, Đại học Mở Hà Nội Khoa Công nghệ Thơng tin 1, Học viện Cơng nghệ Bưu Viễn thơng hanhvx@hou.edu.vn, dauhx@ptit.edu.vn TĨM TẮT: Trong năm gần đây, botnet trở thành nguy gây an tồn thơng tin hàng đầu chúng không ngừng phát triển quy mô mức độ tinh vi Nhiều dạng botnet sử dụng kỹ thuật DGA để sinh đăng ký nhiều tên miền ngẫu nhiên khác cho máy chủ lệnh điều khiển (C&C) chúng nhằm chống lại việc bị kiểm sốt Việc phân tích phát tên miền truy vấn hệ thống DNS giúp phát hoạt động botnet bot tồn hệ thống mạng liên tục sử dụng kỹ thuật DGA để sinh tên miền truy vấn hệ thống DNS để tìm địa IP máy chủ C&C Các mơ hình phát DGA botnet dựa phân phân loại tên miền botnet sinh tự động với tên miền bình thường nghiên cứu, đề xuất Bài báo đề xuất bổ sung nhóm gồm đặc trưng phân loại tên miền kết hợp với nhóm gồm 18 đặc trưng có nhằm cải thiện hiệu phát mơ hình phát DGA botnet dựa học máy Các kết thử nghiệm cho thấy, nhóm đặc trưng phân loại giúp tăng đáng kể độ xác phát giảm tỷ lệ phát nhầm Từ khóa: DGA botnet, phát DGA botnet, mơ hình phát botnet, đặc trưng n-gram I GIỚI THIỆU Trong năm gần đây, botnet đánh giá nguy gây an tồn thơng tin hàng đầu dạng mã độc (malware) hoạt động mạng Internet [1][2] Các botnet không ngừng phát triển mạng Internet tồn cầu quy mơ tinh vi kỹ thuật điều khiển Mỗi thành viên botnet gọi bot Bot malware nhóm tin tặc (botmaster) tạo cho phép chúng điều khiển hệ thống máy tính bị lây nhiễm từ xa Các bot khác với dạng malware khác chỗ chúng có tính tự động (autonomy) cao trang bị khả sử dụng kênh truyền thông để nhận lệnh thông báo trạng thái hoạt động đến hệ thống điều khiển Các hệ thống điều khiển, hay máy chủ lệnh điều khiển (Command and Control - C&C) phương tiện trung gian để botmaster gửi lệnh mã cập nhật đến bot Các botnet thường sử dụng để truyền tải phần mềm độc hại, gửi thư rác, đánh cắp thông tin nhạy cảm, lừa đảo, nghiêm trọng để thực công mạng quy mô lớn, công DDoS Theo số báo cáo, có khoảng 80% lưu lượng thơng tin Internet có liên quan đến hoạt động botnet, bao gồm hoạt động gửi thư rác công mạng [1][2] Dịch vụ tên miền (DNS - Domain Name Service) dịch vụ thiết yếu mạng Internet cho phép phân giải tên máy, tên miền sang địa IP ngược lại Chẳng hạn, trình duyệt máy khách cần truy nhập trang web, trước hết gửi yêu cầu đến hệ thống DNS để tìm địa IP máy chủ web, sau sử dụng địa IP tìm để truy nhập máy chủ web tải trang web Như vậy, hầu hết ứng dụng hợp pháp sử dụng dịch vụ DNS thực yêu cầu truy cập dịch vụ mạng Tuy nhiên, dịch vụ DNS bot botnet sử dụng ứng dụng hợp pháp Các bot gửi yêu cầu truy vấn DNS để tìm địa IP máy chủ C&C có địa IP, chúng truy nhập máy chủ C&C để nhận lệnh, để tải mã bot cập nhật Để lẩn tránh việc rà quét, phát máy chủ C&C, botmaster liên tục thay đổi tên địa IP máy chủ C&C theo kỹ thuật xác định trước, DGA (Domain Generation Algorithms), FF (Fast Flux) [3][4] Các thay đổi tên IP máy chủ C&C liên tục đẩy lên hệ thống DNS Các bot trang bị khả sinh tự động tên máy chủ C&C theo kỹ thuật Nhờ vậy, bot tìm địa IP máy chủ C&C cách sinh tên máy chủ tự động truy vấn dịch vụ DNS Do vậy, việc giám sát phân tích liệu truy vấn DNS, đặc biệt tên miền kết truy vấn tiết lộ tồn hành động độc hại hệ thống mạng giám sát phần liệu truy vấn DNS botnet tạo Phần lại báo cấu trúc sau: Mục II trình bày nghiên cứu có liên quan; Mục III giới thiệu mơ hình phát DGA botnet dựa học máy, giới thiệu khái quát học máy vấn đề tiền xử lý liệu; Mục IV phần thử nghiệm, kết nhận xét; Mục V kết luận báo II CÁC NGHIÊN CỨU LIÊN QUAN A Giới thiệu DGA botnet Như đề cập mục I, nhiều botnet sử dụng kỹ thuật DGA để sinh đăng ký nhiều tên miền ngẫu nhiên khác cho máy chủ lệnh điều khiển chúng nhằm chống lại việc bị kiểm soát đưa vào danh sách đen (Blacklist) [3][4] Lý việc sử dụng DGA làm phức tạp việc kiểm soát thu hồi tên miền Các botnet dạng gọi DGA-based botnet, hay ngắn gọn DGA botnet PHÁT HIỆN DGA BOTNET SỬ DỤNG KẾT HỢP NHIỀU NHÓM ĐẶC TRƯNG PHÂN LOẠI TÊN MIỀN 370 Thuật tốn DGA sử dụng toán tử kết hợp với biến có giá trị ln thay đổi, chẳng hạn năm, tháng, ngày, để sinh tên miền ngẫu nhiên Ví dụ, dạng thuật tốn DGA thực hàm có chứa 16 vịng lặp Mỗi vòng lặp sinh ngẫu nhiên ký tự tên miền sau [3][4]: year = ((year ^ * year) >> 11) ^ ((year & 0xFFFFFFF0) > 25) ^ 16 * (month & 0xFFFFFFF8) day = ((day ^ (day > 19) ^ ((day & 0xFFFFFFFE) >‟: Phép dịch phải bit Toán tử „