Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
815,53 KB
Nội dung
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG TĨM TẮT LUẬN ÁN NGHIÊN CỨU CÁC KỸ THUẬT PHÁT HIỆN DGA BOTNET NCS: VŨ XUÂN HẠNH TẬP THỂ HƯỚNG DẪN: PGS TS HOÀNG XUÂN DẬU TS NGƠ QUỐC DŨNG HÀ NỘI - 2022 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: TS Hồng Xn Dậu TS Ngơ Quốc Dũng Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại:…………………………………………………………………………………… ………………………………………………………………………………………… Vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện:…………………………………………………… (ghi tên thư viện nộp luận án) PHẦN MỞ ĐẦU GIỚI THIỆU Bot dạng phần mềm độc hại cho phép nhóm kẻ cơng, hay tin tặc kiểm sốt từ xa máy tính hệ thống tính tốn (gọi chung máy tính) có kết nối Internet Khi máy tính bị lây nhiễm bot, gọi máy tính ma, hay zombie Tập hợp máy bot nhóm tin tặc kiểm sốt (botmaster) gọi botnet - hay mạng bot Botmaster thường điều khiển bot botnet kiểm sốt thơng qua hệ thống máy chủ huy kiểm soát (Command and Control, C&C, CnC) Khác với phần mềm độc hại thông thường, bot botnet có khả tương tác với kết nối đến máy chủ CnC botnet để nhận lệnh mã cập nhật từ botmaster Hơn nữa, bot trang bị kỹ thuật ẩn tiên tiến, đóng gói, xáo trộn mã, mã hóa, nâng cấp, cập nhật mã nhị phân giúp cho chúng có khả tồn lâu dài hệ thống nạn nhân Quy mơ botnet khác nhau, từ hàng hàng chục ngàn đến hàng trăm ngàn bot phân tán vị trí địa lý mạng Internet Đặc biệt, số botnet Conficker theo ước tính có 10.5 triệu bot Trong năm gần đây, botnet xem mối đe dọa an ninh chủ yếu hệ thống thơng tin, thiết bị có kết nối người dùng Internet Điều botnet có liên hệ trực tiếp đến nhiều dạng công lạm dụng mạng Internet, công từ chối dịch vụ (DDoS) qui mô lớn lớn, gửi thư rác, truyền tải phát tán loại mã độc, sinh click like ảo đánh cắp thông tin nhạy cảm Hơn nữa, dạng công nguy hiểm botnet hỗ trợ thực bao gồm giả mạo địa URL, giả mạo hệ thống tên miền (DNS), công chèn mã độc ứng dụng web thu thập thông tin nhạy cảm từ người dùng Các tổ chức tài quan phủ thường mục tiêu dạng công botnet hỗ trợ thực Một vấn đề khác khiến cho mối đe dọa từ botnet trở lên nghiêm trọng, khó bị phát loại bỏ trình phát triển botnet liên tục tiến hóa mạng Internet qui mô mức độ tinh vi kỹ thuật điều khiển Do tính chất nguy hiểm botnet dạng mã độc mà botnet hỗ trợ truyền tải phát tán, nhiều giải pháp nghiên cứu, phát triển triển khai thực tế cho giám sát, phát loại bỏ botnet Có thể chia giải pháp giám sát, phát botnet thành nhóm: (1) giải pháp dựa honeynet (2) giải pháp dựa hệ thống phát xâm nhập (IDS) Các giải pháp thuộc nhóm (1) xây dựng honeynet - mạng bẫy để thu thập thông tin botnet hoạt động sau sử dụng thơng tin thu thập để phân tích đặc tính hành vi botnet Nhìn chung, giải pháp dựa honeynet có ưu điểm dễ xây dựng khơng u cầu lớn tài ngun tính tốn Tuy vậy, giải pháp thường bị hạn chế khả mở rộng khả tương tác với mã độc botnet Các giải pháp thuộc nhóm (2) sử dụng kỹ thuật giám sát, phát IDS để giám sát, phát botnet Dựa kỹ thuật phát hiện, giải pháp dựa IDS lại chia thành (i) phát dựa dấu hiệu, chữ ký (2) phát dựa bất thường Trong hướng phát dựa bất thường, hướng phát botnet dựa giám sát lưu lượng mạng, giám sát truy vấn hệ thống DNS sử dụng học máy quan tâm nghiên cứu, phát triển cho nhiều kết khả quan Luận án tập trung nghiên cứu phương pháp, kỹ thuật phát dấu hiệu hoạt động botnet sử dụng liệu truy vấn hệ thống DNS dựa học máy Trước hết, luận án thực khảo sát botnet, kiến trúc hoạt động botnet, khảo sát, hệ thống hóa giải pháp giám sát, phát botnet Sau đó, luận án phát triển thử nghiệm số mơ hình phát DGA botnet dựa kỹ thuật học máy sử dụng liệu truy vấn hệ thống DNS 2 TÍNH CẤP THIẾT CỦA LUẬN ÁN Như đề cập mục Giới thiệu, botnet thực trở thành mối đe dọa lớn mạng Internet toàn cầu chúng phát triển mạnh quy mô, mức độ phân tán, kỹ thuật điều khiển trực tiếp thực hiện, có liên quan chặt chẽ đến nhiều hoạt động độc hại, công DDoS, phát tán thư rác, quảng bá, phát tán loại phần mềm độc hại, phần mềm gián điệp, quảng cáo, giả mạo địa URL, giả mạo hệ thống DNS, công chèn mã độc ứng dụng web đánh cắp thông tin nhạy cảm hệ thống máy chủ hệ thống máy người dùng cuối Một số họ mã độc tống tiền (ransomware) phát gần có khả tự quảng bá, truyền thơng qua mạng botnet chí cơng có chủ đích (APT) bắt đầu sử dụng botnet để triển khai thực Trong vài năm qua, xu hướng mạng botnet dịch vụ (Botnet as a Service - BaaS) hình thành, làm giảm chi phí tội phạm mạng thực công liên tục với qui mơ lớn mặt khác, giúp chúng kiểm sốt botnet dễ dàng Cùng với xu hướng này, ngày có nhiều mạng botnet với quy mơ ngày tăng với mức độ phân tán cao, tạo mối đe dọa nghiêm trọng hệ sinh thái Internet Do mối đe dọa botnet mạng Internet toàn cầu, hệ thống, dịch vụ người dùng Internet ngày lớn, việc nghiên cứu, phát triển ứng dụng giải pháp giám sát, phát loại trừ botnet cấp thiết Tuy vậy, bot botnet thường có tính phân tán, khả giấu tính tự động (autonomy) cao, nên việc giám sát, phát loại trừ botnet gặp nhiều thách thức Giải pháp tổng thể để khắc chế mối đe dọa từ botnet cần phối hợp hành động từ nhiều bên có liên quan, bao gồm quan quyền, nhà cung cấp dịch vụ Internet (ISP), tổ chức, doanh nghiệp người dùng Internet Chẳng hạn, cần có khung pháp lý an tồn thơng tin mạng từ quan quyền; cần có hệ thống giám sát, phát hoạt động mã độc, bot, botnet cổng dịch vụ ISP, quan, tổ chức, doanh nghiệp; ý thức cảnh giác người dùng Internet Trong đó, giải pháp, kỹ thuật giám sát, phát hoạt động loại trừ bot, botnet đóng vai trị trọng yếu hướng nghiên cứu đề tài luận án - tập trung nghiên cứu phát botnet sử dụng kỹ thuật phát xâm nhập dựa bất thường Luận án sử dụng kỹ thuật phát xâm nhập dựa bất thường cho phát botnet kỹ thuật có ưu điểm bật có khả phát dạng bot, botnet mà khơng địi hỏi phải có trước thơng tin chúng kỹ thuật phát dựa dấu hiệu, chữ ký Hơn nữa, phát dựa bất thường cho phép tự động hóa q trình xây dựng mơ hình phát botnet từ tập liệu huấn luyện, nhờ giảm thiểu việc sử dụng nhân lực chuyên gia cho xây dựng thủ công tập luật phát Nhược điểm phát botnet dựa bất thường tỷ lệ cảnh báo sai (gồm tỷ lệ dương tính giả và tỷ lệ âm tính giả) cịn tương đối cao so với kỹ thuật phát dựa dấu hiệu, chữ ký Trong nhóm kỹ thuật phát botnet dựa bất thường, hướng (1) phát botnet dựa giám sát lưu lượng mạng (2) phát dựa giám sát phân tích truy vấn DNS thu hút quan tâm lớn cộng đồng nghiên cứu hãng bảo mật Nổi bật hướng (1) hệ thống giám sát, phát botnet phát triển triển khai, BotHunter, BotSniffer, BotTrack, BotMiner, BotFinder BotProbe Các hệ thống triển khai giám sát, thu thập lượng lớn liệu lưu lượng mạng có liên quan đến hoạt động bot botnet phục vụ cho phân tích Nhằm hỗ trợ cho nhóm nghiên cứu, Garcia cộng xây dựng liệu thu thập lưu lượng mạng botnet với nhiều kịch khác với tên CTU-13 Nhược điểm hệ thống dạng yêu cầu cao lực bắt, xử lý lưu trữ lượng lớn gói tin lưu thơng qua cổng mạng Điều làm giảm khả triển khai vận hành hiệu giải pháp dạng thực tế, đặc biệt cổng mạng có lưu lượng lớn Hướng (2) phát botnet dựa giám sát phân tích truy vấn DNS đơng đảo cộng đồng nghiên cứu quan tâm năm gần đây, đặc biệt với phát triển vượt trội họ DGA botnet DGA botnet gồm họ botnet sử dụng thuật toán để tự động sinh đăng ký tên miền cho máy chủ CnC chúng Đây kỹ thuật mà botnet sử dụng để thay cho tên miền địa IP cố định cho máy chủ CnC chúng nhằm lẩn tránh kỹ thuật rà quét chặn lọc Trong trình hoạt động botnet, botmaster tự động định kỳ sinh tên miền sử dụng kỹ thuật DGA cho máy chủ CnC botnet đăng ký với hệ thống DNS động Trong đó, bot botnet lập trình để tự động kết nối máy chủ máy chủ CnC botnet để tải lệnh mã cập nhật Để thực kết nối, bot định kỳ tự sinh tên miền máy chủ CnC sử dụng kỹ thuật DGA gửi tên miền lên hệ thống DNS cục để tìm địa IP máy chủ CnC Nếu bot nhận địa IP từ hệ thống DNS, tạo kết nối đến máy chủ CnC để tải lệnh mã cập nhật Nếu tên miền truy vấn không tồn tại, bot lại sinh tên miền thực lại trình truy vấn hệ thống DNS chu kỳ Mỗi họ DGA botnet sử dụng thuật toán DGA sinh tên miền khác số lượng, tần suất sinh tên miền khác Một số họ botnet sử dụng thuật toán DGA sinh tên miền dựa thời gian, dựa việc tổ hợp ngẫu nhiên ký tự (character-based DGA), dựa việc tổ hợp từ lấy từ điển (word-based DGA), dựa kết hợp tổ hợp ngẫu nhiên ký tự tổ hợp từ lấy từ điển (mixed DGA) Về số lượng tên miền sinh, số botnet sinh vài chục tên miền vòng đời hoạt động, có botnet sinh hàng chục, chí hàng trăm ngàn tên miền vòng đời hoạt động chúng Như vậy, hoạt động DGA botnet gắn liền với việc truy vấn hệ thống DNS, nên giám sát phân tích truy vấn máy chủ DNS tìm chứng tồn bot hoạt động botnet Có nhiều giải pháp, kỹ thuật sử dụng cho giám sát, phân tích lưu lượng truy vấn DNS nhận dạng, phân loại tên miền sử dụng botnet tên miền hợp lệ Trong thời gian gần đây, phương pháp học máy sử dụng rộng rãi nhận dạng, phân loại tên miền sử dụng botnet tên miền hợp lệ nhờ đạt độ xác cao khả tự động hóa xây dựng mơ hình phát từ tập liệu huấn luyện Ưu điểm đề xuất nêu độ xác tương đối cao thử nghiệm với tập liệu cụ thể khả tự động hóa việc xây dựng mơ hình phát Tuy vậy, tỷ lệ cảnh báo sai đề xuất cao, đến 10% với, ảnh hưởng đến khả triển khai thực tế Lý cho vấn đề tập đặc trưng, phương pháp phân loại sử dụng đề xuất có chưa thực phù hợp để nhận dạng khác biệt tên miền DGA tên miền hợp lệ Ngoài ra, số họ DGA botnet liên tục sử dụng thuật toán sinh tên miền mới, họ word-based mixed DGA cho phép sinh tên miền DGA giống với tên miền hợp lệ số đề xuất có khơng có khả phát họ DGA botnet Đề tài “Nghiên cứu kỹ thuật phát DGA botnet” thực phạm vi luận án tiến sĩ chuyên ngành hệ thống thơng tin nhằm góp phần giải số vấn đề tồn kỹ thuật, giải pháp phát dạng DGA botnet, bao gồm: (1) lựa chọn, trích xuất tập đặc trưng phù hợp để phân biệt tốt tên miền DGA tên miền hợp lệ, nhằm tăng độ xác phát hiện, giảm tỷ lệ cảnh báo sai (2) phát triển mơ hình kết hợp có khả phát đồng thời nhiều họ DGA botnet MỤC TIÊU CỦA LUẬN ÁN Mục tiêu luận án nghiên cứu, đề xuất số mơ hình phát botnet dựa kỹ thuật học máy Cụ thể, luận án tập trung vào mục tiêu sau: (1) Nghiên cứu, đánh giá phương pháp, kỹ thuật, giải pháp, công cụphát botnet có; (2) Nghiên cứu, đề xuất mơ hình phát botnet dựa học máy có giám sát học kết hợp sử dụng tập đặc trưng phân loại tên miền nhằm nâng cao độ xác, giảm cảnh báo sai, đồng thời cho phép phát nhiều dạng DGA botnet; (3) Cài đặt, thử nghiệm đánh giá mơ hình phát botnet đề xuất sử dụng tệp liệu thực tế ĐỐI TƯỢNG NGHIÊN CỨU VÀ PHẠM VI NGHIÊN CỨU Đối tượng nghiên cứu botnet đặc biệt họ DGA botnet Phạm vi nghiên cứu giới hạn kỹ thuật, giải pháp phát DGA botnet sử dụng liệu truy vấn DNS PHƯƠNG PHÁP NGHIÊN CỨU Luận án sử dụng phương pháp nghiên cứu lý thuyết kết hợp với phương pháp thực nghiệm Trong đó, phương pháp nghiên cứu lý thuyết sử dụng để thực phần việc sau: (1) Nghiên cứu tảng lý thuyết botnet cho luận án, bao gồm khái quát botnet, bot, phương thức hoạt động botnet, đề botnet khai thác hệ thống DNS trình hoạt động; (2) Nghiên cứu tảng lý thuyết học máy cho luận án, bao gồm khái quát học máy, số giải thuật học máy có giám sát, phương pháp đánh giá độ đo đánh giá mơ hình phát dựa học máy; (3) Khảo sát, đánh giá đề xuất, giải pháp có cho phát botnet, DGA botnet, sở tổng hợp ưu điểm, nhược điểm làm sở cho đề xuất luận án; (4) Lựa chọn, đề xuất đặc trưng mới, xây dựng mơ hình phát DGA botnet dựa phân loại miền DGA với tên miền hợp lệ Phương pháp thực nghiệm sử dụng luận án để thực phần việc sau: (1) Khảo sát tập liệu botnet, DGA botnet lựa chọn tập liệu phù hợp cho thực nghiệm; (2) Thử nghiệm mơ hình phát DGA botnet đề xuất luận án, đánh giá, so sánh mơ hình đề xuất với mơ hình, đề xuất có CÁC ĐĨNG GĨP CỦA LUẬN ÁN Đóng góp thứ luận án đề xuất mơ hình phát DGA botnet dựa học máy sử dụng đặc trưng ký tự đặc trưng từ Mơ hình sử dụng đặc trưng ký tự có khả phát hiệu character-based DGA botnet - botnet tự sinh tên miền sử dụng thuật toán ghép ngẫu nhiên ký tự Mơ hình sử dụng đặc trưng từ có khả phát hiệu word-based DGA botnet - botnet tự sinh tên miền sử dụng thuật tốn ghép từ theo từ điển Đóng góp thứ hai luận án đề xuất mơ hình phát DGA botnet dựa học kết hợp (ensemble learning) Mơ hình cho phép phát hiệu character-based word-based DGA botnet sử dụng thuật toán học kết hợp BỐ CỤC CỦA LUẬN ÁN Luận án bố cục thành ba chương với nội dung sau: Chương giới thiệu tổng quan botnet, khái quát phát botnet, kỹ thuật phát botnet số giải pháp, công cụ phát botnet Chương giới thiệu khái quát học máy mô tả số giải thuật học máy có giám sát sử dụng mơ hình phát botnet đề xuất chương Phần chương mô tả tập liệu liên quan đến botnet sử dụng luận án Phần cuối chương vấn đề giải luận án Chương trình bày khái quát DGA botnet chế DGA botnet khai thác hệ thống DNS để trì hoạt động Chương khảo sát phương pháp, đề xuất có cho phát botnet nói chung DGA botnet nói riêng Phần chương mô tả, thử nghiệm đánh giá mô hình phát character-based DGA botnet dựa học máy sử dụng đặc trưng ký tự Phần cuối chương mơ tả, thử nghiệm đánh giá mơ hình phát character-based DGA botnet dựa học máy sử dụng đặc trưng ký tự Chương giới thiệu khái quát học kết hợp (ensemble learning), khảo sát kỹ thuật phát DGA botnet dựa học kết hợp Phần cuối chương mô tả, thử nghiệm đánh giá mơ hình phát DGA botnet đề xuất dựa học kết hợp Cuối Kết luận luận án CHƯƠNG 1: TỔNG QUAN VỀ BOTNET VÀ PHÁT HIỆN BOTNET 1.1 TỔNG QUAN VỀ BOTNET 1.1.1 Khái quát botnet phương thức hoạt động 1.1.1.1 Giới thiệu bot, botnet Bot loại phần mềm độc hại cho phép kẻ công giành quyền kiểm sốt máy tính, thiết bị tính tốn bị lây nhiễm Máy tính bị nhiễm bot thường gọi zombie máy tính ma Trên thực tế có hàng ngàn, hàng trăm ngàn máy tính thiết bị tính tốn có kết nối Internet bị nhiễm số loại bot mà người dùng khơng nhận chúng Kẻ cơng truy cập zombie kích hoạt chúng thực thi công từ chối dịch vụ, gửi hàng loạt thư rác Khi thực truy vết ngược lại nguồn khởi phát công, người ta thường tìm thấy zombie - nạn nhân kẻ công thực Các bot một nhóm kẻ cơng thơng qua máy tính (gọi botmaster) kiểm soát chúng liên kết tạo thành mạng lưới máy bị kiểm soát gọi botnet Botmaster thường điều khiển bot botnet kiểm sốt thơng qua hệ thống máy chủ huy kiểm soát (Command and Control, C&C, CnC), minh họa Hình 1.1 Kênh giao tiếp bot máy chủ CnC botnet IRC, HTTP giao thức truyền thơng khác Hình 1.1: Mơ hình botmaster kiểm sốt bot thông qua máy chủ CnC 1.1.1.2 Phương thức hoạt động, vòng đời Vòng đời mạng botnet bao gồm bước Theo đó, bước vòng đời botnet bao gồm Khởi tạo, Đăng ký, Lây nhiễm sơ bộ, Xây dựng mạng bot, Tập hợp, Khởi động cơng, Nâng cấp bảo trì 1.1.2 Phân loại botnet Các botnet phân loại theo tiêu chí: (i) kiến trúc mạng (ii) giao thức truyền thơng Botnet tổ chức theo nhiều mơ hình mạng, chủ yếu theo mơ hình tổ chức hệ thống máy chủ CnC trung gian botmaster bot Các giao thức truyền thông giao thức hỗ trợ giao tiếp máy chủ CnC bot botnet 1.1.3 Lịch sử phát triển botnet 1.1.4 Tác hại dạng khai thác botnet Botnet sử dụng cho loạt hành động nguy hiểm, bao gồm công DDoS, tạo gửi thư rác (Spam), lừa đảo, lây lan phần mềm độc hại, quảng bá phần mềm quảng cáo, gián điệp, lưu trữ trang web nội dung độc hại 1.2 PHÁT HIỆN BOTNET 1.2.1 Khát qt phát botnet Chính mối đe dọa từ botnet ngày gia tăng, phát botnet đề cập đến việc phát hoạt động nguy hiểm, bất thường thực môi trường mạng kiểm soát Phát botnet thách thức lớn nhà nghiên cứu tổ chức botnet xem mục tiêu di động nhờ tính phân tán cao khả ẩn bot Như vậy, tất khía cạnh có liên quan đến phát botnet bao gồm phát hiện, giảm thiểu phản ứng phải ln thay đổi theo thời gian Để phòng chống botnet hiệu cần phối hợp nhiều bên liên quan Các bên liên quan khác nhau, ví dụ quan phủ, doanh nghiệp, nhà mạng nhà cung cấp dịch vụ Internet (ISP) có nhiều cách tiếp cận khác để xử lý vấn đề botnet 1.2.2 Các kỹ thuật phát botnet Có nhiều kỹ thuật phát botnet đề xuất ứng dụng Mục trình bày nhóm kỹ thuật phát botnet sử dụng phổ biến, bao gồm (i) phát dựa honeynet, (ii) phát dựa luật, dấu hiệu (iii) phát dựa bất thường 1.2.2.1 Phát dựa Honeynet 1.2.2.2 Phát dựa luật, dấu hiệu 1.2.2.3 Phát dựa bất thường 1.2.3 Một số giải pháp, cơng cụ phát botnet Có nhiều giải pháp, công cụ phát botnet phát triển triển khai ứng dụng thực tế Mục mô tả công cụ giám sát, phát botnet điển hình, gồm BotHunter, BotSniffer BotTrack 1.3 KHÁI QUÁT VỀ HỌC MÁY VÀ CÁC THUẬT TOÁN SỬ DỤNG Phân loại nhị phân nhiệm vụ phân loại phần tử tập hợp đối tượng thành nhóm dựa sở số thuộc tính (cịn gọi đặc trưng) Đây kỹ thuật phù hợp vấn đề phát truy cập bất hợp pháp, công mạng, 1.3.1 Giới thiệu học máy 1.3.2 Một số thuật tốn học máy có giám sát Mục trình bày số thuật tốn học máy có giám sát truyền thống sử dụng mơ hình phát botnet đề xuất Chương Chương luận án, bao gồm: Naïve Bayes, Cây định, Rừng ngẫu nhiên, SVM Hồi quy Logistic 1.3.3 Các độ đo đánh giá Để đánh giá khả phát mơ hình đề xuất Chương Chương 3, luận án sử dụng sáu độ đo bao gồm: PPV, TPR, FPR, FNR, F1 ACC Ngoài ra, luận án sử dụng tỷ lệ phát (DR-Detection Rate) để đo lường hiệu mô hình phát đề xuất dự đốn tên miền DGA botnet khác trình kiểm thử mơ hình giai đoạn phát DR cho loại botnet tính sau: DR = NoDB NoTest ( 1.1 ) đó, NoDB số tên miền DGA botnet dự đoán NoTest tổng số tên miền DGA botnet đưa vào kiểm tra 1.4 CÁC TẬP DỮ LIỆU CHO PHÁT HIỆN BOTNET SỬ DỤNG 1.4.1 Tập liệu Netlab360 Netlab 360 tập liệu chủ yếu sử dụng luận án Đây liệu Network Security Research Lab at 360 cung cấp công khai với hàng triệu mẫu từ nhiều họ DGA thu thập từ hệ thống mạng thực tế Hệ thống phát DGA botnet Netlab 360 sàng lọc lượng liệu khổng lồ mẫu phần mềm độc hại để tìm DGA botnet đáng ngờ, theo thời gian thực Nguồn liệu họ DGA botnet liên tục cập nhật từ cá nhân tổ chức nghiên cứu DGA botnet 1.4.2 Các tập liệu khác sử dụng Ngoài liệu botnet từ hai tập liệu trình bày trên, liệu DGA botnet bổ sung từ sưu tập 33 DGA botnet tác giả Johannes Bader (bao gồm mã nguồn thuật tốn sinh) Để có kết đánh giá cách tổng quát, luận án sử dụng liệu UMUDGA Universidad de Murcia Bộ liệu có 30 triệu tên miền tạo theo thuật tốn gắn nhãn thủ cơng sẵn sàng sử dụng cho phân tích học máy Từ liệu chọn số họ botnet chưa công bố Netlab360 để thử nghiệm phát dựa mơ hình đề xuất chương chương Tập liệu tên miền lành tính lấy top triệu tên miền Alexa Các tên miền lược bỏ TLD, lấy phần SLD loại bỏ tên miền trùng (có TLD khác nhau) Luận án sử dụng 110,000 tên miền có thứ hạng cao tệp liệu để xây dựng kiểm thử mơ hình phát DGA botnet đề xuất 1.5 HƯỚNG NGHIÊN CỨU CỦA LUẬN ÁN 1.5.1 Ưu điểm nhược điểm kỹ thuật phát botnet Bảng 1.1 tổng hợp ưu điểm nhược điểm kỹ thuật phát botnet Bảng 1.1: Ưu nhược điểm kỹ thuật phát botnet Kỹ thuật Ưu điểm Nhược điểm Phát dựa Honeynet Đơn giản triển khai, yêu cầu nguồn lực, chi phí triển khai tối thiểu hữu dụng với liệu mã hố Có khả phát nhanh xác bot botnet biết Khó mở rộng, nhiều thách thức giám sát dạng botnet dạng cơng có liên quan, có khả bị vơ hiệu hóa Phát dựa luật, dấu hiệu Phát dựa Có khả phát dạng bất thường bot, botnet mới, có khả tự động hóa việc xây dựng mơ hình phát Khơng có khả phát bot botnet mới, cần thường xuyên cập nhật sở liệu dấu hiệu, chữ ký Tỷ lệ cảnh báo sai thường cao so với phát dựa luật, dấu hiệu; địi hỏi tài ngun tính tốn lớn cho xây dựng mơ hình giám sát phát 1.5.2 Các vấn đề giải luận án Từ việc phân tích mơ hình hoạt động tác hại dạng botnet nói chung DGA botnet nói riêng, việc nghiên cứu giải pháp, kỹ thuật phát botnet, DGA botnet cấp thiết Luận án nghiên cứu, khảo sát kỹ thuật phát botnet dựa Honeynet, dựa dấu hiệu, luật, dựa bất thường số giải pháp, công cụ cho giám sát phát dạng botnet Mỗi phương pháp, giải pháp có ưu điểm nhược điểm riêng mục 1.5.1 Hướng nghiên cứu luận án sử dụng phương pháp phát bot, botnet dựa bất thường phương pháp có khả phát dạng bot, botnet mới, đồng thời có khả tự động hóa việc xây dựng mơ hình phát Trên sở khảo sát, phân tích ưu điểm hạn chế đề xuất có, luận án tập trung nghiên cứu, giải vấn đề sau: (1) nghiên cứu, đề xuất tập đặc trưng phân loại tên miền phù hợp cho xây dựng mơ hình phát DGA botnet, nhằm tăng tỷ lệ phát giảm tỷ lệ cảnh báo sai (2) nghiên cứu, lựa chọn sử dụng phương pháp học máy phù hợp cho xây dựng mơ hình phát DGA botnet, nhằm xây dựng mơ hình phát thống cho phép phát hiệu nhiều dạng DGA botnet Vấn đề (1) tập đặc trưng phân loại tên miền sử dụng đề xuất có chưa thực phù hợp để phân biệt tên miền DGA với tên miền lành tính dẫn đến tỷ lệ cảnh báo sai tương đối cao Vấn đề (2) xuất phát từ thực tế đề xuất có có khả phát hiệu số họ DGA botnet, tập liệu cụ thể, mà phát hiệu nhiều dạng DGA botnet 1.6 KẾT LUẬN CHƯƠNG Botnet trở thành mối đe dọa an ninh cho quan, tổ chức, doanh nghiệp người dùng Internet Do vậy, nghiên cứu phát triển kỹ thuật giải pháp hiệu cho giám sát, phát botnet việc cấp thiết Chương giới thiệu tổng quan botnet, vấn đề phát botnet, khái quát học máy giải thuật học máy sử dụng cho phát botnet tập liệu sử dụng luận án Cụ thể, phần đầu chương trình bày khái quát botnet phương thức hoạt động chúng, phân loại botnet dựa kiến trúc mạng giao thức truyền thông, vắn tắt lịch sử phát triển botnet tác hại dạng khai thác botnet Một nội dung trình bày chương vấn đề phát botnet Luận án phân tích hướng phát botnet sử dụng phổ biến bao gồm: phát dựa honeynet, phát dựa luật, dấu hiệu phát dựa dựa bất thường, đồng thời tổng hợp ưu nhược điểm hướng làm sở cho hướng nghiên cứu luận án Trong hướng phát botnet dựa dựa bất thường, việc ứng dụng học máy xây dựng mơ hình giải pháp phát botnet ngày quan tâm học máy ứng dụng để tự động hóa việc xây dựng mơ hình hồ sơ phát Điều giúp giảm đáng kể yêu cầu nhân lực chuyên gia cho xây dựng tập luật, dấu hiệu theo phương pháp thủ công Để phục vụ cho việc ứng dụng học máy mơ hình phát botnet đề xuất chương chương 3, chương trình bày khái quát học máy, tập trung mơ tả thuật tốn học máy có giám sát truyền thống Chương mô tả độ đo đánh giá mơ hình phát DGA botnet dựa học máy đề xuất luận án Phần chương trình bày tập liệu sử dụng luận án, bao gồm tập liệu Netlab 360, CTU-13 tập liệu tên miền lành tính từ nguồn Alexa Đây tập liệu tên miền DGA botnet sinh ra, thu thập từ nhiều nguồn Từ tập liệu gốc, luận án xây dựng tập liệu chung, gồm tập tên miền DGA tập tên miền lành tính sử dụng mơ hình phát botnet dựa học máy đề xuất luận án chương chương Phần cuối chương nêu vấn đề tập trung giải chương luận án CHƯƠNG 2: PHÁT HIỆN DGA BOTNET DỰA TRÊN HỌC MÁY SỬ DỤNG CÁC ĐẶC TRƯNG KÝ TỰ VÀ TỪ 2.1 DGA BOTNET VÀ CƠ CHẾ KHAI THÁC HỆ THỐNG DNS 2.1.1 Khái quát DGA botnet 2.1.1.1 Giới thiệu DGA botnet DGA botnet họ botnet sử dụng kỹ thuật DGA (Domain Generation Algorithm) để sinh đăng ký nhiều tên miền ngẫu nhiên khác cho máy chủ huy điều khiển CnC chúng nhằm chống lại việc bị kiểm soát đưa vào danh sách đen Các botnet dạng gọi DGA-based botnet, hay ngắn gọn DGA botnet Các DGA botnet sử dụng thuật toán DGA để định kỳ sinh đăng ký lượng lớn tên miền giả ngẫu nhiên mà chúng phân giải thành địa IP máy chủ CnC botnet Lý việc sử dụng DGA làm phức tạp việc kiểm soát thu hồi tên miền Nếu botnet sử dụng tên miền tĩnh cho máy chủ CnC nó, việc kiểm sốt thu hồi tên miền thực dễ dàng thông qua việc phối hợp với bên quản lý tên miền gốc để chỉnh sửa ghi tên miền máy chủ DNS Tuy nhiên, DGA sử dụng để sinh tên miền động, việc 11 kỹ thuật phân tích phân bố nguyên âm, chữ số ký tự khác để phân biệt tên miền hợp lệ tên miền sinh thuật toán botnet Mở rộng hơn, đề xuất sử dụng nhóm đặc trưng tên miền, gồm đặc trưng DNS (địa IP, địa mạng, quốc gia, TTL, ) đặc trưng từ vựng (phân bố ký tự tên miền) Trong đó, đề xuất sử dụng 36 đặc trưng nhóm, gồm 18 đặc trưng từ vựng (trung bình, phương sai độ lệch chuẩn 1-gram, 2-gram, 3-gram 4-gram, entropy, đặc trưng ký tự, số, nguyên âm, phụ âm) 18 đặc trưng mạng (TTL, số lượng địa mạng, ) Kế thừa từ công bố trước nhóm nghiên cứu [24], luận án tập trung khai thác đặc trưng thống kê từ vựng dựa cụm 2-gram 3-gram, đặc trưng phân bố dạng ký tự tên miền Cụ thể, mơ hình CDM đề xuất sử dụng 24 đặc trưng mức ký tự cho tên miền, bao gồm: - Đặc trưng n-gram gồm 16 đặc trưng thống kê cho cụm 2-gram 3-gram; - Đặc trưng loại ký tự gồm đặc trưng phân bố nguyên âm, ký tự, chữ số; - Đặc trưng thống kê gồm đặc trưng entropy theo ký tự giá trị kỳ vọng tên miền 2.2.4.2 Các đặc trưng n-gram 2.2.4.3 Các đặc trưng loại ký tự 2.2.4.4 Các đặc trưng thống kê 2.2.5 Thử nghiệm kết 2.2.5.1 Kịch thử nghiệm Tập liệu huấn luyện gồm 200,000 tên miền sử dụng để xây dựng kiểm tra hiệu suất mơ hình CDM sử dụng thuật toán máy học rừng ngẫu nhiên (37-trees) Luận án sử dụng phương pháp kiểm tra chéo 10 lần (10-fold cross-validation) với 80% tập liệu lấy ngẫu nhiên cho huấn luyện 20% lại cho kiểm tra để tính kết trung bình hiệu suất phát mơ hình đề xuất Kết so sánh với đề xuất trước để đánh giá hiệu suất mơ hình Để so sánh chứng minh hiệu mơ hình CDM với 24 đặc trưng ký tự, tập huấn luyện sử dụng để kiểm tra hiệu suất mơ hình sử dụng 18 đặc trưng đề xuất Hoang cộng Mơ hình CDM sau huấn luyện sử dụng cho thử nghiệm phát sử dụng tập 71,393 tên miền DGA boetnet sinh 39 họ lấy Netlab360 31,000 tên miền DGA botnet sinh họ UMUDGA (7 họ không công bố Netlab 360 - Để tính tốn tỷ lệ phát (DR) cho họ botnet tỷ lệ phát chung toàn tập kiểm thử Ngoài giá trị DR họ tên miền, giá trị DR chung tỷ lệ tổng số tên miền phát xác tổng số tên miền thử nghiệm 2.2.5.2 Kết thử nghiệm Bảng 2.1 cho thấy, hiệu suất CDM tốt so với hiệu suất Hoang cộng sử dụng tập huấn luyện với F1 ACC 99.60% 99.60% so với 94.60% 94.61% Tỷ lệ dương tính giả âm tính giả CDM giảm đáng kể, cụ thể tỷ lệ dương tính giả âm tính giả CDM 0.43% 0.38% so với 5.13% 5.67% mơ hình đề xuất Hoang cộng Như vậy, khẳng định tập 24 đặc trưng ký tự sử dụng CDM có khả phân loại tên miền DGA tốt so với tập 18 đặc trưng Hoang cộng Bảng 2.1: Hiệu suất mơ hình CDM so với Hoang cộng [24] Mơ hình phát PPV TPR FPR FNR ACC Hoang cộng 94.87 94.33 5.13 5.67 94.60 CDM 99.57 99.62 0.43 0.38 99.60 F1 94.61 99.60 Bảng 2.2 so sánh hiệu suất mơ hình CDM với hiệu suất mơ hình phát có Có thể thấy mơ hình CDM cho hiệu suất tốt đáng kể so với đề xuất Truong cộng sự, Hoang cộng sự, Qiao cộng sự, Zhao cộng 12 Các Bảng 2.3, Bảng 2.4 Bảng 2.5 cung cấp tỷ lệ phát (DR) mơ hình CDM giai đoạn phát tập tên miền DGA botnet sinh 39 họ DGA botnet chia tương ứng thành nhóm: nhóm có DR>=90%, nhóm có 90% > DR>=50% nhóm có DR < 50% Bảng 2.2: Hiệu suất mơ hình CDM so với mơ hình trước Mơ hình phát PPV TPR FPR FNR ACC F1 Truong cộng 94.70 4.80 92.30 Hoang cộng 90.70 91.00 9.30 90.90 90.90 Qiao cộng 95.05 85.14 94.58 Zhao cộng 6.14 7.42 94.04 Mơ hình đề xuất CDM 99.57 99.62 0.43 0.38 99.60 99.60 Bảng 2.3: Các họ botnet có tỷ lệ phát (DR) lớn 90% STT Họ DGA botnet Tổng số tên miền Phát xác DR% emotet 4000 3987 99.68 gameover 4000 4000 100.00 murofet 4000 3992 99.80 necurs 4000 3974 99.35 pykspa_v1 4000 3988 99.70 ramnit 4000 3982 99.55 ranbyus 4000 3983 99.58 rovnix 4000 4000 100.00 shiotob 4000 3987 99.68 10 symmi 1200 1159 96.58 11 tinba 4000 3999 99.98 12 simda 4000 3986 99.65 13 virut 4000 3990 99.75 14 proslikefan 100 98 98.00 15 tempedreve 195 190 97.44 16 tinynuke 32 32 100.00 17 vidro 100 100 100.00 18 pykspa_v2_real 199 197 98.99 19 pykspa_v2_fake 799 790 98.87 20 padcrypt 168 165 98.21 21 nymaim 480 455 94.79 22 vawtrak 827 799 96.61 23 shifu 2546 2510 98.59 24 fobber_v1 298 298 100.00 25 fobber_v2 299 299 100.00 26 dircrypt 762 757 99.34 27 cryptolocker 1000 997 99.70 28 locky 1158 1147 99.05 29 chinad 1000 1000 100.00 30 qadars 2000 1981 99.05 31 dyre 1000 1000 100.00 Tổng 62163 61842 99.48 Bảng 2.4: Các họ botnet có tỷ lệ phát (DR) từ 50%-90% STT Họ DGA botnet Tổng số tên miền Phát xác DR% mydoom 50 44 88.00 gspy 100 76 76.00 enviserv 500 252 50.40 conficker 495 442 89.29 Tổng cộng 1145 814 71.09 13 Bảng 2.5: Các họ botnet có tỷ lệ phát thấp STT Họ DGA botnet Tổng số tên miền Phát xác banjori 4000 matsnu 881 107 bigviktor 999 111 suppobox 2205 425 Tổng cộng 8085 643 Bảng 2.6: Tỷ lệ phát CDM tập liệu UMUDGA STT Họ DGA botnet Tổng số tên miền Phát xác alureon 5000 4911 bedep 5000 4991 corebot 5000 4988 kraken 2000 1968 pushdo 5000 4718 zeus 5000 5000 27000 26576 pizd 4000 642 Tổng cộng 31000 27218 DR% 12.15 11.11 19.27 7.95 DR% 98.22 99.82 99.76 98.40 94.40 100.00 98.43 16.05 87.85 2.2.6 Đánh giá Dựa vào kết thử nghiệm Bảng 2.2, Bảng 2.3, Bảng 2.4 Bảng 2.5, rút nhận xét sau: Mơ hình phát CDM hoạt động tốt đề xuất trước với tất độ đo, mơ hình đề xuất cho độ xác độ đo F1 cao đáng kể so với mơ hình trước Chẳng hạn, độ đo F1 Hoang cộng [24], Qiao cộng [69] mơ hình phát CDM đề xuất tương ứng 90.90%, 94.58% 99.59% Ngoài ra, tỷ lệ dương tính giả (FPR) tỷ lệ âm tính giả (FNR) mơ hình phát CDM đề xuất thấp đáng kể so với mơ hình trước đó, thể Bảng 2.2 Thơng qua phát thử nghiệm 39 họ botnet cho thấy, mơ hình CDM có khả phát hiệu hầu hết họ DGA botnet Trong số 39 DGA botnet, 31 họ DGA botnet phát với tỷ lệ phát 90%, trình bày Bảng 2.3 Tỷ lệ phát trung bình nhóm DGA botnet 99.48% Bốn DGA botnet nhóm thứ hai, Bảng 2.4 có DR trung bình tương đối cao 71.09% Lý mà mơ hình CDM đề xuất hoạt động tốt phát tên miền DGA botnet thuộc nhóm tập 24 đặc trưng ký tự đề xuất mơ hình phù hợp cho phân biệt tên miền character-based DGA tên miền lành tính.Bảng 2.6 thể tỷ lệ phát mơ hình CDM với liệu UMUDGA Theo đó, thấy với 06 họ character-based DGA botnet, tỷ lệ phát đạt 98.43% Đây botnet không công bố tập liệu Netlab 360, không sử dụng để huấn luyện mơ hình, điều khẳng định CDM phát hiệu character-based DGA botnet Mơ hình CDM khơng thể phát tên miền tạo botnet ‘banjori’ phát số tên miền tạo botnet ‘matsnu’, ‘bigviktor’, ‘suppobox’ ‘pizd’ Điều DGA botnet sử dụng thuật toán DGA tạo tên miền giống với tên miền lành tính Đây vấn đề giải mơ hình phát mục luận án 2.3 PHÁT HIỆN WORD-BASED DGA BOTNET 2.3.1 Đặt vấn đề Mục 2.1.1.2 trình bày sơ lược dạng DGA botnet, có word-based mixed DGA botnet (từ luận án gọi chung word-based DGA botnet) Mục sâu phân tích đặc điểm hai dạng botnet Khác với character-based DGA botnet, word- 14 based DGA botnet sinh tên miền cách tổ hợp từ tiếng Anh lấy từ danh sách từ lập sẵn Các tên miền DGA dạng thường chứa hai ba từ lấy danh sách từ khác chọn nối ngẫu nhiên Cuối cùng, TLD thêm vào cuối giống tên miền thông thường Theo nhà nghiên cứu bảo mật, họ DGA botnet tiến hóa, Matsnu sử dụng kỹ thuật thông minh để tránh chế kiểm tra thông thường Tên miền Matsnu tạo sử dụng ký tự “-” để nối từ (như world-bite-care.com), không dùng ký tự nối (như activitypossess.com) Khó khăn lớn cho phát word-based DGA botnet chúng có khả sinh tên miền tổ hợp từ từ tiếng Anh có nghĩa tên miền giống so với tên miền lành tính sử dụng rộng rãi Điều chứng minh Yang cộng phân tích triệu tên miền hàng đầu, phát 67% tên miền chứa từ tiếng Anh gần 30% tên miền hoàn toàn bao gồm từ tiếng Anh Và theo thống kê liệu thực nghiệm với 98,866 tên miền lành tính ngun tố có thứ hạng cao nhất, số tên miền lành tính khơng có từ tiếng Anh chiếm 9.05%, có từ chiếm 26.70% có từ chiếm tới 42.34%, minh họa Hình 2.2 Hình 2.2: Biểu đồ phân bố tên miền với số lượng từ tương ứng Do tên miền word-based DGA botnet, bigviktor, matsnu, ngioweb suppobox sinh giống tên miền lành tính, nhiều phương pháp phát DGA botnet dựa phân loại tên miền, Hoang cộng mơ hình CDM đề xuất mục 2.2 luận án phát DGA botnet Cụ thể như, mơ hình CDM đề xuất sử dụng tập đặc trưng ký tự có khả phát character-based DGA botnet với tỷ lệ phát bình quân 99.48%, phát tên miền banjori phát số tên miền tạo matsnu, bigviktor suppobox Như vậy, thấy cần nghiên cứu phát triển mơ hình sử dụng tập đặc trưng phù hợp cho phép phát hiệu word-based DGA botnet 2.3.2 Các phương pháp phát word-based DGA botnet Mục khảo sát số nghiên cứu phát word-based mixed DGA botnet, bao gồm đề xuất phát dựa học máy có giám sát truyền thống đề xuất phát dựa học sâu 2.3.2.1 Phát dựa học máy có giám sát truyền thống 2.3.2.2 Phát dựa học sâu 2.3.2.3 Ưu điểm hạn chế đề xuất phát word-based DGA botnet Có thể thấy, hầu hết đề xuất phát DGA botnet dựa kỹ thuật học máy truyền thống chủ yếu tập trung phát họ character-based DGA botnet Chúng khơng có khả phát không hiệu phát họ word-based DGA botnet Với hướng phát DGA botnet dựa học sâu, ưu điểm nghiên cứu theo hướng có độ xác phát DGA botnet tính linh hoạt cao Một số nghiên cứu sâu phân tích đặc điểm ngữ nghĩa tên miền, bao gồm phân phối theo 15 từ, phân bố theo ký tự mối tương quan cải thiện đáng kể kết phân loại tên miền thuộc họ word-based DGA Hạn chế chủ yếu phân loại dựa học sâu phần lớn không thực hiệu phân biệt tên miền word-based DGA, đề xuất thành công tên miền character-based DGA Một số mơ hình có khả hoạt động tốt liệu thử nghiệm khác nhau, hiệu suất bị ảnh hưởng cố gắng tổng quát hóa thành họ DGA phiên họ biết Ngoài ra, đề xuất dựa học sâu thường yêu cầu lớn tài ngun tính tốn, thời gian huấn luyện phát dài so với mơ hình dựa học máy truyền thống Các mục trình bày mơ hình phát WDM sử dụng tập 16 đặc trưng từ mới, cho phép phát hiệu họ word-based DGA botnet 2.3.3 Giới thiệu mơ hình WDM Mơ hình phát word-based DGA botnet (WDM), biểu diễn Hình 2.3 bao gồm hai giai đoạn: (a) giai đoạn huấn luyện (b) giai đoạn phát Trong giai đoạn huấn luyện, mơ hình xây dựng từ liệu huấn luyện Trong giai đoạn phát hiện, mơ hình xây dựng sử dụng để phân loại tên miền giám sát tên miền lành tính tên miền DGA botnet Hình 2.3:Mơ hình phát word-based DGA botnet 2.3.4 Tập liệu thử nghiệm Tập liệu sử dụng bao gồm ba tập sau: (i) tập gồm 48,000 tên miền lành tính trích xuất từ triệu tên miền top Alexa; (ii) Tập gồm 64,000 tên miền word-based DGA botnet tạo tập lệnh DGA cho họ word-based DGA botnet điển hình, bao gồm bigviktor, matsnu, suppobox pizd Trong 48,000 tên miền tập sử dụng để huấn luyện kiểm tra chéo mơ hình phát 16,000 tên miền sử dụng để kiểm thử phát hiện; (iii) Tập gồm 63,905 tên miền DGA tạo 16 họ botnet DGA thu thập từ Netlab360 Trong 48,000 tên miền tập sử dụng để huấn luyện kiểm tra chéo mơ hình phát 15,905 tên miền sử dụng để kiểm thử phát Ngoài ra, sử dụng thêm tập liệu gồm 31,000 tên miền DGA botnet thu thập từ UMUDGA Từ tập liệu trên, tạo tập liệu DATASET-01 DATASET-02 cho kịch thử nghiệm khác Tập DATASET-01 sử dụng để đánh giá khả phát word-based DGA botnet mơ hình WDM Tập DATASET-01 bao gồm (i) tập huấn luyện gồm 48,000 tên miền lành tính 48,000 tên miền word-based DGA, (ii) tập kiểm thử phát gồm 16,000 tên miền word-based DGA 16 DATASET-02 sử dụng để đánh giá khả phát loại DGA botnet, bao gồm word-based DGA botnet character-based DGA botnet mơ hình WDM Tập DATASET-02 bao gồm (i) tập huấn luyện gồm 48,000 tên miền lành tính 48,000 tên miền DGA (ii) tập kiểm thử phát gồm 15,905 tên miền DGA 2.3.5 Tiền xử lý liệu 2.3.5.1 Giới thiệu Dựa vào đặc điểm họ word-based DGA botnet, 16 đặc trưng từ trích xuất cho tên miền giai đoạn huấn luyện phát Các đặc trưng đặt tên f1, f2, f3, , f16 10 đặc trưng đề xuất mô hình WDM 2.3.5.2 Trích chọn đặc trưng 2.3.6 Thử nghiệm kết 2.3.6.1 Kịch thử nghiệm Các thử nghiệm thực theo kịch sau: Kịch 1: Huấn luyện kiểm tra chéo mô hình phát sử dụng “Tập huấn luyện” thuộc tập DATASET-01 Các thuật tốn học máy có giám sát, bao gồm Naïve Bayes (NB), định, rừng ngẫu nhiên, hồi quy Logistic SVM sử dụng theo trình tự để xây dựng mơ hình phát hiện, 80% liệu sử dụng để huấn luyện mơ hình 20% liệu sử dụng để kiểm tra chéo Thuật toán rừng ngẫu nhiên sử dụng với 35 Kịch 2: Kiểm thử mơ hình phát xây dựng kịch cách sử dụng “Tập kiểm thử” tập DATASET-01 Mục đích kịch tìm tỷ lệ phát (DR) mơ hình số word-based DGAbotnet Kịch 3: Huấn luyện kiểm tra chéo mô hình phát cách sử dụng ‘Tâp huấn luyện’ DATASET-02 Các thuật toán NB, J48 tree, RF-35, hồi quy logistic SVM sử dụng theo trình tự để xây dựng mơ hình phát hiện, 80% liệu sử dụng để huấn luyện xây dựng mơ hình 20% liệu sử dụng để kiểm tra chéo Kịch 4: Kiểm thử mơ hình phát xây dựng kịch cách sử dụng ‘Tập thử nghiệm’ DATASET-02 Mục đích kịch để tìm tỷ lệ phát (DR) mơ hình DGA botnet điển hình, bao gồm word-based DGA botnet character-based DGA botnet 2.3.6.2 Kết Bảng 2.7 trình bày hiệu suất phát mơ hình đề xuất dựa thuật toán học máy sử dụng “Tập huấn luyện" DATASET-01 Các độ đo hiệu suất bảng xác nhận mơ hình đề xuất hoạt động tốt DATASET-01 với tất thuật toán học máy Mơ hình xây dựng từ ‘Tập huấn luyện’ DATADET-01 cho tỷ lệ phát cao tất word-based DGAbotnet, hiển thị Bảng 2.7: Hiệu suất phát mô hình sử dụng DATASET-01 (%) Thuật tốn PPV TPR FPR FNR ACC F1 NB 98.47 91.16 1.64 8.84 94.48 94.67 J48 98.25 95.81 1.78 4.19 96.99 97.01 RF-35 97.27 95.95 2.74 4.05 96.60 96.61 Logistic 98.63 92.97 1.45 7.03 95.60 95.71 SVM 98.70 93.73 1.36 6.27 96.07 96.15 Bảng 2.8: Tỷ lệ phát (DR) mơ hình sử dụng DATASET-01 (%) Thuật toán NB J48 RF-35 Logistic SVM Botnet Bigviktor 96.35 96.78 95.28 96.88 97.08 Matsnu 99.13 97.78 97.55 99.10 99.03 Pizd 98.98 98.63 97.50 98.98 98.98 Suppobox 99.48 99.30 96.93 99.48 99.48 17 Trung bình 98.51 98.19 96.81 98.63 Bảng 2.9: Hiệu suất phát mơ hình sử dụng DATASET-02 (%) Thuật toán PPV TPR FPR FNR ACC NB 65.30 89.13 27.18 10.78 78.77 J48 96.89 94.62 3.15 5.38 95.71 RF-35 96.02 94.78 3.99 5.22 95.39 Logistic 88.34 90.47 11.29 9.53 89.57 SVM 88.79 90.15 10.94 9.85 89.59 Bảng 2.10: Tỷ lệ phát (DR) mô hình (%) sử dụng DATASET-02 Thuật tốn NB J48 RF-35 Logistic Botnet Bigviktor 77.80 70.70 67.70 88.60 Matsnu 60.33 98.34 94.59 78.01 Pizd 8.40 97.90 99.40 73.60 Suppobox 7.30 99.10 97.70 94.10 Flubot 73.90 99.20 99.10 96.00 Necurs 53.40 91.70 90.20 83.10 Ramnit 51.30 92.10 91.20 84.50 Ranbyus 72.80 98.00 97.20 94.60 Rovnix 100.00 99.30 99.60 99.30 Tinba 27.40 98.90 97.60 61.50 Cryptolocker 48.50 96.70 95.80 91.80 Dyre 100.00 100.00 100.00 100.00 Emotet 96.50 99.40 99.10 97.40 Gameover 100.00 99.80 99.80 99.90 Murofet 84.00 99.50 99.70 99.00 Shiotob 74.60 95.20 94.80 84.00 Trung bình 64.82 95.98 95.32 91.14 98.66 F1 75.38 95.75 95.40 89.40 89.47 SVM 90.00 81.99 75.70 97.30 96.10 83.10 84.50 94.90 99.40 91.40 92.20 100.00 97.70 99.90 99.00 85.00 91.92 Bảng 2.10 thể hiệu suất phát mơ hình đề xuất dựa thuật toán học máy sử dụng ‘Tập huấn luyện’ DATASET-02 Các độ đo hiệu suất bảng xác nhận mơ hình đề xuất hoạt động tương đối tốt DATASET-02 với tất thuật toán học máy Mơ hình xây dựng từ ‘Tập huấn luyện’ DATASET-02 tạo tỷ lệ phát tốt hầu hết DGA botnet, trình bày Bảng 2.10 2.3.7 Đánh giá Từ kết thực nghiệm cho Bảng 2.7, Bảng 2.8, Bảng 2.9, Bảng 2.10, rút nhận xét sau: Mơ hình phát WDM mang lại hiệu suất cao DATASET-01 với độ xác phát tổng thể (ACC) độ đo F1 95% sử dụng thuật tốn học máy Trong đó, thuật tốn định J48 hoạt động tốt với tỷ lệ phát cao tỷ lệ cảnh báo sai thấp nhất, hiển thị Bảng 2.7 Tỷ lệ phát word-based DGA botnet điển hình biểu diễn Bảng 2.8 xác nhận mơ hình WDM có khả phát hiệu word-based DGA botnet Điều có nghĩa 16 đặc trưng từ sử dụng phù hợp cho việc phân loại tên miền word-based DGA tên miền lành tính Mơ hình phát WDM tạo hiệu suất tốt DATASET-02 với độ xác phát tổng thể (ACC) độ đo F1 95% sử dụng thuật toán định rừng ngẫu nhiên Trong mơ hình dựa hồi quy logistic SVM đạt độ xác phát tổng thể (ACC) độ đo F1 89%, mơ hình dựa Naïve Bayes đạt độ đo F1 khoảng 75%, trình bày Bảng 2.9 Tỷ lệ phát word-based DGA botnet 12 character-based DGA botnet hiển thị Bảng 2.10 xác nhận mô hình dựa định J48 hoạt động 18 tốt hầu hết botnet thử nghiệm, ngoại trừ ‘Bigviktor’ Mặc dù mơ hình dựa SVM có tỷ lệ phát ‘Bigviktor’ cao so với mô hình dựa J48, nhiên mơ hình dựa J48 có tỷ lệ phát hầu hết botnet tốt đáng kể so với mơ hình dựa SVM Bảng 2.11 hiển thị so sánh hiệu suất phát mơ hình WDM đề xuất phát DGA botnet khác Bảng 2.12 so sánh tỷ lệ phát 16 word-based DGA botnet character-based DGA botnet mơ hình WDM dựa định J48 mơ hình phát CDM Từ kết trình bày hai bảng này, rút nhận xét sau: (i) Mơ hình WDM hoạt động tốt nhiều so với đề xuất phát DGA botnet khác; (ii) Mơ hình WDM có khả phát hiệu character-based DGA botnet, có tỷ lệ phát thấp so với mơ hình CDM; (iii) Mặc dù mơ hình CDM đạt hiệu suất tốt so với mơ hình WDM character-based DGA botnet, mơ hình CDM lại phát word-based DGA botnet Trong đó, mơ hình WDM có khả phát hiệu word-based DGA botnet, gồm Matsnu, Pizd Suppobox Bảng 2.11: Hiệu suất phát WDM so với đề xuất khác (%) Mơ hình phát PPV TPR FPR FNR ACC Truong cộng 94.70 4.80 92.30 Hoang cộng 90.70 91.00 9.30 90.90 Qiao cộng 95.05 95.14 Zhao cộng 6.14 7.42 94.04 CDM 99.57 99.62 0.43 0.38 99.60 WDM (DATASET-01) 98.25 95.81 1.78 4.19 96.99 WDM (DATASET-02) 96.89 94.62 3.15 5.38 95.71 Bảng 2.12: So sánh tỷ lệ phát mơ hình WDM CDM Bonet WDM CDM Bigviktor 70.70 3.00 Matsnu 98.34 1.14 Pizd 97.90 Suppobox 99.10 0.95 Flubot 99.20 Necurs 91.70 98.67 Ramnit 92.10 97.20 Ranbyus 98.00 99.82 Rovnix 99.30 100.00 Tinba 98.90 98.77 Cryptolocker 96.70 99.00 Dyre 100.00 98.00 Emotet 99.40 99.85 Gameover 99.80 100.00 Murofet 99.50 99.85 Shiotob 95.20 99.55 F1 90.90 94.58 99.60 97.01 95.75 2.4 KẾT LUẬN CHƯƠNG Chương giới thiệu chi tiết DGA botnet, loại DGA botnet chế DGA botnet khai thác hệ thống DNS để trì hoạt động Nhờ khả sinh gán tên miền, địa IP tự động cho máy chủ CnC, đồng thời với khả tự động sinh truy vấn tên miền bot, DGA botnet có khả lẩn tránh rà quét kéo dài thời gian tồn Mặc dù vậy, bot botnet thường xuyên tương tác với hệ thống DNS, việc phân tích truy vấn DNS giúp phát tồn bot botnet Phần chương khảo sát phương pháp phát DGA botnet theo nhóm: phát dựa phân tích truy vấn DNS, phát dựa thống kê phát dựa học máy Mặc dù có nhiều ưu điểm, hạn chế lớn phương pháp ... hướng nghiên cứu đề tài luận án - tập trung nghiên cứu phát botnet sử dụng kỹ thuật phát xâm nhập dựa bất thường Luận án sử dụng kỹ thuật phát xâm nhập dựa bất thường cho phát botnet kỹ thuật. .. 1.5 HƯỚNG NGHIÊN CỨU CỦA LUẬN ÁN 1.5.1 Ưu điểm nhược điểm kỹ thuật phát botnet Bảng 1.1 tổng hợp ưu điểm nhược điểm kỹ thuật phát botnet Bảng 1.1: Ưu nhược điểm kỹ thuật phát botnet Kỹ thuật Ưu... Các vấn đề giải luận án Từ việc phân tích mơ hình hoạt động tác hại dạng botnet nói chung DGA botnet nói riêng, việc nghiên cứu giải pháp, kỹ thuật phát botnet, DGA botnet cấp thiết Luận án nghiên