CHƯƠNG 1 TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET
3.5. Kết luận Chươn g3
4.1.1. Vấn đề phát hiện sớm mã độc IoT Botnet
Để cĩ thể đưa các kết quả phân tích động ứng dụng vào thực tế, nghiên cứu sinh thấy rằng việc phát hiện sớm đĩng vai trò then chốt để hạn chế lây lan và phát tán của mã độc. Mặc dù đặc trưng DSCG mang lại các kết quả khả quan nhưng việc sử dụng tồn bộ dữ liệu về quá trình hoạt động của các tập tin thực thi chưa cho phép giải quyết vấn đề phát hiện sớm mã độc IoT Botnet. Phát hiện sớm được chia làm hai nhĩm chính gồm: (1) phát hiện sớm dựa trên việc rút ngắn thời gian giám sát và (2) phát hiện sớm dựa trên việc thu thập mức tối thiểu các dữ liệu cần thiết cho phép phát hiện mã độc. Cách tiếp cận (1) bộc lộ nhiều hạn chế khi mà mã độc IoT Botnet cĩ thể ở trạng thái chờ lệnh từ C&C server trong một khoảng thời gian dài. Cách tiếp cận (2) cĩ thể khơng rõ nét trong việc phát hiện sớm về mặt thời gian cụ thể nhưng đảm bảo rằng lượng dữ liệu thu thập được cho phép phát hiện các tập tin mã độc với tỉ lệ âm tính giả thấp. Với cách tiếp cận này, nghiên cứu sinh đề xuất một mơ hình học máy cộng tác phát hiện sớm mã độc IoT Botnet. Trong mơ hình này, các dữ liệu đặc trưng động thu thập từ V-Sandbox bao gồm dữ liệu luồng mạng, lời gọi hệ thống, thơng tin sử dụng tài nguyên thiết bị,… sẽ được kết hợp với nhau trong việc xây dựng mơ hình phát hiện mã độc hợp nhất với số lượng dữ liệu thu thập là tối thiểu.
Trong phạm vi của luận án này, nghiên cứu sinh đưa ra khái niệm phát hiện sớm được sử dụng trong luận án này như sau:
Khái niệm 4.1. Phát hiện sớm là khả năng xác định được tệp thực thi là lành tính
hoặc là mã độc dựa trên việc thu thập mức tối thiểu các dữ liệu cần thiết thu thập bởi q trình phân tích động.
Với hướng nghiên cứu phát hiện sớm mã độc, nhiều nhà nghiên cứu đã cơng bố các giải pháp của mình. Các mơ hình phát hiện mã độc tự động thường sử dụng các đặc trưng dựa trên mã nguồn (phân tích tĩnh) hoặc hành vi tương tác với mục tiêu (phân tích động) để phân biệt các mẫu mã độc và lành tính. Mỗi cách tiếp cận này đều cĩ những lợi ích và hạn chế của nĩ. Dựa trên khả năng thu thập nhiều loại dữ liệu hành vi tương
tác của mã độc IoT Botnet bằng V-Sandbox [105], nghiên cứu sinh lựa chọn sử dụng phương pháp phân tích động kết hợp nhiều loại nguồn dữ liệu đặc trưng hành vi để cĩ thể phát hiện sớm mã độc IoT Botnet.
4.1.2. Mơ hình học máy cộng tác trong phát hiện sớm mã độc
Với các nghiên cứu ở trên đã trình bày các phương pháp tiếp cận chủ yếu dựa vào một loại đặc trưng hoặc dữ liệu đã giám sát (như luồng mạng, lời gọi hệ thống,…) để phát hiện và phân loại mã độc. Tuy nhiên, phát hiện mã độc là một vấn đề nghiên cứu cĩ đặc điểm là đa phương thức vì nĩ bao gồm nhiều phương thức xử lý dữ liệu thu thập được từ mã độc. Học cộng tác (Collaborative Learning) là lĩnh vực nghiên cứu cách thức cĩ thể kết hợp các tín hiệu đa phương thức đĩ cùng nhau. Mặc dù việc kết hợp các phương thức hoặc loại thơng tin khác nhau để cải thiện hiệu suất cĩ vẻ là một nhiệm vụ hiệu quả về mặt trực giác, nhưng khĩ để giảm các mức độ nhiễu và xung đột khác nhau giữa các phương thức xử lý dữ liệu. Các phương pháp tiếp cận học cộng tác cĩ thể được phân loại thành ba nhĩm dựa trên cách kết hợp các phương thức xử lý dữ liệu, cụ thể:
- Mức đầu vào dữ liệu học (input-level) hoặc hợp nhất sớm (early fusion): Các phương pháp hợp nhất mức đầu vào dữ liệu học (hợp nhất sớm) tạo ra một đại diện chung của các đặc trưng đơn phương thức được tách riêng từ nhiều phương thức. Cách đơn giản nhất để kết hợp các vectơ đặc trưng đơn phương thức này là nối chúng để cĩ được một biểu diễn hợp nhất (như Hình 4.1). Tiếp theo, một mơ hình học máy duy nhất được huấn luyện để tìm hiểu mối tương quan và tương tác giữa các đặc trưng của mỗi phương thức. Kết quả cuối cùng của mơ hình cĩ thể được viết là p = h ([v1, v2, …, vm]) với h biểu thị cho mơ hình học máy duy nhất, [v1, v2, …, vm] biểu diễn sự ghép nối của các vectơ đặc trưng và m là số vectơ đặc trưng đơn phương thức riêng biệt.
- Mức quyết định (decision-level) hoặc hợp nhất muộn (late fusion): Trái ngược với phương pháp hợp nhất sớm, các phương pháp hợp nhất muộn huấn luyện một mơ hình học máy riêng biệt cho mỗi tập đặc trưng đầu vào và kết hợp các giá trị quyết định (dự đốn) đã học được với cơ chế hợp nhất như lấy trung bình (average), bỏ phiếu (vote),… (như trong Hình 4.2). Ưu điểm chính của hợp nhất muộn là cho phép sử dụng các mơ hình học máy khác nhau trên các tập đặc trưng dữ liệu khác nhau, do đĩ linh hoạt hơn trong xử lý dữ liệu đặc trưng đầu vào. Giả sử rằng mơ hình hi là giá trị quyết định của mơ hình huấn luyện trên tập đặc trưng vi, thì kết quả cuối cùng của mơ hình hợp nhất muộn là p = F (h1(v1),h2(v2),…,hm(vm)) với F biểu thị cho loại phương thức hợp nhất kết quả quyết định đơn lẻ của h.
Hình 4.2 Phương pháp hợp nhất muộn
- Hợp nhất trung gian (Intermediate fusion): Các phương pháp hợp nhất trung gian xây dựng một biểu diễn dùng chung bằng cách hợp nhất các đặc trưng trung gian thu được bằng các mơ hình học máy riêng biệt. Sau đĩ, các đặc trưng trung gian này được nối với nhau và sau đĩ một mơ hình học máy được đào tạo để nắm bắt các tương tác giữa các đặc trưng này (như trong Hình 4.3).
Mỗi phương pháp học máy cộng tác đều cĩ những ưu và nhược điểm riêng. Tuy nhiên, với mục đích phát hiện sớm mã độc IoT Botnet, mơ hình hợp nhất muộn (late fusion) phù hợp cho việc kết hợp các đặc trưng đầu vào khác nhau của mã độc và tối ưu hĩa thời gian phát hiện. Thơng qua nghiên cứu lý thuyết và thực nghiệm, nghiên cứu sinh đã chứng minh được nhận định trên.