6. Bố cục của luận án
4.2. Mơ hình đề xuất
4.2.1. Kiến trúc tổng quan
Trong mơ hình này, cách tiếp cận được đề xuất sẽ sử dụng kết hợp các dữ liệu đặc trưng hoạt động điển hình của IoT Botnet. Các đặc trưng động này được trích xuất
từ dữ liệu do mơi trường V-Sandbox [105] thu thập bao gồm dữ liệu luồng mạng, lời gọi hệ thống, thơng tin sử dụng tài nguyên thiết bị mục tiêu. Điểm khác biệt của phương pháp này so với các phương pháp hiện cĩ là chỉ cần sử dụng một lượng nhỏ (tối thiểu) dữ liệu được thu thập ban đầu từ V-Sandbox (khơng phải dữ liệu chuỗi tồn thời gian – full-time series data) để cĩ thể đưa ra kết quả phát hiện với độ chính xác cao. Cĩ nghĩa là khơng cần phải đợi mã độc IoT Botnet thực hiện đầy đủ các hành vi của mình để thu thập dữ liệu rồi mới tiền xử lý, phân tích và phát hiện. Từ đĩ, mơ hình cĩ khả năng phát hiện sớm mã độc IoT Botnet trong những bước cơ bản đầu tiên của vịng đời. Kiến trúc đề xuất được mơ tả trong Hình 4.4, bao gồm các thành phần chính:
- Mơi trường Sandbox (Sandbox component - SC): mơi trường thực thi thích hợp cho phép giám sát hành vi và tạo điều kiện cho tệp thực thi ELF thể hiện đầy đủ hành vi.
- Tiền xử lý dữ liệu (Preprocessing data component - PPDC): thực hiện quá trình tiền xử lý các dữ liệu được thu thập từ mơi trường Sandbox (SC) để cĩ thể chuẩn hĩa dữ liệu.
- Chuẩn hĩa dữ liệu tiền xử lý (Data Normalization component - DNC): Biến đởi dữ liệu sau tiền xử lý thành dữ liệu chuẩn hĩa cĩ thể làm đầu vào phù hợp cho các thuật tốn học máy được lựa chọn (MLC).
- Trích chọn đặc trưng phù hợp (Feature Selection component - FSC): Tự động lựa chọn các đặc trưng phù hợp để nâng cao hiệu quả bộ phân lớp học máy (MLC).
- Bộ phân lớp học máy (Machine learning Classifier component - MLC): Bộ phân loại học máy đơn lẻ phù hợp với từng tập đặc trưng đầu ra của FSC.
- Hàm hợp nhất (Fusion component - FC): Hàm được sử dụng để hợp nhất kết quả phân loại của các mơ hình học máy đơn lẻ MLC.
Đầu tiên, các tệp ELF cần phân tích được đưa vào mơi trường Sandbox (SC) để thực thi và thu thập dữ liệu hành vi. Dữ liệu thơ (raw data) này sẽ được tiền xử lý và chuẩn hĩa để dễ dàng sử dụng làm đầu vào các bộ phân loại học máy đơn lẻ. Sau đĩ, một thuật tốn học máy sẽ được sử dụng để tự động trích xuất các vectơ đặc trưng phù hợp trong dữ liệu đã chuẩn hĩa. Tiếp theo, các bộ phân loại học máy đơn lẻ (MLC) sẽ được huấn luyện độc lập dựa trên các dữ liệu đặc trưng đã trích xuất. Kết quả của các bộ
phân loại học máy đơn lẻ nĩi trên được hợp nhất thơng qua chức năng kết hợp FC để tạo ra nhãn phân loại cuối cùng của tệp ELF đầu vào là mã độc hoặc lành tính.
Hình 4.4 Kiến trúc của mơ hình đề xuất