Xây dựng tập các đặc trưng lai giữa tĩnh và động

Một phần của tài liệu (Luận văn thạc sĩ) Nghiên cứu phương pháp lai trong phát hiện mã độc Botnet trên thiết bị IoT (Trang 48 - 49)

Tập các đặc trưng lai giữa tĩnh và động được xây dựng sử dụng phương pháp early fusion để kết hợp tập vector đặc trưng tĩnh trích xuất từ đồ thị thông tin chuỗi in PSI và tập vector đặc trưng động trích xuất từ đồ thị lời gọi hệ thống SCG. Quy trình thực hiện được mô tả như trong Hình 2.5

40

Vector đặc trưng thu được sau quá trình kết hợp sẽ có dạng: 𝑣𝑓𝑢𝑠𝑒𝑑 = [𝑣𝑝𝑠𝑖, 𝑣𝑠𝑐𝑔]

Trước khi đưa tập vector đặc trưng lai vào các thuật toán phân loại, cần phải thực hiện kỹ thuật lựa chọn đặc trưng. Kỹ thuật này không chỉ hỗ trợ trong việc giảm kích thước dữ liệu để giảm thời gian tính toán, mà còn giúp ích trong việc loại bỏ các đặc trưng dư thừa, gây nhiễu. Thêm vào đó, kỹ thuật này còn cho phép tạo ra các mô hình học máy có độ chính xác cao và ngăn ngừa vấn đề quá vừa dữ liệu.

Kỹ thuật lựa chọn đặc trưng được sử dụng cho tập vector đặc trưng lai là kỹ thuật chọn đặc trưng bằng mô hình bọc với SVM (Support Vector Machine) tuyến tính. Do tập đặc trưng của phương pháp lai không nhiều nên việc sử dụng kỹ thuật chọn đặc trưng với mô hình bọc sẽ cho ra tập đặc trưng phù hợp trong thời gian ngắn. Tiếp theo, tập vector đặc trưng thu được đại diện cho mỗi tập tin ELF sẽ được chuẩn hóa để tập dữ liệu có giá trị kỳ vọng bằng không và độ lệch chuẩn bằng 1. Như vậy, với mỗi vector x:

𝑥𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑𝑖𝑧𝑒𝑑 =𝑥 − 𝜇 𝜎

Với 𝜇 và 𝜎 là lần lượt giá trị kỳ vọng và độ lệch chuẩn của tập dữ liệu ban đầu. Cuối cùng, tập dữ liệu sau khi chuẩn hóa sẽ được đưa vào các mô hình học máy phân loại để huấn luyện và kiểm tra.

Một phần của tài liệu (Luận văn thạc sĩ) Nghiên cứu phương pháp lai trong phát hiện mã độc Botnet trên thiết bị IoT (Trang 48 - 49)