Trích chọn đặc trưng phù hợp

Một phần của tài liệu Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet. (Trang 116 - 117)

CHƯƠNG 1 TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET

4.2. Mơ hình đề xuất

4.2.5. Trích chọn đặc trưng phù hợp

Sau khi chuẩn hĩa dữ liệu được tiền xử lý, số chiều của vectơ đặc trưng lên đến hàng trăm. Điều này gây ra khĩ khăn trong việc tối ưu hĩa kết quả dự đốn và rút ngắn thời gian chạy mơ hình học máy. Do đĩ, một số kỹ thuật trích chọn đặc trưng đã được phát triển để giải quyết vấn đề giảm thiểu các biến khơng liên quan và dư thừa trong tập đặc trưng. Lựa chọn đặc trưng phù hợp giúp hiểu rõ dữ liệu, giảm yêu cầu tính tốn, giảm kích thước vectơ đặc trưng và cải thiện hiệu suất của bộ phân loại. Nghiên cứu sinh đã xem xét một số phương pháp trích chọn đặc trưng như Filter, Wrapper, Embedded và Ensemble để tìm một tập hợp con các biến (đặc trưng) cải thiện hiệu suất dự đốn tởng thể của mơ hình học máy. Dựa trên kết quả khảo sát, nghiên cứu sinh chọn phương pháp Wrapper vì những lý do sau:

- Cĩ khả năng phát hiện sự tương tác giữa các đặc trưng với nhau.

- Cĩ thể tìm thấy tập con đặc trưng tối ưu cho thuật tốn học máy mong muốn. Phương pháp Wrapper hoạt động theo các bước sau:

- Tìm kiếm một tập con các đặc trưng: Sử dụng phương pháp tìm kiếm tập con đặc trưng như Forward Feature Selection, Backward Feature Elimination, Exhaustive Feature Selection, Bidirectional Search và chọn ra một tập con các đặc trưng từ tập đặc trưng đầu vào.

- Xây dựng mơ hình học máy kiểm thử: Trong bước này, một thuật tốn học máy đã chọn được đào tạo trên tập con các đặc trưng đã chọn tại bước trước đĩ.

- Đánh giá hiệu quả của mơ hình học máy kiểm thử: Đánh giá mơ hình học máy mới được đào tạo với tập con các đặc trưng đã chọn với các thang đo phở biến như ACC, F1-score, PR, AUC,… để xác định hiệu quả tập con đặc trưng được lựa chọn.

- Lặp lại quá trình lựa chọn: Tồn bộ quá trình bắt đầu lại với một tập hợp con các đặc trưng mới, một mơ hình mới được đào tạo dựa trên thuật tốn học máy đã chọn để đánh giá hiệu quả tập con đặc trưng.

Để ngừng tìm kiếm một tập hợp con các đặc trưng, điều kiện dừng mà nghiên cứu sinh lựa chọn là khi hiệu suất mơ hình đánh giá cĩ xu hướng giảm với khi số lượng đặc trưng được lựa chọn giảm dần. Trong nội dung này, nghiên cứu sinh đã chọn thuật tốn học máy Linear SVM để đào tạo mơ hình học máy và đánh giá trên tập hợp con các đặc trưng được lựa chọn tại mục 4.3.4.

Một phần của tài liệu Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet. (Trang 116 - 117)