Loại Số lượng
Mirai 1510
Bashlite 2786
Mã độc IoT Botnet khác
(Tsunami, Spike, Dofloo, MrBlack,…)
727
3.4.2. Triển khai thử nghiệm
Để thử nghiệm, nghiên cứu sinh sử dụng máy tính với CPU Intel Xeon E5-2689 2.6 GHz với 16GB RAM, ở cứng cĩ dung lượng lưu trữ 2 TB. Mơi trường ảo hĩa V- Sandbox được cài đặt theo mã nguồn được nghiên cứu sinh chia sẻ tại Github [100]. Các thuật tốn nhúng đồ thị được tham khảo mã nguồn được tác giả chia sẻ tại Github gồm: FEATHER [110], LDP [111] và Graph2vec [112]. Các thuật tốn học máy được thử nghiệm như SVM, KNN, Decision Tree, Random Forest,… được cài đặt thơng qua ngơn ngữ Python với sự hỗ trợ từ thư viện Scikit-learn [113]. Với các giá trị đặc trưng được trích xuất từ đồ thị DSCG, các vetor đặc trưng được đưa vào các bộ học máy phở biến như SVM, KNN, Decision Tree, Random Forest,… để huấn luyện và đánh giá khả năng phân loại của đặc trưng được đề xuất. Các thuật tốn học máy kể trên được nghiên cứu sinh lựa chọn để thử nghiệm với hai lý do chính. Thứ nhất, dựa trên kết quả khảo sát các nghiên cứu về phát hiện mã độc IoT Botnet bằng trí tuệ nhân tạo tại mục 1.3.4, các nhà nghiên cứu trong và ngồi nước thường sử dụng các thuật tốn học máy này và cho kết quả mơ hình phát hiện với độ chính xác tương đối cao. Thứ hai, để cĩ cơ sở đánh giá hiệu quả của đặc trưng đề xuất với các đặc trưng của các tác giả khác đã cơng bố, nghiên cứu sinh lựa chọn bộ dữ liệu thử nghiệm và thuật tốn học máy cĩ đặc điểm tương đồng để đánh giá.
Trong quá trình tiến hành huấn luyện và đánh giá khả năng phân loại của đặc trưng được trích rút từ đồ thị DSCG, nghiên cứu sinh đồng thời tiến hành điều chỉnh các tham số chính của các mơ hình học máy ở trên để tìm ra mơ hình phù hợp nhất cĩ thể. Các tham số chính mà nghiên cứu sinh tiến hành điều chỉnh được mơ tả như trong Bảng 3.2. Các tham số cịn lại thì sử dụng theo mặc định.