.1 Mơ tả chi tiết về Dataset

Loại Số lượng

Mirai 1510

Bashlite 2786

Mã độc IoT Botnet khác

(Tsunami, Spike, Dofloo, MrBlack,…)

727

3.4.2. Triển khai thử nghiệm

Để thử nghiệm, nghiên cứu sinh sử dụng máy tính với CPU Intel Xeon E5-2689 2.6 GHz với 16GB RAM, ở cứng cĩ dung lượng lưu trữ 2 TB. Mơi trường ảo hĩa V- Sandbox được cài đặt theo mã nguồn được nghiên cứu sinh chia sẻ tại Github [100]. Các thuật tốn nhúng đồ thị được tham khảo mã nguồn được tác giả chia sẻ tại Github gồm: FEATHER [110], LDP [111] và Graph2vec [112]. Các thuật tốn học máy được thử nghiệm như SVM, KNN, Decision Tree, Random Forest,… được cài đặt thơng qua ngơn ngữ Python với sự hỗ trợ từ thư viện Scikit-learn [113]. Với các giá trị đặc trưng được trích xuất từ đồ thị DSCG, các vetor đặc trưng được đưa vào các bộ học máy phở biến như SVM, KNN, Decision Tree, Random Forest,… để huấn luyện và đánh giá khả năng phân loại của đặc trưng được đề xuất. Các thuật tốn học máy kể trên được nghiên cứu sinh lựa chọn để thử nghiệm với hai lý do chính. Thứ nhất, dựa trên kết quả khảo sát các nghiên cứu về phát hiện mã độc IoT Botnet bằng trí tuệ nhân tạo tại mục 1.3.4, các nhà nghiên cứu trong và ngồi nước thường sử dụng các thuật tốn học máy này và cho kết quả mơ hình phát hiện với độ chính xác tương đối cao. Thứ hai, để cĩ cơ sở đánh giá hiệu quả của đặc trưng đề xuất với các đặc trưng của các tác giả khác đã cơng bố, nghiên cứu sinh lựa chọn bộ dữ liệu thử nghiệm và thuật tốn học máy cĩ đặc điểm tương đồng để đánh giá.

Trong quá trình tiến hành huấn luyện và đánh giá khả năng phân loại của đặc trưng được trích rút từ đồ thị DSCG, nghiên cứu sinh đồng thời tiến hành điều chỉnh các tham số chính của các mơ hình học máy ở trên để tìm ra mơ hình phù hợp nhất cĩ thể. Các tham số chính mà nghiên cứu sinh tiến hành điều chỉnh được mơ tả như trong

Một phần của tài liệu Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet. (Trang 97 - 98)

.1 Mơ tả chi tiết về Dataset

Khái niệm mã độc IoT Botnet

Thu thập dữ liệu