Bộ dữ liệu thử nghiệm

CHƯƠNG 1 TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET

2.3. Thử nghiệm và đánh giá

2.3.1. Bộ dữ liệu thử nghiệm

Để đánh giá mơ hình đề xuất, tập dữ liệu đĩng một vai trị quan trọng. Hiện tại, khơng cĩ nhiều bộ dữ liệu cho IoT Botnet nĩi chung và các thiết bị IoT giới hạn tài nguyên nĩi riêng, chủ yếu là các mẫu mã độc, ít mẫu lành tính. Vì vậy, trong luận án này, nghiên cứu sinh đã thu thập và xây dựng bộ dữ liệu của riêng mình.

Để phục vụ quá trình thử nghiệm và đánh giá các phương pháp đề xuất, bộ cơ sở dữ liệu thử nghiệm (dataset) đảm bảo các tiêu chí cụ thể như sau:

- Là tập hợp các tệp thực thi (nhị phân) của các mẫu mã độc IoT Botnet và các tệp mẫu lành tính đã được thu thập và cơng bố tại các nguồn cơng khai, rõ ràng, cĩ cập nhật của các nhà nghiên cứu trong, ngồi nước.

- Đảm bảo về tỉ lệ cân bằng tương đối giữa số lượng mẫu mã độc và lành tính. - Đảm bảo cĩ các mẫu chạy được trên những nền tảng kiến trúc vi xử lý phở biến của thiết bị IoT (như MIPS, ARM, PowerPC,…).

Để đánh giá tính hiệu quả của V-Sandbox, nghiên cứu sinh xây dựng một bộ Dataset chứa 11069 mẫu bao gồm 6316 mẫu mã độc IoT Botnet và 4753 mẫu lành tính (đảm bảo cân bằng tỉ lệ giữa mẫu mã độc và lành tính). Các mẫu mã độc IoT Botnet được thu thập từ ba nguồn chính từ IoTPOT [31], Virustotal [117] và VirusShare [118]. Các mẫu lành tính được trích xuất từ hình ảnh phần sụn của các thiết bị IoT hạn chế tài nguyên trên mạng như bộ định tuyến, camera IP, đèn thơng minh,… Nghiên cứu sinh sử dụng cơng cụ FMK (Firmware Modification Kit) [79] và Binwalk [153] cho cơng việc trích xuất này. Bộ cơ sở dữ liệu thử nghiệm đã đảm bảo độ đa dạng về kiến trúc vi xử lý gồm: ARM (2279 mẫu), MIPS (2811 mẫu), Intel 80386 (2058 mẫu), PowerPC (918 mẫu),…

Một phần của tài liệu Nghiên cứu xây dựng hệ thống VSandbox trong phân tích và phát hiện mã độc IoT Botnet. (Trang 73 - 74)

.5 Vòng đời của IoT Botnet

Thu thập dữ liệu