Để đảm bảo việc đánh giá mô hình phân loại một cách chính xác và khách quan thì vai trò của tập dữ liệu là rất quan trọng. Do đó, cần thu thập các mẫu mã độc IoT Botnet và lành tính với số lượng đủ nhiều và có phương pháp gắn nhãn chính xác.
Dựa trên tiêu chí đó, tập dữ liệu được thu thập từ các nguồn như sau:
- Đối với các mẫu mã độc IoT, có hai nguồn thu thập chính mà luận văn đã lựa chọn. Nguồn thứ nhất là từ nhóm dự án IoTPOT [28]. Dự án này đã thu thập được rất nhiều các mẫu mã độc trong vòng một năm từ tháng 10/2016 đến 10/2017. Và nguồn thứ hai là từ VirusShare [39], kho lưu trữ các mẫu mã độc online phục vụ cho mục đích nghiên cứu.
- Đối với các mẫu lành tính, luận văn thu thập từ ba nguồn, bao gồm: trích xuất từ các thiết bị IoT SOHO sử dụng công cụ binwalk [40], tải về từ trang web của các hãng sản xuất thiết bị IoT như TP-Link, D-Link, Asus..., đồng thời thu thập các mẫu tệp firmware của một số hãng như Buffalo, Netgear, Tenda... từ OpenWRT [41].
Sau khi thu thập, các tệp tin sẽ được kiểm tra một lần nữa sử dụng dịch vụ VirusTotal [42] để đảm bảo độ chính xác của các nhãn mã độc và lành tính. Tiếp theo, các mẫu bị trùng lặp, hư hại hoặc không phải tập tin ELF sẽ bị loại bỏ để đảm bảo tính khách quan cho tập dữ liệu. Bên cạnh đó, để có thể so sánh được chính xác nhất kết quả thực nghiệm của phương pháp lai với hai phương pháp phân tích tĩnh và động, các mẫu không thể dịch ngược trong quá trình phân tích tĩnh và không được hỗ trợ hoặc không thể thực thi trong sandbox cũng sẽ bị loại bỏ. Do đó, tập dữ liệu đạt được sẽ đảm bảo tính thống nhất trong thực nghiệm với từng phương pháp.