6. Bố cục của luận án
4.2. Mơ hình đề xuất
4.2.3. Tiền xử lý dữ liệu (PPDC)
Với đặc điểm hành vi đặc trưng của mã độc IoT Botnet trong vịng đời của mình bao gồm lây nhiễm, kết nối và chờ lệnh của Botmaster qua C&C server, thực hiện hành vi tấn cơng (được trình bày cụ thể trong mục 1.2.3), các loại dữ liệu thường được các nhà khoa học trong và ngồi nước sử dụng để phát hiện dấu hiệu của IoT Botnet là:
- Lời gọi hệ thống system-call [36, 37, 75, 103, 136]; - Luồng dữ liệu giao tiếp mạng [32–35, 137];
- Chiếm dụng tài nguyên của thiết bị mục tiêu [38, 45, 138].
Vì vậy, nghiên cứu sinh lựa chọn 3 loại dữ liệu đặc trưng đầu vào kể trên để thử nghiệm, đánh giá hiệu quả mơ hình đề xuất. Để mơ hình phát hiện sớm đạt hiệu quả cao
cả về khả năng phát hiện chính xác và thời gian xử lý đưa ra cảnh báo, cần phải lựa chọn ngưỡng độ dài tối thiểu của dữ liệu để đưa vào bộ phân loại. Vấn đề này được nghiên cứu sinh xác định thơng qua thống kê dữ liệu thu thập được từ mơi trường Sandbox (SC) được minh họa như trong các Hình 4.5– Hình 4.10. Từ dữ liệu thống kê này cho thấy, về mặt tởng quan cĩ sự khác biệt giữa các mẫu mã độc và lành tính về: - Số lượng lời gọi hệ thống: các tệp lành tính gọi số lượng lời gọi hệ thống (thường dưới
100 lời gọi hệ thống ghi nhận được) ít hơn nhiều so với mã độc IoT Botnet thực thi (thường trên 300 lời gọi hệ thống ghi nhận được).
- Số lượng gĩi tin giao tiếp mạng: các tệp lành tính cũng sử dụng ít giao tiếp mạng hơn so với các mẫu IoT Botnet (phù hợp với đặc điểm của mạng lưới Botnet chủ yếu giao tiếp và tấn cơng thơng qua giao tiếp mạng).
- Chiếm dụng tài nguyên của thiết bị: các mẫu IoT Botnet yêu cầu tài nguyên của thiết bị mục tiêu nhiều hơn so với việc thực thi các ứng dụng thơng thường (điểm khác biệt phở biến nằm ở 20 hành vi yêu cầu tài nguyên đầu tiên).
Do đĩ, với kết quả số liệu thống kê dữ liệu thu thập được từ Dataset, nghiên cứu sinh lựa chọn các ngưỡng dữ liệu tối thiểu sử dụng để phát hiện là 300 lời gọi hệ thống, 20 hành vi thay đởi tài nguyên thiết bị và 50 gĩi tin luồng mạng đầu tiên thu nhận được từ mơi trường Sandbox để huấn luyện các mơ hình học máy đơn lẻ phục vụ mục tiêu đạt hiệu quả phát hiện sớm mã độc cao nhất.
Hình 4.6 Thống kê số lượng lời gọi hệ thống của mẫu lành tính trong Dataset
Hình 4.7 Thống kê số lượng gĩi tin luồng mạng của IoT Botnet trong Dataset
Hình 4.8 Thống kê số lượng gĩi tin luồng mạng của mẫu lành tính trong Dataset
Hình 4.9 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của IoT Botnet trong Dataset
Hình 4.10 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của mẫu lành tính trong Dataset