Tiền xử lý dữ liệu (PPDC)

CHƯƠNG 1 TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET

4.2. Mơ hình đề xuất

4.2.3. Tiền xử lý dữ liệu (PPDC)

Với đặc điểm hành vi đặc trưng của mã độc IoT Botnet trong vòng đời của mình bao gồm lây nhiễm, kết nối và chờ lệnh của Botmaster qua C&C server, thực hiện hành vi tấn cơng (được trình bày cụ thể trong mục 1.2.3), các loại dữ liệu thường được các nhà khoa học trong và ngồi nước sử dụng để phát hiện dấu hiệu của IoT Botnet là:

- Lời gọi hệ thống system-call [36, 37, 75, 103, 136]; - Luồng dữ liệu giao tiếp mạng [32–35, 137];

- Chiếm dụng tài nguyên của thiết bị mục tiêu [38, 45, 138].

Vì vậy, nghiên cứu sinh lựa chọn 3 loại dữ liệu đặc trưng đầu vào kể trên để thử nghiệm, đánh giá hiệu quả mơ hình đề xuất. Để mơ hình phát hiện sớm đạt hiệu quả cao

cả về khả năng phát hiện chính xác và thời gian xử lý đưa ra cảnh báo, cần phải lựa chọn ngưỡng độ dài tối thiểu của dữ liệu để đưa vào bộ phân loại. Vấn đề này được nghiên cứu sinh xác định thơng qua thống kê dữ liệu thu thập được từ mơi trường Sandbox (SC) được minh họa như trong các Hình 4.5– Hình 4.10. Từ dữ liệu thống kê này cho thấy, về mặt tởng quan cĩ sự khác biệt giữa các mẫu mã độc và lành tính về:

- Số lượng lời gọi hệ thống: các tệp lành tính gọi số lượng lời gọi hệ thống (thường dưới 100 lời gọi hệ thống ghi nhận được) ít hơn nhiều so với mã độc IoT Botnet thực thi (thường trên 300 lời gọi hệ thống ghi nhận được).

- Số lượng gĩi tin giao tiếp mạng: các tệp lành tính cũng sử dụng ít giao tiếp mạng hơn so với các mẫu IoT Botnet (phù hợp với đặc điểm của mạng lưới Botnet chủ yếu giao tiếp và tấn cơng thơng qua giao tiếp mạng).

- Chiếm dụng tài nguyên của thiết bị: các mẫu IoT Botnet yêu cầu tài nguyên của thiết bị mục tiêu nhiều hơn so với việc thực thi các ứng dụng thơng thường (điểm khác biệt phở biến nằm ở 20 hành vi yêu cầu tài nguyên đầu tiên).

Do đĩ, với kết quả số liệu thống kê dữ liệu thu thập được từ Dataset, nghiên cứu sinh lựa chọn các ngưỡng dữ liệu tối thiểu sử dụng để phát hiện là 300 lời gọi hệ thống, 20 hành vi thay đởi tài nguyên thiết bị và 50 gĩi tin luồng mạng đầu tiên thu nhận được từ mơi trường Sandbox để huấn luyện các mơ hình học máy đơn lẻ phục vụ mục tiêu đạt hiệu quả phát hiện sớm mã độc cao nhất.

Hình 4.6 Thống kê số lượng lời gọi hệ thống của mẫu lành tính trong Dataset

Hình 4.7 Thống kê số lượng gĩi tin luồng mạng của IoT Botnet trong Dataset

Hình 4.8 Thống kê số lượng gĩi tin luồng mạng của mẫu lành tính trong Dataset

Hình 4.9 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của IoT Botnet trong Dataset

Hình 4.10 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của mẫu lành tính trong Dataset

.5 Vòng đời của IoT Botnet

Tiền xử lý dữ liệu luồng mạng