CHƯƠNG 1 TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET
1.3. Quy trình phát hiện mã độc IoT Botnet
1.3.3.2. Tiền xử lý dữ liệu tương tác với tài nguyên của hệ thống
Đối với việc thu thập dữ liệu mạng và lời gọi hệ thống gặp nhiều khĩ khăn đối với những thiết bị IoT cỡ nhỏ. Do đặc điểm hạn chế tài ngun của mình, các thiết bị này khĩ cho phép tích hợp các cơng cụ giám sát hiệu năng cao vào bên trong thiết bị. Với trường hợp sử dụng mơi trường mơ phỏng hoạt động của loại thiết bị này, các nhà nghiên cứu gặp một vài khĩ khăn như chưa thể mơ phỏng đầy đủ chức năng của thiết bị IoT, mơi trường chưa đầy đủ điều kiện cho phép mã độc bộc lộ hồn tồn hành vi của mình (như thiếu kết nối Internet, chỉ dẫn của máy chủ C&C, thư viện liên kết động,…). Bên cạnh đĩ, việc thu thập một lượng lớn dữ liệu mạng (thường lên tới hàng gigabyte),
lời gọi hệ thống (vài nghìn lời gọi) rồi tiền xử lý tồn bộ lượng dữ liệu này tiêu tốn nhiều tài nguyên tính tốn và thời gian. Do đĩ, nhiều nhà nghiên cứu đã đề xuất các phương án sử dụng dữ liệu tương tác với tài nguyên hệ thống để tĩm lược các tác động của mã độc IoT Botnet với mục tiêu.
Cụ thể, tác giả Azmoodeh và cộng sự [38] đã sử dụng dữ liệu thay đởi về mức tiêu thu năng lượng điện của thiết bị để cĩ thể phát hiện mã độc trên thiết bị IoT. Đầu tiên, tác giả sử dụng cơng cụ Power-Tutor để tích hợp vào các thiết bị IoT thử nghiệm và ghi lại mức sử dụng năng lượng điện của các ứng dụng cần phân tích trong khoảng thời gian năm phút và lặp lại cơng việc này 5 lần cho mỗi mẫu trên từng thiết bị thử nghiệm. Sau đĩ, tác giả tiến hành chuẩn hĩa mức tiêu thụ điện năng của CPU cho tất cả các ứng dụng (lành tính và độc hại) trong khoảng giá trị [0,1]. Trong đĩ, giá trị “0” cho biết khơng sử dụng năng lượng và “1” cho biết sử dụng năng lượng tối đa của CPU. Dữ liệu này được tiền xử lý thành các chuỗi ghi nhận mức tiêu thụ năng lượng của ứng dụng theo thời gian cùng với nhãn phân loại trong 5 phút hoạt động.
Tương tự, tác giả Woosub Jung và cộng sự [44] cũng trình bày mơ hình phát hiện mã độc IoT Botnet dựa trên dữ liệu giám sát điện năng tiêu thụ của thiết bị. Tác giả thu thập dữ liệu tiêu thụ điện năng thơng qua việc sử dụng thiết bị giám sát điện năng Monsoon để theo dõi máy tính nhúng Raspberry Pi. Thiết bị Raspberry Pi này sẽ là mục tiêu lây nhiễm của mã độc IoT Botnet (cụ thể là mã độc Mirai). Tởng thời gian thu thập mẫu cho mỗi lớp mà tác giả phân ra là 3000 giây. Sau đĩ, tác giả tiến hành tiền xử lý dữ liệu điện năng tiêu thu được để phù hợp cho đầu vào mạng nơ-ron tích chập (CNN). Thơng qua việc phân tích dữ liệu thu thập được, tác giả lựa chọn sử dụng khung cửa sở trượt (Sliding windows) là 1.5 giây để phân đoạn dữ liệu và biến đởi thành vector đầu vào cho mạng CNN.
Tác giả Shabtai và cộng sự [45] đã trình bày phương pháp phát hiện mã độc dựa trên các dữ liệu sử dụng tài nguyên hệ thống bao gồm: mức chiếm dụng bộ vi xử lý CPU, số tiến trình đang chạy trong hệ thống, mức tiêu hao nguồn năng lượng của thiết bị, dung lượng bộ nhớ RAM được yêu cầu, các thay đởi về tệp và thư mục trong hệ thống, biến động giá trị các thanh ghi (registers) CPU,… Các dữ liệu này sau khi được thu thập và tiền xử lý sẽ được gửi đến những bộ phát hiện hành vi độc hại chuyên biệt khác nhau để đánh giá các nguy cơ cũng như phát hiện mã độc. Các bộ phát hiện hành vi độc hại được
xây dựng dựa trên các thuật tốn học máy phở biến như k-Means, Logistic Regression, Histograms, Decision Tree, Nạve Bayes,…
Dữ liệu tương tác với tài nguyên của hệ thống đã được chứng minh cĩ khả năng phát hiện những loại mã độc cho thiết bị IoT mà khơng cần khai thác những dữ liệu truyền thống như luồng mạng, chuỗi lời gọi hệ thống. Đây cũng là một phương hướng tiếp cận của nghiên cứu sinh trong giải quyết bài tốn phát hiện sớm mã độc IoT Botnet được trình bày tại Chương 4 của luận án.