Phân tích và phát hiện

6. Bố cục của luận án

1.3. Quy trình phát hiện mã độc IoT Botnet

1.3.4. Phân tích và phát hiện

Dữ liệu động của mã độc IoT Botnet sau khi được thu thập, tiền xử lý sẽ được trải qua bước phân tích dữ liệu và phát hiện các dấu hiệu hành vi độc hại. Trước đây, cơng việc phân tích và phát hiện mã độc IoT Botnet thường dựa trên kinh nghiệm của các chuyên gia bảo mật để đưa ra nhận định cá nhân, đúc kết thành các luật, mẫu chữ ký để cĩ thể phát hiện mã độc này. Tuy nhiên, cùng với sự phát triển của cơng nghệ học máy/học sâu, các nghiên cứu ứng dụng cơng nghệ này để tự động hĩa q trình phân tích và phát hiện mã độc nĩi chung và IoT Botnet nĩi riêng đã cĩ nhiều thành cơng với độ chính xác cao, loại bỏ được các sai sĩt của việc sử dụng mẫu chữ ký, luật. Với mục tiêu xây dựng mơ hình phát hiện mã độc IoT Botnet hiệu quả và cĩ độ chính xác cao, luận án sẽ đi sâu vào nghiên cứu, đánh giá các mơ hình ứng dụng học máy/học sâu đối với dữ liệu động trong phát hiện mã độc IoT Botnet.

1.3.4.1. Ứng dụng học máy trong phát hiện mã độc IoT Botnet

Từ những ngày đầu của kỷ nguyên trí tuệ nhân tạo (Artificial Intelligence), học máy (Machine learning) luơn là một phần khơng thể thiếu trong việc khai phá thơng tin cĩ ích từ những dữ liệu thơ được thu thập lưu trữ trên các hệ thống thơng tin. Trong nghiên cứu phát hiện mã độc nĩi chung và IoT Botnet nĩi riêng, học máy đã được áp dụng rộng rãi để tự động hĩa quá trình tìm kiếm, nhận biết các đặc trưng phân biệt mã độc và tệp lành tính. Từ đĩ, các mơ hình học máy cĩ thể thay thế các chuyên gia phân tích mã độc để đưa ra dự đốn nhãn phân loại với độ chính xác cao. Các kết quả nghiên cứu áp dụng học máy cho phát hiện mã độc IoT Botnet [38, 45, 76–78] đã cho thấy các thuật tốn học máy phở biến được sử dụng gồm: K-nearest neighbors (KNN), Support vector machines (SVM), Decision Tree (DT) và Random Forest (RF).

Cụ thể, tác giả Azmoodeh và cộng sự [38] thử nghiệm 4 thuật tốn học máy để phát hiện mã độc IoT Botnet bao gồm: K-nearest neighbors (KNN), Neural Network (NN), Support vector machines (SVM) và Random Forest (RF). Tác giả đánh giá mơ hình đề xuất với các tham số đo là ACC, Recall, Precision và F-Measure. Với bộ dữ liệu giám sát thay đởi về mức tiêu thu năng lượng điện của thiết bị, tác giả Azmoodeh đạt kết quả phân loại tốt nhất khi sử dụng thuật tốn KNN (với window sizes=7.5s, K=1) cho giá trị tham số đo ACC=94.27%, Recall=95.65%, Precision=89.19%, F- Measure=92.31%.

Tác giả Shabtai và cộng sự [45] triển khai thử nghiệm 5 thuật tốn học máy là K- Means, Logistic Regression, Histograms, Decision Tree, Nạve Bayes cho các bộ phát hiện hành vi độc hại của mã độc IoT Botnet chạy trên hệ điều hành Android. Với bộ dữ liệu tương tác với tài nguyên của hệ thống tự thu thập, kết quả thử nghiệm cho thấy thuật tốn Decision Tree và Nạve Bayes phù hợp cho việc triển khai mơ hình mà tác giả đề xuất. Độ chính xác phát hiện mã độc của mơ hình được minh chứng với các giá trị trung bình các tham số đo ACC=90.78%, AUC=93.15%, TPR=87.90%, FPR=8.85%.

Tác giả Shorman và cộng sự [76] trình bày mơ hình đề xuất phát hiện mã độc IoT Botnet dựa trên việc kết hợp thuật tốn One Class Support Vector Machine (OCSVM – một thuật tốn kết hợp của SVM và lý thuyết phân loại một lớp) và thuật tốn Grey Wolf Optimization (GWO) để tối ưu siêu tham số cho SVM và lựa chọn các đặc trưng phù hợp. Mơ hình GWO-OCSVM do tác giả đề xuất được huấn luyện và kiểm thử với bộ dữ liệu luồng mạng được lấy từ hệ thống phát hiện xâm nhập N-BaIoT [58] với 5 loại thiết bị IoT chính (gồm cảm biến đo nhiệt độ phịng, camera an ninh, webcam, cảm biến giám sát chuyển động trẻ nhỏ và chuơng cửa). Kết quả đánh giá của mơ hình này với các tham số đo TPR = 98.54% và FPR = 4.86%.

Tác giả Bahsi và cộng sự [77] giới thiệu một phương pháp giảm chiều đặc trưng đầu vào cho các thuật tốn học máy để phát hiện hiệu quả mã độc IoT Botnet. Tác giả sử dụng thuật tốn KNN và Decision Tree để đánh giá hiệu năng của bộ đặc trưng sau khi được tối ưu. Bộ dữ liệu luồng mạng thu thập từ N-BaIoT được tác giả sử dụng để đánh giá phương pháp đề xuất. Kết quả tốt nhất theo kết quả thử nghiệm của tác giả cho độ chính xác ACC=98.97% với thuật tốn Decision Tree và ACC=94.97% với thuật tốn KNN.

Tác giả Yan Naung Soe và cộng sự [78] đề xuất một kiến trúc phát hiện tuần tự xây dựng dựa trên các thuật tốn học máy. Ba thuật tốn học máy khác nhau gồm ANN, Decision Tree J48 và Nạve Bayes được sử dụng trong kiến trúc này. Dữ liệu luồng mạng sau khi được thu thập và tiền xử lý sẽ được lựa chọn các đặc trưng phù hợp cho từng thuật tốn học máy kể trên. Trải qua quá trình huấn luyện, kết quả dự đốn của từng mơ hình học máy đơn lẻ sẽ được kết hợp lại với nhau thơng qua một thuật tốn lựa chọn phù hợp để đưa ra kết quả phát hiện cuối cùng. Tập dữ liệu luồng mạng tác giả sử dụng để huấn luyện và kiểm thử mơ hình được lấy từ N-BaIoT. Mơ hình kết hợp tác giả đề xuất cĩ độ chính xác trung bình đạt ACC≈99%.

Theo kết quả khảo sát trên, ưu điểm của các mơ hình học máy là u cầu ít tài nguyên, thời gian thực thi nhanh. Tuy nhiên, các mơ hình này thường kém chính xác, tỉ lệ âm tính giả cao.

Khái niệm mã độc IoT Botnet

Thu thập dữ liệu