6. Bố cục của luận án
1.3. Quy trình phát hiện mã độc IoT Botnet
1.3.4.2 Ứng dụng học sâu trong phát hiện mã độc IoT Botnet
Nếu coi học máy là một lĩnh vực của trí tuệ nhân tạo, thì học sâu (Deep learning) cĩ thể được gọi là một tập con của học máy. Nền tảng chính của học sâu chính là lớp thuật tốn mạng neural nhân tạo, một lớp thuật tốn mơ phỏng lại quá trình lưu trữ, sắp xếp và phân loại dữ liệu dựa trên hoạt động bộ não của con người. Trong đĩ, mạng neural nhân tạo được tở chức thành các lớp. Mỗi một lớp được cấu tạo bởi một tập các node, mỗi một node chứa một hàm kích hoạt (activation function); các node giữa các lớp khác nhau cĩ kết nối với nhau, các kết nối và kết nối này cĩ trọng số.
Tác giả Woosub Jung và cộng sự [44] đề xuất mơ hình học sâu sử dụng mạng nơ- ron tích chập (CNN) để phát hiện mã độc IoT Botnet dựa trên biểu đồ điện năng tiêu thụ của thiết bị. Dữ liệu điện năng tiêu thụ sau khi được tiền xử lý với cửa sở trượt phù hợp sẽ được chuyển đởi thành vector đầu vào cho mạng CNN. Mơ hình CNN đề xuất được thiết kế với 8 lớp gồm: Input, Convolution, Batch Normalization, ReLU, Max Pooling, Fully Connected, Softmax, Output layer. Kết quả đánh giá mơ hình đề xuất dựa trên bộ dữ liệu tự sinh cho độ chính xác ACC ≈ 90%.
Tác giả McDermott và cộng sự [79] trình bày mơ hình mạng học sâu hồi quy BLSTM-RNN để phát hiện mã độc IoT Botnet dựa trên dữ liệu luồng mạng của mẫu mã độc Mirai. Để phát hiện mã độc IoT Botnet, tác giả khai thác các chuỗi ký tự cĩ nghĩa được truyền trong các gĩi tin mạng. Dựa trên khả năng học và nhận biết ngữ nghĩa của
các chuỗi ký tự của mạng học sâu hồi quy (RNN), đặc biệt là kiến trúc mạng BLSTM, tác giả áp dụng cho việc học ngữ nghĩa các chuỗi ký tự độc hại trong giao tiếp giữa mã độc IoT Botnet và C&C server. Các chuỗi ký tự được tìm thấy trong các gĩi tin của luồng mạng sẽ được vector hĩa bằng Word Embedding để làm đầu vào phù hợp cho mạng BLSTM-RNN. Mơ hình đề xuất của tác giả cho độ chính xác ACC≈92.24%.
Tác giả Meidan và cộng sự [58] trình bày mơ hình phát hiện mã độc IoT Botnet dựa trên mạng học sâu Deep Autoencoders với bộ dữ liệu tự sinh của mình (N-BaIoT dataset). Autoencoder là một mạng nơ-ron được huấn luyện nhằm mục đích tái cấu trúc lại các đầu vào của nĩ sau khi thực hiện thao tác nén thơng tin. Việc nén thơng tin của Autoencoder nhằm hai mục đích gồm giảm chiều vector và tìm kiếm các ràng buộc với những đặc trưng cĩ độ lợi về thơng tin khi thực hiện phân loại mẫu. Kết quả huấn luyện mạng học sâu này cho tỉ lệ FPR = 1.7%.
Tác giả Sriram và cộng sự [80] đề xuất sử dụng mạng học sâu Deep Neural Network (DNN) để phát hiện mã độc IoT Botnet dựa dữ liệu luồng mạng. Tập dữ liệu phục vụ huấn luyện và kiểm thử mơ hình đề xuất được lấy từ N-BaIoT [58] và BoT- IoT [81]. Mạng học sâu DNN được xây dựng với 4 lớp ẩn, mỗi lớp cĩ lần lượt là 115, 256, 128 và 64 phần tử nơ-ron. Mỗi một lớp đi kèm là hàm kích hoạt (activation function) ReLU và dropout layer. Tối ưu hĩa Adam được sử dụng. Để so sánh, tác giả tiến hành thử nghiệm thêm với các thuật tốn học máy phở biến như KNN, Decision Tree, Random Forest, SVM,… Kết quả thực nghiệm tác giả Sriram cho thấy mơ hình đề xuất cĩ ưu thế về độ chính xác hơn so với những mơ hình sử dụng thuật tốn học máy thơng thường. Tuy nhiên, như tác giả đã thừa nhận, việc sử dụng mạng học sâu tuy cho độ chính xác cao nhưng đi kèm là độ phức tạp tính tốn, khĩ triển khai trong thực tế cho các ứng dụng phát hiện mã độc IoT Botnet theo thời gian thực. Đây cũng là nhược điểm chung của những mơ hình học sâu khi áp dụng vào vấn đề phát hiện mã độc IoT Botnet.
Vì vậy, vấn đề nghiên cứu đặt ra là cần xây dựng một mơ hình phát hiện mã độc IoT Botnet yêu cầu ít tài nguyên, thời gian thực thi nhanh mà vẫn đảm bảo tính chính xác.