6. Bố cục của luận án
4.2. Mơ hình đề xuất
4.3.3. Kết quả thử nghiệm
Nghiên cứu sinh đã sử dụng các thuật tốn học máy phở biến như SVM, KNN, Decision Tree, Random Forest và hàm hợp nhất Voting, Logistic Regression để đánh giá hiệu quả của mơ hình học máy cộng tác đề xuất. Kết quả huấn luyện và đánh giá các thuật tốn học máy đơn lẻ với các đặc trưng đầu vào được mơ tả trong Bảng 4.4. Kết quả dự đốn của các mơ hình học máy đơn lẻ này được kết hợp thơng qua hàm hợp nhất “Voting” (và sử dụng thêm hàm “Logistic Regression” để so sánh). Tởng cộng cĩ 64 cách kết hợp 4 thuật tốn học máy phở biến nêu trên. Cĩ 128 kết quả thử nghiệm đánh giá độ chính xác của việc phát hiện mã độc IoT Botnet cho mơ hình đề xuất được mơ tả trong Hình 4.12.
Từ kết quả thử nghiệm này, hàm kết hợp “Voting” cho thấy hiệu quả vượt trội so với hàm “Logistic Regression” và bộ ba thuật tốn học máy đơn lẻ KNN (đối với dữ liệu luồng mạng) + Random Forest (đối với dữ liệu sử dụng tài nguyên thiết bị) + KNN (đối với dữ liệu lời gọi hệ thống) cho kết quả tốt nhất với độ chính xác ACC = 99.37% và
FPR = 1,94%. So sánh với kết quả phát hiện mã độc IoT Botnet khi sử dụng các thuật tốn học máy đơn lẻ kể trên với các đặc trưng dữ liệu hành vi riêng rẽ của mã độc đã cho thấy sự phù hợp khi kết hợp các thuật tốn này với nhau trong mơ hình cộng tác. Sự kết hợp này đem lại hiệu quả phát hiện mã độc với độ chính xác cao thể hiện ở các độ đo ACC = 99.37%, ROC AUC =0.9896, FPR = 1,94% vượt trội hơn các mơ hình đơn lẻ mặc dù chỉ sử dụng một phần dữ liệu hành vi cần quan sát, chưa cần mã độc thực hiện đầy đủ các hành vi. Bên cạnh đĩ, việc kết hợp các thuật tốn học máy với các nguồn dữ liệu hành vi khác nhau của tệp đầu vào đã hỗ trợ, bở khuyết cho cho các thuật tốn trong việc đưa ra đánh giá xem tệp đầu vào cĩ thực sự là mã độc hay khơng. Minh chứng cho điều này là tỉ lệ FPR rất thấp với giá trị là 1.94%.
Tập giá trị trọng số của hàm biểu quyết mềm “Voting” là (0.33; 0.32; 0.35) tương ứng với các đầu ra dự đốn của mơ hình phát hiện dựa trên luồng mạng, thơng tin sử dụng tài nguyên thiết bị và lời gọi hệ thống. Với các giá trị trọng số kể trên cho thấy, các dữ liệu đặc trưng đầu vào mà NCS lựa chọn đều đĩng vai trị quan trọng trong quá trình xác định một tập tin cĩ phải là mã độc hay khơng. Nếu một trong các dữ liệu đặc trưng mà NCS đã lựa chọn là khơng quan trọng, gây nhiễu trong việc đánh giá tập tin mã độc thì trọng số của dữ liệu đặc trưng đĩ sẽ thấp hơn hẳn so với các trọng số cịn lại. Giá trị các trọng số trong trường hợp này khơng sai khác nhau quá nhiều cũng chỉ ra rằng cả 3 đặc trưng đầu vào này là cần thiết, khơng thể thiếu đối với mơ hình đề xuất. Với ba mơ hình học máy đơn lẻ đã chọn, nghiên cứu sinh đã điều chỉnh các thơng số của mơ hình và thử nghiệm trên tồn bộ Dataset, đánh giá mơ hình dựa trên các giá trị đo được. Kết quả đánh giá mơ hình đề xuất trên Dataset được trình bày trong Bảng 4.5. Ngồi ra, tác giả cũng đánh giá hiệu quả phát hiện của phương pháp đề xuất thơng qua các mẫu khơng cĩ sẵn trong Dataset. Kết quả phát hiện các mẫu khơng cĩ trong Dataset được mơ tả trong Bảng 4.6.
Hình 4.12 Kết quả đánh giá các thuật tốn học máy cộng tác
Bảng 4.4 Độ chính xác các mơ hình học máy đơn lẻ huấn luyện trên Dataset
Thuật tốn
Độ chính xác phân loại dữ liệu của mơ hình (ACC - %)
Dữ liệu
luờng mạng tài nguyên thiết biDữ liệu sử dụng gọi hệ thốngDữ liệu lời
SVM 89.44 97.83 98.26
KNN 89.78 98.70 97.54
Decision Tree 89.97 98.22 95.66 Random Forest 90.07 99.04 98.02
Bảng 4.5 Các mơ hình học máy sau khi tối ưu trên Dataset
Model ACC ROC
AUC FPR
Malware Benign
Precision Recall F1 Precision Recall F1
Network (k-NN) 0.8978 0.8901 0.1270 0.9500 0.9071 0.9280 0.7795 0.8730 0.8236 Performance (Random Forest) 0.9904 0.9846 0.0282 0.9895 0.9973 0.9934 0.9928 0.9718 0.9822 System-Call (k-NN) 0.9822 0.9715 0.0370 0.9860 0.9801 0.9830 0.9479 0.9630 0.9554 Mơ hình cộng tác 0.9937 0.9896 0.0194 0.9927 0.9987 0.9957 0.9964 0.9806 0.9884
Đưa các mơ hình sau khi huấn luyện xong vào chạy thực tế thì để đảm bảo khả năng đồng bộ dữ liệu giữa các nguồn dữ liệu đầu vào là lời gọi hệ thống, luồng mạng và hành vi sử dụng tài nguyên hệ thống; nghiên cứu sinh lựa chọn thời gian thu thập dữ liệu
theo thời gian thực là 03 giây (đảm bảo để cĩ thể thu được 300 lời gọi hệ thống, 20 hành vi yêu cầu tài nguyên thiết bị và 50 gĩi tin luồng mạng) cho quá trình thực thi tệp đầu vào và đưa ra kết quả dự đốn phân loại tệp tin. Kết quả chạy thực tế được minh họa như trong các Hình 3.14-3.16.
Hình 4.13 Kết quả phát hiện mã độc 1 pha phân tích
Hình 4.15 Kết quả phân tích tệp lành tính
Bảng 4.6 Kết quả thử nghiệm với các mẫu nằm ngồi Dataset
ID Mã HASH của tệp tin đầu vào
Nhãn dự đốn của mơ hình học máy
(tỉ lệ dự đốn là mã độc) VirustotalNhãn do cung cấp Network Performance Syscall Đề xuất
1 0a982a3fb71dd70c248c107fcf33574f Malware (1) Malware (1) Malware (1) Malware (1) (Bashlite)Malware 2 4a832bd4fbb625cd095e9f56d695b047 Malware(1) Malware (1) Malware(1) Malware(1) Malware(Mirai) 3 8b269f0eab1e09040c62ce78dff05c01 Benign(0.21) Benign (0) Benign(0) Benign(0.07) Benign 4 9505af2cafb5b2bb8d10949543c5c416 Malware(1) Benign (0.23) Malware(1) Malware(0.74) (Bashlite)Malware 5 1c7c1763888e0a0b67732db1e8e176ba Malware(1) Malware (1) Malware(1) Malware(1) (Bashlite)Malware 6 f70640f966d77234405df7d715f6e494 Malware(1) Malware (1) Malware(1) Malware(1) (Bashlite)Malware 7 79b62cfd1975f09e24ce131181c1008a Malware (0.83) Malware (1) Malware (1) Malware (0.94) Malware (Mirai) 8 2bb57df01bd06453775472df2098eff1 Malware(1) Malware (1) Malware(1) Malware(1) Malware(Others) 9 a7192c394957ba17878e3c1f57aca67b Malware(1) Malware(0.63) Malware(1) Malware(0.88) Malware(Mirai) 10 571d93ccba8ee531627311fdb0b54c95 Malware(0.83) Benign (0) Benign(0) Benign(0.28) Benign 11 147af70b815093d9247e22f688f25104 Benign(0.21) Benign (0.33) Benign(0) Benign(0.16) Benign 12 89772d4f8d63117a5af7abd11ef66c5c Malware(1) Malware (1) Malware(1) Malware(1) (Bashlite)Malware 13 cf04a95a254a9aada0440281f82d6e9c Benign(0.21) Benign (0) Benign(0) Benign(0.07) Benign