Thuật tốn giảm mẫu kết hợp với mBFE

Input

D - Tập dữ liệu huấn luyện

Output

Sopt - Tập con các thuộc tính tối ưu dùng kỹ thuật giảm mẫu

Begin

1: Initialize:

2: Tính độ quan trọng của tất cả các thuộc tính trên tập dữ liệu D

3: Smax = Tập tất cả các thuộc tính được sắp theo thứ tự tăng dần về độ quan trọng

4: Smin = Tập các thuộc tính tối thiểu cĩ được qua thuật tốn lựa chọn thuộc tính

5: Sopt = Smax

6: Sdel = Smax \ Smin

7: Giảm mẫu (US) trên tập huấn luyện D dùng các thuộc tính  Sopt 8: For i = 1 to len(Sdel) do

9: s = Sdel [i-1]

10: S1 = Sopt \ {s}

11: Giảm mẫu trên tập huấn luyện D dùng các thuộc tính  S1 12: If chất lượng phân lớp của S1 tốt hơn Sopt sau US then

13: Best = chất lượng phân lớp của S1 sau US

14: For each sca in Sopt do

15: If sca tương quan với s và cĩ độ quan trọng nhỏ hơn s then

16: S2 = Sopt \ {sca}

17: If chất lượng phân lớp của S2 sau US > Best then

18: S1 = S2

19: Best = chất lượng phân lớp của S2 sau US

20: End if 21: End if 22: End for 23: Sopt = S1 24: End if 25: End for 26: Return Sopt End

4.2 Kết quả thực hiện

Các chương trình, thuật tốn trong thử nghiệm được thực hiện như sau: - Ngơn ngữ lập trình: Java và Python.

- Thư viện học máy: Khung làm việc học máy Weka do Đại học Waikato, New Zealand phát triển (https://www.cs.waikato.ac.nz/ml/weka/) và thư viện mã nguồn mở học máy dành cho Python: Scikit-learn.

- Cấu hình máy chạy thử nghiệm: CPU Intel Core i5 8th Gen, RAM 8 GB.

- Về kỹ thuật học máy, cây quyết định dựa trên thuật tốn J48 (mã nguồn mở của C4.5) được sử dụng. Về kỹ thuật tăng mẫu, các kỹ thuật SMOTE, ADASYN, Cluster SMOTE, Borderline SMOTE1 và Borderline SMOTE2 được sử dụng. Về kỹ thuật giảm mẫu, các kỹ thuật TML, ENN và NCR được sử dụng.

- Tập dữ liệu huấn luyện được sử dụng là tập dữ liệu huấn luyện đầy đủ của tập dữ liệu UNSW-NB15 gồm: 43 thuộc tính, 82.332 bản ghi, trong đĩ cĩ 37.000 bản ghi được dán nhãn bình thường và 45.332 bản ghi được dán nhãn tấn cơng (gồm 9 kiểu tấn cơng) , tỷ lệ mất cân bằng lớp (xem Bảng 2.2).

- Tập dữ liệu kiểm tra được sử dụng là tập dữ liệu kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 gồm: 43 thuộc tính, 175.341 bản ghi, trong đĩ cĩ 56.000 bản ghi được dán nhãn bình thường và 119.341 bản ghi được dán nhãn tấn cơng (gồm 9 kiểu tấn cơng), tỷ lệ mất cân bằng lớp (xem Bảng 2.2).

- Tương tự như giải pháp lựa chọn thuộc tính, cơng cụ Auto-WEKA [137] đã được sử dụng để thiết lập giá trị tối ưu cho các tham số / siêu tham số của các thuật tốn học máy.

Thuật tốn tìm tỷ lệ tối ưu giữa lớp thiểu số và lớp đa số sử dụng kỹ thuật tăng mẫu cho từng phân lớp thiểu số trên tập dữ liệu UNSW-NB15 được thực hiện thơng qua tìm kiếm véc cạn. Xuất phát từ tập huấn luyện T ban đầu, các các bản ghi tổng hợp lần lượt được thêm vào lớp tối thiểu sử dụng các kỹ thuật tăng mẫu khác nhau để tạo các tập dữ liệu mới Tnew khác nhau, các tập dữ liệu mới Tnew sẽ được sử dụng để huấn luyện các bộ phân lớp và việc kiểm tra đánh giá bộ phân lớp được thực hiện trên một tập kiểm tra độc lập. Tập dữ liệu Tnew cho chỉ số đánh giá tốt nhất cho đến vịng lặp hiện tại sẽ được lưu trữ. Quá trình trên sẽ được thực hiện cho đến khi hết n vịng lặp thiết lập trước. Tập dữ liệu cĩ chỉ số đánh giá tốt nhất sẽ được chọn như kết quả của quá trình tăng mẫu.

Việc chọn các thuộc tính tham gia vào q trình tính khoảng cách Euclide để tìm các láng giềng gần nhất trong các kỹ thuật tăng mẫu và giảm mẫu cũng đã được thực hiện với các thuật tốn mFFC và mBFE. Các tập dữ liệu huấn luyện và kiểm tra được sử dụng là các tập dữ liệu huấn luyện và kiểm tra chuẩn cĩ trong tập dữ liệu UNSW-NB15. Thời gian huấn luyện là thời gian thực hiện việc huấn luyện trên tập dữ liệu huấn luyện gồm 82.332 bản ghi dữ liệu. Thời gian kiểm tra là thời gian kiểm tra trên tập dữ liệu kiểm tra gồm 175.341 bản ghi dữ liệu. Chỉ số đánh giá xuyên suốt được sử dụng trong các thử nghiệm là F-Measure, đây là chỉ số đánh giá được lựa chọn trên cơ sở phân tích các đặc tính dữ liệu của các hệ thống phát hiện xâm nhập mạng.

4.2.1 Tăng mẫu tập dữ liệu

Luận án đề xuất sử dụng kết hợp các kỹ thuật lựa chọn thuộc tính mBFE và mFFC với các kỹ thuật lấy mẫu lại dữ liệu để nâng cao hiệu quả phân lớp của hệ thống. Để đánh giá hiệu quả của kết hợp đề xuất, luận án thực hiện song song hai thuật tốn, thuật tốn lấy mẫu lại dữ liệu nguyên bản sử dụng đầy đủ các thuộc tính của tập dữ liệu UNSW-NB15 và thuật tốn kết hợp đề xuất. Phần sau trình bày chi tiết kết quả thực hiện của hai thuật tốn này.

4.2.1.1 Kỹ thuật tăng mẫu nguyên bản a) Tăng mẫu với kiểu tấn cơng Worms

Kiểu tấn cơng Worms thuộc lớp thiểu số gồm 44 bản ghi ban đầu, đã được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu khác nhau gồm: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Kết quả thực hiện cho thấy chỉ số F-Measure với kiểu tấn cơng Worms đạt được giá trị tốt nhất khi sử dụng kỹ thuật BL-SMOTE1 và số bản ghi của kiểu tấn cơng Worms sau cân bằng là 748 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.7905, 0.8769 và 0.8985.

Hình 4.1 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật BL- SMOTE1 với kiểu tấn cơng Worms. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, từ đĩ giúp cải thiện chỉ số F-Measure.

Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Worms

b) Tăng mẫu với kiểu tấn cơng Shellcode

Tương tự, kiểu tấn cơng Shellcode thuộc lớp thiểu số gồm 378 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Shellcode đạt được giá trị tốt nhất khi sử dụng kỹ thuật SMOTE và số bản ghi của kiểu tấn cơng Shellcode sau cân bằng là 3194 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.7927, 0.8961 và 0.9364.

Hình 4.2 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật SMOTE với kiểu tấn cơng Shellcode. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, đặc biệt là sự gia tăng mạnh chỉ số Sensitivity, từ đĩ giúp cải thiện chỉ số F-Measure, G-Means và AUC.

Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Shellcode

0.7077 0.9998 0.8679 0.7797 0.8411 0.8798 0.7692 0.9996 0.8130 0.79 05 0.8769 0.8985 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Sworms

Original Borderline-SMOTE1 0.5605 0.9985 0.8819 0.68 54 0.7481 0.9111 0.8067 0.9954 0.7792 0.7927 0.8961 0.9364 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Shellcode

c) Tăng mẫu với kiểu tấn cơng Backdoor

Tương tự, kiểu tấn cơng Backdoor thuộc lớp thiểu số gồm 583 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Backdoor đạt được giá trị tốt nhất khi sử dụng kỹ thuật SMOTE và số bản ghi của kiểu tấn cơng Backdoor sau cân bằng là 3274 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9279, 0.9647 và 0.9733.

Hình 4.3 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật SMOTE với kiểu tấn cơng Backdoor. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, tất cả các chỉ số đánh giá đều cĩ sự cải thiện vượt trội, đặc biệt là Sensitivity.

Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Backdoor

d) Tăng mẫu với kiểu tấn cơng Analysis

Tương tự, kiểu tấn cơng Analysis thuộc lớp thiểu số gồm 677 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Analysis đạt được giá trị tốt nhất khi sử dụng kỹ thuật Cluster-SMOTE và số bản ghi của kiểu tấn cơng Analysis sau cân bằng là 1008 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.8210, 0.8357 và 0.8516.

Hình 4.4 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật Cluster-SMOTE với kiểu tấn cơng Analysis. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, tất cả các chỉ số đánh giá đều được cải thiện ngoại trừ cĩ sự giảm khơng đáng kể ở chỉ số

Sensitivity, nhưng bù lại là sự gia tăng mạnh ở chỉ số Precision, từ đĩ dẫn đến sự gia tăng ở

chỉ số F-Measure. 0.8803 0.9973 0.9089 0.89 44 0.9370 0.9535 0.9330 0.9976 0.9229 0.9279 0.9647 0.9733 0.8200 0.8400 0.8600 0.8800 0.9000 0.9200 0.9400 0.9600 0.9800 1.0000 1.0200

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Backdoor

Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Analysis

e) Tăng mẫu với kiểu tấn cơng Recce

Tương tự, kiểu tấn cơng Recce thuộc lớp thiểu số gồm 3496 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Recce đạt được giá trị tốt nhất khi sử dụng kỹ thuật BL-SMOTE1 và số bản ghi của kiểu tấn cơng Recce sau cân bằng là 9016 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9382, 0.9530 và 0.9588.

Hình 4.5 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật BL- SMOTE1 với kiểu tấn cơng Recce. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, đặc biệt là sự gia tăng

mạnh chỉ số Sensitivity, từ đĩ giúp cải thiện chỉ số F-Measure, G-Means và AUC.

Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Recce

0.7055 0.9948 0.8285 0.7621 0.8377 0.7748 0.6985 0.9999 0.9957 0.82 10 0.8357 0.8516 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Analysis

Original Cluster-SMOTE 0.6287 0.9979 0.9823 0.7667 0.7921 0.9744 0.9142 0.9935 0.9634 0.93 82 0.9530 0.9588 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Recce

f) Tăng mẫu với kiểu tấn cơng DoS

Tương tự, kiểu tấn cơng DoS thuộc lớp thiểu số gồm 4089 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng DoS đạt được giá trị tốt nhất khi sử dụng kỹ thuật Cluster-SMOTE và số bản ghi của kiểu tấn cơng DoS sau cân bằng là 6854 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9530, 0.9707 và 0.9795.

Hình 4.6 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật Cluster-SMOTE với kiểu tấn cơng DoS. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, tất cả các chỉ số đánh giá đều cĩ sự cải thiện vượt trội, đặc biệt là Precision, từ đĩ dẫn đến sự gia tăng mạnh mẽ ở cả 3 chỉ số F-Measure, G-Means và AUC.

Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng DoS

g) Tăng mẫu với kiểu tấn cơng Fuzzers

Tương tự, kiểu tấn cơng Fuzzers thuộc lớp thiểu số gồm 6062 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Fuzzers đạt được giá trị tốt nhất khi sử dụng kỹ thuật BL-SMOTE2 và số bản ghi của kiểu tấn cơng Fuzzers sau cân bằng là 8567 với các giá trị F-Measure, G-Means và AUC

tương ứng là 0.6271, 0.7401 và 0.8282.

Hình 4.7 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật BL- SMOTE2 với kiểu tấn cơng Fuzzers. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự gia tăng ở cả 2 chỉ số quan trọng là Sensitivity và Precision, ngoại trừ cĩ sự giảm nhỏ ở chỉ số

Specificity, tất cả các chỉ số đánh giá cịn lại đều cĩ sự gia tăng đáng kể, đặc biệt là F-Measure.

0.9430 0.9797 0.9106 0.9265 0.9612 0.9688 0.9516 0.9901 0.9544 0.9530 0.9707 0.9795 0.8600 0.8800 0.9000 0.9200 0.9400 0.9600 0.9800 1.0000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng DoS

Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Fuzzers

h) Tăng mẫu với kiểu tấn cơng Exploits

Tương tự, kiểu tấn cơng Exploits thuộc lớp thiểu số gồm 11132 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Exploits đạt được giá trị tốt nhất khi sử dụng kỹ thuật ADASYN và số bản ghi của kiểu tấn cơng Exploits sau cân bằng là 11521 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9610, 0.9683 và 0.9670.

Hình 4.8 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật ADASYN với kiểu tấn cơng Exploits. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, đặc biệt là sự gia tăng mạnh chỉ số Sensitivity, từ đĩ giúp cải thiện cả 3 chỉ số F-Measure, G-Means và AUC.

Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Exploits

0.0270 0.9755 0.4407 0.0509 0.1624 0.4395 0.6193 0.8845 0.6351 0.62 71 0.7401 0.8282 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Fuzzers

Original Borderline-SMOTE2 0.9328 0.9798 0.9650 0.9486 0.9560 0.9508 0.9584 0.9784 0.9636 0.9610 0.9683 0.9670 0.9000 0.9100 0.9200 0.9300 0.9400 0.9500 0.9600 0.9700 0.9800 0.9900

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Exploits

i) Tăng mẫu với kiểu tấn cơng Generic

Tương tự, kiểu tấn cơng Generic thuộc lớp thiểu số gồm 18871 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL-

Thuật tốn giảm mẫu kết hợp với mBFE

Lựa chọn thuộc tính LVF

Kỹ thuật tăng mẫu SMOTE