Thuật tốn giảm mẫu kết hợp với mBFE

Một phần của tài liệu (LUẬN án TIẾN sĩ) kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng (Trang 109 - 138)

Input

D - Tập dữ liệu huấn luyện

Output

Sopt - Tập con các thuộc tính tối ưu dùng kỹ thuật giảm mẫu

Begin

1: Initialize:

2: Tính độ quan trọng của tất cả các thuộc tính trên tập dữ liệu D

3: Smax = Tập tất cả các thuộc tính được sắp theo thứ tự tăng dần về độ quan trọng

4: Smin = Tập các thuộc tính tối thiểu cĩ được qua thuật tốn lựa chọn thuộc tính

5: Sopt = Smax

6: Sdel = Smax \ Smin

7: Giảm mẫu (US) trên tập huấn luyện D dùng các thuộc tính  Sopt 8: For i = 1 to len(Sdel) do

9: s = Sdel [i-1]

10: S1 = Sopt \ {s}

11: Giảm mẫu trên tập huấn luyện D dùng các thuộc tính  S1 12: If chất lượng phân lớp của S1 tốt hơn Sopt sau US then

13: Best = chất lượng phân lớp của S1 sau US

14: For each sca in Sopt do

15: If sca tương quan với s và cĩ độ quan trọng nhỏ hơn s then

16: S2 = Sopt \ {sca}

17: If chất lượng phân lớp của S2 sau US > Best then

18: S1 = S2

19: Best = chất lượng phân lớp của S2 sau US

20: End if 21: End if 22: End for 23: Sopt = S1 24: End if 25: End for 26: Return Sopt End

4.2 Kết quả thực hiện

Các chương trình, thuật tốn trong thử nghiệm được thực hiện như sau: - Ngơn ngữ lập trình: Java và Python.

- Thư viện học máy: Khung làm việc học máy Weka do Đại học Waikato, New Zealand phát triển (https://www.cs.waikato.ac.nz/ml/weka/) và thư viện mã nguồn mở học máy dành cho Python: Scikit-learn.

- Cấu hình máy chạy thử nghiệm: CPU Intel Core i5 8th Gen, RAM 8 GB.

- Về kỹ thuật học máy, cây quyết định dựa trên thuật tốn J48 (mã nguồn mở của C4.5) được sử dụng. Về kỹ thuật tăng mẫu, các kỹ thuật SMOTE, ADASYN, Cluster SMOTE, Borderline SMOTE1 và Borderline SMOTE2 được sử dụng. Về kỹ thuật giảm mẫu, các kỹ thuật TML, ENN và NCR được sử dụng.

- Tập dữ liệu huấn luyện được sử dụng là tập dữ liệu huấn luyện đầy đủ của tập dữ liệu UNSW-NB15 gồm: 43 thuộc tính, 82.332 bản ghi, trong đĩ cĩ 37.000 bản ghi được dán nhãn bình thường và 45.332 bản ghi được dán nhãn tấn cơng (gồm 9 kiểu tấn cơng) , tỷ lệ mất cân bằng lớp (xem Bảng 2.2).

- Tập dữ liệu kiểm tra được sử dụng là tập dữ liệu kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 gồm: 43 thuộc tính, 175.341 bản ghi, trong đĩ cĩ 56.000 bản ghi được dán nhãn bình thường và 119.341 bản ghi được dán nhãn tấn cơng (gồm 9 kiểu tấn cơng), tỷ lệ mất cân bằng lớp (xem Bảng 2.2).

- Tương tự như giải pháp lựa chọn thuộc tính, cơng cụ Auto-WEKA [137] đã được sử dụng để thiết lập giá trị tối ưu cho các tham số / siêu tham số của các thuật tốn học máy.

Thuật tốn tìm tỷ lệ tối ưu giữa lớp thiểu số và lớp đa số sử dụng kỹ thuật tăng mẫu cho từng phân lớp thiểu số trên tập dữ liệu UNSW-NB15 được thực hiện thơng qua tìm kiếm véc cạn. Xuất phát từ tập huấn luyện T ban đầu, các các bản ghi tổng hợp lần lượt được thêm vào lớp tối thiểu sử dụng các kỹ thuật tăng mẫu khác nhau để tạo các tập dữ liệu mới Tnew khác nhau, các tập dữ liệu mới Tnew sẽ được sử dụng để huấn luyện các bộ phân lớp và việc kiểm tra đánh giá bộ phân lớp được thực hiện trên một tập kiểm tra độc lập. Tập dữ liệu Tnew cho chỉ số đánh giá tốt nhất cho đến vịng lặp hiện tại sẽ được lưu trữ. Quá trình trên sẽ được thực hiện cho đến khi hết n vịng lặp thiết lập trước. Tập dữ liệu cĩ chỉ số đánh giá tốt nhất sẽ được chọn như kết quả của quá trình tăng mẫu.

Việc chọn các thuộc tính tham gia vào q trình tính khoảng cách Euclide để tìm các láng giềng gần nhất trong các kỹ thuật tăng mẫu và giảm mẫu cũng đã được thực hiện với các thuật tốn mFFC và mBFE. Các tập dữ liệu huấn luyện và kiểm tra được sử dụng là các tập dữ liệu huấn luyện và kiểm tra chuẩn cĩ trong tập dữ liệu UNSW-NB15. Thời gian huấn luyện là thời gian thực hiện việc huấn luyện trên tập dữ liệu huấn luyện gồm 82.332 bản ghi dữ liệu. Thời gian kiểm tra là thời gian kiểm tra trên tập dữ liệu kiểm tra gồm 175.341 bản ghi dữ liệu. Chỉ số đánh giá xuyên suốt được sử dụng trong các thử nghiệm là F-Measure, đây là chỉ số đánh giá được lựa chọn trên cơ sở phân tích các đặc tính dữ liệu của các hệ thống phát hiện xâm nhập mạng.

4.2.1 Tăng mẫu tập dữ liệu

Luận án đề xuất sử dụng kết hợp các kỹ thuật lựa chọn thuộc tính mBFE và mFFC với các kỹ thuật lấy mẫu lại dữ liệu để nâng cao hiệu quả phân lớp của hệ thống. Để đánh giá hiệu quả của kết hợp đề xuất, luận án thực hiện song song hai thuật tốn, thuật tốn lấy mẫu lại dữ liệu nguyên bản sử dụng đầy đủ các thuộc tính của tập dữ liệu UNSW-NB15 và thuật tốn kết hợp đề xuất. Phần sau trình bày chi tiết kết quả thực hiện của hai thuật tốn này.

4.2.1.1 Kỹ thuật tăng mẫu nguyên bản a) Tăng mẫu với kiểu tấn cơng Worms

Kiểu tấn cơng Worms thuộc lớp thiểu số gồm 44 bản ghi ban đầu, đã được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu khác nhau gồm: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Kết quả thực hiện cho thấy chỉ số F-Measure với kiểu tấn cơng Worms đạt được giá trị tốt nhất khi sử dụng kỹ thuật BL-SMOTE1 và số bản ghi của kiểu tấn cơng Worms sau cân bằng là 748 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.7905, 0.8769 và 0.8985.

Hình 4.1 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật BL- SMOTE1 với kiểu tấn cơng Worms. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, từ đĩ giúp cải thiện chỉ số F-Measure.

Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Worms

b) Tăng mẫu với kiểu tấn cơng Shellcode

Tương tự, kiểu tấn cơng Shellcode thuộc lớp thiểu số gồm 378 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Shellcode đạt được giá trị tốt nhất khi sử dụng kỹ thuật SMOTE và số bản ghi của kiểu tấn cơng Shellcode sau cân bằng là 3194 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.7927, 0.8961 và 0.9364.

Hình 4.2 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật SMOTE với kiểu tấn cơng Shellcode. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, đặc biệt là sự gia tăng mạnh chỉ số Sensitivity, từ đĩ giúp cải thiện chỉ số F-Measure, G-Means và AUC.

Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Shellcode

0.7077 0.9998 0.8679 0.7797 0.8411 0.8798 0.7692 0.9996 0.8130 0.79 05 0.8769 0.8985 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Sworms

Original Borderline-SMOTE1 0.5605 0.9985 0.8819 0.68 54 0.7481 0.9111 0.8067 0.9954 0.7792 0.7927 0.8961 0.9364 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Shellcode

c) Tăng mẫu với kiểu tấn cơng Backdoor

Tương tự, kiểu tấn cơng Backdoor thuộc lớp thiểu số gồm 583 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Backdoor đạt được giá trị tốt nhất khi sử dụng kỹ thuật SMOTE và số bản ghi của kiểu tấn cơng Backdoor sau cân bằng là 3274 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9279, 0.9647 và 0.9733.

Hình 4.3 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật SMOTE với kiểu tấn cơng Backdoor. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, tất cả các chỉ số đánh giá đều cĩ sự cải thiện vượt trội, đặc biệt là Sensitivity.

Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Backdoor

d) Tăng mẫu với kiểu tấn cơng Analysis

Tương tự, kiểu tấn cơng Analysis thuộc lớp thiểu số gồm 677 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Analysis đạt được giá trị tốt nhất khi sử dụng kỹ thuật Cluster-SMOTE và số bản ghi của kiểu tấn cơng Analysis sau cân bằng là 1008 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.8210, 0.8357 và 0.8516.

Hình 4.4 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật Cluster-SMOTE với kiểu tấn cơng Analysis. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, tất cả các chỉ số đánh giá đều được cải thiện ngoại trừ cĩ sự giảm khơng đáng kể ở chỉ số

Sensitivity, nhưng bù lại là sự gia tăng mạnh ở chỉ số Precision, từ đĩ dẫn đến sự gia tăng ở

chỉ số F-Measure. 0.8803 0.9973 0.9089 0.89 44 0.9370 0.9535 0.9330 0.9976 0.9229 0.9279 0.9647 0.9733 0.8200 0.8400 0.8600 0.8800 0.9000 0.9200 0.9400 0.9600 0.9800 1.0000 1.0200

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Backdoor

Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Analysis

e) Tăng mẫu với kiểu tấn cơng Recce

Tương tự, kiểu tấn cơng Recce thuộc lớp thiểu số gồm 3496 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Recce đạt được giá trị tốt nhất khi sử dụng kỹ thuật BL-SMOTE1 và số bản ghi của kiểu tấn cơng Recce sau cân bằng là 9016 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9382, 0.9530 và 0.9588.

Hình 4.5 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật BL- SMOTE1 với kiểu tấn cơng Recce. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, đặc biệt là sự gia tăng

mạnh chỉ số Sensitivity, từ đĩ giúp cải thiện chỉ số F-Measure, G-Means và AUC.

Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Recce

0.7055 0.9948 0.8285 0.7621 0.8377 0.7748 0.6985 0.9999 0.9957 0.82 10 0.8357 0.8516 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Analysis

Original Cluster-SMOTE 0.6287 0.9979 0.9823 0.7667 0.7921 0.9744 0.9142 0.9935 0.9634 0.93 82 0.9530 0.9588 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Recce

f) Tăng mẫu với kiểu tấn cơng DoS

Tương tự, kiểu tấn cơng DoS thuộc lớp thiểu số gồm 4089 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng DoS đạt được giá trị tốt nhất khi sử dụng kỹ thuật Cluster-SMOTE và số bản ghi của kiểu tấn cơng DoS sau cân bằng là 6854 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9530, 0.9707 và 0.9795.

Hình 4.6 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật Cluster-SMOTE với kiểu tấn cơng DoS. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, tất cả các chỉ số đánh giá đều cĩ sự cải thiện vượt trội, đặc biệt là Precision, từ đĩ dẫn đến sự gia tăng mạnh mẽ ở cả 3 chỉ số F-Measure, G-Means và AUC.

Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng DoS

g) Tăng mẫu với kiểu tấn cơng Fuzzers

Tương tự, kiểu tấn cơng Fuzzers thuộc lớp thiểu số gồm 6062 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Fuzzers đạt được giá trị tốt nhất khi sử dụng kỹ thuật BL-SMOTE2 và số bản ghi của kiểu tấn cơng Fuzzers sau cân bằng là 8567 với các giá trị F-Measure, G-Means và AUC

tương ứng là 0.6271, 0.7401 và 0.8282.

Hình 4.7 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật BL- SMOTE2 với kiểu tấn cơng Fuzzers. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự gia tăng ở cả 2 chỉ số quan trọng là Sensitivity và Precision, ngoại trừ cĩ sự giảm nhỏ ở chỉ số

Specificity, tất cả các chỉ số đánh giá cịn lại đều cĩ sự gia tăng đáng kể, đặc biệt là F-Measure.

0.9430 0.9797 0.9106 0.9265 0.9612 0.9688 0.9516 0.9901 0.9544 0.9530 0.9707 0.9795 0.8600 0.8800 0.9000 0.9200 0.9400 0.9600 0.9800 1.0000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng DoS

Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Fuzzers

h) Tăng mẫu với kiểu tấn cơng Exploits

Tương tự, kiểu tấn cơng Exploits thuộc lớp thiểu số gồm 11132 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL- SMOTE2, Cluster-SMOTE và SMOTE. Số lượng các bản ghi mới được bổ sung tăng dần sau mỗi vịng lặp. Kết quả thực hiện cho thấy chỉ số F-Measure, G-Means và AUC với kiểu tấn cơng Exploits đạt được giá trị tốt nhất khi sử dụng kỹ thuật ADASYN và số bản ghi của kiểu tấn cơng Exploits sau cân bằng là 11521 với các giá trị F-Measure, G-Means và AUC tương ứng là 0.9610, 0.9683 và 0.9670.

Hình 4.8 so sánh các chỉ số đánh giá đạt được trước và sau khi sử dụng kỹ thuật ADASYN với kiểu tấn cơng Exploits. Theo đĩ, sau khi sử dụng kỹ thuật lấy mẫu, cĩ sự cân bằng hài hịa hơn giữa 2 chỉ số rất quan trọng là Sensitivity và Precision, đặc biệt là sự gia tăng mạnh chỉ số Sensitivity, từ đĩ giúp cải thiện cả 3 chỉ số F-Measure, G-Means và AUC.

Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn cơng Exploits

0.0270 0.9755 0.4407 0.0509 0.1624 0.4395 0.6193 0.8845 0.6351 0.62 71 0.7401 0.8282 0.0000 0.2000 0.4000 0.6000 0.8000 1.0000 1.2000

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Fuzzers

Original Borderline-SMOTE2 0.9328 0.9798 0.9650 0.9486 0.9560 0.9508 0.9584 0.9784 0.9636 0.9610 0.9683 0.9670 0.9000 0.9100 0.9200 0.9300 0.9400 0.9500 0.9600 0.9700 0.9800 0.9900

Sensitivity Specificity Precision F-Measure G-Means AUC

Kiểu tấn cơng Exploits

i) Tăng mẫu với kiểu tấn cơng Generic

Tương tự, kiểu tấn cơng Generic thuộc lớp thiểu số gồm 18871 bản ghi ban đầu, cũng được bổ sung các bản ghi mới dùng các kỹ thuật tăng mẫu: ADASYN, BL-SMOTE1, BL-

Một phần của tài liệu (LUẬN án TIẾN sĩ) kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng (Trang 109 - 138)