Input
D - Tập dữ liệu huấn luyện
Output
Sopt - Tập con các thuộc tính tối ưu dùng kỹ thuật tăng mẫu
Begin
1: Initialize:
2: Tính độ quan trọng của tất cả các thuộc tính trên tập dữ liệu D
3: Smax = Tập tất cả các thuộc tính được sắp theo thứ tự tăng dần về độ quan trọng
4: Smin = Tập các thuộc tính tối thiểu cĩ được qua thuật tốn lựa chọn thuộc tính
5: Sopt = Smax
6: Sdel = Smax \ Smin
7: Tăng mẫu (OS) trên tập huấn luyện D dùng các thuộc tính Sopt 8: For i = 1 to len(Sdel) do
10: S1 = Sopt \ {s}
11: Tăng mẫu trên tập huấn luyện D dùng các thuộc tính S1 12: If chất lượng phân lớp của S1 tốt hơn Sopt sau OS then
13: Best = chất lượng phân lớp của S1 sau OS
14: For each sca in Sopt do
15: If sca tương quan với s và cĩ độ quan trọng nhỏ hơn s then
16: S2 = Sopt \ {sca}
17: If chất lượng phân lớp của S2 sau OS > Best then
18: S1 = S2
19: Best = chất lượng phân lớp của S2 sau OS
20: End if 21: End if 22: End for 23: Sopt = S1 24: End if 25: End for 26: Return Sopt End
4.1.2 Giải pháp giảm mẫu
Các kỹ thuật giảm mẫu nêu trên cũng dựa vào k láng giềng gần nhất để loại bỏ sự
chồng chéo khơng mong muốn giữa các lớp với sự tham gia của tất cả các thuộc tính. Vấn đề đặt ra là, cĩ những thuộc tính khơng quan trọng, hoặc thậm chí gây nhiễu khi tính tốn khoảng cách để xác định k láng giềng gần nhất, điều đĩ cĩ thể ảnh hưởng đến chất lượng loại bỏ các bản ghi dữ liệu ở lớp đa số của các thuật tốn giảm mẫu. Để loại bỏ các thuộc tính khơng quan trọng hoặc gây nhiễu này, luận án đề xuất sử dụng 2 giải pháp được trình bày ở các Thuật tốn 4.3 và Thuật tốn 4.4.
Thuật toán thứ nhất (Thuật tốn 4.3) sử dụng giải pháp đề xuất bởi Thuật tốn 3.3
(thuật tốn mFFC) để xác định các thuộc tính phù hợp nhất tham gia vào việc tính khoảng cách khi xác định k láng giềng gần nhất được sử dụng trong các thuật tốn tăng mẫu. Thuật tốn 4.3 được thực hiện cụ thể như sau: Trước tiên, tập Smax gồm tất cả các thuộc tính của tập dữ liệu UNSW-NB15 sau khi được tính và sắp xếp theo thứ tự giảm dần về độ quan trọng. Độ quan trọng của thuộc tính cĩ thể là độ lợi thơng tin (IG), tỷ suất lợi ích (GR) hoặc hệ số tương quan thuộc tính (CA). Smin là tập các thuộc tính tối thiểu ban đầu, đây là các thuộc tính cĩ được ứng với mỗi kiểu tấn cơng thơng qua các thuật tốn lựa chọn thuộc tính được trình bày ở Chương 3 - Giải pháp lựa chọn thuộc tính (xem kết quả lựa chọn thuộc tính ở Bảng 3.38). S1 là tập các thuộc tính cần đánh giá, S1 cĩ giá trị ban đầu là Smin. Tại mỗi vịng lặp, các thuộc tính cịn lại (Smax \ Smin) lần lượt được thêm vào S1, các thuộc tính quan trọng hơn (cĩ chỉ số đo thơng tin lớn hơn) được thêm vào trước. Sau đĩ, các kỹ thuật giảm mẫu như: TML, NCR, ENN và kết hợp của cả 3 kỹ thuật lần lượt được sử dụng để xĩa các bản ghi dữ liệu nhiễu, chồng chéo từ tập dữ liệu huấn luyện ban đầu để tạo ra tập dữ liệu huấn luyện mới, điểm khác là chỉ sử dụng các thuộc tính trong S1 khi tính tốn khoảng cách để xác định k láng
giềng gần nhất trong các thuật tốn giảm mẫu. Các tập dữ liệu huấn luyện mới với các bản ghi dữ liệu bị xĩa được sử dụng để huấn luyện các bộ phân lớp sử dụng kỹ thuật học máy là cây quyết định. Kết quả kiểm tra các bộ phân lớp được thực hiện trên tập dữ liệu kiểm tra, đây là tập dữ liệu độc lập nằm trong tập dữ liệu UNSW-NB15. Chất lượng phân lớp của các bộ phân lớp được thể hiện qua chỉ số đánh giá F-Measure. Nếu F-Measure của bộ phân lớp tốt nhất trong các bộ phân lớp nêu trên tốt hơn F-Measure tốt nhất được tạo từ Sopt, là tập các thuộc tính cho F-Measure tốt nhất được lưu trữ trước đĩ, thì thuộc tính được bổ sung (ký hiệu là s) sẽ được ghi nhận. Tiếp theo, ta sẽ tìm các thuộc tính sca tương quan với s trong Sopt, và thực hiện loại bỏ sca và thêm s vào Sopt nếu việc loại bỏ đĩ cải thiện chỉ số F-Measure. Ngược lại, thuộc tính được bổ sung sẽ bị loại bỏ, vì việc bổ sung thuộc tính này khơng cải thiện chất lượng phân lớp. Quá trình này sẽ được lặp lại cho đến khi tất cả các thuộc tính cịn lại ngồi
Smin đều lần lượt được bổ sung để tìm ra tập các thuộc tính cho chỉ số đánh giá F-Measure tốt
nhất Sopt.
Mệnh đề 7: Thuật tốn 4.3 cĩ độ phức tạp theo thời gian là 𝑂 (𝑁×(𝑁−1)
2 ), N là số
thuộc tính của tập dữ liệu. Chứng minh:
Gọi 𝑇(𝑁) là thời gian thực hiện của thuật tốn. Theo các lệnh từ (8) đến (25) ta cĩ: 𝑇(𝑁) = 𝑇(1) + 2 ∗ 𝑇(1) + ⋯ + (𝑁 − 1) ∗ 𝑇(1) Từ đây suy ra 𝑇(𝑁) = 𝑁 × (𝑁 − 1) 2 × 𝑇(1) Vậy 𝑇(𝑁) = 𝑂 (𝑁 × (𝑁 − 1) 2 )
Thuật toán thứ hai (Thuật tốn 4.4) sử dụng giải pháp đề xuất bởi Thuật tốn 3.4
(thuật tốn mBFE) để xác định các thuộc tính phù hợp nhất tham gia vào việc tính khoảng cách khi xác định k láng giềng gần nhất được sử dụng trong các thuật tốn tăng mẫu. Thuật tốn 4.4 được thực hiện cụ thể như sau: Trước tiên, tập Smax gồm tất cả các thuộc tính của tập dữ liệu UNSW-NB15 sau khi được tính và sắp xếp theo thứ tự giảm dần về độ quan trọng. Độ quan trọng của thuộc tính cũng cĩ thể là độ lợi thơng tin (IG), tỷ suất lợi ích (GR) hoặc hệ số tương quan thuộc tính (CA) như ở Thuật tốn 4.3. Smin là tập các thuộc tính tối thiểu ban đầu, đây cũng là các thuộc tính cĩ được ứng với mỗi kiểu tấn cơng thơng qua các thuật tốn lựa chọn thuộc tính được trình bày ở Chương 3 - Giải pháp lựa chọn thuộc tính (xem kết quả lựa chọn thuộc tính ở Bảng 3.38). S1 là tập các thuộc tính cần đánh giá, S1 cĩ giá trị ban đầu là Smax gồm đầy đủ các thuộc tính của tập dữ liệu. Tại mỗi vịng lặp, các thuộc tính cần xem xét (Smax \ Smin) lần lượt được xem xét để loại bỏ khỏi S1, các thuộc tính ít quan trọng hơn (cĩ chỉ số đo thơng tin nhỏ hơn) sẽ được xem xét trước. Tiếp theo, các kỹ thuật giảm mẫu như:
TML, NCR, ENN và kết hợp của cả 3 kỹ thuật cũng lần lượt được sử dụng để loại bỏ các bản ghi dữ liệu nhiễu, chồng chéo từ tập dữ liệu huấn luyện ban đầu để tạo ra tập dữ liệu huấn luyện mới, điểm khác là chỉ sử dụng các thuộc tính trong S1 khi tính tốn khoảng cách để xác định k láng giềng gần nhất trong các thuật tốn giảm mẫu. Các tập dữ liệu huấn luyện mới với các bản ghi dữ liệu bị xĩa được sử dụng để huấn luyện các bộ phân lớp sử dụng kỹ thuật học máy là cây quyết định. Kết quả kiểm tra các bộ phân lớp được thực hiện trên tập dữ liệu kiểm tra, đây là tập dữ liệu độc lập nằm trong tập dữ liệu UNSW-NB15. Chất lượng phân lớp của các bộ phân lớp được thể hiện qua chỉ số đánh giá F-Measure. Nếu F-Measure của bộ phân lớp tốt nhất trong các bộ phân lớp vừa huấn luyện nêu trên tốt hơn F-Measure tốt nhất được tạo từ Sopt, là tập các thuộc tính cho F-Measure tốt nhất được lưu trữ trước đĩ, thì thuộc tính (ký hiệu là s) sẽ được xem xét để loại bỏ. Tiếp theo, ta sẽ tìm các thuộc tính sca tương quan
với s và cĩ độ quan trọng nhỏ hơn s trong Sopt. Việc loại bỏ s sẽ được thay bằng việc loại bỏ
sca trong Sopt nếu việc loại bỏ thay thế đĩ cải thiện chỉ số F-Measure. Ngược lại, thuộc tính bị
loại bỏ sẽ được phục hồi, vì việc loại bỏ thuộc tính này sẽ làm suy giảm chất lượng phân lớp. Quá trình này sẽ được lặp lại cho đến khi tất cả các thuộc tính cịn lại ngồi Smin đều lần lượt được loại bỏ để tìm ra tập các thuộc tính cho chỉ số đánh giá F-Measure tốt nhất Sopt.
Mệnh đề 8: Thuật tốn 4.4 cĩ độ phức tạp theo thời gian là 𝑂 (𝑁×(𝑁−1)
2 ), N là số thuộc
tính của tập dữ liệu. Chứng minh:
Gọi 𝑇(𝑁) là thời gian thực hiện của thuật tốn. Theo các lệnh từ (8) đến (25) ta cĩ: 𝑇(𝑁) = (𝑁 − 1) ∗ 𝑇(1) + (𝑁 − 2) ∗ 𝑇(1) + ⋯ + 𝑇(1) Từ đây suy ra 𝑇(𝑁) = 𝑁 × (𝑁 − 1) 2 × 𝑇(1) Vậy 𝑇(𝑁) = 𝑂 (𝑁 × (𝑁 − 1) 2 )