Thuật tốn tăng mẫu kết hợp với mBFE

Input

D - Tập dữ liệu huấn luyện

Output

Sopt - Tập con các thuộc tính tối ưu dùng kỹ thuật tăng mẫu

Begin

1: Initialize:

2: Tính độ quan trọng của tất cả các thuộc tính trên tập dữ liệu D

3: Smax = Tập tất cả các thuộc tính được sắp theo thứ tự tăng dần về độ quan trọng

4: Smin = Tập các thuộc tính tối thiểu cĩ được qua thuật tốn lựa chọn thuộc tính

5: Sopt = Smax

6: Sdel = Smax \ Smin

7: Tăng mẫu (OS) trên tập huấn luyện D dùng các thuộc tính  Sopt 8: For i = 1 to len(Sdel) do

10: S1 = Sopt \ {s}

11: Tăng mẫu trên tập huấn luyện D dùng các thuộc tính  S1 12: If chất lượng phân lớp của S1 tốt hơn Sopt sau OS then

13: Best = chất lượng phân lớp của S1 sau OS

14: For each sca in Sopt do

15: If sca tương quan với s và cĩ độ quan trọng nhỏ hơn s then

16: S2 = Sopt \ {sca}

17: If chất lượng phân lớp của S2 sau OS > Best then

18: S1 = S2

19: Best = chất lượng phân lớp của S2 sau OS

20: End if 21: End if 22: End for 23: Sopt = S1 24: End if 25: End for 26: Return Sopt End

4.1.2 Giải pháp giảm mẫu

Các kỹ thuật giảm mẫu nêu trên cũng dựa vào k láng giềng gần nhất để loại bỏ sự

chồng chéo khơng mong muốn giữa các lớp với sự tham gia của tất cả các thuộc tính. Vấn đề đặt ra là, cĩ những thuộc tính khơng quan trọng, hoặc thậm chí gây nhiễu khi tính tốn khoảng cách để xác định k láng giềng gần nhất, điều đĩ cĩ thể ảnh hưởng đến chất lượng loại bỏ các bản ghi dữ liệu ở lớp đa số của các thuật tốn giảm mẫu. Để loại bỏ các thuộc tính khơng quan trọng hoặc gây nhiễu này, luận án đề xuất sử dụng 2 giải pháp được trình bày ở các Thuật tốn 4.3 và Thuật tốn 4.4.

Thuật toán thứ nhất (Thuật tốn 4.3) sử dụng giải pháp đề xuất bởi Thuật tốn 3.3

(thuật tốn mFFC) để xác định các thuộc tính phù hợp nhất tham gia vào việc tính khoảng cách khi xác định k láng giềng gần nhất được sử dụng trong các thuật tốn tăng mẫu. Thuật tốn 4.3 được thực hiện cụ thể như sau: Trước tiên, tập Smax gồm tất cả các thuộc tính của tập dữ liệu UNSW-NB15 sau khi được tính và sắp xếp theo thứ tự giảm dần về độ quan trọng. Độ quan trọng của thuộc tính cĩ thể là độ lợi thơng tin (IG), tỷ suất lợi ích (GR) hoặc hệ số tương quan thuộc tính (CA). Smin là tập các thuộc tính tối thiểu ban đầu, đây là các thuộc tính cĩ được ứng với mỗi kiểu tấn cơng thơng qua các thuật tốn lựa chọn thuộc tính được trình bày ở Chương 3 - Giải pháp lựa chọn thuộc tính (xem kết quả lựa chọn thuộc tính ở Bảng 3.38). S1 là tập các thuộc tính cần đánh giá, S1 cĩ giá trị ban đầu là Smin. Tại mỗi vịng lặp, các thuộc tính cịn lại (Smax \ Smin) lần lượt được thêm vào S1, các thuộc tính quan trọng hơn (cĩ chỉ số đo thơng tin lớn hơn) được thêm vào trước. Sau đĩ, các kỹ thuật giảm mẫu như: TML, NCR, ENN và kết hợp của cả 3 kỹ thuật lần lượt được sử dụng để xĩa các bản ghi dữ liệu nhiễu, chồng chéo từ tập dữ liệu huấn luyện ban đầu để tạo ra tập dữ liệu huấn luyện mới, điểm khác là chỉ sử dụng các thuộc tính trong S1 khi tính tốn khoảng cách để xác định k láng

giềng gần nhất trong các thuật tốn giảm mẫu. Các tập dữ liệu huấn luyện mới với các bản ghi dữ liệu bị xĩa được sử dụng để huấn luyện các bộ phân lớp sử dụng kỹ thuật học máy là cây quyết định. Kết quả kiểm tra các bộ phân lớp được thực hiện trên tập dữ liệu kiểm tra, đây là tập dữ liệu độc lập nằm trong tập dữ liệu UNSW-NB15. Chất lượng phân lớp của các bộ phân lớp được thể hiện qua chỉ số đánh giá F-Measure. Nếu F-Measure của bộ phân lớp tốt nhất trong các bộ phân lớp nêu trên tốt hơn F-Measure tốt nhất được tạo từ Sopt, là tập các thuộc tính cho F-Measure tốt nhất được lưu trữ trước đĩ, thì thuộc tính được bổ sung (ký hiệu là s) sẽ được ghi nhận. Tiếp theo, ta sẽ tìm các thuộc tính sca tương quan với s trong Sopt, và thực hiện loại bỏ sca và thêm s vào Sopt nếu việc loại bỏ đĩ cải thiện chỉ số F-Measure. Ngược lại, thuộc tính được bổ sung sẽ bị loại bỏ, vì việc bổ sung thuộc tính này khơng cải thiện chất lượng phân lớp. Quá trình này sẽ được lặp lại cho đến khi tất cả các thuộc tính cịn lại ngồi

Smin đều lần lượt được bổ sung để tìm ra tập các thuộc tính cho chỉ số đánh giá F-Measure tốt

nhất Sopt.

Mệnh đề 7: Thuật tốn 4.3 cĩ độ phức tạp theo thời gian là 𝑂 (𝑁×(𝑁−1)

2 ), N là số

thuộc tính của tập dữ liệu. Chứng minh:

Gọi 𝑇(𝑁) là thời gian thực hiện của thuật tốn. Theo các lệnh từ (8) đến (25) ta cĩ: 𝑇(𝑁) = 𝑇(1) + 2 ∗ 𝑇(1) + ⋯ + (𝑁 − 1) ∗ 𝑇(1) Từ đây suy ra 𝑇(𝑁) = 𝑁 × (𝑁 − 1) 2 × 𝑇(1) Vậy 𝑇(𝑁) = 𝑂 (𝑁 × (𝑁 − 1) 2 )

Thuật toán thứ hai (Thuật tốn 4.4) sử dụng giải pháp đề xuất bởi Thuật tốn 3.4

(thuật tốn mBFE) để xác định các thuộc tính phù hợp nhất tham gia vào việc tính khoảng cách khi xác định k láng giềng gần nhất được sử dụng trong các thuật tốn tăng mẫu. Thuật tốn 4.4 được thực hiện cụ thể như sau: Trước tiên, tập Smax gồm tất cả các thuộc tính của tập dữ liệu UNSW-NB15 sau khi được tính và sắp xếp theo thứ tự giảm dần về độ quan trọng. Độ quan trọng của thuộc tính cũng cĩ thể là độ lợi thơng tin (IG), tỷ suất lợi ích (GR) hoặc hệ số tương quan thuộc tính (CA) như ở Thuật tốn 4.3. Smin là tập các thuộc tính tối thiểu ban đầu, đây cũng là các thuộc tính cĩ được ứng với mỗi kiểu tấn cơng thơng qua các thuật tốn lựa chọn thuộc tính được trình bày ở Chương 3 - Giải pháp lựa chọn thuộc tính (xem kết quả lựa chọn thuộc tính ở Bảng 3.38). S1 là tập các thuộc tính cần đánh giá, S1 cĩ giá trị ban đầu là Smax gồm đầy đủ các thuộc tính của tập dữ liệu. Tại mỗi vịng lặp, các thuộc tính cần xem xét (Smax \ Smin) lần lượt được xem xét để loại bỏ khỏi S1, các thuộc tính ít quan trọng hơn (cĩ chỉ số đo thơng tin nhỏ hơn) sẽ được xem xét trước. Tiếp theo, các kỹ thuật giảm mẫu như:

TML, NCR, ENN và kết hợp của cả 3 kỹ thuật cũng lần lượt được sử dụng để loại bỏ các bản ghi dữ liệu nhiễu, chồng chéo từ tập dữ liệu huấn luyện ban đầu để tạo ra tập dữ liệu huấn luyện mới, điểm khác là chỉ sử dụng các thuộc tính trong S1 khi tính tốn khoảng cách để xác định k láng giềng gần nhất trong các thuật tốn giảm mẫu. Các tập dữ liệu huấn luyện mới với các bản ghi dữ liệu bị xĩa được sử dụng để huấn luyện các bộ phân lớp sử dụng kỹ thuật học máy là cây quyết định. Kết quả kiểm tra các bộ phân lớp được thực hiện trên tập dữ liệu kiểm tra, đây là tập dữ liệu độc lập nằm trong tập dữ liệu UNSW-NB15. Chất lượng phân lớp của các bộ phân lớp được thể hiện qua chỉ số đánh giá F-Measure. Nếu F-Measure của bộ phân lớp tốt nhất trong các bộ phân lớp vừa huấn luyện nêu trên tốt hơn F-Measure tốt nhất được tạo từ Sopt, là tập các thuộc tính cho F-Measure tốt nhất được lưu trữ trước đĩ, thì thuộc tính (ký hiệu là s) sẽ được xem xét để loại bỏ. Tiếp theo, ta sẽ tìm các thuộc tính sca tương quan

với s và cĩ độ quan trọng nhỏ hơn s trong Sopt. Việc loại bỏ s sẽ được thay bằng việc loại bỏ

sca trong Sopt nếu việc loại bỏ thay thế đĩ cải thiện chỉ số F-Measure. Ngược lại, thuộc tính bị

loại bỏ sẽ được phục hồi, vì việc loại bỏ thuộc tính này sẽ làm suy giảm chất lượng phân lớp. Quá trình này sẽ được lặp lại cho đến khi tất cả các thuộc tính cịn lại ngồi Smin đều lần lượt được loại bỏ để tìm ra tập các thuộc tính cho chỉ số đánh giá F-Measure tốt nhất Sopt.

Mệnh đề 8: Thuật tốn 4.4 cĩ độ phức tạp theo thời gian là 𝑂 (𝑁×(𝑁−1)

2 ), N là số thuộc

tính của tập dữ liệu. Chứng minh:

Gọi 𝑇(𝑁) là thời gian thực hiện của thuật tốn. Theo các lệnh từ (8) đến (25) ta cĩ: 𝑇(𝑁) = (𝑁 − 1) ∗ 𝑇(1) + (𝑁 − 2) ∗ 𝑇(1) + ⋯ + 𝑇(1) Từ đây suy ra 𝑇(𝑁) = 𝑁 × (𝑁 − 1) 2 × 𝑇(1) Vậy 𝑇(𝑁) = 𝑂 (𝑁 × (𝑁 − 1) 2 )

Thuật tốn tăng mẫu kết hợp với mBFE

Lựa chọn thuộc tính LVF

Kỹ thuật tăng mẫu SMOTE