Input
Output Begin
D - Tập dữ liệu
N - Số các thuộc tính của tập dữ liệu D
δ - Hệ số khơng ổn định cho phép
L - Tập hợp các tập gồm M thuộc tính thoa tiêu chí khơng ổn định
1: Initialize: 2: L = {} 3: Cbest = N 4: For i = 1 to maxTries do 5: S = randomSet (seed) 6: C = numOfFeatures (S) 7: If (C < Cbest) then 8: If (InconCheck (S, D) < δ) then 9: Sbest = S
10: Cbest = C
11: End if
12: L = {S}
13: Else
14: If ((C = Cbest) and (InconCheck (S, D) < δ) then
15: L = append (S, L) 16: End if 17: End if 18: End for 19: Return L End
Kết quả của việc thực hiện thuật tốn LVF là một tập con thuộc tính tối ưu. Đo lường được sử dụng để đánh giá trong LVF là tỷ lệ lỗi (inconsistency). Thuật tốn LVF cĩ hai tham số quan trọng đĩ là: Tỷ lệ lỗi của dữ liệu khi sử dụng tất cả các thuộc tính và số lượng tối đa các tập con thuộc tính được tạo ra ngẫu nhiên.
Trong mã giả của thuật tốn LVF ở trên maxTries là một hằng số liên quan đến số lượng các thuộc tính cĩ trong tập dữ liệu ban đầu, bằng trực quan ta nhận thấy rằng dữ liệu càng cĩ nhiều thuộc tính thì càng khĩ phân lớp. Thơng thường maxTries = c x N, trong đĩ c là một hằng số (c ≤ N). Giá trị maxTries càng lớn cĩ nghĩa là số lần lặp của thuật tốn càng lớn và kết quả của thuật tốn cũng tốt hơn. Một cách khác để xác định giá trị maxTries trong LVF đĩ là xác định giá trị maxTries theo khơng gian tìm kiếm mà người sử dụng muốn LVF thực hiện. Ta biết rằng khơng gian tìm kiếm là 2N, nếu người sử dụng muốn LVF thực hiện việc tìm kiếm trong p% của khơng gian tìm kiếm thì maxTries = 2N x p%.
2.1.2 Lấy mẫu lại tập dữ liệu
Trong nhiều năm qua, vấn đề dữ liệu mất cân bằng là một trong những vấn đề quan trọng và nhận được sự quan tâm của nhiều nhà nghiên cứu. Một tập dữ liệu được gọi là mất cân bằng khi số lượng bản ghi thuộc về một nhãn lớp bé hơn nhiều so với các nhãn lớp khác. Để giải quyết vấn đề, các kỹ thuật lấy mẫu lại (resampling) đã được đề xuất, cĩ hai cách tiếp cận chính được sử dụng là xĩa một số bản ghi khoi lớp đa số, được gọi là giảm mẫu (undersampling) và nhân bản một số các bản ghi từ lớp thiểu số, được gọi là tăng mẫu (oversampling). Cả việc tăng mẫu và giảm mẫu đều nhằm mục đích thay đổi tỷ lệ giữa các lớp đa số và các lớp thiểu số [8]. Cũng cĩ thể kết hợp cả hai kỹ thuật cùng lúc để tạo ra một tập dữ liệu mới cân bằng hơn. Bằng cách này, việc lấy mẫu lại cho phép các lớp khác nhau cĩ ảnh hưởng tương đối giống nhau đến kết quả của mơ hình phân lớp. Với các tập dữ liệu cĩ mức độ mất cân bằng cao được sử dụng trong việc huấn luyện các IDS, việc lấy mẫu lại tập dữ liệu huấn luyện giúp cải thiện độ chính xác của các IDS [9], [10].
2.1.2.1 Các kỹ thuật tăng mẫu a) SMOTE
Minority Over-Sampling Technique) [11]. Cách thức thực hiện của SMOTE được mơ tả như sau: Lấy một bản ghi �⃗ từ lớp thiểu số của tập dữ liệu và chọn ngẫu nhiên một bản ghi �⃗
trong số các k láng giềng gần nhất cùng lớp của ��������������(trong khơng gian thuộc tính). Một bản ghi dữ liệu tổng hợp mới �⃗ = �⃗ + �(�⃗ − �⃗) được tạo và bổ sung vào tập dữ liệu như trình bày ở Hình 2.1 , ở đây w là trọng số ngẫu nhiên trong đoạn [0, 1]. Chi tiết kỹ thuật tăng mẫu
SMOTE trình bày ở Thuật tốn 2.5.
Bản ghi lớp thiểu sơ
Bản ghi lớp thiểu sơ được chọn Bản ghi tởng hợp mới
Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp