Lựa chọn thuộc tính LVF

Một phần của tài liệu (LUẬN án TIẾN sĩ) kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng (Trang 29 - 31)

Input

D - Tập dữ liệu

N - Số các thuộc tính của tập dữ liệu D

 - Hệ số khơng ổn định cho phép

Output

L - Tập hợp các tập gồm M thuộc tính thỏa tiêu chí khơng ổn định

Begin 1: Initialize: 2: L = {} 3: Cbest = N 4: For i = 1 to maxTries do 5: S = randomSet (seed) 6: C = numOfFeatures (S) 7: If (C < Cbest) then 8: If (InconCheck (S, D) < ) then 9: Sbest = S

10: Cbest = C

11: End if

12: L = {S}

13: Else

14: If ((C = Cbest) and (InconCheck (S, D) < ) then

15: L = append (S, L) 16: End if 17: End if 18: End for 19: Return L End

Kết quả của việc thực hiện thuật tốn LVF là một tập con thuộc tính tối ưu. Đo lường được sử dụng để đánh giá trong LVF là tỷ lệ lỗi (inconsistency). Thuật tốn LVF cĩ hai tham số quan trọng đĩ là: Tỷ lệ lỗi của dữ liệu khi sử dụng tất cả các thuộc tính và số lượng tối đa các tập con thuộc tính được tạo ra ngẫu nhiên.

Trong mã giả của thuật tốn LVF ở trên maxTries là một hằng số liên quan đến số lượng các thuộc tính cĩ trong tập dữ liệu ban đầu, bằng trực quan ta nhận thấy rằng dữ liệu càng cĩ nhiều thuộc tính thì càng khĩ phân lớp. Thơng thường maxTries = c x N, trong đĩ c là một hằng số (c ≤ N). Giá trị maxTries càng lớn cĩ nghĩa là số lần lặp của thuật tốn càng lớn và kết quả của thuật tốn cũng tốt hơn. Một cách khác để xác định giá trị maxTries trong LVF đĩ là xác định giá trị maxTries theo khơng gian tìm kiếm mà người sử dụng muốn LVF thực hiện. Ta biết rằng khơng gian tìm kiếm là 2N, nếu người sử dụng muốn LVF thực hiện việc tìm kiếm trong p% của khơng gian tìm kiếm thì maxTries = 2N x p%.

2.1.2 Lấy mẫu lại tập dữ liệu

Trong nhiều năm qua, vấn đề dữ liệu mất cân bằng là một trong những vấn đề quan trọng và nhận được sự quan tâm của nhiều nhà nghiên cứu. Một tập dữ liệu được gọi là mất cân bằng khi số lượng bản ghi thuộc về một nhãn lớp bé hơn nhiều so với các nhãn lớp khác. Để giải quyết vấn đề, các kỹ thuật lấy mẫu lại (resampling) đã được đề xuất, cĩ hai cách tiếp cận chính được sử dụng là xĩa một số bản ghi khỏi lớp đa số, được gọi là giảm mẫu (undersampling) và nhân bản một số các bản ghi từ lớp thiểu số, được gọi là tăng mẫu (oversampling). Cả việc tăng mẫu và giảm mẫu đều nhằm mục đích thay đổi tỷ lệ giữa các lớp đa số và các lớp thiểu số [8]. Cũng cĩ thể kết hợp cả hai kỹ thuật cùng lúc để tạo ra một tập dữ liệu mới cân bằng hơn. Bằng cách này, việc lấy mẫu lại cho phép các lớp khác nhau cĩ ảnh hưởng tương đối giống nhau đến kết quả của mơ hình phân lớp. Với các tập dữ liệu cĩ mức độ mất cân bằng cao được sử dụng trong việc huấn luyện các IDS, việc lấy mẫu lại tập dữ liệu huấn luyện giúp cải thiện độ chính xác của các IDS [9], [10].

2.1.2.1 Các kỹ thuật tăng mẫu a) SMOTE

Minority Over-Sampling Technique) [11]. Cách thức thực hiện của SMOTE được mơ tả như sau: Lấy một bản ghi 𝑎⃗ từ lớp thiểu số của tập dữ liệu và chọn ngẫu nhiên một bản ghi 𝑏⃗⃗ trong số các k láng giềng gần nhất cùng lớp của 𝑎⃗ (trong khơng gian thuộc tính). Một bản ghi dữ liệu tổng hợp mới 𝑥⃗ = 𝑎⃗ + 𝑤(𝑏⃗⃗ − 𝑎⃗) được tạo và bổ sung vào tập dữ liệu như trình bày ở Hình 2.1, ở đây w là trọng số ngẫu nhiên trong đoạn [0, 1]. Chi tiết kỹ thuật tăng mẫu SMOTE trình bày ở Thuật tốn 2.5.

Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp

Một phần của tài liệu (LUẬN án TIẾN sĩ) kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng (Trang 29 - 31)

Tải bản đầy đủ (PDF)

(175 trang)