Kỹ thuật tăng mẫu SMOTE

Một phần của tài liệu Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng. (Trang 31 - 33)

Input

Output Begin

Sample[ ][ ] - Mảng các mẫu thuộc lớp thiểu số ban đầu T - Số mẫu lớp thiểu số

N - Tỷ lệ phần trăm trên T cần tạo sử dụng SMOTE k - Số láng giềng gần nhất

Synthetic[ ][ ] - Mảng các mẫu tổng hợp lớp thiểu số được tạo

1: If N < 100 then

2: T = (int) ((N/100) ∗ T)

3: Sample[][] = Lấy ngẫu nhiên T mẫu từ lớp thiểu số ban đầu

4: N = 100

5: End if

6: N = (int) ((N/100) * T)

7: numattrs = Số các thuộc tính

8: newindex = 0 #Sớ bản ghi tổng hợp được tạo

9: For i = 1 to T do

10: Tính k láng giềng gần nhất của i, và lưu các chỉ số trong mảng nnarray 11: Populate (N, i, nnarray) #Gọi hàm để tạo các mẫu tổng hợp

12: End for

IR1=5/2

IR2=1/48

IR3=14/1

Dư li u sau khi tăng mẫu điêuê chỉnh biên quyết định

Bản ghi lớp thiểu sơ Bản ghi lớp đa sơ Biên quyết định Bản ghi tởng hợp mới

Dùng SMOTE để tăng mẫu các cụm có IR>1

IR2=1/48

End

Populate (N, i, nnarray) #Hàm tạo các mẫu tổng hợp

14: While N ≠ 0

15: Chọn 1 số ngẫu nhiên giữa 1 và k, gọi nĩ là nn 16: For attr = 1 to numattrs do

17: dif = Sample[nnarray[nn]][attr] - Sample[i][attr]

18: w = Số ngẫu nhiên giữa 0 và 1

19: Synthetic[newindex][attr] = Sample[i][attr] + w ∗ dif

20: End for

21: newindex++

22: N = N − 1

23: End while

24: Return #Kết thúc của hàm Populate End Populate

b) Cluster SMOTE

Dư li uê đầu vào Tim thây 3 cụm và tnh ty l mât cân băngê (IR)

Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE

Ở kỹ thuật tăng mẫu Cluster SMOTE, dữ liệu huấn luyện trước tiên được phân thành

k cụm sử dụng thuật tốn K-means, ở mỗi cụm tính tỷ lệ mất cân bằng:

ố ố ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ ả ℎ ℎộ ớ ℎể ụ IR = ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớ đ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụ ả ℎ ℎộ ớđ ụố ố

Sau đĩ, sử dụng SMOTE để tăng số lượng bản ghi của lớp thiểu số trong các cụm cĩ tỷ lệ mất cân bằng IR > 1. Hình 2.2 thể hiện chi tiết việc sử dụng kỹ thuật Cluster SMOTE để

tạo các dữ liệu tổng hợp thuộc lớp thiểu số [12].

c) ADASYN

Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN (Adaptive Synthetic Sampling) xây dựng dựa trên phương pháp của SMOTE, bằng cách chuyển tầm quan trọng của ranh giới phân lớp sang các lớp thiểu số khĩ khăn. ADASYN sử dụng phân phối cĩ trọng số cho các bản ghi lớp thiểu số khác nhau tùy theo mức độ khĩ khăn trong huấn luyện, trong đĩ dữ liệu tổng hợp được tạo ra nhiều hơn cho các bản ghi lớp thiểu số khĩ học hơn [13]. Thuật tốn ADASYN được thực hiện cụ thể như sau (Thuật tốn 2.6):

Một phần của tài liệu Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng. (Trang 31 - 33)

Tải bản đầy đủ (DOCX)

(178 trang)
w