Kỹ thuật tăng mẫu Borderline-SMOTE

Một phần của tài liệu (LUẬN án TIẾN sĩ) kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng (Trang 34 - 35)

Input

D - Tập dữ liệu cần tăng mẫu

β - Tham số chỉ định mức cân bằng mong muốn, β ∈ [0, 1] k - Số láng giềng gần nhất

Output

Synthetic - Tập các mẫu tổng hợp lớp thiểu số được tạo

Begin

1: Initialize: Synthetic = , Danger = 

2: For mỗi bản ghi thuộc lớp thiểu số xi  D do

3: Tìm k láng giềng gần nhất với xi

4: Δi = Số bản ghi trong k láng giềng gần nhất của xi thuộc lớp đa số

5: If k/2 ≤ Δi < k then #xi nằm trong vùng nguy hiểm

6: Danger = Danger  xi

7: End if

8: End for

9: Thực hiện tạo bản ghi tổng hợp giống SMOTE với mỗi bản ghi xi  Danger 10: Return

End

Từ dịng 2-7, với mỗi xi thuộc lớp thiểu số, tìm k láng giềng gần nhất của nĩ trong tập dữ liệu D. Tính Δi là số bản ghi trong k láng giềng gần nhất của xi thuộc lớp đa số. Nếu Δi =

k, tức là k láng giềng gần nhất của xi đều thuộc lớp đa số, xi được xem là nhiễu và khơng thực

đa số, xi được xem là ở vùng nguy hiểm dễ bị phân lớp nhầm. Nếu 0 ≤ Δi < k/2, xi ở vùng an tồn, khơng cần thực hiện các bước tiếp theo.

2.1.2.2 Kỹ thuật giảm mẫu a) Liên kết Tomek

Kỹ thuật giảm mẫu sử dụng Liên kết Tomek (Tomek Link: TML) loại bỏ sự chồng chéo khơng mong muốn giữa các lớp trong đĩ các bản ghi lớp đa số được loại bỏ cho đến khi tất cả các cặp lân cận gần nhất được phân tách tối thiểu là cùng một lớp [15].

Liên kết Tomek được định nghĩa như sau: cung cấp một cặp bản ghi (xi, xj), trong đĩ

xi thuộc lớp thiểu số, xj thuộc lớp đa số và d(xi, xj) là khoảng cách giữa xi và xj, cặp (xi, xj)

được gọi là liên kết Tomek nếu khơng cĩ xk nào thỏa d(xi, xk)<d(xi, xj) hoặc d(xj, xk)<d(xi, xj). Theo cách này, nếu hai bản ghi tạo thành Liên kết Tomek thì một trong hai bản ghi này là nhiễu hoặc cả hai đều ở gần đường biên. Vì vậy, người ta cĩ thể sử dụng các Liên kết Tomek để dọn sạch sự chồng chéo giữa các lớp. Bằng cách loại bỏ các bản ghi chồng chéo, người ta cĩ thể thiết lập các cụm được xác định rõ trong tập huấn luyện và dẫn đến chất lượng phân lớp được cải thiện. Hình 2.3 mơ tả chi tiết kỹ thuật loại bỏ các Liên kết Tomek, theo đĩ dữ liệu huấn luyện ở phần bên trái của hình, được tính tốn để tìm ra các Liên kết Tomek như phần giữa của hình, sau khi loại bỏ các Liên kết Tomek, sự chồng chéo giữa các lớp trong tập dữ liệu huấn luyện đã bị loại bỏ như ở phần bên phải của hình. Việc xác định và loại bỏ các Liên kết Tomek trên tập dữ liệu huấn luyện được thực hiện như mơ tả ở Thuật tốn 2.8.

Hình 2.3. Các Liên kết Tomek loại bỏ sự chồng chéo giữa các lớp

Một phần của tài liệu (LUẬN án TIẾN sĩ) kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng (Trang 34 - 35)

Tải bản đầy đủ (PDF)

(175 trang)