Kỹ thuật tăng mẫu Borderline-SMOTE

Một phần của tài liệu Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng. (Trang 34 - 35)

Input

Output Begin

D - Tập dữ liệu cần tăng mẫu

β - Tham số chỉ định mức cân bằng mong muốn, β ∈ [0, 1] k - Số láng giềng gần nhất

Synthetic - Tập các mẫu tổng hợp lớp thiểu số được tạo

1: Initialize: Synthetic = ∅, Danger = ∅

2: For mỗi bản ghi thuộc lớp thiểu số xi ∈ D do

3: Tìm k láng giềng gần nhất với xi

4: Δi = Số bản ghi trong k láng giềng gần nhất của xi thuộc lớp đa số

5: If k/2 ≤ Δi < k then #xi nằm trong vùng nguy hiểm

6: Danger = Danger ∪ xi

7: End if

8: End for

9: Thực hiện tạo bản ghi tổng hợp giống SMOTE với mỗi bản ghi xi ∈ Danger 10: Return

End

Từ dịng 2-7, với mỗi xi thuộc lớp thiểu số, tìm k láng giềng gần nhất của nĩ trong tập dữ liệu D. Tính Δi là số bản ghi trong k láng giềng gần nhất của xi thuộc lớp đa số. Nếu Δi = k, tức là k láng giềng gần nhất của xi đều thuộc lớp đa số, xi được xem là nhiễu và khơng thực hiện các bước tiếp theo. Nếu k/2 ≤ Δi < k, tức số láng giềng gần nhất của xi phần lớn thuộc lớp

Liên kết Tomek

đa số, xi được xem là ở vùng nguy hiểm dễ bị phân lớp nhầm. Nếu 0 ≤ Δi < k/2, xi ở vùng an tồn, khơng cần thực hiện các bước tiếp theo.

2.1.2.2 Kỹ thuật giảm mẫu a) Liên kết Tomek

Kỹ thuật giảm mẫu sử dụng Liên kết Tomek (Tomek Link: TML) loại bo sự chồng chéo khơng mong muốn giữa các lớp trong đĩ các bản ghi lớp đa số được loại bo cho đến khi tất cả các cặp lân cận gần nhất được phân tách tối thiểu là cùng một lớp [15].

Liên kết Tomek được định nghĩa như sau: cung cấp một cặp bản ghi (xi, xj), trong đĩ

xi thuộc lớp thiểu số, xj thuộc lớp đa số và d(xi, xj) là khoảng cách giữa xi và xj, cặp (xi, xj)

được gọi là liên kết Tomek nếu khơng cĩ xk nào thoa d(xi, xk)<d(xi, xj) hoặc d(xj, xk)<d(xi, xj). Theo cách này, nếu hai bản ghi tạo thành Liên kết Tomek thì một trong hai bản ghi này là nhiễu hoặc cả hai đều ở gần đường biên. Vì vậy, người ta cĩ thể sử dụng các Liên kết Tomek để dọn sạch sự chồng chéo giữa các lớp. Bằng cách loại bo các bản ghi chồng chéo, người ta cĩ thể thiết lập các cụm được xác định rõ trong tập huấn luyện và dẫn đến chất lượng phân lớp được cải thiện. Hình 2.3 mơ tả chi tiết kỹ thuật loại bo các Liên kết Tomek,

theo đĩ dữ liệu huấn luyện ở phần bên trái của hình, được tính tốn để tìm ra các Liên kết Tomek như phần giữa của hình, sau khi loại bo các Liên kết Tomek, sự chồng chéo giữa các lớp trong tập dữ liệu huấn luyện đã bị loại bo như ở phần bên phải của hình. Việc xác định và loại bo các Liên kết Tomek trên tập dữ liệu huấn luyện được thực hiện như mơ tả ở Thuật tốn 2.8.

Hình 2.3. Các Liên kết Tomek loại bỏ sự chồng chéo giữa các lớp

Một phần của tài liệu Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng. (Trang 34 - 35)

Tải bản đầy đủ (DOCX)

(178 trang)
w