Các kỹ thuật phát hiện bất thường dựa trên phân lớ- 123docz.net

Phân lớp [34] được dùng để học một mô hình (classifier) từ một tập dữ liệu đã gán nhãn và sau đó, phân loại các thể hiện (trong tập Test) theo một trong các lớp bằng mô hình được học. Các kỹ thuật phát hiện bất thường dựa trên phân lớp thực hiện theo một kiểu có hai công đoạn tương tự nhau. Công đoạn huấn luyện học mô hình phân lớp bằng cách dùng dữ liệu huấn luyện được gán nhãn. Giai đoạn đánh giá phân lớp cho các thể hiện theo lớp bình thường hay bất thường, bằng cách sử dụng mô hình phân lớp.

Các kỹ thuật phát hiện bất thường trên cơ sở phân lớp thực hiện dưới những giảđịnh tổng quát sau:

Một mô hình phân lớp mà có thể phân biệt giữa các lớp bình thường và bất thường có thểđược học trên không gian đặc trưng đưa ra.

Dựa trên tính sẵn dùng của nhãn cho giai đoạn huấn luyện, các kỹ thuật phát hiện bất thường trên cơ sở phân lớp có thể được nhóm thành hai loại rõ ràng: một lớp (one-class) và nhiều lớp (multi-class).

Các kỹ thuật phát hiện bất thường nhiều lớp [14] giả sử rằng tập dữ liệu huấn luyện chứa các thể hiện được gán nhãn theo nhiều lớp bình thường. Các kỹ thuật trên dạy mô hình phân lớp để phân biệt giữa mỗi lớp bình thường và những lớp còn lại, minh hoạ ở hình 2.4(a), một thể hiện trên tập Test được xem là bất thường nếu nó không được phân lớp là bình thường bởi các mô hình. Một số kỹ thuật trong loại này kết hợp điểm số tin cậy với dựđoán được thực hiện bởi mô hình. Nếu không có mô hình nào là tin cậy trong việc phân lớp các thể hiện là bình thường, các thể hiện đó được khai báo là bất thường.

Các kỹ thuật phát hiện bất thường một lớp giả sử rằng tất cả các thể hiện huấn luyện chỉ có một nhãn duy nhất. Các kỹ thuật trên học một đường biên tách biệt bao quanh các thể hiện bình thường bằng cách dùng giải thuật phân lớp , ví dụ, được chỉ ra trong hình 2.4(b). Bất kỳ một thể hiện nào mà không rơi vào trong đường biên được học thì được tuyên bố là bất thường.

Một số kỹ thuật dựa trên phân lớp được dùng cho phát hiện bất thường có thể kểđến là: mạng Neural (Neural Networks), mạng Bayes (Bayesian Networks), máy học vectơ hổ trợ (Support Vector Machines).

Các kỹ thuật phát hiện bất thường dựa trên phân lớp (Classification)

Định nghĩa cây cô lập

Giải thuật xây dựng cây cô lập (iTree)