Các kỹ thuật phát hiện bất thường theo thống kê (Statistical)

Một phần của tài liệu PHÁT HIỆN DỮLIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 29)

Các kỹ thuật phát hiện bất thường theo thống kê dựa trên giảđịnh rằng: các thể hiện bình thường xuất hiện trong những vùng có xác suất cao, trong khi các thể hiện bất thường xuất hiện trong những vùng có xác suất thấp [4].

Các kỹ thuật thống kê sẽ tương ứng với một mô hình thống kê đối với dữ liệu được cho, kếđến là đưa vào một kiểm tra có tính suy luận theo thống kê để xác định liệu một thể hiện có thuộc về mô hình này hoặc không. Các thể hiện có xác xuất thấp được sinh ra do mô hình được xem là bất thường.

Các kỹ thuật dạng này có một số thuận lợi:

- Nếu giảđịnh về phân phối dữ liệu hoàn toàn đúng thì các kỹ thuật này cung cấp một giải pháp thích đáng về thống kê cho phát hiện bất thường.

- Điểm số bất thường được cho bởi các kỹ thuật thống kê được kết hợp với một khoảng tin cậy như là thông tin thêm vào trong khi ra quyết định đối với bất kỳ một thể hiện nào trong tập kiểm tra.

- Các kỹ thuật thống kê có thể thực hiện trên mô hình unsupervised không cần tập huấn luyện có gán nhãn.

Bất lợi chính của các kỹ thuật thống kê đó là chúng dựa trên giả định là dữ liệu được sinh ra từ một phân phối đặc biệt. Giả định này thường không hoàn toàn đúng, cụ thể cho các tập dữ liệu thực có số chiều cao.

Một số kỹ thuật dựa trên thống kê dùng trong lĩnh vực phát hiện bất thường có thể kể đến là: Các kỹ thuật có tham số (Parametric) như mô hình Gaussian (Gaussian Model), mô hình hồi qui (Regression Model) và các kỹ thuật không tham số (Nonparametric) như biểu đồ (Histogram) và hàm Kernel (Kernel Function).

Một phần của tài liệu PHÁT HIỆN DỮLIỆU BẤT THƯỜNG VỚI RỪNG CÔ LẬP (Trang 29)