Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
631,22 KB
Nội dung
Khoa học liệu Bài - Phát bất thường BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG Anomaly detection BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG ▰ Dữ liệu bất thường ▻ Tách biệt khỏi liệu khác ▰ Nguyên nhân ▻ Lỗi nhập liệu, đo đạc ▻ Bản chất trình sinh liệu ▰ Ứng dụng phát bất thường ▻ Phát hành vi xấu ▻ Marketting ▻ Phân tích y tế / y dược BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG ▰ Bài tốn: Cho n điểm liệu, tìm k điểm bất thường ▰ Cần định nghĩa "bất thường": ▻ VD: Phần dư mơ hình hồi quy lớn ▰ Các hướng tiếp cận: ▻ Dựa vào thống kê ▻ Dựa vào khoảng cách ▻ Dựa vào mật độ Chiều cao Cân nặng PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Giả sử liệu theo phân bố chuẩn ▻ Tính kỳ vọng phương sai ▻ Tính thống kê (z-score) Ti ▻ Bất thường: T < -2 T > +2 ▻ Độ tin cậy: 95% PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ Chiều cao Cân nặng ▰ Đưa liệu phân bố chuẩn ▰ Ví dụ: sử dụng mơ hình hồi quy a Xác định (huấn luyện) mơ hình hồi quy b Tính tốn phần dư (residuals) liệu c Các phần dư theo phân bố chuẩn i mơ hình hồi quy d Tính kì vọng, phương sai ri e Tính thống kê Ti mẫu liệu ri PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ Chiều cao Cân nặng ▰ Ưu điểm a Nhanh, tính tốn đơn giản b Có sở lý thuyết xác suất thống kê ▰ Nhược điểm a Thường kiểm tra đặc trưng đơn lẻ (1 cột bảng) b Khơng phải lúc có phân bố liệu PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Cho p ∈ [0,1] Dmin > ▻ xi bất thường Có nhiều p x n điểm có khoảng cách tới xi lớn Dmin ▻ Hay: xi có q điểm "lân cận" Có M = (1-p) x n điểm khoảng cách Dmin PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH ▰ Tăng tốc độ tính tốn ▻ Sử dụng cấu trúc tìm kiếm khơng gian ▻ Cây k-d (k-d tree), bóng (ball tree) ▻ Tìm điểm gần xi (khoảng cách nhỏ Dmin) ▻ Nếu có M điểm "bình thường" PHÁT HIỆN BẤT THƯỜNG BẰNG MẬT ĐỘ ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Xây dựng mơ hình xác suất liệu ▻ Ước lượng mật độ ▻ Ví dụ: mơ hình Gaussian, mơ hình trộn Gaussian, 1-class SVM ▰ Bất thường: xi có mật độ thấp 10 MƠ HÌNH GAUSSIAN from sklearn.mixture import GaussianMixture ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Xây dựng mơ hình xác suất liệu ▰ Sử dụng tập kiểm thử để xác định ngưỡng xác suất 11 PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN Anomaly detection in time series 12 CHUỖI THỜI GIAN ▰ Dữ liệu: Các liệu (x1, x2, , xt, , xT) ▰ Tại thời điểm t, có liệu (x1, x2, , xt) ▰ Ứng dụng ▻ Dự đoán: giá cả, thời tiết, lượng tiêu thụ ▻ Bất thường: hành vi xấu, cơng mạng 13 PHÂN TÍCH CHUỖI THỜI GIAN: ĐỒ THỊ ▰ Sử dụng đồ thị ▻ Vẽ nhiều chuỗi thời gian ▻ Quan sát xu hướng ▻ Quan sát thời điểm cần khảo sát kỹ 14 PHÂN TÍCH CHUỖI THỜI GIAN: MƠ HÌNH DỰ ĐỐN ▰ Xây dựng mơ hình dự đốn ▻ Tín hiệu xt từ tín hiệu trước (nếu bình thường) ▻ xt = f(x1, , xt-1) ▻ xt = f(xt-h, , xt-1) (h: cửa sổ) ▰ Bất thường: xt lệch xa khỏi f(xt-h, , xt-1) 15 PHÂN TÍCH CHUỖI THỜI GIAN: MƠ HÌNH DỰ ĐỐN ▰ Mơ hình tuyến tính ▻ Trung bình chuyển động ▻ Hồi quy tuyến tính 16 GIÁ TRỊ TRUNG BÌNH ▰ Dự đốn tín hiệu giá trị trung bình tín hiệu trước ▰ Phần dư ▰ Kiểm tra 17 GIÁ TRỊ TRUNG BÌNH ▰ Lựa chọn ngưỡng cao ▻ Không phát bất thường ▰ Lựa chọn ngưỡng thấp ▻ Dễ “báo động giả” 18 GIÁ TRỊ TRUNG BÌNH ▰ Lựa chọn ngưỡng q cao ▻ Khơng phát bất thường ▰ Lựa chọn ngưỡng thấp ▻ Dễ “báo động giả” 19 GIÁ TRỊ TRUNG BÌNH VÀ PHƯƠNG SAI ▰ Có thể tính tốn “trực tuyến” ▻ Khơng cần lưu trữ giá trị phía trước 20 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính giá trị trung bình ▰ Tính giá trị phương sai ▰ Tính giá trị trung bình chuyển động ▰ Tính Z-score 21 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính Z-score ▰ Bất thường |Tt| > ▰ Độ tin cậy 95% 22 PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM ▰ Cắt chuỗi tín hiệu bình thường thành đoạn ▻ Cửa sổ có độ dài cố định h ▰ Sử dụng k-means phân cụm ▰ Một tín hiệu ▻ Tách thành nhiều đoạn độ dài h ▻ Chuyển đoạn thành tâm cụm gần 23 PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM ▰ Một chuỗi tín hiệu ▻ Tách thành nhiều đoạn độ dài h ▻ Khôi phục lại tâm cụm gần ▰ Tính trung bình bình phương sai số chuỗi tín hiệu gốc chuỗi tín hiệu khơi phục ▻ Bất thường: sai số lớn 24 ... Ứng dụng phát bất thường ▻ Phát hành vi xấu ▻ Marketting ▻ Phân tích y tế / y dược BÀI TỐN PHÁT HIỆN BẤT THƯỜNG ▰ Bài tốn: Cho n điểm liệu, tìm k điểm bất thường ▰ Cần định nghĩa "bất thường" :...1 BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG Anomaly detection BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG ▰ Dữ liệu bất thường ▻ Tách biệt khỏi liệu khác ▰ Nguyên nhân ▻... 20 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính giá trị trung bình ▰ Tính giá trị phương sai ▰ Tính giá trị trung bình chuyển động ▰ Tính Z-score 21 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính Z-score