1. Trang chủ
  2. » Thể loại khác

Khoa học dữ liệu Bài 7 - Phát hiện bất thường

24 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 631,22 KB

Nội dung

Khoa học liệu Bài - Phát bất thường BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG Anomaly detection BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG ▰ Dữ liệu bất thường ▻ Tách biệt khỏi liệu khác ▰ Nguyên nhân ▻ Lỗi nhập liệu, đo đạc ▻ Bản chất trình sinh liệu ▰ Ứng dụng phát bất thường ▻ Phát hành vi xấu ▻ Marketting ▻ Phân tích y tế / y dược BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG ▰ Bài tốn: Cho n điểm liệu, tìm k điểm bất thường ▰ Cần định nghĩa "bất thường": ▻ VD: Phần dư mơ hình hồi quy lớn ▰ Các hướng tiếp cận: ▻ Dựa vào thống kê ▻ Dựa vào khoảng cách ▻ Dựa vào mật độ Chiều cao Cân nặng PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Giả sử liệu theo phân bố chuẩn ▻ Tính kỳ vọng phương sai ▻ Tính thống kê (z-score) Ti ▻ Bất thường: T < -2 T > +2 ▻ Độ tin cậy: 95% PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ Chiều cao Cân nặng ▰ Đưa liệu phân bố chuẩn ▰ Ví dụ: sử dụng mơ hình hồi quy a Xác định (huấn luyện) mơ hình hồi quy b Tính tốn phần dư (residuals) liệu c Các phần dư theo phân bố chuẩn i mơ hình hồi quy d Tính kì vọng, phương sai ri e Tính thống kê Ti mẫu liệu ri PHÁT HIỆN BẤT THƯỜNG BẰNG THỐNG KÊ Chiều cao Cân nặng ▰ Ưu điểm a Nhanh, tính tốn đơn giản b Có sở lý thuyết xác suất thống kê ▰ Nhược điểm a Thường kiểm tra đặc trưng đơn lẻ (1 cột bảng) b Khơng phải lúc có phân bố liệu PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Cho p ∈ [0,1] Dmin > ▻ xi bất thường Có nhiều p x n điểm có khoảng cách tới xi lớn Dmin ▻ Hay: xi có q điểm "lân cận" Có M = (1-p) x n điểm khoảng cách Dmin PHÁT HIỆN BẤT THƯỜNG BẰNG KHOẢNG CÁCH ▰ Tăng tốc độ tính tốn ▻ Sử dụng cấu trúc tìm kiếm khơng gian ▻ Cây k-d (k-d tree), bóng (ball tree) ▻ Tìm điểm gần xi (khoảng cách nhỏ Dmin) ▻ Nếu có M điểm "bình thường" PHÁT HIỆN BẤT THƯỜNG BẰNG MẬT ĐỘ ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Xây dựng mơ hình xác suất liệu ▻ Ước lượng mật độ ▻ Ví dụ: mơ hình Gaussian, mơ hình trộn Gaussian, 1-class SVM ▰ Bất thường: xi có mật độ thấp 10 MƠ HÌNH GAUSSIAN from sklearn.mixture import GaussianMixture ▰ Dữ liệu: Các liệu (x1, x2, , xn) ▰ Xây dựng mơ hình xác suất liệu ▰ Sử dụng tập kiểm thử để xác định ngưỡng xác suất 11 PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN Anomaly detection in time series 12 CHUỖI THỜI GIAN ▰ Dữ liệu: Các liệu (x1, x2, , xt, , xT) ▰ Tại thời điểm t, có liệu (x1, x2, , xt) ▰ Ứng dụng ▻ Dự đoán: giá cả, thời tiết, lượng tiêu thụ ▻ Bất thường: hành vi xấu, cơng mạng 13 PHÂN TÍCH CHUỖI THỜI GIAN: ĐỒ THỊ ▰ Sử dụng đồ thị ▻ Vẽ nhiều chuỗi thời gian ▻ Quan sát xu hướng ▻ Quan sát thời điểm cần khảo sát kỹ 14 PHÂN TÍCH CHUỖI THỜI GIAN: MƠ HÌNH DỰ ĐỐN ▰ Xây dựng mơ hình dự đốn ▻ Tín hiệu xt từ tín hiệu trước (nếu bình thường) ▻ xt = f(x1, , xt-1) ▻ xt = f(xt-h, , xt-1) (h: cửa sổ) ▰ Bất thường: xt lệch xa khỏi f(xt-h, , xt-1) 15 PHÂN TÍCH CHUỖI THỜI GIAN: MƠ HÌNH DỰ ĐỐN ▰ Mơ hình tuyến tính ▻ Trung bình chuyển động ▻ Hồi quy tuyến tính 16 GIÁ TRỊ TRUNG BÌNH ▰ Dự đốn tín hiệu giá trị trung bình tín hiệu trước ▰ Phần dư ▰ Kiểm tra 17 GIÁ TRỊ TRUNG BÌNH ▰ Lựa chọn ngưỡng cao ▻ Không phát bất thường ▰ Lựa chọn ngưỡng thấp ▻ Dễ “báo động giả” 18 GIÁ TRỊ TRUNG BÌNH ▰ Lựa chọn ngưỡng q cao ▻ Khơng phát bất thường ▰ Lựa chọn ngưỡng thấp ▻ Dễ “báo động giả” 19 GIÁ TRỊ TRUNG BÌNH VÀ PHƯƠNG SAI ▰ Có thể tính tốn “trực tuyến” ▻ Khơng cần lưu trữ giá trị phía trước 20 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính giá trị trung bình ▰ Tính giá trị phương sai ▰ Tính giá trị trung bình chuyển động ▰ Tính Z-score 21 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính Z-score ▰ Bất thường |Tt| > ▰ Độ tin cậy 95% 22 PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM ▰ Cắt chuỗi tín hiệu bình thường thành đoạn ▻ Cửa sổ có độ dài cố định h ▰ Sử dụng k-means phân cụm ▰ Một tín hiệu ▻ Tách thành nhiều đoạn độ dài h ▻ Chuyển đoạn thành tâm cụm gần 23 PHÁT HIỆN BẤT THƯỜNG QUA PHÂN CỤM ▰ Một chuỗi tín hiệu ▻ Tách thành nhiều đoạn độ dài h ▻ Khôi phục lại tâm cụm gần ▰ Tính trung bình bình phương sai số chuỗi tín hiệu gốc chuỗi tín hiệu khơi phục ▻ Bất thường: sai số lớn 24 ... Ứng dụng phát bất thường ▻ Phát hành vi xấu ▻ Marketting ▻ Phân tích y tế / y dược BÀI TỐN PHÁT HIỆN BẤT THƯỜNG ▰ Bài tốn: Cho n điểm liệu, tìm k điểm bất thường ▰ Cần định nghĩa "bất thường" :...1 BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG Anomaly detection BÀI TOÁN PHÁT HIỆN BẤT THƯỜNG ▰ Dữ liệu bất thường ▻ Tách biệt khỏi liệu khác ▰ Nguyên nhân ▻... 20 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính giá trị trung bình ▰ Tính giá trị phương sai ▰ Tính giá trị trung bình chuyển động ▰ Tính Z-score 21 PHÁT HIỆN BẤT THƯỜNG BẰNG Z-Score ▰ Tính Z-score

Ngày đăng: 23/05/2021, 03:40

TỪ KHÓA LIÊN QUAN

w