2. Phát hiện bất thường theo mô hình cân bằng
2.2. Cơ sở dữ liệu và bất thường
Việc đánh giá một mạng lưới thuật toán phát hiện bất thường là một bước quan trọng để đánh giá sự phù hợp và hiệu quả của việc thiết kế thuật toán. Nó là bước cho phép tác giả và độc giả đánh giá sự quan tâm của một phương pháp được đề xuất
bằng cách tiết lộ những thiếu sót và những lợi thế của nó. Trong phần tiếp theo, chúng tôi đánh giá khả năng của các thuật toán phát hiện để phát hiện dị thường nằm ở luồng dữ liệu thực tế bằng cách sử dụng các dấu vết lưu lượng truy cập lưu trữ trong dự án MAWI Lab (Measurement andAnalysis on the WIDE Internet) . Các lưu lượng truy cập mạng, chúng tôi lấy từ dữ liệu lưu trữ của MAWI. Dữ liệu này thu 15 phút mỗi ngày của đường truyền xuyên Thái Bình Dương giữa Nhật Bản và Hoa Kỳ. MAWI bắt đầu vào tháng Giêng năm 2001, hiện đang chứa hơn 14 năm thông tin lưu lượng mạng. Từ năm 2001, các liên kết đã được cập nhật ba lần, ban đầu nó là một card 18 Mbps trên đường 100 Mbps, nó được nâng cấp lên 100 Mbps vào năm 2006 và hiện đang là 150 Mbps từ tháng 6 năm 2007 . MAWI đã cho phép các nhà nghiên cứu đặc điểm luồng dữ liệu trên Internet, phát hiện bất thường và phân lớp luồng dữ liệu. Trong các thí nghiệm, các ước lượng được đánh giá tương tự với các dấu vết lưu lượng truy cập từ mỗi tuần trong vài tháng trong năm 2001. Ta có thể hiểu sâu hơn về lưu lượng của MAWI được bằng cách phân tích lưu lượng truy cập với bốn nền tảng phát hiện bất thường khác nhau: PCA, phân phối Gamma, Hough Transform và Kullback-Leibler.
PCA là một kỹ thuật không có giám sát làm nổi bật các điểm đặc biệt của dữ liệu. Đây có lẽ là kỹ thuật nghiên cứu áp dụng nhiều nhất cho phát hiện bất thường trong trục chính của luồng dữ liệu. Nó lần đầu tiên được áp dụng bởi [Lakhina et al. 2008], và đã nhận được rất nhiều sự chú ý trong vài năm qua. Ý tưởng chính của phương pháp dò bất thường dựa PCA là khai thác các tính năng chính xác định một lưu lượng dữ liệu bình thường sử dụng PCA, sau đó lưu lượng khác biệt rõ rệt sẽ được báo cáo là bất thường.
Dewaele et al. giới thiệu một phương pháp phát hiện bất thường dựa trên phác thảo và gamma mô hình đa độ phân giải. Tóm lại, lưu lượng dữ liệu được chia thành các phác thảo và mô hình sử dụng phân phối Gamma. Những bản phác thảo được tính toán hai lần; lưu lượng truy cập được chia vào địa chỉ nguồn và địa chỉ đích. Vì vậy, phương pháp này báo cáo theo địa chỉ IP nguồn hoặc đích .
Biến đổi Hough là một kỹ thuật nhận dạng mẫu cho phép xác định một hình dạng cụ thể trong một bức ảnh. Kỹ thuật này đã được áp dụng cho một số lĩnh vực bao gồm phát hiện bất thường lưu lượng trên trục chính. Phương pháp được đề xuất bao gồm hai bước, đầu tiên giám sát lưu lượng truy cập trong một biểu đồ phân tán 2-D, nơi lưu lượng bất thường xuất hiện như "các đường kẻ", sau đó, xác định các dị thường với biến đổi Hough.
Phương pháp cuối cùng xác định các bất thường bằng cách kiểm tra các thay đổi nổi bật trong luồng dữ liệu bằng cách áp dụng Kullback-Leibler (KL) cho một số loại biểu đồ có thể theo dõi các đặc điểm nổi bật của lưu lượng dữ liệu. Sau đó,tính toán kết hợp cho phép khai thác các đặc điểm nổi bật của lưu lượng dữ liệu để mô tả các bất thường được phát hiện bằng các biểu đồ.