2. Phát hiện bất thường theo mô hình cân bằng
2.3. Thuật toán phát hiện
Một luồng là một tập hợp các gói tin với các giá trị tương tự (địa chỉ IP nguồn, đích, cổng nguồn, đích, giao thức, ....). Để nghiên cứu sự tiến hóa của một luồng, thời gian thường được chia thành các khoảng kích thước cố định được gọi là bins . Các
khối lượng của một luồng f trong bin i, ký hiệu là x f, i , là số lượng các gói tin hoặc byte trong một luồng bin tương ứng.
Trong mô hình này, mỗi luồng lưu lượng f được xác định duy nhất bởi các biến ngẫu nhiên sau:
S f , các khoảng thời gian bin, nơi luồng đi vào liên kết.
d f , số lượng bin nơi luồng đang hoạt động.
, một vector với dung lượng của luồng mỗi
Để mô hình thỏa mãn bất kỳ luật phân phối nào trong mọi trường hơp ( lưu lượng vào có thể dính mã độc, hoặc kích cỡ của luồng quá lớn quá nhỏ,...), luồng thỏa mãn 2 điều sau:
(A1) luồng độc lập - một đặc tính của luồng ( s f , d f , và x f ) là độc lập của các thuộc tính các luồng khác.
(A2) tính dừng – đặc trưng của luồng không thay đổi theo thời gian.
Hãy xem xét một cặp bins liên tiếp, i và i + 1 . F là tập hợp của các luồng
đang hoạt động trong i hay i + 1 . Đối với f F, cho là sự
thay đổi lưu lượng của f từ i đến i+ 1 . Nếu luồng bắt đầu vào lúc bin i + 1 (hoặc kết thúc tại bin i ), chúng ta xác định rằng x f, i bằng không. Cuối cùng, xét là tập hợp với mỗi f F. Định lý (định lý 1) sau được đúc rút từ hệ quả của mô hình cân bằng, nền tảng cho phương pháp phát hiện bất thường.
Định lý 1. Khi cả hai (A1) và (A2) thỏa mãn, giá trị của bằng không ( các luồng độc lập triệt tiêu lẫn nhau). Nói cách khác, tùy ý chọn luồng f và g trong F:
o có giá trị 0
o Nếu , độc lập với
o và cùng luật phân phối
Xét luồng F đang hoạt động tại bin i, với khối lượng đã được thay đổi do Xét là trung bình mẫu và độ lệch chuẩn, chúng ta có
Nếu định lý 1 thỏa mãn, thì với F lớn, có - khoảng tin cậy cho bởi công thức :
(2)
Trong đó K (p) là phần vị của phân phối Gaussian chuẩn. Ta nói tập các luồng thỏa mãn mô hình cân bằng nếu bằng không hay bất thường ở thời gian bin i.
Rõ ràng, tính hiệu quả của thuật toán phụ thuộc vào việc lựa chọn K(p). Như khi ta tăng độ tin cậy lên , ta cũng đồng thời tăng độ lớn khoảng tin cậy . Cho tập hợp các luồng, kích cỡ khoảng tin cậy phụ thuộc K(p). Giá trị K(p) nhỏ nhất để khoảng tin cậy chứa không là
(3)
Bất thường xảy ra khi và chỉ khi | K '|> K (p).
Vì vậy, phương pháp phát hiện bất thường bằng cách sử dụng các mô hình cân bằng có thể được tóm tắt như sau:
Cứ 2 khoảng thời gian bins liên tiếp, ta có :
- Với mỗi luồng f ,tính toán sự thay đổi lưu lượng giữa 2 khoảng thời gian bins,
- Tính K’
- Nếu |K’| lớn hơn K(p) -> bất thường.