Bài toán phát hiện phần tử dị biệt trong khai phá dữ liệu

Một phần của tài liệu nghiên cứu giải pháp phát hiện xâm nhập mạng máy tính bất thường dựa trên khai phá dữ liệu (Trang 40 - 42)

Chúng ta biết rằng trong Khai phá dữ liệu có một lớp bài toán là “phát hiện phần tử dị biệt - Outlier Detection”. Nhiệm vụ của lớp bài toán này là tìm ra các phần tử có đặc điểm khác biệt nhất trong một tập dữ liệu đã cho. Nếu ta coi dữ liệu mạng cần quan sát là một tập dữ liệu cho bài toán phát hiện phần tử dị biệt, các phần tử là các hành động bình thƣờng trên mạng thì các phần tử dị biệt có thể tƣơng ứng với các hành động tấn công. Nhƣ vậy chúng ta có thể đƣa bài toán phát hiện bất thƣờng về bài toán phát hiện phần tử dị biệt trong Khai phá dữ liệu.

Hình 2.2: Minh họa bài toán phát hiện phần tử dị biệt.

Hầu hết các phƣơng pháp tiếp cận phát hiện xâm nhập đã biết đều cố gắng xây dựng một loại mô hình trên các dữ liệu thông thƣờng và sau đó kiểm tra mức độ thích hợp của những dữ liệu mới với mô hình đó từ đó rút ra kết luận bất thƣờng là những mẫu chƣa từng đƣợc quan sát trƣớc đó. Với cách tiếp cận theo phƣơng pháp phát hiện phần tử dị biệt thì bất thƣờng là mẫu có nhiều khác biệt nhất so với các phần tử còn lại.

Dị biệt (Outlier) là gì? Trong cuốn sách “Statistical Design and Analysis of Experiments”, các tác giả Mason, Gunst, và Hess định nghĩa outlier nhƣ sau: “dị biệt là các giá trị cực so với các giá trị khác đƣợc quan sát trong cùng một điều kiện. Outlier có thể là một giá trị đơn lẻ, nhƣng cũng có thể là giá trị từ hai hay nhiều biến số.”

Vấn đề ở đây là thế nào là “giá trị cực”? Thật là khó trả lời. Không có câu trả lời định tính, nhƣng có thể có câu trả lời định lƣợng. Có nhiều cách để đánh giá xem một số liệu có phải là outlier hay không.

Trong kỹ thuật phát hiện điểm dị biệt dựa trên số liệu thống kê, các điểm dữ liệu đƣợc mô hình hóa bằng một bảng phân phối ngẫu nhiên. Các điểm này có đƣợc coi là thuộc vùng biên hay không sẽ phụ thuộc vào mối quan hệ của chúng với mô hình. Tuy nhiên, với mật độ lớn và ngày càng tăng, việc ƣớc lƣợng bảng phân phối đa chiều của các điểm này ngày càng trở nên phức tạp và thiếu chính xác. Những thuật toán phát hiện dị biệt mà chúng ta sử dụng sẽ xem xét dƣới đây lại dựa vào việc tính

toán các khoảng cách không gian giữa các điểm và tính toán mật độ của các điểm lân cận.

Một phần của tài liệu nghiên cứu giải pháp phát hiện xâm nhập mạng máy tính bất thường dựa trên khai phá dữ liệu (Trang 40 - 42)

Tải bản đầy đủ (PDF)

(74 trang)