Các kỹ thuật phát hiện xâm nhập dựa trên khai phá dữ liệu thƣờng đƣợc chia làm hai loại: phát hiện dựa trên dò sự lạm dụng và phát hiện bất thƣờng. Trong phát hiện dò sự lạm dụng, các mẫu trong tập dữ liệu đƣợc gán nhãn là “bình thƣờng” hoặc “bất thƣờng” và một thuật toán học đƣợc áp dụng cho toàn bộ các dữ liệu đã gán nhãn. Kỹ thuật này sẽ đƣợc sử dụng trên các tập dữ liệu đầu vào khác nhau để phát hiện tấn công. Không giống với các hệ thống phát hiện xâm nhập dựa trên dấu hiệu, các mô hình của phƣơng pháp dò sự lạm dụng đƣợc tạo ra một cách tự động và có thể tinh vi và chính xác hơn so với các dấu hiệu đƣợc tạo ra một cách thủ công.
Một ƣu điểm nổi bật của phƣơng pháp phát hiện dò sự lạm dụng là phát hiện ra các hành vi tấn công đã biết và các biến thể của chúng có tính chính xác cao. Tuy nhiên nhƣợc điểm dễ thấy của phƣơng pháp này là khó có thể phát hiện các hành vi tấn công mang các đặc điểm đặc biệt chƣa từng biết đến cũng nhƣ nó đòi hỏi phải gán nhãn bình thƣờng hoặc bất thƣờng việc này mất rất nhiều thời gian của các chuyên gia.
Trong khi đó, phƣơng pháp phát hiện bất thƣờng xây dựng những mô hình về biểu hiện bất thƣờng và đánh dấu những nghi vấn trong tập dữ liệu. Vì vậy kỹ thuật này có khả năng xác định các dạng xâm nhập mới chƣa đƣợc biết đến trƣớc đó. Mặc dù chúng ta có thể nhận thấy sự ƣu việt, mạnh mẽ của phƣơng pháp này, nhƣng chúng vẫn ẩn chứa một tỷ lệ báo động nhầm nhất định. Điều này là do các biểu hiện hệ thống chƣa từng thấy trƣớc đó (nhƣng vẫn hợp lệ) bị liệt vào danh sách các bất thƣờng và bị đánh dấu nhƣ các hành vi tiềm ẩn sự xâm nhập.
Qua khảo sát thực tế, chúng ta thƣờng gặp hai loại tấn công vào hệ thống: loại tấn công liên quan đến các kết nối đơn lẻ và loại tấn công liên quan đến nhiều kết nối (bursty attacks - tấn công bùng nổ).
Giả sử trong một giao thông mạng tại một thời điểm nào đó cho trƣớc, mỗi kết nối đƣợc gán một giá trị và đƣợc biểu thị theo một đƣờng nằm dọc (Hình 2.1). Giá trị này sẽ tƣơng ứng với khả năng mà kết nối mạng bị xâm nhập.
Đại lƣợng đo lƣờng phát sinh đầu tiên tƣơng ứng với phần diện tích bề mặt giữa đƣờng tấn công thực sự và đƣờng tấn công giả định (bề mặt đƣợc gạch chéo \\\ nhƣ minh họa ở hình 2.1 - surface area). Nếu diện tích bề mặt dƣới đƣờng tấn công thực càng nhỏ thì thuật toán phát hiện xâm nhập càng hiệu quả. Tuy nhiên bản thân diện tích bề mặt chƣa đủ để nắm bắt đầy đủ những khía cạnh khác của thuật toán phát hiện xâm nhập (ví dụ có bao nhiêu kết nối liên quan đến một tấn công, hay mất bao nhiêu thời gian để thuật toán xử lý phát hiện xâm nhập, vv… ). Vì vậy, các đại lƣợng đo lƣờng khác có thể đƣợc dùng giúp mổ tả rõ ràng các vấn đề. Chúng đƣợc định nghĩa nhƣ sau:
- Tỉ lệ phát hiện tấn công bùng nổ đƣợc xác định cho mỗi cuộc tấn công bùng nổ và nó biểu thị tỉ số giữa tổng số kết nối mạng mang tính xâm nhập ndi có điểm số cao hơn ngƣỡng xác định trƣớc trong tấn công mang tính bùng nổ và tổng số những kết nối mạng mang tính xâm nhập trong các điểm đầu cuối tấn công (Hình 2.1)
- Thời gian phản ứng (tresponse)là khoảng thời gian bắt đầu từ khi xuất hiện tấn công đến khi kết nối mạng đầu tiên tìm đƣợc giá trị cao hơn ngƣỡng đã định trƣớc (xem tresponse phản ứng ở Hình 2.1)