Các kỹ thuật phát hiện xâm nhập dựa trên khai phá dữ liệu thường được chia làm 2 loại: phát hiện dựa trên dò sự lạm dụng và phát hiện bất thường. Trong phát hiện dò sự lạm dụng, các mẫu trong tập dữ liệu được gán nhãn là “bình thường” hoặc “bất thường” và một thuật toán học được áp dụng cho toàn bộ các dữ liệu đã gán nhãn. Kỹ thuật này sẽ được sử dụng trên các tập dữ liệu đầu vào khác nhau để phát hiện tấn công. Không giống với các hệ thống phát hiện xâm nhập dựa trên dấu hiệu, các mô hình của phương pháp dò sự lạm dụng được tạo ra một cách tự động và có thể tinh vi và chính xác hơn so với các dấu hiệu được tạo ra một cách thủ công. Một ưu điểm nổi bật của phương pháp phát hiện dò sự lạm dụng là phát hiện ra các hành vi tấn công đã biết và các biến thể của chúng có tính chính xác cao. Tuy nhiên nhược điểm dễ thấy của phương pháp này là khó có thể phát hiện các hành vi tấn công mang các đặc điểm đặc biệt chưa từng biết đến cũng như nó đòi hỏi phải gán nhãn bình thường hoặc bất thường việc này mất rất nhiều thời gian của các chuyên gia. Trong khi đó, phương pháp phát hiện bất thường xây dựng những mô hình về biểu hiện bất và đánh dấu
những nghi vấn trong tập dữ liệu. Vì vậy kỹ thuật này có khả năng xác định các dạng xâm nhập mới chưa được biết đến trước đó. Mặc dù chúng ta có thể nhận thấy sự ưu việt, mạnh mẽ của phương pháp này, nhưng chúng vẫn ẩn chứa một tỷ lệ báo động nhầm nhất định. Điều này là do các biểu hiện hệ thống chưa từng thấy trước đó (nhưng vẫn hợp lệ) bị liệt vào danh sách các bất thường và bị đánh dấu như các hành vi tiềm ẩn sự xâm nhập.
Nói chung chúng ta thường gặp 2 loại tấn công vào hệ thống [5] : loại tấn công liên quan đến các kết nối đơn lẻ và loại tấn công liên quan đến nhiều kết nối(bursty attacks – tấn công bùng nổ). Giả sử trong 1 giao thông mạng tại 1 thời điểm nào đó cho trước, mỗi kết nối được gán 1 giá trị và được biểu thị theo 1 đường nằm dọc (hình 3.1). Giá trị này sẽ tương ứng với khả năng mà kết nối mạng bị xâm nhập.
Hình 3.1 : Gán giá trị để lượng hóa các cuộc tấn công trên sơ đồ.
Đại lượng đo lường phát sinh đầu tiên tương ứng với phần diện tích bề mặt giữa đường tấn công thực sự và đường tấn công giả định (bề mặt được gạch chéo \\\ như minh họa ở hình 3.1 – surface area). Nếu diện tích bề mặt dưới đường tấn công thực càng nhỏ thì thuật toán phát hiện xâm nhập càng hiệu quả. Tuy nhiên bản thân diện tích bề mặt chưa đủ để nắm bắt đầy đủ những khía cạnh khác của thuật toán phát hiện xâm nhập (ví dụ có bao nhiêu kết nối liên quan đến 1 tấn công, hay mất bao nhiêu thời gian để thuật toán xử lý phát hiện xâm nhập, vv… ). Vì vậy, các đại lượng đo lường khác có thể được dùng giúp mổ tả rõ ràng các vấn đề. Chúng được định nghĩa như sau: Tỉ lệ phát hiện tấn công bùng nổ (BRD) được xác định cho mỗi cuộc tấn công
bùng nổ và nó biểu thị tỉ số giữa tổng số kết nối mạng mang tính xâm nhập ndi có điểm số cao hơn ngưỡng xác định trước trong tấn công mang tính bùng nổ và
tổng số những kết nối mạng mang tính xâm nhập trong các điểm đầu cuối tấn công (Hình 3.1)
Thời gian phản ứng (tresponse)là khoảng thời gian bắt đầu từ khi xuất hiện tấn công đến khi kết nối mạng đầu tiên tìm được giá trị cao hơn ngưỡng đã định trước (xem tresponse phản ứng ở hình 3.1)