Khai phá dữ liệu

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 96 - 97)

Trong quá trình khai phá dữ liệu này, dữ liệu được sử dụng để huấn luyện ở đây chính là các mẫu bất thường mô tả các tấn công từ chối dịch vụ đã thu được ở trên với các tham số tuỳ chọn về số request cũng như khoảng thời gian xem xét để phù hợp với các hệ thống khác nhau.

Kỹ thuật gom cụm được sử dụng trong phần demo này là kỹ thuật dùng đối tượng đại diện: Phương pháp k-medoids. Các mẫu bất thường ở đây sẽ được sử dụng là đại diện cho cụm “xâm nhập” và phần còn lại sẽ là cụm “bình thường”. Do đó ở đây ta sẽ có hai cụm.

Dữ liệu sau tiến trình tiền xử lý đã được phân vào các nhóm thời gian với độ rộng tuỳ chọn trước. Đến đây tuỳ thuộc vào việc chọn các dấu hiệu để phát hiện tấn công từ chối dịch vụ mà ta có các cách xử lý phù hợp:

- Nếu lựa chọn dấu hiệu của tấn công từ chối dịch vụ là dấu hiệu trong sử dụng giao thức HTTP mà trong cơ sở dữ liệu demo là WWW thì ta sẽ sử dụng mẫu bất thường về tấn công từ chối dịch vụ trong giao thức này với các tham số đầu vào là ngưỡng kích thước gói tin request và số request thoả mãn ngưỡng kích thước này tới máy chủ Web mà ở đây chính là một máy trong mạng nội bộ cần được bảo vệ “Localhost” để làm các tham số đầu vào của thuật toán k-medoids. Đầu ra của thuật toán sẽ là hai cụm: cụm chứa các mẫu được xem là bất thường là các mẫu có số kết nối mà các kết nối này có kích thước gói request lớn hơn kích thước được đưa ra, lớn hơn ngưỡng số request trong một khoảng thời gian cụ thể được chọn và cụm các mẫu bình thường là các mẫu không có đặc điểm trên.

- Nếu lựa chọn dấu hiệu tấn công từ chối dịch vụ truyền thống DoS thì đầu vào của thuật toán chỉ là ngưỡng số request và thuộc tính được xem xét ở đây chính là thuộc tính “RemoteHost”. Đầu ra của thuật toán là hai cụm: cụm các bất thường chứa các mẫu mà số request từ một “RemoteHost”

trong một khoảng thời gian xác định lớn hơn ngưỡng kết nối và cụm bình thường.

- Nếu lựa chọn dấu hiệu tấn công từ chối dịch vụ theo kiểu nhiều request từ nhiều địa chỉ IP khác nhau tới một máy cục bộ thì cũng tương tự như dấu hiệu tấn công DoS nhưng lúc này thuộc tính được xem xét ở đây là thuộc tính “LocalHost”. Sau khi thuật toán kết thúc sẽ cho ta hai cụm, một cụm các mẫu bất thường có số request đến một máy nội bộ lớn hơn ngưỡng kết nối được chọn.

Bầy giờ ta đã thu được hai cụm phân tách: cụm bất thường và cụm bình thường.

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 96 - 97)