3.4.4.1. Các mẫu bất thƣờng đƣợc sử dụng cho đầu vào bài toán
Ta khó có thể định nghĩa hết các mẫu bất thƣờng của các cuộc tấn công, chính vì vậy luận văn chỉ đề cập đến một số mẫu bất thƣờng của các cuộc tấn công từ chối dịch vụ DoS.
+Đầu vào bài toán là các cuộc tấn công từ chối dịch vụ thông qua giao thức HTTP. Tức là các request của giao thức HTTP bình thƣờng chỉ là các địch chỉ Web dƣới dạng URL nên có kích thƣớc rất nhỏ theo khảo sát nhỏ hơn rất nhiều ngƣỡng
350 byte. Để tấn công thông qua giao thức HTTP kẻ tấn công thƣờng phải chèn thêm mã lệnh thực thi trên trình duyệt của nạn nhân, mã lệnh có thể là các đoạn mã, tệp tin, câu lệnh truy vấn SQL …, khi đó các request của các giao thức này sẽ có thay đổi nhiều về kích thƣớc, thông thƣờng nếu kích thƣớc lớn hơn 350 byte là mẫu bất thƣờng có khả năng xuất hiện tấn công. Ví dụ:
http://www.microsoft.com/education/?ID=MCTN&target=http://www.microsoft.co m/education/?ID=MCTN&target=<script>alert(document.cookie)</script>
+Đầu vào của bài toán là các cuộc tấn công từ chối dịch vụ dạng nhƣ: Ping of Death, Teardrop, Aland Attack, Winnuke, Smurf Attack, UDP/ICMP Flooding TCP/SYN, Flooding Attack DNS. Các dạng này chủ yếu kẻ tấn công gửi một số lƣợng lớn lƣợt Ping, gói tin … để làm quá tải máy chủ gây ra lỗi từ chối dịch vụ. Mẫu bất thƣờng trong trƣờng hợp này là một “RemoteHost” trong một khoảng thời gian đƣợc xét có gửi một lƣợng lớn gói tin tới một “LocalHost” hay nói cách khác trong một cửa sổ thời gian một “RemoteHost” gửi rất nhiều request tới một “LocalHost” là bất thƣờng, ngƣỡng số request thay đổi tùy thuộc vào điều kiện hệ thống cần bảo về an toàn đến mức độ xác định.
+Đầu vào của bài toán là các cuộc tấn công từ nhiều mạng lƣới khác nhau vào một “LocalHost” hay nói cách khác là sẽ có một lƣợng lớn các Request từ nhiều địa chỉ mạng khác nhau cùng đƣợc gửi tới một “LocalHost” trong một cửa sổ thời gian ngắn là bất thƣờng, ngƣỡng số request này thay đổi tùy thuộc vào điều kiện kết nối của mạng và mức độ cần bảo vên an toàn.
3.4.4.2. Khai phá dữ liệu
Tiến trình khai phá dữ liệu trong luận vănsử dụng kỹ thuật dùng đối tƣợng đại diện: phƣơng pháp K-medoids trong kỹ thuật gom cụm của Khai phá dữ liệu. Trong quá trình khai phá dữ liệu, các mẫu bất thƣờng đƣợc sử dụng để đại diện cho cụm “xâm nhập” phần còn lại của cơ sở dữ liệu là các cụm “Bình thƣờng”. Các mẫu bất thƣờng phụ thuộc vào điều kiện đầu vào của bài toán trong tiến trình xử lý. Với mỗi ngƣỡng đầu vào phù hợp sẽ cho kết quả khai phá dữ liệu tƣơng thích.
+Với dữ liệu đầu vào của bài toán là các cuộc tấn công sử dụng giao thức HTTP thì các mẫu bất thƣờng là ngƣỡng kích thƣớc gói tin request và số request thỏa mãn ngƣỡng kích thức này tới máy chủ Web mà trong luận văn này chỉ đề cập đến là một máy trong mạng nội bộ “Localhost” cần bảo vệ để làm các tham số đầu vào của thuật toán K-medoids. Kết quả đầu ra của thuật toán hiển thị các cụm chứa các mẫu bất thƣờng là các kết nối có kích thƣớc gói request lớn hơn ngƣỡng tham số đầu vào của bài toán, các mẫu còn lại đƣợc coi là bình thƣờng vì thỏa mãn ngƣỡng tham số đầu vào của bài toán khai phá.
+Với dữ liệu đầu vào của bài toán là các cuộc tấn công từ chối dịch vụ dạng DoS thì đầu vào của thuật toán là ngƣỡng số request. Kết quả đầu ra của thuật toán hiển thị các cụm bất thƣờng có ngƣỡng số request lớn hơn ngƣỡng tham số đầu vào của bài toán, các mẫu còn lại đƣợc coi là bình thƣờng vì thỏa mãn ngƣỡng tham số đầu vào của bài toán khai phá.
+Với dữ liệu liệu đầu vào của bài toán là cuộc tấn công từ nhiều địa chỉ IP khác nhau tới một “Localhost” mà đại diện ở đây là một máy cục bộ, thì đầu vào của thuật toán là ngƣỡng số request, ngƣỡng này phụ thuộc vào thuộc tính kết nối của “LocalHost”. Kết quả đầu ra của thật toán hiển thị các cụm bất thƣờng có ngƣỡng số request lớn hơn ngƣỡng tham số đầu vào của bài toán, các cụm còn lại đƣợc coi là bình thƣờng vì thỏa mãn ngƣỡng tham số đầu vào của bài toán khai phá.
3.4.4.3. Cơ chế xử lý dữ liệu sau tiến trình khai phá
Sau tiến trinh khai phá cơ sở dữ liệu sử dụng đối tƣợng đại diện làm tham số đầu vào của bào toán, kết quả thu đƣợc của bài toán là hai nhóm cụm dữ liệu “bình thƣờng” và “bất thƣờng”. Dữ liệu sau khi khai phá đƣợc biểu diễn dƣới dạng bảng gồm các trƣờng thuộc tính của thể hiện các mẫu bất thƣờng.
Hình 3.6: Biểu diễn kết quả mẫu bất thƣởng