3.2.2.1. Thu thập dữ liệu
Dữ liệu được lấy từ trong chương trình DARPA IDEval quá trình tạo tấn cơng được thực hiện bằng cách sử dụng các cơng cụ tấn cơng đã được cơng bố cơng khai. Việc thu thập luồng dữ liệu tấn cơng là cần thiết cho việc tạo những bản ghi kết nối được gán nhãn cụ thể cho từng loại tấn cơng, để phục vụ cho việc tạo tập dữ liệu phát hiện xâm nhập.
Trong luận văn này những cơng cụ được sử dụng để tấn cơng vào hệ thống như là: Net tools 5, Smurf.c, Nmap, SuperScan4… Các cơng cụ này được thu thập từ phịng thí nghiệm của hãng phần mềm diệt Virus nổi tiếng McAfee và một số cơng cụ đã được các phịng thí nghiệm tại trung tâm cơng nghệ Thái Lan sử dụng trong những cơng trình nghiên cứu của họ.
3.2.2.2. Trích chọn đặc trưng
Trong tập dữ liệu KDD99 một kết nối là một chuỗi các gĩi tin TCP bắt đầu và kết thúc tại một số thời điểm được xác định rõ, giữa những luồng dữ liệu đến và đi từ một địa chỉ IP nguồn đến một địa chỉ IP mục tiêu trong một số giao thức được
xác định rõ. Quá trình này được hồn thành bằng cách sử dụng IDS Bro [16]. Mỗi kết nối được dán nhãn là một trong hai bình thường, hoặc như một cuộc tấn cơng, với chính xác một loại tấn cơng cụ thể. Mỗi bản ghi kết nối là một vector đặc trưng được dán nhãn bao gồm bốn mươi mốt tính năng trong tổng số. Chúng bao gồm 9 tính năng cơ bản hay nội tại, 9 tính năng giao thơng thời gian hoặc theo thời gian, 10 tính năng thống kê lưu lượng truy cập hoặc dựa trên máy chủ và 13 nội dung dựa trên các tính năng giao thơng.
Bộ dữ liệu của tơi bao gồm 16 đặc trưng được nhĩm lại thành 4 nhĩm chính: nhĩm đặc trưng cơ bản, nhĩm đặc trưng nội dung, nhĩm các đặc trưng dựa theo thời cuối cùng là nhĩm các đặc trưng dựa theo 100 kết nối trước. Chi tiết các đặc trưng được trình bày chi tiết dưới đây:
Những đặc trưng cơ bản của các kết nối TCP cá nhân.
Những đặc trưng cơ bản cĩ thể được bắt nguồn từ tiêu đề của gĩi tin mà khơng cần kiểm tra phần tải trọng. Những đặc trưng cơ bản bao gồm 5 đặc trưng đầu tiên được liệt kê dưới đây:
Bảng 3.1: Đặc trƣng cơ bản của kết nối.
STT Tên Mơ tả
1 Service Dịch vụ đích (ví dụ: telnet, ftp…) 2 Flag Trạng thái cờ của kết nối
3 src_bytes Số byte được gửi từ máy nguồn đến máy đích.
4 dst_bytes Số byte được gửi từ máy đích đến máy nguồn.
5 wrong_fragment số những phân mảnh sai.
Những đặc trưng về nội dung trong một kết nối được đề xuất bởi kiến thức miền.
Kiến thức tên miền được sử dụng để đánh giá phần tải trọng của các gĩi tin TCP ban đầu. Điều này bao gồm các tính năng:
Bảng 3.2: Đặc trƣng về nội dung kết nối.
STT Tên Mơ tả
6 Hot số của những khai báo “hot” 7 num_compromised số lần làm tổn thương máy
chủ.
Những đặc trưng được tính tốn dựa trên cửa sổ thời gian.
Các đặc trưng theo thời gian được xây dựng đặc biệt để phát hiện khối lượng cao và tốc độ nhanh của tấn cơng DoS dựa trên số lượng kết nối được thực hiện cho các máy chủ cùng một điểm đến, dịch vụ trong hai giây đã qua.
Bảng 3.3: Đặc trƣng dựa theo cửa sổ thời gian.
STT Tên Mơ tả
8 Count số của những kết nối tới cùng máy chủ như là kết nối hiện tại.
9 srv_count số của những kết nối tới cùng dịch vụ như là kết nối tiện tại.
10 same_srv_rate % của những kết nối tới cùng dịch vụ.
11 diff_srv_rate % của những kết nối tới những dịch vụ khác.
Những đặc trưng dựa trên máy chủ
Trong bộ dữ liệu KDD99 một số cuộc tấn cơng thăm dị quét cổng các máy chủ sử dụng một khoảng thời gian lớn. Vì vậy hồ sơ kết nối cũng được sắp xếp theo máy chủ đích và các tính năng được xây dựng bằng cách sử dụng cửa sổ của 100 kết nối đến cùng một máy chủ thay vì một cửa sổ thời gian. Điều này mang lại một tập hợp của cái gọi là máy chủ dựa trên các tính năng lưu lượng.
Bảng 3.4: Đặc trƣng dựa theo cửa sổ 100 kết nối trƣớc.
STT Tên Mơ tả
12 dst_host_count số những kết nối tới cùng máy chủ đích.
13 dst_host_diff_srv_rate % của những dịch vụ khác trên máy chủ hiện tại.
14 dst_host_srv_diff_host_rate % của những kết nối tới cùng dịch vụ đến từ các máy chủ khác.
15 dst_host_srv_serror_rate % của những kết nối tới máy chủ hiện tại và cĩ trạng thái cờ lỗi : S0,S1,S2,S3
16 dst_host_rerror_rate % của những kết nối tới máy chủ hiện tại và cĩ cờ lỗi RST.
Cơng việc cuối cùng: Gán nhãn các bản ghi.
Trong chương trình IDEval DARPA của những người tham gia được cung cấp một danh sách các nhãn thời gian để chỉ chính xác khi nào một cuộc tấn cơng đặc biệt bắt đầu vào lưu lượng mơ phỏng và trong bao lâu để phục vụ cho mục đích cuối cùng, đĩ là gán nhãn. Vì tất cả các giao thơng khác đã được mơ phỏng trong một mơi trường được điều chỉnh và nĩ được coi là bình thường. Theo đĩ, các nhãn được sử dụng trong các dữ liệu KDD Cup đã được chỉ định sử dụng các nhãn thời gian.
Cuối cùng, tơi gán nhãn các luồng với các cuộc tấn cơng bằng tay dựa trên tài liệu hướng dẫn của trang web DARPA IDS. Mỗi kết nối được gán nhãn là bình thường, hoặc như một cuộc tấn cơng, với chính xác một loại tấn cơng.