Năm 1998 Chương trình phát hiện xâm nhập DARPA đã được chuẩn bị và đánh giá bởi phịng thí nghiệm MIT Lincol Labs - Hoa Kì dưới dự án của khơng quân Hoa Kì. Mục tiêu của cuộc khảo sát và đánh giá nghiên cứu trong việc phát hiện xâm nhập. Một bộ dữ liệu tiêu chuẩn được kiểm tốn bao gồm hàng loạt các sự xâm phạm mơ phỏng trong một mơi trường quân sự đã được cung cấp. Với việc sử dụng bộ 41 thuộc tính từ dữ liệu giao thơng thơ được xây dựng bởi Lee và các đồng nghiệp (Ở đây các dữ liệu được thiết lập mơi trường để cĩ được chín tuần của dữ liệu TCPDump cho mạng cục bộ LAN. Hơn nữa là các dữ liệu đã được bốn gigabyte dữ liệu TCPDump nén nhị phân từ bảy tuần của lưu lượng mạng chế thành khoảng 5 triệu bản kết nối).
Trong bộ dữ liệu KDD99 [16] mỗi bản ghi là một chuỗi các gĩi tin bắt đầu và kết thúc ở một số lần xác định rõ từ đĩ các luồng dữ liệu đến và đi từ một địa chỉ IP nguồn đến một địa chỉ IP mục tiêu theo một số giao thức được xác định rõ. Trong tập hợp dữ liệu mỗi kết nối mạng được dán nhãn hoặc là bình thường hoặc như là một loại cụ thể chính xác một trong những cuộc tấn cơng. Mỗi bản ghi kết nối bao gồm khoảng 100 byte.
Bảng 2.2. Các thuộc tính cơ bản của kết nối cá nhân TCP
Thuộc tính Mơ tả Kiểu
Duration Chiều dài số giây của kết nối Liên tục protocol_type Loại giao thức ví dụ: tcp, udp… Rời rạc Service Dịch vụ mạng trên điểm đến ví dụ: telnet, http Rời rạc src_bytes Số byte dữ liệu từ nguồn đến đích Liên tục dst_bytes Số byte dữ liệu từ các đích đến nguồn Liên tục Flag Bình thường hoặc lỗi tình trạng của kết nối Rời rạc Land
1 nếu kết nối là từ/cho cùng một máy chủ/cổng; 0
nếu ngược lại Rời rạc
wrong_fragment Số lượng các mảnh vỡ “sai” Liên tục Urgent Số lượng các gĩi dữ liệu khẩn cấp Liên tục
Bảng 2.3. Các thuộc tính thuộc về đặc tính kết nối
Thuộc tính Mơ tả Kiểu
Count Số lượng kết nối đến các máy chủ giống như các
kết nối hiện tại Liên tục serror_rate %của các kết nối cĩ “SYN” lỗi Liên tục rerror_rate %của các kết nối cĩ “REJ” lỗi Liên tục same_srv_rate %của các kết nối đến các dịch vụ tương tự Liên tục diff_srv_rate %của các kết nối với các dịch vụ khác nhau Liên tục srv_count Số lượng kết nối với dịch vụ Liên tục srv_serror_rate %của các kết nối cĩ “SYN” lỗi Liên tục srv_rerror_rate %của các kết nối cĩ “REJ” lỗi Liên tục srv_diff_host_rate %của các kết nối đến máy chủ khác nhau Liên tục
Bảng 2.4. Các thuộc tính dựa trên sự hiểu biết của kiến thức tên miền.
Thuộc tính Mơ tả Kiểu
Hot Số chỉ tiêu “nĩng” Liên tục num_failed_logins Số lần đăng nhập khơng thành cơng Liên tục logged_in 1 nếu đăng nhập thành cơng, 0 nếu ngược lại Rời rạc num_compromised Số điều kiện “xâm nhập” Liên tục root_shell 1nếu vỏ bảo vệ thu được; 0 nếu ngược lại Rời rạc su_attempted 1 nếu “su root” gắn lệnh; 0 nếu ngược lại Rời rạc num_root Số lượng truy cập“root” Liên tục num_file_creations Số lượng các hoạt động tạo tập tin Liên tục num_shells Số vỏ nhắc nhở Liên tục num_access_files Số hoạt động trên các tập tin điều khiển truy
cập Liên tục
num_outbound_cmds Số lệnh gửi đi trong một phiên ftp Liên tục is_hot_login 1 nếu đăng nhập các thuộc danh sách “hot”; 0
nếu ngược lại Rời rạc is_guest_login 1nếu đăng nhập là một guest “login”; 0 nếu
Các thuộc tính trong KDD99 được liệt kê chi tiết dưới bảng sau:
Bảng 2.5. 41 thuộc tính trong tập dữ liệu KDD99.
STT Tên thuộc tính STT Tên thuộc tính
1 Duration 22 Is_guest_login 2 Protocol_type 23 Count 3 Service 24 Srv_count 4 Flag 25 Serror_rate 5 Src_bytes 26 Srv_serror_rate 6 Dst_bytes 27 Rerror_rate 7 Land 28 Srv_rerror_rate 8 Wrong_fragment 29 Same_srv_rate 9 Urgent 30 Diff_srv_rate 10 Hot 31 Srv_diff_host_rate 11 Num_failed_logins 32 Dst_host_count 12 Logged_in 33 Dst_host_srv_count 13 Num_compromised 34 Dst_host_same_srv_rate 14 Root_shell 35 Dst_host_diff_srv_rate 15 Su_attempted 36 Dst_host_same_src_port_rate 16 Num_root 37 Dst_host_srv_diff_host_rate 17 Num_file_creations 38 Dst_host_serror_rate 18 Num_shells 39 Dst_host_srv_serror_rate 19 Num_access_files 40 Dst_host_rerror_rate 20 Num_outbound_cmds 41 Dst_host_srv_rerror_rate 21 Is_host_login
Trong tập dữ liệu KDD99 mỗi kết nối mạng là đại diện 41 thuộc tính. Cĩ tất cả khoảng 5 triệu bản ghi kết nối để phân biệt 22 loại tấn cơng và các cuộc tấn cơng rơi vào một trong bốn loại sau:
- R2L: Khơng được phép truy cập từ một máy từ xa (ví dụ: tấn cơng đốn mật khẩu ).
- U2R: Khơng được phép truy cập vào các người dùng địa phương (root) đặc quyền (ví dụ: tấn cơng tràn bộ đệm ).
- PROBE: Giám sát và các thăm dị khác (ví dụ: quét cổng ) .