Mô tả các đặc trƣng của bộ dữ liệu KDD cup 99

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá hiệu quả một số thuật toán trong phát hiện xâm nhập mạng (Trang 49 - 53)

STT Tên đặc trƣng Mơ tả Tính chất

1. Duration Chiều dài (số giây) của kết nối. Liên tục 2. Protocol_type Loại giao thức, ví dụ tcp, udp,... Đứt đoạn

STT Tên đặc trƣng Mơ tả Tính chất

3. Service Dịch vụ mạng trên các điểm đến ví dụ

http, telnet, ... Đứt đoạn

4. Src_bytes Số lƣợng dữ liệu byte từ nguồn tới đích. Liên tục 5. Dst_bytes Số lƣợng dữ liệu byte từ đích tới nguồn. Liên tục 6. Flag Tình trạng bình thƣờng hoặc lỗi kết nối. Đứt đoạn 7. Land Bằng 1 nếu kết nối là từ/đến host tƣơng

tự/port; bằng 0 nếu ngƣợc lại. Đứt đoạn 8. Wrong_fragment Số lƣợng wrong fragments Liên tục 9. Urgent Số lƣợng gói tin khẩn cấp Liên tục

10. Hot Số lƣợng chỉ số nóng Liên tục

11. Num_failed_logins Số lần đăng nhập thất bại Liên tục 12. Logged_in Bằng 1 nếu đăng nhập thành công; 0 nếu

ngƣợc lại Đứt đoạn

13. Num_compromised Số lƣợng điều kiện thỏa hiệp Liên tục 14. Root_shell Bằng 1 nếu thu đƣợc root shell; 0 nếu

ngƣợc lại Đứt đoạn

15. Su_attempted Bằng 1 nếu cố gắng thực hiện lệnh ''su

root''; 0 nếu ngƣợc lại Đứt đoạn

16. Num_root Số lần truy cập quyền “root” Liên tục 17. Num_file_creations Số hoạt động tạo tập tin Liên tục 18. Num_shells Số lƣợng shell prompts Liên tục 19. Num_access_files Số hoạt động trên các tập tin kiểm soát

truy cập. Liên tục

20. Num_outbound_cmds Số lƣợng lệnh outbound trong 1 phiên

ftp Liên tục

21. Is_host_login Bằng 1 nếu đăng nhập thuộc về danh

STT Tên đặc trƣng Mơ tả Tính chất

22. Is_guest_login Bằng 1 nếu đăng nhập là một tài khoản

khách; 0 nếu ngƣợc lại. Đứt đoạn

23. Count

Số lƣợng kết nối đến các máy chủ tƣơng tự giống nhƣ các kết nối hiện hành trong 2 giây đã qua.

Liên tục 24. Serror_rate Số % kết nối có lỗi “SYN” Liên tục 25. Rerror_rate Số % kết nối có lỗi “REJ” Liên tục 26. Same_srv_rate Số % các kết nối đến những dịch vụ

tƣơng tự. Liên tục

27. Diff_srv_rate % kết nối với các dịch vụ khác nhau. Liên tục 28. Srv_count

Số lƣợng kết nối đến các dịch vụ tƣơng tự giống nhƣ các kết nối hiện hành trong 2 giây đã qua.

Liên tục 29. Srv_serror_rate % kết nối có lỗi “SYN” từ các dịch vụ. Liên tục 30. Srv_rerror_rate % kết nối có lỗi “REJ” từ các dịch vụ. Liên tục 31. Srv_diff_host_rate Tỉ lệ % kết nối đến máy chủ khác nhau

từ dịch vụ. Liên tục

32. Dst_host_count Đếm các kết nối có cùng một đích đến. Liên tục 33. Dst_host_srv_count Đếm các kết nối có cùng host đích và sử

dụng các dịch vụ tƣơng tự. Liên tục 34. Dst_host_same_srv_rat

e

% các kết nối có cùng host đích và sử

dụng các dịch vụ tƣơng tự. Liên tục 35. Dst_host_diff_srv_rate % các dịch vụ khác nhau trên các host

hiện hành. Liên tục

36. Dst_host_same_src_

port_rate

% các kết nối đến các host hiện thời có

cùng cổng src. Liên tục

STT Tên đặc trƣng Mơ tả Tính chất _rate đến từ các host khác nhau.

38. Dst_host_serror_rate % các kết nối đến các host hiện thời có

một lỗi S0. Liên tục

39. Dst_host_srv_serror_ra

te

% các kết nối đến các host hiện hành và

dịch vụ quy định rằng có một lỗi SO. Liên tục 40. Dst_host_rerror_rate % các kết nối đến các host hiện thời có

một lỗi RST. Liên tục

41. Dst_host_srv_rerror_ra

te

% các kết nối đến các máy chủ hiện hành và dịch vụ quy định rằng có một lỗi RST.

Liên tục

Ví dụ về một bản ghi kết nối trong bộ KDD 99:

0, icmp, ecr_i, SF, 1032, 0, 0, 0, 0, 0 , 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 511, 511, 0, 0, 0, 0, 1.00, 0, 0, 255, 255, 1, 0, 1, 0, 0, 0, 0,0, smurf.

Thông tin cuối cùng trong mỗi bản ghi chính là nhãn của kết nối. Trong ví dụ trên nhãn cuối cùng của bản ghi là “smurf” tƣơng ứng với kiểu tấn công smurf một

dạng tấn công từ chối dịch vụ Dos.

Dữ liệu tấn công trong KDD 99 đƣợc chia làm bốn loại [7]:

1. DoS (denial of service): dữ liệu cho loại tấn công từ chối dịch vụ. Một số loại tấn công kiểu DoS nhƣ: ping of death, teardrop, smurf, SYN food,…

2. Probe: dữ liệu thể hiện loại tấn cơng thăm dị. Ví dụ một số loại tấn công dạng này nhƣ là: port-scan, ping-sweep,…

3. R2L (Remote to Local): dữ liệu thể hiện loại tấn công từ xa, hacker cố gắng xâm nhập vào mạng hoặc một số máy tính trong mạng;

4. U2R (User to Root): dữ liệu thể hiện loại tấn công chiếm quyền Root (quyền cao nhất) bằng việc leo thang đặc quyền từ quyền ngƣời dùng bình thƣờng lên quyền Root.

Bộ dữ liệu KDD 99 gốc gồm có ba tập dữ liệu, trong đó có hai bộ dữ liệu thƣờng đƣợc dùng để huấn luyện là bộ bộ “Whole KDD” gồm gần năm triệu bản ghi, và bộ “10% KDD” khi trích rút 10% dữ liệu từ bộ “Whole KDD” (tất cả các bản ghi là kết nối bình thƣờng hay tấn công đều đƣợc lấy theo tỷ lệ tƣơng ứng với bộ dữ liệu “Whole KDD”. Tuy nhiên, do số lƣợng dữ liệu quá lớn và để giảm chi phí tính tốn ngƣời ta thƣờng sử dụng bộ dữ liệu “10% KDD”. Bộ dữ liệu “Corrected KDD” đƣợc dùng làm bộ dữ liệu kiểm tra và độc lập với các bộ dữ liệu huấn luyện.

Dƣới đây là một số thông tin về số lƣợng các bản ghi trong các tập dữ liệu cùng với số lƣợng nhãn tƣơng ứng của mỗi loại tấn công [7].

Một số nghiên cứu gần [1][8] đây sử dụng bộ NSL-KDD, đây là bộ dữ liệu đƣợc trích rút từ bộ “Whole KDD” sau khi đã loại bỏ đi các bản ghi trùng lặp.

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá hiệu quả một số thuật toán trong phát hiện xâm nhập mạng (Trang 49 - 53)