Vào năm 2008 Wei Wang và các đồng nghiệp [3] đã sử dụng các phương pháp trích chọn đặc trưng IG và Wrapper với mạng Bayesian và cây quyết định để chọn ra các thuộc tính quan trọng nhất cho mỗi một loại tấn cơng trong tập dữ liệu KDD99.
Những thuộc tính quan trọng được liệt kê ở dưới bảng sau:
Bảng 2.6. Những thuộc tính đƣợc chọn cho từng loại tấn cơng.
STT Loại tấn cơng
DoS Probe R2L U2R
1 Service Service Duration Duration 2 Flag Flag Service Protocol_type 3 Src_bytes Src_bytes Src_bytes Service
4 Dst_bytes Dst_bytes Dst_bytes Src_bytes 5 Wrong_
Fragment
Same_srv_
Rate Logged_in Hot 6 Hot Diff_srv_ Rate Is_guest_ Login Num_ compromised 7 Num_ Compromised Dst_host_
Count Count Root_shell 8 Count Dst_host_ diff_srv_rate Srv_diff_ host_rate Dst_host_ Count 9 Srv_count Dst_host_srv _serror_rate Dst_host_ Count Dst_host_ srv_count 10 Dst_host_srv_ diff_host_rate Dst_host_ rerror_rate Dst_host_ srv_count Dst_host_same _src_port_rate Kết quả thí nghiệm chỉ ra rằng chỉ nên sử dụng 10 thuộc tính cho mỗi một loại tấn cơng . Việc sử dụng tập thuộc tính này cho mỗi một loại tấn cơng khơng chỉ giữ nguyên độ chính xác cho việc phát hiện xâm nhập mà cịn nâng cao đáng kể
tốc độ xử lí khi phải sử dụng với số thuộc tính nhỏ hơn số tập thuộc tính trong tập dữ liệu KDD99.
Dựa theo [8] luận văn sử dụng bộ 16 thuộc tính để đi xây dựng hệ thống phát hiện xâm nhập.
Lý do chọn 16 đặc trưng trong 41 đặc trưng của tập dữ liệu KDD99 để xây dựng tập dữ liệu của mình vì hai điều. Lý do đầu tiên là để cải thiện tốc độ của hệ thống và thứ hai là sự mất cân đối giữa số lượng các loại tấn cơng được gán nhãn DoS, Probe là phổ biến trong khi các bản ghi được gán nhãn R2L, U2L là rất hiếm gặp trong bộ dữ kiệu KDD99. Vì vậy luận văn tiến hành nghiên cứu đối với các cuộc tấn cơng phổ biến nhất.
Chi tiết 16 thuộc tính được mơ tả ở bảng dưới đây:
Bảng 2.7. Chi tiết 16 thuộc tính
STT Tên thuộc tính Mơ tả
1 Service Dịch vụ đích 2 Flag Trạng thái kết nối
3 Src_bytes Số byte gửi từ máy nguồn tới máy đích
4 Dst_bytes Số byte gửi từ máy đích tới máy nguồn
5 Wrong_fragment Số phân mảng sai
6 Hot Số những khai báo “hot” 7 Num_compromised Số những điều kiện thỏa hiệp 8 Count Số kết nối máy chủ đích
9 Srv_count Số của những kết nối tới cùng dịch vụ như là kết nối hiện tại
10 Same_srv_rate % của những kết nối tới cùng dịch vụ 11 Diff_srv_rate % của những kết nối tới những dịch
vụ khác nhau
12 Dst_host_count Số kết nối cĩ cùng máy chủ đích 13 Dst_host_srv_count % những dịch vụ khác trên máy chủ
hiện tại
14 Dst_host_diff_srv_rate % những kết nối tới cùng dịch vụ đến từ những máy chủ khác nhau
15 Dst_host_srv_diff_host_rat e
% kết nối tới máy chủ hiện tại và cĩ trạng thái: S0, S1, S2, S3
16 Dst_host_srv_rerror_rate % kết nối tới máy chủ hiện tại và cĩ trạng thái
2.5. Kết luận
Ở chương 2 đã nghiên cứu về giải thuật, kiến trúc mạng neuron nhân tạo, các bước của thuật tốn với mơ hình mạng tổng quát. Sử dụng tập dữ liệu KDD99, hướng nghiên cứu, một số tấn cơng phổ biến, lựa chọn bộ thuộc tính phát hiện xâm nhập… để hiểu hơn về các mơ hình bảo mật, các đặc điểm bảo mật trong phát hiện xâm nhập mạng trái phép qua đĩ thấy được điểm mạnh yếu trong việc phát hiện xâm nhập trái phép. Trong chương 3 xây dựng demo chương trình thử nghiệm phát hiện xâm nhập trái phép.
CHƢƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ
Trong chương 3 phát triển bài tốn, mục đích thử nghiệm, xây dựng demo chương trình thử nghiệm phát hiện xâm nhập trái phép. Từ đĩ luận văn sẽ đưa ra những kết luận, đánh giá.