Kể từ khi tập dữ liệu KDD99 được cơng bố cơng khai và nĩ đã nhanh chĩng trở thành một tập dữ liệu chuẩn cho việc đánh giá của các hệ thống phát hiện xâm nhập. Bộ dữ liệu KDD99 được sử dụng thường xuyên bởi các nhà nghiên cứu làm việc trong lĩnh vực phát hiện xâm nhập theo hai hướng chính: Theo truyền thống cộng đồng nghiên cứu về bảo mật máy tính đã sử dụng bộ dữ liệu KDD99 cho việc
đánh giá hệ thống của họ. Trong khi cộng đồng nghiên cứu về các thuật tốn máy học và khai phá dữ liệu quan tâm đến việc nghiên cứu một số thuật tốn nhằm nâng cao khả năng phát hiện những kiểu tấn cơng đã biết và chưa biết như cây quyết định mạng neuron thuật tốn di truyền hệ miễn dịch nhân tạo…trên tập dữ liệu KDD99 sẵn cĩ. Tất cả các cơng trình trên mới tập trung vào nghiên cứu sự ảnh hưởng của các thuộc tính và việc lựa chọn thuật tốn phù hợp cho mơ hình mà chưa chỉ ra phương pháp xây dựng bộ thuộc tính ấy ra sao cách thu thập bộ dữ liệu tưng ứng như thế nào.
Vào năm 2006 Yang Li và các đồng nghiệp [19] đã sử dụng các phương pháp trích chọn đặc trưng: Độ lợi thơng tin ( Information Gain) và Phương pháp thống kê Chi- Square để trích rút ra một số thuộc tính quan trọng trong tập dữ liệu KDD99.
Vào năm 2008 Panda và các đồng nghiệp [17] đã đề xuất thuật tốn phân cụm dữ liệu Fuzzy- C Mean và áp dụng thuật tốn máy học này vào việc phát hiện xâm nhập mạng máy tính. Kết quả thí nghiệm là sự áp dụng tập dữ liệu KDD99 cho việc huấn luyện và đánh giá.
Vào năm 2011 Z. Muda và các đồng nghiệp [18] đã đề xuất một giải pháp phát hiện xâm nhập bằng sự kết hợp các thuật tốn máy học giám sát với thuật tốn máy học khơng giám sát. Họ đã sử dụng thuật tốn K- Means cho học khơng giám sát và thuật tốn Naive Bayes việc học giám sát. Bước đầu tiên của giải thuật là sử dụng thuật tốn K- Means để nhĩm dữ liệu thành hai nhĩm chính: Nhĩm dữ liệu gán nhãn kiểu bình thường và nhĩm dữ liệu gán nhãn kiểu tấn cơng. Sau đĩ áp dụng thuật tốn Naive Bayes để phân lớp các loại tấn cơng cụ thể trong tập dữ liệu được gán nhãn tấn cơng đã được phân cụm từ bước một. Tập dữ liệu KDD99 đã được sử dụng để đánh giá việc thực thi thuật tốn này. Độ phát hiện chính xác lên tới 99.6%. Tập dữ liệu KDD99 tuy là bị chỉ trích về sự ra đời từ lâu và tốc độ của cơng nghệ mạng thay đổi từng ngày cũng như sự gia tăng của các phương pháp hình thức tấn cơng mới. Tuy nhiên luồng dữ liệu mạng thật cho việc tạo ra tập dữ liệu KDD99 đã được tập hợp từ một mơi trường mạng rộng lớn. Tập dữ liệu KDD99 chứa một
lượng lớn các loại tấn cơng phổ biến nhiều kiểu luồng dữ liệu bình thường. Một mạng được mơ phỏng chứa hàng trăm người sử dụng trên hàng ngàn máy chủ. Hơn nữa tập dữ liệu KDD99 là tốt hơn cho việc phù hợp với các thuật tốn máy học.
Do vậy trong luận văn này xây dựng tập thuộc tính dựa trên tập thuộc tính của KDD99.