Phân tích mức độ đặc trưng của thuộc tính trên tập dữ liệu KDD 99 1 Giới thiệu

Một phần của tài liệu Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99 (Trang 33 - 35)

3. Không có định nghĩa chính xác về các cuộc tấn công Ví dụ: tấn công “thăm dò” là không nhất thiết phải là một loại tấn công trừ khi số lần lặp lại vượt quá một

2.3.Phân tích mức độ đặc trưng của thuộc tính trên tập dữ liệu KDD 99 1 Giới thiệu

2.3.1. Giới thiệu

Cùng với những lợi ích thì Internet cũng tạo ra rất nhiều cách để làm ảnh hưởng đến sự ổn định và an ninh của các hệ thống kết nối với nó. Mặc dù cơ chế bảo vệ tĩnh như: tường lửa và các phần mềm cập nhật có thể cung cấp một mức độ an toàn nào đó, cơ chế linh động hơn như hệ thống phát hiện xâm nhập (IDS) cũng nên được sử dụng. Hệ thống phát hiện xâm nhập thường là phân loại dựa trên máy chủ hoặc dựa trên mạng. Trên cơ sở một máy chủ hệ thống phát hiện xâm nhập sẽ giám sát các nguồn tài nguyên như các lần đăng nhập hệ thống, tập tin hệ thống và nguồn tài nguyên trên đĩa, trong khi đó, nếu dựa trên cơ sở mạng thì hệ thống phát hiện xâm nhập sẽ giám sát các dữ liệu chuyền qua mạng. Các kỹ thuật phát hiện khác nhau có thể được sử dụng để phát hiện các mô hình tấn công trong các dữ liệu theo dõi. Lạm dụng hệ thống phát hiện để cố gắng tìm ra chữ ký tấn công trong các tài nguyên theo dõi. Hệ thống phát hiện bất thường hay dựa vào những hiểu biết về hành vi bình thường và từ đó sẽ đánh dấu cho hành vi bất thường. Hệ thống phát hiện xâm nhập đang sử dụng thường yêu cầu phải có con người để tạo ra các dấu hiệu tấn công hoặc để xác định mô hình thực hiện hành vi bình thường. Giúp cho các thuật toán học cung cấp một tiềm năng thay thế giải pháp đưa con người vào tốn

kém. Nhiệm vụ chính của thuật toán học là để khám phá ra mô hình thích hợp từ các dữ liệu huấn luyện cho biết đặc điểm hành vi bình thường và hành vi tấn công. Việc tiếp theo là sau đó mô hình sẽ được sử dụng để đưa ra các dự đoán về dữ liệu vô hình. Một trong những thách thức lớn nhất trong việc phát hiện xâm nhập dựa mạng là số lượng dữ liệu lớn thu thập từ mạng. Vì vậy, trước khi cho dữ liệu vào một thuật toán học máy, nguyên liệu mạng lưu thông nên tóm tắt thành một biến cố mức độ cao hơn như bản ghi kết nối. Mỗi biến cố mức cao cao hơn được mô tả với một tập hợp các thuộc tính. Lựa chọn các thuộc tính đặc trưng là một việc rất quan trọng và yêu cầu cần phải hiểu biết trên phạm vi rộng .

Với tầm quan trọng của vấn đề phát hiện xâm nhập, đã có nhiều sáng kiến khác nhau có cố gắng xác định số lượng các trạng thái hiện tại của kỹ thuật. Đặc biệt, Tập dữ liệu thẩm định phát hiện xâm nhập DARPA của MIT Lincoln Lab đã được sử dụng để thiết kế và kiểm tra hệ thống phát hiện xâm nhập. Năm 1999, mạng lưu thông được ghi lại của tập dữ liệu DARPA 98 Lincoln Lab đã được tóm tắt thành các kết nối mạng với 41 thuộc tính cho mỗi kết nối. Điều này hình thành tập dữ liệu chuẩn phát hiện xâm nhập KDD 99 trong “Khám phá kiến thức quốc tế” và “Công cụ cạnh tranh khai thác dữ liệu”. Mặc dù không phải nó không có hạn chế nhưng chỉ có tập dữ liệu KDD 99 chuẩn là công khai dán nhãn sẵn để so sánh các hệ thống phát hiện xâm nhập.

Kết quả phát hiện báo cáo bởi các nghiên cứu sử dụng các thuật toán học máy (ví dụ như: Cây quyết định, Thuật toán mạng nơron, phân nhóm và tiếp cận máy hỗ trợ vector) trên tập hợp dữ liệu phát hiện xâm nhập KDD 99 cho thấy các cuộc tấn công từ chối dịch vụ và tấn công thăm dò phát hiện chính xác trong khi các cuộc tấn công liên quan đến nội dung có tỷ lệ phát hiện thấp hơn đáng kể. Sabhnani et al điều tra các khiếm khuyết của tập dữ liệu phát hiện xâm nhập KDD 99 và kết luận rằng nó không thể đạt được mức cao của tỷ lệ phát hiện các cuộc tấn công liên quan đến nội dung (Tấn công người dùng vào thư mục gốc và Tấn công từ xa vào cục bộ). Với tỷ lệ phát hiện của các nghiên cứu gần đây, mục tiêu là để thực hiện phân tích một thuộc tính liên quan để chứng minh cho hiệu quả hoạt động của các hệ thống phát hiện xâm nhập học máy. Vì vậy, mục đích của chúng nhằm điều tra

sự liên quan của các thuộc tính trong số 41 thuộc tính đối với nhãn tập dữ liệu. Đó là, đối với hành vi bình thường và từng loại tấn công (tức là lớp nhãn), ta xác định các thuộc tính có liên quan nhất, tốt nhất phân biệt từ các lớp khác. Để làm điều đó biện pháp là dựa trên các thông tin thu được để xây dựng cây quyết định.

Đối với một lớp, các thuộc tính có thông tin thu được cao nhất được coi là thuộc tính phân biệt nhất. Mặc dù thông tin có được là sử dụng gián tiếp tập dữ liệu phát hiện xâm nhập KDD 99 bằng cách sử dụng cây quyết định, Mục đích là để thực hiện một phân tích phù hợp hơn một phát hiện huấn luyện.

Các tập dữ liệu phát hiện xâm nhập KDD 99 là dựa trên tập dữ liệu DARPA 98, nó cung cấp dữ liệu dán nhãn cho các nhà nghiên cứu làm việc trong lĩnh vực phát hiện xâm nhập và là tập dữ liệu duy nhất công khai có sẵn nhãn. Nhiều nhà nghiên cứu sử dụng tập dữ liệu KDD 99 trong việc cạnh tranh nghiên cứu sử dụng học máy để phát hiện xâm nhập và tỷ lệ phát hiện báo cáo lên đến 91% với tỷ lệ sai hơn 1%. Để chứng minh hiệu suất của học máy dựa trên các phát hiện trong việc huấn luyện trên tập dữ liệu huấn luyện KDD 99, chúng ta điều tra sự liên quan của mỗi thuộc tính trong tập dữ liệu phát hiện xâm nhập KDD 99. Cuối cùng, thông tin đạt được sử dụng để xác định các thuộc tính phân biệt nhất cho mỗi lớp.

Một phần của tài liệu Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99 (Trang 33 - 35)