CHƢƠNG I : TỔNG QUAN VỀ HỆ THỐNG PHÁT HIỆN XÂM NHẬP
1.6 Hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu
Khai phá dữ liệu là một phƣơng pháp tiếp cận mới trong việc phát hiện xâm nhập. Khai phá dữ liệu đƣợc định nghĩa [12]: "Sự khám phá ra các mẫu, các mối quan hệ, các biến đổi, những sự bất thường, những qui luật, những cấu trúc và sự kiện quan trọng mang tính chất thống kê trong dữ liệu". Trong đĩ tồn tại nhiều thuật tốn đƣợc sử dụng trong các bƣớc khai phá dữ liệu bao gồm phân lớp, phân tích hồi qui, phân cụm, khai phá luật kết hợp... Khai phá dữ liệu trong phát hiện xâm nhập trái phép nhằm trích lọc tri thức từ một tập dữ liệu lớn các thơng tin truy cập trên mạng, để phân tích và biểu diễn nĩ thành mơ hình phát hiện xâm nhập trái phép. Phƣơng pháp tiếp cận này quy việc phát hiện xâm nhập nhƣ là tiến trình phân tích dữ liệu, trong đĩ các phƣơng pháp tiếp cận trƣớc là những quá trình kỹ nghệ tri thức.
Hình 1.11 - Quá trình khai phá dữ liệu nhằm xây dựng mơ hình phát hiện xâm nhập trái phép [9].
Phƣơng pháp khai phá dữ liệu để phát hiện xâm nhập lần đầu tiên đƣợc phát hiện bởi MADAMID (Mining Audit Data for Automated Models for Instruction Detection - Khai phá dữ liệu đƣợc sử dụng trong mơ hình tự động để phát hiện xâm nhập)[8].
Quá trình khai phá dữ liệu trong việc xây dựng những mơ hình phát hiện xâm nhập đƣợc miêu tả ở Hình 1.10 [9]. Dữ liệu thơ đầu tiên đƣợc chuyển đổi thành thơng tin gĩi dữ liệu mạng với mã ASCII mà lần lƣợt nĩ đƣợc chuyển đổi thành thơng tin ở mức truy cập. Những bản ghi ở mức truy cập này chứa trong đĩ những thuộc tính kết nối nhƣ là dịch vụ, thời gian kết nối… Thuật tốn khai phá dữ liệu đƣợc áp dụng cho những dữ liệu này để tạo ra các mơ hình phát hiện xâm nhập. Các thuật tốn khai phá dữ liệu đƣợc dùng trong phƣơng pháp này là RIPPER "Thuật tốn phân lớp dựa vào luật", siêu phân lớp, thuật tốn hồi qui, luật kết hợp. Các thuật tốn này đƣợc áp dụng để kiểm sốt dữ liệu, tính tốn các mơ hình mà thu thập chính xác hành vi thực tế việc xâm nhập trái phép cũng nhƣ các hoạt động bình thƣờng.
Thuật tốn RIPPER [10] đƣợc dùng để học mơ hình phân lớp để xác định diễn biến bình thƣờng và diễn biến bất thƣờng trong hệ thống. Kỹ thuật hồi qui và tƣơng quan đƣợc dùng để xây dựng các mẫu liên tiếp từ các bản ghi dữ liệu thu thập. Những mẫu liên tiếp này biểu diễn lại những tổng hợp thống kê về mạng và hoạt động của hệ thống bằng cách đo lƣờng sự tƣơng quan giữa tính chất của hệ thống và dãy đồng loạt
các sự kiện xảy ra cùng lúc. Từ các mẫu liên tiếp đƣợc xây dựng các mẫu phù hợp của các hoạt động bình thƣờng, các mẫu xâm nhập trái phép đƣợc bổ sung tạo ra cơ sở dữ liệu học. Cơ sở dữ liệu này cho phép việc học mơ hình xâm nhập hiệu quả hơn nhằm để phát hiện xâm nhập bằng các thuật tốn khai phá dữ liệu khác nhau.
Phân tích và khai phá dữ liệu thu thập kết hợp với luật kết hợp và thuật tốn phân lớp để phát hiện ra các cuộc tấn cơng trên dữ liệu thơ. Luật kết hợp đƣợc sử dụng để thu thập những tri thức cần thiết về bản ghi cĩ thể cải thiện hiệu quả việc phân lớp. Hệ thống này cĩ hai giai đoạn, giai đoạn huấn luyện và giai đoạn phát hiện. Trong cơ sở dữ liệu ở giai đoạn huấn luyện của các tập mẫu thƣờng xuyên đƣợc tạo cho các mẫu tấn cơng miễn phí từ việc sử dụng duy nhất việc tấn cơng miễn phí tập dữ liệu. Điều này phục vụ nhƣ là sơ lƣợc lại mà các mẫu dữ liệu thƣờng xuyên tìm thấy sau đĩ sẽ đƣợc so sánh. Tiếp theo một cửa sổ trƣợt, sử dụng thuật tốn trực tuyến để tìm bộ mẫu thƣờng xuyên trong kết nối D cuối cùng và so sánh chúng với những tập dữ liệu đƣợc lƣu trữ trong cơ sở dữ liệu tấn cơng miễn phí, loại bỏ những dữ liệu đƣợc coi là bình thƣờng. Tại giai đoạn phân lớp là chỉ đƣợc huấn luyện để học mơ hình phát hiện xâm nhập. Tại giai đoạn phát hiện một thuật tốn tự động đƣợc dùng để đƣa ra tập mẫu mà đƣợc xem là đáng ngờ và đƣợc dùng bởi thuật tốn phân lớp đã học để phân lớp các mẫu nhƣ tấn cơng, báo động giả hoặc khơng xác định. Các tấn cơng khơng xác định là những cuộc tấn cơng khơng cĩ khả năng để phát hiện nhƣ báo động giả hoặc biết đƣợc các cuộc tấn cơng. Thử nghiệm phƣơng pháp này chỉ để phát hiện các cuộc tấn cơng bình thƣờng.
Kết chƣơng: Chƣơng I, em đã trình bày một cách tổng quát những vấn đề về
hệ thống phát hiện xâm nhập, nhƣ: Khái niệm; Chức năng và vai trị của IDS; Mơ hình kiến trúc của hệ thống phát hiện xâm nhập; Phân loại các hệ thống IDS; Các kỹ thuật phát hiện xâm nhập của hệ thống IDS; Hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu.