Nghiên cứu sớm nhất

1. Phát triển lọc phát hiện xâm nhập tuỳ chỉnh sử dụng khai phá dữ liệu:

Các hệ thống phát hiện xâm nhập điển hình nối kết các dấu hiệu của lưu thông đi vào với các dấu hiệu xác thực và do đó phát hiện xâm nhập, cái mà cơ bản là hệ thống phát hiện lạm dụng. Nhưng những dấu hiệu của các xâm nhập cũng có thể gắn liền với việc xác thực người dung, kết quả là cảnh báo lỗi. Phương pháp tiếp cận phát triển trong mô hình này là để phát triển các bộ lọc tuỳ chỉnh có thể giảm các cảnh báo sai dựa trên các hành vi bình thường đã được nhận biết trong một môi trường cụ thể. Nhiều các hành vi bình thường được xem như là các tấn công bởi các cảnh báo sai. Mối quan tâm chính ở đây là liệu chúng ta có thể nhận biết các mẫu bình thường và nhận dạng chúng trong một dòng cảnh báo sau đó chúng ta dễ dàng lọc chúng ra và giảm đáng kể tỷ lệ các cảnh báo sai. Khó khăn đối với phương pháp tiếp cận này là việc xây dựng những bộ lọc và định nghĩa những mẫu bình thường. Điều đó cũng cần một nỗ lực đáng kể của con người. Để giảm sức lực này Clifton và Gengo đã sử dụng kỹ thuật khai phá dữ liệu trong phương pháp của họ.

Clifton và Gengo phát triển các bộ lọc dựa trên chuỗi các cảnh báo. Ý tưởng đó là một chuỗi các hành động được xem là bình thường trong một môi trường không giống như là hành vi bình thường trong môi trường khác. Vì thế một hành động bình thường có thể nguy hại trong môi trường khác và hành động đó sẽ được gán cờ là một hành động bình thường trong môi trường đó. Nhưng trong thực tế hành động đó không phải là một điều bất thường hay đúng hơn nó là một hành động vô hại. Sự hiểu sai này có thể dẫn đến một cảnh báo sai. Nhưng nó không giống như một chuỗi đầy đủ các hành động bình thường sẽ được sao lại trong một xâm nhập. Vì thế các cảnh báo là một phần của một chuỗi bình thường hoàn chỉnh có thể bị bỏ qua. Họ sử dụng “Frequent Episodes” để nhận dạng các chuỗi thường xảy ra của các cảnh báo. Một

episode là một chuỗi các cảnh báo xảy ra trong một khoảng thời gian window cụ thể. Và một frequent episode là một chuỗi xuất hiện nhiều lần trong nhiều khoảng thời gian window. Đôi khi có thể có các hành động xem vào giữa cácfrequent episode mà không liên quan. Thật khó để phát hiện các frequent episode trước sự có mặt của các hành động không liên quan và kỹ thuật khai phá dữ liệu tỏ ra có hiệu quả ở điểm này để phát hiện các chuỗi thường xuyên nhất một cách hiệu quả và tự động hoá.

Figure 8: Ví dụ về các chuỗi thường xuyên có hành động xen vào hoặc nhiễu Mục đích chính trong báo cáo này là nhận dạng các chuỗi các cảnh báo được gây ra bởi các hành động bình thường. Các đoạn thường xuyên là các chuỗi cảnh báo thường xảy ra. Những đoạn thường xuyên này là rất quan trọng bởi vì hai điểm sau:

• Một chuỗi phổ biến của các cảnh báo không thể là một xâm nhập. Bởi vì những kẻ tấn công sẽ không thử cùng một thứ lặp đi lặp lại nếu không chúng bị phát hiện. Các hành động bình thường được thực hiện thường xuyên hơn và một đoạn thường xuyên là kết quả của một hành vi bình thường.

• Việc phân tích các chuỗi thường xuyên và tối thiểu chúng từ danh sách các tấn công có thể sẽ giảm thiểu tối đa nhất trong dòng các cảnh báo lỗi bởi vì luôn có nhiều hành động bình thường hơn cá hành động nguy hiểm.

Trong thực nghiệm của họ, họ phân tích trên một triệu các cảnh báo xâm nhập thu được từ 7 cảm biến trong một mạng. Khoảng thời gian thực nghiệm của họ là hai tuần. Họ tải các file log vào trong một cơ sở dữ liệu quan hệ. Sơ đồ cơ bản của log này giống như Log(Event, FromIP, ToIP, time). Sau khi họ sử

dụng một thuật toán được gọi là “Query Flocks”, dựa trên một thuật toán khai phá luật kết hợp mở rộng để phát hiện các chuỗi thường xuyên. Thuật toán Query Flocks đem lại sự linh hoạt trong việc quản lý cac mẫu phức tạp hơn thuật toán các Frequent Episode.

Tiêu điểm chính của họ là làm gia tăng công nghệ khai phá vào một hệ thống phát hiện xâm nhập đã tồn tại. Họ không đưa ra bất kỳ một thuật toán mơi nào nhưng họ đề xuất một mô hình sử dụng thuật toán :frequent episode rule” đã biết. Mô hình được họ đưa ra như sau:

Figure 9: Developing custom filters with data mining ([CG00] page: 2)

Trong mô hình này họ sử dụng một hệ thống phát hiện xâm nhập mạng thương mại đã có (họ không đề cập một hệ thống cụ thể nào mà quan tâm đến hệ thống phát hiện sự lạm dụng đã có sẽ làm việc như thế nào) cái mà thu thập dữ liệu bản ghi các kết nối từ các cảm biến và thực hiện các hành động cơ bản và như một hệ thống đầu ra sinh ra các cảnh báo. Trước đó khai phá dữ liệu chưa hề đi vào hoạt động trong hệ thống phát hiện xâm nhập và tất cả hệ thống là hệ thống phát hiện sự lạm dụng dựa trên phát hiện các dấu hiệu. Vì thế nó cố gắng kết nối với những dấu hiệu bình thường, nếu không tìm thấy thì nó sẽ được gán cờ như là một cảnh báo. Và như thế sẽ dẫn đến kết quả có rất nhiều các cảnh báo sai. Sau đó họ cho các cảnh báo này đi qua các bộ lọc tuỳ chỉnh. Trong bộ lọc này sử dụng các luật frequent episode họ cố tìm ra một phần đầy đủ của một chuỗi bình thường. Sau đó các cảnh báo được phát ra cho các mẫu thường xuyên đó bị bỏ qua và chỉ có phần các cảnh báo xâm nhập còn lại được đựa qua công cụ khai phá dữ liệu (dựa trên thuật toán Query Flocks, là sự mở rộng thuật toán khai phá luật kết hợp), nơi mà nó có thể sử dụng kỹ thuật khai phá dữ liệu bất kỳ nào đó để tìm kiếm các mẫu xâm nhậphoặc nói một cách khác sau đó toàn bộ hệ thống cũng có thể thực hiện việc phát hiện bất thường.

Trong nghiên cứu này, cơ bản họ không phát triển một mô hình mới. Trọng tâm chính của họ là lọc các cảnh báo sai sử dụng thuật toán được thực thi

trước (Frequent Episodes và Query Flocks). Họ chủ yếu chỉ tra rằng những thuật toán nàu có thể được sử dụng để giảm các cảnh báo sai.

Ưu điểm chính trong hướng tiếp cận của họ là định nghĩa của họ về việc sử dụng các bô lọc có thể được thực thi dễ dàng trong bất kỳ hệ thống phát hiện xâm nhập nào đã có. Họ cũng giữ công cụ khai phá dữ liệu riêng biệt, cái mà có thể được chèn vào bất kỳ hệ thống phát hiện xâm nhập nào có sẵn. Hơn nữa công cụ khai phá dữ liệu không phải quản lý quá nhiều dầu vào.

Yếu điểm chính trong mô hình của họ là họ sử dụng hệ thống phát hiện lạm dụng và các công cụ khai phá dữ liệu độc lập nhau ở hai nơi nhưng hiện nay có hệ thống phát hiện xâm nhập dựa trên những bất thường như ADAM cái mà có thể thực thi đồng thời hai việc cùng một lúc.

Phương pháp khai phá dữ liệu

Các kiểu cây quyết định