Nghiên cứu muộn hơn

1. ADAM: Một thử nghiệm về việc thực hiện việc ứng dụng khai phá dữ liệu trong hệ thống phát hiện xâm nhập

ADAM là một nghiên cứu quan trọng nhất trong lĩnh vực này trong thời điểm 2001-2002. Rất nhiều nghiên cứu được tiến hành để cải tiến thuật toán này sau đó. ADAM sử dụng kết hợp giữa luật kểt hợp và phân nhóm để phát hiện tấn công trong vết kiểm toán TCP Dump. Đầu tiên, ADAM thu thập các tập dữ liệu bình thường, được biết như là thường xuyên bằng cách khai phá vào trong mô hình này. Thứ hai là cho nó chạy một thuật toán trực tuyến để tìm những kết nối cuối và so sánh chúng với dữ liệu được khai phá đã biết và loại bỏ những dữ liệu được xem là bình thường. Với các hành vi nguy hiểm thì sau đó sử dụng một thành phần phân nhóm đã được huấn luyện trước để phân nhóm các kết nối nguy hiểm như là một loại tấn công đã biết hoắc một cảnh báo sai.

Có hai giai đoạn trong mô hình thực nghiệm này. Trong giai đoạn thứ nhất họ huấn luyện thành phần phân nhóm. Ở giai đoạn này chỉ diễn ra một lần offline trước khi sử dụng hệ thống. Trong giai đoạn thứ hai họ sử dụng thành phần phân nhóm đã được huấn luyện để phát hiện xâm nhập. Chi tiết thuật toán được mô tả ở phần tiếp sau:

Figure 11: The training phase of ADAM ([BCJ+01] page: 5)

Ở bước đầu tiên này, một cơ sở dữ liệu của các tập phần tử thường xuyên thông thường attack-free có một độ hỗ trợ cực tiểu, được tạo. Cơ sở dữ liệu này phục vụ như là một tập hồ sơ, cái mà được so sánh sau khi thu được các tập dữ liệu thường xuyên được tìm thấy. Cơ sở dữ liệu hồ sơ được bố trí với các tập phần tử thường xuyên ở một định dạng cụ thể cho các phần attack-free của dữ liệu. Thuật toán được sử dụng trong bước này có thể là một sự kết hợp các thuật toán khai phá dữ liệu thông thường mặc dù họ sử dụng một thuật toán tuỳ biến cho tốc độ tốt hơn. Vì thế, trong bước đầu tiên này họ sẽ tại một hồ sơ các hành vi bình thường. Hồ sơ này chủ yếu chứa các dữ liệu của kết nối mạng bình thường, điều này có nghĩa là hồ sơ này chứa tập giá trị hoặc sự kết hợp của các giá trị IP nguồn, IP đích, cổng nguồn, cổng đích, thời gian kết nối, tem thời gian, giá trị cờ … bình thường. Ở bước thứ hai một lần nữa họ sử dụng dữ liệu được huấn luyện, hồ sơ những hành vi bình thường và một thuật toán trực tuyến cho luật kết hợp cái mà đầu ra của nó chứa các tập phần tử thường xuyên có thể là các tấn công. Các tập phần tử nguy hiểm cùng với một tập các thuộc tính được trích từ dữ liệu bằng một module chọn thuộc tính được sử dụng như huấn luyện dữ liệu cho thành phần phân nhóm là dựa trên cây quyết định. Bây giờ hãy xem xét giải thuật luật kết hợp trực tuyến động làm việc như thế nào. Thuật toán này được lái bằng một cửa sổ trượt với kích thước có thể điều hướng được. Thuật toán cho ra tập phần tử mà nhận được sự hỗ trợ mạnh với hồ sơ trong thời gian kích thước cửa sổ cụ thể. Chúng so sánh tất cả các tập dữ liệu với cơ sở dữ liệu hồ sơ, nếu có sự kết nối thì dữ liệu đó là bình thường. Mặt khác chúng để lại một bộ đếm cái mà sẽ theo dõi sự hỗ trợ của tập phần tử. Nếu độ hỗ trợ vượt qua một

ngưỡng xác định thì tập phần tử được gán cờ nguy hiểm. Sau khi thành phần phân nhóm gán nhãn cho tập dữ liệu nguy hiểm như là một tấn công đã biết, cảnh báo sai hay tấn công chưa biết.

Giai đoạn 2:

Figure 12: Discovering intrusion with ADAM (Phase 2) ([BCJ+01] page: 6) Trong giai đoạn này thành phần phân lớp đã được huấn luyện và có thể phân loại bất kỳ tấn công nào như là đã biết, chưa biết hay là cảnh báo sai. Ở giai đoạn này cũng sử dụng cungd một thuật toán trực tuyến động để sinh ra các dữ liệu đáng ngờ và cùng với module chọn thuộc tính, hồ sơ, những nghi ngờ này được gửi đến phần tử phân lớp đã được huấn luyện. Thành phần phân lớp sau đó cho đầu ra là kiểu tấn công mà dữ liệu đó phù hợp. Nếu là một cảnh báo sai thì thành phần phân lớp loại bỏ dữ liệu đó ra khỏi danh sách các tấn công và không gửi những dữ liệu này tới nhân viên quản lý hệ thống

Do đó, như một kết luận chúng ta có thể nói rằng phần này đã cho thấy một cách hiệu quả để sử dụng kỹ thuật khai phá tại thời điểm đó. Nhược điểm chính của phương pháp này là họ chỉ sử dụng các luật kết hợp và bởi vì kết quả của thành phần phân lớp của họ sinh ra nhiều luật, trong số đó có nhiều luật bị thừa. Họ không có bất kỳ kỹ thuật để chống lại những luật dư thừa và không liên quan đó. Ví dụ giả sử một luật là (A,B) → C có nghĩa là A và B xảy ra thì C sẽ xảy ra. Phải thừa nhận rằng nếu B xảy ra thì C sẽ xảy ra. Nhưng thuật toán này sẽ tính B → C cũng như một luật khác, có nghĩa là thuật toán này sinh ra các luật mở rộng không cần thiết. Nhưng sau đó, nhiều nghiên cứu được thực hiện theo phương pháp này và nhiều nghiên cứu giới thiệu một loạt các phương pháp (như interestingness) vào trong những xem xét của họ và cải thiện mô hình này.

2. Một Framework về việc xây dựng các thuộc tính và cá mô hình cho hệ thống phát hiện xâm nhập (MADAM ID):

MADAMID là một IDS nổi bật trong lĩnh vực này. Trong chương này mục đích của họ là phát triển một phương pháp có hệ thống và tự động hoá hơn để xây dựng IDS. Họ phát triển một loạt các công cụ cái mà có thể áp dụng để đa dạng hoá nguồn dữ liệu kiểm toán để tạo ra các mô hình phát hiện xâm nhập.

Chủ đề chính của phương pháp MADAMID là để áp dụng chương trình khai phá dữ liệu để mở rộng dữ liệu kiểm toán được thu thập để tính các mô hình mà thu được một cách chính xác các hành vi tự nhiên hoặc các mẫu của các xâm nhập hay các hành động bình thường. Các thành phần chính của khung làm việc MADAMID bao gồm các thành phần học phân lớp và các siêu lớp, luật kết hợp cho mắt xích phân tích và các đoạn thường xuyên cho việc phân tích chuỗi. Quá trình áp dụng MADAMID như sau:

Figure 13: MADAMID workflow ([LS00] page: 231)

Ở bước đầu tiên, dữ liệu kiểm toán thô được thu gom ở dạng nhị phân. Sau đó chúng được xử lý về dạng thông tin gói mạng ASCII. Ví dụ, ban đầu chúng là các byte ở dạng 0 và 1. Sau đó chúng ta chuyển những giá trị đó về dạng ASCII, để chúng ta có thể dễ dàng hiểu được. Giả sử rằng số 16 bit nhị phân đầu tiên cho ta biết cổng nguồn, do đó chúng ta chuyển 16 bit nhị phân này về dạng hex hay thập phân để chúng ta có thể hiểu được cổng nguồn. Sau khi giải mã tất cả các thông tin đầu đề của gói tin chúng ta khái quát hoá chúng vào các bản ghi kết nối chứa một số các đặc điểm cơ bản như dịch vụ, thời gian kết nối… Các chương trình khai phá dữ liệu khác nhau như luật kết hợp, luật đoạn thường xuyên sau đó được áp dụng vào trong những bản ghi kết nối đó và như một đầu ra họ có được một số các đặc điểm ban đầu và sau đó những đặc điểm này được sử dụng như là các luật trong mô hình. Ví dụ, giả sử trong các bản ghi kết nối chúng ta có được IP nguồn như nhau từ nhiều gói tin cố gắng truy cập vào nhiều IP đích nhưng với cùng một cổng. Trong các bản ghi sự kiện hay các gói tin cho tất cả các thông tin này là rời rạc và chúng được nhóm lại trên cơ sở một của sổ thời gian xác định (trong thực nghiệm của họ là 5 phút) vào các bản ghi bước kết nối/ phiên. Sau khi áp dụng các luật khai phá dữ liệu (kết hợp/ đoạn thường xuyên/ phân nhóm) vào trong các bản ghi này chúng ta đi đếm việc biết được một đặc điểm cái mà nếu điều kiện ở trên xảy ra ngay khi đó, điều này có thể là một điều bất thường hoặc một tấn công và chúng ta thu được một luật miêu tả tình huống này từ giai đoạn này. Cuối cùng luật này được áp dụng vào trong mô hình. Bởi vì tất cả các phương thức khai phá dữ liệu này (luật kết hợp,

luật phân đoạn thường xuyên, luật phân nhóm) được mô tả trong ví dụ ở phần 2.2.1 và cấu trúc đực điểm được mô tả trong 2.1.2, chúng không được thảo luận thêm.

MADAM ID gần đây đựa ra các mô hình phát hiện lạm dụng cho hệ thống mạng và host được biết như là các mô hình phát hiện bất thường cho người dung. Ưu điểm chính trong nghiên cứu của họ là họ tập chung xử lý một cách hiệu quả và tự động hoá cho các cấu trúc đặc điểm. Hạn chế của họ là hệ thống của họ hiện đang là hệ thống off-line và họ đang nghiên cứu là thế nào để chuyển đổi nó vào IDS thời gian thực bởi vì hệ thống phát hiện xâm nhập nên là hệ thống thời gian thực để tối thiểu hoá tổn hại an ninh. Một yếu điểm khác trong mô hình này đó là nó chỉ tính các mẫu thường xuyên của các bản ghi kết nối. Nhưng nhiều xâm nhập giống như những cái mà gắn vào tất cả các hoạt động với một kết nối đơn không có các mẫu thường xuyên trong dữ liệu kết nối. Những kiểu xâm nhập này có thể dẫn đến khả năng không phát hiện trong mô hình của họ.

Phương pháp khai phá dữ liệu

Các kiểu cây quyết định