CHƯƠNG 1 TỔNG QUAN VỀ HỆ THỐNG IPS
2.1 Tổng quan về phương pháp phát hiện bất thường
2.1.3.2 Mạng Nơ-ro n( Artificial Neural Network)
Như chúng ta đã biết ở trên, một trong những phương pháp phổ biến dùng để phát hiện bất thường là hệ chuyên gia, tuy nhiên phương pháp này có nhược điểm là phụ thuộc khá nhiều vào tập luật được định nghĩa trước bởi người quản trị và phải được cập nhật thường xuyên. Nhược điểm này có thể được khắc phục bằng cách áp dụng công nghệ mạng nơ-ron. Hệ thống phân tích bất thường sử dụng mạng nơron tập trung vào việc phát hiện các thay đổi trong hành vi của chương trình, theo đó mạng nơron sẽ học và dự đoán hành vi của người sử dụng và các chương trình ứng dụng. Ưu điểm của mạng nơron là thích ứng được với các kiểu dữ liệu không đầy đủ, dữ liệu với độ chắc chắn không cao và không cần cập nhật tri thức thường xuyên do nó có quá trình tự học, điểm yếu của mạng nơron là tốc độ xử lý, trong quá trình tự thu thập dữ liệu, phân tích và điểu chỉnh các nơron. Chúng ta sẽ đi vào chi tiết hơn.
Mạng nơ-ron nhân tạo hay thường gọi ngắn gọn là mạng nơ-ron là một mơ hình tính tốn được xây dựng dựa trên các mạng nơ-ron sinh học. Nó gồm có một nhóm các nơ-ron nhân tạo (nút) nối với nhau, và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút. Trong nhiều trường hợp, mạng nơ-ron nhân tạo là một hệ thống thích ứng (adaptive system) tự thay đổi cấu trúc của mình dựa trên các thơng tin bên ngồi hay bên trong chảy qua mạng trong quá trình học.
Hình 2.2 Mơ hình mạng nơron
Một mạng nơron bao gồm các nút input, nút output và các nút trong các lớp ẩn ( hidden layer). Cấu trúc mạng nơ-ron được chia thành 2 loại:
Loại thứ nhất sử dụng các thuật toán đào tạo được giám sát (Supervised training algorithms), ở giai đoạn tự học, hệ thống sẽ nghiên cứu một đầu ra mong muốn cho mỗi đầu vào đã được định sẵn. Cấu trúc phổ biến của mạng nơ ron giám sát là kiến trúc nhận thức đa tầng MLP (Multi-layered Perceptron). MLP là mạng chuyển tiếp đa tầng ( feed-forward) bao gồm lớp đầu vào, một hoặc một vài lớp ẩn và lớp đầu ra. Lớp đầu ra cung cấp phản hồi của hệ thống đến các mẫu hoạt động áp dụng trong lớp đầu vào. Nghiên cứu hiện tại của MLP mới nhằm giải quyết mẫu bài toán phát hiện 3 lớp, nghĩa là tập trung xác định hệ thống là bình thường hoặc bị tấn cơng dạng neptune ( tấn công từ chối dịch vụ - SYN) và tấn công dạng Satan( tấn cơng bằng cách dị qt tự động mạng hoặc máy tính để tìm lỗ hổng xâm nhập), nó có thể mở rộng cho các trường hợp có nhiều dạng tấn cơng. Mục đích của MLP là chuyển giao những mẫu đầu vào cho một trong những nhóm mà chúng được đại diện xét theo khía cạnh các đầu ra ( bình thường, neptune hoặc satan ) của mạng nơ ron sao cho chúng thể hiện đặc tính của một thành viên lớp. Sự thể hiện mang tính biểu trưng này được dùng theo cách sau: số 1 ở cột biểu thị sự xuất hiện/ tồn tại dấu hiệu tương ứng của cột đó, cịn số 0 biểu thị sự khơng tồn tại. Vì vậy chúng ta có 3 trường hợp có thể nhận biết được kết quả ở đầu ra, đó là: [1 0 0] - tình trạng bình thường,[ 0 1 0] cho tấn cơng dạng Neptune và [ 0 0 1] nếu gặp tấn công dạng satan.
Loại thứ hai sử dụng các thuật toán đào tạo không qua giám sát (Unsupervised training algorithms): ở giai đoạn tự học, hệ thống sẽ nghiên cứu mà không xác định đầu ra mong muốn. Các bản đồ tổ chức độc lập (SOM - Self-Organizing Maps) là một dạng tiêu biểu của loại này. Trong hệ thống phát hiện bất thường sử dụng SOM, người ta tập trung vào việc phân lớp các hành vi từ đó phát hiện ra các hành vi nghi vấn. Tiến trình xử lý của hệ thống diễn ra như sau: các dữ liệu về mạng được thể hiện dưới dạng vectơ tham số đặc trưng, sau đó được lưu trong một Input vectơ để tiến hành phân lớp, việc phân lớp sẽ lặp đi lặp lại cho đến khi hội tụ, khi đã xây dựng nên được các SOM, hệ thống sẽ tiến hành xác định khoảng cách giữa hành vi đang xét với hành vi bình thường, nếu nó vượt q ngưỡng cho phép thì có bất thường xảy ra ở đây. Ví dụ xét nguồn dữ liệu mạng được xét lấy từ các tệp logs ghi lại hành vi của người dùng:
Thời gian họat động của người dùng ( User activity times): Thời gian một người dùng hoạt động bình thường.
Các host người dùng đăng nhập ( User login hosts): Các host mà một người dùng đăng nhập bình thường.
Các host người dùng bên ngoài ( User foreign hosts): Các host mà người dùng truy bình thường nhập thơng qua lệnh hệ thống như các host FTP.
Các tập lệnh (Command set): các lệnh mà người dùng bình thường sử dụng . Sử dụng CPU ( CPU usage): Mức độ sử dụng CPU thông thường của một người
dùng.
Sử dụng bộ nhớ ( Memory Usage): Mức độ sử dụng bộ nhớ thông thường của một người dùng.
Hình 2.3 Cấu trúc một hệ thống phát hiện bất thường sử dụng SOM
Hình 2.3 mơ tả một kiến trúc hồnh chỉnh cho một hệ thống phát hiện bất thường sử dụng SOM. Bộ phận phối hợp xử lý ( coordianting process) chịu trách nhiệm cho các kênh thơng tin của mạng nơron. Mỗi một tính chất hành vi (Thời gian hoạt động của người dùng, các host đăng nhập … ) được mơ hình hóa bởi một mạng SOM cũng như được kiểm tra bởi các quy tắc lọc cố định để phát hiện các lỗ hổng bảo mật đơn giản. Dữ liệu thu được từ hệ thống logs được lọc tiếp thông qua bộ phận tiền xử lý đầu
vào ( data preprocessing ) chỉ chọn những dữ liệu cần thiết. Như chúng ta đã biết đầu vào của mạng nơron là dữ liệu dạng vector bao gồm 6 thuộc tính đặc trưng cho thời gian hoạt động, các host người dùng đăng nhập, các host người dùng bên ngoài, các tập lệnh, việc sử dụng CPU, việc sử dụng bộ nhớ. Theo đó một số lượng lớn các biến của dữ liệu này cần được chuẩn hóa để mỗi vectơ đầu vào có giá trị trong khoảng [- 1,1]. Khoảng xác định này được lấy từ các hệ thống phát hiện bất thường bằng mạng nơron khác trước đây. Người ta sử dụng công thức trong hình 2.4 để chuẩn hóa dữ liệu:
Hình 2.4 Cơng thức chuẩn hóa dữ liệu đầu vào
Trong đó nv[i] là dữ liệu đã được chuẩn hóa của đặc điểm i, v[i] là giá trị của đặc điểm i, K là số đặc điểm có trong vectơ dữ liệu đầu vào. Nếu giá trị lấy từ người dùng vượt quá giá trị ngưỡng đặc biệt thu được thông qua mạng SOM chứng tỏ hành vi đó là khơng bình thường. Nếu dữ liệu đầu ra nằm trên giá trị ngưỡng đặc biệt hành vi đó cũng là bất thường.