Mô hình phát hiện bất thƣờng dựa trên kỹ thuật khai phá dữ liệu

Một phần của tài liệu nghiên cứu giải pháp phát hiện xâm nhập mạng máy tính bất thường dựa trên khai phá dữ liệu (Trang 48 - 54)

Hình 2.6: Mô hình hệ thống phát hiện bất thường sử dụng kỹ thuật KPDL

Hệ thống phát hiện bất thƣờng dựa trên KPDL áp dụng kỹ thuật phát hiện phần tử dị biệt để xác định tấn công, nó bao gồm các module chính: module lọc thông tin nhằm hạn chế bớt khối lƣợng thông tin cần phân tích và theo dõi, Module trích xuất thông tin giúp trích xuất các yếu tố quan sát, module phát hiện phần tử dị biệt là module chính xác định các cuộc xâm nhập, module phản ứng (đối với hệ thống IDS) đƣa ra các phản ứng tức thời ngăn chặn, chấm dứt các cuộc xâm nhập, module tổng hợp nhằm rút gọn cảnh báo gửi lên Chuyên gia và xây dựng luật rút gọn để bổ sung tri thức cho hệ thống, module này cũng sử dụng một kỹ thuật khác của KPDL là kỹ thuật tổng hợp (Summarization), ngoài ra hệ thống còn sử dụng một bộ lọc các cuộc tấn công với dấu hiệu đã biết đƣợc rút ra từ môđun tổng hợp.

2.2.2.1. Module lọc thông tin

Dữ liệu cần phân tích của hệ thống đƣợc tổng hợp từ nhiều nguồn khác nhau nhƣ Sensor, thiết bị mạng, các file log, khối lƣợng dữ liệu này là rất lớn nên không thể lƣu trữ hết toàn bộ chúng, mà chúng ta phải sử dụng các kỹ thuật để lọc bớt thông tin, một trong những kỹ thuật hay đƣợc sử dụng nhất là kỹ thuật cửa sổ thời gian, ví dụ nhƣ chỉ lƣu thông tin trong vòng một giờ trở lại. Nói chung, độ dài của cửa sổ thời

gian phụ thuộc vào từng hệ thống mạng và do ngƣời quản trị chọn sao cho phù hợp. Nếu thời gian lƣu thông tin ngắn, hệ thống có thể bỏ sót các cuộc tấn công, nhƣng trong trƣờng hợp thời gian dài có thể sẽ không đảm bảo tốc độ, không áp dụng đƣợc cho trƣờng hợp thời gian thực.

Dữ liệu cần phân tích chủ yếu đƣợc lƣu trên file ở dƣới dạng bản ghi, hệ thống sẽ truy cập các file này để lấy thông tin. Module lọc thông tin sẽ loại bỏ những thông tin thừa, các lƣu lƣợng mạng mà hệ thống biết chắc không có tấn công. Thông thƣờng các thông tin cần thiết cho việc phân tích chỉ chiếm khoảng 20% đến 25% lƣợng tin đƣợc thu thập.

2.2.2.2. Module trích xuất thông tin

Dữ liệu sau khi qua module lọc thông tin sẽ đƣợc tiến hành trích xuất các thành phần cần quan sát, mỗi một thuật toán phát hiện bất thƣờng sẽ có một tập các thông số cần quan sát riêng. Đối với các gói tin mạng, thông tin quan trọng chủ yếu nằm ở phần Header của gói tin. Một số thông tin quan trọng có thể đƣợc sử dụng là:

+ Đối với header của Ethernet các thông tin trích xuất bao gồm: Packet size, Source address, Destination address, Protocol.

+ IP header các thông tin trích xuất bao gồm: Source address, Destination address, Header length, TOS, Packet size, IP Fragment ID, IP Flag & Pointer, TTL, Checksum.

+ TCP header gồm: Source port, Destination port, Sequence & ACK Number, Header length, Window size, Checksum.

+ UDP header gồm: Source port, Destination port, Checksum, Length + ICMP bao gồm: Type & Code, Checksum

2.2.2.3. Module phát hiện phần tử dị biệt

Nhƣ đã trình bày ở trên có rất nhiều thuật toán để phát hiện ra phần tử dị biệt, một hệ thống phát hiện bất thƣờng có thể sử dụng các thuật toán đó nhƣng chỉ nên sử

dụng một thuật toán nhằm đảm bảo quá trình hoạt động của hệ thống mạng không bị ảnh hƣởng.

Dựa trên việc thử nghiệm và đánh giá trên một bộ dữ liệu chuẩn ngƣời ta có thể lựa chọn thuật toán phù hợp với tính chất phân bố trong dữ liệu mạng. Một bộ dữ liệu chuẩn dùng đánh giá hệ thống thƣờng có hai phần chính: dữ liệu dùng cho việc đào tạo và dữ liệu dùng trong việc thử nghiệm.

2.2.2.4. Module phản ứng

Dựa vào tín hiệu cảnh báo từ module phát hiện dị biệt trong trƣờng hợp có hiện tƣợng bất thƣờng, module phản ứng sẽ lập tức đƣa ra các biện pháp nhằm ngăn chặn cuộc tấn công. Nhƣ chúng ta đã biết module phản ứng dựa trên một số kỹ thuật cơ bản : terminate session - gửi gói tin reset thiết lập lại kênh giao tiếp tới cả client và server, drop attack - dùng firewall để hủy bỏ gói tin, phiên làm việc hay luồng thông tin từ hacker đến victim, Modify firewall polices - tự động cấu hình lại một số chính sách bảo mật khi có cuộc tấn công, Real-time Alerting - gửi cảnh báo thời gian thực đến ngƣời quản trị, Log packet: lƣu lại thông tin các gói tin trong các file log.

2.2.2.5. Module tổng hợp

Trong các hệ thống mạng thời gian thực thông thƣờng số lƣợng kết nối đƣợc hình thành là rất lớn, với một khoảng thời gian ngắn vài phút có thể lên đến hàng triệu kết nối nếu chỉ 0,1% số kết nối này đƣợc đánh giá là có dấu hiệu bất thƣờng thì sẽ tƣơng đƣơng với hàng trăm cảnh báo đƣợc gửi đến cho chuyên gia giám sát, để kiểm soát đƣợc hết lƣợng cảnh báo này đối với các chuyên gia là tƣơng đối khó. Vì vậy cần một giải pháp nhằm tổng hợp các kết nối đƣợc đánh dấu là bất thƣờng để rút gọn dữ liệu đầu ra. Hơn thế hệ thống cũng cần có chức năng bổ sung các dạng tấn công đã biết để tạo cơ sở dữ liệu giúp hệ thống nhận biết nhanh hơn các cuộc tấn công trong tƣơng lai. Các module tổng hợp sử dụng một kỹ thuật trong Khai phá dữ liệu đó là kỹ thuật tổng hợp (Summarization). Có nhiều thuật toán đƣợc sử dụng trong kỹ thuật tổng hợp của KPDL nhƣng thông thƣờng một thuật toán tổng hợp dựa trên hai yếu tố là độ nén và tỉ lệ mất tin. Độ nén đại diện cho tính rút gọn của dữ liệu, tỉ lệ mất tin chỉ

sự mất mát thông tin sau khi sử dụng quá trình tổng hợp dữ liệu. Độ nén và tỉ lệ mất tin là tỉ lệ thuận với nhau nếu ta tăng độ nén, tỷ lệ mất tin cũng tăng theo. Vì vậy cần có sự lựa chọn hợp lý giữa hai yếu tố này. Chúng ta có thể sử dụng hàm định lƣợng:

M = k*(độ nén) - (tỉ lệ mất tin)

Với k là hằng số mà ta sẽ lựa chọn, k đƣợc điều chỉnh tùy theo mục địch mà ta mong muốn tỉ lệ nén hay tỉ lệ mất gói tin

Hình 2.7: Môđun tổng hợp

Chúng ta có thể xem xét một ví dụ về tổng hợp luật nhƣ sau. Giả sử ta có một tập các số liệu:

{SrcIP:X.Y.Z.86, StartTime:10:08:20, DestIP:A.B.C.215, DestPort:158} {SrcIP:X.Y.Z.86, StartTime:10:15:04, DestIP:A.B.C.217, DestPort:158} {SrcIP:X.Y.Z.86, StartTime:10:29:08, DestIP:A.B.C.213, DestPort:158} {SrcIP:X.Y.Z.86, StartTime:10:29:20, DestIP:A.B.C.219, DestPort:158} {SrcIP:X.Y.Z.86, StartTime:10:32:29, DestIP:A.B.C.213, DestPort:158} => dựa vào quy tắc tổng hợp luật, rút gọn thành:{SrcIP:X.Y.Z.86,DestPort:158}

Đối với một module tổng hợp đầu vào là các kết nối đƣợc xác định là bất thƣờng từ module phát hiện phần tử dị biệt, đầu ra là các mẫu rút gọn mô tả các cuộc tấn công. Module tổng hợp sử dụng các thuật toán heuristic để lựa chọn cách rút gọn tập cảnh

báo một cách phù hợp. Các thuật toán này bao gồm các bƣớc sau:

+ Xuất phát từ các cảnh báo của module phát hiện phần tử dị biệt, xác định các tần số xuất hiện của các tập yếu tố quan sát.

+ Đƣa ra một danh sách các ứng cử viên rút gọn

+ Sử dụng vét cạn đối với từng trƣờng hợp sử dụng hàm định lƣợng S=k*(độ nén) - ( tỉ lệ mất tin). (adsbygoogle = window.adsbygoogle || []).push({});

+ Xác định ứng cử viên có hàm định lƣợng S lớn nhất. Thực hiện rút gọn theo ứng cử viên này. Loại bỏ các cảnh báo đã nằm trong quá trình rút gọn. Cứ thế tiếp tục với các ứng cử viên khác cho đến khi toàn bộ danh sách đã đƣợc rút gọn.

Ta có thể xem xét danh sách cảnh báo sau:

Bảng 2. 1: Danh sách các cảnh báo chưa rút gọn

Tập các ứng cử viên có thể bao gồm các yếu tố quan sát hoặc bộ yếu tố quan sát có tần số xuất hiện cao nhƣ:

{[srcIP=192.168.22.4],[dstIP=100.10.20.4;pro=tcp;flags=_APRPS_, packets=2,20], [dport=80],[srcIP=192.168.22.4;dstIP=100.10.20.3],[dstIP=100.10.20.4;dport=80]}

Bảng 2.2: Danh sách các cảnh báo sau khi đã rút gọn

Các hệ thống phát hiện bất thƣờng trƣớc đây có một điểm rất hạn chế đó là không có quá trình học phản hồi từ các chuyên gia. Nghĩa là các cảnh báo sai sẽ tiếp tục xuất hiện ở những lần sau. Đối với hệ thống sử dụng KPDL, một khi đã hình thành các cảnh báo rút gọn, Module tổng hợp sẽ chuyển cho các chuyên gia xem xét và quyết định những cảnh báo nào là cảnh báo đúng và thực sự có tấn công, các dữ liệu này sẽ đƣợc cập nhật vào kho dữ liệu của hệ thống giúp cho việc phát hiện các cuộc tấn công lần sau đơn giản hơn.

CHƢƠNG 3: ĐỀ XUẤT TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG.

Một phần của tài liệu nghiên cứu giải pháp phát hiện xâm nhập mạng máy tính bất thường dựa trên khai phá dữ liệu (Trang 48 - 54)