Hệ thống phát hiện xâm nhập (IDS)

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Mô hình cộng tác phát hiện xâm nhập bền vững dựa trên học liên kết và mạng sinh đối kháng (Trang 25 - 29)

NGHIÊN CỨU LIÊN QUAN

2.5. Hệ thống phát hiện xâm nhập (IDS)

2.5.1. Tổng quan vé IDS

Sự lan rộng nhanh chóng của các mang máy tinh đã thay đổi triển vọng về

an ninh mạng. Điều kiện tiếp cận dễ dàng khiến mạng máy tính trở nên dễ bị

ton thương trước nhiều mối đe dọa từ các hacker. Các mối de dọa đối với mang

là rất nhiều và có thể gây thiệt hại nghiêm trọng. Cho đến thời điểm này, các nhà nghiên cứu đã phát triển các IDS có khả năng nhận diện các cuộc tấn công trong một số môi trường có sẵn. Một số phương pháp phát hiện sử dụng cho phát hiện vi phạm và phát hiện bất thường đã được áp dụng. Nhiều công nghệ

được đề xuất là bổ sung cho nhau, vì với các loại môi trường khác nhau, một

15

số phương pháp hoạt động tốt hơn các phương pháp khác [17]. Tuỳ vào vị trí đặt và cách phản hồi của IDS khác nhau mà có các loại IDS khác nhau:

INTRUSION DETECTION SYSTEM

a R

Packets from Router

Firewall

Server Network

CSS intrusion

— cna Detection

_——_— System User Check for Packets

Hình 2.4: Mô hành hệ thong phát hiện va ngăn ngừa xâm nhập

e NIDS: Network Intrusion Detection Systems được đặt ở vị trí mà có thể

quét hết toàn bộ lưu lượng mạng, nhưng việc này có thể làm giảm tốc độ

mạng gây ảnh hưởng đến trải nghiệm người dùng.

e HIDS: Host Intrusion Detection Systems chạy trực tiếp trên máy chủ riêng

và chỉ giám sát các gói dữ liệu vào ra để đưa ra nhận định đây có phải là

lưu lượng mạng độc hại hay không.

e Signature-Based: nhận biết dựa trên chữ kí gần giống với cách hoạt động

của các phần mềm diệt virus. Nhưng cũng bị gặp sai lầm nếu như các chữ

kí này chưa được cập nhật.

e Anomaly-Based: phát hiện tấn công dựa trên các lưu lượng bất thường

trên cơ sở baseline đã định trước.

e Passive: chỉ phát hiện và gửi thông báo đến quản trị viên.

e Reactive: phát hiện và làm một số hành động ngay lập tức để ngăn

chặn lưu lượng độc hại như khoá IP.

16

IDS có thể được tạo ra bởi các cách khác nhau. Theo cách truyền thống, các chuyên gia nghiên cứu sẽ thống kê lại các cuộc tấn công và đưa ra bộ luật để xác định được đâu là tấn công, đâu là bình thường. Nhưng cách này rất khó để

phát hiện những tấn công mới cũng như là khó cập nhật khi có thông tin về các cuộc tấn công mới. Vì vậy, IDS dựa trên học máy ra đời, giúp tạo ra các mô

hình máy học với khả năng liên tục cập nhật các dữ liệu mới để đưa ra dự đoán

chính xác hơn.

2.5.2. Một số thuật toán học máy

Trong lĩnh vực máy học, có nhiều thuật toán được sử dụng để giải quyết các

vấn đề khác nhau. Ở phần này, chúng tôi sẽ trình bày về ba thuật toán máy

học sẽ được 4p dung trong Khóa luận, bao gồm XGBoost (XGB), LightGBM (LGBM) va Logistic Regression (LR), liên quan đến việc phân loại và phát hiện xâm nhập trong hệ thống IDS.

2.5.2.1. XGBoost

XGBoost là một thuật toán Gradient Boosting rất mạnh mẽ va phổ biến

trong việc xây dựng các mô hình dự đoán. Nó kết hợp cả hai thành phần chính của Gradient Boosting: phương pháp tối ưu hóa hàm mat mát và việc thêm

các cây quyết định theo từng bước. XGB sử dung một số kỹ thuật tinh vi để

cải thiện hiệu suất và tốc độ huấn luyện của mô hình, bao gồm việc sử dụng

Regularization để tránh overfitting và tối ưu hóa hàm mat mát thong qua các

phép toán tối ưu hóa hiệu quả.

Phân loại nhị phan (binary classification) với log loss optimization trong

XGBoost (XGB) là một phương pháp phổ biến để xây dựng mô hình dự đoán

và phân loại. Trong bài toán binary classification, mục tiêu là dự đoán xác suất

rơi vào một trong hai lớp: lớp positive và lớp negative.

17

Lứ,p) = ylog(p) + (1 — y) log(1 — p) (2.1)

Dé tinh toán xác suất p, chúng ta sử dung ham sigmoid như sau:

1

p= (2.2)l+e*

L(y,p) là ham mất mát log. là nhãn thực tế của mẫu (0 hoặc 1). p là xác suất dự đoán thuộc vào lớp positive (lớp 1). e là số Euler, là một hằng số xấp

xỉ 2.71828.

2.5.2.2. LightGBM

LightGBM là một thuật toán Gradient Boosting khác, nhưng có điểm mạnh

là tốc độ huấn luyện nhanh hơn so với XGB. Điều này đạt được bằng cách sử

dụng kỹ thuật Gradient-based One-Side Sampling (GOSS) va Exclusive Feature

Bundling (EFB). GOSS chỉ sử dung một phan nhỏ các mẫu có độ quan trong cao trong quá trình huấn luyện, trong khi EFB gom nhóm các đặc trưng tương

đồng về mặt thống kê để giảm số lượng đặc trưng và tăng tốc độ tính toán.

Phân loại nhị phân trong LightGBM bao gồm việc tối ưu hóa một hàm mất

mỏt nhị phõn, mục tiờu là tỡm cỏc giỏ trị tham số ỉ để tối thiểu húa hàm mất

mát, đồng thời điều chỉnh được sự phức tạp của mô hình thông qua thành phần điều chỉnh O(0). Việc tối ưu hóa ham mat mát này giúp đạt được dự đoán chính

xác cho bài toán phân loại nhị phân. Dưới đây là công thức chung mô tả thuật toán của LGBM:

N

L(0) = À 2u: Ữ -log(1 + e~f)) + (1 — yj) - log(1 + crœ9)] +A:0(0) (2.43)

i=1

L(@) đại diện cho ham mat mỏt được tối ưu húa. ỉ dai diện cho cỏc tham số

18

của mô hình. N là số lượng mẫu huấn luyện. x; đại diện cho vector đặc trưng của mẫu thứ ¿. y; đại diện cho biến mục tiêu (0 hoặc 1) của mẫu thứ i. F(x;) đại diện cho đầu ra của mô hình LightGBM cho mẫu thứ i. w; đại điện cho trong

số được gỏn cho mẫu thứ i (tựy chọn, sử dụng cho huấn luyện cú trọng số). ằ đại diện cho tham số điều chỉnh (regularization parameter). â(ỉ) đại diện cho

thành phần điều chỉnh (regularization term) (ví dụ: điều chỉnh LI hoặc L2) để

ngăn chặn overfitting.

2.5.2.8. Logistic Regression

Logistic Regression (LR) là một thuật toán được sử dung chủ yếu cho các bài toán phân loại. LR thực chất là một thuật toán phân loại dựa trên mô hình hồi

quy tuyến tớnh và hàm sigmoid. ẹú được sử dung để dự đoỏn xỏc suất thuộc

vào một lớp nhất định dựa trên các đặc trưng đầu vào.

cbo+bi xD

Y = TT ghi (2.4)

Trong đó, y là xác suất dự đoán thuộc vào lớp positive, z là giá trị đặc trưng,

bọ và bị là các tham số hồi quy được học trong quá trình huấn luyện.

Cả ba thuật toán XGBoost, LightGBM và Logistic Regression đều có ứng dụng trong việc phân loại và phát hiện xâm nhập trong hệ thống IDS. Chúng

có khả năng học từ dữ liệu huấn luyện và tạo ra các mô hình để phân loại các

trường hợp xâm nhập và trường hợp bình thường. Sự lựa chọn giữa các thuật

toán này phụ thuộc vào đặc điểm của dữ liệu và yêu cầu hiệu suất của bài toán

cụ thể.

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Mô hình cộng tác phát hiện xâm nhập bền vững dựa trên học liên kết và mạng sinh đối kháng (Trang 25 - 29)

Tải bản đầy đủ (PDF)

(102 trang)