NGHIÊN CỨU LIÊN QUAN
2.5. Hệ thống phát hiện xâm nhập (IDS)
2.5.1. Tổng quan vé IDS
Sự lan rộng nhanh chóng của các mang máy tinh đã thay đổi triển vọng về
an ninh mạng. Điều kiện tiếp cận dễ dàng khiến mạng máy tính trở nên dễ bị
ton thương trước nhiều mối đe dọa từ các hacker. Các mối de dọa đối với mang
là rất nhiều và có thể gây thiệt hại nghiêm trọng. Cho đến thời điểm này, các nhà nghiên cứu đã phát triển các IDS có khả năng nhận diện các cuộc tấn công trong một số môi trường có sẵn. Một số phương pháp phát hiện sử dụng cho phát hiện vi phạm và phát hiện bất thường đã được áp dụng. Nhiều công nghệ
được đề xuất là bổ sung cho nhau, vì với các loại môi trường khác nhau, một
15
số phương pháp hoạt động tốt hơn các phương pháp khác [17]. Tuỳ vào vị trí đặt và cách phản hồi của IDS khác nhau mà có các loại IDS khác nhau:
INTRUSION DETECTION SYSTEM
a R
Packets from Router
Firewall
Server Network
CSS intrusion
— cna Detection
_——_— System User Check for Packets
Hình 2.4: Mô hành hệ thong phát hiện va ngăn ngừa xâm nhập
e NIDS: Network Intrusion Detection Systems được đặt ở vị trí mà có thể
quét hết toàn bộ lưu lượng mạng, nhưng việc này có thể làm giảm tốc độ
mạng gây ảnh hưởng đến trải nghiệm người dùng.
e HIDS: Host Intrusion Detection Systems chạy trực tiếp trên máy chủ riêng
và chỉ giám sát các gói dữ liệu vào ra để đưa ra nhận định đây có phải là
lưu lượng mạng độc hại hay không.
e Signature-Based: nhận biết dựa trên chữ kí gần giống với cách hoạt động
của các phần mềm diệt virus. Nhưng cũng bị gặp sai lầm nếu như các chữ
kí này chưa được cập nhật.
e Anomaly-Based: phát hiện tấn công dựa trên các lưu lượng bất thường
trên cơ sở baseline đã định trước.
e Passive: chỉ phát hiện và gửi thông báo đến quản trị viên.
e Reactive: phát hiện và làm một số hành động ngay lập tức để ngăn
chặn lưu lượng độc hại như khoá IP.
16
IDS có thể được tạo ra bởi các cách khác nhau. Theo cách truyền thống, các chuyên gia nghiên cứu sẽ thống kê lại các cuộc tấn công và đưa ra bộ luật để xác định được đâu là tấn công, đâu là bình thường. Nhưng cách này rất khó để
phát hiện những tấn công mới cũng như là khó cập nhật khi có thông tin về các cuộc tấn công mới. Vì vậy, IDS dựa trên học máy ra đời, giúp tạo ra các mô
hình máy học với khả năng liên tục cập nhật các dữ liệu mới để đưa ra dự đoán
chính xác hơn.
2.5.2. Một số thuật toán học máy
Trong lĩnh vực máy học, có nhiều thuật toán được sử dụng để giải quyết các
vấn đề khác nhau. Ở phần này, chúng tôi sẽ trình bày về ba thuật toán máy
học sẽ được 4p dung trong Khóa luận, bao gồm XGBoost (XGB), LightGBM (LGBM) va Logistic Regression (LR), liên quan đến việc phân loại và phát hiện xâm nhập trong hệ thống IDS.
2.5.2.1. XGBoost
XGBoost là một thuật toán Gradient Boosting rất mạnh mẽ va phổ biến
trong việc xây dựng các mô hình dự đoán. Nó kết hợp cả hai thành phần chính của Gradient Boosting: phương pháp tối ưu hóa hàm mat mát và việc thêm
các cây quyết định theo từng bước. XGB sử dung một số kỹ thuật tinh vi để
cải thiện hiệu suất và tốc độ huấn luyện của mô hình, bao gồm việc sử dụng
Regularization để tránh overfitting và tối ưu hóa hàm mat mát thong qua các
phép toán tối ưu hóa hiệu quả.
Phân loại nhị phan (binary classification) với log loss optimization trong
XGBoost (XGB) là một phương pháp phổ biến để xây dựng mô hình dự đoán
và phân loại. Trong bài toán binary classification, mục tiêu là dự đoán xác suất
rơi vào một trong hai lớp: lớp positive và lớp negative.
17
Lứ,p) = ylog(p) + (1 — y) log(1 — p) (2.1)
Dé tinh toán xác suất p, chúng ta sử dung ham sigmoid như sau:
1
p= (2.2)l+e*
L(y,p) là ham mất mát log. là nhãn thực tế của mẫu (0 hoặc 1). p là xác suất dự đoán thuộc vào lớp positive (lớp 1). e là số Euler, là một hằng số xấp
xỉ 2.71828.
2.5.2.2. LightGBM
LightGBM là một thuật toán Gradient Boosting khác, nhưng có điểm mạnh
là tốc độ huấn luyện nhanh hơn so với XGB. Điều này đạt được bằng cách sử
dụng kỹ thuật Gradient-based One-Side Sampling (GOSS) va Exclusive Feature
Bundling (EFB). GOSS chỉ sử dung một phan nhỏ các mẫu có độ quan trong cao trong quá trình huấn luyện, trong khi EFB gom nhóm các đặc trưng tương
đồng về mặt thống kê để giảm số lượng đặc trưng và tăng tốc độ tính toán.
Phân loại nhị phân trong LightGBM bao gồm việc tối ưu hóa một hàm mất
mỏt nhị phõn, mục tiờu là tỡm cỏc giỏ trị tham số ỉ để tối thiểu húa hàm mất
mát, đồng thời điều chỉnh được sự phức tạp của mô hình thông qua thành phần điều chỉnh O(0). Việc tối ưu hóa ham mat mát này giúp đạt được dự đoán chính
xác cho bài toán phân loại nhị phân. Dưới đây là công thức chung mô tả thuật toán của LGBM:
N
L(0) = À 2u: Ữ -log(1 + e~f)) + (1 — yj) - log(1 + crœ9)] +A:0(0) (2.43)
i=1
L(@) đại diện cho ham mat mỏt được tối ưu húa. ỉ dai diện cho cỏc tham số
18
của mô hình. N là số lượng mẫu huấn luyện. x; đại diện cho vector đặc trưng của mẫu thứ ¿. y; đại diện cho biến mục tiêu (0 hoặc 1) của mẫu thứ i. F(x;) đại diện cho đầu ra của mô hình LightGBM cho mẫu thứ i. w; đại điện cho trong
số được gỏn cho mẫu thứ i (tựy chọn, sử dụng cho huấn luyện cú trọng số). ằ đại diện cho tham số điều chỉnh (regularization parameter). â(ỉ) đại diện cho
thành phần điều chỉnh (regularization term) (ví dụ: điều chỉnh LI hoặc L2) để
ngăn chặn overfitting.
2.5.2.8. Logistic Regression
Logistic Regression (LR) là một thuật toán được sử dung chủ yếu cho các bài toán phân loại. LR thực chất là một thuật toán phân loại dựa trên mô hình hồi
quy tuyến tớnh và hàm sigmoid. ẹú được sử dung để dự đoỏn xỏc suất thuộc
vào một lớp nhất định dựa trên các đặc trưng đầu vào.
cbo+bi xD
Y = TT ghi (2.4)
Trong đó, y là xác suất dự đoán thuộc vào lớp positive, z là giá trị đặc trưng,
bọ và bị là các tham số hồi quy được học trong quá trình huấn luyện.
Cả ba thuật toán XGBoost, LightGBM và Logistic Regression đều có ứng dụng trong việc phân loại và phát hiện xâm nhập trong hệ thống IDS. Chúng
có khả năng học từ dữ liệu huấn luyện và tạo ra các mô hình để phân loại các
trường hợp xâm nhập và trường hợp bình thường. Sự lựa chọn giữa các thuật
toán này phụ thuộc vào đặc điểm của dữ liệu và yêu cầu hiệu suất của bài toán
cụ thể.