CƠ SỞ LÝ THUYET
HINH 2.5: Sơ đồ phân loại các hệ thống IDS dựa trên phương pháp
2.6 Tình hình nghiên cứu và các công trình liên quan
Mỗi cuộc tân công mới liên tiếp nhau xuất hiện trong một khoảng thời gian ngắn với độ đa dạng, tinh vi, phức tạp và nguy hiểm gia tăng là mối đe doa lớn đối với
ha tang mạng máy tính, công nghệ thông tin, có thể gây ra những thiệt hại nang
nề mà khó bị kiểm soát một cách nhanh chóng, triệt để. Với sự phát triển đó, hệ thống phát hiện xâm nhập mà đặc biệt là hệ thống phát hiện xâm nhập mạng (NIDS) trở trành một công cu thiết yêu để phát hiện, phân loại các cuộc tan cong mang và hệ thống máy tinh. Phương thức hoạt động của NIDS sẽ tiến hành phân loại các lưu lượng mạng thu được trong toàn hệ thống mạng và đưa ra cảnh báo những lưu lượng mạng không an toàn, hoặc lưu lượng tan công, độc hại.
Với các bài toán phân loại, sự xuất hiện và áp dụng các thuật toán học máy đã được triển khai rộng rãi trong thực tế trên nhiều lĩnh vực khác nhau mà phổ biến là phân loại ảnh. Trong đó hướng tiếp cận của các hệ thống IDS, NIDS dựa trên các mô hình hoc máy truyền thống cũng đạt được kết quả tốt, với nhiều
thuật toán học máy khác nhau như K-Nearest Neighbor, Support Vector Machine,
Decision Tree [15] đã được dùng để phân loại dữ liệu. Bên cạnh đó, với sự phát
21
Chương 2. CƠSỞ LÝ THUYẾT
triển nhanhh chóng của học sâu, một số thuật toán như Mạng thần kinh tích chập (CNN),Mạng thần kinh hôi quy (RNN) cải thiện độ chính xác hơn so với mô hình học máy truyền thống [1], [6].
Mặc dù có các kết quả tốt, nhưng các bài toán phân loại, phát hiện xâm nhập của các hệ thống IDS học máy (ML-IDS) bỏ qua van dé thiếu hut dữ liệu, giả định luôn có day đủ dữ liệu để huấn luyện và đánh giá mô hình trong khi các hệ thống IDS cần nhận diện được các cuộc tan công mới với gần như ít dữ liệu liên quan. Vấn đề xảy ra khi mô hình IDS được huấn luyện trên một tập dữ liệu có thể khác biệt về đặc điểm với tập dữ liệu thực tế mà nó phải đối mặt, dẫn đến sự suy giảm hiệu suất của mô hình khi áp dụng vào các môi trường mới, phát hiện cuộc tan
công mới.
Có các phương pháp nhằm giải quyết van dé thiéu hụt dữ liệu như data augmen- tation (tăng cường dữ liệu) tạo thêm các mẫu dữ liệu giả trong tập dữ liệu nguồn
để tăng cường đa dạng và tương đồng với tập dữ liệu đích. Điều này giúp mô hình IDS học được các đặc trưng quan trọng của tập dữ liệu đích. Một số kỹ thuật data
augmentation như SMOTE (Synthetic Minority Over-sampling Technique) hoặc
ADASYN (Adaptive Synthetic Sampling) đã được áp dung trong thích ung miền cho IDS. Phương pháp transfer learning (học chuyển tiếp) tập trung vào việc chia
sẻ và tái sử dụng kiến thức đã học từ mô hình nguồn để cải thiện hiệu suất trên
mô hình đích. Có nhiều nghiên cứu tìm cách áp dụng transfer learning vào IDS, bao gồm việc sử dụng các thuật toán transfer learning như Domain Adversarial
Neural Networks (DANN) hoặc Joint Distribution Adaptation DA). GAN cũng
đã được áp dung trong nhiều lĩnh vực, bao gồm thích ứng miễn cho IDS. Phuong pháp này có gắng tạo ra dữ liệu giả mô phỏng tập dữ liệu đích từ tập dữ liệu nguồn. Một số mô hình GANs đã được dé xuất như Domain-Adversarial Train-
ing of Neural Networks hoặc Adversarial Feature Adaptation (AFA).
Các nghiên cứu của Tzeng et al.[16] và Ganin et al.[2] da dé xuất ra các bộ khung
sử dung kỹ thuật thích ứng miễn đối kháng (adversarial domain adaptation) dựa
trên GAN và ứng dụng trên lĩnh vực phân loại ảnh, tuy nhiên các bộ khung này thích hợp cho các bài toán phân cụm và học không giám sát cũng như chưa được
đánh giá trong các bộ dữ liệu tắn công mạng. Nghiên cứu của tác giả Wengang [8] đã đề xuất phương pháp FIADDA (Few-shot adversarial omain adaptation)
Chương 2. CƠSỞ LÝ THUYẾT
với chiến
nhập tron
lược ghép miễn đôi (dual domain pairing) cho hệ thống phát hiện xâm
g mạng IoT chỉ với một vai mẫu dữ liệu trong miễn đích.
Nhóm chúng tôi dựa trên hai nghiên cứu chính của tác giả Singla et al. [13] và Chen et a .[1]. Nghiên cứu của tác giả Singla et al. [13] đã nghiên cứu ứng dụng
GAN để tạo ra các mẫu dữ liệu đối kháng, bat biến theo miền nhằm vượt qua
được sự t
liệu được
hiếu hụt dữ liệu. Tuy nhiên vấn dé tôn tại trong việc tạo ra mẫu dữ Chen et al.[1] đề cập khi toàn bộ thông tin mà mẫu dữ liệu khi đưa vào huấn luyện không được diễn đạt toàn bộ trong mạng nơ-ron ở một góc nhìn, cũng phải mang quá nhiều thông tin để cùng biểu diễn về nhãn tắn công, và miền dữ
liệu làm c ho hiệu năng mô hình giảm. Trong khóa luận này, chúng tôi tìm hiểu phương pháp mà tác giả Singla nghiên cứu, đồng thời áp dụng phương pháp được Chen đề xuất vào bài toán phát hiện xâm nhập mạng.
23
Chương 3