Phát hiện xâm nhập dựa trên mạng LSTM và AutoEncoder

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	660 KB

Nội dung

Bài viết Phát hiện xâm nhập dựa trên mạng LSTM và AutoEncoder đề xuất một phương pháp DL cho phát hiện tấn công mạng sử dụng mạng bộ nhớ dài hạn (Long-Short Term MemoryLSTM) và bộ mã hóa tự động (AutoEncoder-AE).

PHÁT HIỆN XÂM NHẬP DỰA TRÊN MẠNG LSTM VÀ AUTOENCODER Phan Thanh Sơn, Mai Thị Hoàng Yến, Trần Ngọc Nam, Lê Trần Văn Chương Khoa Công nghệ Thông tin, Trường Đại học Cơng Nghệ TP Hồ Chí Minh (HUTECH) GVHD: TS Văn Thiên Hồng TĨM TẮT Ngày nay, với phát triển nhanh chóng ứng dụng hoạt động mơi trường mạng, hệ thống phát xâm nhập (Network Intrusion Detection System- IDS) đóng vai trị quan trọng việc giảm thiểu mối đe dọa cho hệ thống thông tin Mặt khác, công nghệ máy học (Machine Learning-ML) học sâu (Deep LearningDL) ngày áp dụng rộng rãi chứng minh hiệu lĩnh vực an ninh mạng, đặc biệt hệ thống phát xâm nhập hệ (IDS) Trong báo này, đề xuất phương pháp DL cho phát công mạng sử dụng mạng nhớ dài hạn (Long-Short Term MemoryLSTM) mã hóa tự động (AutoEncoder-AE) Trong đó, LSTM sử dụng để thu thập mẫu liệu mạng kết hợp với mã hóa tự động AE để nâng cao hiểu hoạt động không đối xứng mạng LSTM việc tái tạo với mẫu huấn luyện để làm bật đặc trưng loại công mạng Phương pháp đề xuất thực nghiệm đánh giá liệuNSL-KDD Các kết thực nghiệm với độ xác cao chứng minh tính khả hiệu phương pháp đề xuất Từ khóa: AutoEncoder, IDS, LSTM, Phát hiện, Tấn công, Xâm nhập mạng GIỚI THIỆU IDS công cụ cần thiết để đảm bảo khả sẵn có, tính bảo mật tính tồn vẹn liệu IDS có hai loại: Hệ thống phát dựa chữ ký dựa bất thường Trong hệ thống dựa vào chữ ký, lưu lượng độc hại phát dựa quy tắc xác định trước Tuy nhiên, công mạng ngày tinh vi, hệ thống phát dựa vào chữ ký không phù hợp, cần phát triển kỹ thuật phát công dựa vào bất thường luồng liệu mạng Do vậy, IDS dựa dị thường thu hút ý cộng đồng nghiên cứu Có nhiều phương pháp để nhận diện công loại cơng mạng dựa vào bất thường Trong đó, kỹ thuật máy học ML phát triển nhiều thời gian gần [1] Mơ hình tìm mẫu liệu sai lệch so với luồng liệu bình thường khác [2] Hầu hết cơng trình dựa phương pháp phát dị thường áp dụng Artificial Neural Networks (ANN) cho nhiệm vụ phân loại Dữ liệu gắn nhãn sử dụng giai đoạn đào tạo Sau đó, mơ hình áp dụng liệu thử nghiệm để phân loại thành lớp dị thường Tang cộng [3] đề xuất sử dụng mạng neural Self Organizing Map (SOM) để phát công mạng dựa luồng liệu 73 mạng đạt độ xác 83% Latah cộng [4] đề xuất hệ thống phân loại hỗn hợp năm giai đoạn để nâng cao tỷ lệ phát lưu lượng cơng mạng Mơ hình kết hợp ba phân loại học máy khác nhau, bao gồm phương pháp K-Nearest Neighbor (KNN), Ex-treme Learning Machine (ELM) Hierarchical Extreme Learning Machine (H-ELM) Độ xác phương pháp trình bày 94.18% Prasath cộng [5] đề xuất phương pháp phân loại mạng Meta-heuristic Bayesian network classification (MHBNC) để phát gói tin đến mạng lưu lượng truy cập bình thường cơng mạng Mơ hình MHBNC đề xuất đạt độ xác 82,99% Một ưu điểm kỹ thuật nói khả xử lý tập liệu nhiều chiều với hiệu suất cao Tuy nhiên, phương pháp chủ yếu dựa vào liệu gắn nhãn liệu cân phần lớn liệu khơng cân bằng, liệu bất thường khó thu thập so với liệu bình thường Hướng tiếp cận khác dựa vào mạng neural AE để phát bất thường Nhóm tác giải Hawsking [6] sử dụng AE để phát trường hợp ngoại lệ Trong năm gần đây, AE thường sử dụng thuật toán hỗ trợ để giảm số chiều đặc trưng AE có khả tạo đặc trưng với số chiều nhiều để tăng độ xác việc phát bất thường đạt hiệu cao so với Kernel Principal Component Analysis (kernel PCA) [7] Hơn nữa, AE dễ đào tạo không u cầu tính tốn phức tạp Kernel Principal Component Analysis (kernel PCA) [8] Bài báo này, đề xuất kỹ thuật học sâu sử dụng kết hợp LSTM AE để mơ hình hóa lưu lượng liệu Mơ hình mạng học sâu này, cho phép học tự động tính phân biệt từ đặc trưng luồng liệu mạng Các phần trình bày nội dung thuật tốn đề xuất: Phần trình bày chi tiết thuật tốn đề xuất, kết thực nghiệm trình bày phần kết luận phần PHƯƠNG PHÁP ĐỀ XUẤT Phương pháp đề xuất kết hợp mơ hình mạng neural LSTM với tiền xử lý liệu AE để nhận diện loại cơng mạng Mơ hình AE để trích xuất đặc trưng dùng mạng neural LSTM để huấn luyện mạng phân biệt (Xem hình 1) Hình Sơ đồ phương pháp đề suất 2.1 Thuật toán AE cho tiền xử lý liệu Vì luồng liệu hai tập liệu NSL_KDDTrain+.txt vàNSL_KDDTest+.txt chưa qua xử lý, số chiều nhiều phức tạp nên gây khó khăn việc phân loại, xử lý đặc trưng nhiều 74 thời gian, tài ngun q trình huấn luyện mơ hình Vì vậy, chúng tơi sử dụng AutoEncoder để xử lý đầu vào cách trích xuất đặc trưng liệu có tập NSL_KDD Dữ liệu xử lý thông qua encoder với hàm kích hoạt “Swish” [9] có ưu điểm vượt trội so với hàm “LeakyReLU” “ReLU” tốn trước sử dụng để giảm chiều không gian, bỏ liệu không cần thiết lấy liệu đặc trưng Sau liệu nén lại thơng qua vectơ đặc trưng chiều so với ban đầu Tiếp theo, khơng gian tiềm ẩn (Botteneck) “encoding_dim” vectơ đặc trưng nơi chứa thông tin quan trọng giai đoạn encoder Trong giai đoạn này, Botteneck chứa thông tin cô đọng nên chiều nhỏ so với ban đầu, Botteneck nhỏ tránh overfitting Botteneck chọn lọc thông tin quan trọng suốt trình xử lý Tuy nhiên, Botteneck nhỏ, lưu trữ q thơng tin khó khăn phần decoder Sau đó, giai đoạn decoder giải mã ngược liệu giai đoạn Botteneck để tạo liệu tương tự liệu ban đầu Thuật toán AE sau: Bảng 2.1 Mơ hình xử lý liệu đầu vào Autoencoder Thuật toán Autoencoder(X_train_scaler) Input Output X train scaler – input NSL-KDD reshape A set of attack network feature-extraction Init encoder = Sequential { Dense (activation=’swish’, input) Dense(encoding_dim} Initialize Init decoder = Sequential { Dense (activation=’sigmoid’, input)} Init Autoencoder = Sequential (encoder, decoder) return encoder 2.2 Mạng LSTM cho việc phát loại công mạng Sau xử lý đầu vào AutoEncoder giai đoạn sử dụng mạng LSTM với 50 node Activation Function softmax để huấn luyện liệu đặc trưng Sử dụng mạng LSTM để tránh việc Vanishing Gradient trình huấn luyện LSTM sử dụng chế hoạt động cổng để điều 75 chỉnh lượng thông tin LSTM sử dụng ba cổng tế bào: Forget gate, Input gate Output gate Đầu tiên, cổng Forget gate định xem thông tin cần lượt bỏ thông tin giữ lại Trong giai đoạn Input gate định thông tin cập nhật thêm vào tế bào Cuối cùng, giai đoạn Output gate sàng lọc định thông tin muốn xuất cho tế bào Bảng 2.2 Mơ hình mạng LSTM Thuật tốn LSTM (X_train_lstm, X_test_lstm) Input Output look_back = X_train_extract.shape[1] A set of Data Discriminator MultiClassModel model = Sequential() model.add(Input(shape=(1, look_back))) model.add(LSTM(units=50)) Initialize model.add(Dense(label_num, activation="softmax")) Model

Ngày đăng: 01/12/2022, 16:55