KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG.pdf

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Đồng Nai, năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số ngành: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TRẦN VĂN LĂNG Đồng Nai, năm 2022 LỜI CAM ĐOAN Tên tơi là: Hồng Ngọc Thanh Sinh ngày: 13/11/1969 Nơi sinh: Bình Định Là nghiên cứu sinh chuyên ngành Khoa học máy tính, khóa 2015, Trường đại học Lạc Hồng Tôi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp tiền xử lý liệu việc nâng cao chất lượng phân lớp hệ thống phát xâm nhập mạng” cơng trình nghiên cứu cá nhân tơi, cơng trình tơi thực dưới hướng dẫn giảng viên, người hướng dẫn khoa học là: PGS TS Trần Văn Lăng Các thuật toán, số liệu kết trình bày luận án hồn tồn có từ thử nghiệm, trung thực khơng chép Nghiên cứu sinh Hoàng Ngọc Thanh LỜI CẢM ƠN Lời đầu tiên, với lòng biết ơn sâu sắc nhất, xin gửi lời cảm ơn tới PGS TS Trần Văn Lăng - người hướng dẫn khoa học, thầy người truyền cho tri thức, tâm huyết nghiên cứu khoa học, thầy tận tâm hướng dẫn, giúp đỡ tạo điều kiện tốt nhất để tơi hồn thành luận án Tơi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin, Khoa sau đại học Trường đại học Lạc Hồng giảng dạy tạo điều kiện thuận lợi cho suốt thời gian tham gia nghiên cứu sinh Tôi xin cảm ơn hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật khoa học máy tính, Trung tâm ngoại ngữ công nghệ thông tin Trường Đại học Quốc tế Sài Gịn, nơi tơi cơng tác Và tơi xin gửi lời cảm ơn chân thành tới đồng nghiệp, bạn bè - người quan tâm, động viên suốt thời gian qua Cuối cùng, xin dành tình cảm đặc biệt đến gia đình, người thân - người tin tưởng, động viên tiếp sức cho thêm nghị lực để tơi vững bước vượt qua khó khăn Tác giả Hồng Ngọc Thanh TĨM TẮT Phát bất thường dựa luồng vấn đề phát triển môi trường an ninh mạng Nhiều nghiên cứu trước áp dụng học máy phương pháp nâng cao khả phát bất thường hệ thống phát xâm nhập mạng (NIDS) Các nghiên cứu gần cho thấy, NIDS phải đối mặt với thách thức việc cải thiện độ xác, giảm tỷ lệ cảnh báo sai phát tấn công mới Nội dung luận án đề xuất số giải pháp sử dụng kỹ thuật học máy phối hợp cải tiến kỹ thuật tiền xử lý liệu việc nâng cao chất lượng phân lớp hệ thống phát xâm nhập mạng Điều dựa thực tế là: (1) Có nhiều liệu mất cân lớp tập liệu huấn luyện dùng cho NIDS (2) Các thuật tốn học máy sử dụng tất thuộc tính thực khơng liên quan đến mục tiêu phân lớp, điều làm giảm chất lượng phân lớp tăng thời gian tính tốn (3) Các phân lớp phối hợp vượt trội so với phân lớp đơn độ xác phân lớp Những lợi phân lớp phối hợp đặc biệt rõ ràng lĩnh vực phát xâm nhập Để giải vấn đề, luận án đề xuất cải tiến việc thực hai giải pháp giai đoạn tiền xử lý liệu, cụ thể là: (1) Đề xuất thuật toán lựa chọn thuộc tính sở cải tiến thuật tốn lựa chọn thuộc tính FFC BFE biết (2) Cải tiến kỹ thuật tăng mẫu giảm mẫu tập liệu huấn luyện Dữ liệu kết sau tiền xử lý sử dụng để huấn luyện phân lớp phối hợp cách sử dụng thuật toán học máy phối hợp đồng nhất (Bagging, Boosting, Stacking Decorate) không đồng nhất (Voting, Stacking RF) Kết thử nghiệm tập liệu huấn luyện kiểm tra đầy đủ tập liệu UNSW-NB15 cho thấy, giải pháp đề xuất cải thiện chất lượng phân lớp NIDS Bên cạnh kết đạt được, kết nghiên cứu luận án để lại tồn định hướng phát triển tương lai: (1) Thời gian h́n luyện mơ hình phân lớp đề x́t cịn lớn, việc phối hợp đắn thuật tốn để xây dựng mơ hình phân lớp lai, đa nhãn đáp ứng thời gian thực vấn đề cần tiếp tục nghiên cứu (2) Năng lực xử lý đóng vai trị quan trọng việc khai thác thuật toán học máy Việc nâng cao hiệu xử lý theo hướng tiếp cận xử lý song song việc tối ưu tham số cho kỹ thuật học máy vấn đề bỏ ngỏ ABSTRACT Stream-based intrusion detection is a growing problem in computer network security environments Many previous researches have applied machine learning as a method to detect attacks in Network Intrusion Detection Systems (NIDS) However, these methods still have limitations of low accuracy, high false alarm rate and detecting new attacks The content of the thesis proposes some solutions using ensemble machine learning techniques and improving data preprocessing techniques in improving the classification quality of NIDS This is based on the fact that: (1) There is a lot of class imbalance data in the training datasets used for NIDS (2) Machine learning algorithms can use some features that are really irrelevant to the classification goal, which reduces the quality of classification and increases computation time (3) Ensemble classifiers outperform the single classifiers in classification accuracy The advantages of the ensemble classifier are particularly evident in the area of network intrusion detection To solve the problem, the thesis proposes to improve the implementation of two solutions in the data preprocessing stage, details as follows: (1) Proposing feature selection algorithms on the basis of improving known FFC and BFE feature selection algorithms (2) Improving techniques for oversampling and undersampling the training dataset The resulting data after preprocessing is used to train the ensemble classifiers using both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting, Stacking and RF) ensemble machine learning algorithms The experimental results on the full training and testing datasets of the UNSW-NB15 dataset show that the proposed solutions have improved the classification quality of the NIDS In addition to the achieved results, the research results of the thesis also leave shortcomings and future development orientations: (1) The training time of the proposed classification models is still large, the coordination the right algorithms to build a hybrid, multi-label and real-time response classification model is a problem that needs to be further researched (2) Processing capacity plays an important role in exploiting machine learning algorithms The improvement of processing efficiency in the direction of parallel processing as well as the optimization of parameters for machine learning techniques is still an open issue MỤC LỤC CHƯƠNG GIỚI THIỆU 1.1 Hệ thống phát xâm nhập 1.1.1 Giới thiệu IDS 1.1.2 Phân loại IDS 1.1.3 IDS sử dụng kỹ thuật học máy .3 1.2 Tính cấp thiết đề tài luận án 1.3 Mục tiêu nghiên cứu 1.4 Đối tượng phạm vi nghiên cứu 1.4.1 Đối tượng nghiên cứu 1.4.2 Phạm vi nghiên cứu 1.5 Phương pháp nghiên cứu .6 1.6 Ý nghĩa khoa học thực tiễn .6 1.6.1 Ý nghĩa khoa học 1.6.2 Ý nghĩa thực tiễn 1.7 Những điểm đóng góp mới 1.8 Kết cấu luận án CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN .8 2.1 Cơ sở lý thuyết .8 2.1.1 Lựa chọn thuộc tính 2.1.2 Lấy mẫu lại tập liệu .15 2.1.3 Kỹ thuật học máy 21 2.1.4 Tập liệu sử dụng cho IDS .27 2.1.5 Chỉ số đánh giá hiệu IDS 33 2.2 Các nghiên cứu liên quan học máy cho IDS 36 2.2.1 Lựa chọn thuộc tính 36 2.2.2 Lấy mẫu lại tập liệu .38 2.2.3 Các mơ hình học máy cho IDS 40 2.2.4 Nhận xét 56 CHƯƠNG GIẢI PHÁP LỰA CHỌN THUỘC TÍNH 57 3.1 Giải pháp lựa chọn thuộc tính đề xuất 57 3.1.1 Các số đo thông tin .57 3.1.2 Thuật tốn loại bỏ thuộc tính ngược BFE 58 3.1.3 Thuật toán chọn thuộc tính thuận FFC .59 3.1.4 Thuật tốn lựa chọn thuộc tính đề xuất 61 3.2 Kết thực 65 3.2.1 Lựa chọn thuộc tính với kiểu tấn cơng Worms 66 3.2.2 Lựa chọn thuộc tính với kiểu tấn công Shellcode 68 3.2.3 Lựa chọn thuộc tính với kiểu tấn cơng Backdoor 70 3.2.4 Lựa chọn thuộc tính với kiểu tấn cơng Analysis 72 3.2.5 Lựa chọn thuộc tính với kiểu tấn công Recce 74 3.2.6 Lựa chọn thuộc tính với kiểu tấn cơng DoS .76 3.2.7 Lựa chọn thuộc tính với kiểu tấn cơng Fuzzers 78 3.2.8 Lựa chọn thuộc tính với kiểu tấn công Exploits .80 3.2.9 Lựa chọn thuộc tính với kiểu tấn cơng Generic 82 3.3 So sánh, nhận xét đánh giá giải pháp lựa chọn thuộc tính đề xuất 84 CHƯƠNG GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU 87 4.1 Giải pháp lấy mẫu lại tập liệu đề xuất 87 4.1.1 Giải pháp tăng mẫu 87 4.1.2 Giải pháp giảm mẫu 91 4.2 Kết thực 95 4.2.1 Tăng mẫu tập liệu 96 4.2.2 Giảm mẫu tập liệu .106 4.3 Tổng hợp kết nhận xét giải pháp lấy mẫu lại tập liệu 117 CHƯƠNG KỸ THUẬT PHỐI HỢP CHO MƠ HÌNH IDS .120 5.1 Kỹ thuật phối hợp đề xuất 120 5.2 Kết thực .125 5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms 127 5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode 129 5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor 131 5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis 133 5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce 135 5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS 137 5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers .139 5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits 141 5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic .143 5.3 Tổng hợp kết nhận xét kỹ thuật phối hợp 145 5.4 Mơ hình phân lớp lai đề x́t .146 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 149 6.1 Đánh giá kết đạt được, hạn chế hướng phát triển .149 6.2 Đánh giá ý nghĩa học thuật thực tiễn luận án 150 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt ABC Viết đầy đủ Artificial Bee Colony ADASYN ANN Adaptive Synthetic Sampling Artificial Neural Network AUC Area Under the Curve Bagging Bootstrap Aggregation BFE BFS Backward Feature Elimination Best First Search BN CA CART Bayesian Network Correlation Attribute Classification and Regression Trees CFS CNN CSE CV DoS DT Correlation-based Feature Selection Convolutional Neural Network Consistency Subset Evaluator Cross Validation Denial of Service Decision Tree FFC Forward Feature Construction ELM Extreme Learning Machines ENN Edited Nearest Neighbors FPR GA GAR GC GP GR False Positive Rate Genetic Algorithm GRASP with Annealed Randomness Global Competence Genetic Programming Gain Ratio ICA IDS IG KNN KNNCF LC LDA Independent Component Analysis Intrusion Detection System Information Gain K Nearest Neighbours K Nearest Neighbor Collaborative Filtering Local Competence Linear Discriminant Analysis LOO LR Leave One Out Logistic Regression LSTM Long Short - Term Memory MARS Multivariate Adaptive Regression Splines ML MLP Machine Learning Multi Layer Perceptron MV NB Majority Voting Naïve Bayes NCR NSGA OAR Neighborhood Cleaning Rule Non-dominated Sorting Genetic Algorithm One Against Rest OSELM Sequential Extreme Learning Machine PART Partial Decision Tree PCA PSO Principal Component Analysis Particle Swarm Optimization R2L RBF RF RMV RNN ROC Remote to Local Radial Basis Function Random Forest Rigged Majority Voting Recurrent Neural Network Receiver Operating Characteristics RT Random Tree SMOTE SSV SU SVM TPR U2R WLC Synthetic Minority Over-Sampling Technique Separability Split Value Symmetrical Uncertainty Support Vector Machine True Positive Rate User to Root Weighted Local Competence WMV Weighted Majority Voting WRMV WTA Weighted Rigged Majority Voting Winner Takes All ... GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG... ngành Khoa học máy tính, khóa 2015, Trường đại học Lạc Hồng Tơi xin cam đoan luận án tiến sĩ ? ?Kỹ thuật học máy phối hợp tiền xử lý liệu việc nâng cao chất lượng phân lớp hệ thống phát xâm nhập mạng”... thức việc cải thiện độ xác, giảm tỷ lệ cảnh báo sai phát tấn công mới Nội dung luận án đề xuất số giải pháp sử dụng kỹ thuật học máy phối hợp cải tiến kỹ thuật tiền xử lý liệu việc nâng cao chất

Định dạng
Số trang	175
Dung lượng	3,58 MB