Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 175 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
175
Dung lượng
3,58 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Đồng Nai, năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số ngành: 9480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS TRẦN VĂN LĂNG Đồng Nai, năm 2022 LỜI CAM ĐOAN Tên tơi là: Hồng Ngọc Thanh Sinh ngày: 13/11/1969 Nơi sinh: Bình Định Là nghiên cứu sinh chuyên ngành Khoa học máy tính, khóa 2015, Trường đại học Lạc Hồng Tôi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp tiền xử lý liệu việc nâng cao chất lượng phân lớp hệ thống phát xâm nhập mạng” cơng trình nghiên cứu cá nhân tơi, cơng trình tơi thực dưới hướng dẫn giảng viên, người hướng dẫn khoa học là: PGS TS Trần Văn Lăng Các thuật toán, số liệu kết trình bày luận án hồn tồn có từ thử nghiệm, trung thực khơng chép Nghiên cứu sinh Hoàng Ngọc Thanh LỜI CẢM ƠN Lời đầu tiên, với lòng biết ơn sâu sắc nhất, xin gửi lời cảm ơn tới PGS TS Trần Văn Lăng - người hướng dẫn khoa học, thầy người truyền cho tri thức, tâm huyết nghiên cứu khoa học, thầy tận tâm hướng dẫn, giúp đỡ tạo điều kiện tốt nhất để tơi hồn thành luận án Tơi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin, Khoa sau đại học Trường đại học Lạc Hồng giảng dạy tạo điều kiện thuận lợi cho suốt thời gian tham gia nghiên cứu sinh Tôi xin cảm ơn hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật khoa học máy tính, Trung tâm ngoại ngữ công nghệ thông tin Trường Đại học Quốc tế Sài Gịn, nơi tơi cơng tác Và tơi xin gửi lời cảm ơn chân thành tới đồng nghiệp, bạn bè - người quan tâm, động viên suốt thời gian qua Cuối cùng, xin dành tình cảm đặc biệt đến gia đình, người thân - người tin tưởng, động viên tiếp sức cho thêm nghị lực để tơi vững bước vượt qua khó khăn Tác giả Hồng Ngọc Thanh TĨM TẮT Phát bất thường dựa luồng vấn đề phát triển môi trường an ninh mạng Nhiều nghiên cứu trước áp dụng học máy phương pháp nâng cao khả phát bất thường hệ thống phát xâm nhập mạng (NIDS) Các nghiên cứu gần cho thấy, NIDS phải đối mặt với thách thức việc cải thiện độ xác, giảm tỷ lệ cảnh báo sai phát tấn công mới Nội dung luận án đề xuất số giải pháp sử dụng kỹ thuật học máy phối hợp cải tiến kỹ thuật tiền xử lý liệu việc nâng cao chất lượng phân lớp hệ thống phát xâm nhập mạng Điều dựa thực tế là: (1) Có nhiều liệu mất cân lớp tập liệu huấn luyện dùng cho NIDS (2) Các thuật tốn học máy sử dụng tất thuộc tính thực khơng liên quan đến mục tiêu phân lớp, điều làm giảm chất lượng phân lớp tăng thời gian tính tốn (3) Các phân lớp phối hợp vượt trội so với phân lớp đơn độ xác phân lớp Những lợi phân lớp phối hợp đặc biệt rõ ràng lĩnh vực phát xâm nhập Để giải vấn đề, luận án đề xuất cải tiến việc thực hai giải pháp giai đoạn tiền xử lý liệu, cụ thể là: (1) Đề xuất thuật toán lựa chọn thuộc tính sở cải tiến thuật tốn lựa chọn thuộc tính FFC BFE biết (2) Cải tiến kỹ thuật tăng mẫu giảm mẫu tập liệu huấn luyện Dữ liệu kết sau tiền xử lý sử dụng để huấn luyện phân lớp phối hợp cách sử dụng thuật toán học máy phối hợp đồng nhất (Bagging, Boosting, Stacking Decorate) không đồng nhất (Voting, Stacking RF) Kết thử nghiệm tập liệu huấn luyện kiểm tra đầy đủ tập liệu UNSW-NB15 cho thấy, giải pháp đề xuất cải thiện chất lượng phân lớp NIDS Bên cạnh kết đạt được, kết nghiên cứu luận án để lại tồn định hướng phát triển tương lai: (1) Thời gian h́n luyện mơ hình phân lớp đề x́t cịn lớn, việc phối hợp đắn thuật tốn để xây dựng mơ hình phân lớp lai, đa nhãn đáp ứng thời gian thực vấn đề cần tiếp tục nghiên cứu (2) Năng lực xử lý đóng vai trị quan trọng việc khai thác thuật toán học máy Việc nâng cao hiệu xử lý theo hướng tiếp cận xử lý song song việc tối ưu tham số cho kỹ thuật học máy vấn đề bỏ ngỏ ABSTRACT Stream-based intrusion detection is a growing problem in computer network security environments Many previous researches have applied machine learning as a method to detect attacks in Network Intrusion Detection Systems (NIDS) However, these methods still have limitations of low accuracy, high false alarm rate and detecting new attacks The content of the thesis proposes some solutions using ensemble machine learning techniques and improving data preprocessing techniques in improving the classification quality of NIDS This is based on the fact that: (1) There is a lot of class imbalance data in the training datasets used for NIDS (2) Machine learning algorithms can use some features that are really irrelevant to the classification goal, which reduces the quality of classification and increases computation time (3) Ensemble classifiers outperform the single classifiers in classification accuracy The advantages of the ensemble classifier are particularly evident in the area of network intrusion detection To solve the problem, the thesis proposes to improve the implementation of two solutions in the data preprocessing stage, details as follows: (1) Proposing feature selection algorithms on the basis of improving known FFC and BFE feature selection algorithms (2) Improving techniques for oversampling and undersampling the training dataset The resulting data after preprocessing is used to train the ensemble classifiers using both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting, Stacking and RF) ensemble machine learning algorithms The experimental results on the full training and testing datasets of the UNSW-NB15 dataset show that the proposed solutions have improved the classification quality of the NIDS In addition to the achieved results, the research results of the thesis also leave shortcomings and future development orientations: (1) The training time of the proposed classification models is still large, the coordination the right algorithms to build a hybrid, multi-label and real-time response classification model is a problem that needs to be further researched (2) Processing capacity plays an important role in exploiting machine learning algorithms The improvement of processing efficiency in the direction of parallel processing as well as the optimization of parameters for machine learning techniques is still an open issue MỤC LỤC CHƯƠNG GIỚI THIỆU 1.1 Hệ thống phát xâm nhập 1.1.1 Giới thiệu IDS 1.1.2 Phân loại IDS 1.1.3 IDS sử dụng kỹ thuật học máy .3 1.2 Tính cấp thiết đề tài luận án 1.3 Mục tiêu nghiên cứu 1.4 Đối tượng phạm vi nghiên cứu 1.4.1 Đối tượng nghiên cứu 1.4.2 Phạm vi nghiên cứu 1.5 Phương pháp nghiên cứu .6 1.6 Ý nghĩa khoa học thực tiễn .6 1.6.1 Ý nghĩa khoa học 1.6.2 Ý nghĩa thực tiễn 1.7 Những điểm đóng góp mới 1.8 Kết cấu luận án CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN .8 2.1 Cơ sở lý thuyết .8 2.1.1 Lựa chọn thuộc tính 2.1.2 Lấy mẫu lại tập liệu .15 2.1.3 Kỹ thuật học máy 21 2.1.4 Tập liệu sử dụng cho IDS .27 2.1.5 Chỉ số đánh giá hiệu IDS 33 2.2 Các nghiên cứu liên quan học máy cho IDS 36 2.2.1 Lựa chọn thuộc tính 36 2.2.2 Lấy mẫu lại tập liệu .38 2.2.3 Các mơ hình học máy cho IDS 40 2.2.4 Nhận xét 56 CHƯƠNG GIẢI PHÁP LỰA CHỌN THUỘC TÍNH 57 3.1 Giải pháp lựa chọn thuộc tính đề xuất 57 3.1.1 Các số đo thông tin .57 3.1.2 Thuật tốn loại bỏ thuộc tính ngược BFE 58 3.1.3 Thuật toán chọn thuộc tính thuận FFC .59 3.1.4 Thuật tốn lựa chọn thuộc tính đề xuất 61 3.2 Kết thực 65 3.2.1 Lựa chọn thuộc tính với kiểu tấn cơng Worms 66 3.2.2 Lựa chọn thuộc tính với kiểu tấn công Shellcode 68 3.2.3 Lựa chọn thuộc tính với kiểu tấn cơng Backdoor 70 3.2.4 Lựa chọn thuộc tính với kiểu tấn cơng Analysis 72 3.2.5 Lựa chọn thuộc tính với kiểu tấn công Recce 74 3.2.6 Lựa chọn thuộc tính với kiểu tấn cơng DoS .76 3.2.7 Lựa chọn thuộc tính với kiểu tấn cơng Fuzzers 78 3.2.8 Lựa chọn thuộc tính với kiểu tấn công Exploits .80 3.2.9 Lựa chọn thuộc tính với kiểu tấn cơng Generic 82 3.3 So sánh, nhận xét đánh giá giải pháp lựa chọn thuộc tính đề xuất 84 CHƯƠNG GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU 87 4.1 Giải pháp lấy mẫu lại tập liệu đề xuất 87 4.1.1 Giải pháp tăng mẫu 87 4.1.2 Giải pháp giảm mẫu 91 4.2 Kết thực 95 4.2.1 Tăng mẫu tập liệu 96 4.2.2 Giảm mẫu tập liệu .106 4.3 Tổng hợp kết nhận xét giải pháp lấy mẫu lại tập liệu 117 CHƯƠNG KỸ THUẬT PHỐI HỢP CHO MƠ HÌNH IDS .120 5.1 Kỹ thuật phối hợp đề xuất 120 5.2 Kết thực .125 5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms 127 5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode 129 5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor 131 5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis 133 5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce 135 5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS 137 5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers .139 5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits 141 5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic .143 5.3 Tổng hợp kết nhận xét kỹ thuật phối hợp 145 5.4 Mơ hình phân lớp lai đề x́t .146 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 149 6.1 Đánh giá kết đạt được, hạn chế hướng phát triển .149 6.2 Đánh giá ý nghĩa học thuật thực tiễn luận án 150 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt ABC Viết đầy đủ Artificial Bee Colony ADASYN ANN Adaptive Synthetic Sampling Artificial Neural Network AUC Area Under the Curve Bagging Bootstrap Aggregation BFE BFS Backward Feature Elimination Best First Search BN CA CART Bayesian Network Correlation Attribute Classification and Regression Trees CFS CNN CSE CV DoS DT Correlation-based Feature Selection Convolutional Neural Network Consistency Subset Evaluator Cross Validation Denial of Service Decision Tree FFC Forward Feature Construction ELM Extreme Learning Machines ENN Edited Nearest Neighbors FPR GA GAR GC GP GR False Positive Rate Genetic Algorithm GRASP with Annealed Randomness Global Competence Genetic Programming Gain Ratio ICA IDS IG KNN KNNCF LC LDA Independent Component Analysis Intrusion Detection System Information Gain K Nearest Neighbours K Nearest Neighbor Collaborative Filtering Local Competence Linear Discriminant Analysis LOO LR Leave One Out Logistic Regression LSTM Long Short - Term Memory MARS Multivariate Adaptive Regression Splines ML MLP Machine Learning Multi Layer Perceptron MV NB Majority Voting Naïve Bayes NCR NSGA OAR Neighborhood Cleaning Rule Non-dominated Sorting Genetic Algorithm One Against Rest OSELM Sequential Extreme Learning Machine PART Partial Decision Tree PCA PSO Principal Component Analysis Particle Swarm Optimization R2L RBF RF RMV RNN ROC Remote to Local Radial Basis Function Random Forest Rigged Majority Voting Recurrent Neural Network Receiver Operating Characteristics RT Random Tree SMOTE SSV SU SVM TPR U2R WLC Synthetic Minority Over-Sampling Technique Separability Split Value Symmetrical Uncertainty Support Vector Machine True Positive Rate User to Root Weighted Local Competence WMV Weighted Majority Voting WRMV WTA Weighted Rigged Majority Voting Winner Takes All ... GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG HOÀNG NGỌC THANH KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG... ngành Khoa học máy tính, khóa 2015, Trường đại học Lạc Hồng Tơi xin cam đoan luận án tiến sĩ ? ?Kỹ thuật học máy phối hợp tiền xử lý liệu việc nâng cao chất lượng phân lớp hệ thống phát xâm nhập mạng”... thức việc cải thiện độ xác, giảm tỷ lệ cảnh báo sai phát tấn công mới Nội dung luận án đề xuất số giải pháp sử dụng kỹ thuật học máy phối hợp cải tiến kỹ thuật tiền xử lý liệu việc nâng cao chất