(Đồ án hcmute) phát hiện xâm nhập mạng với học sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU PHÁT HIỆN XÂM NHẬP MẠNG VỚI HỌC SÂU GVHD: Th.S QCH ĐÌNH HỒNG SVTH: LÊ ĐỖ TRÀ MỸ TRẦN THỊ LỆ XUÂN SKL009866 Tp Hồ Chí Minh, 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN  LÊ ĐỖ TRÀ MY: 18133030 TRẦN THỊ LỆ XUÂN: 18133066 Đề tài: PHÁT HIỆN XÂM NHẬP MẠNG VỚI HỌC SÂU KHÓA LUẬN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN ThS Qch Đình Hồng KHĨA 2018 - 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN  LÊ ĐỖ TRÀ MY: 18133030 TRẦN THỊ LỆ XUÂN: 18133066 Đề tài: PHÁT HIỆN XÂM NHẬP MẠNG VỚI HỌC SÂU KHÓA LUẬN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN ThS Qch Đình Hồng KHĨA 2018 - 2022 ĐH SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CNTT Độc lập – Tự – Hạnh Phúc ******** ******** PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên 1: Lê Đỗ Trà My MSSV: 18133030 Họ tên Sinh viên 2: Trần Thị Lệ Xuân MSSV: 18133066 Ngành: Kỹ thuật liệu Tên đề tài: TÌM HIỂU CHỦ ĐỀ PHÁT HIỆN XÂM NHẬP MẠNG Họ tên giáo viên hướng dẫn: ThS.Qch Đình Hồng NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Ưu điểm: ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Khuyết điểm ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Điểm: Tp Hồ Chí Minh, ngày tháng Giáo viên hướng dẫn (Ký & ghi rõ họ tên) i năm 2022 ĐH SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CNTT Độc lập – Tự – Hạnh Phúc ******** ******** PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Lê Đỗ Trà My MSSV: 18133030 Họ tên Sinh viên 2: Trần Thị Lệ Xuân MSSV: 18133066 Ngành: Kỹ thuật liệu Tên đề tài: TÌM HIỂU CHỦ ĐỀ PHÁT HIỆN XÂM NHẬP MẠNG Họ tên giáo viên phản biện: NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Ưu điểm: ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Khuyết điểm ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… ……………………………………………………………………………………………………… Điểm: Tp Hồ Chí Minh, ngày tháng Giáo viên phản biện (Ký & ghi rõ họ tên) ii năm 2022 LỜI CAM ĐOAN Tiểu luận cơng trình nghiên cứu chúng tơi, thực hướng dẫn khoa học thầy Qch Đình Hồng Các số liệu, kết luận nghiên cứu sản phẩm tạo trình bày khố luận trung thực Chúng tơi xin hồn tồn chịu trách nhiệm lời cam đoan Sinh viên thực Sinh viên thực (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) Lê Đỗ Trà My Trần Thị Lệ Xuân iii LỜI CẢM ƠN Một khóa luận tốt nghiệp trôi qua để lại nhiều cảm xúc Chúng xin gửi lời cảm ơn chân thành đến Thầy Quách Đình Hồng Mặc dù tình hình dịch phức tạp học online thầy cung cấp tài liệu hướng dẫn tận tình cho chúng tơi suốt q trình thực tiểu luận chun ngành, Thầy ln theo dõi tiến độ giải đáp, chia sẻ giúp chúng tơi vượt qua khó khăn Chúng tơi trân quý tâm huyết trách nhiệm Thầy công việc giảng dạy truyền đạt kiến thức Chúng xin gửi lời cảm ơn sâu sắc đến Thầy Cô khoa Công nghệ Thông tin - Đại học Sư phạm Kỹ thuật TP.HCM đồng hành hỗ trợ chúng tơi suốt q trình học tập thực tiểu luận Chúng xin cảm ơn trường Đại học Sư phạm Kỹ thuật tạo nhiều điều kiện thuận lợi cho hoạt động phục vụ học tập sinh viên chúng tôi, đặc biệt thư viện số với nguồn tri thức vô tận Chúng gửi lời cảm ơn chân thành đến bạn khóa 2018 ngành Kỹ thuật Dữ liệu, cảm ơn góp ý chia sẻ quý giá từ tất bạn Cảm ơn động viên từ bạn để nhóm chúng tơi giữ vững tinh thần thực khóa luận tiến độ Những giá trị cốt lõi nhà trường, Thầy Cô bạn bè mang đến, ghi nhớ để làm động lực thúc đẩy thân phát triển hoàn thiện Cuối cùng, xin cám ơn đến tác giả báo khoa học mà tham khảo Các báo giúp tiếp thu nhiều kiến thức quan trọng hiểu rõ đề tài nghiên cứu Chúng tơi nhận thấy thân có khuyết điểm thiếu sót cần cố gắng cải thiện để tốt hơn, hướng tới mục tiêu lớn tương lai Xin chân thành cảm ơn! iv TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA CÔNG NGHỆ THÔNG TIN o-ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP Họ tên SV thực 1: Lê Đỗ Trà My MSSV: 18133066 Họ tên SV thực 2: Trần Thị Lệ Xuân MSSV: 18133030 Thời gian làm luận văn: Từ: 04/2022 Đến: 07/2022 Chuyên ngành: Kỹ thuật liệu Tên luận văn: Tìm hiểu áp dụng cho tốn phát xâm nhập mạng Giáo viên hướng dẫn: Ths Qch Đình Hồng NHIỆM VỤ CỦA LUẬN VĂN Nhiệm vụ luận văn áp dụng vài thuật toán học máy học sâu vào tập liệu phổ biến cho vấn đề xâm nhập mạng Sau đó, luận văn tập trung vào tiến hành đánh giá hiệu số thuật toán phát xâm nhập mạng Để đạt điều đó, chúng tơi tập trung tìm hiểu số vấn đề sau: Tìm hiểu tổng quan phát xâm nhập mạng Tìm hiểu tổng quan về thuật toán học máy Tìm hiểu tổng quan thuật tốn học sâu Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát xâm nhập mạng Đánh giá so sánh số thuật toán học máy cho toán phát xâm nhập mạng BỐ CỤC Chúng định chia bố cục tiểu luận thành phần sau: ▪ Phần 1: Mở đầu ▪ Phần 2: Nội dung Phần gồm chương o Chương 1: Tổng quan mạng o Chương 2: Tổng quan học máy o Chương 3: Tổng quan học sâu o Chương 4: Xây dựng đánh giá mơ hình v ▪ Phần 3: Kết luận Tài liệu tham khảo KẾ HOẠCH THỰC HIỆN STT Thời gian Cơng việc dự kiến Tìm hiểu tốn xâm nhập mạng định hướng giải 14/3 - 27/3 tốn Tìm hiểu liệu sử dụng Tìm hiểu khái quát học máy, học sâu tổng quan xâm 28/3 – 10/4 11/4 – 17/4 Tìm hiểu neural network 18/4 – 24/4 Tìm hiểu RNN 25/4 – 8/5 Tìm hiểu LSTM 9/5 – 15/5 Tìm hiểu LSTM (tiếp theo) 16/5 – 29/5 nhập mạng Viết báo cáo Tìm hiểu tiền xử lí liệu với tập liệu đầu vào chọn Viết báo cáo 30/5 – 5/6 Tìm hiểu thư viện liên quan, Google Colab công cụ WEKA Thực nghiệm thử số thuật toán cổ điển Viết báo cáo 6/6 – 12/6 Thực nghiệm theo hướng khơng tiến hành lựa chọn thuộc tính 10 13/6 – 19/6 Viết báo cáo Thực nghiệm theo hướng có tiến hành lựa chọn thuộc tính Viết báo cáo 11 20/6 – 26/6 Thực nghiệm theo hướng có tiến hành lựa chọn thuộc tính (tiếp theo) Viết báo cáo 12 27/6 – 3/7 Thực nghiệm theo hướng có tiến hành lựa chọn thuộc tính (tiếp theo) vi Chuẩn bị phần thuyết trình Hồn thiện báo cáo 13 4/7 – 10/7 Thực nghiệm theo hướng có tiến hành lựa chọn thuộc tính (tiếp theo) Chuẩn bị phần thuyết trình Ý kiến giảng viên hướng dẫn TP Thủ Đức, Ngày … Tháng…Năm (Ký ghi rõ họ tên) Người viết đề cương vii CHƯƠNG 4: XÂY DỰNG MƠ HÌNH Có thể thấy, thực phân loại mà không tiến hành lựa chọn thuộc tính kết thu từ LSTM khơng cao mà chí cịn thấp Logistic Regression Với kết này, tiếp tục thực nghiệm tốn phân loại có tiến hành lựa chọn thuộc tính nhằm cải thiện độ xác thuật tốn, đặc biệt LSTM 4.4.2 Phân loại có lựa chọn thuộc tính Trong trường hợp tiến hành lựa chọn thuộc tính CFS kết hợp với phương pháp tìm kiếm Best First, chúng tơi tiến hành thực nghiệm số thuật toán phân loại cổ điển gồm Random Forest, Logistic Regression, Bernoulli Naive Bayes Support Vector Machine (SVM) Đồng thời, tiến hành mơ hình LSTM Độ đo sử dụng accuracy (độ xác) F1-score Lúc này, liệu đầu vào thông tin kết nối gồm 19 thuộc tính sau tiền xử lí thực lựa chọn thuộc tính Dữ liệu đầu nhãn kết nối, chứa hai giá trị “0” “1” Số lượng đối tượng kết nối hai lớp mức cân nên sử dụng accuracy Bảng Mơ tả kết số thuật tốn khác Thơng số Accuracy F1-score Ma trận nhầm lẫn Thuật toán Random Forest 98.24% 98.43% 9711 [ 396 ] 12437 Logistic Regression 98.07% 98.28% 9672 [ 397 39 ] 12436 Bernoulli Naive Bayes 96.13% 96.71% 8843 [ 868 ] 12829 SVM 97.46% 97.75% 9525 [ 387 186 ] 12446 Chúng ghi lại nhanh kết phân loại bốn thuật toán bảng 4.6 Theo quan sát, Random Forest cho kết cao số thuật toán cổ điển sử dụng với accuracy đạt 98.24% F1-score đạt 98.43% Thuật toán gồm hai siêu tham số quan trọng cần thiết lặp gồm số lượng độ sâu lớn Cụ thể, đặt giá trị cho hai siêu tham số 70 35 Kết dự đốn theo Random Forest có 9710 trường hợp TN, 12437 trường hợp TP, 396 62 CHƯƠNG 4: XÂY DỰNG MÔ HÌNH trường hợp FN trường hợp FP Giá trị recall precision tính trưởng hợp 96.91% 100% Logistic Regression cho kết với accuracy đạt 98.07% F1-score đạt 98.28% Chúng đặt siêu tham số “C = 0.1”, giá trị mặc định Kết dự đốn theo Logistic Regression có 9672 trường hợp TN, 12436 trường hợp TP, 397 trường hợp FN 39 trường hợp FP Giá trị recall precision tính trưởng hợp 96.91% 99.69% Bernoulli Naive Bayes cho kết với accuracy đạt 96.13% F1-score đạt 96.71% Chúng đặt siêu tham số “alpha = 0.0005”, đại diện cho tham số làm mịn phụ gia Kết dự đốn theo Bernoulli Naive Bayes có 8843 trường hợp TN, 12829 trường hợp TP, trường hợp FN 868 trường hợp FP Giá trị recall precision tính trưởng hợp 99.97% 93.66% SVM cho kết với accuracy đạt 97.46% F1-score đạt 97.75% Kết dự đoán theo SVM có 9525 trường hợp TN, 12446 trường hợp TP, 387 trường hợp FN 186 trường hợp FP Giá trị recall precision tính trưởng hợp 96.98% 98.53% Tiếp theo, tiến hành phân loại mơ hình mạng nơ-ron LSTM với năm phiên nhỏ Kết phân loại minh họa bảng 4.7 Trong đó, tên phiên có tác dụng phân biệt phiên với Bảng Mô tả kết LSTM Tên phiên Accuracy F1-score Hàm tối ưu Hàm mát Ma trận nhầm lẫn LSTM 94.77% 95.30% RMSprop MSE 9388 [ 857 323 ] 11976 LSTM 99.40% 99.47% Adam 9681 [ 105 30 ] 12728 9710 [ 749 ] 12084 9750 [ 1355 ] 11478 Binary crossentropy LSTM 96.67% 96.69% Adam Binary crossentropy LSTM 93.96% 94.40% Adam Binary crossentropy 63 CHƯƠNG 4: XÂY DỰNG MƠ HÌNH LSTM 95.98% 96.36% RMSprop MSE 9657 [ 852 54 ] 11981 Ngồi RMSprop, chúng tơi sử dụng hàm tối ưu Adam trường hợp thực nghiệm Adam kết hợp lợi hai thuật toán tối ưu AdaGrad RMSprop nhằm giảm dần độ dốc ngẫu nhiên Trong đó, hàm tối ưu AdaGrad trì tốc độ học tham số nhằm cải thiện hiệu suất vấn đề với dốc thưa thớt (sparse gradients) Thay điều chỉnh tham số learning rate dựa thời điểm trung bình (giá trị trung bình) RMSprop, Adam sử dụng giá trị trung bình thời điểm thứ hai gradient (Phương sai không tập trung) Bên cạnh đó, hàm mát binary crossentropy sử dụng Đây hàm mát sử dụng mặc định cho tốn phân lớp nhị phân Nó tính toán độ chênh lệch hai phân phối xác suất dự đoán nhãn thật Hai phiên đầu (LSTM LSTM 2) có chung kiến trúc giống với phiên LSTM sử dụng phần phân loại khơng lựa chọn thuộc tính minh họa hình 4.6 Mặt khác, LSTM sử dụng hàm mát mean squared error (MSE) LSTM sử dụng binary crossentropy số lớp tốn gồm “1” cho kết nối bình thường “0” cho kết nối bị công Tiếp theo, sử dụng phương thức fit() Tensorflow để thực huấn luyện mơ hình phiên LSTM Dữ liệu tập “train” đưa vào input phương thức Dữ liệu đầu vào chia thành phần nhỏ gọi batch, mặc định giá trị 32 Tiếp sau tham số epochs, biểu thị số lần lặp q trình huấn luyện mơ hình tất batch Hình 4.8 minh họa trình huấn luyện LSTM Mỗi hàng biểu thị lần epochs, thời gian thực hiện, giá trị mát độ xác phần huấn luyện, giá trị mát (kí hiệu “loss” theo hình) Tuy trình huấn luyện thực tất batch epochs kết biểu thị lần epochs cuối Chúng sử dụng giá trị cho số lượng batch 32, epochs 15 validation_split 0.3 (70% tập “train” cho phần huấn luyện 30% tập “train” cho validation) cho LSTM Trong đó, ngồi thơng số cho phần “train”, hàng biểu thị thêm giá trị mát độ xác phần validation (kí hiệu “val”) 64 CHƯƠNG 4: XÂY DỰNG MƠ HÌNH Hình Q trình huấn luyện LSTM Kết dự đốn theo LSTM có 9388 trường hợp TN, 12976 trường hợp TP, 857 trường hợp FN 323 trường hợp FP Giá trị recall precision tính trưởng hợp 93.32% 97.37% Ở phiên LSTM 2, cịn cấu hình thêm tham số validation_split, chia tập liệu đầu vào (tập “train”) thành hai phần nhỏ theo giá trị định Trong đó, phần dùng để huấn luyện tìm tham số phần khác dùng để kiểm tra độ xác mơ hình sử dụng tham số huấn luyện đó, gọi tập validation Trường hợp này, sử dụng giá trị mặc định cho số lượng batch 32, epochs 10 validation_split 0.3 Hình 4.9 minh họa trình huấn luyện LSTM Hình Quá trình huấn luyện LSTM Kết dự đốn theo LSTM có 9618 trường hợp TN, 12728 trường hợp TP, 30 trường hợp FN 105 trường hợp FP Giá trị recall precision tính trưởng hợp 99.18% 99.76% 65 CHƯƠNG 4: XÂY DỰNG MÔ HÌNH Ba phiên sau (LSTM 3, LSTM LSTM 5) sử dụng thêm kỹ thuật dropout Trong kiến trúc mạng nơ-ron, kỹ thuật dropout việc bỏ qua vài unit suốt trình huấn luyện mơ hình, nút bị bỏ qua lựa chọn ngẫu nhiên Ở đây, hiểu “bỏ qua - ignoring” nút khơng tham gia đóng góp vào q trình huấn luyện Tác dụng chống over-fitting (mơ hình cho độ xác cao với dự liệu thử nghiệm khơng tốt liệu khác) Cả phiên LSTM 3, LSTM LSTM có kiến trúc mạng minh họa hình 4.10 Sau tầng mạng tầng chứa dropout Tổng số tham số chúng 77841, 77841 tham số tham số cần huấn luyện Hình 10 Cấu trúc LSTM 3, LSTM LSTM Tuy nhiên, phiên LSTM 3, LSTM LSTM tồn nhiều khác biệt so với Đầu tiên, LSTM sử dụng giá trị mặc định cho số lượng batch 32, epochs 10 validation_split 0.3 Chúng minh họa trình huấn luyện LSTM hình 4.11 66 CHƯƠNG 4: XÂY DỰNG MƠ HÌNH Hình 11 Q trình huấn luyện LSTM Kết dự đốn theo LSTM có 9710 trường hợp TN, 12084 trường hợp TP, 749 trường hợp FN trường hợp FP Giá trị recall precision tính trưởng hợp 94.16% 99.99% Kế đến LSTM 4, sử dụng giá trị mặc định cho số lượng batch 32, epochs 10 khơng dùng validation_split Hình 4.12 minh họa q trình huấn luyện LSTM Hình 12 Quá trình huấn luyện LSTM Kết dự đốn theo LSTM có 9750 trường hợp TN, 11478 trường hợp TP, 1355 trường hợp FN trường hợp FP Giá trị recall precision tính trưởng hợp 89.44% 99.95% Phiên LSTM kết hợp LSTM kỹ thuật dropout Nó sử dụng loại hàm mát tối ưu giống LSTM Nhưng kết hợp với dropout nên có kiến trúc với LSTM LSTM Trong LSTM 5, sử dụng giá trị 67 CHƯƠNG 4: XÂY DỰNG MƠ HÌNH mặc định cho số lượng batch 32, epochs 10 khơng dùng validation_split Hình 4.13 minh họa trình huấn luyện LSTM Hình 13 Q trình huấn luyện LSTM Kết dự đốn theo LSTM có 9657 trường hợp TN, 11981 trường hợp TP, 852 trường hợp FN 54 trường hợp FP Giá trị recall precision tính trưởng hợp 93.36% 99.55% Tổng thời gian thực q trình huấn luyện mơ hình LSTM thường dao động từ 55 phút đến 65 phút Q trình dự đốn tập thử nghiệm khoảng phút Quan sát thực nghiệm trường hợp phân loại nhị phân, thấy LSTM cho kết cao 4.5 KẾT QUẢ VÀ ĐÁNH GIÁ So sánh trước sau tiến hành lựa chọn thuộc tính, kết phân loại thay đổi nhiều, với mơ hình LSTM Độ xác tăng từ 78.93% lên khoảng 98%, tăng khoảng 24% So với mức tăng nhiều LSTM Logistic Regression tăng thêm khoảng 1% (từ 96.98% tăng lên 98.07%) Điều cho chứng tỏ quan trọng trình tiền xử lý lĩnh học máy, học sâu đặc biệt thực nghiệm mơ hình phức tạp mạng nơ-ron Bảng Tổng hợp kết thực nghiệm Thơng số Thuật tốn Logistic Regression (khơng lựa chọn thuộc tính) 68 Accuracy F1-score 96.98% 97.29% CHƯƠNG 4: XÂY DỰNG MƠ HÌNH LSTM 78.93% 78.54% Random Forest 98.24% 98.43% Logistic Regression 98.07% 98.28% Bernoulli Naive Bayes 96.13% 96.71% SVM 97.46% 97.75% LSTM 94.77% 95.30% LSTM 99.40% 99.47% LSTM 96.67% 96.69% LSTM 93.96% 94.40% LSTM 95.98% 96.36% (không lựa chọn thuộc tính) Quan sát kết thực nghiệm tổng hợp minh họa bảng 4.8, thấy phiên LSTM mang kết cao Cụ thể, quan sát thêm kết độ xác q trình huấn luyện hình 4.14 Hình 14 Biểu đồ thể độ xác huấn luyện với LSTM LSTM sử dụng tham số “validation_split”, nên phần liệu huấn luyện chia thành phần “train” “validation” Trong hình 4.14, đường màu xanh thể độ xác phần “train” đường màu cam thể độ xác phần “validation” 10 epoch Rõ ràng, giá trị độ xác hai phần liệu khơng lệch mấy, độ lệch lớn rơi vào epoch vào khoảng 0.03% 69 CHƯƠNG 4: XÂY DỰNG MƠ HÌNH Khi dự đốn liệu thử nghiệm, độ xác đạt 99.4% Cả phần huấn luyện lẫn thử nhiệm có kết cao khơng lệch nhiều Tuy LSTM (LSTM 2) cho kết cao thấy mức chênh lệch kết sử dụng thuật toán cổ điển mơ hình LSTM khơng nhiều Có thể nói, kết hai cao độ xác F1-score xấp xỉ 100% Chúng tơi nghĩ rằng, lí khiến kết tốt liệu NSL-KDD chuyên gia đánh giá tốt sau cải tiến từ KDD 1999 Mặt khác, việc chúng tơi xử lí tốn cách đưa dạng phân loại nhị phân lí khác Trong dạng phân loại nhị phân, điều quan tâm đối tượng kết nối trạng thái bình thường hay bị công Khi ấy, việc phân bố nhãn kết nối cân tạo điều kiện thuận lợi để xử lí tốn Tuy kết thực nghiệm LSTM chưa thể đáp ứng kì vọng ban đầu, xét nhiệm vụ xử lí phân loại cho tốn hoạt động tốt 70 KẾT LUẬN PHẦN 3: KẾT LUẬN ĐÓNG GÓP o Về mặt lý thuyết - Tìm kiểu số kĩ thuật ứng dụng q trình tiền xử lí liệu mã hóa one-hot, sử dụng CFS lựa chọn thuộc tính, … - Tìm hiểu WEKA lựa chọn thuộc tính - Có thêm nhiều kiến thức mơi trường Colab - Tìm hiểu mơ hình mạng nơ-ron học sâu (RNN, LSTM) o Về mặt ứng dụng - Sử dụng đơn giản WEKA lựa chọn thuộc tính - Sử dụng Colab để thực thử nghiệm - Xây dựng mơ hình mạng nơ-ron LSTM phát xâm nhập mạng HẠN CHẾ Quan sát kết thực nghiệm, so với mô hình LSTM chúng tơi thấy với thuật toán cổ điển mang lại kết cao toán phân loại Mặt khác, liệu sử dụng không lớn nên chưa thể đại diện cho toàn liệu thực tế, khó đưa giải thích cho vấn đề thực tiễn HƯỚNG PHÁT TRIỂN Thay quan tâm đối tượng kết nối trạng thái bình thường hay bị cơng, chúng tơi muốn biết bị cơng xác thuộc loại (Dos, Probe, R2L U2R) Tức từ tốn phân loại nhị phân, chúng tơi giải toán theo hướng phân loại đa nhãn Tuy nhiên, cân nhãn vấn đề rắc rối nhiều thời gian để xử lí Mặt khác, chúng tơi mong đợi sử dụng mạng nơ-ron GRU (Gated Recurrent Unit), biến thể LSTM giải toán đưa so sánh với LSTM 71 KẾT LUẬN DANH MỤC THAM KHẢO B T t iSpace, “Tấn công mạng gì?,” [Trực tuyến] Available: [1] https://ispace.edu.vn/tong-quan-ve-tan-cong-mang/ [Đã truy cập 04 2022] Công ty Luật Dương Gia, “Tấn công mạng gì? Quy định phịng, [2] chống cơng mạng?,” 15 2022 [Trực tuyến] Available: https://luatduonggia.vn/tan-cong-mang-la-gi-quy-dinh-phong-chong-tancong-mang/ [Đã truy cập 20 2022] H T M Ngọc, “Tấn công phát tán Malware hình thức cơng [3] gì?,” 27 04 2021 [Trực tuyến] Available: https://nhanhoa.com/tintuc/tan-cong-phat-tan-malware-la-hinh-thuc-tan-cong-gi.html [Đã truy cập 04 2022] vietnix, [4] “DDoS gì?,” [Trực tuyến] Available: https://vietnix.vn/ddos-la-gi/ [Đã truy cập 04 2022] Q Tỉnh, “Tấn công từ chối dịch vụ DoS DDoS gì? Tác hại [5] chúng sao?,” [Trực tuyến] Available: https://quantrimang.com/tim-hieu-ve-tan-cong-tu-choi-dich-vu-dos34926 [Đã truy cập 2022] hostingviet, “Tường Lửa (Firewall) Là Gì? Chức Năng Và Cách [6] Thiết Lập Firewall,” [Trực tuyến] Available: https://hostingviet.vn/tuong-lua-firewall-la-gi [Đã truy cập 04 2022] [7] monamedia, “Mạng riêng ảo VPN gì?,” [Trực tuyến] Available: https://monamedia.co/vpn-la-gi-tong-quan-ve-mang-rieng-ao-vpn/ [Đã truy cập 04 2022] [8] quantrimang, “Hệ thống phát xâm nhập (IDS) (Phần 1),” [Trực tuyến] Available: https://quantrimang.com/he-thong-phat-hienxam-pham-ids-phan-1-37334 [Đã truy cập 04 2022] [9] J Brownlee, “A Tour of Machine Learning Algorithms,” 72 KẾT LUẬN machinelearningmastery, 12 2019 [Trực tuyến] Available: https://machinelearningmastery.com/a-tour-of-machine-learningalgorithms/ [Đã truy cập 05 2022] H C Trung, “Giới thiệu Support Vector Machine (SVM),” 20 [10] 2020 [Trực tuyến] Available: https://viblo.asia/p/gioi-thieu-ve-supportvector-machine-svm-6J3ZgPVElmB [Đã truy cập 05 2022] quantrimang, “Machine learning gì? Deep learning gì? Sự [11] khác biệt AI, machine learning deep learning,” [Trực tuyến] Available: https://quantrimang.com/su-khac-biet-giua-ai-hoc-may-va- hoc-sau-157948 [Đã truy cập 05 2022] N T Long, “Mạng nơ-ron nhân tạo (Artificial Neural Network),” [12] 2019 [Trực tuyến] Available: https://nguyentruonglong.net/lythuyet-ve-mang-no-ron-nhan-tao-artificial-neural-network-ann.html [Đã truy cập 2022] ITNavi, “Tổng quan Neural Network(mạng Nơ Ron nhân tạo) [13] gì?,” 13 2021 [Trực tuyến] Available: https://itnavi.com.vn/blog/neural-network-la-gi/ [Đã truy cập 05 2022] R Keim, “How to Use a Simple Perceptron Neural Network [14] Example to Classify Data,” 17 11 2019 [Trực tuyến] Available: https://www.allaboutcircuits.com/technical-articles/how-to-performclassification-using-a-neural-network-a-simple-perceptron-example/ [Đã truy cập 05 2022] Y W Q L T W C L Z , S W Xiujuan Wang, “RSC [15] Advances,” Prediction of the stress relaxation property of diene rubber composites by artificial neural network approaches, 2015 Wikipedia, “Recurrent neural network,” [Trực tuyến] Available: [16] https://en.wikipedia.org/wiki/Recurrent_neural_network [Đã truy cập 05 2022] [17] S A Afshine Amidi, “Mạng neural hồi quy cheatsheet,” stanford.edu, [Trực 73 tuyến] Available: KẾT LUẬN https://stanford.edu/~shervine/l/vi/teaching/cs-230/cheatsheet-recurrentneural-networks [Đã truy cập 05 2022] cs231n, “Introduction to RNN,” [Trực tuyến] Available: [18] https://cs231n.github.io/rnn/ [Đã truy cập 05 2022] ProtonX, “Youtube,” 24 2020 [Trực tuyến] Available: [19] https://www.youtube.com/watch?v=t0EoeTYU-fc [Đã truy cập 05 2022] N T Long, “Giải thích chi tiết mạng Long Short-Term Memory [20] (LSTM),” 18 10 2018 [Trực tuyến] Available: https://nguyentruonglong.net/giai-thich-chi-tiet-ve-mang-long-short-termmemory-lstm.html [Đã truy cập 2022] codelearn, “Google Colab Là Gì Và Dùng Để Làm Gì?,” 06 [21] 2020 [Trực tuyến] Available: https://codelearn.io/sharing/google-colabla-gi [Đã truy cập 06 2022] N V Hiếu, “Bài – Tổng quan thư viện Tensorflow,” [Trực [22] tuyến] Available: https://nguyenvanhieu.vn/thu-vien-tensorflow/#thu- vien-tensorflow-la-gi [Đã truy cập 06 2022] codelearn, “Thư Viện Scikit-learn Trong Python Là Gì?,” 06 02 [23] 2020 [Trực tuyến] Available: https://codelearn.io/sharing/scikit-learntrong-python-la-gi [Đã truy cập 2022] M I a E G M I Anna L Buczak, “A Survey of Data Mining [24] and Machine Learning,” A Survey of Data Mining and Machine Learning Methods for Cyber Security Intrusion Detection, tập II, số 1553-877X, 2016 [25] UNB, “NSL-KDD dataset,” [Trực tuyến] Available: https://www.unb.ca/cic/datasets/nsl.html [Đã truy cập 06 2022] [26] T D Tan, “Viblo - Mơ hình phân lớp Naive Bayes,” 22 2019 [Trực tuyến] Available: https://viblo.asia/p/mo-hinh-phan-lop-naivebayes-vyDZO0A7lwj [Đã truy cập 2022] [27] Funda, “Bài 32: Naive Bayes Classifier,” 8 2017 [Trực tuyến] 74 KẾT LUẬN Available: https://machinelearningcoban.com/2017/08/08/nbc/ [Đã truy cập 2022] [28] phamdinhkhanh, “Hồi qui Logistic,” [Trực tuyến] Available: https://phamdinhkhanh.github.io/deepaibook/ch_ml/classification.html#xac-suat-cua-logistic-va-phan-phoibernoulli [Đã truy cập 2022] [29] nttuan8, 2019 [Trực tuyến] Available: https://nttuan8.com/bai-2-logistic-regression/ [Đã truy cập 2022] [30] trituenhantao, “Thuật ngữ Deep Learning,” 2019 [Trực tuyến] Available: https://trituenhantao.io/kien-thuc/thuat-ngu-ve-deeplearning-cho-linh-moi-phan-1/ [Đã truy cập 2022] [31] T Wood, “What is a Random Forest?,” [Trực tuyến] Available: https://deepai.org/machine-learning-glossary-and-terms/random-forest [Đã truy cập 06 2022] 75 S K L 0

Định dạng
Số trang	91
Dung lượng	5,23 MB