luận án tiến sĩ phát triển một số mô hình phát hiện bất thường mạng dựa trên học sâu và tổng hợp dữ liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG BÙI CƠNG THÀNH PHÁT TRIỂN MỘT SỐ MƠ HÌNH PHÁT HIỆN BẤT THƯỜNG MẠNG DỰA TRÊN HỌC SÂU VÀ TỔNG HỢP DỮ LIỆU LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI – 2021 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG BÙI CƠNG THÀNH PHÁT TRIỂN MỘT SỐ MƠ HÌNH PHÁT HIỆN BẤT THƯỜNG MẠNG DỰA TRÊN HỌC SÂU VÀ TỔNG HỢP DỮ LIỆU CHUYÊN NGÀNH MÃ SỐ: : 9.48.01.04 : HỆ THỐNG THÔNG TIN LUẬN ÁN TIẾN SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG MINH PGS TS NGUYỄN QUANG UY HÀ NỘI – 2021 i TÓM TẮT Sự phát triển nhanh mạng máy tính IoT (sau gọi mạng) dịch vụ hạ tầng kéo theo thách thức lớn vấn đề bảo đảm an ninh mạng Tìm kiếm giải pháp phát công mạng nhiệm vụ trọng tâm cho bảo vệ an ninh mạng, phát bất thường mạng (Network Anomaly Detection -NAD) nhiều học giả quan tâm nghiên cứu năm qua NAD lĩnh vực nghiên cứu để tìm giải pháp hiệu phân tách trạng thái bình thường bất thường mạng Học máy biết phương pháp chủ yếu cho xây dựng thuật tốn phát bất thường Các mơ hình học máy huấn luyện với liệu bình thường hay cịn gọi phân đơn lớp (One-class Classification OCC) cho lựa chọn phù hợp cho thấy kết phát bất thường hiệu Những năm gần đây, phát triển kỹ thuật học sâu (deep learning) mạng lại nhiều thành tựu lĩnh vực, học sâu dựa kiến trúc AutoEncoders (AE) công nhận rộng rãi phương pháp tiên tiến, có khả giải vấn đề phức tạp phát bất thường mạng, tiêu biểu SAE (Shrink AutoEncoder) Mặc dù vậy, phương pháp NAD cần phải liên tục nghiên cứu cải tiến để đáp ứng tốt mà nguy đe doạ an ninh mạng ngày tăng Thêm vào đó, phương pháp NAD đơn lẻ dựa OCC nhìn chung phải đối mặt với số thách thức khác như: phương pháp đơn cho hiệu điều kiện môi trường mạng cụ thể; phương pháp OCC cần hỗ trợ chuyên gia để đưa ngưỡng định, u cầu mơ hình phát công triển khai thực tế Luận án hướng tới mục tiêu nghiên cứu cải tiến phương pháp phát bất thường mạng theo hướng giải số vấn đề đặt Kết số ii nội dung thực gồm (i) Đã đề xuất giải pháp cho cải tiến số hạn chế phương pháp học sâu NAD tiêu biểu, thuật toán cải tiến cho phép xây dựng mơ hình NAD hiệu điều kiện liệu đối tượng quan sát có tính phân cụm cao, tồn dạng nhiều cụm; phát hiệu nhóm cơng mạng mà mơ hình tiêu biểu dựa học sâu AutoEncoder gặp khó (ii) Luận án đề xuất mơ hình khung tổng hợp liệu, có tên OFuseAD, cho tốn phát bất thường Mơ hình đạt từ kết cải tiến lý thuyết Dempster-Shafer, giải thách thức kết hợp phương pháp OCC xác định ngưỡng, trọng số cho kết hợp, sở chọn lựa phương pháp đơn tham gia mô hình tổng hợp Kết thử nghiệm mơ hình OFuseAD mười tập liệu phổ biến lĩnh vực an ninh mạng cho thấy mơ hình hoạt động khả thi, cho hiệu phát bất thường hiệu quả, ổn định so với phương pháp đơn OCC đa số tập liệu (9/10 tập liệu thực nghiệm) Ngồi ra, mơ hình OFuseAD hoạt động mà không cần can thiệp cuả chuyên gia thiết lập ngưỡng định Các vấn đề luận án nghiên cứu, giải Các đóng góp luận án cơng bố cơng trình khoa học có uy tín Trong hiểu biết nghiên cứu sinh, đóng góp luận án không trùng với kết nghiên cứu cơng bố ngồi nước iii LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận án kết nghiên cứu thực tác giả hướng dẫn thầy hướng dẫn khoa học Luận án sử dụng trích dẫn thơng tin từ nhiều nguồn khác có nguồn gốc rõ ràng Những đóng góp luận án công bố báo tác giả chưa cơng bố cơng trình khoa học khác Hà Nội, ngày tháng năm 2021 iv LỜI CẢM ƠN Thực luận án Tiến sĩ đòi hỏi nghiên cứu sinh phải tập trung cao độ, thời gian dài Kết nghiên cứu NCS góp sức lớn từ thầy hướng dẫn khoa học, sở đào tạo, quan công tác, đồng nghiệp đặc biệt gia đình Tơi muốn bày tỏ lòng biết ơn họ Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo PGS.TS Hoàng Minh PGS.TS Nguyễn Quang Uy tận tình hướng dẫn, trang bị kiến thức khoa học phương pháp nghiên cứu để hồn thành nội dung nghiên cứu luận án Tơi xin cảm ơn TS Cao Văn Lợi góp ý hữu ích, giúp tơi thêm động lực nghiên cứu Nghiên cứu sinh xin bày tỏ lòng biết ơn chân thành tới Học viện Cơng nghệ Bưu Viễn thông, Khoa Sau đại học, thầy cô giáo giúp đỡ tơi suốt q trình tham gia học tập Nghiên cứu sinh xin bày tỏ lòng biết ơn đến BTL Thông tin liên lạc, Thủ trưởng đồng chí Trung tâm Kỹ thuật thơng tin cơng nghệ cao giúp đỡ, tạo điều kiện thời gian cho Cuối cùng, nghiên cứu sinh vô biết ơn đến gia đình bạn bè người thân, bố mẹ hai bên ln động viên khích lệ tơi, vợ tơi Đặng Thị Bích ln cổ vũ động viên, chăm sóc gia đình để tơi yên tâm nghiên cứu hoàn thành luận án NCS Bùi Cơng Thành v MỤC LỤC TĨM TẮT LỜI CAM ĐOAN i iii LỜI CẢM ƠN iv MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT viii DANH MỤC CÁC BẢNG BIỂU xii DANH MỤC CÁC HÌNH VẼ xii PHẦN MỞ ĐẦU Giới thiệu Tính cấp thiết luận án 1 3 Phát biểu toán Mục tiêu luận án 10 Đối tượng Phạm vi luận án 11 Phương pháp nghiên cứu 11 Đóng góp luận án 12 Bố cục luận án 12 CHƯƠNG TỔNG QUAN VỀ PHÁT HIỆN BẤT THƯỜNG MẠNG 1.1 Hệ thống phát bất thường mạng 13 13 1.1.1 Khái niệm 13 1.1.2 Mơ hình phát bất thường mạng 15 1.1.3 Lưu lượng mạng 18 1.1.4 Đầu mơ hình NAD 19 1.2 Một số phương pháp đơn cho phát bất thường mạng 20 vi 1.2.1 Một số phương pháp OCC truyền thống 21 1.2.2 Phương pháp OCC học sâu 29 1.3 Phát bất thường dựa tổng hợp, kết hợp 35 1.3.1 Tổng hợp theo lai ghép 36 1.3.2 Tổng hợp theo học cộng đồng 36 1.3.3 Tổng hợp liệu 38 1.3.4 Tổng hợp liệu dựa lý thuyết Dempster-Shafer 40 1.4 Đánh giá giải pháp 46 1.4.1 Bộ liệu cho kiểm thử 46 1.4.2 Các số đánh giá 50 1.5 Kết luận CHƯƠNG 54 PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN HỌC SÂU AUTOENCODER 56 2.1 Giới thiệu 56 2.2 Giải pháp đề xuất 58 2.2.1 Giải pháp Clustering-Shrink AutoEncoder 59 2.2.2 Giải pháp Double-shrink AutoEncoder 61 2.3 Thực nghiệm 65 2.3.1 Dữ liệu thực nghiệm 65 2.3.2 Phương pháp xác định số cụm tối ưu 66 2.3.3 Thiết lập tham số thực nghiệm 67 2.4 Kết đánh giá 68 2.5 Kết luận 79 CHƯƠNG PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN TỔNG HỢP DỮ LIỆU 82 3.1 Giới thiệu 82 3.2 Giải pháp đề xuất 86 3.2.1 Các thành phần phương pháp OFuseAD 86 vii 3.2.2 Cơ chế hoạt động OFuseAD 3.3 Thực nghiệm 97 98 3.3.1 Dữ liệu thực nghiệm 98 3.3.2 Thiết lập tham số thực nghiệm 98 3.4 Kết đánh giá 99 3.5 Kết luận 109 KẾT LUẬN Một số kết luận án 112 113 Một số giới hạn luận án 114 Hướng nghiên cứu tương lai 115 CÁC CƠNG TRÌNH LIÊN QUAN ĐẾN LUẬN ÁN TÀI LIỆU THAM KHẢO 116 118 viii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Viết đầy đủ Nghĩa ACC AD Accuracy Anomaly Detection Chỉ số độ xác Phát bất thường AE AutoEncoder Kiến trúc mạng nơ-ron AutoEncoder ANN Artificial Neural Net- Mạng nơ-ron nhân tạo work AS Anomaly Score BPA Basic Probability AUC Độ đo bất thường As- Hàm gán trọng số lý thuyết signment D-S Area Under the Curve Chỉ số đo dựa diện tích đường cong ROC Bayes A Bayesian Inference Suy luận Bayes CEN Centroid Thuật toán Centroid CNN Convolution Neural Mạng nơ-ron tích chập Network KSAE Clustering-Shrink Mơ hình kết hợp phân cụm SAE Autoencoder CTU Czech Technical Univer- Đại học kỹ thuật Séc sity DAE Denoising Autoencoder Mạng giảm nhiễu AE DARPA Defence Advanced Re- Tổ chức DARPA search Project Agency DBN Deep Belief Network Mạng niềm tin theo học sâu DeAE Deep AutoEncoder Mạng nơ-ron học sâu AE cân ba thành phần hàm mát DSAE 65 2.3 Thực nghiệm Phần mô tả việc triển khai thực nghiệm, bao gồm liệu thiết lập tham số cho thực nghiệm 2.3.1 Dữ liệu thực nghiệm Với mục đích kiểm thử để đánh giá phương pháp, thuật toán đề Quá trình thực nghiệm sử dụng liệu phổ biến đại lĩnh vực an ninh mạng, liệu giới thiệu phần 1.4.1 Bao gồm, sử dụng 04 liệu thuộc tập CTU13 [42] công bố năm 2014, liệu mạng thực UNSW-NB15 [75] công bố năm 2015 liệu NSL-KDD [97] công bố năm 2009 Trong thực nghiệm, tất loại công xem bất thường (Anomaly), cịn lại liệu bình thường (Normal), chi tiết Bảng 2.1 Bảng 2.1: Các liệu sử dụng cho thực nghiệm Bộ Số chiều nguyên bản/ liệu sau one-hot encoding NSLKDD 44/122 UNSW-NB15 47/196 CTU13_08 16/40 CTU13_09 16/41 CTU13_10 16/38 CTU13_13 16/40 Tập Tập kiểm tra huấn luyện Bình thường Bất thường 67343 9711 12833 56000 37000 45332 29128 43694 3677 11986 17981 110998 6338 9509 63812 12775 19164 24002 Với thực nghiệm để so sánh hiệu mơ hình nhóm công mạng khác Luận án chọn cách phân tách cơng mạng thành bốn nhóm, bao gồm Từ chối dịch vụ (Denial of service - DoS), Từ xa vào nội (Remote to Local - R2L), Leo thang đặc quyền (User to Local - U2R), Dò quyét (Probe) [3], [56] Lý cách phân nhóm thể nhóm cơng khác nhau, chấp nhận rộng rãi từ lâu Thực nghiệm sử dụng 66 tập liệu NSL-KDD, đánh giá phù hợp cho nghiên cứu lĩnh vực an ninh mạng học máy [13], [17] [35], biết tập liệu phân tách theo bốn nhóm cơng Trong số nhóm cơng trên, R2L xem loại cơng khó phát thuật tốn học máy [71] R2L hoạt động dựa ẩn nội dung gói tin, liệu tạo không giống với loại công phổ biến khác DoS Probe Đó nguyên nhân dẫn đến liệu lưu lượng mạng hình thành từ cơng R2L có thuộc tính tương tự với lưu lượng mạng bình thường khác [3], [56], [71] Với tập liệu nhóm cơng R2L, có 995 mẫu tập KDDTrain+, làm tập huấn luyện 2887 mẫu tập KDDTest+, làm tập kiểm tra 2.3.2 Phương pháp xác định số cụm tối ưu Trong ứng dụng thuật toán phân cụm, việc liệu có nên phân thành cụm nhỏ hay khơng nên chia thành cụm liệu vấn đề cần phải giải Giải pháp yêu cầu trả lời câu hỏi, tập liệu có tính phân cụm không, số cụm tối ưu K nên phân Đây tham số đầu vào cho mơ hình KSAE mơ tả Thuật tốn 2.1 Có nhiều phương pháp để xác định số cụm tối ưu, phổ biến Elbow, cho phép xác định số K tối ưu dựa vào trực quan biểu đồ Theo phương pháp khủy tay (Elbow), đồ thị 2D biểu diễn trục hồnh số cụm dự kiến chia (ví dụ từ 1-5), trục tung biểu diễn tổng bình phương khoảng cách (Within-cluster Sum of Square - WSS) tất điểm đến trung tâm cụm Cj Số K tối ưu xác định ứng với điểm trục hồnh đồ thị tạo nên khủy tay, Cơng thức cho xác định WSS theo sau, W SSk = k X r=1 Dr nr (2.9) 67 k số cụm, nr số điểm liệu cụm r, Dr tổng số khoảng cách tất điểm cụm, tính theo Công thức 2.10 sau, nR −1 nR kx − x k Dr = i j (2.10) XX i=1 j=1 2.3.3 Thiết lập tham số thực nghiệm Thuật toán K-means sử dụng thuật toán phân cụm cho thực nghiệm mơ hình KSAE Các tham số mạng nơ-ron chọn theo [20], số lượng lớp ẩn cho mạng nơ-ron 5, kích thước lớp ẩn trung √ tâm, l, chọn theo khuyến nghị [18], l = [1 + d], d số thuộc tính đầu vào Tập batch (kích thước nhóm huấn luyện) có kích thước 100, sử dụng hàm kích hoạt ngược (hyperbolic tangent) cho tất lớp Trọng số mạng nơ-ron khởi tạo theo phương pháp Xavier [46] Trong q trình tối ưu thuật tốn đạo hàm lặp ADADELTA [115] Mỗi mơ hình huấn luyện 1000 chu kỳ (epochs), kỹ thuật dừng sớm huấn luyện (early stopping) thực khơng có bất có cải tiến giảm giá trị hàm mát sau 10(mười) epochs Trong thực nghiệm, mơ hình DSAE sử dụng α = 10 khuyến nghị Cao et al [20], β = 0.001 giá trị phổ biến thường chọn nghiên cứu [64] Việc cài đặt thực nghiệm tiến hành ngôn ngữ Python 3.0, công cụ phát triển Jupyter Notebook, tảng Tensorflow cho cài đặt mạng nơron, thư viện Sklearn, Numpy pandas cho cài đặt thuật tốn Kết thực nghiệm thực máy tính có hệ điều hành MAC OS 10.14.3, cấu hình: Intel(R) Core (TM) i5, 8GB DDR3 68 2.4 Kết đánh giá Đánh giá dựa kết thực nghiệm KSAE: Với giả định đặt ra, mơ hình mạng nơ-ron học sâu tiêu biểu, SAE, hoạt động không hiệu liệu hữu nhiều cụm Luận án đề xuất khắc phục sở đề xuất thuật toán kết hợp kỹ thuật phân cụm SAE, gọi KSAE trình bày phần 2.2 Việc thực nghiệm đánh giá thực theo hai bước Bước để so sánh hiệu phương pháp đề xuất với với mơ hình mạng nơ-ron học sâu tiêu biểu tại, SAE [20] Sau đó, phân tích tính phân cụm có liệu thực nghiệm để đối chiếu lại kết thực nghiệm bước Với thực nghiệm thứ nhất, chưa có sở xác định ngưỡng định số AUC (Area Under the Curve) sử dụng để so sánh khả phát bất thường hai mơ hình Các liệu chia thành số cụm K = (1, 2, 3) thực nghiệm Một điểm lưu ý rằng, với trường hợp K=1, lúc mơ hình KSAE hồn tồn đồng với SAE Các mơ hình sử dụng CEN [17] để tính độ đo bất thường Bản chất CEN cung cấp độ đo bất thường, giá trị tương ứng với khoảng cách từ vector đầu vào tới gốc toạ độ Bảng 2.2: Kết AUC KSAE tập liệu Số Tập liệu cụm K NSL-KDD K=1 K=2 K=3 0.941 0.962 0.879 UNSW CTU13-09 CTU13-10 CTU13-13 0.887 0.885 0.858 0.923 0.935 0.946 0.998 0.989 0.965 0.931 0.933 0.962 Có thể nhận thấy rằng, với giá trị K phù hợp, mơ hình đề xuất có khả phát cải tiến so với SAE Cụ thể kết ứng với mơ hình kiểm tra 69 Bảng 2.2 cho thấy, mơ hình đề xuất có kết tốt tập liệu Ví dụ, với NSL-KDD, AUC cho KSAE tăng từ 0.941 đến 0.962 với K= Tuy vậy, hai liệu cịn lại (UNSW-NB15 CTU13_10), hiệu KSAE khơng tốt SAE Điều khơng ngạc nhiên kết bước thực nghiệm thứ hai cho thấy, UNSW-NB15 CTU13-10 tồn dạng cụm Điều giải thích sao, sử dụng thuật tốn phân cụm kết hợp SAE không giúp cho cải thiện độ xác SAE phát bất thường Hình 2.5: Kết phương pháp Elbow tập liệu Thực nghiệm thứ hai để kiểm tra lại tính phân cụm tập liệu sử dụng cho thực nghiệm, với liệu số cụm tối ưu K phân Sử dụng kỹ thuật Elbow để ước lượng số cụm tối ưu mà liệu nên tách trước ứng dụng SAE Kết Elbow đối chiếu với thực tế thực nghiệm bước để đánh giá tính đồng Kết thực nghiệm theo phương pháp Elbow liệu, qua lần thử, lần thử tính K = (1 đến 5) tập lấy mẫu ngẫu nhiên 10% liệu tập huấn luyện NSL-KDD, UNSW-NB15 20% liệu thuộc 70 nhóm CTU13, kết cho thấy độ ổn định lần thử khác Sơ đồ thể vị trí Elbow thực nghiệm liệu cho lần thử thứ thể Hình 2.5 Theo với liệu UNSW-NB15, việc tách liệu thành K cụm khác (với K từ đến 5) thể không rõ phương pháp Elbow, điều đồng với kết bước thực nghiệm thứ Bảng 2.2 Đó liệu UNSW-NB15 hữu tốt cụm nhất, lý giải cho vấn đề với liệu UNSW-NB15 KSAE khơng tốt SAE Cịn với liệu lại, CTU13_9, CTU13_13 thể rõ Elbow vị trí K= 3, cịn NLS-KDD thể Elbow K= Kết hỗ trợ cho kết bước thực nghiệm thứ Bảng 2.2 Riêng với liệu CTU13_10 đường cong Elbow thể thay đổi rõ nét K= K= nhiên hiệu KSAE lại khơng tốt SAE vị trí K Vấn đề xuất phát từ ảnh hưởng độ phân mảnh (sparity) tới đồng kết Elbwo KSAE, CTU13_10 có độ phân mảnh 0.71, UNSW-NB15 NSL-KDD tương ứng 0.84 0.88 Tổng quan lại, mơ hình đề xuất KSAE cho thấy khả cải tiến hiệu phát bất thường so với mơ hình SAE hoạt động với liệu hữu nhiều cụm Thêm vào đó, sử dụng phương pháp Elbow để đánh giá, tính tốn số cụm hữu tập liệu quan sát Kết cho thấy phương pháp kết hợp phân cụm SAE giúp cho mơ hình mạng nơ-ron học sâu khắc phục hạn chế làm việc với liệu hữu nhiều cụm Đánh giá dựa kết thực nghiệm DSAE: Với giả định đặt ra, mơ hình mạng nơ-ron học sâu tiêu biểu, mơ hình SAE, gặp khó khăn với số loại công, Luận án đề xuất giải pháp phát triển tử SAE có tên DSAE trình bày 2.2 Để kiểm chứng giải pháp, trình thực nghiệm tiến hành theo hai bước Thực nghiệm thứ để so sánh khả phát bất thường DSAE với mơ hình 71 tiên tiến NAD sử dụng mạng nơ-ron học sâu, bao gồm SAE [20] Denoising AutoEncoder (DAE) [109] Thực nghiệm thứ hai để đánh giá mức độ hiệu hai mơ hình DSAE SAE nhóm cơng mạng SAE gặp khó Để đánh giá hiệu mơ hình NAD, số AUC (Area Under the ROC Curve) sử dụng Giá trị AUC lớn chứng tỏ mơ hình có khả phát bất thường tốt Ngoài ra, đánh giá mơ hình ngưỡng cụ thể, số TP, FP, FN, TN cặp số DR, FAR sử dụng để so sánh tính hiệu mơ hình nhóm cơng cụ thể Bảng 2.3: AUC từ mơ hình DAE, SAE, DSAE sáu tập liệu Phương pháp NSLKDD DAE + CEN DAE+RE SAE +CEN SAE+RE DSAE + CEN 0.854 ±0.002 0.930±0.090 0.960 ±0.002 0.920 ±0.000 0.963 ±0.004 UNSW 0.690 ±0.001 0.873±0.004 0.896 ±0.006 0.810 ±0.001 0.895 ±0.015 Tập liệu CTU13-08 CTU13-09 0.938 ±0.015 0.960±0.011 0.982 ±0.009 0.951 ±0.013 0.986 ±0.012 DAE: Denoising AutoEncoder; CTU13-10 0.655±0.031 0.951±0.006 0.903±0.002 0.958±0.004 0.940 ±0.010 0.997 ±0.001 0.703 ±0.020 0.997 ±0.000 0.929 ±0.054 0.992 ±0.008 CTU13-13 0.711±0.002 0.952±0.010 0.964 ±0.012 0.887 ±0.005 0.971 ±0.006 SAE: Shrink AutoEncoder [20] Trong thực nghiệm thứ để so sánh hiệu DSAE với SAE DAE liệu phổ biến, tiếng lĩnh vực an ninh mạng Kết trình bày Bảng 2.3, với DAE SAE trình bày hai phiên kết Phiên thứ nhất, (DAE+RE SAE+RE) sử dụng RE đơn vị đo độ bất thường Phiên lại, sử dụng CEN vector lớp ẩn DAE SAE Với DSAE, trình bày kết DSAE+CEN, kết DSAE+RE không nhiều ý nghĩa cho so sánh Từ Bảng 2.3 cho thấy AUC SAE DSAE tương đương hầu hết tập liệu kiểm thử, giá trị tốt DAE Kết khẳng định rằng, mơ hình đề xuất có khả phát bất thường so sánh với mơ hình SAE, hiệu DAE Kết thực nghiệm thứ hai cho thấy sau Bảng 2.4 trình bày kết 72 Bảng 2.4: AUC từ SAE, DSAE bốn nhóm cơng tập liệu NSL-KDD Phương pháp Probe Tập dữu liệu DoS R2L U2R SAE + CEN 0.977 ±0.003 0.967 ±0.002 0.924 ±0.010 0.956 ±0.005 DSAE + CEN 0.979 ±0.006 0.966 ±0.007 0.936 ±0.011 0.960 ±0.010 SAE + CEN: Shrink AutoEncoder Centroid [20] Bảng 2.5: Kết DR, FAR SAE DSAE nhóm công R2L Phương pháp TP SAE + CEN DSAE + CEN 1892 2011 FP Dữ liệu nhóm cơng R2L FN TN FAR DETECTION RATE 1008 995 8702 0.104 989 876 8721 0.102 0.655 0.697 SAE + CEN: Shrink AutoEncoder Centroid [20] DSAE SAE bốn nhóm công NSL-KDD Số liệu chứng tỏ DSAE cho khả phát so sánh với SAE ba nhóm cơng (Probe, DoS, U2R) Tuy nhiên, nhóm cơng khó R2L, DSAE (AUC ≈ 0.936) cho kết ấn tượng với SAE (AUC ≈ 0.924) Khi xem xét đường ROC hai mô Hình 2.6 cho thấy, đỉnh đường cong ROC theo mơ hình DSAE hướng gần tới đỉnh (0,1) so với đỉnh đường cong ROC mơ hình SAE 73 ng cong ROC Shrink AE 1.0 0.8 0.8 T l d ng tính th t T l d ng tính th t ng cong ROC Douple-Shrink AE 1.0 0.6 0.4 0.2 SAE+CEN (AUC = 0.924) 0.0 0.0 0.2 0.4 0.6 T l d ng tính gi 0.8 1.0 0.6 0.4 0.2 DSAE+CEN (AUC = 0.938) 0.0 0.0 0.2 0.4 0.6 T l d ng tính gi 0.8 1.0 Hình 2.6: Giá trị AUC SAE, DSAE nhóm cơng R2L Kết thể DSAE cải thiện khả phát công mạng R2L, loại công hoạt động dựa ẩn nội dung gói tin cho liệu tương tự với lưu lượng mạng bình thường khác [3], [56], [71] Tính hiệu DSAE so với SAE nhóm cơng khác thể thơng qua chuyển dịch vector lớp ẩn tương ứng so với gốc toạ độ giá trị ngưỡng định Ngưỡng giá trị ứng với khoảng cách Euclid từ điểm liệu đến gốc toạ độ không gian lớp ẩn, tương ứng số phần trăm (t%) mẫu liệu tập huấn luyện tham gia kiểm tra bé giá trị này, nghĩa dự đốn "bình thường" Nhìn chung t thường chọn khoảng 90 − 97% [17] Số liệu trình bày thực nghiệm có (t%) tương ứng với 90%, theo [20] Như đề cập, công SAE gặp khó cơng cho vectơ lớp ẩn kiến trúc AE gần gốc toạ độ (bé ngưỡng) với giá trị sai số tái tạo RE bé lớn ngưỡng phân tách tương ứng Bảng 2.6 cho thấy, với công cho "RE lớn" mà SAE phân tách lỗi DSAE phân tách (26/26 mẫu với R2L) Còn đa số mẫu cơng khó với SAE mà cho "RE bé" DSAE phân tách đúng, cụ thể số mẫu phân tách đúng/số có RE 74 Bảng 2.6: Kết DSAE phân tách nhóm cơng SAE gặp khó Tấn cơng Nhóm cơng SAE gặp khó Tổng Probe DoS R2L U2R Tổng 434 146 586 RE bé 434 120 560 RE lớn 0 26 26 Các công SAE khó, DSAE phân tách Re bé RE lớn 327 95 418 0 26 26 Hình 2.7: Khơng gian lớp ẩn nhóm cơng Probe SAE, DSAE bé là: 95/120 với R2L; 3/6 với U2R; 327/434 với DoS Riêng Probe khơng cho thấy có mẫu khó với mơ hình SAE Để mơ tả đặc điểm phân bố liệu không gian lớp ẩn, giúp tường minh xu hướng dịch chuyển nhóm cơng thực thi mơ hình SAE DSAE Luận án sử dụng kỹ thuật minh hoạ vector không gian hai chiều dựa khoảng cách Euclid từ vector đến gốc toạ độ không gian lớp ẩn Khi minh hoạ biểu đồ hai chiều (2-D), toạ độ xi yi vector lớp ẩn zi tính tốn theo mơ tả Thuật tốn 2.2 Để tiện cho minh hoạ, với nhóm cơng có lớn 500 mẫu liệu, luận án lấy ngẫu nhiên 500 mẫu liệu cho biễu diễn, riêng nhóm cơng U2R lấy tồn 75 Thuật tốn 2.2 Minh hoạ vector (lớp ẩn AE) không gian chiều (2D) INPUT: Tập vector lớp ẩn Z OUTPUT: Tập toạ độ không gian 2-D, P 1: P ← [ ] 2: Lấy số phần tử tập cần minh hoạ, nu_max ← |Z| 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: i←0 while (i < nu_max) Tính khoảng cách đến gốc toạ độ, (dzi) ←kZ[i]k Giá trị ngẫu nhiên α ← Random [0 360] xi ← cos α dzi yi ← sin α dzi P ← p(xi, yi) i++ end while Trả P Hình 2.8: Khơng gian lớp ẩn nhóm cơng DoS SAE, DSAE Hình 2.9: Khơng gian lớp ẩn nhóm cơng R2L SAE, DSAE 76 Hình 2.10: Khơng gian lớp ẩn nhóm cơng U2R SAE, DSAE Số liệu minh hoạ chuyển dịch vector lớp ẩn thể Hình 2.7, 2.8, 2.9 2.10 Các vòng tròn màu vàng thể cho ngưỡng, ranh giới phân tách bình thường bất thường Các điểm màu đỏ thể mẫu liệu công, điểm màu xanh thể điểm cơng khó với SAE Quan sát hình cho thấy, mẫu cơng khó với SAE có vector lớp ẩn xu hướng bị đẩy xa gốc toạ độ thực thi DSAE, xảy 04 nhóm cơng Probe, Dos, R2L, U2R Thêm vào đó, nhóm cơng R2L cho phân bố vector lớp ấn khác hơn, mật độ dày đặc theo hướng gần gốc toạ độ Điều phù hợp với nhận định công R2L thường ẩn thơng tin mã độc nội dung gói tin, R2L có liệu giống với lưu lượng mạng bình thường làm cho R2L thường khó bị phát [56] Mô phù hợp với kết đề cập DSAE cho kết tốt SAE nhóm công R2L Để mô tả rõ hiệu DSAE SAE nhóm cơng mà DSAE thể mạnh hơn, cụ thể R2L, số độ xác sử dụng Bảng 2.5 trình bày giá trị False Alarm Rate (FAR) Detection rate (DR) SAE DSAE loại công R2L Kết tính tốn sử dụng ngưỡng định giá trị AS tập huấn luyện, 90% mẫu liệu tập huấn luyện tham gia kiểm thử cho bình thường Từ bảng cho thấy, với loại liệu R2L, DSAE thể hiệu SAE hai số DR FAR Cụ thể FAR DSAE vừa thấp so với SAE (0.102 77 Hình 2.11: Minh hoạ điểm bình thường phân lớp SAE lại phân lớp sai DSAE 0.104) DR DSAE lại cao nhiều so với SAE (0.697 0.655) Tổng thể lại, kết thực nghiệm cho thấy DSAE có hiệu tương đồng với SAE tập liệu loại công mạng phổ biến Nhưng DSAE cho thấy khả phát bất thường hiệu phương pháp NAD tiêu biểu dựa học sâu, cụ thể SAE, loại công R2L Mặc dù thực nghiệm cho thấy DSAE hiệu SAE cơng SAE gặp khó, chế hoạt động DSAE theo hướng cố để điều hướng vector lớp ẩn cơng khó xa gốc toạ độ không gian lớp ẩn Điều dẫn đến số mẫu liệu bình thường lần co thứ thực đúng, lần co sau bị SAE phân tách sai Khi quan sát mẫu liệu bình thường tập liệu R2L, kết Hình 2.11 Trong hình, điểm màu xanh thể điểm liệu bình thường tương ứng phân tách tốt SAE lại bị phân tách sai DSAE Nhưng tổng thể, nhóm cơng R2L kết cho thấy số lượng bị phân tách sai DSAE nhiều so với số lượng bị phân lớp sai SAE Như đề cập, DSAE sử dụng mặc định vector z2 để biễu diễn liệu không gian đầu ra, phục vụ cho việc phân tách trạng thái bình thường bất thường Tuy nhiên chế hoạt động DSAE dẫn đến z1 z2 có lợi khác phân tách bất thường, lý thuyết z2 đánh giá hiệu Điều mở hội tìm kiếm giải 78 pháp kết hợp hai đầu DSAE z1 z2 (ký hiệu hai mơ hình tương ứng DSAE_Z1 DSAE_Z2) để tạo mơ hình phân tách tốt bình thường bất thường Ngồi ra, mơ hình DSAE, luận án tiến hành thực nghiệm với mơ hình hoạt động DSAE số lần co ba bốn lần Việc thực nghiệm tiến hành với tập liệu thiết lập tham số làm với DSAE Tuy nhiên kết thực nghiệm cho thấy kết đạt không tốt so với SAE Điều giải thích, chất DSAE muốn sử dụng giá trị lỗi tái tạo xu hướng vectơ lớp ẩn SAE, qua tạo mơ hình phân tách tốt số mẫu bất thường mà SAE dễ bị nhầm lẫn với bình thường Do vậy, trường hợp tăng thêm số lần co, ví dụ ba lần co, xu hướng lỗi tái tạo lớn (là khác biệt mẫu liệu đầu (X-out) lần cuối mẫu liệu gốc đầu vào) Với RE lớn với mẫu liệu bình thường nguy liệu bình thường bị kéo xa so với gốc toạ độ không gian lớp ẩn, việc phân tách mẫu bình thường bất thường dẫn đến khơng hiệu Với mạng nơ-ron học sâu, độ phức tạp thuật toán cho trình huấn luyện cho quan hệ tuyến tính đến nhiều yếu tố số lớp ẩn, số chiều lớp Ngoài yếu tố định đến độ phức tạp hàm kích hoạt hay thuật tốn đạo hàm lặp [14] sử dụng cho trình huấn luyện Cụ thể, với mạng nơ-ron AutoEncoder, độ phức tạp tính tốn cho O(n2) [21], n số mẫu tập huấn luyện Như phát biểu toán luận án đề cập, nội dung luận án tập trung vào cải tiến khả phát bất thường phương diện khả phát bất thường Do vậy, phạm vị luận án không sâu đến vấn đề độ phức tạp thuật tốn huấn luyện mơ hình học máy Đối với q trình kiểm tra, độ phức tạp tính tốn mơ hình dựa mạng nơ-ron học sâu cho thấp tính tốn dựa hàm với tham số có sẵn [21], độ phức tạp phụ thuộc vào tập trọng số (weights) mạng, tương ứng với O(1) ...HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG BÙI CƠNG THÀNH PHÁT TRIỂN MỘT SỐ MƠ HÌNH PHÁT HIỆN BẤT THƯỜNG MẠNG DỰA TRÊN HỌC SÂU VÀ TỔNG HỢP DỮ LIỆU CHUYÊN NGÀNH MÃ SỐ: : 9.48.01.04... vi luận án • Đối tượng nghiên cứu luận án phương pháp phát bất thường, mơ hình tổng quan hướng kỹ thuật sử dụng để nâng cao khả phát bất thường mạng • Phạm vi luận án lĩnh vực phát bất thường mạng. .. luận án phân tích động lực thúc đẩy để NCS hướng đến cải tiến, phát triển phương pháp phát bất thường mạng Việc phát triển mơ hình NAD cần giải thách thức mô hình NAD tiêu biểu dựa học sâu; phát

Định dạng
Số trang	95
Dung lượng	1,48 MB