Một giải pháp phát hiện xâm nhập trái phép dựa trên phương pháp học sâu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	675,51 KB

Nội dung

Bài viết này trình bày một hướng tiếp cận ứng dụng học sâu để phát hiện hành vi bất thường đối với hệ thống mạng được bảo vệ. Các thực nghiệm được thực hiện trên tập dữ liệu KDD cup 99 cho thấy mạng học sâu hiệu quả đối với phát hiện hành vi bất thường.

Nghiên cứu khoa học công nghệ MỘT GIẢI PHÁP PHÁT HIỆN XÂM NHẬP TRÁI PHÉP DỰA TRÊN PHƯƠNG PHÁP HỌC SÂU Vũ Đình Thu*, Trịnh Khắc Linh, Trần Đức Sự Tóm tắt: Hệ thống phát xâm nhập (Instruction Detection System - IDS) hệ thống dùng để phát công, xâm nhập mạng trái phép Việc cảnh báo công chủ yếu dựa mẫu sẵn có khơng thể cảnh báo công với mẫu chưa biết Bài báo trình bày hướng tiếp cận ứng dụng học sâu để phát hành vi bất thường hệ thống mạng bảo vệ Các thực nghiệm thực tập liệu KDD cup 99 cho thấy mạng học sâu hiệu phát hành vi bất thường Từ khóa: Máy học; Deep learning; Xâm nhập; Mã độc; Bất thường, KDD MỞ ĐẦU Hệ thống phát xâm nhập (Instruction Detection System - IDS) hệ phân tích, phát công mạng, mã độc cho hệ thống mạng CNTT IDS phân biệt cơng từ bên hay cơng từ bên ngồi IDS phát công dựa mẫu công biết (giống cách phần mềm diệt virus dựa vào dấu hiệu đặc biệt để phát diệt virus Việc dựa phát dựa mẫu biết có hạn chế khơng phát loại công xuất Để phát loại công phát cần phải thực phân tích hành vi bất thường Việc phát cơng mạng dựa phân tích hành vi bất thường quan trọng việc phát loại cơng có chủ đích sử dụng loại mã độc với kỹ thuật tinh vi Đã có có nhiều nghiên cứu liên quan đến phát xâm nhập bất thường mạng máy tính Về bản, hướng tiếp cận cho phát xâm nhập bất thường dựa vào đối sánh mẫu cách định nghĩa tập luật để làm mẫu so sánh đối chiếu với liệu mạng Gần đây, có nhiều nghiên cứu phát xâm nhập mạng bất thường dựa phương pháp học máy Nghiên cứu S Chung, K Kim [11] xây dựng kiểm thử mơ hình phát xâm nhập cách áp dụng tổ hợp nhiều thuật toán học máy support vector machine (SVM), decision tree, phân lớp Naive Bayesian Đồng thời có nghiên cứu sử dụng phân cụm K-mean để phát lưu lượng độc hại Nghiên cứu Shin [12] sử dụng dụng K-mean phân cụm không phân cấp để tìm tương đồng sau tìm tham số để phát công DdoS công sâu mạng Witty thời gian Nghiên cứu Hatim [13] xây dựng mơ hình học phát cơng mạng cách lai thuật tốn K-mean với SVM Gần có số nghiên cứu áp dụng học sâu cho phát xâm nhập bất thường, hướng tiếp cận nâng cao so với phương pháp học máy truyền thống Nhà nghiên cứu Ni [14] sử dụng mạng DBNs (Deep belief networks) với tập liệu KDD Cup 99 cho kết độ xác cao 6% so với SVM Một nghiên cứu khác S Jo, H Sung B Ahn [15] so sánh FANN (Forward additive neural network) với SVM FANN có độ xác cao hơn, độ phát bất thường tốt SVM Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 131 Công nghệ thơng tin Trong báo trình bày việc áp dụng phương pháp học sâu sử dụng mô hình mạng DNN (Deep neural networks) cho việc học phân lớp hành vi bất thường với tập liệu sử dụng KDD Cup 99 PHÂN LỚP CÁC HÀNH VI BẤT THƯỜNG SỬ DỤNG MẠNG DNN 2.1 Giới thiệu học sâu Học sâu phạm trù nhỏ máy học, học sâu tập trung giải vấn đề liên quan đến mạng thần kinh nhân tạo nhằm nâng cấp công nghệ nhận diện giọng nói, thị giác máy tính xử lý ngơn ngữ tự nhiên Học sâu trở thành lĩnh vực thu hút quan tâm khoa học máy tính Chỉ vài năm, học sâu thúc đẩy tiến đa dạng lĩnh vực nhận thức vật (object perception), dịch tự động (machine translation), nhận diện giọng nói,… vấn đề khó khăn với nhà nghiên cứu trí tuệ nhân tạo Học sâu lớp thuật toán máy học mà: - Sử dụng tầng nhiều lớp đơn vị xử lý phi tuyến để trích tách đặc điểm chuyển đổi Mỗi lớp dùng đầu từ lớp trước làm đầu vào Các thuật tốn giám sát không cần giám sát ứng dụng bao gồm mơ hình phân tích (khơng có giám sát) phân loại (giám sát) - Dựa học (khơng có giám sát) nhiều cấp đặc điểm đại diện liệu Các tính cao cấp bắt nguồn từ tính thấp cấp để tạo thành đại diện thứ bậc - Học nhiều cấp độ đại diện tương ứng với mức độ trừu tượng khác mức độ hình thành hệ thống phân cấp khái niệm Hình Mơ hình mạng DNN (Deep Neural Network) Các mơ hình mạng học sâu gồm có DNN, DBNs (Deep belief networks), CNN (Convolutional neural network), RNN (Recurrent neural network) Đối với mạng DNN cấu trúc mạng mơ hoạt động tế bào thần kinh tự nhiên minh họa hình 2, tín hiệu kích hoạt ( , , …) gửi tới neural điều chỉnh nhân trọng số kết nối ( , , …) Tổng tín hiệu tiếp tục điều chỉnh hệ số bias – thể ngưỡng lọc nội 132 V Đ Thu, T K Linh, T Đ Sự, “Một giải pháp phát xâm nhập …học sâu.” Nghiên ccứu ứu khoa học công nghệ ại tế bbào Cu Cuối ối cùng, tín hi hiệu ệu đầu neural đđược ợc biến đổi hhàm àm kích hoạt (activation function) hoạt Hình 2 N Nút út ho hoạt ạt động mạng DNN DNN Các neural đư ợc chia th thành ành lớp lớp (layer), lớp đđược ợc xếp theo thứ tự tuyến tính Các neural ccùng tuyến ùng m ột lớp không đđư ược ợc kết nối ối với Một neural thu thuộc ộc lớp tr trước ớc li ên kết Như ậy tín hiệu liên kết tới neural thuộc lớp liền sau Nh vvậy truyền từ lớp đầu vvào đến ướng ớng Việc neural đến lớp đầu theo hhư lớp ớp li liên ên tiếp tiếp đ ợc kết nối nh thế nnào tùy theo toán ccụ ụ thể vvàà topo m ạng neural mạng thường đư thường ợc lựa chọn dựa tr ên góc nhìn ch chủ ủ quan mơ hhình ình được đề xuất cho tốn 2.2 Phân llớp 2.2 ớp h hành ành vi b ất thư ờng sử dụng mạng DNN bất thường Trong báo ssẽẽ trình trình bày vi việc ệc áp dụng mơ hhình ình m mạng ạng DNN cho việc học phân llớp ớp theo quy tr trình ình hình ớc huấn luyện, liệu huấn luyện đđư ược ợc hình Ở bbước xử lý trước tr ớc huấn luyện Các tham số mơ hhình ình đãã hu huấn ấn luyện đđư ợc lưu ại ược lưu llại Ở bbư ước ớc kiểm thử, liệu kiểm thử đđư ược ợc tiền xử lý, vvàà tải tải tham số mơ hhình ình đãã hu huấn ấn luyện để kiểm thử tr ên ttập ập liệu vvàà cho kết kết đánh giá Hình 3 Quy trình phát hi ện xâm nhập bất th thường ờng sử dụng học máy máy Tạp ạp chí Nghi Nghiên ên cứu cứu KH&CN quân uân sự, sự, Số ố Đặc san CNTT, CNTT 04 - 20 20199 133 Công ngh nghệệ thơng tin Trong quy trình trên, MODEL llàà mạng mạng DNN đư ợc áp dụng với tham sốố nh sau: lớp lớp ẩn (hidden layers) vvàà 100 node ẩn (hidden units), hhàm àm kích ho hoạt ạt hàm ReL ReLU U cho llớp ớp ẩn[2] Đồng thời sử dụng tối ưu Adam Optimizer[3] cho lan truyền truyền ng ngược ợc Hình 44 Các tham ssố ố sử dụng dụng B Bộ ộ liệu sử dụng: Trong phần thử nghiệm nnày ày sử sử dụng tập liệu KDD Cup 1999 1999[5] [5] được xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph òng M Mỹỹ vvàà phòng quản lý Trung tâm thí nghiệm MIT Lincoln) vvàà thư quản thường ờng xuy xuyên ên được cập nhật (KDD Cup newdata) T Tập ập liệu bao gồm kiểu liệu bbình ình thư thường ờng (normal) 22 ki kiểu ểu công khác đđượ ợcc phân lo loại ại th thành ành llớp: ớp: từ chối dịch vụ (DoS), trinh sát hhệệ thống (Probe), chiếm quyền hệ thống (U2L) vvàà khai thác điểm ểm yếu (R2L) Chi ti tiết ết thông tin liệu KDD Cup 99 đđược ợc mô tả ttài ài liệu liệu Aggarval, P., Sharma [16] TH Ử NGHIỆM, ĐÁNH GIÁ K KẾT ẾT QUẢ THỬ 3.1 X Xử lý liệu D Dựa ựa vào vào tập tập liệu KDD99, lựa chọn thuộc tính ccơ bbản ản từ gói tin kết nối ối đến giao thức TCP, chẳng hạn nh kho khoảng ảng thời gian kết nối, kiểu giao th thức, ức, số llư ượng ợng byte liệu, cờ để ttình ình trạng trạng lỗi kết nối hhoặc ặc bbình ình thường, các hoạt động tạo tập tin vvàà thường, số hoạt động cố gắng truy cập vvào hệệ thống Trong ttập ập liệu KDD Cup 1999 thực chọn 10% số liệu nnày ày đđểể làm th thực ực nghiệm Trong 10% liệu đđào tạo tạo KDD 99 có ba giao thức khác bi TCP, UDP ICMP, nghiên ccứu biệt ứu cho thấy giao thức nnày ày đđều ều có liên quan đđến ến công mạng nnào Dữ Dữ liệu đđược ợc xử lý biến đổi th thành ành ữ liệu gồm có 41 thuộc tính nh bbảng ảng ddư ưới ới Bảng ảng Bảng ảng mô tả thuộc tính tập liệu ệu KDD Cup 1999 1999 134 V Đ Thu, T K Linh, T Đ S Sự,, ““M Một ột giải pháp phát xâm nhập … …học ọc sâu sâu.”” Nghiên cứu khoa học cơng nghệ TT Tên thuộc tính Mơ tả Kiểu thuộc tính Duration Khồng thời gian (số giây) kết nối Liên tục protocol_type Kiểu giao thức ( TCP, UDP, ICMP) Rời rạc Service Các dịch vụ mạng Rời rạc Flag Tình trạng bình thường hay lỗi kết nối Rời rạc src_bytes Số lượng byte liệu từ nguồn tới đích Liên tục dst_bytes số lượng byte liệu từ đích đến nguồn Liên tục Land kết nối đến máy chủ, ngược lại Rời rạc wrong_fragment Số sai phân mảnh Liên tục Urgent Số lượng gói tin khẩn cấp Liên tục 10 Hot Số lượng “nóng” số Liên tục 11 num_failed_logins Số lần đăng nhập thất bại Liên tục 12 logged_in thành công, thất bại Rời rạc 13 num_compromised Số điều kiện thoả hiệp Liên tục 14 root_shell gốc đạt được, ngược lại Rời rạc 15 su_attempted quyền root, ngược lại Rời rạc 15 num_root Số root truy cập Liên tục 17 num_file_creations Số lượng tạo tập tin Liên tục 18 num_shells Số lượng cảnh báo Liên tục 19 num_access_files Số hoạt động tập tin kiểm soát Liên tục truy cập 20 num_outbound_cmd Số lệnh gửi phiên ftp 21 Is_host_login đăng nhập vào thuộc danh sách Rời rạc nóng, ngược lại 22 Is_guest_login đăng nhập khách, ngược lại 23 Count Số lượng kết nối máy chủ Liên tục giây 24 srv_count Số lượng kết nối dịch vụ Liên tục giây 25 serror_rate % kết nối “SYN” lỗi Liên tục 26 srv_serror_rate % kết nối “SYN” lỗi Liên tục 27 rerror_rate % kết nối “REJ” lỗi Liên tục 28 srv_serror_rate % kết nối “REJ” lỗi Liên tục Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 Liên tục Rời rạc 135 Công nghệ thông tin 29 same_srv_rate % kết nối dịch vụ tương tự Liên tục 30 diff_srv_rate % kết nối đến dịch vụ khác Liên tục 31 srv_diff_host_rate % Các kết nối đến máy chủ khác Liên tục 32 dst_host_count Số lượng kết nối đến máy chủ nguồn Liên tục 33 dst_host_srv_count Số lượng kết nối từ nguồn đến đích Liên tục 34 dst_host_same_srv_rate % kết nối máy chủ đích đến nguồn Liên tục dịch vụ tương tự 35 dst_host_diff_srv_rate % máy chủ kết nối từ đích đến nguồn Liên tục qua dịch vụ khác 36 dst_host_same_srv_port _rate % kết nối máy chủ đích đến nguồn Liên tục dịch vụ tương tự qua cổng 37 dst_host_srv_diff_host_r ate % máy chủ kết nối từ đích đến nguồn Liên tục qua dịch vụ khác 38 dst_host_serror_rate % kết nối máy chủ đích “SYN” lỗi 39 dst_host_srv_serror_rate % kết nối máy chủ đích đến Liên tục nguồn “SYN” lỗi 40 dst_host_rerror_rate % kết nối máy chủ đích “REJ” lỗi 41 dst_host_srv_rerror_rate % kết nối máy chủ đích đến Liên tục nguồn “REJ” lỗi Liên tục Liên tục 3.2 Công cụ cài đặt thử nghiệm Trong phần cài đặt thử nghiệm, báo sử dụng thư viện Tensorflow để đặc tả tham số mạng DNN thực thử nghiệm khác 3.3 Kết thực nghiệm Thực nghiệm 1: Thực nghiệm thực với liệu huấn luyện kích thước khác nhau, sử dụng số bước huấn luyện số bước huấn luyện: 200 bước Bảng Kết thực nghiệm Training Accuracy Actual Predictions Loss Precision Recall data label mean mean 10% 0.979887 0.231789 0.283409 0.959292 0.944581 0.970144 30% 0.971431 0.527020 0.52702 0.527044 0.97636 0.96926 60% 0.988054 0.759712 0.765936 0.172178 0.990597 0.993707 90% 0.987373 0.823635 0.82613 0.441808 0.99158 0.993102 100% 0.990855 0.803091 0.808048 0.183481 0.99881 0.989792 136 V Đ Thu, T K Linh, T Đ Sự, “Một giải pháp phát xâm nhập …học sâu.” Nghiên cứu khoa học công nghệ Kết cho thấy, với tập liệu huấn luyện nhiều, độ xác thu cao Thực nghiệm 2: Thực nghiệm với bước huấn luyện mạng khác Bảng Kết thực nghiệm Steps Accuracy Actual label mean Prediction s mean Loss Precision Recall 10 0.966054 0.803091 0.793278 0.979437 0.969294 0.989063 50 0.985246 0.803091 0.806325 0.738506 0.989256 0.992406 100 0.983908 0.895682 0.896582 0.739842 0.992421 0.999427 150 0.992664 0.803091 0.817657 0.468709 0.996986 0.99387 200 0.990855 0.803091 0.804048 0.183481 0.99881 0.989792 Kết cho thấy tăng số bước huấn luyện giá trị loss (độ lỗi) giảm tương ứng, độ xác tăng Thực nghiệm 3: Thực nghiệm so sánh với số phương pháp khác sử dụng tập liệu “10% KDD” Bảng Kết thực nghiệm Accuracy Method Decision Tree ID3[9] 0.9386 Support vector machines[8] 0.9345 Navie Bayes[10] 0.983125 Deep Neural Networks 0.97989 Kết thực nghiệm cho thấy so sánh với phương pháp học máy khác, thử nghiệm phương pháp học sâu sử dụng mạng DNN cho độ xác cao hầu hết phương pháp, thấp không đáng kể so với phương pháp Navie Bayes KẾT LUẬN Bài báo trình bày vấn đề phát xâm nhập trái phép áp dụng mơ hình mạng học sâu để thử nghiệm đánh giá hiệu Qua thử nghiệm cho kết tốt với mơ hình thử nghiệm so với phương pháp khác, điều cho thấy việc ứng dụng mạng học sâu mang lại hiệu tốt cho phát xâm nhập bất thường hồn tồn áp dụng thực tế Để tăng cường độ xác cho việc phát xâm nhập trái phép, cần tiến hành thực mơ hình mạng học sâu với tham số thử nghiệm khác để lựa chọn tham số phù hợp cho kết tốt Ngoài sử dụng mơ hình mạng DNN sử dụng mơ hình mạng khác DBNs, CNN, RNN, để áp dụng toán phát hành vi bất thường, hướng nghiên cứu khả thi phù hợp không riêng cho tốn phát hành vi bất thường mà lĩnh vực khác Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 137 Công nghệ thông tin TÀI LIỆU THAM KHẢO [1] Jin Kim, Nara Shin, Seung Yeon Jo & Sang Hyun Kim, “Method of Intrusion Detection using Deep Neural Network”, Big Data and Smart Computing (BigComp) 2017 IEEE International Conference on 13-16 Feb 2017 [2] G Dahl, T Sainath & G Hinton, “Improving deep neural networks for LVCSR using rectified linear units and dropout”, 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pp 8609-8613, 2013 [3] D Kingma & J Ba Adam, “A method for stochastic optimization”, arXiv preprint arXiv:1412.6980 2014 [4] N Gao, L Gao, Q Gao, & H Wang An, “Intrusion Detection Model Based on Deep Belief Networks”, Advanced Cloud and Big Data (CBD), 2014 Second International Conference on, pp 247-252, 2014 [5] Mahbod Tavallaee, Ebrahim Bagheri, Wei Lu, “A detailed analysis of the KDD CUP 99 data set” Computational Intelligence for Security and Defense Applications, 2009 CISDA 2009 IEEE Symposium on 8-10 July 2009 [6] Rumelhart, David E, Hinton, Geoffrey E.; Williams, Ronald J "Learning representations by back-propagating errors" Nature 323 (6088): 533– 536 Bibcode:1986Natur.323 533R doi:10.1038/323533a0 [7] Tahmasebi, Pejman, Hezarkhani, Ardeshir (21 January 2011) "Application of a Modular Feedforward Neural Network for Grade Estimation" Natural Resources Research 20 (1): 25–,32 doi:10.1007/s11053-011-9135-3 [8] V Vapnik, “The Nature of Statistical Learning Theory”, Springer Verlag, 1995 [9] Quinlan, J R 1986 Induction of Decision Trees Mach Learn 1, (Mar 1986), 81–106 [10] Rish, Irina (2001), “An empirical study of the naive Bayes classifier” IJCAI Workshop on Empirical Methods in AI [11] S Chung, & K Kim, “A Heuristic Approach to Enhance the performance of Intrusion Detection System using Machine Learning Algorithms”, Proceedings of the Korea Institutes of Information Security and Cryptology Conference (CISC-W’15), 2015 [12] D Shin, K Choi, S Chune & H Choi, “Malicious Traffic Detection Using K-means”, The Journal of Korean Institute of Communications and Information Sciences, 41(2), pp 277-284 2016 [13] M Tahir, W Hassan, A Md Said, N Zakaria, N Katuk, N Kabir, M Omar, O hazali & N Yahya, “Hybrid machine learning technique for intrusion detection system”, 5th International Conference on Computing and Informatics (ICOCI), 2015 [14] N Gao, L Gao, Q Gao, & H Wang, “An Intrusion Detection Model Based on Deep Belief Networks”, Advanced Cloud and Big Data (CBD), 2014 Second International Conference on, pp 247-252, 2014 [15] S Jo, H Sung, & B Ahn, “A Comparative Study on the Performance of SVM and an Artificial Neural Network in Intrusion Detection”, Journal of the Korea Academia-Industrial cooperation Society, 17(2), pp 703-711, 2016 138 V Đ Thu, T K Linh, T Đ Sự, “Một giải pháp phát xâm nhập …học sâu.” Nghiên cứu khoa học công nghệ [16] Aggarval, P., Sharma, S.K., “Analysis of KDD dataset attributes—class wise for intrusion detection” In: 3rd International Conference on Recent Trend in Computing 2015 (ICRTC-2015) ABSTRACT A METHOD FOR INTRUSION DETECTION BASED ON DEEP LEARNING The Intrusion Detection System (IDS) is a system used to detect attacks and unauthorized network intrusion The warning of attacks is primarily based on the available patterns so it is not possible to warn the attack with unknown patterns This paper presents a deep learning approach to detecting unusual behavior for protected networks Experiments performed on the KDD cup 99 data set shows that deep learning is effective for detecting abnormal behavior Keywords: Machine Learning; Deep Learning; Instrusion; Malware; Abnormal; KDD Nhận ngày 21 tháng 01 năm 2019 Hoàn thiện ngày 18 tháng năm 2019 Chấp nhận đăng ngày 25 tháng năm 2019 Địa chỉ: Trung tâm Công nghệ thông tin giám sát an ninh mạng – Ban Cơ yếu Chính phủ * Email: vudinhthu@gmail.com Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 139 ... nghiệm cho thấy so sánh với phương pháp học máy khác, thử nghiệm phương pháp học sâu sử dụng mạng DNN cho độ xác cao hầu hết phương pháp, thấp không đáng kể so với phương pháp Navie Bayes KẾT LUẬN... dụng mạng học sâu mang lại hiệu tốt cho phát xâm nhập bất thường hồn tồn áp dụng thực tế Để tăng cường độ xác cho việc phát xâm nhập trái phép, cần tiến hành thực mơ hình mạng học sâu với tham... đề phát xâm nhập trái phép áp dụng mơ hình mạng học sâu để thử nghiệm đánh giá hiệu Qua thử nghiệm cho kết tốt với mô hình thử nghiệm so với phương pháp khác, điều cho thấy việc ứng dụng mạng học

Ngày đăng: 30/01/2020, 11:13