Phương pháp giảm số thuộc tính đặc trưng và đánh giá hiệu quả của các mạng CMAC, MLP, SVM trong phát hiện tấn công trên tập dữ liệu UNSW-NB15

5 32 0
Phương pháp giảm số thuộc tính đặc trưng và đánh giá hiệu quả của các mạng CMAC, MLP, SVM trong phát hiện tấn công trên tập dữ liệu UNSW-NB15

Đang tải... (xem toàn văn)

Thông tin tài liệu

So sánh kết quả của việc sử dụng các mạng nơ ron: The Cerebellar Model Articulation Controller (CMAC), Multilayer perceptron (MLP), Support Vector Machine (SVM) để phát hiện các cuộc tấn công DoS trên tập dữ liệu UNSW-NB15. Kết quả thử nghiệm cho thấy các mạng nơ ron là công cụ hiệu quả để phát hiện các cuộc tấn công DoS tuy nhiên mạng nơ ron CMAC hoạt động nổi trội hơn so với hai mạng còn lại với xác suất phát hiện các cuộc tấn công cao hơn và xác suất báo động sai thấp hơn. Đề xuất phương pháp mới để giảm số thuộc tính đặc trưng dựa trên việc kết hợp phương pháp Random forest và mạng MLP.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00154 PHƯƠNG PHÁP GIẢM SỐ THUỘC TÍNH ĐẶC TRƯNG VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC MẠNG CMAC, MLP, SVM TRONG PHÁT HIỆN TẤN CÔNG TRÊN TẬP DỮ LIỆU UNSW-NB15 Lê Thị Trang Linh Đại học Điện lực tranglinh2011@gmail.com TÓM TẮT: So sánh kết việc sử dụng mạng nơ ron: The Cerebellar Model Articulation Controller (CMAC), Multilayer perceptron (MLP), Support Vector Machine (SVM) để phát công DoS tập liệu UNSW-NB15 Kết thử nghiệm cho thấy mạng nơ ron công cụ hiệu để phát công DoS nhiên mạng nơ ron CMAC hoạt động trội so với hai mạng lại với xác suất phát công cao xác suất báo động sai thấp Đề xuất phương pháp để giảm số thuộc tính đặc trưng dựa việc kết hợp phương pháp Random forest mạng MLP Từ khóa: IDS, Máy học, Dataset UNSW-NB15 I GIỚI THIỆU Tầm quan trọng việc bảo mật thông tin công ty gần lớn Không tổ chức hay công ty muốn thông tin bị lọt ngồi, đặc biệt đối thủ cạnh tranh Để đảm bảo an toàn thông tin họ sẵn sàng chi hàng triệu đô la áp dụng biện pháp hữu hiệu, điều cho thấy mức độ quan trọng vấn đề Một giải pháp để bảo mật thông tin sử dụng hệ thống phát xâm nhập (Intrusion Detection System) Nói cách đơn giản, IDS dạng chƣơng trình thiết bị, giống nhƣ tƣờng lửa, phát hoạt động độc hại đáng ngờ mạng IDS lần đƣợc giới thiệu vào năm 1980 [1] Anderson sau đƣợc cải tiến Denning [2] vào năm 1987 Một phƣơng pháp đƣợc sử dụng để xây dựng hệ thống phát hệ thống công sử dụng mạng nơron Cơng trình việc sử dụng mạng nơron để phát công cơng trình K Fox cộng [3], đồ tổ chức Kohonen đƣợc sử dụng nhƣ phân loại loại công Khoảng phần tƣ kỷ trôi qua kể từ bắt đầu sử dụng công nghệ mạng nơron để giải vấn đề phát công vào tài nguyên thông tin Phạm vi áp dụng công nghệ mạng nơron đƣợc sử dụng để phát công rộng, liệt kê hết cơng trình sử dụng công nghệ mạng nơron số lƣợng lớn Khi áp dụng mạng nơron toán nhận dạng loại cơng, hai tốn cần phải giải quyết: tốn thứ lựa chọn thuộc tính đặc trƣng kiểu cơng, tốn thứ hai lựa chọn mạng nơron để nhận dạng kiểu công Trong báo sử dụng mạng nơron CMAC, MLP SVM để nhận dạng kiểu công DoS, mạng nơron CMAC đặc thù mạng giới hạn số chiều vectơ đầu vào, để áp dụng CMAC cần giải toán giảm số thuộc tính đặc trƣng cơng DoS Tập liệu UNSW-NB 15 đƣợc sử dụng để tiến hành thử nghiệm Bài báo gồm có phần sau: Giới thiệu, Mạng nơron toán phát công DoS, Tập liệu UNSW-NB15, Thử nghiệm, Kết luận II MẠNG NƠRON TRONG BÀI TỐN PHÁT HIỆN TẤN CƠNG DOS Khi áp dụng mạng nơron để phát công bắt buộc phải trải qua trình huấn luyện Quá trình đƣợc thực cách đƣa vào thuộc tính đầu vào liên kết mạng thông tin kiểu công tƣơng ứng với loại công Trong q trình huấn luyện bắt buộc phải có cơng DoS Kết thúc q trình huấn luyện, mạng nơron có khả nhận dạng đƣợc công DoS Xác suất phát công DoS tỷ lệ phát sai phụ thuộc vào nhiều yếu tố nhƣ: loại mạng thông số mạng nơron, cấu trúc mạng trình học, số chiều vectơ thuộc tính nhiều đặc trƣng khác Các đặc trƣng mạng nơron CMAC Cấu trúc mạng nơron CMAC việc áp dụng tốn phát cơng DoS đƣợc trình bày báo [4] Ở nêu khác biệt mạng nơron CMAC so với loại mạng nơron khác: - Các đối số hàm nhớ hàm tái tạo (vectơ đầu vào mạng nơron, hay vectơ đặc trƣng) nhận giá trị số nguyên - Trong mạng nơron CMAC, vectơ đầu vào x (vectơ thuộc tính) kích hoạt p nhớ MCMAC- vectơ nhớ w[n], cho tổng giá trị ô nhớ giá trị hàm nhớ Thông số p đóng vai trị quan trọng, giá trị xác định khả hoạt động dung lƣợng nhớ cần thiết MCMAC- mạng nơron CMAC Thuật toán xác định số ô nhớ hoạt động đƣợc nêu [5], đƣợc xây dựng để vectơ đầu vào phân bố gần chúng có nhiều nhớ chung - điều mang lại tính hội tụ cho mạng nơron CMAC Mạng nơron CMAC có đầu Lê Thị Trang Linh 89 Nếu vectơ đầu hàm nhớ có chứa đối số khơng nguyên chúng cần phải chuyển dạng số nguyên Biến số z đƣợc quy ƣớc trƣớc giá trị nhỏ nhất, giá trị lớn Zmin, Zmax số mức lƣợng tử hóa xmax, bƣớc lƣợng tử hóa đƣợc tính tốn theo cơng thức = (Zmax - Zmin)/ xmax phần tử lƣợng tử hóa đƣợc gán số nguyên x(i) = 1, 2,…, x theo công thức: X(i) = Round ((Z - Zmin)/ + 0.5 (1) Round hàm làm tròn đến số nguyên gần Mạng nơron Multilayer Perceptron (MLP) Mạng nơron đa lớp MLP loại mạng nơron phổ biến Việc đào tạo MLP thƣờng đƣợc thực cách sử dụng thuật tốn lan truyền ngƣợc biến thể Tín hiệu đầu vào mạng đƣợc truyền thẳng từ lớp sang lớp khác Về bản, MLP gồm thành phần sau: - Tập hợp nút đầu vào tạo thành lớp đầu vào - Một nhiều lớp ẩn chứa nơron tính tốn - Một lớp đầu Trong mạng MLP, đầu nơron lớp đƣợc dùng làm đầu vào lớp nơron Mô tả chi tiết cấu trúc thuật tốn đào tạo MLP đƣợc trình bày [6] Support Vector Machine (SVM) Máy vectơ hỗ trợ [7] thuật toán phân loại phổ biến hiệu đƣợc áp dụng cho lớp phân tách tuyến tính Phƣơng pháp thuộc phƣơng pháp phân loại tuyến tính Nhiệm vụ phƣơng pháp tìm siêu phẳng tối ƣu phân tách lớp Nếu toán cụ thể khơng tìm đƣợc mặt phẳng phân chia, nhƣng phân tách lớp siêu phẳng phi tuyến phức tạp đó, kernel support vector machine [8] - máy vectơ hỗ trợ với siêu phẳng phân chia phi tuyến đƣợc sử dụng để giải III TẬP DỮ LIỆU UNSW-NB 15 Tập liệu công phổ biến nhiều nhà nghiên cứu KDDCUP99 [9] phiên cải tiến NSLKDD [10] Thật đáng tiếc, tập liệu lỗi thời, chúng không phản ánh đầy đủ đặc điểm lƣu lƣợng truy cập mạng mà có mối đe dọa kiểu công tinh vi đại (low foot print attacks) Năm 2015 phịng thí nghiệm ACCS (Australian Centre for Cyber Security), N Moustafa J Sly [11], tạo tập liệu công UNSW-NB15, khắc phục thiếu sót tập liệu cơng tạo trƣớc Truy cập vào tập liệu UNSW-NB15 [12] Tập liệu đƣợc phát triển cách sử dụng IXIA PerfectStorm để tạo kết hợp công tiêu chuẩn đại vào lƣu lƣợng mạng Công cụ tcpdump đƣợc sử dụng để thu thập 100 GB lƣu lƣợng mạng thô Mỗi tệp pcap chứa 1000 MB để phân tích gói tin dễ dàng Argus, Bro-IDS 12 thủ tục đƣợc thực song song để tạo 44 thuộc tính cho kiểu cơng Tập liệu chứa 2.540.044 ghi đƣợc lƣu trữ bốn tệp CSV Sau loại bỏ ghi trùng, số ghi lại 2059419, tất ghi đƣợc tách thành tệp chứa liệu thông tin thông thƣờng kiểu công tƣơng ứng Tỷ lệ số lƣợng loại công đƣợc thể cột thứ hai Bảng Bảng Thành phần kiểu công tập liệu UNSW-NB15 Loại công Normal Reconnaissance Backdoor DoS Exploits Analysis Fuzzers Worms Shellcode Generic Số lƣợng ghi 1959775 13357 1983 5665 27599 2184 21795 171 1511 25378 Các công tập liệu UNSW-NB 15 đƣợc chia thành loại: Normal, Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance, Shellcode, Worm Trong tập liệu UNSW-NB15, ghi bao gồm 44 thuộc tính lƣu lƣợng mạng thuộc năm loại giá trị: định danh, số nguyên, số thực, thời gian, nhị phân, thuộc tính cuối chứa thơng tin loại công ghi PHƢƠNG PHÁP GIẢM SỐ THUỘC TÍNH ĐẶC TRƢNG VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC MẠNG… 90 IV KẾT QUẢ THỰC NGHIỆM Q trình lựa chọn thuộc tính đặc trƣng công DoS để áp dụng mạng nơron CMAC Để sử dụng đƣợc mạng nơron CMAC trƣớc tiên cần giải toán giảm số chiều véc tơ đầu vào Có thể sử dụng phƣơng pháp trích chọn đặc trƣng (feature extraction) lựa chọn đặc trƣng (feature selection) Lựa chọn đặc trƣng thuộc tính cách sử dụng thuật tốn random forest để xác định số Gini impurity [13], thuộc tính có số Gini impurity cao thuộc tính quan trọng Kết sau áp dụng phƣơng pháp trên, thu đƣợc thuộc tính có số Gini impurity cao là: Proto, Service, Sttl, Dttl, Synack, Smeansz, Ct_srv_src, Ct_state_ttl, Ct_srv_dst Các ghi từ tập liệu UNSW-NB 15 với thuộc tính đƣợc lựa chọn đƣợc đƣa vào mạng MLP để so sánh kết với mạng MLP sử dụng 42 thuộc tính Nếu nhƣ kết sử dụng thuộc tính cao kết sử dụng 42 thuộc tính tiến hành giảm bớt thuộc tính Q trình giảm thuộc tính kết thúc kết áp dụng số thuộc tính giảm thấp so với kết sử dụng 42 thuộc tính Q trình huấn luyện mạng MLP đƣợc thực 4412 ghi công DoS 126485 ghi công DoS (80 % số lƣợng ghi tập liệu UNSW-NB15) Đầu vào MLP sử dụng 42 thuộc tính tất kiểu cơng, thuật tốn đƣợc sử dụng là: trainlm, traingdx, trainscg, trainbfg Trong trình học kiểm tra sử dụng lớp (15-10-1, 30-20-1, 50-30-1, 100-50-1, 100-100-1, 150-100-1, 200-100-1, 200-150-1) lớp (30-20-10-1) Ngƣỡng để phân loại chạy từ 0,1 đến 0,9 với bƣớc nhảy 0,01 Quá trình kiểm tra đƣợc thực 1103 ghi công DoS 31616 ghi công DoS (20 % số lƣợng ghi từ tập liệu UNSW-NB 15) Sau thử nghiệm tất trƣờng hợp, độ xác phân lớp cao công DoS công DoS tƣơng ứng 85,31 % 85,71 % Quá trình lựa chọn thuộc tính đƣợc mơ Hình Trong đó: F = {Fij}, I = 9, j = Ci9 - Tập thuộc tính; thuộc tính - số lƣợng thuộc tính tập, j- số thứ tự tập từ i A42- Kết thử nghiệm sử dụng 42 thuộc tính mạng MLP Bij, i = 9, j = Ci9 - kết thử nghiệm sử dụng tập thuộc tính Fijtrong mạng MLP Hình Q trình lựa chọn thuộc tính Từ kết cho thấy, sử dụng véc tơ đầu vào với thuộc tính kết khơng sử dụng 42 thuộc tính Vì thuộc tính: Service, Sttl, Dttl, Smeansz, Ct_state_ttl, Ct_srv_dst đƣợc lựa chọn để đƣa vào mạng nơron CMAC dùng để nhận dạng công DoS tập liệu UNSW NB 15 Lê Thị Trang Linh 91 Quá trình sử dụng mạng nơron CMAC để nhận dạng công DoS tập liệu UNSW-NB 15 Nhƣ đề cập, vectơ đầu vào mạng nơron CMAC nhận giá trị nguyên trƣớc tiên chúng phải đƣợc lƣợng tử hoá Để lƣợng tử hoá cần xác định giá trị lớn nhỏ thuộc tính Các giá trị đƣợc mơ tả Bảng № Bảng Giá trị nhỏ lớn thuộc tính Thuộc tính Giá trị nhỏ Giá trị lớn Service 21 33 Sttl 255 Dttl 252 Smeansz 24 1504 Ct_state_ttl Ct_srv_dst 62 Giá trị lớn để lƣợng tử hoá ứng với thuộc tính áp dụng vào mạng nơron CMAC là: 17, 257, 257, 1025, 9, 65 Tập giá trị thuộc tính véc tơ đầu vào là: X = {x(1) = ; x(2) = ; x(3) = ; x(4) = ; x(5) = ; x(6) = } Các giá trị thuộc tính vectơ đầu vào đƣợc lƣợng tử hố theo cơng thức (1) Q trình học mạng nơron CMAC phụ thuộc vào giá trị tham số tổng quát p, nhận giá trị p = 2, 4, 6, 8, 16, 32 Ngoài độ xác cịn phụ thuộc vào ngƣỡng Số bƣớc huấn luyện 10 000 000 Quá trình huấn luyện đƣợc thực đƣa vào vectơ đầu vào sau đƣợc lƣợng tử hoá, số ghi công DoS 4412, công DoS 126485 (80 % số ghi công DoS công DoS tập liệu UNSWNB 15) Sau kết thúc trình huấn luyện, trình kiểm nghiệm đƣợc tiến hành Dữ liệu cho q trình kiểm nghiệm đƣợc lƣợng tử hố giống q trình huấn luyện Số ghi cơng DoS công DoS để kiểm nghiệm 1103 31616 (chiếm 20 % số ghi công DoS công DoS tập liệu UNSW-NB 15) Đối với ghi, đƣợc gán nhãn: - ghi công DoS, - ghi không cơng DoS Q trình kiểm nghiệm mạng nơron CMAC đƣợc thực với giá trị ngƣỡng khác từ 0,1 đến 0,9 với bƣớc nhảy 0,01, so sánh kết thu đƣợc kết nhận dạng đƣợc công DoS công DoS cao thu đƣợc giá trị ngƣỡng 0,57, tỷ lệ nhận dạng công DoS công DoS 86,13 % 85,13 % So sánh kết thu đƣợc mạng nơron CMAC, MLP, SVM Quá trình huấn luyện mạng MLP SVM đƣợc thực môi trƣờng MATLAB, sử dụng gói chƣơng trình ứng dụng Neural Network Toolbox Quá trình học mạng nơron CMAC đƣợc thực Visual Studio 2013, ngôn ngữ lập trình C++ Mạng SVM huấn luyện sử dụng hàm: Gaussian Radial Basis Function (RBF) и polynomial để lựa chọn đƣợc kết tốt Kết thực nghiệm đƣợc liệt kê Bảng Loại mạng nơron Phƣơng pháp học NN CMAC MLP SVM НС СМАС Trainlm Rbf Bảng Kết kiểm nghiệm Thông số Số lớp số Tỉ lệ nhận dang nơron Ngƣỡng công DoS, % lớp 0,566 86,49 30-20-10-1 0,72 85,31 56,3 Tỉ lệ nhận dang công DoS, % 85,1 84,71 89,45 V KẾT LUẬN Phƣơng pháp giảm số thuộc tính đặc trƣng dựa việc kết hợp phƣơng pháp Random Forest mạng MLP đƣợc xây dựng giảm số thuộc tính đặc trƣng từ 42 xuống 6, kết kiểm nghiệm với liệu sử dụng thuộc tính cho kết cao sử dụng 42 thuộc tính Kết huấn luyện kiểm nghiệm ba hệ thống phát công DoS dựa mạng nơron CMAC, MLP SVM cho thấy hai mạng nơron CMAC MLP công cụ hiệu để phát công DoS với vƣợt trội không đáng kể CMAC so với MLP, SVM cho kết thấp Điều cho thấy, mạng nơron có chất khác trở thành thành phần hệ đa chuyên gia để xây dựng hệ thống phát công Một hệ đa chuyên gia nhƣ có xác suất phát cơng cao xác suất báo động sai thấp TÀI LIỆU THAM KHẢO [1] J P Anderson (1980), “Computer security threat moniroring and surveillance”, Technical report, February 26,1980 92 PHƢƠNG PHÁP GIẢM SỐ THUỘC TÍNH ĐẶC TRƢNG VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC MẠNG… [2] D Denning, “An Intrusion Detection Model”, IEEE Transaction on sofware engineering, 13(2):222-232, 1987 [3] Fox K L., Henning R R., Reed J H., Simonian R P “A Neural Network Approach Towards Intrusion Detection”, Proceedings of the 13th National Computer Security Conference Washington.1 -4 October pp 125134, 1990 [4] Avedyan E D., Le T T L “Two-level system for detecting DoS attacks and their components based on neural networks SMAS”, Information technologies Vol 29, No 9, pp 711-718, 2016 [5] Avedyan E D “Associative neural network CMAC Part I Structure, memory capacity, training and basic functions”, Information technologies No pp 6-14, 1997 [6] Avedyan E D “Algorithms for configuring multilayer neural networks”, Automation and telemechanics №4 pp 106-118, 1995 [7] Cortes C, Vapnik V “Support vector machine”, Machine learning Sep.-20(3): pp 273-97, 1995 [8] Hofmann M “Support vector machines-Kernels and the kernel trick”, Notes V 26, 2006 [9] KDD Cup 1999 Data: http://kdd.ics.uci.edu/databases/kddcup99/ kddcup99.html [10] https://github.com/defcom17/NSL_KDD [11] Moustafa N; Slay J “The evaluation of Network Anomaly Detection Systems: Statistical analysis of the UNSWNB15 data set and the comparison with the KDD99 data set”, Information Security Journal: a Global Perspective pp 1-14, 2016 [12] http://www.accs.unsw.adfa.edu.au/ [13] Breiman L “Random forests”, Machine learning V 45 No pp 5-32, 2001 METHOD OF REDUCING FEATURES AND EVALUATE THE EFFECTIVENESS OF NETWORKS CMAC, MLP, SVM FOR DETECTING ATTACK ON DATASET UNSW-NB 15 Le Thi Trang Linh ABSTRACT: Compare the results of using neural networks: The Cerebellar Model Articulation Controller (CMAC), Multilayer perceptron (MLP), Support Vector Machine (SVM) to detect DoS attacks on the dataset UNSW-NB15 The test results show that all neural networks are an effective tool for detecting DoS attacks However, CMAC neural network performed better than the other two networks with higher probability of detecting attacks and less probability of false alarms Since then, proposal of a new model to reduce the number of features based on the combination of Random forest model and MLP network ... PHƢƠNG PHÁP GIẢM SỐ THUỘC TÍNH ĐẶC TRƢNG VÀ ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC MẠNG… 90 IV KẾT QUẢ THỰC NGHIỆM Quá trình lựa chọn thuộc tính đặc trƣng công DoS để áp dụng mạng nơron CMAC Để sử dụng đƣợc mạng. .. tính đƣợc mơ Hình Trong đó: F = {Fij}, I = 9, j = Ci9 - Tập thuộc tính; thuộc tính - số lƣợng thuộc tính tập, j- số thứ tự tập từ i A42- Kết thử nghiệm sử dụng 42 thuộc tính mạng MLP Bij, i =... thiếu sót tập liệu cơng tạo trƣớc Truy cập vào tập liệu UNSW-NB15 [12] Tập liệu đƣợc phát triển cách sử dụng IXIA PerfectStorm để tạo kết hợp công tiêu chuẩn đại vào lƣu lƣợng mạng Công cụ tcpdump

Ngày đăng: 30/09/2021, 15:26

Tài liệu cùng người dùng

Tài liệu liên quan