1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng mạng nơron nhân tạo trong phát hiện xâm nhập mạng dựa vào tần suất lời gọi hệ thống với bộ dữ liệu ADFA-LD

8 18 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 384,82 KB

Nội dung

Trong bài viết này sẽ trình bày phương pháp phát hiện xâm nhập sử dụng thông tin thu thập trên máy trạm (host-based IDS) của bộ dữ liệu ADFA-LD dựa vào tần suất lời gọi hệ thống bằng phương pháp phân tích thành phần chính được sử dụng trong tiền xử lý dữ liệu, sau đó áp dụng mô hình mạng nơron nhân tạo để phát hiện xâm nhập trái phép.

Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) ỨNG DỤNG MẠNG NƠRON NHÂN TẠO TRONG PHÁT HIỆN XÂM NHẬP MẠNG DỰA VÀO TẦN SUẤT LỜI GỌI HỆ THỐNG VỚI BỘ DỮ LIỆU ADFA-LD Nguyễn Việt Hùng1 Tóm tắt Trong báo trình bày phương pháp phát xâm nhập sử dụng thông tin thu thập máy trạm (host-based IDS) liệu ADFA-LD dựa vào tần suất lời gọi hệ thống Phương pháp phân tích thành phần sử dụng tiền xử lý liệu, sau áp dụng mơ hình mạng nơron nhân tạo để phát xâm nhập trái phép Kết thử nghiệm cho thấy, với độ xác phát bất thường, phương pháp đề xuất có tỉ lệ cảnh báo nhầm thấp so với số thuật toán dùng trước In this paper, a method for preprocessing the ADFA Linux dataset (ADFA-LD) dataset using frequency-based and PCA method will be introduced After that, the neural networks algorithm is used to detect intrusion Results from experiments show that, at the same accuracy rate, our method has the false alarm rate lower than other methods Từ khóa Phát xâm nhập, IDS, lời gọi hệ thống, mạng nơron nhân tạo, ADFA-LD Phương pháp chung phát xâm nhập mạng Hệ thống phát xâm nhập hệ thống phát cảnh báo sớm hành động phá hoại hệ thống, hành động công làm ảnh hưởng tới tính bảo mật hệ thống [1,8] IDS thành phần quan trọng bảo đảm an toàn bảo mật cho hệ thống IDS liên tục theo dõi hoạt động diễn thiết bị mạng hay máy tính mạng thu thập thơng tin từ nhiều nguồn khác nhau; phân tích, tổng hợp để tìm dấu hiệu có khả đe dọa tính tồn vẹn, tính sẵn sàng hay tính xác thực hệ thống Đã có nhiều nghiên cứu khác phương pháp, thuật toán phát xâm nhập Nhìn chung, hệ thống phát xâm nhập sử dụng phương pháp [1,8]: - Phát xâm nhập dựa vào dấu hiệu: Phương pháp phân tích hoạt động hệ thống, tìm kiếm kiện giống với mẫu công biết trước lưu trữ sở liệu Phương pháp có ưu điểm phát công nhanh 18 Học viện Kỹ thuật quân Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Bảng Các kiểu công ADFA-LD Loại công Hydra -FTP Hydra- SSH Add new superuser Java-Meterpreter Linux Meterpreter C100 Webshell Giải thích Tấn cơng brute force password sử dụng Hydra cho FTP Tấn công brute force password sử dụng Hydra cho SSH Tấn công leo thang đặc quyền (tạo user có quyền cao nhất) Tấn cơng khai thác lỗ hổng Tiki Wiki Tấn công khai thác lỗ hổng để cài cắm mã độc Tấn công khai thác lỗ hổng file include PHP xác, khơng đưa cảnh báo sai giúp người quản trị xác định lỗ hổng bảo mật hệ thống Tuy nhiên, phương pháp có nhược điểm khơng phát kiểu cơng khơng có sở liệu Do vậy, hệ thống phải cập nhật mẫu công dẫn đến tình trạng sở liệu trở nên lớn Hơn dấu hiệu cụ thể gây cảnh báo nhầm lại gây khó khăn cho việc phát biến thể, hệ thống khó phát kiểu công - Phát xâm nhập dựa vào bất thường: Phương pháp mơ tả sơ lược hoạt động bình thường hệ thống Các cơng có hành động khác so với trạng thái bình thường nhận dạng chúng Ưu điểm lớn phát xâm nhập dựa vào bất thường không dựa vào dấu hiệu định nghĩa hay cơng biết trước nên phát công mà phương pháp phát dựa vào dấu hiệu không phát Tuy nhiên, phương pháp có nhược điểm thường tạo số lượng cảnh báo sai làm giảm hiệu suất hoạt động hệ thống Giới thiệu liệu ADFA-LD phương pháp tiền xử lý liệu Một khó khăn nhóm nghiên cứu phát xâm nhập thiếu hụt liệu an ninh mạng thu thập từ thực tế Bộ liệu KDD99 hầu hết nhóm nghiên cứu phát xâm nhập sử dụng thời gian qua [4]; nhiên với phát triển nhanh phương pháp, kỹ thuật công, xâm nhập mạng, liệu bộc lộ hạn chế định Bộ liệu an ninh mạng ADFA Học viện quốc phòng Úc xây dựng năm 2013 với phương thức công đại, coi liệu an ninh mạng thay cho liệu KDD99 [3] ADFA bao gồm liệu thu thập máy trạm chạy hệ điều hành Linux (ADFA-LD) và hệ điều hành Window (ADFA-WD) Trong ADFA-LD tạo hệ điều hành Linux với phương thức công, xâm nhập đại vào hệ điều hành Trong bảng 1, thấy kỹ thuật công khác sử dụng để công vào máy trạm chạy hệ điều hành Ubutu Các phương pháp cơng lựa chọn phương thức sử dụng chuyên gia bảo mật phát lỗ hổng hệ thống, 19 Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) Bảng Chi tiết tập liệu ADFA-LD Kiểu liệu Huấn luyện Xác thực Hydra-FTP Hydra-SSH Adduser Tấn công Java-Meterpreter Meterpreter Webshell Số ghi 833 4373 162 148 91 125 75 118 Nhãn Normal Normal Attack Attack Attack Attack Attack Attack hacker sử dụng thực tế [4] Tập liệu ADFA-LD bao gồm ba nhóm liệu khác liệu công, liệu huấn luyện liệu xác thực (Attack_Data_Master, Training_Data_Master, Validation_Data_Master) ADFA-LD xây dựng cách ghi lại log lời gọi hệ thống tiến trình hệ điều hành thực thi Các nhãn file log gán tùy theo tiến trình ghi có khơng có cơng Bảng mơ tả chi tiết tập liệu ADFA-LD Các tiến trình đặc quyền (liên quan đến quản lý quyền hạn người sử dụng, cho phép kết nối, truy cập từ xa, tiến trình ngầm v.v) thường bị hacker lợi dụng khai thác Việc phân biệt tiến trình đặc quyền bình thường bất thường (do hacker thực thi) sử dụng đặc trưng chuỗi lời gọi hệ thống tiến trình gọi thực thi Trong cơng trình nghiên cứu phát xâm nhập mạng sử dụng lời gọi hệ thống, tác giả thường sử dụng hai phương pháp: dựa vào thứ tự lời gọi hệ thống (sequence-based) [7, 9, 10] dựa vào tần suất lời gọi hệ thống (frequency-based) [3,4] Ý tưởng phương pháp dựa vào thứ tự lời gọi hệ thống (sequence-based) phân tích chuỗi lời gọi hệ thống tiến trình thành đoạn có độ dài nhau; sau so sánh chúng với đoạn lời gọi hệ thống “bình thường” lưu sở liệu Nếu đoạn lời gọi hệ thống “khác biệt” so sở liệu bị đánh giá bất thường Nhược điểm phương pháp độ phức tạp tính tốn cao tiến trình gồm nhiều lời gọi hệ thống nên số đoạn cần so sánh lớn [7, 9, 10] Phương pháp thứ hai sử dụng dựa vào tần suất lời gọi hệ thống Phương pháp vừa có khả trích chọn đặc trưng chuỗi lời gọi hệ thống, vừa chuẩn hóa liệu thành vector có chiều dài Trong báo này, tiến hành xây dựng thuật toán, thử nghiệm so sánh kết với thuật toán khác xây dựng dựa tần suất lời gọi hệ thống Dữ liệu ADFA-LD thu thập cách ghi lại lời gọi hệ thống tiến trình hệ điều hành Chuỗi lời gọi hệ thống chuỗi số nguyên rời rạc có giá trị thứ tự lời gọi hệ thống gọi tiến trình Các giá trị chuỗi nằm khoảng [1 n], n số hiệu lớn lời gọi hệ thống xác định hệ điều hành Vì máy trạm sử dụng để ghi liệu chạy hệ 20 Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) điều hành Linux 2.6.38 với tổng cộng 325 lời gọi hệ thống nên liệu ADFA-LD có n = 325 Gọi s chuỗi lời gọi hệ thống, phần tử vectơ tần suất s định nghĩa fi = fi |s| (1) Trong đó: • fi số lần xuất lời gọi hệ thống đánh số i chuỗi s, i = 1, n; • |s| độ dài chuỗi lời gọi hệ thống s; • fi giá trị thành phần thứ i vector tần suất lời gọi hệ thống s Phương pháp xây dựng vector tần suất từ chuỗi lời gọi hệ thống s làm tính thứ tự lời gọi hệ thống nên đặc trưng thứ tự hành động số hành động công Tuy nhiên, đặc trưng tần suất đặc trưng có giá trị để phân biệt tiến trình bình thường hay bất thường [3,4] Thử nghiệm cho thấy rằng, hầu hết vectơ tần suất chuẩn hóa theo phương pháp thưa, chiều chúng giảm xuống mà khơng ảnh hưởng tới phân biệt vectơ Gọi m tổng số chuỗi lời gọi hệ thống Bộ liệu dùng để huấn luyện biểu diễn ma trận Amx n Sử dụng phương pháp phân tích thành phần (PCA) ta làm giảm kích thước ma trận A xuống mà khơng ảnh hưởng nhiều đến kết phân lớp [2] Phân tích thành phần (Principal Component Analysis - PCA) phương pháp phân tích liệu nhiều biến đơn giản hiệu Mục tiêu PCA tìm khơng gian với số chiều nhỏ không gian cũ để biểu diễn liệu Các trục tọa độ không gian xây dựng cho trục, độ biến thiên liệu lớn Với liệu ADFA-LD, sau chuẩn hóa dựa vào tần suất lời gọi hệ thống, vector đặc trưng chuỗi lời gọi hệ thống có chiều dài 325 Qua thử nghiệm, số chiều vector giảm xuống nhiều lần mà đặc trưng phân tách lớp liệu không bị ảnh hưởng nhiều Trong phần 3, tiến hành thử nghiệm giảm số chiều vector xuống 10, 12, 14,16,18, 20 Kết cho thấy, với số chiều 14 trở lên, kết phân lớp với phương pháp máy học khác khơng đáng kể Vì vậy, chúng tơi sử dụng phương pháp phân tích thành phần để giảm số chiều liệu xuống 14 chiều Phát xâm nhập sử dụng mạng nơron nhân tạo Mạng nơron nhân tạo (ANN) cho phép thiết kế hệ thống phi tuyến với số lượng lớn tín hiệu vào - ANN thích hợp với ứng dụng môi trường động cách tự thay đổi thơng số mạng thích ứng với thay đổi mơi trường [5] Vì vậy, ANN ứng dụng rộng rãi nhiều lĩnh vực khác Có nhiều cấu trúc mạng nơron nhân tạo khác mạng hồi qui (feedback), mạng tự tổ chức (self-organizing), mạng truyền thẳng (feedforward) Trong báo này, 21 Chuyên san Công nghệ thông tin Truyền thông - Số 10 (06-2017) sử dụng mạng truyền thẳng nhiều lớp với thuật toán lan truyền ngược (back propagation) [5] Hình mơ tả mơ hình mạng nơron nhiều lớp truyền thẳng với vector đầu vào x có p chiều, vector đầu y có q chiều Hình Mạng nơron nhân tạo nhiều lớp truyền thẳng 3.1 Kiến trúc mạng Kiến trúc mạng nơron sử dụng phát xâm nhập mạng mạng nhiều lớp truyền thẳng có số đầu vào tương ứng với số chiều vector đặc trưng không gian PCA, lớp ẩn nơron đầu Số lượng nơron lớp ẩn xác định trình thử nghiệm để có cấu hình tối ưu Vector đầu vector có chiều O(o1 , o2 , o3 , o4 , o5 , o6 ) với oi nhận giá trị nhị phân Vector O sử dụng để phân lớp liệu bình thường liệu loại cơng Dữ liệu bình thường có đầu mong muốn vector Obt (0, 0, 0, 0, 0, 0); liệu cơng kiểu thứ i(i = 1÷6) có đầu mong muốn O(0, , oi = 1, , 0) oi = 1, oj=i = Mạng huấn luyện theo phương pháp lan truyền ngược sai số với thuật toán gradient liên hợp 3.2 Thử nghiệm, kết đánh giá Trong thử nghiệm, chia liệu công ADFA-LD làm phần, phần dùng cho huấn luyện phần dùng để đánh giá mơ hình Ngồi liệu công, sử dụng thêm số lượng tương đương liệu bình thường trọng số mạng cần huấn luyện theo liệu bình thường bất thường Như phân tích trên, phương pháp phát xâm nhập dựa vào bất thường thường có cảnh báo nhầm cao phương pháp phát xâm nhập dựa vào dấu hiệu Chính vậy, để đánh giá hiệu thuật toán phát xâm nhập, nghiên cứu lĩnh vực thường đánh giá tỉ lệ nhận dạng xác (accuracy - acc) tỉ lệ phát nhầm (false positive - fp) Để đánh giá hiệu thuật toán phát xâm nhập, biểu đồ ROC (Receiver Operating Characteristic) thường sử dụng Hình biểu diễn biểu đồ ROC thuật toán đề xuất So sánh biểu đồ ROC nhận thấy mơ hình mạng nơron nhân tạo cho kết phát phân loại xâm nhập tốt thuật toán sử dụng trước [3,4] (Các tác giả báo [9,10,11] không sử dụng biểu đồ ROC để biểu diễn kết quả) 22 Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Hình Biểu đồ ROC thuật tốn đề xuất chạy với liệu ADFA-LD Hình Kết so sánh tỉ lệ fp thuật toán Nhận xét rằng, kết phân loại cơng/khơng cơng xác cao (tỉ lệ acc đạt 80%) tỉ lệ nhận dạng nhầm thuật toán tăng lên (fp xấp xỉ 50%) với độ đo sử dụng Trong đó, kết phân loại sai mạng nơron nhân tạo cho kết thấp nhiều - khoảng 10% So với thuật toán dựa vào sequence-based SVM Extreme Learning Machine [9,10], mơ hình chúng 23 Chun san Công nghệ thông tin Truyền thông - Số 10 (06-2017) cho kết gần tương đương; theo phân tích độ phức tạp tính tốn phương pháp sử sequence-based lớn nhiều nên phạm vi báo so sánh với thuật tốn dựa vào vector tần suất Theo đó, tác giả [3][4] sử dụng thuật toán Kmean kNN cho kết tốt, tỉ lệ nhận dạng nhầm tăng tỉ lệ nhận dạng cao Hình biểu diễn kết so sánh mạng nơron nhân tạo với thuật toán này tỉ lệ nhận dạng xác 85% Từ kết trên, nhận thấy phương pháp sử dụng mạng nơron nhân tạo cho kết nhận dạng xác cao với tỉ lệ nhận nhầm nhỏ so với thuật tốn so sánh Từ đó, đưa nhận định phương pháp phát bất thường dựa vào tần suất lời gọi hệ thống mơ hình mạng nơron nhân tạo áp dụng thực tế Kết luận hướng phát triển Kể từ đời, liệu ADFA bắt đầu nhóm nghiên cứu phát xâm nhập mạng quan tâm sử dụng thử nghiệm mơ hình Bài báo trình bày phương pháp phát xâm nhập dựa vào đặc trưng tần suất lời gọi hệ thống với mạng nơron nhân tạo thử nghiệm liệu ADFA-LD Kết cho thấy phương pháp sử dụng cho kết phát nhầm tốt phương pháp khác tỉ lệ phát Phương pháp trích chọn đặc trưng dựa vào tần suất có nhược điểm làm tính thứ tự lời gọi hệ thống, dẫn đến khả bỏ qua thông tin quan trọng liên quan đến chuỗi lời gọi hệ thống liên tiếp Trong hướng phát triển, nghiên cứu phương pháp trích chọn khác để giữ đặc trưng tính thứ tự lời gọi hệ thống, nhằm nâng cao kết phát bất thường Tài liệu tham khảo [1] Ali A Ghorbani, Wei Lu, Mahbod Tavallaee Network Intrusion Detection and Prevention, Springer, 2010 [2] Jolliffe, I Principal component analysis Wiley - 2005 [3] Adamu I Abubakar, Haruna Chiroma, et.al.A Review of the Advances in Cyber Security Benchmark Datasets for Evaluating Data-Driven Based Intrusion Detection Systems - The 2015 International Conference on Soft Computing and Software Engineering (SCSE 2015) - 221-227 [4] G Creech, J Hu Generation of a new IDS Test Dataset: Time to Retire the KDD Collection IEEE WCNC 2013 [5] S Haykin Neural Networks and Learning Machines (3rd Edition) - Prentice Hall, 2009 [6] Xie, M., Hu, J., Yu, X and Chang, E Evaluating Host-Based Anomaly Detection Systems: Application of the Frequency-Based Algorithms to ADFA-LD Proceedings of 8th International Conference on Network and System Security (NSS 2014), 542-549 [7] Steven A Hofmeyr Stephanie Forrest Anil Somayaji Intrusion detection using sequences of system calls Journal of Computer Security - Volume Issue 3, August 1998 [8] Ali A Ghorbani, Wei Lu, Mahbod Tavallaee Network Intrusion Detection and Prevention Springer, 2010 [9] M.Anandapriya, B.Lakshmanan Anomaly Based Host Intrusion Detection System Using Semantic Based System Call Patterns IEEE Sponsored 9th International Conference on Intelligent Systems and Control (ISCO), 2015 [10] Sandeep A.M, Thaksen.J.P Advanced anomaly intrusion detection technique for host based system using system call patterns International Conference on Inventive Computation Technologies (ICICT), 2016 24 Tạp chí Khoa học Kỹ thuật - Học viện KTQS - Số 184 (06-2017) [11] R Vijayanand, D Devaraj, B Kannapiran Support Vector Machine Based Intrusion Detection System with Reduced Input Features for Advanced Metering Infrastructure of Smart Grid International Conference on Advanced Computing and Communication Systems, 2017 Ngày nhận 10-1-2017; Ngày chấp nhận đăng 21-9-2017 Nguyễn Việt Hùng tốt nghiệp cử nhân (2006) cao học (2008) trường Đại học Vật lý kĩ thuật Matxcova chuyên ngành "Máy tính nơron mạng nơron"; bảo vệ thành cơng luận án TS năm 2012 LB Nga, ngành "Phân tích hệ thống, điều khiển xử lý thông tin" Các hướng nghiên cứu chính: Mạng nơron nhân tạo ứng dụng; An tồn thơng tin 25 ... chuỗi lời gọi hệ thống tiến trình gọi thực thi Trong cơng trình nghiên cứu phát xâm nhập mạng sử dụng lời gọi hệ thống, tác giả thường sử dụng hai phương pháp: dựa vào thứ tự lời gọi hệ thống. .. pháp phát xâm nhập dựa vào đặc trưng tần suất lời gọi hệ thống với mạng nơron nhân tạo thử nghiệm liệu ADFA-LD Kết cho thấy phương pháp sử dụng cho kết phát nhầm tốt phương pháp khác tỉ lệ phát. .. dài chuỗi lời gọi hệ thống s; • fi giá trị thành phần thứ i vector tần suất lời gọi hệ thống s Phương pháp xây dựng vector tần suất từ chuỗi lời gọi hệ thống s làm tính thứ tự lời gọi hệ thống nên

Ngày đăng: 07/05/2021, 13:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w