TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 9, Số 2, 2019 20–33 MỘT CÁCH TIẾP CẬN KẾT HỢP MẠNG NƠ-RON HỒI QUY VÀ TẬP LUẬT CHO PHÁT HIỆN XÂM NHẬP MẠNG Trần Thị Hươnga*, Phạm Văn Hạnhb Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, Hà Nội, Việt Nam b Trung tâm Tin học, Trường Đại học Luật Hà Nội, Hà Nội, Việt Nam * Tác giả liên hệ: Email: tranthihuong.hus@gmail.com a Lịch sử báo Nhận ngày 15 tháng 12 năm 2018 | Chấp nhận đăng ngày 02 tháng 01 năm 2019 Tóm tắt Phát xâm nhập mạng vấn đề quan trọng an ninh mạng nhiều nhóm ngồi nước quan tâm nghiên cứu Trong báo chúng tơi trình bày mơ hình dựa vào việc kết hợp mạng nơ-ron truy hồi (recurrent neural network) tập luật (rules) để phát xâm nhập mạng Ý tưởng mơ hình việc kết hợp điểm mạnh mơ hình phân loại đơn lẻ Tập luật có khả phát tốt công biết, mạng nơ-ron truy hồi lại có ưu việc phát công Từ việc so sánh hiệu phát mơ hình chúng tơi với mơ hình phát trước liệu chuẩn KDD CUP 99 cho thấy mơ hình đề xuất có hiệu cho việc phát xâm nhập mạng tỷ lệ phát xâm nhập cao 99% Từ khóa: Hệ thống phát xâm nhập mạng; Mạng nơ-ron truy hồi; Tập luật DOI: http://dx.doi.org/10.37569/DalatUniversity.9.2.544(2019) Loại báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2019 (Các) Tác giả Cấp phép: Bài báo cấp phép theo CC BY-NC-ND 4.0 20 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] AN APPROACH HYBRID RECURRENT NEURAL NETWORK AND RULE-BASE FOR INTRUSION DETECTION SYSTEM Tran Thi Huonga*, Pham Van Hanhb a The Falculty of Mathematics, Mechanics, and Informatics, VNU University of Science, Hanoi, Vietnam b The Information Technology Center, Hanoi Law University, Hanoi, Vietnam * Corresponding author: Email: tranthihuong.hus@gmail.com Article history Received: December 15th, 2018 | Accepted: January 02th, 2019 Abstract Network intrusion detection is one of the most important issues of network security and is a research interest of many researchers In this paper, we present a model based on the combination of recurrent neural networks and rule sets for the network intrusion detection problem The main idea of the model is to combine the strengths of each classification model The rule set is capable of detecting known attacks, while the recurrent neural network has the advantage of detecting new attacks A comparison of the detection efficiency of our model with the previous detection models on the same data set, KDD CUP 99, shows that the proposed model is effective for detecting network intrusions at rates higher than 99% Keywords: Intrusion detection system; Recurrent neural network; Rule-based DOI: http://dx.doi.org/10.37569/DalatUniversity.9.2.544(2019) Article type: (peer-reviewed) Full-length research article Copyright © 2019 The author(s) Licensing: This article is licensed under a CC BY-NC-ND 4.0 21 Trần Thị Hương Phạm Văn Hạnh GIỚI THIỆU Sự bùng nổ phát triển nhanh chóng mạng Internet trở thành hội cho kẻ xâm nhập trái phép vào hệ thống mạng máy tính Vấn đề an ninh mạng phải đối mặt với nhiều thách thức cho dù quan, tổ chức hay người dùng mạng Internet, nhiều thông tin quan trọng nhạy cảm lưu trữ Các sách bảo mật kiểm soát truy cập, tường lửa (firewall) hay quản lý định danh khó ngăn chặn phát cơng Do đó, hệ thống phát xâm nhập mạng (IDSIntrusion Detection System) trở thành công nghệ cần thiết để giúp hệ thống máy tính phát xâm nhập cách hiệu kịp thời Một hệ thống IDS thu thập liệu hoạt động hệ thống mạng, sau phân tích thơng tin thu thập để xác định có phải cơng hay không Dựa vào phương pháp phát xâm nhập mạng, Sodiya, Ojesanmi, Akinola, Aborisade (2014) chia IDS thành hai loại sau: i) Phát dựa vào dấu hiệu xâm nhập (signature - based IDS) ii) Phát dựa vào bất thường (anormaly detection - based IDS) Các hệ thống SIDS chủ yếu dựa vào luật nên có hiệu việc phát xâm nhập công biết với tỷ lệ cảnh báo sai thấp Tuy nhiên, điều lại dẫn tới nhược điểm hệ thống không phát xâm nhập việc xây dựng sở liệu đầy đủ cơng khó Bên cạnh đó, số hệ thống AD-IDS gần sử dụng cách tiếp cận dựa vào học máy nhằm phát công Nhược điểm hệ thống thường học thiên lệch mẫu cơng có số lượng lớn Để kết hợp điểm mạnh hai cách tiếp cận này, nhóm tác giả đề xuất mơ hình kết hợp hệ thống S-IDS AD-IDS cho phát bất thường mạng Cụ thể, nhóm tác giả đề xuất mơ hình lai tập luật huấn luyện mạng nơ-ron nhằm cải thiện tỷ lệ phát cho công biết Kết thực nghiệm chứng minh phương pháp hiệu phân loại xác so sánh kết với mạng nơ-ron riêng lẻ số thuật tốn học máy khác Phần cịn lại báo tổ chức sau: Mục trình bày số cách tiếp cận dựa vào học máy để giải toán phát xâm nhập mạng; Mục giới thiệu liệu huấn luyện kiểm tra KDD 99 sử dụng trình thực nghiệm; Mục trình bày mơ hình đề xuất kết hợp mạng nơ-ron truy hồi tập luật cho phát xâm nhập; Mục đưa kết thực nghiệm liệu KDD so sánh với thuật tốn trình bày Mục 2; Cuối phần kết luận hướng nghiên cứu MỘT SỐ CÁCH TIẾP CẬN DỰA VÀO HỌC MÁY CHO BÀI TOÁN PHÁT HIỆN XÂM NHẬP MẠNG Một nghiên cứu gần Subba, Biswas, Karmakar (2015) đề xuất mơ hình phát xâm nhập dựa vào hồi quy logistic Các tác giả nghiên cứu phụ thuộc biến trả lời (nhãn công) biến dự báo (dấu hiệu công) cách xây dựng hàm giả thiết h (x0) cho mẫu x0: 22 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] h ( x0 ) = g ( T x0 ) = 1 + exp( − T x0 ) (1) Mơ hình hồi quy logistic xây dựng sau: P( y0 = | x0 ; ) = h ( x0 ) ; P( y0 = | x0 ; ) = − h ( x0 ) Giả sử θ̂ ước lượng cực đại 𝜃 Trong tốn phát xâm nhập mạng mơ hình hồi quy logistic xếp đối tượng x0 vào lớp attack (y0 =1) 𝜃̂𝑇 x0 > Ngược lại x0 xếp vào lớp normal (y0 = 0) Subba ctg (2015) thực nghiệm nhiều lần huấn luyện kiểm tra, đánh giá hiệu suất lần thực nghiệm, từ chọn tham số tốt cho mơ hình Trong đó, Bhavasar Waghmare (2013) sử dụng phương pháp SVM (Support Vector Machines) để phân loại gói tin cơng khơng cơng cách tìm siêu phẳng tuyến tính tối ưu có khoảng cách hai lớp cần phân loại lớn Nhóm nghiên cứu sử dụng hàm nhân khác hàm sigmoid, hàm đa thức hay hàm RBF (radial basis function) để ánh xạ liệu huấn luyện sang không gian nhiều chiều Từ tìm siêu phẳng tối ưu phân loại tốt mẫu liệu Sung Mukkamala (2003) lần đề xuất áp dụng mơ hình mạng nơ-ron nhân tạo hệ thống IDS Dựa vào ý tưởng nơ-ron liên kết với để xử lý thông tin đầu vào đưa tri thức từ thơng tin Các tác giả chọn 14000 ghi kết nối ngẫu nhiên liệu KDD Cup 99 chia thành hai phần, 7000 kết nối ngẫu nhiên thuật toán lan truyền ngược (back - propagation) áp dụng cho việc huấn luyện mơ hình Phần cịn lại dùng để kiểm tra Nhóm nghiên cứu mơ hình phát dựa vào mạng nơ-ron cho kết phân loại tốt kết nối “normal” hay “attack” Tuy nhiên, nhóm tác giả tiến hành thực nghiệm liệu nhỏ tương số lượng mẫu công chưa đa dạng Một cách tiếp cận đáng ý khác sử dụng mạng nơ-ron nhân tạo Sodiya ctg (2014) Hệ thống sử dụng cảm biến để thu thập liệu, phân tích liệu chuyển tới phát (detectors) Bộ phát xây dựng dựa việc kết hợp mơ hình SOM (Self Organzing Maps) biết đến mơ hình học không giám sát mạng nơ-ron nhiều lớp (multilayer perceptron) để phân tích đặc tính kết nối từ phát xâm nhập bất thường Kết thực nghiệm nhóm cách tiếp cận có hiệu cho tốn phát xâm nhập với tỷ lệ phát xâm nhập 96%, tỷ lệ cảnh báo lỗi 3% Tuy nhiên, q trình huấn luyện mơ hình thường học thiên lệch mẫu công thường gặp khó phát mẫu xâm nhập gặp, đặc biệt xâm nhập U2R R2L Đây hạn chế nghiên cứu Gần đây, mơ hình mạng nơ-ron truy hồi (Recurrent Neural Network - RNN) biết đến phương pháp học sâu hiệu giải toán phân loại lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý ảnh nhờ việc ghi nhớ mẫu liệu trình học (Yin, Yuenfei, Fei, & He, 2017) Tuy nhiên 23 Trần Thị Hương Phạm Văn Hạnh trình huấn luyện, mạng nơ-ron truy hồi thường ghi nhớ học thiên lệch mẫu cơng có số lượng lớn DoS, Probe Vì vậy, nghiên cứu này, chúng tơi đề xuất mơ hình kết hợp mạng nơ-ron truy hồi tập luật cho toán phát xâm nhập mạng chủ yếu tập trung vào việc phân loại thành hai lớp công không cơng Mơ hình đề xuất xuất phát từ ý tưởng kết hợp điểm mạnh mơ hình phát hiện, mẫu cơng thường gặp có số lượng lớn chúng tơi sử dụng mơ hình mạng nơ-ron truy hồi, cịn mẫu cơng gặp U2R, R2L áp dụng tập luật để phát Từ giúp nâng cao hiệu phát thời gian thực với tỷ lệ phát xác cao tỷ lệ cảnh báo lỗi thấp Các kết rút từ thực nghiệm liệu KDD 99 10% BỘ DỮ LIỆU KDD CUP 99 Trong phần thực nghiệm mơ hình, chúng tơi sử dụng liệu KDD CUP 99 Bộ liệu có nguồn gốc từ MIT’s Lincoln Lab, phát triển cho chương trình đánh giá phát cơng mạng Cơ quan Quản lý Nghiên cứu Dự án phòng thủ tiên tiến Bộ Quốc phòng Mỹ (DARPA) năm 1998 (Moradi & Zulkemine, 2004) Họ cài đặt môi trường giả lập công mạng thu thập khoảng 4GB liệu tcp dump thô bảy tuần Sau đó, liệu thơ xử lý đưa định dạng chuẩn ghi kết nối TCP/IP gồm 42 trường Và liệu thu thập độc lập vòng hai tuần Mỗi ghi liệu KDD bao gồm 42 đặc trưng có bốn cột đặc trưng dạng phi số: Đặc trưng số hai biểu diễn loại giao thức; Đặc trưng số ba biểu diễn loại dịch vụ; Đặc trưng thứ tư biểu diễn trạng thái cờ kết nối; Đặc trưng thứ 42 nhãn tương ứng với ghi bình thường hay loại công cụ thể Các công phân thành bốn nhóm, là: DoS, Probing, U2R, R2L Bảng cho biết số liệu thống kê ghi tập liệu huấn luyện “10% KDD” tập kiểm tra “Corrected KDD” thuộc nhãn lớp khác liệu KDD Bảng Phân bố liệu gói tin tập liệu huấn luyện tập kiểm tra Dataset “10% KDD” “Corrected KDD” DoS Probe U2R R2L Normal 391458 4107 52 1126 97277 79.23% 0.83% 0.011% 0.22% 19.69% 229853 4166 70 16347 60593 73.9% 1.33% 0.022% 5.26% 19.48% Tổng gói tin 494020 311029 MƠ HÌNH KẾT HỢP MẠNG NƠ-RON HỒI QUY VÀ TẬP LUẬT CHO BÀI TOÁN PHÁT HIỆN XÂM NHẬP MẠNG 4.1 Mơ hình mạng nơ-ron hồi quy cho toán phát xâm nhập mạng Mạng nơ-ron hồi quy (RNN- Recurrent Neural Network) thuật toán nghiên cứu nhiều thời gian gần kết tốt thu từ nhiều lĩnh 24 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] vực thị giác máy tính, xử lý ngơn ngữ tự nhiên, nhận dạng cho hiệu cao nhiều toán (Yin & ctg., 2017) Xuất phát từ ý tưởng mô khả ghi nhớ thông tin mạng nơ-ron sinh học Đối với việc phân loại dự đoán tri thức thường dựa tri thức biết trước Các nhà nghiên cứu đề xuất mơ hình mạng nơ-ron truy hồi RNN gọi mạng nơ-ron hồi quy sử dụng chuỗi thông tin thực tác vụ cho tất phần tử chuỗi với đầu phụ thuộc vào phép tính tốn lớp trước Nói cách khác, RNN có khả ghi nhớ thơng tin tính tốn trước (Kim & Kim, 2016) Hình mơ tả mạng nơ-ron hồi quy với đầu vào x đầu o chứa vòng lặp bên cho phép thơng tin truyền từ bước qua bước khác mạng từ thơng tin lưu lại Bảng mô tả số ký hiệu mơ hình mạng nơ-ron truy hồi Hình Mạng nơ-ron hồi quy có vịng lặp Bảng Một số ký hiệu mơ hình mạng nơ-ron truy hồi Ký hiệu Mô tả xi Véc-tơ biểu diễn mẫu liệu thứ i tập huấn luyện, i =1,2, ,N hj Nơ-ron ẩn thứ j yi Véc-tơ đầu mẫu i 𝑦̂𝑡 Véc-tơ đầu mẫu tính tốn nhờ RNN Whx Ma trận trọng số input-to-hidden Whh Ma trận trọng số hidden-to-hidden Wyh Ma trận trọng số hidden-to-output bh Giá trị bias lớp ẩn by Giá trị bias véc-tơ f Hàm kích hoạt lớp ẩn g Hàm kích hoạt lớp 𝜂 Tỷ lệ học k Số lượng vòng lặp Mạng nơ-ron hồi quy gồm có lớp đầu vào, lớp ẩn, lớp đầu lớp liên kết với nhờ liên kết trọng số Có ba loại trọng số: Trọng số từ lớp đầu vào tới 25 Trần Thị Hương Phạm Văn Hạnh lớp ẩn gọi input-to-hiden; Trọng số từ lớp ẩn tới đầu hidden-to-output; Trọng số từ lớp ẩn tới lớp ẩn hiden-to-hiden Từ Hình 1, ta thấy trọng số hiden-to-hiden tính tốn cách hồi quy (recurrent) Mạng RNN cập nhật trọng số cách huấn luyện mơ hình Trong mơ hình học có giám sát, hình huấn luyện mạng nơ-ron hồi quy gồm hai giai đoạn: i) Lan truyền tiến (forward propagation) ii) Lan truyền ngược (back propagation) Với chuỗi đầu vào x1, x2, …, xN ∈ ℝ𝑛 , mạng tính toán chuỗi trạng thái ẩn h1, h2, …, hT ∈ ℝ𝑚 chuỗi dự đoán 𝑦 ̂, ̂,…, 𝑦 ̂𝑇 ∈ ℝ𝑘 Giả sử L(yi, 𝑦 𝑦̂) 𝑖 hàm tổn thất mẫu liệu huấn luyện (xi, yi), hàm tổn thất cross entropy tồn liệu tính theo công thức sau (Martens & Sutskver, 2011): L(yi, ŷ)= i i j ) + (1- yij) log (1-𝑦̂) yij log(ŷ 𝑖𝑗 ij Thuật toán lan truyền ngược mơ tả sau: • Đầu vào: Một tập mẫu huấn luyện xi (i = 1,2…,N) • Đầu ra: 𝑦̂𝑖 • Chi tiết thuật toán: for i từ đến N ti=𝑊ℎ𝑥 𝑥𝑖 + Whxhi-1+ bh hi = sigmoid(ti) si =𝑊𝑦ℎ ℎ𝑖 + by end for 𝑦̂= 𝑖 softmax(si) Trong đó, Thuật tốn cập nhật trọng số mơ tả sau: • • • Đầu vào: Tập cặp (i=1,2…,N) ̂ ̂ ̂ ̂ ̂hx , 𝑊 Đầu ra: 𝜃̂ ={W ℎℎ , 𝑊ℎ𝑦 , 𝑏ℎ , 𝑏𝑦 } Chi tiết thuật toán: Khởi tạo 𝜃 = {Whx, Whh, Why, bh, by} for i từ k giảm Tính entropy chéo giá trị đầu giá trị thực L (yi, 𝑦̂)← - ∑𝑖 ∑𝑗 𝑦𝑖𝑗 log (𝑦̂ ̂) 𝑖 𝑖𝑗 ) + (1- yij) log (1-𝑦 𝑖𝑗 Tính giá trị đạo hàm phần với 𝜃̂𝑖 : 𝛿𝑖 = 𝑑𝐿 𝑑𝜃𝑖 26 (2) TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Trọng số cập nhật: 𝜃̂𝑖 ← : 𝜃̂ 𝑖−1 𝜂 + 𝛿𝑖 4.2 end for Mơ hình phát xâm nhập mạng dựa vào tập luật Hệ thống phát xâm nhập dựa vào tập luật (Rule-based IDS) biết đến phổ biến hệ thống IDS truyền thống nhờ hiệu phát dấu hiệu xâm nhập xảy với tỉ lệ cảnh báo thấp (Bouzida & Cuppens, 2006) Ý tưởng hệ thống xây dựng sở liệu luật xâm nhập Sau so sánh lưu lượng mạng qua hệ thống với sở liệu luật để đưa cảnh báo Để xây dựng hệ thống luật, nhóm nghiên cứu sử dụng định C4.5 sinh luật Cây định phân loại mẫu liệu cho trước sử dụng giá trị thuộc tính nó, ban đầu định xây dựng từ tập liệu phân loại trước Mỗi mẫu liệu định nghĩa giá trị thuộc tính Trong nghiên cứu chúng tơi sử dụng độ đo thông tin information gain để đo độ ảnh hưởng 41 thuộc tính đến lớp phân loại “normal” hay “attack” Cho S tập mẫu huấn luyện với nhãn tương ứng với mẫu (Kayacik & Heywood, 2005) Giả sử ta có m lớp phân loại, tập huấn luyện chứa si mẫu lớp I s tổng số mẫu tập huấn luyện cho Công thức (3) m S = si (3) i =1 Lượng thông tin thu cần để phân loại mẫu cho trước tính Cơng thức (4) si s log i i =1 s s m H(s1, s2, sm) = − (4) Ta có {f1, f2,… fv} tập giá trị đặc trưng F Chia tập huấn luyện thành v tập {S1, S2,… Sv} tập Sj tập S mà F nhận giá trị fj Hơn nữa, Sj chứa sij mẫu lớp i Entropy đặc trưng F tính Công thức (5): v s1 j + s2 j + + smj j =1 s I(F) = I ( s1 j , s2 j , smj ) (5) Ta có Cơng thức (6) tính độ đo information gain đặc trưng F: IG(F) = H(s1, s2, sm) - I(F) (6) Dựa vào giá trị độ đo IG 41 thuộc tính chúng tơi xác định luật phân loại vào hai lớp công U2R R2L Bảng 27 Trần Thị Hương Phạm Văn Hạnh Bảng Các luật phân loại vào hai lớp công U2R R2L Luật Trường hợp công Rule if (duration =0 || duration >=289 & protocol_type=tcp & dst_host_srv-count >=1 & dst_host_srv-count =1 & dst_host_srv-count 265 & dest_byte= 26516 & source_byte0 & dst_host_same_srv_rate>0) then “attack” Rule if (duration =0 || duration 0) then “attack” Rule if(protocol_type=6 & duration >2 & src_bytes>20 & src_bytes