Những Kosagrha Chăm hiện còn ở Việt Nam

Nếu nói học máy là một phạm trù của trí tuệ nhân tạo (AI), chúng lấy một số ý tưởng cốt lõi của AI và tập trung vào giải quyết các vấn đề thực tế với các mô hình được thiế[r]

(1)

7 Tạp chí Khoa học & Cơng nghệ Số

Cải thiện khả n ng phát công mạng kỹ thuật học sâu

Tơ Trọng Tín1, Trần V n L ng2,

1

Học viện Công nghệ Bưu ch nh viễn thông, 2Viện Cơ học Tin học ứng dụng, VAST, 3Đại học Nguyễn Tất Thành tiznto@gmail.com, langtv@vast.vn

Tóm tắt

Hệ thống phát công mạng (Intrusion Detection System - IDS) phần mềm bảo mật thiết kế để cảnh báo cách tự động cho quản trị viên có ho c cố gắng xâm nhập hệ thống thông qua hoạt động nguy hiểm ho c vi phạm sách bảo mật Nhiều nghiên cứu đ áp dụng thành cơng thuật tốn máy học để hệ thống IDS có khả n ng tự học cập nhật công Nhưng để hạn chế báo động nhầm t ng khả n ng dự đốn cơng, ngồi khả n ng tự định, IDS cần phải có tư ph n tích Một khả n ng mà nhà nghiên cứu gọi học sâu Bài viết đề cập đến học s u hướng tiếp cận giúp hệ thống IDS cải thiện độ ch nh xác t ng tốc độ phân tích đầu vào lớn Với việc áp dụng mạng thần kinh s u mạng đa lớp n (Multilayer Perceptron - MLP) mạng neural hồi quy (Recurrent Neural Network – RNN) tập liệu KDD99 sử dụng để đánh giá độ ch nh xác (Accuracy), độ l i phân lớp (MSE – Mean Squared Error) ma trận h n loạn (Confusion Matrix) Hiệu đạt 98,2% với MLP 99,04% với RNNs, so với 92,6% SVM 88.46% Naïve Bayes

® 2018 Journal of Science and Technology - NTTU

Nhận 19.12.2017 Được duyệt 21.01.2018 Công bố 01.02.2018

Từ khóa

IDS, mạng máy tính, mạng thần kinh, học sâu, máy học

1. Giới thiệu

Trước tiến thông tin truyền thông, mối đe dọa an ninh mạng c ng t ng lên nhiều, hệ thống phát công mạng (IDS) vấn đề bảo mật đáng quan t m, IDS hoạt động cách theo dõi hoạt động hệ thống thông qua việc kiểm tra l h ng

bảo mật, tính tồn vẹn tệp tin tiến hành phân tích m u dựa cơng đ biết, c ng tự động theo dõi lưu lượng mạng để tìm kiếm mối đe dọa d n đến công tương lai

(2)

Tạp chí Khoa học & Cơng nghệ Số

Hình loại hệ thống IDS Pathan (2014) [1] phân theo ba tiêu chí kiến trúc hệ thống, phương thức phát xâm nhập loại hình cơng

Hầu hết nhà nghiên cứu tập trung vào nghiên cứu kỹ thuật phát IDS Họ đ cố gắng áp dụng kỹ thuật máy học với hệ thống đạt thành công định Peter Scherer et al (2011) [2 đ ứng dụng kỹ thuật SVMs thuật toán clustering vào việc cải thiện thơng số dự đốn; th nghiệm đ đạt kết khả quan, vấn đề sử dụng đơn lớp SVM khó phản ánh độ tương quan lớp công Các tác giả Hoàng Ngọc Thanh, Trần V n L ng, Hoàng T ng (2016) [3 đ đề xuất cách xây dựng phân lớp lai đa tầng sở kiến trúc mơ hình ph n đa lớp truyền thống One-vs-Rest luồng liệu qua s sàn lọc qua tầng thuật toán SVM, ANN M i tầng thuật toán chuyên dụng d ng để phân tích loại cơng tương ứng Họ đ xác nhận sử dụng mô hình đa lớp s cho kết tốt mơ hình đơn lớp Qua thí nghiệm nghiên cứu hình dung mơ hình tối ưu để cải thiện khả n ng phát xâm nhập bao gồm nhiều lớp xử lý m i lớp chứa công cụ để định dấu hiệu liệu đầu vào

Bài báo mở rộng nghiên cứu sang kỹ thuật học tập s u (Deep learning); đ y kỹ thuật có nhiều ưu điểm t nh n ng cần nghiên cứu khai thác với điểm chính: Thứ nhất, kết từ thuật tốn học sâu khơng chịu chi phối việc định ngh a đ c trưng; điều có ngh a liệu đầu vào không cần phải qua công đoạn tiền xử lý trích chọn đ c trưng, ch ng ta đưa vào gần liệu thô Thứ hai, thân mạng học tập sâu v n sử dụng thuật toán thống kê với qui mô siêu lớn, đưa vào nhiều liệu độ xác cao Xuejun Gu et al [4 đ ch hiệu mạng neural (thần kinh) sâu xử lý liệu phi tuyến thời gian thực; theo mạng ch ý đến gồm ba mơ hình: 1) Multilayer-Perceptrons (MLP), 2) Mạng neural tái phát (RNN), 3) Mạng neural tích chập (CNN); mơ hình MLP RNN hiệu việc phân tích chu i liệu tuần tự, liên tục mang nhiều đ c trưng liệu [5] Vì viết áp dụng mơ hình lai hai mạng huấn luyện với liệu KDD99 để kiểm tra hiệu suất Thơng qua việc huấn luyện tìm tham số đạt hiệu cao xác nhận t lệ phát ch nh xác c ng t lệ phân lớp l i

Bài viết gồm có phần, phần cịn lại báo sau: phần II trình bày mơ hình mạng MLP, mạng RNNs, thuật tốn học lan truyền ngược, cách bố trí thí nghiệm, phương pháp đánh giá kết trình bày phần III; đánh giá kết luận nêu phần IV

2.Mô hình học sâu

Nếu nói học máy phạm trù trí tuệ nhân tạo (AI), chúng lấy số ý tưởng cốt lõi AI tập trung vào giải vấn đề thực tế với mơ hình thiết kế để bắt chước việc định người học sâu tập trung vào vấn đề trọng t m tập hợp công cụ kỹ thuật máy học, c ng việc áp dụng chúng để giải vấn đề đ i h i tư Về bản, học tập s u liên quan đến việc nhập vào hệ thống máy tính nhiều liệu, chúng sử dụng để đưa định liệu khác thông qua việc học nhiều cấp độ tương ứng với mức độ trừu tượng khác với lớp, qua hình thành hệ thống t nh n ng ph n cấp từ thấp đến cao

2.1 Mạng Multilayer-Perceptron (MLP)

Mạng neural sâu (DNN) mạng neural nhân tạo với nhiều lớp n lớp đầu vào đầu Khác với mạng neural thường; mạng neural sâu mơ hình mối quan hệ phi tuyến cách phức tạp, ch ng hạn phát ph n t ch đối tượng để tạo mơ hình h n hợp; mà đối tượng xem thành phần xếp lớp liệu ban đầu Các lớp n cho phép lấy thành phần đ c điểm từ lớp thấp hơn, mô hình hóa liệu phức tạp so với mạng lưới nông thực việc tương tự Một mạng Multilayer-Perceptron (MLP) mạng neural sâu

Hình 2 Kiến trúc mạng MLP với lớp n

Hình ví dụ mạng neural gồm ba lớp hai lớp n lớp đầu (khi tính số lớp mạng neural ta lấy số lớp n cộng cho 1), ma trận W(L)đại diện cho trọng số (weight) lớp, m i lớp có hệ số tự gọi bias - ký hiệu b(L); bias weight hai đại lượng quan trọng cần tìm cần tối ưu mạng MLP cho cơng việc Output input tính theo cơng thức: ( ) ( ( ) ( ) ( ))

( ) ( ( )) (1) ̂ ( )

(3)

khơng thể hết miền giá trị unit Nếu input trị tuyệt đối số lớn gradient gần với ho c -1; hệ số unit s không cập nhật Theo Krizhevsky et al [6] hàm Rectified Linear Unit (ReLU) hàm số đơn giản gi p t ng tốc độ huấn luyện thuật toán học tập sâu lên nhiều, cơng thức ( ) ( ) nên gradient t nh toán nhanh với giá trị 1, đầu vào lớn s =

Giả sử t nh điểm liệu ytsau vònglập thứ t, cần t nh độ mát J(W, b, X, Y) ytvà dùng thuật toán huấn luyện để đưa ytvề gần giá trị y thực tế Phương pháp ph biến để tối ưu MLP v n Gradient Descent (GD) điều kiện tập liệu lớn, liên tục với điểm liệu nhiều chiều GD hiệu cồng kềnh phải liên tục tính tốn lại đạo hàm hàm mát tất điểm liệu Vì cần dùng Root Mean Square Error (RMSE) để t nh độ mát J điểm liệu sau d ng phương pháp học Backpropagation cho hàm số Stochastic Gradient Descent (SGD) để t nh đạo hàm theo ma trận W(L), b(L)

Các bước thực sau:

1 Với giá trị đầu vào X, tính giá trị đầu Y, với m i layer phải lưu lại giá trị output a(L)

2 Với ouput layer ta có

( ) √ ∑‖ ( )‖

( )

() (2) Từ (1) (2) suy ra:

( ) ( ) ( ) () ( )

4 Lan truyền ngược với L L-1, L-2…1 ta có: ( ) ( ( ) ( )) ( ( ))

Trong Θ hàm hadamard product hàm lấy thành phần hai vector nhân với để vector kết Cập nhật đạo hàm cho ma trận trọng số bias 2.2 Recurrent neural network (RNN)

Mạng neural tái phát, mạng neural hồi quy hay recurrent neural network (RNN) loại mạng neural nhân tạo b sung số trọng số để tạo chu trình đồ thị mạng, qua cố gắng trì trạng thái cục Hình thức đơn giản mạng RNN mạng MLP với đơn vị kích hoạt lớp n đưa trở lại mạng với đầu vào

Hình 3 Mơ hình fully recurrent neural network

Giả định đầu vào đầu mạng RNN vectors x(t) y(t), ba ma trận trọng số Wxh, Whh Why Hình Hàm k ch hoạt unit lớp n lớp đầu fH fO, hành vi mạng RNN mơ tả hệ thống động c p phương trình ma trận phi tuyến:

( ( ) ( ))

( ) ( ( ))

Trong f hàm phi tuyến, h(t) tập đơn vị kích hoạt n d ng để xác định trạng thái mơ hình Trạng thái hệ thống động tập hợp giá trị tóm tắt tất thông tin hành vi khứ hệ thống cần thiết, để cung cấp mô tả hành vi tương lai Hình mô tả mạng RNN dàn trải theo bước thời gian

Hình 4 Mạng RNN dàn trải theo bước thời gian

(4)

Tạp chí Khoa học & Cơng nghệ Số 10

( ) ∑ ( )

và trọng số cập nhật theo hàm SGD:

( )

∑

( )

trong learning rate, t ng trọng số tất bước thời gian trước Với cơng thức vậy, thấy phần khó kh n huấn luyện mạng RNN, với chu i dài ta cần phải truyền ngược lại thông qua nhiều tầng mạng Ngoài huấn luyện phương pháp lan truyền ngược liên hồi theo m i bước thời gian s làm cho gradient bùng n ho c biến mất, Bengio et al đ đề cập giải vấn đề n m 1994 [7] Một biến thể mạng RNN giải vấn đề phụ thuộc xa giới thiệu Hochreiter & Schmidhuber (1997) [8], gọi mạng nhớ dài ngắn hạn (Long-short tearm memory – LSTM) Mạng LSTM thiết kế theo kiến trúc dạng chu i tương tự mạng RNN kiến trúc bên LSTM có tầng tương tác với thay tầng mạng RNN (Hình 5) Việc nhớ thơng tin thời gian dài đ c tính mạng với tầng trạng thái nên không cần phải huấn luyện với phương pháp

Hình 5 tầng mạng LSTM bước thời gian (nguồn: https://dominhhai.github.io)

Các công thức ứng với tầng mạng thể sau:

( ( ) ( ) ( ) ) (3)

( ( ) ( ) ) (4)

( ) ̇ ( () ( ) ) (5)

( () ( ) ) (6)

( ) (7) Hàm σ hàm sigmoid, i, f, o c tương ứng c ng đầu vào, c ng quên, c ng đầu đơn vị trạng thái Ba c ng (I, f, o) c ng kiểm sốt luồng thơng tin, Wci, Wcf Wco biểu thị cho ma trận trọng số kết nối Bước LSTM s định xem thông tin cần b từ trạng thái tế bào; lấy đầu vào ht−1 xt đưa kết số khoảng [0,1] cho m i số trạng thái tế bào Ct−1 phương trình (4); định xem thông tin s lưu vào trạng thái tế

bào cách kết hợp phương trình (3) (5) Cuối giá trị đầu s dựa vào trạng thái tế bào phương trình (6) phương trình (7) nh n đầu với c ng sigmoid giá trị đầu mong muốn

3.Kết thử nghiệm

Trong phạm vi nghiên cứu, mô hình phân loại dựa mạng MLP mạng RNN-LSTM lựa chọn Hai mơ hình huấn luyện liệu KDD Cup 1999 Thuật toán xây dựng ngôn ngữ Python thư viện Keras, Sklearn, chạy tảng Tensorflow môi trường Spyder Anaconda

3.1 Tập liệu KDD99

Tập liệu KDD99 đ sử dụng để đo lường hiệu suất IDS nhiều nghiên cứu m c dù tập liệu c có nhiều kết đo hiệu n ng, thích hợp để so sánh với mơ hình khác Tập liệu có tất 4.898.431 traffic mạng; m i traffic có 42 chiều, chiều bao gồm loại giao thức, dịch vụ cờ:

„duration‟,„protocol_type‟,„service‟,„flag‟,„src_bytes‟,„dst_ bytes‟,„land‟,„wrong_fragment‟,„urgent‟,„hot‟,„num_failed_ logins‟,„logged_in,num_compromised‟,„root_shell‟,„su_atte mpted‟,„num_root‟,„num_file_creations‟,„num_shells‟,„nu m_access_files‟,„num_outbound_cmds‟,„is_host_login‟,„is_ guest_login‟,„count‟,„srv_count‟,„serror_rate‟,„srv_serror_r ate‟,„rerror_rate‟,„srv_rerror_rate‟,„same_srv_rate‟,„diff_srv _rate‟,„srv_diff_host_rate‟,„dst_host_count‟,„dst_host_srv_ count‟,„dst_host_same_srv_rate‟,„dst_host_diff_srv_rate‟,„d st_host_same_src_port_rate‟,„dst_host_srv_diff_host_rate‟, „dst_host_serror_rate‟,„dst_host_srv_serror_rate‟,„dst_host_ rerror_rate‟,„dst_host_srv_rerror_rate‟,„outcome‟

Có tất 23 kiểu cơng phân loại theo số chiều trên; 23 loại công phân làm danh mục DoS, R2L, U2R Probe (Hình 6)

Hình 6 Phân loại công KDD99 [3]

(5)

Hình 7 T lệ cơng tập liệu

3.2 Các phương pháp đánh giá

Trước tiên sử dụng Accuracy (độ ch nh xác) để tính t lệ số điểm dự đốn đ ng t ng số điểm tập liệu kiểm thử Tiếp theo lấy t lệ phát (DR – Detection Rate) t lệ phát sai (FAR – False Alarm Rate) làm thước đo đánh giá độ nghiêm trọng lớp hệ thống phân lớp DR biểu thị t lệ trường hợp công đ bị phát thuật toán FAR t lệ trường hợp thường đ bị phát sai Dựa ma trận sai số, cách tính ch số thực sau:

DR = TP / (TP + FN) FAR = FP / (TN + FP)

Trong (TP - True Positive) số m u phân lớp đ ng chấp nhận , (TN – True Negative) số m u phân lớp đ ng bị từ chối, (FP – False Positive) số m u phân lớp sai chấp nhận, (FN – False Negative) số m u phân lớp sai bị từ chối Khi ch số DR t ng ch số FAR giảm hiệu suất phát triển đánh giá tốt

3.3 Cài đ t mơ hình

Trước sử dụng tập liệu huấn luyện cần phải chu n hóa tất trường hợp từ đến 1; đầu vào có tất 41 trường đ c điểm đầu có loại cơng loại liệu bình thường Do mạng neural yêu cầu đầu vào phải cột có giá trị số cố định, liệu bảng tính phải có đầu vào hồn tồn số nên phải m hóa vector đ c điểm cho loại liệu khác Trong thư viện Tensorflow Scikit-learn có số đoạn m d ng để mã hóa vector t ng số chiều vector sau:

 Encode_text_dummy: d ng để m hóa trường v n bản, giống loại công trường lớp, lớp m hóa thành “1, , 0, 0”, “0, 1, 0, 0”, “0, 0, 1, 0”, “0, 0, 0, 1” Đ y phương pháp mã hóa trình dự đoán non-target

 Encode_text_index: Giống Encode_text_dummy, m m hóa trường v n thành số đại diện

lớp “0”, “1”, “2”, “3”; đ y phương pháp m hóa trình dự đốn có mục tiêu

 Encode_numeric_zscore: Mã hố giá trị số dạng z-score

Ở thử nghiệm cài đ t mạng MLP với số lớp 4, lớp đầu vào có 10 node, lớp n có lớp lớp đầu

Ở thử nghiệm cài đ t mạng RNN- LSTM vào lớp n với tham số time-step, batch-size epoch

3.4 Kết

Kết so sánh hiệu suất với thuật toán máy học SVM bayesian, t lệ Accuracy thể hiệu thuật toán trình huấn luyện

Bảng 1 Kết so sánh hiệu suất thuật toán học

DR FAR Accuracy Bayesian 77,65% 17,57% 88,46% SVM 87,65% 6,12% 92,6% MLP 96,33% 3,34% 98,22% LSTM-RNN 98,8% 10,05% 99,04% Kết luận

Từ kết thực nghiệm cho thấy mơ hình MLP RNN-LSTM đáp ứng yêu cầu phát công nêu Tuy hiệu suất trực quan mạnh thuật toán xây dựng để nghiên cứu khơng phải mục đ ch thương mại, không đáp ứng đủ yêu cầu phần cứng, thời gian huấn luyện c ng k ch thước tập huấn luyện Bên cạnh đó, ưu điểm mơ hình học sâu phát công mạng nhanh cho t lệ ch nh xác cao; đ c biệt với liệu nhiều thời gian huấn luyện l u Như việc sử dụng mơ hình học sâu vào việc phát cơng mạng hồn tồn phù hợp Ngoài hướng tiếp cận áp dụng mạng MLP với hàm kích hoạt ReLU (so với hàm Sigmoid tanh) mạng RNN-LSTM tập liệu KDD99, áp dụng hàm đo độ mát RMSE với hiệu đánh giá t ng bình phương tồn độ mát lớp n

Từ kết c ng đ t vấn đề nghiên cứu b ngõ sau:

 Cần nghiên cứu mơ hình với tham số hàm số khác để tìm số thích hợp làm t ng hiệu suất thuật toán

 N ng lực xử lý liệu c ng t nh tốn hệ thống máy đóng vai trị quan trọng việc khai thác thuật tốn; đ c biệt thuật toán học sâu yêu cầu lượng lớn nhớ để huấn luyện

(6)

Tạp chí Khoa học & Cơng nghệ Số 12

Tài liệu tham khảo

1 Al-Sakib Khan Pathan, The State of the Art in Intrusion Prevention and Detection, Taylor & Francis Group, LLC, NewYork, 2014, p 117-139

2 Peter Scherer, Martin Vicher, Jan Martinovic, Using SVM and Clustering Algorithms in IDS Systems, Proceedings of the Dateso 2011: Annual International Workshop on DAtabases, TExts, Specifications and Objects, Pisek, Czech Republic, (2011)

3 Hoàng Ngọc Thanh, Trần V n L ng, Hoàng T ng, Một tiếp cận máy học để phân lớp kiểu công hệ thống phát xâm nhập, Kỷ yếu Hội nghị Quốc gia lần thứ IX Nghiên cứu Ứng dụng Công nghệ thông tin, – FAIR'2016, Cần Thơ, 04-05/8/2016, ISBN: 978-604-913-472-2, NXB Khoa học tự nhiên Công nghệ, DOI: 10.15625/vap.2016.00061, (2016) 502-508

4 Guo-BingZhou, JianxinWu, Chen-LinZhang, Zhi-HuaZhou, Minimal Gated Unit for Recurrent Neural

Networks, International Journal of Automation and Computing, June 2016, DOI: 10.1007/s11633-016-1006-2, (13)3 226–234,

5 Olalekan Ogunmolu, Xuejun Gu, Steve Jiang, Nicholas Gans, Nonlinear Systems Identiﬁcation Using Deep Dynamic Neural Networks, American Control Conference (ACC) Seattle, WA, 2017

6 Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Communications of the ACM, ISSN: 0001-0782, EISSN: 1557-7317, DOI: 10.1145/3065386 , (60) 6, (2017), 84-90

7 Bengio, Yoshua, S Patrice, F.Paolo, Learning long-term dependencies with gradient descent is difficult, Neural Networks, IEEE Transactions on Neural Networks, DOI: 10.1109/72.279181, (5)2 (1994) 157-166

8 Hochreiter, Sepp, Jrgen Schmidhuber, Long short-term memory, Neural computation, (9)8, (1997) 1735-1780

Improvement detection abbility of network attacks by deep learning

To Trong Tin1, Tran Van Lang2,

Posts and Telecommunications Institute of Technology, 2Institute of Applied Mechanics and Informatics, VAST

3

Nguyen Tat Thanh University

Abstract The Intrusion Detection System (IDS) is a security software designed to alert automatically when someone or something is trying to infiltrate the system, but this invasion may cause the system to be in danger or violate the privacy policy Many studies have successfully applied machine learning algorithms to IDS systems that have the ability to self-study and update new attacks But to limit false alarms and increase the likelihood of predicting attacks, the IDS should have more analytical thinking This is deep learning This paper addresses the deep learning as a new approach that can help the IDS system improve accuracy and speed up analysis when input data is too large With the application of deep neural networks such as the Multilayer Perceptron (MLP) and the Recurrent Neural Network (RNN) on the KDD99 dataset to evaluate Accuracy, Mean Squared Error and Confusion Matrix The efficiency gains were 98.2% for MLP and 99.04% for RNNs, compared to 92.6% for SVM and 88.46% for Naïve Bayes

Định dạng
Số trang	6
Dung lượng	0,98 MB