Các kiểu tấn công mới trong bộ dữ liệu

kiểm tra “Corrected KDD”

Tên nhãn lớp Kiểu tấn công Nhãn chuyển đổi

Appache DoS 1 Mailbomb DoS 1 Processtable DoS 1 Udpstorm DoS 1 Mscan Probe 1 Saint Probe 1 Named R2L 1 Sendmail R2L 1 Snmpgetattack R2L 1 Worm R2L 1 Xlock R2L 1 Xsnoop R2L 1 Httptunnel R2L 1 Sqlattack U2R 1 Xterm U2R 1

3.2.2. Chuẩn hóa giá trị đầu vào

Một vấn đề khác cũng ảnh hƣởng tới độ hội tụ nhanh của các thuật tốn học máy đó là việc phân bố giá trị đặc trƣng không đồng đều giữa các đặc trƣng trong bộ dữ liệu KDD [14]. Có nhiều đặc trƣng có miền giá trị rất lớn nhƣ đặc trƣng số 1 với miền gía trị [0, 60000] hay đặc trƣng số 5, số 6 với miền giá trị [0, 1300000000]. Vì vậy, luận văn sẽ tiến hành chuẩn hóa miền giá trị dữ liệu của các đặc trƣng cho phù hợp với các mơ hình học máy. Có phƣơng pháp để chuẩn hóa dữ liệu nhƣ phƣơng pháp min-max, phƣơng pháp giá trị trung bình. Trong [7] sử dụng log để co miền giá trị của

thuộc tính. Đối với bộ dữ liệu KDD này, luận văn tiến hành chuẩn hóa giá trị dữ liệu về miền [-3, 3]. Bởi qua thực nghiệm, luận văn nhận thấy kết quả huấn luyện mạng thƣờng đạt đƣợc tối ƣu khi giá trị nằm trong đoạn [-3, 3]. Bảng 3.7 dƣới đây sẽ liệt kê các giá trị lớn nhất (max) và giá trị nhỏ nhất (min) của 41 cột dữ liệu. Dựa vào bảng này chúng ta sẽ quyết định chia lần lƣợt các cột có giá trị max lớn hơn 3 cho một giá trị tùy chọn để đầu vào nằm trong đoạn [-3, 3].

Bảng 3.8. Giá trị nhỏ nhất và lớn nhất của các cột trong tập “Whole KDD 99” Cột Min Max Giá trị

chia Cột Min Max

Giá trị chia 1 0 58329 19443 22 0 1 2 0.01 0.03 23 0 511 170.3 3 0.16 0.84 24 0 511 170.3 4 0.04 0.14 25 0 1 5 0 693375640 231125213 26 0 1 6 0 5155468 1718489 27 0 1 7 0 1 28 0 1 8 0 3 29 0 1 9 0 3 30 0 1 10 0 30 10 31 0 1 11 0 5 1.7 32 0 255 85 12 0 1 33 0 255 85 13 0 884 295 34 0 1 14 0 1 35 0 1 15 0 2 36 0 1 16 0 993 331 37 0 1 17 0 28 9.3 38 0 1

Cột Min Max Giá trị

chia Cột Min Max

Giá trị chia 18 0 2 39 0 1 19 0 8 2.66 40 0 1 20 0 1 41 0 1 21 0 1 42 nhãn nhãn 3.3. Kết quả thực nghiệm

3.3.1. Một vài thông số đánh giá các thuật toán học máy

Để đánh giá tính hiệu quả của các hệ thống áp dụng các thuật toán học máy, ngƣời ta thƣờng đƣa ra một vài thông số đánh giá cho. Trong tài liệu [7] đƣa ra khái niệm ma trận hỗn độn (confusion matrix) đối với bài toán phát hiện xâm nhập mạng nhƣ sau: Confusion matrix Predicted Normal Attacks Actual Normal TN FP Attacks FN TP

Dựa vào định nghĩa ma trận hỗn độn trên, ta đƣa ra một số cơng thức tính các độ đo đánh giá hiệu quả các hệ thống phát hiện nhƣ sau:

o Tỷ lệ phát hiện chính xác: = TP 100% precision TP FN  o Độ chính xác: = TP TN 100% accuracy TP TN FP FN     

o Tỷ lệ lỗi:

= FN 100%

FNR

FN TP



3.3.2. Thiết kế các tham số cho mơ hình học máy

Ngƣời ta gọi việc lựa chọn các tham số phù hợp đối với từng bài toán sử dụng các mơ hình học máy là việc thiết kế mơ hình. Đối với bài tốn phát hiện xâm nhập mạng, luận văn sử dụng ba mơ hình học máy: mơ hình hồi quy logistic, mơ hình SVM, và mơ hình mạng nơ-ron nhân tạo. Sau khi thực nghiệm với rất nhiều bộ tham số khác nhau, luận văn đã chọn ra những tham số phù hợp nhất (kết quả phát hiện tốt) đối với từng mơ hình [11].

 Mơ hình hồi quy logistic:

o Sử dụng dạng chuẩn một với tham số = 1  Mơ hình SVM: o Sử dụng hàm nhân Kernel 2 ( , ) K e x - xi j i j x x o Tham số 6 10    o Tham số C = 1000

 Mơ hình mạng nơ-ron nhân tạo:

o Thiết kế mạng nơ-ron bốn lớp: một lớp đầu vào, hai lớp ẩn và một lớp đầu ra

o Số lƣợng nút ở lớp đầu vào là 42 nút (41 nút đầu biểu diễn cho 41 đặc trƣng và một nút +1 biểu diễn độ lệch)

o Lớp đầu ra có một nút (nhận giá trị 0 nếu nhãn là bình thƣờng và nhận giá trị 1 nếu nhãn là tấn công)

o Hai lớp ẩn, số lƣợng nút trong mỗi lớp ẩn tƣơng ứng là 30 nút và 10 nút,

o Hàm kích hoạt lớp ẩn thứ nhất là hàm elliotsig

o Sử dụng lan truyền ngƣợc để huấn luyện mơ hình, sử dụng hàm traingdx

o Ngƣỡng vòng lặp là 1000

o Sai số huấn luyện là 106

o Hệ số học (learning rate): 0.875 o Hiệu suất: 0.000345

o Gradient: 0.0199

3.3.3. Kết quả thực nghiệm

Bảng 3.9 dƣới đây đƣa ra kết quả chạy chƣơng trình tốt nhất với các thuật tốn học máy giải quyết bài toán phát hiện xâm nhập mạng.

Bảng 3.9. Kết quả chạy chƣơng trình trên các thuật tốn học máy

Bộ dữ liệu huấn luyện Mơ hình phát hiện Tỷ lệ phát hiện chính xác (%) Độ chính xác (%) Tỷ lệ lỗi (%) Thời gian phát hiện (s) NSL KDD Logistic 87.6 85.56 14.44 0.056 SVM 91.72 89.9 10.1 0.07 Neural Network 97.1 91.3 8.7 0.092 10% KDD Logistic 84.4 81.3 18.7 0.19 SVM 90.8 89.1 10.9 0.29 Neural Network 99.3 91.6 8.4 0.4 Whole KDD Logistic 83.9 80.05 19.95 0.37 SVM 92.44 87.95 12.05 0.43 Neural Network 99.6 91.8 8.1 0.57

Nhận xét: Dựa vào kết quả thực nghiệm trên, luận văn nhận thấy việc huấn luyện sử dụng mơ hình mạng nơ-ron nhân tạo cho kết quả phát hiện tốt nhất với tỷ lệ phát hiện sai cũng nhƣ tỷ lệ lỗi là thấp nhất so với hai mơ hình học máy cịn lại, tuy nhiên thời gian huấn luyện cũng nhƣ phát hiện khi sử dụng mạng nơ-ron mất nhiều thời gian nhất. Để tăng tốc độ phát hiện cũng nhƣ giảm thời gian phát hiện dựa vào mạng nơ-ron luận văn tiến hành rút gọn các đặc trƣng ít quan trọng sử dụng độ đo IG và tiến hành thiết kế lại mạng nơ-ron và thực nghiệm lại trên các bộ dữ liệu.

 Tính độ đo Information Gain cho các đặc trưng:

Trong chƣơng hai, luận văn đã trình bày vấn đề rút gọn đặc trƣng bằng cách sử dụng độ đo IG (Information Gain). Trong phần thực nghiệm này, luận văn viết chƣơng trình để tính tốn độ lợi về thơng tin IG của 41 đặc trƣng ảnh hƣởng tới việc phân lớp tấn cơng hay bình thƣờng.Và thu đƣợc kết quả nhƣ hình 3.1 biểu diễn IG của 41 đặc trƣng trong bộ dữ liệu KDD 99.

Hình 3.1. Độ đo Information Gain của 41 thuộc tính

Dựa vào kết quả độ đo IG của 41 đặc trƣng, luận văn nhận thấy nhóm (7, 8, 9,11, 14, 15, 18, 20, 21, 22) có điểm IG 0, vì vậy luận văn tiến hành loại bỏ 10 đặc

trƣng trên và tiến hành thực nghiệm lại.

 Thực nghiệm lại mơ hình phát hiện xâm nhập dựa vào mạng nơ-ron trên các bộ dữ liệu chuẩn sau khi rút gọn 10 đặc trưng thu được kết quả như hình 3.10

Bảng 3.10. Kết quả thực nghiệm khi sử dụng 31 đặc trƣng Bộ dữ liệu Bộ dữ liệu huấn luyện Tỷ lệ phát hiện chính xác (%) Độ chính xác (%) Tỷ lệ lỗi (%) Thời gian phát hiện (s) NSL 97.3 91.76 8.24 0.072 10% KDD 99.5 91.8 8.2 0.29 Whole KDD 99.7 92.0 8.0 0.39

Kết quả thực nghiệm trong bảng 3.10 cho thấy tỷ lệ phát hiện khi sử dụng 31 đặc trƣng trong bộ dữ liệu KDD tƣơng đƣơng với tỷ lệ phát hiện khi dùng tất cả 41 đặc trƣng trong khi đó thời gian phát hiện đã đƣợc giảm đáng kể. Ví dụ, trong thực nghiệm sử dụng mơ hình mạng nơ-ron huấn luyện trên bộ “10%KDD” và sử dụng cả 41 đặc trƣng, cho tỷ lệ phát hiện tấn công là 99.3% với thời gian phát hiện là 0.57 giây nhƣng khi sử dụng 31 đặc trƣng để huấn luyện thì thời gian giảm xuống đáng kể chỉ cịn 0.29 giây mà tỷ lệ phát hiện tấn cơng là 99.5%. Hay khi huấn luyện mơ hình mạng nơ-ron với bộ dữ liệu huấn luyện “Whole KDD” thì tỷ lệ phát hiện chính xác là 99.6% và khi huấn luyện lại sử dụng 31 đặc trƣng thì tỷ lệ phát hiện này là 99.7%. Việc rút gọn những đặc trƣng này giúp tăng tốc độ tính tốn trong mạng nơ-ron từ đó làm giảm thời gian phát hiện. Và kết quả này là khá khả quan đối với bài tốn phát hiện xâm nhập vì việc phát hiện có thể đƣợc thực hiện trong thời gian thực.

Bên cạnh đó, với việc sử dụng hàm truyền elliotsig ở lớp ẩn giúp cho tốc độ huấn luyện và phát hiện của mạng nơ-ron tăng lên gấp hơn ba lần so với khi sử dụng hàm truyền sigmoid và hàm truyền tansig.

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Kết quả đạt đƣợc

Phát hiện xâm nhập mạng là một trong những khía cạnh đƣợc quan tâm hàng đầu trong lĩnh vực an ninh mạng hiện nay. Nó giúp giảm thiểu những thiệt hại nghiêm trọng cho hệ thống mạng. Luận văn tập trung vào giải quyết bài toán phát hiện xâm nhập mạng dựa vào cách tiếp cận học máy. Những kết quả đạt đƣợc của luận văn nhƣ sau:

Thứ nhất, luận văn đã trình bày và hệ thống hóa các vấn đề liên quan tới phát

hiện xâm nhập mạng và một số hƣớng tiếp cận giải quyết bài toán phát hiện xâm nhập. Các cách tiếp cận truyền thống nhƣ phát hiện dựa vào tập luật, hay tiếp cận dựa vào thống kê đã phát hiện tốt những cuộc xâm nhập đã biết nhƣng lại kém hiệu quả trong việc phát hiện các cuộc tấn cơng mới. Đây cũng là nhƣợc điểm chính của các cách tiếp cận truyền thống. Một cách tiếp cận dựa vào học máy hứa hẹn sẽ giải quyết đƣợc vấn đề trên. Vì vậy, luận văn tập trung khai thác và nghiên cứu theo hƣớng tiếp cận này.

Thứ hai, luận văn đã nghiên cứu, thiết kế và triển khai một số thuật toán học

máy tiêu biểu nhất cho bài toán phát hiện xâm nhập gồm: hồi quy logistic, máy véc-tơ hỗ trợ, và đặc biệt quan tâm tới mạng nơ-ron nhân tạo.

Thứ ba, luận văn đã đề xuất và thiết kế mạng nơ-ron nhân tạo giúp cải tiến tỷ lệ

phát hiện xâm nhập so với các nghiên cứu trƣớc đây, và có thể phát hiện trong thời gian thực. Bên cạnh đó, luận văn cũng tập trung giải quyết vấn đề tăng tốc độ tính tốn trong các thuật tốn học máy, đặc biệt là những thuật tốn có khối lƣợng tính tốn lớn nhƣ mạng nơ-ron nhân tạo bằng cách rút gọn những đặc trƣng ít quan trọng sử dụng độ đo thơng tin IG. Từ đó rút ngắn đƣợc thời gian phát hiện mà vẫn cho tỷ lệ phát hiện tƣơng đƣơng lúc trƣớc khi rút gọn.

Vấn đề tồn đọng và hƣớng phát triển

số thuật tốn học máy có giám sát điển hình. Những kỹ thuật học máy phi giám sát và bán giám sát chƣa đƣợc nghiên cứu và xem xét, vì vậy đây có thể đƣợc xem là hƣớng phát triển trong tƣơng lai. Mặt khác, việc kết hợp giữa các hƣớng tiếp cận dựa vào bất thƣờng và hƣớng tiếp cận dựa vào dấu hiệu xâm nhập có thể phát hiện đƣợc những cuộc tấn công mới với tỷ lệ phát hiện cao mà tỷ lệ cảnh báo sai thấp cũng là một hƣớng phát triển tiếp theo của luận văn.

CÁC CÔNG BỐ LIÊN QUAN

[1]. Phạm Văn Hạnh, Lê Ngọc Thế, Trần Thị Hƣơng, Lê Trọng Vĩnh (2015), “Nghiên cứu nâng cao hệ thống phát hiện xâm nhập mạng dựa trên mạng nơ-ron”, Hội thảo quốc gia một số vấn đề chọn lọc của công nghệ thông tin và truyền thông lần thứ XVIII

TÀI LIỆU THAM KHẢO Tài liệu tham khảo Tiếng anh

[1]. Basant Subba, Santosh Biswas, Sushanta Karmakar (2012), "Intrusion Detection Systems using Linear Discriminant Analysis and Logistic Regression", India Conference, IEEE.

[2]. Bouzida Y., Cuppens F. (2006), “Neural networks vs. decision trees for intrusion detection”, IEEE IST Workshop on Monitoring, Attack Detection and Mitigation. [3]. Elidon Beqiri, “Neural Networks for Intrusion Detection System”, 5th International Conference, London, pp: 156-165.

[4]. H. Güne ş Kayacık, A. Nur Zincir-Heywood, Malcolm I. Heywood, “Selecting Features for Intrusion Detection: A Feature Relevance Analysis on KDD 99 Intrusion Detection Datasets”, Proceedings of the third annual conference on privacy, security and trust.

[5]. Harshit Saxena, Vinneet Richariya (2014), “Intrusion Detection System using K- means, PSO with SVM Classifier: A Survey”, International Journal of Emerging Technology and Advanced Engineering, Volume 4, Issue 2, pp: 653-657.

[6]. Jayveer Singh, Manisha J.Nene (2013), “A Survey on Machine Learning Techniques for Intrusion Detection Systems”, International Journal of Advanced

Research in Computer and Communication Engineering, Vol.2, Issue 11.

[7]. Jayshree Jha, Leena Ragha (2013), "Intrusion detection system using Suppport Vector Machine", International Conference & workshop on Advanced Computing. [8]. Kendall, Kristopher (1999), " A Database of Computer Attacks for the Evaluation of Intrusion Detection Systems", Massachusetts Institute of Technology.

[9]. Mahbod Tavallaee, Ebrahim Bagheri, Wei Lu, and Ali A. Ghorbani (2009), “A Detailed Analysis of KDD CUP 99 Dataset”, IEEE Symposium on Computational Intelligence in Security and Defense Applications.

[10]. Mehdi Moradi, Mohammad Zulkernine (2004), "A Neural Network Based System for Intrusion Detection and Classification of Attacks", IEEE International Conference on Advances in Intelligent Systems.

[11]. Mehdi Moradi and Mohammad Zulkernine, "A Neural Network Based System for Intrusion Detection and Classification of Attacks".

[12]. Rung-Ching Chen, Ying-Hao Chen (2009), “Using Rough Set and Support Vector Machine for Network Intrusion Detection System”, Asian Conference on Intelligent Information and Database Systems, pp: 465-470.

[13]. Sung, A.H., Mukkamala, S. (2003), "Identifying Important Features for Intrusion Detection Using Support Vector Machines and Neural Networks", International Symposium on Applications and the Internet, pp. 209–217.

[14]. Safaa O.Al-mamory, Firas S. Jassim (2013): "Evaluation of Different Data Mining Algorithms with KDD CUP 99 Data Set", Journal of Babylon University/Pure

and Applied Sciences, Vol 21, pp: 2663-2681.

[15]. S.Sethuramalingam, E.R. Naganathan (2011), “Hybrid feature selection for network intrusion”, International Journal on Computer Science and Engineering, Vol. 3, pp. 1773-1780.

[16]. Srinivas Mukkamala, Guadalupe Janoski, Andrew Sung (2002), "Intrusion Detection: Support Vector Machines and Neural Networks ", Computer Security Applications Conference.

[17]. Weiyu Zhang, Qingbo Yang, Yushui Geng (2009), "A survey of anomaly detection methods in networks", Computer Network and Multimedia Technology. [18]. Yogita B. Bhavsar, Kalyani C. Waghmare (2013), “Intrusion Detection System Using Data Mining Technique: Support Vector Machine”, International Journal of Emerging Technology and Advanced Engineering, Volume 3, pp: 581-576.

[19]. Pavel Laskov, Patrick Dussel, Christin Schafe (2005), “Learning Intrusion Detection: Supervised or Unsupervised”, 13th International Conference, pp: 50-57.

[20]. Ravindra Gupta, Swati Paliwal (2012), “Denial of Service, Probing and R2L Attack Detection using Genetic Algorithm”, International Journal of Computer Applications.

Website

[21]. http://ufldl.stanford.edu/tutorial/supervised/MultiLayerNeuralNetworks/ [22]. http://neuralnetworksanddeeplearning.com/chap2.html