.8 Độ chính xác bộ phân lớp đa lớp

Normal DoS Probe U2R R2L

Cây quyết định 99,8% 99,9% 99,0% 97,7% 98,2%

Nạve Bayes 97,3% 87,3% 68,3% 86,8% 87,1%

3.2.2.2 Bộ phân lớp nhị phân

Bài thực nghiệm đã tiến hành xây dựng thực nghiệm trên 5 tập dữ liệu đƣợc cấu trúc lại từ tập dữ liệu gốc, mỗi thực nghiệm xây dựng ra một bộ phân lớp để dự đốn một lớp tấn cơng cụ thể. Trong đĩ mỗi tập đƣợc cấu trúc lại bằng cách giữ lại giá trị thuộc tính của một kiểu tấn cơng và gộp tất cả các kiểu tấn cơng cịn lại thành một giá trị. Ví dụ: đối với lớp normal, tập dữ liệu cấu trúc lại thành hai lớp: một lớp là normal (bình thƣờng) và lớp cịn lại bao gồm cả 4 lớp khác (Probe, DoS, U2R, R2L). Kết quả các thực nghiệm đã thống kê thời gian và độ chính xác trong phƣơng pháp đánh giá chéo 10 lần dựa trên cây quyết định và Nạve Bayes với bộ phân lớp hai lớp.

Lớp DoS sử dụng thuật tốn cây quyết định:

Lớp normal sử dụng thuật tốn Nạve Bayes:

Dựa vào kết quả thực nghiệm, ta cĩ các bảng thống kê nhƣ sau:

Bảng 3.9- Thống kê kết quả trên bộ phân lớp nhị phân sử dụng cây quyết định

Thời gian xây dựng mơ hình (giây) Mức độ đúng (%)

Normal 1,49 99,4

DoS 1,16 100

Probe 1,69 99

U2R 1,62 97,6

R2L 2,09 93,8

Bảng 3.10 - Thống kê kết quả trên bộ phân lớp nhị phân sử dụng Nạve Bayes

Thời gian xây dựng mơ hình (giây) Mức độ đúng (%)

Normal 0,23 98,1

DoS 0,19 86,5

Probe 0,21 93,6

U2R 0,19 91,9

3.3 Phân tích đánh giá kết quả.

So sánh mức độ chính xác của các bộ phân lớp đa lớp cĩ thể thấy đối với lớp Probe, R2L và U2R chiếm tỉ lệ rất thấp trong cơ sở dữ liệu thì cây quyết định cho kết quả tốt hơn rất nhiều so với Nạve bayes, điều này chứng tỏ cây quyết định phù hợp hơn Nạve bayes khi tập dữ liệu nhỏ.

Đối với các bộ phân lớp hai lớp khi sử dụng cây quyết định cũng nhƣ khi sử dụng Nạve Bayes, cĩ thể nhận thấy các bộ phân lớp hai lớp cho kết quả tốt hơn các bộ phân lớp đa lớp. Vì vậy trong đoạn này chỉ so sánh các bộ phân lớp hai lớp với nhau trong cả hai tiêu chí về độ chính xác cũng nhƣ thời gian xây dựng mơ hình. Kết quả so sánh độ chính xác đƣợc thể hiện thơng qua Biểu đồ 3.1, kết quả so sánh thời gian xây dựng mơ hình đƣợc thể hiện thơng qua biểu đồ 3.2.

75 80 85 90 95 100 105 DT 99,4 100 99 97,6 93,8 NB 98,1 86,5 93,6 91,9 95,7

Normal DoS Probe U2R R2L

Biểu đồ 3.1 - Biểu đồ so sánh độ chính xác (%) của hai thuật tốn

Biểu đồ 3.1 cho thấy cây quyết định cho độ chính xác tốt hơn cho các lớp Normal, Probe, DoS và U2R so với Nạve Bayes, nĩ cĩ độ chính xác thấp hơn một ít cho lớp R2L so với thuật tốn Nạve Bayes. Qua mức độ thay đổi về độ chính xác của hai thuật tốn cĩ thể thấy cây quyết định cĩ độ chính xác ổn định hơn với cả tập dữ liệu lớn và tập dữ liệu nhỏ.

0 0,5 1 1,5 2 2,5 DT 1,49 1,16 1,69 1,62 2,09 NB 0,23 0,19 0,21 0,19 0,22

Normal DoS Probe U2R R2L

Biểu đồ 3.2 - Biểu đồ so sánh thời gian xây dựng mơ hình (giây) của hai thuật tốn.

Trên Biểu đồ 3.2, chúng ta thấy thời gian xây dựng mơ hình Nạve bayes là tốt hơn rất nhiều so với thời gian xây dựng mơ hình khi sử dụng cây quyết định. Vì vậy việc sử dụng bộ phân lớp Naive bayes cho các hệ thống phát hiện xâm nhập trái phép sẽ làm tăng hiệu năng của hệ thống lên đáng kể.

KẾT LUẬN

Qua thời gian nghiên cứu, luận văn đã thu đƣợc một số kết quả nhƣ sau:

- Về mặt lý luận: Luận văn đã trình bày một cách tổng quan những vấn đề về lý thuyết của hệ thống phát hiện xâm nhập IDS; bao gồm: Khái niệm, mơ hình kiến trúc của hệ thống phát hiện xâm nhập; Về các kỹ thuật phát hiện xâm nhập của hệ thống IDS luận văn đã nêu đƣợc các kỹ thuật nhƣ: phát hiện dựa vào dấu hiệu, phát hiện dựa trên sự kiện bất thƣờng, phát hiện dựa vào phân tích trạng thái giao thức và phát hiện dựa trên mơ hình. Đồng thời luận văn cũng đã đƣa ra các đánh giá về ƣu điểm, hạn chế của hệ thống phát hiện xâm nhập IDS hiện nay.

Bên cạnh đĩ em đã nghiên cứu và trình bày các kỹ thuật khai phá dữ liệu, ứng dụng mơ hình, qua đĩ đánh giá hiệu năng hệ thống IDS dựa trên khai phá dữ liệu sử dụng kỹ thuật phân lớp; Các bài tốn chính trong khai phá dữ liệu nhƣ: phân lớp, phân cụm, hồi quy và dự báo…; Ứng dụng và phân loại khai phá dữ liệu; Những thách thức và khĩ khăn trong khai phá dữ liệu.

- Về mặt thực nghiệm: Luận văn đã định nghĩa đƣợc bài tốn phát hiện xâm nhập trái phép dựa trên khai phá dữ liệu sử dụng kỹ thuật phân lớp và sử dụng tập dữ liệu mơ phỏng tấn cơng KDD Cup 1999 và đƣa ra đƣợc mơ hình bài tốn. Luận văn đã trình bày thực nghiệm để đánh giá độ chính xác khi sử dụng hai kỹ thuật phân lớp Nạve Bayes và Decision Tree. Qua phân tích đánh giá các kết quả thực nghiệm, luận văn đã khẳng định đƣợc kỹ thuật phân lớp cây quyết định đạt đƣợc độ chính xác tốt hơn so với thuật tốn Nạve Bayes nhƣng về thời gian xây dựng mơ hình thì thuật tốn Nạve Bayes tốt hơn rất nhiều so với cây quyết định. Thực nghiệm đã thể hiện đƣợc yêu cầu của luận văn là đánh giá đƣợc hiệu quả phân lớp cho mơ hình bài tốn.

- Hướng phát triển của Luận văn: Từ kết quả của các thực nghiệm, em cĩ thể đƣa ra một mơ hình tích hợp để lựa chọn các thuật tốn hiệu quả cho mỗi loại tấn cơng cụ thể. Quan sát trên các biểu đồ và các bảng cĩ thể thấy rằng đối với mỗi loại tấn cơng nhất định, một số mơ hình phân lớp sẽ cho kết quả tốt hơn các mơ hình cịn lại, do đĩ thuật tốn cĩ thể lựa chọn các ứng viên tốt nhất cho mỗi loại tấn cơng. Do

đĩ, giả thiết rằng hệ thống IDS đƣợc tích hợp nhiều bộ phân lớp khác nhau và cĩ khả năng thực hiện song song cùng lúc các bộ phân lớp này.

Em đã bƣớc đầu nghiên cứu mơ hình phát hiện xâm nhập để ứng dụng hiệu quả các thuật tốn phân lớp: Nạve Bayes và Decision Tree.

Hƣớng phát triển trong tƣơng lai, em sẽ nghiên cứu mơ hình phát hiện tấn cơng dựa trên việc kết hợp nhiều bộ phân lớp khác nhau nhằm tận dụng đƣợc ƣu thế của mỗi bộ phân lớp cho mỗi loại tấn cơng cụ thể.

TÀI LIỆU THAM KHẢO

[1] E Eskin, A Arnold, M Prerau, and L Portnoy. A geometric framework for unsupervised anomaly detection. Application of Data, 2002.

[2] Y. Liao and V.R Vemuri. Use of k-nearest neighbor classifier for intrusion detection. Computer Security, 21(5):439- 448, 2002.

[3] Nguyen Quang Trung. Master Thesis: Intrusion Detection System for Classifying Process Behavior. Technical Unversity of Denmark, Kongens Luyngby, 2010.

[4] Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, Morgan Kaufmann, 2011.

[5] Zonghua Zhang, Hong Shen, Application of online-training SVMs for real-time intrusion detection with different considerations. Computer Communications, 28(12):1428-1442, 2005.

[6] Haiyan Qiao, Jianfeng Peng, Chuan Feng, and Jerzy W. Rozenblit. Behavior Analysis-Based Learning Framework for Host Level Intrusion Detection. In Proceedings of the 14th Annual IEEE International Conference and Workshops on the Engineering of Computer-Based Systems(ECBS '07). IEEE Computer Society, Washington, DC, USA, 441-447, 2007.

[7] Ling Ma and Nazli Goharian. Query length impact on misuse detection in information retrieval systems. In Proceedings of the 2005 ACM symposium on Applied computing(SAC '05), Lorie M. Liebrock (Ed.). ACM, New York, NY, USA, 1070-1075, 2005.

[8] W.Lee and S.Stolfo. Data mining Approaches for Instruction Detection. Inproceeding of the 7th USENIX Security Sysposimun 1998.

[9] W. lee A data mining Framework for Constructing Features and Mo dels for Instruction Detection Systems. PhD Thesis, Computer Science, Columbia University, June 1999.

[10] William Cohen. Learning Tree and Rule with Set-Valued Features. American Assocition for Artificial Intelligence (AAAI), 1996.

[11] KDD cup 99 Intrusion detection data set:

http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

[12] R. Grossman, S. Kasif, R. Moore, D. Rocke, and J. Ullman. Data Mining Research: Opportunities and Challenges, A report of three NSF workshops on Mining Large, Massive, and Distributed Data, January 1998.

[13] S.Peddabachigari, A. Abraham and J.Thomas, Intrusion Detection Systems Using Decision Trees and Support Vector Machines, Vector machines, International Journal of Applied Science, 188-134, 2004.

[14] WEKA: http://sourceforge.net/projects/weka/

[15] M. Mahoney and P. Chan, “An Analysis of the 1999 DARPA/LincolnLaboratory Evaluation Data for Network Anomaly Detection,” LEC-TURE NOTES IN COMPUTER SCIENCE, pp. 220–238, 2003.

Phát hiện dựa vào dấu hiệu ( Signature-base detection)

Khái niệm về khai phá dữ liệu