Tiến hành thực nghiệm - Phương pháp tối ưu đàn kiế- 123docz.net

4.1.1. Dữ liệu đầu vào

- Bộ dữ liệu KDD cup 1999 đã được sử dụng trong Cuộc thi cơng cụ khai thác dữ liệu và khám phá tri thức quốc tế lần thứ 3 để xây dựng chương trình phát hiện xâm nhập mạng, một mơ hình dự đốn cĩ khả năng phân biệt giữa các cuộc xâm nhập và kết nối thơng thường. Được cơng bố tại địa chỉ: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html - trích dẫn ngày 10/08/2020).

- Mặc dù tập dữ liệu này đã cũ nhưng nĩ cĩ rất nhiều kết quả đo hiệu năng rất thích hợp để so sánh giữa các mơ hình.

- Tập dữ liệu này cĩ 4.898.431 traffic mạng. Mỗi traffic cĩ 42 chiều các chiều bao gồm các giao thức dịch vụ và cờ, gồm các kiểu tấn cơng phổ biến: 5 Main Attack Classes 22 Attacks Classes Samples

Normal 97277

Denial of Service(DoS) back, land, Neptune , pod, smurt , teardrop

391458

Remote to User(R2L) ftp _write, guess _passwd , imap ,multihop, phf, spy, warezclient, warezmaster

1126

User to Root(U2R) buffer_overflow,perl,load module, rootkit

Probing ipsweep, nmap, portsweep, satan 4107

Bảng 4.1: Các kiểu tấn cơng trong bộ dữ liệu Kdd99 (10%)

TT Attributes name Type 21 Is_host_login Dis.

1 Duration Con. 22 Is_guest_login Dis.

3 Service Dis. 24 Srv_count Con.

4 Flag Dis. 25 Serror_rate Con.

5 Src_bytes Con. 26 Srv_serror_rate Con.

6 Dst_bytes Con. 27 Rerror_rate Con.

7 Land Dis. 28 Srv_rerror_rate Con.

8 Wrong_fragment Con. 29 Same_srv_rate Con.

9 Urgent Con. 30 Diff_srv_rate Con.

10 Hot Con. 31 Srv_diff_host_rate Con.

11 Num_failed_logins Con. 32 Dst_host_count Con. 12 Logged_in Con. 33 Dst_host_srv_count Con. 13 Num_compromised Con. 34 Dst_host_same_srv_rate Con. 14 Root_shell Con. 35 Dst_host_diff_srv_rate Con. 15 Su_attempted Con. 36 Dst_host_same_src_port_rate Con. 16 Num_root Con. 37 Dst_host_srv_diff_host_rate Con. 17 Num_file_creation Con. 38 Dst_host_serror_rate Con. 18 Num_shells Con. 39 Dst_host_srv_serror_rate Con. 19 Num_access_files Con. 40 Dst_host_rerror_rate Con. 20 Num_outbound_cmds Con. 41 Dst_host_srv_rerror_rate Con.

Bảng 4.2: Thuộc tính bộ dữ liệu Kdd99

Để dễ dàng cho việc so sánh và phân lớp ta chia tệp dữ liệu thành 2 loại: Normal (bình thường) và Attack (tấn cơng).

 Tiền xử lý dữ liệu

Bộ dữ liệu KDD99 được tiền xử lý như sau:

- Tiến hành chuẩn hĩa các dữ liệu phi cấu trúc như: Protocol_type, Flag, Service…

- Đưa dữ liệu về một khoản [0;1] bằng cách sử dụng phương pháp Rescaling.

4.1.2. Cấu hình sử dụng thực nghiệm

Các thuật tốn trong thực nghiệm được thực hiện bằng ngơn ngữ python version 3.7 chạy trên máy tính cài đặt hệ điều hành window 10, bộ xử lý CORE I5, 16GB RAM.

Các thuật tốn so sánh được chạy trên cùng máy tính, cùng bộ dữ liệu với điều kiện thực nghiệm là như nhau.

4.1.3. Các tham số đầu vào

Chương trình thực nghiệm sử dụng các tham số đầu vào như sau:

STT Tham số Giải thích Giá trị

1 N Số đỉnh = số thuộc tính 41

2 m Số kiến = round(N/2) 21

3 α Hệ số α 1

4 β Hệ số β 2

5 ρ Tham số bay hơi 0.05

6 So_lan_lap_toi_da Số lần di chuyển của kiến 10 7 So_lan_chay Số lần lặp tối đa của hệ kiến 1 8 τmax/τmin Tỷ lệ vết mùi max và min N*k

Bảng 4.3: Tham số đầu vào thuật tốn SMMAS-FS

Trong thuật tốn đề xuất SMMAS-FS, chọn tỉ lệ 𝜏𝑚𝑎𝑥

𝜏𝑚𝑖𝑛 đặt bằng 𝑁. 𝑘, với 𝑘 = {

𝑁+50

100 𝑛ế𝑢 𝑁 ≥ 50

1 𝑛ế𝑢 𝑁 < 50, 𝑁 là số đỉnh.

4.2. Kết quả chạy thực nghiệm

4.2.1. So so sánh với thuật tốn DACS3-FS

 Trong bài báo [8] thơng số thực nghiệm được cài đặt như sau:

- Sử dụng bộ dữ liệu KDD99 (10%) với 494020 bản ghi cho tập training, tập dữ liệu test gồm 311029 bản ghi.

- Sử dụng SVM để xác định độ chính xác của tập con được chọn. - Thơng số cấu hình i7, window 10, 16GB RAM

Tiến hành cài đặt với thơng số tương tự với thuật tốn SMMAS-FS ta cho ra kết quả như sau:

Thuật tốn Đặc trưng IC 2, 5, 8, 10, 14, 15, 19, 26, 27, 30, 31, 32, 33, 34, 35, 36, 37, 38, 40 Rough Set 5, 6, 23, 24, 32, 33, 36 MC 2, 3, 8, 13, 20, 24, 32, 37, 37, 39, 40 GA 2, 3, 4, 5, 6, 10, 12, 23, 25, 29, 30, 35, 36, 37, 38, 40 KDD99 41 DACS3-FS 2, 3, 5, 6, 23, 33 SMMAS-FS 1, 6, 8, 40, 38, 10, 7, 39, 37, 13, 36, 35, 31, 32, 30, 33, 18, 17, 34, 27, 29, 26

Bảng 4.4: Các đặc trưng được chọn bằng các phương pháp lựa chọn đặc trưng khác nhau Thuật tốn Số đặc trưng Tỷ lệ chính xác% IC 19 97.6348 (*) Rough Set 7 98.0191 (*) MC 10 95.9747 (*) GA 17 98.3645 (*) KDD99 41 98.5172 (*) DACS3-FS 6 98.7087 (*) SMMAS-FS 22 98.9440 Bảng 4.5: Bảng so sánh tỷ lệ chính xác bộ phân lớp

Hình 4.1: Biểu đồ so sánh tỷ lệ chính xác giữa các phương pháp

Hình 4.2: Biểu đồ so sánh tỷ lệ chính xác và số đặc trưng được lựa chọn

4.2.2. Thử với các thực nghiệm khác

Thử nghiệm với các phương pháp phân lớp khác.

Phương pháp

Số lần Nạve Bayes Decision Tree SVM

Lần 1 98.4351 98.7682 98.9958 Lần 2 98.4291 98.7367 98.9650 94.0000 94.5000 95.0000 95.5000 96.0000 96.5000 97.0000 97.5000 98.0000 98.5000 99.0000 99.5000

IC Rough Set MC GA KDD99 DACS3-FS SMMAS-FS

Biểu đồ so sánh tỷ lệ chính xác giữa các phương pháp

94.0000 94.5000 95.0000 95.5000 96.0000 96.5000 97.0000 97.5000 98.0000 98.5000 99.0000 99.5000 0 5 10 15 20 25 30 35 40 45

IC Rough Set MC GA KDD99 DACS3-FS SMMAS-FS

45 Lần 3 98.7201 98.8597 98.8916 Lần 4 98.6571 98.8687 98.9236 Trung bình 98.5603 98.8687 98.9440 Bảng 4.6: Bảng so sánh các phương pháp phân lớp 4.3. Nhận xét

Dựa trên kết quả thực nghiệm bảng 4.5 ta thấy phương pháp mới đề xuất thuật tốn SMMAS-FS cho tỷ lệ chính xác phân lớp tốt hơn.

Căn cứ vào độ khĩ khi thực hiện thuật tốn tơi đưa ra đánh giá thuật tốn SMMAS-FS cho thời gian thực hiện nhanh hơn do cĩ sự tính tốn đơn giản hơn và cập nhật vết mùi ít hơn.

Từ biểu đồ 4.1 và 4.2 ta cĩ nhận xét:

- Số lượng đặc trưng tìm được của phương pháp DACS3-FS là ít nhất. - Phương pháp MC cho độ chính xác thấp nhất.

- Phương pháp SMMAS-FS cho kết quả độ chính xác cao nhất.

Thực nghiệm thêm với các phương pháp phân lớp khác nhau bảng 4.6 tơi đưa ra nhận xét:

- Thuật tốn SVM cho kết quả tốt nhất nhưng thời gian chạy lâu nhất

- Thuật tốn Nạve Bayes cho kết quả khơng tốt bằng nhưng cĩ thời gian chạy ngắn nhất

- Thuật tốn cây quyết định cho kết quả tốt ở cả thời gian chạy và độ chính xác.

4.4. Hướng nghiên cứu tiếp theo

Nghiên cứu tích hợp phương pháp vào hệ thống phát hiện xâm nhập sử dụng trong doanh nghiệp nơi làm việc.

Thuật tốn SMMAS-FS vẫn cĩ thể tiếp tục cải tiến bằng các kỹ thuật như: đặt lại vết mùi, tìm kiếm địa phương…

KẾT LUẬN

Trong thời đại internet hiện nay việc lấy trộm, phá hoại thơng tin ngày càng diễn ra phổ biến với nhiều hình thức tinh vi hơn các hình thức phát hiện xâm nhập phải ngày càng được cải tiến để xử lý tốt hơn các vấn đề này. Phương pháp tối ưu hĩa đàn kiến là một bài tốn quan trọng trong thực tiễn việc kết hợp thuật tốn ACO với việc trích chọn tiền xử lý dữ liệu đã cho thấy cái ưu điểm nổi trội sau đây:

- Việc tìm kiếm ngẫu nhiên dựa trên các thơng tin heuristic cho ra phương án tối ưu hơn nhờ sự linh hoạt và mềm dẻo, tìm kiếm trên miền rộng hơn. - Sử dụng thuật tốn đàn kiến cho việc trích chọn các đặc trưng trong bài

tốn phát hiện xâm nhập cho hiệu quả khá tốt giúp tìm kiếm được những đặc tính tốt, giảm thời gian phân lớp dữ liệu hơn như khi sử dụng dữ liệu gốc, loại bỏ được các đặc trưng gây nhiễm trong bộ dữ liệu.

Qua thực nghiệm đã thấy rõ thuật tốn SMMAS-FS được luận văn đề xuất sử dụng phương pháp cập nhật vết mùi SMMAS cho kết quả độ chính xác phân lớp tốt hơn trong khi thời gian thực hiện ngắn hơn so với nghiên cứu của Helmi Md Rais và cộng sự.

Tùy vào nhu cầu cụ thể cĩ thể sử dụng các thuật tốn phân lớp khác nhau trong việc đánh giá tập kết quả như: SVM, Nạve Bayes, Decision Tree…

Tuy nhiên vẫn cịn một số khĩ khăn trong việc xây dựng và triển khai thuật tốn như:

- Đầu vào dữ liệu lớn chiếm nhiều tài nguyên hệ thống, cần máy tính cĩ cấu hình cao và cần thời gian nhiều để thực hiện.

TÀI LIỆU THAM KHẢO

[1] H. Hoang Xuan, D. Do Duc, N. Manh Ha: An Efficient Two-Phase Ant Colony Optimization Algorithm for the Closest String Problem.SEAL 2012: 188- 197

[2] H. Hoang Xuan, T. Nguyen Linh, D. Do Duc, H. Huu Tue, Solving the Traveling Salesman Problem with Ant Colony Optimization: A Revisit and New Efficient Algorithms, REV Journal on Electronics and Communications, Vol. 2, No. 3–4, July – December, 2012, 121-129.

[3] Jimmy Ming-Tai Wu, Justin Zhan, Jerry Chun-Wei Lin. An ACO-based approach to mine high-utility itemsets. Knowledge-Based Systems Volume 116, 15 January 2017, Pages 102–113

[4] Y. Liu , W.k. Liao , A. Choudhary , A two-phase algorithm for fast discovery of high utility itemsets, in: Advances in Knowledge Discovery and Data Mining, 2005, pp. 689–695 .

[5] R.C. Chan, Q. Yang, Y.D. Shen, Mining high utility itemsets, in: IEEE Interna- tional Conference on Data Mining, 2003, pp. 19–26.

[6] S. Kannimuthu, K. Premalatha, Discovery of high utility itemsets using genetic algorithm with ranked mutation, Appl. Artif. Intell. 28 (4) (2014) 337– 359.

[7] Marco Dorigo, Thomas Stützle: Ant Colony Optimization 2004, pp.121- 151

[8] Helmi Md Rais, Tahir Mehmood: Dynamic Ant Colony System with Three Level Update Feature Selection for Intrusion Detection, International Journal of Network Security, Vol.20, No.1, PP.184-192, Jan. 2018.

[9] Daniel Angus, Tim Hendtlass: Dynamic Ant Colony Optimisation 2005. [10] S. Krishnamoorthy, Pruning strategies for mining high utility itemsets, Expert Syst. Appl. 42 (5) (2015) 2371–2381.

[11] M. Dorigo, V. Maniezzo, A. Colorni, Ant system: optimization by a colony of cooperating agents, IEEE Trans. Syst. Man Cybern. Part B 26 (1) (1996) 29– 41.

[12] J.C.W. Lin, W. Gan, P. Fournier-Viger, T.P. Hong, Mining high-utility itemsets with multiple minimum utility thresholds, in: International C∗ Conference on Computer Science & Software Engineering, 2015, pp. 9–17 [13] A. Colorni, M. Dorigo, V. Maniezzo, Distributed optimization by ant colonies, in: The first European conference on artificial life, 142, 1991, pp. 134– 142.

[14] R. Cattral, F. Oppacher, K. Graham, Techniques for evolutionary rule discovery in data mining, in: IEEE Congress on Evolutionary Computation, 2009, pp. 1737–1744.

[15] Jimmy Ming-Tai Wu, Justin Zhan, Jerry Chun-Wei Lin, An ACO-based approach to mine high-utility itemsets, Knowledge-Based Systems, Volume 116, 15 January 2017, Pages 102–113.

[16] Y. Li and S. Gong, “Dynamic ant colony optimisation for tsp,” The International Journal of Advanced Manufacturing Technology, vol. 22, no. 7-8, pp. 528– 533, 2003

[17] Hoang Xuan Huan, Nguyen Linh-Trung, Do Duc Dong, Huu-Tue Huynh, Solving the Traveling Salesman Problem with Ant Colony Optimization: A Revisit and New Efficient Algorithms, Journal on Electronics and Communications, Vol. 2, No. 3–4, July – December, 2012.

[18] Mehdi Hosseinzadeh Aghdam, Peyman Kabiri: Feature Selection for Intrusion Detection System Using Ant Colony Optimization, International Journal of Network Security, Vol.18, No.3, PP.420-432, May 2016

[19] M. Dorigo, V. Maniezzo, A. Colorni, Ant system: optimization by a colony of cooperating agents, IEEE Trans. Syst. Man Cybern. Part B 26 (1) (1996) 29– 41.