Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu, so sánh một số thuật toán cây quyết định trong phát hiện các cuộc tấn công mạng trên bộ dữ liệu KDD99 và UNSW-NB15

Thông tin tài liệu

Mục tiêu của Luận văn là nghiên cứu về xây dựng một hệ thống phân tích, phát hiện hành vi tấn công bằng phương pháp sử dụng thuật toán học máy. Sử dụng các thuật toán để xây dựng hệ thống phát hiện các cuộc tấn công mạng dựa trên dữ liệu về lưu lượng mạng. Mời các bạn cùng tham khảo!

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ ANH TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - NĂM 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - LÊ ANH TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ QUỐC DŨNG HÀ NỘI – NĂM 2020 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unsw-nb15” cơng trình nghiên cứu thân tôi; số liệu sử dụng luận văn trung thực; tài liệu tham khảo có nguồn gốc trích dẫn rõ ràng; kết nghiên cứu khơng chép cơng trình Tơi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng Học viên Lê Anh Tuấn năm 2020 ii LỜI CẢM ƠN Trong trình thực luận văn này, Học viên nhận hướng dẫn, bảo tận tình Thầy TS Ngơ Quốc Dũng, giảng viên Khoa Công nghệ Thông tin cán trực tiếp hướng dẫn khoa học Thầy dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thông tin phương pháp nghiên cứu để hoàn thành luận văn cao học Học viên xin chân thành cảm ơn Thầy, Cơ giáo Học viện Cơng nghệ Bưu Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học – Học viện động viên, giúp đỡ nhiệt tình chia sẻ với em kinh nghiệm học tập, cơng tác suốt khố học Học viên xin chân thành cảm ơn vị lãnh đạo bạn đồng nghiệp quan ln tạo điều kiện tốt để em hồn thành tốt đẹp khố học Cao học Em xin chân thành cảm ơn! Hà nội, ngày tháng năm 2020 Học viên Lê Anh Tuấn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC HÌNH ẢNH v BẢNG DANH MỤC THUẬT NGỮ vi LỜI MỞ ĐẦU .7 CHƯƠNG TỔNG QUAN VỀ TẤN CÔNG MẠNG VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 1.1 Thực trạng vấn đề công mạng 11 1.1.1 Xu phát triển vấn đề àn tồn thơng tin 11 1.1.2 Sự phát triển xu hướng công thiết bị mạng 12 1.2 Tấn công mạng nghiên cứu liên quan .14 1.2.1 Tấn cơng mạng .14 1.2.2 Các nghiên cứu liên quan công mạng 16 1.3 Hệ thống phát xâm nhập IDS 19 1.3.1 Giới thiệu hệ thống phát xâm nhập IDS 19 1.3.2 Các kỹ thuật phát IDS .20 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 21 2.1 Phương pháp đề xuất 21 2.2 Thuật toán Cây định 22 2.2.1 Giới thiệu học máy xây dựng mô hình học máy 22 2.2.2 Nhóm thuật tốn định 26 2.2.3 Các thuật toán dựa tư tưởng Hunt 27 2.2.4 Thuật toán Random Forest .35 2.3 Giới thiệu liệu UNSW-NB15 36 2.4 Giới thiệu liệu KDDCup99 37 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 40 3.1 Công nghệ áp dụng 40 3.2 Tiến hành xử lý liệu 40 iv 3.2.1 Các thuộc tính liệu UNSW-NB15 40 3.2.2 Các thuộc tính liệu KDD99 .43 3.2.3 Chuẩn hóa liệu 48 3.2.4 Hyperparameter tuning Cross-validation 49 3.3 Tiêu chí đánh giá .50 3.4 Kết thực nghiệm đánh giá 52 3.4.1 Đối với liệu KDD99 52 3.4.2 Đối với liệu UNSW-NB15 54 3.4.3 Đánh giá 56 KẾT LUẬN VÀ KIẾN NGHỊ 57 TÀI LIỆU THAM KHẢO 58 v DANH MỤC HÌNH ẢNH Hình 1.1 Sự tăng trưởng thiết bị có kết nối mạng 11 Hình 1.2 Backdoor router 740N Tp-link cho phép đăng nhập điều khiển router mà không cần mật người dùng 12 Hình 1.3 Top 10 malware phổ biến vào năm 2018 – www.cisecurity.org 13 Hình 1.4 Sự thay đổi lượng malware phát năm 2018 13 Hình 1.5 Vụ cơng làm thay đổi giao diện trang chủ VietNam AirLines vào năm 2016 14 Hình 1.6 Giao diện Nmap 15 Hình 1.7 Lưu lượng cơng DDoS tồn giới năm 2018 16 Hình 1.8 Mơ hình IDS 19 Hình 2.1 Mơ hình IDS đề xuất 21 Hình 2.2 Hệ thống AI Google đánh bại nhà vơ địch mơn cờ vây 23 Hình 2.3 Thuật toán học máy áp dụng ứng dụng Google Camera 23 Hình 2.4 Cây định xây dựng ID3 32 Hình 2.5 Mơ hình thuật tốn Random Forest 36 Hình 2.6 Mơ hình mơ lưu lượng mạng liệu unsw-nb15 37 Hình 3.1 Minh họa chuẩn hóa liệu 48 Hình 3.2 Minh họa phương pháp cross-validation 50 Hình 3.3 Đường ROC thuật tốn đề xuất 53 Hình 3.4 Confusion matrix thuật toán tốt (random forest với gini) 53 Hình 3.5 Đường ROC thuật tốn đề xuất 55 Hình 3.6 Confusion matrix thuật toán tốt (random forest với gini) 55 vi BẢNG DANH MỤC THUẬT NGỮ Thuật ngữ Giải thích AI Artificial Intelligence – Trí tuệ nhân tạo Decision Tree Thuật toán định, phân biệt với định thuật toán đưa Hacker Tin tắc, người cơng vào hệ thống thường có mục đích xấu IDS Hệ thống phát xâm nhập Machine learning Học máy Random Forest Rừng ngẫu nhiên Sensor Cảm biến, LỜI MỞ ĐẦU Lý chọn đề tài Kể từ năm 90 kỷ XX, phủ số quốc gia nhiều chuyên gia bắt đầu nghiên cứu “thành phố thông minh”, việc xây dựng thành phố sử dụng thành tựu công nghệ thông tin để thu thập xử lý liệu để quản lý tài sản tài nguyên cách hiệu Trong năm gần đây, quốc gia có quan tâm đặc biệt tới vấn đề xây dựng thành phố thông minh thay đổi công nghệ, kinh tế mơi trường, ví dụ chương trình xây dựng thành phố thông minh triển khai Singapore, Dubai, Milton Keynes, Southampton, Barcelona, Việt Nam Để xây dựng thành phố thơng minh cần có thu thập, kết nối xử lý lượng thông tin khổng lồ Các thông tin thường thu thập cảm biến nhỏ từ người dân, thiết bị tài sản, sau tổng hợp xử lý Do thông tin cần thu thập lớn nên vấn đề bảo mật quyền riêng tư cá nhân vấn đề cần quan tâm Các hệ thống lớn ln có hệ thống phịng thủ đủ mạnh để chống lại hầu hết hành vi công xâm nhập trái phép, song hệ thống nhỏ sensor thường khơng có hệ thống phịng thủ khơng đủ để đảm bảo an toàn Đầu năm 2018, IBM X-Force Red Threatcare phát 17 lỗ hổng “zeroday” hệ thống cảm biến điều khiển thành phố thông minh sử dụng thành phố khắp giới Các lỗ hổng cho phép hacker truy cập vào điều khiển thao tác liệu, cần cảnh báo sai hệ thống cảm biến gây tổn hại lớn Từ đó, IBM có đưa số hướng dẫn để đảm bảo an toàn cho hệ thống sau: + Thực hạn chế địa IP cho máy kết nối với thiết bị, đặc biệt với thiết bị sử dụng mạng internet công cộng + Tận dụng công cụ quét ứng dụng để xác định lỗ hổng thiết bị + Sử dụng quy tắc bảo mật mạng để ngăn chặn truy cập vào hệ thống nhạy cảm thường xuyên thay đổi mật + Vơ hiệu hóa tính quản trị từ xa cổng không cần thiết + Sử dụng công cụ quản lý kiện để quét lưu lượng mạng xác định lưu lượng truy cập đáng ngờ + Sử dụng hacker mũ trắng để thử nghiệm độ an tồn hệ thống Trong đó, phương pháp sử dụng công cụ quản lý kiện để quét lưu lượng mạng xác định lưu lượng truy cập đáng ngờ coi biện pháp đơn giản, dễ thực với hệ thống nhỏ có chi phí rẻ, dễ triển khai cài đặt Thực tế có nhiều nghiên cứu phân tích lưu lượng mạng để đưa cảnh báo Tuy nhiên phương pháp có hạn chế riêng dễ bị hacker lợi dụng để tránh bị phát Với lý trên, việc nghiên cứu đề tài “Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unsw-nb15” mang lại ý nghĩa khoa học thực tế vấn đề bảo mật an toàn Mục tiêu, nhiệm vụ nghiên cứu Mục tiêu nghiên cứu: Nghiên cứu xây dựng hệ thống phân tích, phát hành vi cơng phương pháp sử dụng thuật tốn học máy + Tìm hiểu việc thu thập xử lý liệu + Tìm hiểu thuật tốn định (Decision Tree) học máy + Sử dụng thuật toán để xây dựng hệ thống phát công mạng dựa liệu lưu lượng mạng Nhiệm vụ nghiên cứu: Để đạt mục tiêu nghiên cứu, cần thực nhiệm vụ sau: + Nghiên cứu hệ thống phát hành vi cơng dựa phân tích lưu lượng mạng + Nghiên cứu, xây dựng so sánh nhóm thuật tốn học máy Decision Tree việc phân tích liệu mạng 45 DoS (Denial of Service): liệu thể loại công từ chối dịch vụ; Probe: liệu thể loại cơng thăm dị; R2L (Remote to Local): liệu thể loại công từ xa hacker cố gắng xâm nhập vào mạng máy tính mạng; U2R (User to Root): liệu thể loại công chiếm quyền Root (quyền cao nhất) việc leo thang đặc quyền từ quyền người dùng bình thường lên quyền Root Trong liệu KDD cup 99, với kết nối TCP/IP có 41 thuộc tính số phi số trích xuất Đồng thời, kết nối gán nhãn (thuộc tính 42) giúp phân biệt kết nối bình thường (Normal) cơng Các thuộc tính liệu KDD cup 99 mô tả chi tiết bảng Bảng thơng tin chi tiết 41 thuộc tính tập liệu huấn luyện kiểm tra KDD99 TT Tên thuộc tính Duration Protocol_type Service Src_bytes DTt_bytes Flag Land 10 11 12 Wrong_fragmen t Urgent Hot Num_failed_log ins Logged_in Mô tả Chiều dài (số giây) kết nối Loại giao thức, ví dụtcp, udp, vv Dịch vụ mạng điểm đến ví dụ http,telnet, vv Số byte liệu từ nguồn đến đích Số byte liệu từ đích đến nguồn Trạng thái bình thường lỗi kết nối kết nối from/to máy chủ/cổng; ngược lại Tính chất Liên tục Ví dụ Rời rạc tcp Rời rạc http Liên tục SF Liên tục 181 Rời rạc 5450 Rời rạc Số lượng đoạn “sai” Liên tục Số gói tin khẩn cấp Chỉ số “hot” Số lần đăng nhập không thành công đăng nhập thành công; ngược lại Liên tục Liên tục 0 Liên tục Rời rạc 46 TT Tên thuộc tính 13 Num_compromi sed 14 Root_shell 15 Su_attempted 16 Num_root Num_file_creati ons Num_shells Num_access_fil es Num_outbound_ cmDT 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Mơ tả Số lượng điều kiện thỏa hiệp Tính chất Ví dụ Liên tục Rời rạc Bằng thu root shell; ngược lại Bằng 1nếu cố gắng thực lệnh ''su root''; ngược lại Số lần truy cập quyền “root” Rời rạc Liên tục Số hoạt động tạo tập tin Liên tục Số lượng shell prompts Liên tục Kiểm soát số lần truy cập file Liên tục Liên tục Rời rạc Rời rạc Liên tục Liên tục Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 1.00 Liên tục 0.00 Liên tục 0.00 Liên tục Số lượng lệnh outbound phiên ftp Bằng 1nếu đăng nhập thuộc Is_host_login danh sách “máy chủ” biết, ngược lại Bằng đăng nhập Is_guest_login tài khoản khách, ngược lại Số lượng kết nối đến máy chủ tương tự giống kết Count nối hành giây qua Serror_rate Số % kết nối có lỗi “SYN” Rerror_rate Số % kết nối có lỗi“REJ” Số % kết nối đến Same_srv_rate dịch vụ tương tự % kết nối với dịch vụ khác Diff_srv_rate số kết nối đến dịch vụ với Srv_count kết nối hành hai giây qua % kết nối có lỗi “SYN” từ Srv_serror_rate dịch vụ % kết nối có lỗi “REJ” từ Srv_rerror_rate dịch vụ Srv_diff_host_ra Tỉ lệ % kết nối đến máy chủ te khác từ dịch vụ Đếm kết nối có DTt_host_count đích đến 47 TT Tên thuộc tính 33 DTt_host_srv_c ount 34 35 36 37 38 39 40 41 42 Mơ tả Đếm kết nối có 1host đích sử dụng dịch vụ tương tự DTt_host_same % kết nối có 1host đích _srv_rate sử dụng cácdịch vụ tương tự DTt_host_diff_s % dịch vụ khác rv_rate host hành DTt_host_same_s % kết nối đến host rc_ port_rate thời có cổng src % kết nối đến dịch vụ DTt_host_srv_dif tương tự đến từ host khác f_host_rate DTt_host_serror % kết nối đến host _rate thời có lỗi SO % kết nối đến host DTt_host_srv_s hành dịch vụ quy định error_rate có lỗi SO DTt_host_rerror % kết nối đến host _rate thời có lỗi RST % kết nối đến máy chủ DTt_host_srv_re hành dịch vụ quy định rror_rate có lỗi RST Nhãn Kết nối bình thường/tấn cơng Tính chất Ví dụ Liên tục Liên tục 1.00 Liên tục 0.00 Liên tục 0.11 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Tượng trưng Normal Ví dụ vài dòng liệu KDD cup 99: 0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0 00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal 0,icmp,ecr_i,SF,1032,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,511,511,0.00,0.00,0.00,0.00,1 00,0.00,0.00,255,255,1.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,smurf Một số chuyên gia phát xâm nhập mạng cho rằng, hầu hết loại công biến thể loại công biết dấu hiệu loại công biết đủ để nắm bắt biến thể lạ Trong thực nghiệm, chia tập liệu thành training set testing set theo tỷ lệ 7:3 48 3.2.3 Chuẩn hóa liệu Do phạm vi giá trị liệu đầu vào khác nhau, số thuật toán học máy chẳng hạn Decision Tree, hàm mục tiêu khơng hoạt động khơng chuẩn hóa Ví dụ, nhiều phân loại tính tốn khoảng cách hai điểm dựa khoảng cách Euclide Nếu đặc trưng có phạm vi giá trị rộng, khoảng cách mà phân loại tính tốn bị chi phối lớn đặc trưng Do đó, phạm vi tất đặc trưng nên chuẩn hóa để đặc trưng đóng góp vai trị tương đương trình xây dựng phân loại Một lý khác khiến chuẩn hóa liệu áp dụng việc giảm độ dốc đạo hàm thuật toán gradient descent giúp việc hàm mát hội tụ nhanh nhiều so với không áp dụng Hình 3.1 Minh họa chuẩn hóa liệu 49 Do vậy, tơi tiến hành chuẩn hóa liệu huấn luyện liệu KDD99 UNSW-NB15 thuật tốn Standardization với cơng thức chuẩn hóa sau: 𝑥′ = 𝑥−𝜇 𝜎 Trong đó, 𝜇 𝜎 kỳ vọng phương sai (standard deviation) thành phần tồn training data 3.2.4 Hyperparameter tuning Cross-validation Mỗi thuật toán machine learning nhắm với việc tìm tham số cho hàm dự đốn (hypothesis) có khả ánh xạ từ đầu vào sang đầu mong muốn Tuy nhiên, tham số thuật tốn tự động tìm, mà có tham số người lập trình cài đặt Chúng gọi siêu tham số (hyperparameter) Các siêu tham số ảnh hưởng lớn đến hiệu thuật tốn, vậy, người lập trình ln muốn tìm tham số tốt ưu Việc gọi hyperparameter tuning Trong phương pháp đề xuất luận văn này, tơi tiến hành tìm siêu tham số cho thuật toán Decision Tree siêu tham số sau: Siêu tham số Splitter (chiến thuật để chia đỉnh cây) Tập giá trị - - best: chọn cách chia tốt - - random: chọn cách chia ngẫu nhiên Max features (Số lượng đặc trưng xem xét lần chia đỉnh) tốt - sqrt: bậc hai tổng số đặc trưng - log2: logarit số tổng số đặc trưng - None: sử dụng toàn đặc trưng Tất nhiên, để giữ cho thuật tốn ln ln khơng nhìn thấy liệu kiểm thử, phần liệu training lấy không train mà để đánh giá siêu tham số Tôi sử dụng cross-validation Theo đó, phương pháp chia training set thành k phần Sau đó, ta sử dụng phần làm validation set k - phần 50 cịn lại làm training set Độ tốt mơ hình (lúc hyperparameter tuning) trung bình cộng độ tốt validation set set qua k lần huấn luyện Hình 3.2 Minh họa phương pháp cross-validation 3.3 Tiêu chí đánh giá Các tiêu chí sau sử dụng cho việc đánh giá độ hiệu quả-chính xác phương pháp đề xuất:  Condition positive (P): số mẫu công liệu  Condition negative (N): số mẫu bình thường liệu  True positive (TP): số mẫu công phân loại cơng  True negative (TN): số mẫu bình thường phân loại bình thường  False positive (FP): số mẫu bình thường bị gắn nhầm nhãn thành công  False negative (FN): số mẫu công bị gắn nhầm nhãn thành bình thường 51 Các tiêu chí sử dụng để đánh giá độ xác-hiệu mơ hình xây dựng sau:  True positive rate (TPR) hay Sensitivity, Recall, Hit rate: Tỷ lệ số mẫu cơng dự đốn tổng số mẫu thực công Tiêu chí cho thấy xác suất phát cơng mơ hình Một mơ hình có TPR cao đồng nghĩa với việc mơ hình bỏ sót mẫu thực công 𝑇𝑃𝑅 = 𝑇𝑃 𝑇𝑃 = 𝑃 𝑇𝑃 + 𝐹𝑁  False positive rate (FPR) hay Fall-out: Tỷ lệ số mẫu bình thường dự đốn nhầm thành cơng tổng số mẫu bình thường Tiêu chí cho thấy xác suất báo động sai mơ hình Một mơ hình có FPR thấp đồng nghĩa với việc mơ hình báo động nhầm công 𝐹𝑃𝑅 = 𝐹𝑃 𝐹𝑃 = 𝑁 𝐹𝑃 + 𝑇𝑁  Accuracy (ACC): Tỷ lệ mẫu dự đoán tổng mẫu dự đoán ACC thể độ hiệu mơ hình nói chung, nhiên không đáng tin cậy liệu không cân 𝐴𝐶𝐶 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 = 𝑃+𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁  Precision hay positive predictive rate (PPV): Tỷ lệ số mẫu cơng dự đốn tổng số điểm dự đốn cơng PPV thể độ xác mơ hình  F1-score: trung bình cộng điều hịa (harmonic mean) Precision Recall F1-score cao thể phân lớp tốt 𝐹1 = 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙  Area Under the Curve (AUC): Tiêu chí dựa đường ROC để đánh giá độ hiệu mơ hình Đặc biệt AUC thường dùng toán phân lớp nhị phân với liệu không cân 52 3.4 Kết thực nghiệm đánh giá Thực nghiệm sử dụng tảng scikit-learn tiến hành đánh giá phương pháp với thuật toán dựa định bao gồm: - Decision Tree với Entropy - Decision Tree với Gini - Random Forest với Entropy - Random Forest với Gini 3.4.1 Đối với liệu KDD99  Bảng kết thuật toán định với liệu KDD99 Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) Accuracy (%) 99.98 99.98 99.99 99.99 Precision (%) 99.98 99.98 99.99 99.99 Recall (%) 99.99 99.99 99.99 99.99 F1-score (%) 99.99 99.99 99.99 99.99 AUC (%) 99.98 99.96 99.98 99.98 TPR (%) 99.93 99.93 99.97 99.98 FPR (%) 0.01 0.01 0.01 0.01 Nhìn vào bảng kết trên, thấy thuật toán định cho kết phân loại tốt, gần tuyệt đối tiêu chí Trong thuật tốn random forest với gini cho kết tốt Như đề cập trên, thuật tốn định ln có nguy overfitting Tuy nhiên, phương pháp đề xuất sử dụng phương pháp validation giúp hạn chế overfitting đến tối đa, khẳng định thuật tốn định có hiệu cao tập liệu KDD99 Về thời gian thực hiện, thuật tốn huấn luyện nhanh Kết mơ tả bảng sau: 53  Bảng kết thời gian thực với liệu KDD99 Thời gian chạy (giây) Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) 12 16 15 Hình 3.3 Đường ROC thuật tốn đề xuất Hình 3.4 Confusion matrix thuật toán tốt (random forest với gini) 54 3.4.2 Đối với liệu UNSW-NB15  Bảng kết thuật toán định với liệu UNSWNB15 Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) Accuracy (%) 85.74 85.37 87.04 87.60 Precision (%) 92.21 93.14 96.62 95.48 Recall (%) 74.55 72.80 73.74 76.00 F1-score (%) 82.45 81.72 83.64 84.64 AUC (%) 84.71 84.21 85.82 86.53 TPR (%) 94.86 95.62 97.89 97.07 FPR (%) 25.45 27.20 26.26 24.0 Nhìn vào bảng kết trên, thấy thuật tốn định cho kết phân loại mức Mặc dù có khả phát cơng tốt, tỷ lệ báo động giả lớn Thuật toán cho kết tốt random forest với gini Đánh giá độ hiệu thuật toán liệu UNSW-NB15 trình bày phần Về thời gian thực hiện, thuật toán huấn luyện nhanh so với liệu KDD99 có kích thước liệu đầu vào nhỏ Kết mô tả bảng sau:  Bảng kết thời gian thực với liệu UNSW-NB15 Thời gian chạy (giây) Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) 13 11 55 Hình 3.5 Đường ROC thuật tốn đề xuất Hình 3.6 Confusion matrix thuật tốn tốt (random forest với gini) 56 3.4.3 Đánh giá Như vậy, thực nghiệm cho thấy thuật toán định có hiệu tốt liệu KDD99 Tuy nhiên, độ xác hiệu mức tốt liệu UNSW-NB15 Điều giải thích sau:  Bộ liệu KDD99 lỗi thời khơng cịn khuyến nghị phân tích việc phát công mạng Thực tế, ngày liệu khơng cịn ứng dụng rộng rãi vào thực tiễn an ninh mạng khuyến cáo thay liệu Tuy nhiên, KDD99 cịn giá trị cơng tác nghiên cứu giáo dục, luận văn tiến hành thực nghiệm liệu  UNSW-NB15 xây dựng từ năm 2015 nên bổ sung nhiều loại công so với liệu KDD99, việc ứng dụng học máy phân tích, phát cơng cần thiết, địi hỏi thuật tốn mạnh Với thuật toán cổ điển định, kết thu tích cực  Tỷ lệ số mẫu training set testing set liệu UNSW-NB15 nhỏ Thông thường, tỷ lệ nằm mức 7:3 với liệu nhỏ lớn liệu lớn Ngay nay, testing set thông thường nằm mức vài nghìn mẫu đủ để đánh giá mơ hình Tỷ lệ train:test cao liệu UNSW-NB15 ngun nhân cho việc độ xác khơng cao Điều dễ dàng khắc phục việc tăng số lượng mẫu dành cho training set Tuy nhiên, phạm vi luận văn, sử dụng nguyên cách chia ban đầu liệu UNSW-NB15 Như vậy, thuật tốn định nói riêng, hay học máy nói chung có khả phát cơng tốt thực nghiệm với liệu tiếng KDD99 UNSW-NB15 Điều cho thấy tính khả thi hứa hẹn việc áp dụng rộng rãi mơ hình IDS dựa hành vi học máy nhằm phát công mạng Bên cạnh đó, kết thực nghiệm cịn cho thấy khẳng định, thuật tốn random forest nói riêng hay thuật tốn tập hợp nói chung thường cho kết tốt mơ hình riêng lẻ 57 KẾT LUẬN VÀ KIẾN NGHỊ Cách mạng 4.0 kéo theo phát triển thiết bị mạng, thiết bị cảm biến Nhưng phát triển công nghệ q nhanh mà khơng có quan tâm đến vấn đề bảo mật khiến thiết bị trở thành mục tiêu dễ dàng cho hình thức cơng mạng Và hậu việc cơng trở nên lớn thiết bị công có chứa thơng tin nhậy cảm Do việc xây dựng biện pháp bảo vệ thiết bị mạng cần thiết Mơ hình phải dể vận dụng kể thiết bị có dung lượng nhỏ thiết bị IOT Trong luận văn đề xuất mơ hình để tiến hành dự đốn hành vi công mạng dựa lưu lượng thuật toán machine learning, cụ thể decision tree Luận văn đạt số kết sau: + Nghiên cứu toán phát hành vi công dựa lưu lượng mạng + Đề xuất mơ hình dự đốn hành vi cơng dựa thuật toán học máy (decision tree) xây dựng mơ hình học máy thành cơng + Tiến hành nghiên cứu liệu lưu lượng mạng kdd99 unsw-nb15 + So sánh tỷ lệ phát thuật toán định Phương hướng nghiên cứu luận văn: + Xây dựng mơ hình ngơn ngữ nhúng C + Tích hợp mơ hình vào thiết bị mạng nhỏ vừa, đặc biệt thiết bị IOT + Giám sát, thu thập liệu liệu để tiếp tục hoàn thiện mơ hình 58 TÀI LIỆU THAM KHẢO  Tiếng việt [1]: PGS.TS Vũ Hữu Tiệp (2018), Machine learning [2]: Giáo trình an ninh mạng, Học viện kỹ thuật mật mã  Tiếng Anh [3]: Aurélien Géron Hands-On Machine Learning with Scikit-Learn & TensorFlow, 2017 [4]: Dr Michael Bowles Machine Learning in Python 2015 [5]: Malwarebytes Labs, 2019 State of Malware, 2019 [6]: Moustafa, Nour, and Jill Slay UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set) Military Communications and Information Systems Conference (MilCIS), 2015 IEEE, 2015 [7]: “The need for Intrusion Detection System”, “How IDS Addresses commonThreats, Attacks & Vulnerabilities”, Everything you need to know about IDS, 1999 AXENT Technologies, Inc Trang web [8]: Documentation of scikit-learn 0.21.2 | Decision Trees, RandomForest “https://scikitlearn.org/stable/documentation.html” [9]: Numpy and Scipy Documentation | Contributing to NumPy “https://docs.scipy.org/doc/numpy/dev/” [10]: pandas 0.24.2 documentation “https://pandas.pydata.org/pandas- docs/stable/” [11] Sefik Ilkin Serengil blog “https://sefiks.com/category/machine-learning/” 59 [12] Cisco Visual Networking Index: Forecast and Trends, 2017–2022 White Paper “https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visualnetworking-index-vni/white-paper-c11-741490.html” [13] Tổng kết an ninh mạng năm 2018 dự báo xu hướng 2019 http://www.bkav.com.vn/tin_tuc_noi_bat/-/chi_tiet/601424/tong-ket-an-ninh-mangnam-2018-va-du-bao-xu-huong-2019 [14] Amount of malware targeting smart devices more than doubled in 2017 “https://www.kaspersky.com/about/press-releases/2017_amount-of-malwaretargeting-smart-devices-more-than-doubled-in-2017” ... TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN... VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ QUỐC DŨNG HÀ NỘI – NĂM 2020 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn ? ?Nghiên cứu, so sánh số thuật toán định phát. .. Sau tiếp tục đệ quy thuật toán ta định giống với định mà thuật toán ID3 thu 2.2.4 Thuật toán Random Forest Trong thuật toán trên, Random Forest thuật toán đặc biệt với thuật toán Decision Tree

Ngày đăng: 18/06/2021, 11:02

Xem thêm: