Nghiên cứu, so sánh một số thuật toán cây quyết định trong phát hiện các cuộc tấn công mạng dựa trên bộ dữ liệu KDD99 và UNSW – NB15

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ ANH TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - NĂM 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - LÊ ANH TUẤN LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unswnb15” cơng trình nghiên cứu thân tơi; số liệu sử dụng luận văn trung thực; tài liệu tham khảo có nguồn gốc trích dẫn rõ ràng; kết nghiên cứu không chép cơng trình Tơi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng Học viên Lê Anh Tuấn năm 2020 LỜI CẢM ƠN Trong trình thực luận văn này, Học viên nhận hướng dẫn, bảo tận tình Thầy TS Ngơ Quốc Dũng, giảng viên Khoa Công nghệ Thông tin cán trực tiếp hướng dẫn khoa học Thầy dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thông tin phương pháp nghiên cứu để hoàn thành luận văn cao học Học viên xin chân thành cảm ơn Thầy, Cô giáo Học viện Cơng nghệ Bưu Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học – Học viện động viên, giúp đỡ nhiệt tình chia sẻ với em kinh nghiệm học tập, cơng tác suốt khố học Học viên xin chân thành cảm ơn vị lãnh đạo bạn đồng nghiệp quan tạo điều kiện tốt để em hồn thành tốt đẹp khoá học Cao học Em xin chân thành cảm ơn! Hà nội, ngày tháng Học viên Lê Anh Tuấn năm 2020 MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii DANH MỤC HÌNH ẢNH .v BẢNG DANH MỤC THUẬT NGỮ vi LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TẤN CÔNG MẠNG VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 1.1 Thực trạng vấn đề công mạng 11 1.1.1 Xu phát triển vấn đề àn tồn thơng tin .11 1.1.2 Sự phát triển xu hướng công thiết bị mạng 12 1.2 Tấn công mạng nghiên cứu liên quan .14 1.2.1 Tấn cơng mạng .14 1.2.2 Các nghiên cứu liên quan công mạng 16 1.3 Hệ thống phát xâm nhập IDS .19 1.3.1 Giới thiệu hệ thống phát xâm nhập IDS 19 1.3.2 Các kỹ thuật phát IDS 20 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 21 2.1 Phương pháp đề xuất 21 2.2 Thuật toán Cây định 22 2.2.1 Giới thiệu học máy xây dựng mô hình học máy 22 2.2.2 Nhóm thuật tốn định 26 2.2.3 Các thuật toán dựa tư tưởng Hunt 27 2.2.4 Thuật toán Random Forest 35 2.3 Giới thiệu liệu UNSW-NB15 36 2.4 Giới thiệu liệu KDDCup99 37 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 40 3.1 Công nghệ áp dụng 40 3.2 Tiến hành xử lý liệu 40 3.2.1 Các thuộc tính liệu UNSW-NB15 40 3.2.2 Các thuộc tính liệu KDD99 43 3.2.3 Chuẩn hóa liệu 48 3.2.4 Hyperparameter tuning Cross-validation 49 3.3 Tiêu chí đánh giá 50 3.4 Kết thực nghiệm đánh giá 52 3.4.1 Đối với liệu KDD99 52 3.4.2 Đối với liệu UNSW-NB15 54 3.4.3 Đánh giá .56 KẾT LUẬN VÀ KIẾN NGHỊ 57 TÀI LIỆU THAM KHẢO 58 DANH MỤC HÌNH ẢNH Hình 1.1 Sự tăng trưởng thiết bị có kết nối mạng 11 Hình 1.2 Backdoor router 740N Tp-link cho phép đăng nhập điều khiển router mà không cần mật người dùng 12 Hình 1.3 Top 10 malware phổ biến vào năm 2018 – www.cisecurity.org 13 Hình 1.4 Sự thay đổi lượng malware phát năm 2018 13 Hình 1.5 Vụ công làm thay đổi giao diện trang chủ VietNam AirLines vào năm 2016 14 Hình 1.6 Giao diện Nmap 15 Hình 1.7 Lưu lượng cơng DDoS tồn giới năm 2018 .16 Hình 1.8 Mơ hình IDS 19 Hình 2.1 Mơ hình IDS đề xuất .21 Hình 2.2 Hệ thống AI Google đánh bại nhà vơ địch mơn cờ vây .23 Hình 2.3 Thuật toán học máy áp dụng ứng dụng Google Camera 23 Hình 2.4 Cây định xây dựng ID3 .32 Hình 2.5 Mơ hình thuật tốn Random Forest .36 Hình 2.6 Mơ hình mơ lưu lượng mạng liệu unsw-nb15 37 Hình 3.1 Minh họa chuẩn hóa liệu 48 Hình 3.2 Minh họa phương pháp cross-validation .50 Hình 3.3 Đường ROC thuật toán đề xuất .53 Hình 3.4 Confusion matrix thuật tốn tốt (random forest với gini).53 Hình 3.5 Đường ROC thuật tốn đề xuất .55 Hình 3.6 Confusion matrix thuật toán tốt (random forest với gini).55 BẢNG DANH MỤC THUẬT NGỮ Thuật ngữ AI Giải thích Artificial Intelligence – Trí tuệ nhân tạo Decision Tree Thuật toán định, phân biệt với định thuật toán đưa Hacker Tin tắc, người cơng vào hệ thống thường có mục đích xấu IDS Machine learning Hệ thống phát xâm nhập Học máy Random Forest Rừng ngẫu nhiên Sensor Cảm biến, LỜI MỞ ĐẦU Lý chọn đề tài Kể từ năm 90 kỷ XX, phủ số quốc gia nhiều chuyên gia bắt đầu nghiên cứu “thành phố thơng minh”, việc xây dựng thành phố sử dụng thành tựu công nghệ thông tin để thu thập xử lý liệu để quản lý tài sản tài nguyên cách hiệu Trong năm gần đây, quốc gia có quan tâm đặc biệt tới vấn đề xây dựng thành phố thông minh thay đổi công nghệ, kinh tế mơi trường, ví dụ chương trình xây dựng thành phố thông minh triển khai Singapore, Dubai, Milton Keynes, Southampton, Barcelona, Việt Nam Để xây dựng thành phố thơng minh cần có thu thập, kết nối xử lý lượng thông tin khổng lồ Các thông tin thường thu thập cảm biến nhỏ từ người dân, thiết bị tài sản, sau tổng hợp xử lý Do thông tin cần thu thập lớn nên vấn đề bảo mật quyền riêng tư cá nhân vấn đề cần quan tâm Các hệ thống lớn ln có hệ thống phịng thủ đủ mạnh để chống lại hầu hết hành vi công xâm nhập trái phép, song hệ thống nhỏ sensor thường khơng có hệ thống phịng thủ khơng đủ để đảm bảo an toàn Đầu năm 2018, IBM X-Force Red Threatcare phát 17 lỗ hổng “zero-day” hệ thống cảm biến điều khiển thành phố thông minh sử dụng thành phố khắp giới Các lỗ hổng cho phép hacker truy cập vào điều khiển thao tác liệu, cần cảnh báo sai hệ thống cảm biến gây tổn hại lớn Từ đó, IBM có đưa số hướng dẫn để đảm bảo an toàn cho hệ thống sau: + Thực hạn chế địa IP cho máy kết nối với thiết bị, đặc biệt với thiết bị sử dụng mạng internet công cộng + Tận dụng công cụ quét ứng dụng để xác định lỗ hổng thiết bị + Sử dụng quy tắc bảo mật mạng để ngăn chặn truy cập vào hệ thống nhạy cảm thường xuyên thay đổi mật + Vơ hiệu hóa tính quản trị từ xa cổng không cần thiết + Sử dụng công cụ quản lý kiện để quét lưu lượng mạng xác định lưu lượng truy cập đáng ngờ + Sử dụng hacker mũ trắng để thử nghiệm độ an tồn hệ thống Trong đó, phương pháp sử dụng công cụ quản lý kiện để quét lưu lượng mạng xác định lưu lượng truy cập đáng ngờ coi biện pháp đơn giản, dễ thực với hệ thống nhỏ có chi phí rẻ, dễ triển khai cài đặt Thực tế có nhiều nghiên cứu phân tích lưu lượng mạng để đưa cảnh báo Tuy nhiên phương pháp có hạn chế riêng dễ bị hacker lợi dụng để tránh bị phát Với lý trên, việc nghiên cứu đề tài “Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unsw-nb15” mang lại ý nghĩa khoa học thực tế vấn đề bảo mật an toàn Mục tiêu, nhiệm vụ nghiên cứu Mục tiêu nghiên cứu: Nghiên cứu xây dựng hệ thống phân tích, phát hành vi cơng phương pháp sử dụng thuật tốn học máy + Tìm hiểu việc thu thập xử lý liệu + Tìm hiểu thuật toán định (Decision Tree) học máy + Sử dụng thuật toán để xây dựng hệ thống phát công mạng dựa liệu lưu lượng mạng Nhiệm vụ nghiên cứu: Để đạt mục tiêu nghiên cứu, cần thực nhiệm vụ sau: + Nghiên cứu hệ thống phát hành vi công dựa phân tích lưu lượng mạng + Nghiên cứu, xây dựng so sánh nhóm thuật tốn học máy Decision Tree việc phân tích liệu mạng + Nghiên cứu sử dụng liệu hành vi mạng kdd99 unsw-nb15 + Tiến hành áp dụng với liệu thực tế đánh giá hiệu Đối tượng phạm vi nghiên cứu đề tài + Vấn đề xây dựng hệ thống phát hành vi thiết bị vừa nhỏ + Sử dụng liệu hành vi mạng kdd99 unsw-nb15 + Quy trình xây dựng mơ hình học máy, nhóm thuật toán Decision Tree Phương pháp nghiên cứu Để hoàn thành mục tiêu, luận văn kết hợp sử dụng phương pháp nghiên cứu tài liệu nghiên cứu thực tiễn 4.1 Phương pháp nghiên cứu tài liệu - Phương pháp phân tích tổng hợp lý thuyết: Luận văn thực phân tích, tổng hợp số báo khoa học có liên quan đến vấn đề cần nghiên cứu đăng tạp chí, hội nghị uy tín giới cộng đồng nghiên cứu sử dụng - Phương pháp phân loại hệ thống hóa lý thuyết: Từ kiến thức thu phân tích tổng hợp lý thuyết, luận văn hệ thống xếp lại thông tin thu cách khoa học, đồng thời sử dụng chúng để nhận định, đánh giá phương pháp có, từ có đề xuất tìm phương pháp tối ưu cho toán đặt 45 U2R (User to Root): liệu thể loại công chiếm quyền Root (quyền cao nhất) việc leo thang đặc quyền từ quyền người dùng bình thường lên quyền Root Trong liệu KDD cup 99, với kết nối TCP/IP có 41 thuộc tính số phi số trích xuất Đồng thời, kết nối gán nhãn (thuộc tính 42) giúp phân biệt kết nối bình thường (Normal) cơng Các thuộc tính liệu KDD cup 99 mô tả chi tiết bảng Bảng thơng tin chi tiết 41 thuộc tính tập liệu huấn luyện kiểm tra KDD99 TT Tên thuộc tính Duration Protocol_type Service Src_bytes DTt_bytes Flag Land 10 11 Wrong_fragmen t Urgent Hot Num_failed_log ins 12 Logged_in 13 Num_compromi sed 14 Root_shell 15 Su_attempted 16 Num_root Mô tả Chiều dài (số giây) kết nối Loại giao thức, ví dụtcp, udp, vv Dịch vụ mạng điểm đến ví dụ http,telnet, vv Số byte liệu từ nguồn đến đích Số byte liệu từ đích đến nguồn Trạng thái bình thường lỗi kết nối kết nối from/to máy chủ/cổng; ngược lại Tính chất Liên tục Ví dụ Rời rạc tcp Rời rạc http Liên tục SF Liên tục 181 Rời rạc 5450 Rời rạc Số lượng đoạn “sai” Liên tục Số gói tin khẩn cấp Chỉ số “hot” Số lần đăng nhập không thành công đăng nhập thành công; ngược lại Liên tục Liên tục 0 Liên tục Rời rạc Số lượng điều kiện thỏa hiệp Liên tục Rời rạc Rời rạc Liên tục Bằng thu root shell; ngược lại Bằng 1nếu cố gắng thực lệnh ''su root''; ngược lại Số lần truy cập quyền “root” 46 TT 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Tên thuộc tính Num_file_creati ons Num_shells Num_access_fil es Num_outbound _cmDT Tính chất Ví dụ Số hoạt động tạo tập tin Liên tục Số lượng shell prompts Liên tục Kiểm soát số lần truy cập file Liên tục Liên tục Rời rạc Rời rạc Liên tục Liên tục Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 1.00 Liên tục 0.00 Liên tục 0.00 Liên tục Liên tục Liên tục 1.00 Liên tục 0.00 Liên tục 0.11 Mô tả Số lượng lệnh outbound phiên ftp Bằng 1nếu đăng nhập thuộc Is_host_login danh sách “máy chủ” biết, ngược lại Bằng đăng nhập Is_guest_login tài khoản khách, ngược lại Số lượng kết nối đến máy chủ tương tự giống kết Count nối hành giây qua Serror_rate Số % kết nối có lỗi “SYN” Rerror_rate Số % kết nối có lỗi“REJ” Số % kết nối đến Same_srv_rate dịch vụ tương tự % kết nối với dịch vụ khác Diff_srv_rate số kết nối đến dịch vụ với Srv_count kết nối hành hai giây qua % kết nối có lỗi “SYN” từ Srv_serror_rate dịch vụ % kết nối có lỗi “REJ” từ Srv_rerror_rate dịch vụ Srv_diff_host_ra Tỉ lệ % kết nối đến máy chủ te khác từ dịch vụ Đếm kết nối có DTt_host_count đích đến Đếm kết nối có 1host DTt_host_srv_c đích sử dụng dịch vụ ount tương tự DTt_host_same % kết nối có 1host đích _srv_rate sử dụng cácdịch vụ tương tự DTt_host_diff_s % dịch vụ khác rv_rate host hành DTt_host_same_s % kết nối đến host 47 TT Tên thuộc tính rc_ port_rate 37 DTt_host_srv_dif f_host_rate 38 DTt_host_serror _rate 39 DTt_host_srv_s error_rate 40 DTt_host_rerror _rate 41 DTt_host_srv_r error_rate 42 Nhãn Mơ tả thời có cổng src % kết nối đến dịch vụ tương tự đến từ host khác % kết nối đến host thời có lỗi SO % kết nối đến host hành dịch vụ quy định có lỗi SO % kết nối đến host thời có lỗi RST % kết nối đến máy chủ hành dịch vụ quy định có lỗi RST Kết nối bình thường/tấn cơng Tính chất Ví dụ Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Tượng trưng Normal Ví dụ vài dòng liệu KDD cup 99: 0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0 00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal 0,icmp,ecr_i,SF,1032,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,511,511,0.00,0.00,0.00,0.00,1 00,0.00,0.00,255,255,1.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,smurf Một số chuyên gia phát xâm nhập mạng cho rằng, hầu hết loại công biến thể loại công biết dấu hiệu loại công biết đủ để nắm bắt biến thể lạ Trong thực nghiệm, chia tập liệu thành training set testing set theo tỷ lệ 7:3 3.2.3 Chuẩn hóa liệu Do phạm vi giá trị liệu đầu vào khác nhau, số thuật toán học máy chẳng hạn Decision Tree, hàm mục tiêu không hoạt động khơng chuẩn hóa Ví dụ, nhiều phân loại tính tốn khoảng cách hai điểm dựa khoảng cách Euclide Nếu đặc trưng có phạm vi giá trị 48 rộng, khoảng cách mà phân loại tính tốn bị chi phối lớn đặc trưng Do đó, phạm vi tất đặc trưng nên chuẩn hóa để đặc trưng đóng góp vai trị tương đương trình xây dựng phân loại Một lý khác khiến chuẩn hóa liệu áp dụng việc giảm độ dốc đạo hàm thuật toán gradient descent giúp việc hàm mát hội tụ nhanh nhiều so với không áp dụng Hình 3.1 Minh họa chuẩn hóa liệu Do vậy, tơi tiến hành chuẩn hóa liệu huấn luyện liệu KDD99 UNSW-NB15 thuật tốn Standardization với cơng thức chuẩn hóa sau: 49 Trong đó, kỳ vọng phương sai (standard deviation) thành phần tồn training data 3.2.4 Hyperparameter tuning Cross-validation Mỗi thuật toán machine learning nhắm với việc tìm tham số cho hàm dự đốn (hypothesis) có khả ánh xạ từ đầu vào sang đầu mong muốn Tuy nhiên, khơng phải tham số thuật tốn tự động tìm, mà có tham số người lập trình cài đặt Chúng gọi siêu tham số (hyperparameter) Các siêu tham số ảnh hưởng lớn đến hiệu thuật toán, vậy, người lập trình ln muốn tìm tham số tốt ưu Việc gọi hyperparameter tuning Trong phương pháp đề xuất luận văn này, tiến hành tìm siêu tham số cho thuật tốn Decision Tree siêu tham số sau: Siêu tham số Splitter (chiến thuật để chia đỉnh cây) Max features (Số lượng đặc trưng xem xét lần chia đỉnh) Tập giá trị - - best: chọn cách chia tốt - - random: chọn cách chia ngẫu nhiên tốt - sqrt: bậc hai tổng số đặc trưng - log2: logarit số tổng số đặc trưng - None: sử dụng toàn đặc trưng Tất nhiên, để giữ cho thuật toán ln ln khơng nhìn thấy liệu kiểm thử, phần liệu training lấy không train mà để đánh giá siêu tham số Tơi sử dụng cross-validation Theo đó, phương pháp chia training set thành k phần Sau đó, ta sử dụng phần làm validation set k - phần lại làm training set Độ tốt mơ hình (lúc hyperparameter tuning) trung bình cộng độ tốt validation set set qua k lần huấn luyện 50 Hình 3.2 Minh họa phương pháp cross-validation 3.3 Tiêu chí đánh giá Các tiêu chí sau sử dụng cho việc đánh giá độ hiệu quả-chính xác phương pháp đề xuất:  Condition positive (P): số mẫu công liệu  Condition negative (N): số mẫu bình thường liệu  True positive (TP): số mẫu công phân loại công  True negative (TN): số mẫu bình thường phân loại bình thường  False positive (FP): số mẫu bình thường bị gắn nhầm nhãn thành công  False negative (FN): số mẫu cơng bị gắn nhầm nhãn thành bình thường Các tiêu chí sử dụng để đánh giá độ xác-hiệu mơ hình xây dựng sau: 51  True positive rate (TPR) hay Sensitivity, Recall, Hit rate: Tỷ lệ số mẫu công dự đoán tổng số mẫu thực cơng Tiêu chí cho thấy xác suất phát cơng mơ hình Một mơ hình có TPR cao đồng nghĩa với việc mơ hình bỏ sót mẫu thực công  False positive rate (FPR) hay Fall-out: Tỷ lệ số mẫu bình thường dự đốn nhầm thành cơng tổng số mẫu bình thường Tiêu chí cho thấy xác suất báo động sai mơ hình Một mơ hình có FPR thấp đồng nghĩa với việc mơ hình báo động nhầm công  Accuracy (ACC): Tỷ lệ mẫu dự đoán tổng mẫu dự đoán ACC thể độ hiệu mơ hình nói chung, nhiên khơng đáng tin cậy liệu không cân  Precision hay positive predictive rate (PPV): Tỷ lệ số mẫu cơng dự đốn tổng số điểm dự đốn cơng PPV thể độ xác mơ hình  F1-score: trung bình cộng điều hòa (harmonic mean) Precision Recall F1-score cao thể phân lớp tốt  Area Under the Curve (AUC): Tiêu chí dựa đường ROC để đánh giá độ hiệu mơ hình Đặc biệt AUC thường dùng toán phân lớp nhị phân với liệu không cân 3.4 Kết thực nghiệm đánh giá Thực nghiệm sử dụng tảng scikit-learn tiến hành đánh giá phương pháp với thuật toán dựa định bao gồm: - Decision Tree với Entropy 52 - Decision Tree với Gini - Random Forest với Entropy - Random Forest với Gini 3.4.1 Đối với liệu KDD99  Bảng kết thuật toán định với liệu KDD99 Decision Tree (Entropy) Decision Tree (Gini) Random Forest (Entropy) Random Forest (Gini) Accuracy (%) 99.98 99.98 99.99 99.99 Precision (%) 99.98 99.98 99.99 99.99 Recall (%) 99.99 99.99 99.99 99.99 F1-score (%) 99.99 99.99 99.99 99.99 AUC (%) 99.98 99.96 99.98 99.98 TPR (%) 99.93 99.93 99.97 99.98 FPR (%) 0.01 0.01 0.01 0.01 Nhìn vào bảng kết trên, thấy thuật toán định cho kết phân loại tốt, gần tuyệt đối tiêu chí Trong thuật tốn random forest với gini cho kết tốt Như đề cập trên, thuật tốn định ln có nguy overfitting Tuy nhiên, phương pháp đề xuất sử dụng phương pháp validation giúp hạn chế overfitting đến tối đa, khẳng định thuật tốn định có hiệu cao tập liệu KDD99 Về thời gian thực hiện, thuật tốn huấn luyện nhanh Kết mơ tả bảng sau:  Bảng kết thời gian thực với liệu KDD99 Decision Tree (Entropy) Thời gian 12 Decision Tree (Gini) 16 Random Forest (Entropy) Random Forest (Gini) 15 53 chạy (giây) Hình 3.3 Đường ROC thuật tốn đề xuất Hình 3.4 Confusion matrix thuật toán tốt (random forest với gini) 3.4.2 Đối với liệu UNSW-NB15  Bảng kết thuật toán định với liệu UNSWNB15 Decision Tree (Entropy) Decision Tree (Gini) Random Forest Random Forest (Gini) 54 (Entropy) Accuracy (%) 85.74 85.37 87.04 87.60 Precision (%) 92.21 93.14 96.62 95.48 Recall (%) 74.55 72.80 73.74 76.00 F1-score (%) 82.45 81.72 83.64 84.64 AUC (%) 84.71 84.21 85.82 86.53 TPR (%) 94.86 95.62 97.89 97.07 FPR (%) 25.45 27.20 26.26 24.0 Nhìn vào bảng kết trên, thấy thuật tốn định cho kết phân loại mức Mặc dù có khả phát cơng tốt, tỷ lệ báo động giả lớn Thuật toán cho kết tốt random forest với gini Đánh giá độ hiệu thuật toán liệu UNSW-NB15 trình bày phần Về thời gian thực hiện, thuật toán huấn luyện nhanh so với liệu KDD99 có kích thước liệu đầu vào nhỏ Kết mô tả bảng sau:  Bảng kết thời gian thực với liệu UNSW-NB15 Decision Tree (Entropy) Thời gian chạy (giây) 13 Decision Tree (Gini) 11 Random Forest (Entropy) Random Forest (Gini) 55 Hình 3.5 Đường ROC thuật tốn đề xuất Hình 3.6 Confusion matrix thuật tốn tốt (random forest với gini) 56 3.4.3 Đánh giá Như vậy, thực nghiệm cho thấy thuật toán định có hiệu tốt liệu KDD99 Tuy nhiên, độ xác hiệu mức tốt liệu UNSW-NB15 Điều giải thích sau:  Bộ liệu KDD99 lỗi thời khơng cịn khuyến nghị phân tích việc phát công mạng Thực tế, ngày liệu khơng cịn ứng dụng rộng rãi vào thực tiễn an ninh mạng khuyến cáo thay liệu Tuy nhiên, KDD99 cịn giá trị cơng tác nghiên cứu giáo dục, luận văn tiến hành thực nghiệm liệu  UNSW-NB15 xây dựng từ năm 2015 nên bổ sung nhiều loại công so với liệu KDD99, việc ứng dụng học máy phân tích, phát cơng cần thiết, địi hỏi thuật tốn mạnh Với thuật toán cổ điển định, kết thu tích cực  Tỷ lệ số mẫu training set testing set liệu UNSW-NB15 nhỏ Thông thường, tỷ lệ nằm mức 7:3 với liệu nhỏ lớn liệu lớn Ngay nay, testing set thông thường nằm mức vài nghìn mẫu đủ để đánh giá mơ hình Tỷ lệ train:test cao liệu UNSW-NB15 ngun nhân cho việc độ xác khơng cao Điều dễ dàng khắc phục việc tăng số lượng mẫu dành cho training set Tuy nhiên, phạm vi luận văn, sử dụng nguyên cách chia ban đầu liệu UNSW-NB15 Như vậy, thuật tốn định nói riêng, hay học máy nói chung có khả phát cơng tốt thực nghiệm với liệu tiếng KDD99 UNSW-NB15 Điều cho thấy tính khả thi hứa hẹn việc áp dụng rộng rãi mơ hình IDS dựa hành vi học máy nhằm phát công mạng 57 Bên cạnh đó, kết thực nghiệm cịn cho thấy khẳng định, thuật tốn random forest nói riêng hay thuật tốn tập hợp nói chung thường cho kết tốt mơ hình riêng lẻ KẾT LUẬN VÀ KIẾN NGHỊ Cách mạng 4.0 kéo theo phát triển thiết bị mạng, thiết bị cảm biến Nhưng phát triển công nghệ q nhanh mà khơng có quan tâm đến vấn đề bảo mật khiến thiết bị trở thành mục tiêu dễ dàng cho hình thức cơng mạng Và hậu việc cơng trở nên lớn thiết bị công có chứa thơng tin nhậy cảm Do việc xây dựng biện pháp bảo vệ thiết bị mạng cần thiết Mơ hình phải dể vận dụng kể thiết bị có dung lượng nhỏ thiết bị IOT Trong luận văn đề xuất mơ hình để tiến hành dự đốn hành vi công mạng dựa lưu lượng thuật toán machine learning, cụ thể decision tree Luận văn đạt số kết sau: + Nghiên cứu toán phát hành vi công dựa lưu lượng mạng + Đề xuất mơ hình dự đốn hành vi cơng dựa thuật toán học máy (decision tree) xây dựng mơ hình học máy thành cơng + Tiến hành nghiên cứu liệu lưu lượng mạng kdd99 unsw-nb15 + So sánh tỷ lệ phát thuật toán định Phương hướng nghiên cứu luận văn: + Xây dựng mơ hình ngơn ngữ nhúng C + Tích hợp mơ hình vào thiết bị mạng nhỏ vừa, đặc biệt thiết bị IOT + Giám sát, thu thập liệu liệu để tiếp tục hoàn thiện mơ hình 58 TÀI LIỆU THAM KHẢO  Tiếng việt [1]: PGS.TS Vũ Hữu Tiệp (2018), Machine learning [2]: Giáo trình an ninh mạng, Học viện kỹ thuật mật mã  Tiếng Anh [3]: Aurélien Géron Hands-On Machine Learning with Scikit-Learn & TensorFlow, 2017 [4]: Dr Michael Bowles Machine Learning in Python 2015 [5]: Malwarebytes Labs, 2019 State of Malware, 2019 [6]: Moustafa, Nour, and Jill Slay UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set) Military Communications and Information Systems Conference (MilCIS), 2015 IEEE, 2015 [7]: “The need for Intrusion Detection System”, “How IDS Addresses commonThreats, Attacks & Vulnerabilities”, Everything you need to know about IDS, 1999 AXENT Technologies, Inc Trang web [8]: Documentation of scikit-learn 0.21.2 | Decision Trees, RandomForest “https://scikitlearn.org/stable/documentation.html” [9]: Numpy and Scipy Documentation | Contributing to NumPy “https://docs.scipy.org/doc/numpy/dev/” [10]: pandas 0.24.2 documentation “https://pandas.pydata.org/pandas- docs/stable/” [11] Sefik Ilkin Serengil blog “https://sefiks.com/category/machine-learning/” 59 [12] Cisco Visual Networking Index: Forecast and Trends, 2017–2022 White Paper “https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visualnetworking-index-vni/white-paper-c11-741490.html” [13] Tổng kết an ninh mạng năm 2018 dự báo xu hướng 2019 http://www.bkav.com.vn/tin_tuc_noi_bat/-/chi_tiet/601424/tong-ket-an-ninh-mangnam-2018-va-du-bao-xu-huong-2019 [14] Amount of malware targeting smart devices more than doubled in 2017 “https://www.kaspersky.com/about/press-releases/2017_amount-of-malwaretargeting-smart-devices-more-than-doubled-in-2017” ... xin cam đoan luận văn ? ?Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unswnb15” cơng trình nghiên cứu thân tôi; số liệu sử dụng luận văn trung thực; tài liệu tham khảo có nguồn... Sự phát triển xu hướng công thiết bị mạng 12 1.2 Tấn công mạng nghiên cứu liên quan .14 1.2.1 Tấn công mạng .14 1.2.2 Các nghiên cứu liên quan công mạng 16 1.3 Hệ thống phát. .. Sau tiếp tục đệ quy thuật tốn ta định giống với định mà thuật toán ID3 thu 2.2.4 Thuật toán Random Forest Trong thuật toán trên, Random Forest thuật toán đặc biệt với thuật toán Decision Tree