(LUẬN văn THẠC sĩ) nghiên cứu, so sánh một số thuật toán cây quyết định trong phát hiện các cuộc tấn công mạng dựa trên bộ dữ liệu KDD99 và UNSW – NB15

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ ANH TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - NĂM 2020 download by : skknchat@gmail.com HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LÊ ANH TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ QUỐC DŨNG download by : skknchat@gmail.com HÀ NỘI – NĂM 2020 download by : skknchat@gmail.com i LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unswnb15” cơng trình nghiên cứu thân tôi; số liệu sử dụng luận văn trung thực; tài liệu tham khảo có nguồn gốc trích dẫn rõ ràng; kết nghiên cứu khơng chép cơng trình Tơi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng Học viên Lê Anh Tuấn download by : skknchat@gmail.com năm 2020 ii LỜI CẢM ƠN Trong q trình thực luận văn này, Học viên ln nhận hướng dẫn, bảo tận tình Thầy TS Ngô Quốc Dũng, giảng viên Khoa Công nghệ Thông tin cán trực tiếp hướng dẫn khoa học Thầy dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thông tin phương pháp nghiên cứu để hoàn thành luận văn cao học Học viên xin chân thành cảm ơn Thầy, Cô giáo Học viện Cơng nghệ Bưu Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho em suốt trình học tập trường Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học – Học viện ln động viên, giúp đỡ nhiệt tình chia sẻ với em kinh nghiệm học tập, công tác suốt khoá học Học viên xin chân thành cảm ơn vị lãnh đạo bạn đồng nghiệp quan tạo điều kiện tốt để em hồn thành tốt đẹp khoá học Cao học Em xin chân thành cảm ơn! Hà nội, ngày tháng năm 2020 Học viên Lê Anh Tuấn download by : skknchat@gmail.com iii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii DANH MỤC HÌNH ẢNH .v BẢNG DANH MỤC THUẬT NGỮ vi LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TẤN CÔNG MẠNG VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 1.1 Thực trạng vấn đề công mạng 11 1.1.1 Xu phát triển vấn đề àn tồn thơng tin .11 1.1.2 Sự phát triển xu hướng công thiết bị mạng 12 1.2 Tấn công mạng nghiên cứu liên quan .14 1.2.1 Tấn cơng mạng .14 1.2.2 Các nghiên cứu liên quan công mạng 16 1.3 Hệ thống phát xâm nhập IDS .19 1.3.1 Giới thiệu hệ thống phát xâm nhập IDS 19 1.3.2 Các kỹ thuật phát IDS 20 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 21 2.1 Phương pháp đề xuất 21 2.2 Thuật toán Cây định 22 2.2.1 Giới thiệu học máy xây dựng mơ hình học máy 22 2.2.2 Nhóm thuật toán định 26 2.2.3 Các thuật toán dựa tư tưởng Hunt 27 2.2.4 Thuật toán Random Forest 35 2.3 Giới thiệu liệu UNSW-NB15 36 2.4 Giới thiệu liệu KDDCup99 37 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 40 3.1 Công nghệ áp dụng 40 3.2 Tiến hành xử lý liệu 40 download by : skknchat@gmail.com iv 3.2.1 Các thuộc tính liệu UNSW-NB15 40 3.2.2 Các thuộc tính liệu KDD99 43 3.2.3 Chuẩn hóa liệu 48 3.2.4 Hyperparameter tuning Cross-validation 49 3.3 Tiêu chí đánh giá 50 3.4 Kết thực nghiệm đánh giá 52 3.4.1 Đối với liệu KDD99 52 3.4.2 Đối với liệu UNSW-NB15 54 3.4.3 Đánh giá .56 KẾT LUẬN VÀ KIẾN NGHỊ 57 TÀI LIỆU THAM KHẢO 58 download by : skknchat@gmail.com v DANH MỤC HÌNH ẢNH Hình 1.1 Sự tăng trưởng thiết bị có kết nối mạng 11 Hình 1.2 Backdoor router 740N Tp-link cho phép đăng nhập điều khiển router mà không cần mật người dùng 12 Hình 1.3 Top 10 malware phổ biến vào năm 2018 – www.cisecurity.org 13 Hình 1.4 Sự thay đổi lượng malware phát năm 2018 13 Hình 1.5 Vụ công làm thay đổi giao diện trang chủ VietNam AirLines vào năm 2016 14 Hình 1.6 Giao diện Nmap 15 Hình 1.7 Lưu lượng cơng DDoS tồn giới năm 2018 .16 Hình 1.8 Mơ hình IDS 19 Hình 2.1 Mơ hình IDS đề xuất .21 Hình 2.2 Hệ thống AI Google đánh bại nhà vơ địch mơn cờ vây 23 Hình 2.3 Thuật toán học máy áp dụng ứng dụng Google Camera .23 Hình 2.4 Cây định xây dựng ID3 .32 Hình 2.5 Mơ hình thuật toán Random Forest .36 Hình 2.6 Mơ hình mơ lưu lượng mạng liệu unsw-nb15 37 Hình 3.1 Minh họa chuẩn hóa liệu 48 Hình 3.2 Minh họa phương pháp cross-validation .50 Hình 3.3 Đường ROC thuật tốn đề xuất .53 Hình 3.4 Confusion matrix thuật toán tốt (random forest với gini).53 Hình 3.5 Đường ROC thuật tốn đề xuất .55 Hình 3.6 Confusion matrix thuật toán tốt (random forest với gini).55 download by : skknchat@gmail.com vi BẢNG DANH MỤC THUẬT NGỮ Thuật ngữ Giải thích AI Artificial Intelligence – Trí tuệ nhân tạo Decision Tree Thuật toán định, phân biệt với định thuật toán đưa Hacker Tin tắc, người công vào hệ thống thường có mục đích xấu IDS Hệ thống phát xâm nhập Machine learning Học máy Random Forest Rừng ngẫu nhiên Sensor Cảm biến, download by : skknchat@gmail.com LỜI MỞ ĐẦU Lý chọn đề tài Kể từ năm 90 kỷ XX, phủ số quốc gia nhiều chuyên gia bắt đầu nghiên cứu “thành phố thơng minh”, việc xây dựng thành phố sử dụng thành tựu công nghệ thông tin để thu thập xử lý liệu để quản lý tài sản tài nguyên cách hiệu Trong năm gần đây, quốc gia có quan tâm đặc biệt tới vấn đề xây dựng thành phố thông minh thay đổi công nghệ, kinh tế môi trường, ví dụ chương trình xây dựng thành phố thông minh triển khai Singapore, Dubai, Milton Keynes, Southampton, Barcelona, Việt Nam Để xây dựng thành phố thơng minh cần có thu thập, kết nối xử lý lượng thông tin khổng lồ Các thông tin thường thu thập cảm biến nhỏ từ người dân, thiết bị tài sản, sau tổng hợp xử lý Do thông tin cần thu thập lớn nên vấn đề bảo mật quyền riêng tư cá nhân vấn đề cần quan tâm Các hệ thống lớn ln có hệ thống phịng thủ đủ mạnh để chống lại hầu hết hành vi công xâm nhập trái phép, song hệ thống nhỏ sensor thường khơng có hệ thống phịng thủ khơng đủ để đảm bảo an toàn Đầu năm 2018, IBM X-Force Red Threatcare phát 17 lỗ hổng “zero-day” hệ thống cảm biến điều khiển thành phố thông minh sử dụng thành phố khắp giới Các lỗ hổng cho phép hacker truy cập vào điều khiển thao tác liệu, cần cảnh báo sai hệ thống cảm biến gây tổn hại lớn Từ đó, IBM có đưa số hướng dẫn để đảm bảo an toàn cho hệ thống sau: + Thực hạn chế địa IP cho máy kết nối với thiết bị, đặc biệt với thiết bị sử dụng mạng internet công cộng + Tận dụng công cụ quét ứng dụng để xác định lỗ hổng thiết bị download by : skknchat@gmail.com 46 TT Tên thuộc tính Mơ tả Tính chất Ví dụ Liên tục Rời rạc ngược lại 13 Num_compromi sed 14 Root_shell 15 Su_attempted 16 Num_root Num_file_creati ons Num_shells Num_access_fil es Num_outbound_ cmDT 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Số lượng điều kiện thỏa hiệp Bằng thu root shell; ngược lại Bằng 1nếu cố gắng thực lệnh ''su root''; ngược lại Số lần truy cập quyền “root” Rời rạc Liên tục Số hoạt động tạo tập tin Liên tục Số lượng shell prompts Liên tục Kiểm soát số lần truy cập file Liên tục Liên tục Rời rạc Rời rạc Liên tục Liên tục Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 1.00 Liên tục 0.00 Liên tục 0.00 Liên tục Số lượng lệnh outbound phiên ftp Bằng 1nếu đăng nhập thuộc Is_host_login danh sách “máy chủ” biết, ngược lại Bằng đăng nhập Is_guest_login tài khoản khách, ngược lại Số lượng kết nối đến máy chủ tương tự giống kết Count nối hành giây qua Serror_rate Số % kết nối có lỗi “SYN” Rerror_rate Số % kết nối có lỗi“REJ” Số % kết nối đến Same_srv_rate dịch vụ tương tự % kết nối với dịch vụ khác Diff_srv_rate số kết nối đến dịch vụ với Srv_count kết nối hành hai giây qua % kết nối có lỗi “SYN” từ Srv_serror_rate dịch vụ % kết nối có lỗi “REJ” từ Srv_rerror_rate dịch vụ Srv_diff_host_ra Tỉ lệ % kết nối đến máy chủ te khác từ dịch vụ Đếm kết nối có DTt_host_count đích đến download by : skknchat@gmail.com 47 TT Tên thuộc tính 33 DTt_host_srv_c ount 34 35 36 37 38 39 40 41 42 Mô tả Đếm kết nối có 1host đích sử dụng dịch vụ tương tự DTt_host_same % kết nối có 1host đích _srv_rate sử dụng cácdịch vụ tương tự DTt_host_diff_s % dịch vụ khác rv_rate host hành DTt_host_same_s % kết nối đến host rc_ port_rate thời có cổng src % kết nối đến dịch vụ DTt_host_srv_dif tương tự đến từ host khác f_host_rate DTt_host_serror % kết nối đến host _rate thời có lỗi SO % kết nối đến host DTt_host_srv_s hành dịch vụ quy định error_rate có lỗi SO DTt_host_rerror % kết nối đến host _rate thời có lỗi RST % kết nối đến máy chủ DTt_host_srv_re hành dịch vụ quy định rror_rate có lỗi RST Nhãn Kết nối bình thường/tấn cơng Tính chất Ví dụ Liên tục Liên tục 1.00 Liên tục 0.00 Liên tục 0.11 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Tượng trưng Normal Ví dụ vài dịng liệu KDD cup 99: 0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0 00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal 0,icmp,ecr_i,SF,1032,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,511,511,0.00,0.00,0.00,0.00,1 00,0.00,0.00,255,255,1.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,smurf Một số chuyên gia phát xâm nhập mạng cho rằng, hầu hết loại công biến thể loại công biết dấu hiệu loại cơng biết đủ để nắm bắt biến thể lạ Trong thực nghiệm, chia tập liệu thành training set testing set theo tỷ lệ 7:3 download by : skknchat@gmail.com 48 3.2.3 Chuẩn hóa liệu Do phạm vi giá trị liệu đầu vào khác nhau, số thuật toán học máy chẳng hạn Decision Tree, hàm mục tiêu khơng hoạt động khơng chuẩn hóa Ví dụ, nhiều phân loại tính tốn khoảng cách hai điểm dựa khoảng cách Euclide Nếu đặc trưng có phạm vi giá trị rộng, khoảng cách mà phân loại tính tốn bị chi phối lớn đặc trưng Do đó, phạm vi tất đặc trưng nên chuẩn hóa để đặc trưng đóng góp vai trị tương đương trình xây dựng phân loại Một lý khác khiến chuẩn hóa liệu áp dụng việc giảm độ dốc đạo hàm thuật toán gradient descent giúp việc hàm mát hội tụ nhanh nhiều so với không áp dụng Hình 3.1 Minh họa chuẩn hóa liệu download by : skknchat@gmail.com 49 Do vậy, tiến hành chuẩn hóa liệu huấn luyện liệu KDD99 UNSW-NB15 thuật tốn Standardization với cơng thức chuẩn hóa sau: ' x= x −μ σ Trong đó, μ σ kỳ vọng phương sai (standard deviation) thành phần tồn training data 3.2.4 Hyperparameter tuning Cross-validation Mỗi thuật tốn machine learning nhắm với việc tìm tham số cho hàm dự đốn (hypothesis) có khả ánh xạ từ đầu vào sang đầu mong muốn Tuy nhiên, khơng phải tham số thuật tốn tự động tìm, mà có tham số người lập trình cài đặt Chúng gọi siêu tham số (hyperparameter) Các siêu tham số ảnh hưởng lớn đến hiệu thuật toán, vậy, người lập trình ln muốn tìm tham số tốt ưu Việc gọi hyperparameter tuning Trong phương pháp đề xuất luận văn này, tơi tiến hành tìm siêu tham số cho thuật tốn Decision Tree siêu tham số sau: Siêu tham số Splitter (chiến thuật để chia đỉnh cây) Max features (Số lượng đặc trưng xem xét lần chia đỉnh) Tập giá trị - best: chọn cách chia tốt - random: chọn cách chia ngẫu nhiên tốt - sqrt: bậc hai tổng số đặc trưng - log2: logarit số tổng số đặc trưng - None: sử dụng toàn đặc trưng Tất nhiên, để giữ cho thuật tốn ln ln khơng nhìn thấy liệu kiểm thử, phần liệu training lấy không train mà để đánh giá siêu tham số Tôi sử dụng cross-validation Theo đó, phương pháp chia training download by : skknchat@gmail.com 50 set thành k phần Sau đó, ta sử dụng phần làm validation set k - phần lại làm training set Độ tốt mơ hình (lúc hyperparameter tuning) trung bình cộng độ tốt validation set set qua k lần huấn luyện Hình 3.2 Minh họa phương pháp cross-validation 3.3 Tiêu chí đánh giá Các tiêu chí sau sử dụng cho việc đánh giá độ hiệu quả-chính xác phương pháp đề xuất:  Condition positive (P): số mẫu công liệu  Condition negative (N): số mẫu bình thường liệu  True positive (TP): số mẫu công phân loại công  True negative (TN): số mẫu bình thường phân loại bình thường  False positive (FP): số mẫu bình thường bị gắn nhầm nhãn thành công download by : skknchat@gmail.com 51  False negative (FN): số mẫu cơng bị gắn nhầm nhãn thành bình thường Các tiêu chí sử dụng để đánh giá độ xác-hiệu mơ hình xây dựng sau:  True positive rate (TPR) hay Sensitivity, Recall, Hit rate: Tỷ lệ số mẫu cơng dự đốn tổng số mẫu thực công Tiêu chí cho thấy xác suất phát cơng mơ hình Một mơ hình có TPR cao đồng nghĩa với việc mơ hình bỏ sót mẫu thực công TPR= TP TP = P TP+ FN  False positive rate (FPR) hay Fall-out: Tỷ lệ số mẫu bình thường dự đốn nhầm thành cơng tổng số mẫu bình thường Tiêu chí cho thấy xác suất báo động sai mơ hình Một mơ hình có FPR thấp đồng nghĩa với việc mơ hình báo động nhầm cơng FPR= FP FP = N FP+TN  Accuracy (ACC): Tỷ lệ mẫu dự đoán tổng mẫu dự đốn ACC thể độ hiệu mơ hình nói chung, nhiên khơng đáng tin cậy liệu không cân ACC= TP+ TN TP+TN = P+ N TP+TN + FP+ FN  Precision hay positive predictive rate (PPV): Tỷ lệ số mẫu cơng dự đốn tổng số điểm dự đốn cơng PPV thể độ xác mơ hình  F1-score: trung bình cộng điều hòa (harmonic mean) Precision Recall F1-score cao thể phân lớp tốt F 1=2 Precision Recall Precision+ Recall download by : skknchat@gmail.com 52  Area Under the Curve (AUC): Tiêu chí dựa đường ROC để đánh giá độ hiệu mô hình Đặc biệt AUC thường dùng tốn phân lớp nhị phân với liệu khơng cân Kết thực nghiệm đánh giá 3.4 Thực nghiệm sử dụng tảng scikit-learn tiến hành đánh giá phương pháp với thuật toán dựa định bao gồm: - Decision Tree với Entropy - Decision Tree với Gini - Random Forest với Entropy - Random Forest với Gini 3.4.1 Đối với liệu KDD99  Bảng kết thuật toán định với liệu KDD99 Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) Accuracy (%) 99.98 99.98 99.99 99.99 Precision (%) 99.98 99.98 99.99 99.99 Recall (%) 99.99 99.99 99.99 99.99 F1-score (%) 99.99 99.99 99.99 99.99 AUC (%) 99.98 99.96 99.98 99.98 TPR (%) 99.93 99.93 99.97 99.98 FPR (%) 0.01 0.01 0.01 0.01 Nhìn vào bảng kết trên, thấy thuật toán định cho kết phân loại tốt, gần tuyệt đối tiêu chí Trong thuật tốn random forest với gini cho kết tốt Như đề cập trên, thuật tốn định ln có nguy overfitting Tuy nhiên, phương pháp đề xuất download by : skknchat@gmail.com 53 sử dụng phương pháp validation giúp hạn chế overfitting đến tối đa, khẳng định thuật tốn định có hiệu cao tập liệu KDD99 Về thời gian thực hiện, thuật toán huấn luyện nhanh Kết mô tả bảng sau:  Bảng kết thời gian thực với liệu KDD99 Thời gian chạy (giây) Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) 12 16 15 Hình 3.3 Đường ROC thuật tốn đề xuất download by : skknchat@gmail.com 54 Hình 3.4 Confusion matrix thuật toán tốt (random forest với gini) 3.4.2 Đối với liệu UNSW-NB15  Bảng kết thuật toán định với liệu UNSWNB15 Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) Accuracy (%) 85.74 85.37 87.04 87.60 Precision (%) 92.21 93.14 96.62 95.48 Recall (%) 74.55 72.80 73.74 76.00 F1-score (%) 82.45 81.72 83.64 84.64 AUC (%) 84.71 84.21 85.82 86.53 TPR (%) 94.86 95.62 97.89 97.07 FPR (%) 25.45 27.20 26.26 24.0 Nhìn vào bảng kết trên, thấy thuật tốn định cho kết phân loại mức Mặc dù có khả phát cơng tốt, download by : skknchat@gmail.com 55 tỷ lệ báo động giả lớn Thuật toán cho kết tốt random forest với gini Đánh giá độ hiệu thuật toán liệu UNSW-NB15 trình bày phần Về thời gian thực hiện, thuật toán huấn luyện nhanh so với liệu KDD99 có kích thước liệu đầu vào nhỏ Kết mô tả bảng sau:  Bảng kết thời gian thực với liệu UNSW-NB15 Thời gian chạy (giây) Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) 13 11 Hình 3.5 Đường ROC thuật tốn đề xuất download by : skknchat@gmail.com 56 Hình 3.6 Confusion matrix thuật toán tốt (random forest với gini) 3.4.3 Đánh giá Như vậy, thực nghiệm cho thấy thuật tốn định có hiệu tốt liệu KDD99 Tuy nhiên, độ xác hiệu mức tốt liệu UNSW-NB15 Điều giải thích sau:  Bộ liệu KDD99 lỗi thời khơng cịn khuyến nghị phân tích việc phát cơng mạng Thực tế, ngày liệu không ứng dụng rộng rãi vào thực tiễn an ninh mạng khuyến cáo thay liệu Tuy nhiên, KDD99 giá trị công tác nghiên cứu giáo dục, luận văn tiến hành thực nghiệm liệu  UNSW-NB15 xây dựng từ năm 2015 nên bổ sung nhiều loại cơng so với liệu KDD99, việc ứng dụng học máy phân tích, phát cơng cần thiết, địi hỏi thuật toán mạnh Với thuật toán cổ điển định, kết thu tích cực download by : skknchat@gmail.com 57  Tỷ lệ số mẫu training set testing set liệu UNSW-NB15 nhỏ Thông thường, tỷ lệ nằm mức 7:3 với liệu nhỏ lớn liệu lớn Ngay nay, testing set thông thường nằm mức vài nghìn mẫu đủ để đánh giá mơ hình Tỷ lệ train:test cao liệu UNSW-NB15 nguyên nhân cho việc độ xác không cao Điều dễ dàng khắc phục việc tăng số lượng mẫu dành cho training set Tuy nhiên, phạm vi luận văn, sử dụng nguyên cách chia ban đầu liệu UNSW-NB15 Như vậy, thuật tốn định nói riêng, hay học máy nói chung có khả phát công tốt thực nghiệm với liệu tiếng KDD99 UNSW-NB15 Điều cho thấy tính khả thi hứa hẹn việc áp dụng rộng rãi mơ hình IDS dựa hành vi học máy nhằm phát công mạng Bên cạnh đó, kết thực nghiệm cịn cho thấy khẳng định, thuật tốn random forest nói riêng hay thuật tốn tập hợp nói chung thường cho kết tốt mơ hình riêng lẻ KẾT LUẬN VÀ KIẾN NGHỊ Cách mạng 4.0 kéo theo phát triển thiết bị mạng, thiết bị cảm biến Nhưng phát triển công nghệ nhanh mà khơng có quan tâm đến vấn đề bảo mật khiến thiết bị trở thành mục tiêu dễ dàng cho hình thức cơng mạng Và hậu việc cơng trở nên lớn thiết bị cơng có chứa thơng tin nhậy cảm Do việc xây dựng biện pháp bảo vệ thiết bị mạng cần thiết Mơ hình phải dể vận dụng kể thiết bị có dung lượng nhỏ thiết bị IOT Trong luận văn đề xuất mơ hình để tiến hành dự đốn hành vi công mạng dựa lưu lượng thuật toán machine learning, cụ thể decision tree Luận văn đạt số kết sau: + Nghiên cứu toán phát hành vi công dựa lưu lượng mạng download by : skknchat@gmail.com 58 + Đề xuất mơ hình dự đốn hành vi cơng dựa thuật tốn học máy (decision tree) xây dựng mơ hình học máy thành cơng + Tiến hành nghiên cứu liệu lưu lượng mạng kdd99 unsw-nb15 + So sánh tỷ lệ phát thuật toán định Phương hướng nghiên cứu luận văn: + Xây dựng mơ hình ngơn ngữ nhúng C + Tích hợp mơ hình vào thiết bị mạng nhỏ vừa, đặc biệt thiết bị IOT + Giám sát, thu thập liệu liệu để tiếp tục hồn thiện mơ hình download by : skknchat@gmail.com 59 TÀI LIỆU THAM KHẢO  Tiếng việt [1]: PGS.TS Vũ Hữu Tiệp (2018), Machine learning [2]: Giáo trình an ninh mạng, Học viện kỹ thuật mật mã  Tiếng Anh [3]: Aurélien Géron Hands-On Machine Learning with Scikit-Learn & TensorFlow, 2017 [4]: Dr Michael Bowles Machine Learning in Python 2015 [5]: Malwarebytes Labs, 2019 State of Malware, 2019 [6]: Moustafa, Nour, and Jill Slay UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set) Military Communications and Information Systems Conference (MilCIS), 2015 IEEE, 2015 [7]: “The need for Intrusion Detection System”, “How IDS Addresses commonThreats, Attacks & Vulnerabilities”, Everything you need to know about IDS, 1999 AXENT Technologies, Inc Trang web [8]: Documentation of scikit-learn 0.21.2 | Decision Trees, RandomForest “https://scikitlearn.org/stable/documentation.html” [9]: Numpy and Scipy Documentation | Contributing to NumPy “https://docs.scipy.org/doc/numpy/dev/” [10]: pandas 0.24.2 documentation “https://pandas.pydata.org/pandas-docs/stable/” [11] Sefik Ilkin Serengil blog “https://sefiks.com/category/machine-learning/” download by : skknchat@gmail.com 60 [12] Cisco Visual Networking Index: Forecast and Trends, 2017–2022 White Paper “https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visualnetworking-index-vni/white-paper-c11-741490.html” [13] Tổng kết an ninh mạng năm 2018 dự báo xu hướng 2019 http://www.bkav.com.vn/tin_tuc_noi_bat/-/chi_tiet/601424/tong-ket-an-ninh-mangnam-2018-va-du-bao-xu-huong-2019 [14] Amount of malware targeting smart devices more than doubled in 2017 “https://www.kaspersky.com/about/press-releases/2017_amount-of-malwaretargeting-smart-devices-more-than-doubled-in-2017” download by : skknchat@gmail.com ... TUẤN NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW- NB15 Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 LUẬN VĂN... Tôi xin cam đoan luận văn ? ?Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unswnb15” cơng trình nghiên cứu thân tôi; số liệu sử dụng luận văn trung thực; tài liệu tham khảo có nguồn... riêng dễ bị hacker lợi dụng để tránh bị phát Với lý trên, việc nghiên cứu đề tài ? ?Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unsw- nb15? ?? mang lại ý nghĩa khoa học thực tế

(LUẬN văn THẠC sĩ) nghiên cứu, so sánh một số thuật toán cây quyết định trong phát hiện các cuộc tấn công mạng dựa trên bộ dữ liệu KDD99 và UNSW – NB15

Nhóm thuật toán cây quyết định

Giới thiệu về bộ dữ liệu KDDCup99