(Luận văn) nghiên cứu, so sánh một số thuật toán cây quyết định trong phát hiện các cuộc tấn công mạng dựa trên bộ dữ liệu kdd99 và unsw – nb15

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an LÊ ANH TUẤN n va tn to ie gh NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY p QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN d oa nl w CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU KDD99 VÀ UNSW-NB15 u nf va an lu ll LUẬN VĂN THẠC SĨ KỸ THUẬT m oi (Theo định hướng ứng dụng) z at nh z m co l gm @ HÀ NỘI - NĂM 2020 an Lu n va ac th si HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - lu an va n LÊ ANH TUẤN tn to ie gh NGHIÊN CỨU, SO SÁNH MỘT SỐ THUẬT TOÁN CÂY p QUYẾT ĐỊNH TRONG PHÁT HIỆN CÁC CUỘC TẤN nl w CÔNG MẠNG DỰA TRÊN BỘ DỮ LIỆU d oa KDD99 VÀ UNSW-NB15 an lu ll u nf va Chuyên ngành: Khoa học máy tính Mã số : 8.48.01.01 oi m z at nh z LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) m co l gm @ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGÔ QUỐC DŨNG an Lu n va ac th si HÀ NỘI – NĂM 2020 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si i LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu, so sánh số thuật toán định phát công mạng liệu kdd99 unswnb15” cơng trình nghiên cứu thân tơi; số liệu sử dụng luận văn trung thực; tài liệu tham khảo có nguồn gốc trích dẫn rõ ràng; kết nghiên cứu không chép cơng trình Tơi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan lu an n va Hà Nội, ngày tháng Học viên năm 2020 p ie gh tn to d oa nl w Lê Anh Tuấn ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Trong q trình thực luận văn này, Học viên ln nhận hướng dẫn, bảo tận tình Thầy TS Ngô Quốc Dũng, giảng viên Khoa Công nghệ Thông tin cán trực tiếp hướng dẫn khoa học Thầy dành nhiều thời gian việc hướng dẫn học viên cách đọc tài liệu, thu thập đánh giá thông tin phương pháp nghiên cứu để hoàn thành luận văn cao học Học viên xin chân thành cảm ơn Thầy, Cô giáo Học viện Cơng nghệ Bưu Viễn thơng ln nhiệt tình giúp đỡ tạo điều kiện tốt cho lu em suốt trình học tập trường an n va Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học – nghiệm học tập, cơng tác suốt khố học Học viên xin chân thành cảm ơn vị lãnh đạo bạn đồng p ie gh tn to Học viện động viên, giúp đỡ nhiệt tình chia sẻ với em kinh nghiệp quan tạo điều kiện tốt để em hồn thành tốt oa nl w đẹp khoá học Cao học d Em xin chân thành cảm ơn! lu tháng năm 2020 Học viên ll u nf va an Hà nội, ngày oi m z at nh Lê Anh Tuấn z m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii DANH MỤC HÌNH ẢNH .v BẢNG DANH MỤC THUẬT NGỮ vi LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TẤN CÔNG MẠNG VÀ CÁC NGHIÊN CỨU LIÊN QUAN 11 1.1 Thực trạng vấn đề công mạng 11 lu an 1.1.1 Xu phát triển vấn đề àn tồn thơng tin .11 n va 1.1.2 Sự phát triển xu hướng công thiết bị mạng 12 tn to 1.2 Tấn công mạng nghiên cứu liên quan .14 gh 1.2.1 Tấn công mạng .14 p ie 1.2.2 Các nghiên cứu liên quan công mạng 16 1.3 Hệ thống phát xâm nhập IDS .19 oa nl w 1.3.1 Giới thiệu hệ thống phát xâm nhập IDS 19 1.3.2 Các kỹ thuật phát IDS 20 d an lu CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 21 va 2.1 Phương pháp đề xuất 21 ll u nf 2.2 Thuật toán Cây định 22 oi m 2.2.1 Giới thiệu học máy xây dựng mơ hình học máy 22 z at nh 2.2.2 Nhóm thuật toán định 26 2.2.3 Các thuật toán dựa tư tưởng Hunt 27 z 2.2.4 Thuật toán Random Forest 35 @ gm 2.3 Giới thiệu liệu UNSW-NB15 36 l 2.4 Giới thiệu liệu KDDCup99 37 m co CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 40 3.1 Công nghệ áp dụng 40 an Lu 3.2 Tiến hành xử lý liệu 40 n va ac th si iv 3.2.1 Các thuộc tính liệu UNSW-NB15 40 3.2.2 Các thuộc tính liệu KDD99 43 3.2.3 Chuẩn hóa liệu 48 3.2.4 Hyperparameter tuning Cross-validation 49 3.3 Tiêu chí đánh giá 50 3.4 Kết thực nghiệm đánh giá 52 3.4.1 Đối với liệu KDD99 52 3.4.2 Đối với liệu UNSW-NB15 54 3.4.3 Đánh giá .56 lu an KẾT LUẬN VÀ KIẾN NGHỊ 57 n va TÀI LIỆU THAM KHẢO 58 p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si v DANH MỤC HÌNH ẢNH Hình 1.1 Sự tăng trưởng thiết bị có kết nối mạng 11 Hình 1.2 Backdoor router 740N Tp-link cho phép đăng nhập điều khiển router mà không cần mật người dùng 12 Hình 1.3 Top 10 malware phổ biến vào năm 2018 – www.cisecurity.org 13 Hình 1.4 Sự thay đổi lượng malware phát năm 2018 13 Hình 1.5 Vụ cơng làm thay đổi giao diện trang chủ VietNam lu AirLines vào năm 2016 14 an n va Hình 1.6 Giao diện Nmap 15 gh tn to Hình 1.7 Lưu lượng cơng DDoS tồn giới năm 2018 .16 p ie Hình 1.8 Mơ hình IDS 19 w Hình 2.1 Mơ hình IDS đề xuất .21 oa nl Hình 2.2 Hệ thống AI Google đánh bại nhà vô địch mơn cờ vây 23 d Hình 2.3 Thuật tốn học máy áp dụng ứng dụng Google Camera .23 an lu u nf va Hình 2.4 Cây định xây dựng ID3 .32 Hình 2.5 Mơ hình thuật tốn Random Forest .36 ll oi m Hình 2.6 Mơ hình mơ lưu lượng mạng liệu unsw-nb15 37 z at nh Hình 3.1 Minh họa chuẩn hóa liệu 48 z Hình 3.2 Minh họa phương pháp cross-validation .50 @ l gm Hình 3.3 Đường ROC thuật toán đề xuất .53 Hình 3.4 Confusion matrix thuật tốn tốt (random forest với gini).53 m co Hình 3.5 Đường ROC thuật toán đề xuất .55 an Lu Hình 3.6 Confusion matrix thuật toán tốt (random forest với gini).55 n va ac th si vi BẢNG DANH MỤC THUẬT NGỮ Thuật ngữ Giải thích AI Artificial Intelligence – Trí tuệ nhân tạo Decision Tree Thuật toán định, phân biệt với định thuật toán đưa Hacker Tin tắc, người công vào hệ thống thường có mục đích xấu lu an n va Hệ thống phát xâm nhập Machine learning Học máy Random Forest Rừng ngẫu nhiên tn to IDS Cảm biến, p ie gh Sensor d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si LỜI MỞ ĐẦU Lý chọn đề tài Kể từ năm 90 kỷ XX, phủ số quốc gia nhiều chuyên gia bắt đầu nghiên cứu “thành phố thơng minh”, việc xây dựng thành phố sử dụng thành tựu công nghệ thông tin để thu thập xử lý liệu để quản lý tài sản tài nguyên cách hiệu Trong năm gần đây, quốc gia có quan tâm đặc biệt tới vấn đề xây dựng thành phố thông minh thay đổi công nghệ, kinh tế mơi trường, ví dụ chương trình xây lu dựng thành phố thơng minh triển khai Singapore, Dubai, Milton Keynes, an va Southampton, Barcelona, Việt Nam n Để xây dựng thành phố thơng minh cần có thu thập, kết nối xử lý tn to lượng thông tin khổng lồ Các thông tin thường thu thập cảm biến nhỏ ie gh từ người dân, thiết bị tài sản, sau tổng hợp xử lý Do thông tin cần p thu thập lớn nên vấn đề bảo mật quyền riêng tư cá nhân vấn đề cần nl w quan tâm Các hệ thống lớn ln có hệ thống phòng thủ đủ mạnh để chống lại oa hầu hết hành vi công xâm nhập trái phép, song hệ thống nhỏ d sensor thường khơng có hệ thống phịng thủ không đủ để đảm va an lu bảo an toàn u nf Đầu năm 2018, IBM X-Force Red Threatcare phát 17 lỗ hổng ll “zero-day” hệ thống cảm biến điều khiển thành phố thông minh sử m oi dụng thành phố khắp giới Các lỗ hổng cho phép hacker truy cập z at nh vào điều khiển thao tác liệu, cần cảnh báo sai hệ thống cảm biến gây tổn hại lớn Từ đó, IBM có đưa số hướng dẫn để đảm bảo z @ an toàn cho hệ thống sau: l gm + Thực hạn chế địa IP cho máy kết nối với thiết bị, đặc biệt với thiết bị sử dụng mạng internet công cộng m co + Tận dụng công cụ quét ứng dụng để xác định lỗ hổng an Lu thiết bị n va ac th si 46 TT Tên thuộc tính Tính chất Ví dụ Liên tục Rời rạc Mơ tả ngược lại 13 Num_compromi sed 14 Root_shell 15 Su_attempted 16 Num_root Num_file_creati ons Num_shells Num_access_fil es Num_outbound_ cmDT 17 18 lu an 19 va n 20 ie gh tn to 21 p 22 Số lượng điều kiện thỏa hiệp Bằng thu root shell; ngược lại Bằng 1nếu cố gắng thực lệnh ''su root''; ngược lại Số lần truy cập quyền “root” Rời rạc Liên tục Số hoạt động tạo tập tin Liên tục Số lượng shell prompts Liên tục Kiểm soát số lần truy cập file Liên tục Liên tục Rời rạc Rời rạc Liên tục Liên tục Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 1.00 Liên tục 0.00 d oa 23 nl w Số lượng lệnh outbound phiên ftp Bằng 1nếu đăng nhập thuộc Is_host_login danh sách “máy chủ” biết, ngược lại Bằng đăng nhập Is_guest_login tài khoản khách, ngược lại Số lượng kết nối đến máy chủ tương tự giống kết Count nối hành giây qua Serror_rate Số % kết nối có lỗi “SYN” Rerror_rate Số % kết nối có lỗi“REJ” Số % kết nối đến Same_srv_rate dịch vụ tương tự % kết nối với dịch vụ khác Diff_srv_rate số kết nối đến dịch vụ với Srv_count kết nối hành hai giây qua % kết nối có lỗi “SYN” từ Srv_serror_rate dịch vụ % kết nối có lỗi “REJ” từ Srv_rerror_rate dịch vụ Srv_diff_host_ra Tỉ lệ % kết nối đến máy chủ te khác từ dịch vụ Đếm kết nối có DTt_host_count đích đến ll u nf va an 26 lu 24 25 oi z at nh 28 m 27 z Liên tục 0.00 an Lu m co 32 l 31 gm 30 @ 29 Liên tục n va ac th si 47 TT Tên thuộc tính 33 DTt_host_srv_c ount 34 35 36 37 lu an n va 38 gh tn to 39 p ie 40 Đếm kết nối có 1host đích sử dụng dịch vụ tương tự DTt_host_same % kết nối có 1host đích _srv_rate sử dụng cácdịch vụ tương tự DTt_host_diff_s % dịch vụ khác rv_rate host hành DTt_host_same_s % kết nối đến host rc_ port_rate thời có cổng src % kết nối đến dịch vụ DTt_host_srv_dif tương tự đến từ host khác f_host_rate DTt_host_serror % kết nối đến host _rate thời có lỗi SO % kết nối đến host DTt_host_srv_s hành dịch vụ quy định error_rate có lỗi SO DTt_host_rerror % kết nối đến host _rate thời có lỗi RST % kết nối đến máy chủ DTt_host_srv_re hành dịch vụ quy định rror_rate có lỗi RST Ví dụ Liên tục Liên tục 1.00 Liên tục 0.00 Liên tục 0.11 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Liên tục 0.00 Tượng trưng Normal Nhãn Kết nối bình thường/tấn cơng d 42 oa nl w 41 Tính chất Mơ tả an lu u nf va Ví dụ vài dòng liệu KDD cup 99: 0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0 ll oi m 00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal z at nh 0,icmp,ecr_i,SF,1032,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,511,511,0.00,0.00,0.00,0.00,1 00,0.00,0.00,255,255,1.00,0.00,1.00,0.00,0.00,0.00,0.00,0.00,smurf z gm @ Một số chuyên gia phát xâm nhập mạng cho rằng, hầu hết loại công biến thể loại công biết dấu hiệu loại công m co l biết đủ để nắm bắt biến thể lạ Trong thực nghiệm, chia tập liệu thành training set testing set an Lu theo tỷ lệ 7:3 n va ac th si 48 3.2.3 Chuẩn hóa liệu Do phạm vi giá trị liệu đầu vào khác nhau, số thuật toán học máy chẳng hạn Decision Tree, hàm mục tiêu khơng hoạt động khơng chuẩn hóa Ví dụ, nhiều phân loại tính tốn khoảng cách hai điểm dựa khoảng cách Euclide Nếu đặc trưng có phạm vi giá trị rộng, khoảng cách mà phân loại tính tốn bị chi phối lớn đặc trưng Do đó, phạm vi tất đặc trưng nên chuẩn hóa để đặc trưng đóng góp vai trị tương đương trình xây dựng phân loại Một lý khác khiến chuẩn hóa liệu áp dụng việc giảm độ dốc lu an đạo hàm thuật toán gradient descent giúp việc hàm mát hội tụ nhanh n va nhiều so với không áp dụng p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.1 Minh họa chuẩn hóa liệu n va ac th si 49 Do vậy, tơi tiến hành chuẩn hóa liệu huấn luyện liệu KDD99 UNSW-NB15 thuật tốn Standardization với cơng thức chuẩn hóa sau: ' x= x −μ σ Trong đó, μ σ kỳ vọng phương sai (standard deviation) thành phần tồn training data 3.2.4 Hyperparameter tuning Cross-validation Mỗi thuật toán machine learning nhắm với việc tìm tham số cho lu an hàm dự đốn (hypothesis) có khả ánh xạ từ đầu vào sang đầu mong muốn n va Tuy nhiên, khơng phải tham số thuật tốn tự động tìm, mà có tn to tham số người lập trình cài đặt Chúng gọi siêu tham số gh (hyperparameter) Các siêu tham số ảnh hưởng lớn đến hiệu p ie thuật tốn, vậy, người lập trình ln muốn tìm tham số tốt ưu Việc w gọi hyperparameter tuning oa nl Trong phương pháp đề xuất luận văn này, tiến hành tìm siêu tham d số cho thuật tốn Decision Tree siêu tham số sau: lu Tập giá trị u nf va an Siêu tham số Splitter (chiến thuật để chia đỉnh ll oi m cây) - best: chọn cách chia tốt - random: chọn cách chia ngẫu nhiên tốt z at nh Max features (Số lượng đặc trưng - log2: logarit số tổng số đặc trưng z @ xem xét lần chia đỉnh) - sqrt: bậc hai tổng số đặc trưng l gm - None: sử dụng toàn đặc trưng m co Tất nhiên, để giữ cho thuật tốn ln ln khơng nhìn thấy liệu kiểm thử, phần liệu training lấy không train mà để đánh giá siêu an Lu tham số Tôi sử dụng cross-validation Theo đó, phương pháp chia training n va ac th si 50 set thành k phần Sau đó, ta sử dụng phần làm validation set k - phần lại làm training set Độ tốt mơ hình (lúc hyperparameter tuning) trung bình cộng độ tốt validation set set qua k lần huấn luyện lu an n va p ie gh tn to d oa nl w Tiêu chí đánh giá u nf va 3.3 an lu Hình 3.2 Minh họa phương pháp cross-validation ll Các tiêu chí sau sử dụng cho việc đánh giá độ hiệu quả-chính xác oi m phương pháp đề xuất: z at nh  Condition positive (P): số mẫu công liệu  Condition negative (N): số mẫu bình thường liệu z gm @  True positive (TP): số mẫu công phân loại công m co thường l  True negative (TN): số mẫu bình thường phân loại bình an Lu  False positive (FP): số mẫu bình thường bị gắn nhầm nhãn thành công n va ac th si 51  False negative (FN): số mẫu công bị gắn nhầm nhãn thành bình thường Các tiêu chí sử dụng để đánh giá độ xác-hiệu mơ hình xây dựng sau:  True positive rate (TPR) hay Sensitivity, Recall, Hit rate: Tỷ lệ số mẫu công dự đoán tổng số mẫu thực cơng Tiêu chí cho thấy xác suất phát cơng mơ hình Một mơ hình có TPR cao đồng nghĩa với việc mơ hình bỏ sót mẫu thực cơng TPR= TP TP = P TP+ FN lu an  False positive rate (FPR) hay Fall-out: Tỷ lệ số mẫu bình thường dự n va đốn nhầm thành cơng tổng số mẫu bình thường Tiêu chí cho tn to thấy xác suất báo động sai mô hình Một mơ hình có FPR thấp đồng ie gh nghĩa với việc mơ hình báo động nhầm công p FPR= FP FP = N FP+TN nl w  Accuracy (ACC): Tỷ lệ mẫu dự đoán tổng mẫu dự d oa đốn ACC thể độ hiệu mơ hình nói chung, nhiên khơng ACC= u nf va an lu đáng tin cậy liệu không cân TP+ TN TP+TN = P+ N TP+TN + FP+ FN ll  Precision hay positive predictive rate (PPV): Tỷ lệ số mẫu công dự m oi đoán tổng số điểm dự đoán công PPV thể độ z at nh xác mơ hình z  F1-score: trung bình cộng điều hịa (harmonic mean) Precision @ Precision Recall Precision+ Recall m co l F 1=2 gm Recall F1-score cao thể phân lớp tốt an Lu n va ac th si 52  Area Under the Curve (AUC): Tiêu chí dựa đường ROC để đánh giá độ hiệu mô hình Đặc biệt AUC thường dùng tốn phân lớp nhị phân với liệu khơng cân Kết thực nghiệm đánh giá 3.4 Thực nghiệm sử dụng tảng scikit-learn tiến hành đánh giá phương pháp với thuật toán dựa định bao gồm: lu an n va - Decision Tree với Entropy - Decision Tree với Gini - Random Forest với Entropy - Random Forest với Gini  Bảng kết thuật toán định với liệu KDD99 p ie gh tn to 3.4.1 Đối với liệu KDD99 Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) nl w Decision Tree 99.98 99.98 99.99 99.99 99.98 99.98 99.99 99.99 99.99 99.99 99.99 99.99 99.99 99.99 99.96 99.98 99.98 99.93 99.97 99.98 0.01 0.01 0.01 an 99.99 u nf va Recall (%) lu Precision (%) d oa Accuracy (%) 99.99 AUC (%) 99.98 TPR (%) 99.93 FPR (%) 0.01 ll F1-score (%) oi m z at nh z @ gm Nhìn vào bảng kết trên, thấy thuật toán định l cho kết phân loại tốt, gần tuyệt đối tiêu chí Trong thuật tốn m co random forest với gini cho kết tốt Như đề cập trên, thuật an Lu toán định ln có nguy overfitting Tuy nhiên, phương pháp đề xuất n va ac th si 53 sử dụng phương pháp validation giúp hạn chế overfitting đến tối đa, khẳng định thuật tốn định có hiệu cao tập liệu KDD99 Về thời gian thực hiện, thuật tốn huấn luyện nhanh Kết mơ tả bảng sau:  Bảng kết thời gian thực với liệu KDD99 Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) 12 16 15 Thời gian lu chạy (giây) an n va p ie gh tn to d oa nl w va an lu ll u nf Hình 3.3 Đường ROC thuật toán đề xuất oi m z at nh z m co l gm @ an Lu n va ac th si 54 lu an n va 3.4.2 Đối với liệu UNSW-NB15 ie gh tn to Hình 3.4 Confusion matrix thuật tốn tốt (random forest với gini) p  Bảng kết thuật toán định với liệu UNSW- Decision Tree Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) d oa nl w NB15 an lu 85.74 85.37 87.04 87.60 93.14 96.62 95.48 72.80 73.74 76.00 81.72 83.64 84.64 84.21 85.82 86.53 97.89 97.07 26.26 24.0 Recall (%) 74.55 F1-score (%) 82.45 AUC (%) 84.71 TPR (%) 94.86 95.62 FPR (%) 25.45 27.20 oi m z 92.21 ll Precision (%) z at nh u nf va Accuracy (%) m co l gm @ Nhìn vào bảng kết trên, thấy thuật tốn định an Lu cho kết phân loại mức Mặc dù có khả phát công tốt, n va ac th si 55 tỷ lệ báo động giả lớn Thuật toán cho kết tốt random forest với gini Đánh giá độ hiệu thuật toán liệu UNSW-NB15 trình bày phần Về thời gian thực hiện, thuật toán huấn luyện nhanh so với liệu KDD99 có kích thước liệu đầu vào nhỏ Kết mô tả bảng sau:  Bảng kết thời gian thực với liệu UNSW-NB15 Decision Tree Random Forest Random Forest (Entropy) (Gini) (Entropy) (Gini) 13 11 lu Decision Tree an Thời gian va n chạy (giây) p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z gm @ m co l Hình 3.5 Đường ROC thuật tốn đề xuất an Lu n va ac th si 56 lu an n va p ie gh tn to Hình 3.6 Confusion matrix thuật toán tốt (random forest với gini) nl w 3.4.3 Đánh giá d oa Như vậy, thực nghiệm cho thấy thuật toán định có hiệu an lu tốt liệu KDD99 Tuy nhiên, độ xác hiệu mức tốt liệu UNSW-NB15 Điều giải thích sau: va u nf  Bộ liệu KDD99 lỗi thời khơng cịn khuyến nghị phân tích ll việc phát cơng mạng Thực tế, ngày liệu m oi khơng cịn ứng dụng rộng rãi vào thực tiễn an ninh mạng khuyến cáo z at nh thay liệu Tuy nhiên, KDD99 cịn giá trị cơng tác nghiên cứu giáo dục, luận văn tiến hành thực nghiệm z gm @ liệu  UNSW-NB15 xây dựng từ năm 2015 nên bổ sung nhiều loại l m co công so với liệu KDD99, việc ứng dụng học máy phân tích, phát cơng cần thiết, địi hỏi thuật toán mạnh Với an Lu thuật toán cổ điển định, kết thu tích cực n va ac th si 57  Tỷ lệ số mẫu training set testing set liệu UNSW-NB15 nhỏ Thông thường, tỷ lệ nằm mức 7:3 với liệu nhỏ lớn liệu lớn Ngay nay, testing set thơng thường nằm mức vài nghìn mẫu đủ để đánh giá mơ hình Tỷ lệ train:test cao liệu UNSW-NB15 nguyên nhân cho việc độ xác khơng cao Điều dễ dàng khắc phục việc tăng số lượng mẫu dành cho training set Tuy nhiên, phạm vi luận văn, sử dụng nguyên cách chia ban đầu liệu UNSW-NB15 Như vậy, thuật toán định nói riêng, hay học máy nói chung có khả lu phát cơng tốt thực nghiệm với liệu tiếng KDD99 an n va UNSW-NB15 Điều cho thấy tính khả thi hứa hẹn việc áp dụng rộng rãi mạng Bên cạnh đó, kết thực nghiệm cịn cho thấy khẳng định, thuật toán p ie gh tn to mơ hình IDS dựa hành vi học máy nhằm phát công random forest nói riêng hay thuật tốn tập hợp nói chung thường cho kết tốt d oa nl w mơ hình riêng lẻ KẾT LUẬN VÀ KIẾN NGHỊ lu va an Cách mạng 4.0 kéo theo phát triển thiết bị mạng, thiết bị cảm u nf biến Nhưng phát triển cơng nghệ q nhanh mà khơng có quan tâm đến ll vấn đề bảo mật khiến thiết bị trở thành mục tiêu dễ dàng cho hình m oi thức cơng mạng Và hậu việc cơng trở nên lớn z at nh thiết bị công có chứa thơng tin nhậy cảm Do việc xây dựng biện pháp bảo vệ thiết bị mạng cần thiết Mơ hình phải dể vận dụng kể z gm @ thiết bị có dung lượng nhỏ thiết bị IOT Trong luận văn đề xuất mơ hình để tiến hành dự đốn hành vi l m co cơng mạng dựa lưu lượng thuật toán machine learning, cụ thể decision tree Luận văn đạt số kết sau: an Lu + Nghiên cứu toán phát hành vi công dựa lưu lượng mạng n va ac th si 58 + Đề xuất mơ hình dự đốn hành vi cơng dựa thuật tốn học máy (decision tree) xây dựng mơ hình học máy thành công + Tiến hành nghiên cứu liệu lưu lượng mạng kdd99 unsw-nb15 + So sánh tỷ lệ phát thuật toán định Phương hướng nghiên cứu luận văn: + Xây dựng mơ hình ngơn ngữ nhúng C + Tích hợp mơ hình vào thiết bị mạng nhỏ vừa, đặc biệt thiết bị IOT + Giám sát, thu thập liệu liệu để tiếp tục hồn thiện mơ hình lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 59 TÀI LIỆU THAM KHẢO  Tiếng việt [1]: PGS.TS Vũ Hữu Tiệp (2018), Machine learning [2]: Giáo trình an ninh mạng, Học viện kỹ thuật mật mã  Tiếng Anh [3]: Aurélien Géron Hands-On Machine Learning with Scikit-Learn & TensorFlow, 2017 lu an [4]: Dr Michael Bowles Machine Learning in Python 2015 n va [5]: Malwarebytes Labs, 2019 State of Malware, 2019 tn to [6]: Moustafa, Nour, and Jill Slay UNSW-NB15: a comprehensive data set for ie gh network intrusion detection systems (UNSW-NB15 network data set) Military p Communications and Information Systems Conference (MilCIS), 2015 IEEE, nl w 2015 oa [7]: “The need for Intrusion Detection System”, “How IDS Addresses d commonThreats, Attacks & Vulnerabilities”, Everything you need to know about lu va an IDS, 1999 AXENT Technologies, Inc ll u nf Trang web oi m [8]: Documentation of scikit-learn 0.21.2 | Decision Trees, RandomForest [9]: Numpy and Scipy z at nh “https://scikitlearn.org/stable/documentation.html” Documentation gm pandas to NumPy @ [10]: Contributing z “https://docs.scipy.org/doc/numpy/dev/” | 0.24.2 m co l “https://pandas.pydata.org/pandas-docs/stable/” documentation [11] Sefik Ilkin Serengil blog “https://sefiks.com/category/machine-learning/” an Lu n va ac th si 60 [12] Cisco Visual Networking Index: Forecast and Trends, 2017–2022 White Paper “https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visualnetworking-index-vni/white-paper-c11-741490.html” [13] Tổng kết an ninh mạng năm 2018 dự báo xu hướng 2019 http://www.bkav.com.vn/tin_tuc_noi_bat/-/chi_tiet/601424/tong-ket-an-ninh-mangnam-2018-va-du-bao-xu-huong-2019 [14] Amount of malware targeting smart devices more than doubled in 2017 “https://www.kaspersky.com/about/press-releases/2017_amount-of-malware- lu targeting-smart-devices-more-than-doubled-in-2017” an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si