(Đồ án hcmute) tìm hểu spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạng

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU SPARK CHO PHÂN TÍCH DỮ LIỆU LỚN VÀ ÁP DỤNG CHO BÀI TỐN PHÁT HIỆN XÂM NHẬP MẠNG GVHD: QCH ĐÌNH HOÀNG SVTT1: HỒ VĂN PHONG MSSV: 15110277 SVTT2: TRẦN QUANG MINH MSSV: 15110250 SKL 0 8 Tp Hồ Chí Minh, tháng 07/2019 an TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN HỒ VĂN PHONG : 15110277 TRẦN QUANG MINH : 15110250 Đề tài: TÌM HIỂU SPARK CHO PHÂN TÍCH DỮ LIỆU LỚN VÀ ÁP DỤNG CHO BÀI TOÁN PHÁT HIỆN XÂM NHẬP MẠNG KHÓA LUẬN TỐT NGHIỆP KỸ SƢ CNTT GIÁO VIÊN HƢỚNG DẪN THS QCH ĐÌNH HỒNG KHỐ 2015 - 2019 an TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN HỒ VĂN PHONG : 15110277 TRẦN QUANG MINH : 15110250 Đề tài: TÌM HIỂU SPARK CHO PHÂN TÍCH DỮ LIỆU LỚN VÀ ÁP DỤNG CHO BÀI TỐN PHÁT HIỆN XÂM NHẬP MẠNG KHĨA LUẬN TỐT NGHIỆP KỸ SƢ CNTT GIÁO VIÊN HƢỚNG DẪN THS QCH ĐÌNH HỒNG KHỐ 2015 - 2019 an ĐH SƢ PHẠM KỸ THUẬT TP.HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN Họ tên Sinh viên 1: Trần Quang Minh MSSV: 15110250 Họ tên Sinh viên 2: Hồ Văn Phong MSSV: 15110277 Ngành: Cơng nghệ Thơng tin Tên đề tài: Tìm hiểu Spark cho phân tích liệu lớn áp dụng cho toán phát xâm nhập mạng Họ tên Giáo viên hướng dẫn: Ths Qch Đình Hồng NHẬN XÉT Về nội dung đề tài & khối lượng thực hiện: Ưu điểm: Khuyết điểm Điểm : TP.HCM, ngày tháng năm 2019 Giáo viên hướng dẫn ThS Qch Đình Hồng Ths Qch Đình Hồng an ĐH SƢ PHẠM KỸ THUẬT TP.HCM CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CƠNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Trần Quang Minh MSSV: 15110250 Họ tên Sinh viên 1: Hồ Văn Phong MSSV: 15110277 Ngành: Công nghệ Thông tin Tên đề tài: Tìm hiểu Spark cho phân tích liệu lớn áp dụng cho toán phát xâm nhập mạng Họ tên Giáo viên phản biện: ………………………………………… NHẬN XÉT Về nội dung đề tài & khối lượng thực hiện: Ưu điểm: Khuyết điểm Điểm : TP.HCM, ngày tháng năm 2019 Giáo viên phản biện ThS Hoàng Long an LỜI CẢM ƠN Nhóm chúng tơi xin chân thành cảm ơn khoa Công Nghệ Thông Tin, Bộ Môn Hệ Thống Thông Tin, trường Đại học Sư Phạm Kỹ Thuật TP.Hồ Chí Minh tạo điều kiện thuận lợi cho thực đề tài Chúng xin gửi lời cảm ơn chân thành đến thầy Quách Đình Hồng, người tận tình bảo hướng dẫn nhóm chúng tơi thực đề tài Bên cạnh đó, chúng tơi xin gửi lời cảm ơn đến thầy cô giảng viên trường Đại Học Sư Phạm Kỹ Thuật TP.Hồ Chí Minh nói chung thầy cô giảng viên khoa Công Nghệ Thông Tin nói riêng, người giảng dạy, tạo điều kiện cho chúng tơi ích lũy kiến thức q báu năm học qua Dù cố gắng hồn thành đề tài khóa luận u cầu, thời gian hạn hẹp khả hạn chế nên nhóm chúng tơi chắn khơng tránh khỏi thiếu sót Chúng tơi mong nhận thơng cảm tận tình bảo thầy bạn Nhóm chúng tơi xin chân thành cảm ơn an TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP HCM KHOA CÔNG NGHỆ THÔNG TIN o-ĐỀ CƢƠNG LUẬN VĂN TỐT NGHIỆP Họ tên SV thực 1: Trần Quang Minh MSSV: 15110250 Họ tên SV thực 2: Hồ Văn Phong MSSV: 15110277 Thời gian làm luận văn: Từ: 03/2019 Chuyên ngành: Hệ thống thơng tin Tên luận văn: Tìm hiểu Spark cho phân tích liệu lớn áp dụng cho Đến: 07/2019 toán phát xâm nhập mạng Giáo viên hướng dẫn: Ths Qch Đình Hồng NHIỆM VỤ CỦA LUẬN VĂN: Nhiệm vụ luận văn áp dụng vài thuật toán học máy Spark hỗ trợ vào tập liệu phổ biến cho vấn đề xâm nhập mạng Sau đó, luận văn tập trung vào tiến hành đánh giá hiệu số thuật toán phát xâm nhập mạng Để đạt điều đó, chúng tơi tập trung tìm hiểu số vấn đề sau: Tìm hiểu tổng quan phát xâm nhập mạng Tìm hiểu tổng quan Spark cho phân tích liệu lớn Tìm hiểu tổng quan thuật tốn học máy mà Spark hỗ trợ Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát xâm nhập mạng Đánh giá so sánh số thuật toán học máy cho toán phát xâm nhập mạng KẾ HOẠCH THỰC HIỆN: an STT Thời gian Cơng việc Từ 01/03/2019 Tìm hiểu tài liệu tài liệu liên quan Đến 07/03/2019 Tìm hiểu tổng quan phát xâm nhập mạng Từ 08/03/2019 Ghi Tìm hiểu tổng quan Spark cho phân tích liệu lớn Đến 15/03/2019 Từ 16/03/2019 Tìm hiểu tổng quan thuật toán học máy mà Spark hỗ Đến 29/03/2019 trợ Từ 30/03/2019 Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát xâm nhập mạng Đến 12/04/2019 Chọn tập liệu cho thực nghiệm Chọn vài thuật toán phù hợp để thực nghiệm Từ 13/04/2019 Đến 26/04/2019 Tìm hiểu cách tiền xử lý liệu Tìm hiểu cách lựa chọn thuộc tính Từ 27/04/2019 Đến 10/05/2019 Tìm hiểu cách lựa chọn tham số số phương pháp đánh giá cho thuật toán máy học Từ 10/05/2019 Thực tiền xử lý liệu Đến 24/05/2019 Thực lựa chọn thuộc tính Từ 25/05/2019 Đến 07/06/2019 Từ 08/06/2019 10 11 Thực lựa chọn tham số validator cho model Đến 21/06/2019 Tiến hành đánh giá so sánh số thuật toán học máy cho toán phát xâm nhập mạng Từ 22/06/2019 Tổng hợp viết báo cáo Đến 28/06/2019 Thiết kế slide báo cáo Từ 29/06/2019 Chỉnh sửa lại số nội dung báo cáo theo yêu cầu giáo viên hướng dẫn Đến 05/07/2019 Từ 06/07/2019 12 Đến 12/07/2019 Hoàn chỉnh báo cáo slide an Ý kiến giảng viên hướng dẫn TP Hồ Chí Minh, ngày … tháng … năm 2019 Người viết đề cương (Ký ghi rõ họ tên) an MỤC LỤC LỜI CẢM ƠN ĐỀ CƢƠNG LUẬN VĂN TỐT NGHIỆP MỤC LỤC DANH MỤC HÌNH VẼ 12 DANH MỤC BIỂU MẪU 13 DANH MỤC CÁC TỪ VIẾT TẮT 14 CHƢƠNG 1: TỔNG QUAN ĐỀ TÀI 15 1.1 GIỚI THIỆU BÀI TOÁN 15 1.2 MỤC TIÊU 15 1.3 BỐ CỤC CỦA BÁO CÁO 16 CHƢƠNG 2: TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP MẠNG 17 2.1 KHÁI NIỆM XÂM NHẬP MẠNG 17 2.2 MỘT SỐ KIỂU TẤN CÔNG PHỔ BIẾN 17 2.2.1 Tấn công từ chối dịch vụ 17 2.2.2 Tấn cơng thăm dị 18 2.2.3 Tấn công chiếm quyền root 18 2.2.4 Tấn công điều khiển từ xa 19 2.3 MỘT SỐ KỸ THUẬT PHÒNG CHỐNG XÂM NHẬP TRUYỀN THỐNG 19 2.3.1 Tường lửa (firewall) 19 2.3.2 Mã hóa liệu 19 2.3.3 VPN 20 2.4 HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 20 2.4.1 Khái niệm 20 2.4.2 Chức 21 2.4.3 Phân loại 21 2.4.3.1 Thu thập liệu giám sát 21 2.4.3.2 Thu thập liệu phân tích 23 an Hình 4.5 Random Search 4.2.4 Tiến hành thực nghiệm 4.2.4.1 Tiền xử lý liệu Bộ liệu NSL-KDD có bốn cột thuộc tính dạng phi số: cột thuộc tính số hai biểu diễn loại giao thức, cột thuộc tính số ba biểu diễn loại dịch vụ, cột thuộc tính số bốn biểu diễn trạng thái cờ kết nối cột thứ 42 biểu diễn nhãn tương ứng với kết nối (bình thường tên loại công cụ thể) Tiến hành chuyển đổi sang số thuộc tính số hai, số ba số bốn Có nhiều cách thức chuyển đổi chọn cách thức chuyển đổi giúp việc tính tốn hội tụ nhanh “One hot encoding” Phương pháp cho phép chuyển đổi kiểu giá trị mà không làm ảnh hưởng tới thứ tự giá trị Với phương pháp liệu thêm n cột với n tổng số thuộc tính tất column, với ta trừ cột có dạng categorical Với liệu NSL KDD, tổng số thuộc tính 84 bảng liệu thêm 84 cột tên cột tên thuộc tính Sau đó, ta đánh số với thuộc tính đối tượng sở hữu với thuộc tính khơng sở hữu Phương pháp minh họa hình 4.6 46 an Hình 4.6 Minh họa phƣơng pháp One hot encoding Trong tập liệu NSL-KDD, cột chứa nhãn liệu ta chuyển đổi thành dạng: - Nhãn có hai loại normal attack đánh indexer thành 1, nhãn có nhãn normal giữ ngun cịn lại đánh nhãn attack - Nhãn có năm loại normal, dos, probe, r2l, u2r đánh indexer theo thứ tự 0, 1, 2, 3, Phương án biến đổi mô tả chi tiết bảng 4.4 Bảng 4.4 Phƣơng án biến đổi nhãn cho tiền xử lý liệu Loại nhãn Tên nhãn Indexer Normal Probe Dos U2R Normal ipsweep, nmap, portsweep, satan back, land, neptune, pob, smurf, teardrop buffer_overlow, loadmodule, perl, rootkit ftp_write, guess_passwd, R2L imap, multihop, phf, spy, warezclient, warezmaster 47 an 4.2.3.2 Lựa chọn thuộc tính Lưu chọn thuộc tính bước quan trọng việc tiền xử lí liệu Chúng ta chọn thuộc tính quan trọng có ảnh hưởng đến thuật tốn tập thuộc tính ban đầu Mặt khác, lựa chọn liệu giúp giải số vấn đề liệu thuộc tính bị nhiễu, giảm số chiều liệu, tăng tốc độ xử lí thuật tốn tăng độ xác thuật tốn Để thực cơng việc này, nhóm chọn phương pháp Attribute Ratio (AR) để lựa chọn thuộc tính Chỉ số AR thuộc tính i tính sau: AR(i) = MAX(CR(j)) Trong đó, số Class Ratio (CR) thuộc tính thể tỷ lệ class thuộc tính j Dựa vào loại liệu thuộc tính, CR tính theo hai cơng thức: - Cơng thức cho numeric: CR(j) = AVG trung bình cộng - Công thức cho binary: CR(j) = Bảng 4.5 Loại liệu thuộc tính tập KDD-NSL Loại liệu Thuộc tính Nominal Protocol_type(2), Service(3), Flag(4) Land(7), logged_in(12), root_shell(14), Binary su_attempted(15), is_host_login(21),, is_guest_login(22) Numeric Duration(1), src_bytes(5), dst_bytes(6), wrong_fragment(8), urgent(9), hot(10), 48 an num_failed_logins(11), num_compromised(13), num_root(16), num_file_creations(17), num_shells(18), num_access_files(19), num_outbound_cmds(20), count(23) srv_count(24), serror_rate(25), srv_serror_rate(26), rerror_rate(27), srv_rerror_rate(28), same_srv_rate(29) diff_srv_rate(30), srv_diff_host_rate(31), dst_host_count(32), dst_host_srv_count(33), dst_host_same_srv_rate(34), dst_host_diff_srv_rate(35), dst_host_same_src_port_rate(36, dst_host_srv_diff_host_rate(37), dst_host_serror_rate(38), dst_host_srv_serror_rate(39), dst_host_rerror_rate(40), dst_host_srv_rerror_rate(41) Trong tập KDD-NSL có 41 thuộc tính, bảng 4.5 mơ tả loại liệu thuộc tính Dựa vào đó, áp dụng tính số AR Chúng ta ví dụ với cách tính số AR cho thuộc tính count - thuộc tính số 23 Bảng 4.6 Kết tính mean cho thuộc tính count Class Mean Total 0.16459408 Dos 0.348512787 49 an Normal 0.044066495 Probe 0.150787218 R2L 0.002539183 U2R 0.011365423 Dựa vào bảng 4.6, ta tính số AR(23) = 0.348512787/0.16459408 = 2.117 Với thuộc tính dạng binary logged_in – thuộc tính số 12, dựa vào kết bảng số 4.7 tính số AR(12) = 909/86 = 10.6 Bảng 4.7 Bảng thống kê tần số thuộc tính logged_in Dos Normal Probe R2L U2R Total 44970 19486 11573 86 76121 957 47857 83 909 46 49852 Tương tự, tính số AR cho thuộc tính lại kết thống kê bảng 4.8 50 an Bảng 4.8 Thống kê kết số AR cho 41 thuộc tính Từ bảng thống kê bảng 4.8, nhóm chúng tơi lựa chọn thuộc tính có số AR từ trở lên đồng nghĩa với việc bỏ thuộc tính số 22, 7, 15, 21, 20 nhằm tăng độ xác thuật tốn 4.2.4.3 Ƣớc lƣợng độ xác lực chọn tham số Để thực công việc để chọn hyperparameter tốt cho model, nhóm sử dụng phương pháp gridsearch để chọn tham số cross validation dự đoán xem ứng với tham số thi cho model tốt 51 an Đầu tiên, nhóm chúng tơi chia liệu thành năm fold số lượng phần tử fold gần nhau, sau ứng với thuật tốn chúng tơi chọn danh sách tham số Chúng tơi chọn thuật tốn để thực thực nghiệm thuật tốn chúng tơi lại chọn tham số để thực dự đốn Với thuật tốn Randomforest chúng tơi chọn tham số thử nghiệm numTree(số lượng cây) với giá trị 100, 400, 600, 800,1000 Với thuật toán Neural Network chọn số lượng node lớp hidden với giá trị 20, 30,40,50,60 Tht tốn Logistic regression nhóm chọn chọn tham số threshold giá trị 0.4, 0.5, 0.6 , 0.7, 0.8 Và cuối với thuật toán Support Vector Machine nhóm chọn tham số C với giá trị sau 0.4, 0.5, ,2 Kết tổng hợp mô tả chi tiết bảng 4.9 Tên thuật toán Bảng 4.9 Hyperparameter cho tham số lên thuật toán Tên Hyperpram Hyperprame Hyperpram Hyperpram Hyperpram tham số eter ter eter eter eter5 Randomforest Numtree 400 500 600 800 1000 Neural Network Hidden 20 30 40 50 60 0.4 0.5 0.6 0.7 0.8 0.4 0,5 node Logistic regression Thressh old Support Vector C Machine Sau chọn hyperparameter ứng với thuật toán, ta tiến hành lấy 5-1 fold để tiến hành xây dựng model Với tham số ta xây dựng model dựa fold đem fold lai để tiến hành kiểm tra độ xác model.Sau kiểm tra với model ta lại có số đo xác ững với model, cuối ta tính độ chính xác trung bình cách lấy độ xác model cộng lại chia cho 5, kết đưa để đánh giá với tham số lại thuật tốn Ví dụ với thuật 52 an tốn Randomforest ta có tham số numTree ứng với fold ta lại có x lần chạy Sau ta tính độ chính xác trung bình tham số chọn tham số có độ xác trung bình cao Tương tự ta thực với thuật tốn cịn lại Kết tính nhóm miêu tả bảng 4.10, 4.11, 4.12 4.13 Bảng 4.10 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Randomforest NumTree Avg accuracy 400 0.999 500 0.998 600 0.998 800 0.998 1000 0.998 Bảng 4.11 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Neural Network Layer Avg accuracy [77,20,2] 0.996 [77,30,2] 0.996 [77,40,2] 0.996 [77,50,2] 0.997 [77,60,2] 0.996 Bảng 4.12 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Logistic regression Threshold Avg accuracy 0.4 0.973 0.45 0.972 0.5 0.971 0.55 0.970 0.6 0.970 53 an Bảng 4.13 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Support Vector Machine regularization Avg accuracy parameter 0.967 0.1 0.964 0.2 0.961 0.3 0.959 0.4 0.955 Sau có độ xác trung bình tham số, ta xem xét ứng với giá trị tham số cho ta độ xác trung bình cao Như với trường hợp ứng với thuật toán ta lại chọn tham số tốt Ta hyperparameter tốt cho randomforest 400, Neural Network 50, Logistic regression 0.4 SVM Bảng 4.14 mô tả kết chọn hyperparameter tốt lên tham số tương ứng với thuật toán Bảng 4.14 Hyperparameter tốt cho tham số tƣơng ứng với thuật toán Tên thuật toán Tên tham số Best hyperparameter Avg accuracy Randomforest Neural Network Logistic regression Support Vector Machine Numtree 400 0.998 Hidden node 50 0.996 Thresshold 0.4 0.972 C 0.4 0.972 Sau chọn tham số tốt cho thuật toán ta xậy dựng lại model tập tập liệu train ứng với tham số tìm Sau xây dựng xong ta đem model kiểm tra tập test 54 an 4.2.4.4 Tiến hành kiểm tra model Sau nhóm có model, nhóm tiến hành predict với tập test tập validate để so sánh kết Kết thể bảng 4.13, 4.14, 4.15 4.16 Bảng 4.15 Kết thực nghiệm cho thuật toán Randomforest Randomforest(numTree=400) Test set Accuracy Precision F1 Validation 0.999 0.999 0.999 Test 0.769 0.834 0.766 Bảng 4.16 Kết thực nghiệm cho thuật toán Neural Network Neural Network(layer=[77,50,2]) Test set Accuracy Precision F1 Validation 0.998 0.999 0.998 Test+ 0.797 0.829 0.793 Bảng 4.17 Kết thực nghiệm cho thuật toán Logistic regression Logistic regression Test set Accuracy Precision F1 Validation 0.973 0.973 0.973 Test+ 0.753 0.799 0.751 Bảng 4.18 Kết thực nghiệm cho thuật toán Support Vector Machine Support Vector Machine Test set Accuracy Precision F1 Validation 0.967 0.968 0.967 Test+ 0.737 0.793 0.734 55 an Từ bảng kết phía trên, ta thấy thuật tốn Neural Network cho ta độ xác cao Nhưng khơng phải mà lại kết luận áp dụng Neural Network tốt thuật tốn cịn lại Mặt khác, chi phí huấn luyện model Neural Network tốn so với thuật tốn cịn lại Vì vậy, việc lựa chọn thuật tốn cịn phụ thuộc vào nhu cầu, yêu cầu toán đặt 56 an KẾT LUẬN KẾT QUẢ ĐẠT ĐƢỢC Phát xâm nhập mạng khía cạnh quan tâm hàng đầu lĩnh vực an ninh mạng Nó giúp giảm thiểu thiệt hại nghiêm trọng cho hệ thống mạng Quá trình thu thập liệu mạng tạo lượng lớn liệu đầu vào cần đến cơng cụ mạnh mẽ xác để giải toán Spark Luận văn tập trung vào tìm hiểu Spark cho phân tích liệu lớn áp dụng cho toán phát xâm nhập mạng Những kết đạt luận văn sau: Thứ nhất, luận văn trình bày hệ thống hóa vấn đề khía cạnh liên quan tới phát xâm nhập mạng Thứ hai, luận văn tìm hiểu tổng quan, kiến trúc, thành phần gói MLlib Spark Thơng qua gói MLlib, tìm thấy số thuật tốn học máy Spark hỗ trợ gồm: học có giám sát, gợi ý, học khơng có giám sát, phân tích đồ thị deep learning Thứ ba, luận văn đề xuất việc thực nghiệm vài thuật toán học máy phù hợp cho toán phát xâm nhập mạng Spark Bên cạnh đó, luận văn tập trung giải vấn đề tăng tốc độ tính tốn thuật tốn học máy, đặc biệt thuật tốn có khối lượng tính tốn lớn nhờ vào Spark Từ đó, tốn đơn giản hóa rút ngắn thời gian tính tốn dễ dàng đưa so sánh đánh giá hiệu thuật tốn KHĨ KHĂN GẶP PHẢI Nguồn tài liệu đề tài nên trình tìm kiếm phục vụ cho đề tài gặp nhiều khó khăn Do kiến thức cịn nhiều hạn chế ngơn ngữ nhóm nên trình thực gặp nhiều trục trặc lỗi Do thời gian cịn hạn hẹp có nhiều đề tài nghiên cứu học kì nên chưa có hội giới thiệu hết chức Spark lợi ích mang lại 57 an VẤN ĐỀ TỒN ĐỌNG VÀ HƢỚNG PHÁT TRIỂN Trong nghiên cứu này, luận văn dừng lại việc tìm hiểu nghiên cứu vài thuật toán học máy cho toán Nhiều thuật toán Spark hỗ trợ chưa thực nghiệm, xem hướng phát triển tương lai Đồng thời, thuật toán chạy Spark cluster việc kết hợp hướng tiếp cận dựa vào bất thường hướng tiếp cận dựa vào dấu hiệu xâm nhập phát công với tỷ lệ phát cao mà tỷ lệ cảnh báo sai thấp hướng phát triển luận văn 58 an TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Ngọc Thanh, Một cách tiếp cận để giảm chiều liệu việc xây dựng hệ thống phát xâm nhập mạng hiệu quả, Hội thảo lần thứ II: Một số vấn đề chọn lọc an tồn an ninh thơng tin, TP Hồ Chí Minh, 12/2017 [2] Trần Thị Hương, Đánh giá hiệu số thuật toán phát xâm nhập mạng, Luận văn thạc sĩ, Đại học Khoa học tự nhiên - ĐHQGHN, 2016, trang 04-10 Tiếng Anh [3] Anna L Buczak, Erhan Guven, A Survey of Data Mining and Machine Learning methods for Cyber Security Intrusion Detection, IEEE Communications Survey & Tutorials, 2016, trang 1153-1174 [4] Chuanlong Yin, Yuefei Zhu, Jinlong Fei, Xinzheng He, A Deep learning approach for instrusion detection using recurrent neural networks, IEEE Access, 2017, trang 21954-21960 [5] https://www.unb.ca/cic/datasets/nsl.html 59 an an ... hướng tìm hiểu Spark cho phân tích liệu lớn áp dụng cho toán xâm nhập mạng 1.2 MỤC TIÊU Nhiệm vụ đề tài áp dụng vài thuật toán học máy Spark hỗ trợ vào tập liệu phổ biến cho vấn đề xâm nhập mạng. .. sau: Tìm hiểu tổng quan phát xâm nhập mạng Tìm hiểu tổng quan Spark cho phân tích liệu lớn Tìm hiểu tổng quan thuật toán học máy mà Spark hỗ trợ Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát. .. Spark cho phân tích liệu lớn + Tìm hiểu tổng quan thuật tốn học máy mà Spark hỗ trợ + Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát xâm nhập mạng + Đánh giá so sánh số thuật toán học máy cho

Định dạng
Số trang	61
Dung lượng	4,16 MB