1. Trang chủ
  2. » Tất cả

Đồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạng

58 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 1,9 MB

Nội dung

Đồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạngĐồ án tốt nghiệp: Tìm hểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạng

TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN HỒ VĂN PHONG : 15110277 TRẦN QUANG MINH : 15110250 Đề tài: TÌM HIỂU SPARK CHO PHÂN TÍCH DỮ LIỆU LỚN VÀ ÁP DỤNG CHO BÀI TỐN PHÁT HIỆN XÂM NHẬP MẠNG KHÓA LUẬN TỐT NGHIỆP KỸ SƢ CNTT GIÁO VIÊN HƢỚNG DẪN THS QCH ĐÌNH HỒNG KHOÁ 2015 - 2019 TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN HỒ VĂN PHONG : 15110277 TRẦN QUANG MINH : 15110250 Đề tài: TÌM HIỂU SPARK CHO PHÂN TÍCH DỮ LIỆU LỚN VÀ ÁP DỤNG CHO BÀI TỐN PHÁT HIỆN XÂM NHẬP MẠNG KHĨA LUẬN TỐT NGHIỆP KỸ SƢ CNTT GIÁO VIÊN HƢỚNG DẪN THS QCH ĐÌNH HỒNG KHỐ 2015 - 2019 LỜI CẢM ƠN Nhóm chúng tơi xin chân thành cảm ơn khoa Công Nghệ Thông Tin, Bộ Môn Hệ Thống Thông Tin, trường Đại học Sư Phạm Kỹ Thuật TP.Hồ Chí Minh tạo điều kiện thuận lợi cho thực đề tài Chúng xin gửi lời cảm ơn chân thành đến thầy Quách Đình Hồng, người tận tình bảo hướng dẫn nhóm chúng tơi thực đề tài Bên cạnh đó, chúng tơi xin gửi lời cảm ơn đến thầy cô giảng viên trường Đại Học Sư Phạm Kỹ Thuật TP.Hồ Chí Minh nói chung thầy giảng viên khoa Cơng Nghệ Thơng Tin nói riêng, người giảng dạy, tạo điều kiện cho chúng tơi ích lũy kiến thức q báu năm học qua Dù cố gắng hoàn thành đề tài khóa luận yêu cầu, thời gian hạn hẹp khả hạn chế nên nhóm chúng tơi chắn khơng tránh khỏi thiếu sót Chúng tơi mong nhận thơng cảm tận tình bảo thầy bạn Nhóm chúng tơi xin chân thành cảm ơn TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP HCM KHOA CÔNG NGHỆ THÔNG TIN o-ĐỀ CƢƠNG LUẬN VĂN TỐT NGHIỆP Họ tên SV thực 1: Trần Quang Minh MSSV: 15110250 Họ tên SV thực 2: Hồ Văn Phong MSSV: 15110277 Thời gian làm luận văn: Từ: 03/2019 Chuyên ngành: Hệ thống thông tin Tên luận văn: Tìm hiểu Spark cho phân tích liệu lớn áp dụng cho Đến: 07/2019 toán phát xâm nhập mạng Giáo viên hướng dẫn: Ths Quách Đình Hồng NHIỆM VỤ CỦA LUẬN VĂN: Nhiệm vụ luận văn áp dụng vài thuật toán học máy Spark hỗ trợ vào tập liệu phổ biến cho vấn đề xâm nhập mạng Sau đó, luận văn tập trung vào tiến hành đánh giá hiệu số thuật toán phát xâm nhập mạng Để đạt điều đó, chúng tơi tập trung tìm hiểu số vấn đề sau: Tìm hiểu tổng quan phát xâm nhập mạng Tìm hiểu tổng quan Spark cho phân tích liệu lớn Tìm hiểu tổng quan thuật tốn học máy mà Spark hỗ trợ Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát xâm nhập mạng Đánh giá so sánh số thuật toán học máy cho toán phát xâm nhập mạng KẾ HOẠCH THỰC HIỆN: STT Thời gian Cơng việc Từ 01/03/2019 Tìm hiểu tài liệu tài liệu liên quan Đến 07/03/2019 Tìm hiểu tổng quan phát xâm nhập mạng Từ 08/03/2019 Ghi Tìm hiểu tổng quan Spark cho phân tích liệu lớn Đến 15/03/2019 Từ 16/03/2019 Tìm hiểu tổng quan thuật tốn học máy mà Spark hỗ Đến 29/03/2019 trợ Từ 30/03/2019 Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát xâm nhập mạng Đến 12/04/2019 Chọn tập liệu cho thực nghiệm Chọn vài thuật toán phù hợp để thực nghiệm Từ 13/04/2019 Đến 26/04/2019 Tìm hiểu cách tiền xử lý liệu Tìm hiểu cách lựa chọn thuộc tính Từ 27/04/2019 Đến 10/05/2019 Tìm hiểu cách lựa chọn tham số số phương pháp đánh giá cho thuật toán máy học Từ 10/05/2019 Thực tiền xử lý liệu Đến 24/05/2019 Thực lựa chọn thuộc tính Từ 25/05/2019 Đến 07/06/2019 Từ 08/06/2019 10 11 Thực lựa chọn tham số validator cho model Đến 21/06/2019 Tiến hành đánh giá so sánh số thuật toán học máy cho toán phát xâm nhập mạng Từ 22/06/2019 Tổng hợp viết báo cáo Đến 28/06/2019 Thiết kế slide báo cáo Từ 29/06/2019 Chỉnh sửa lại số nội dung báo cáo theo yêu cầu giáo viên hướng dẫn Đến 05/07/2019 Từ 06/07/2019 12 Đến 12/07/2019 Hoàn chỉnh báo cáo slide Ý kiến giảng viên hướng dẫn (Ký ghi rõ họ tên) TP Hồ Chí Minh, ngày … tháng … năm 2019 Người viết đề cương MỤC LỤC LỜI CẢM ƠN ĐỀ CƢƠNG LUẬN VĂN TỐT NGHIỆP MỤC LỤC DANH MỤC HÌNH VẼ 12 DANH MỤC BIỂU MẪU 13 DANH MỤC CÁC TỪ VIẾT TẮT 14 CHƢƠNG 1: TỔNG QUAN ĐỀ TÀI 15 1.1 GIỚI THIỆU BÀI TOÁN 15 1.2 MỤC TIÊU 15 1.3 BỐ CỤC CỦA BÁO CÁO 16 CHƢƠNG 2: TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP MẠNG 17 2.1 KHÁI NIỆM XÂM NHẬP MẠNG 17 2.2 MỘT SỐ KIỂU TẤN CÔNG PHỔ BIẾN 17 2.2.1 Tấn công từ chối dịch vụ 17 2.2.2 Tấn cơng thăm dị 18 2.2.3 Tấn công chiếm quyền root 18 2.2.4 Tấn công điều khiển từ xa 19 2.3 MỘT SỐ KỸ THUẬT PHÒNG CHỐNG XÂM NHẬP TRUYỀN THỐNG 19 2.3.1 Tường lửa (firewall) 19 2.3.2 Mã hóa liệu 19 2.3.3 VPN 20 2.4 HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 20 2.4.1 Khái niệm 20 2.4.2 Chức 21 2.4.3 Phân loại 21 2.4.3.1 Thu thập liệu giám sát 21 2.4.3.2 Thu thập liệu phân tích 23 CHƢƠNG 3: TỔNG QUAN VỀ SPARK TRONG PHÂN TÍCH DỮ LIỆU LỚN 25 3.1 TỔNG QUAN SPARK 25 3.2 KIẾN TRÚC CƠ BẢN CỦA SPARK 26 3.3 SPARK APPLICATIONS 27 3.4 SPARKSESSION 28 3.5 DATAFRAMES 28 3.6 TRANSFORMATIONS 29 3.7 ACTIONS 30 3.8 WORKFLOW CỦA SPARK ARCHITECTURE 31 3.9 MLLIB 32 3.9.1 Học có giám sát 34 3.9.2 Gợi ý 35 3.9.3 Học khơng có giám sát 35 3.9.4 Phân tích đồ thị 35 3.9.5 Deep learning 36 CHƢƠNG 4: KẾT QUẢ ỨNG DỤNG MỘT SỐ THUẬT TOÁN VÀO PHÁT HIỆN XÂM NHẬP MẠNG 37 4.1 BỘ DỮ LIỆU NSL-KDD 37 4.2 THỰC NGHIỆM 42 4.2.1 Thông số đánh giá thuật toán học máy 42 4.2.2 Một số phương pháp đánh giá 42 4.2.2.1 Hold-out Validation 42 4.2.2.2 Cross-Validation 43 4.2.2.3 Bootstrap Jackknife 44 4.2.3 Hyperparameter Tuning 45 4.2.4 Tiến hành thực nghiệm 46 4.2.4.1 Tiền xử lý liệu 46 4.2.3.2 Lựa chọn thuộc tính 48 4.2.4.3 Ước lượng độ xác lực chọn tham số 51 10 4.2.4.4 Tiến hành kiểm tra model 55 KẾT LUẬN 56 KẾT QUẢ ĐẠT ĐƢỢC 57 KHÓ KHĂN GẶP PHẢI 57 VẤN ĐỀ TỒN ĐỌNG VÀ HƢỚNG PHÁT TRIỂN 58 TÀI LIỆU THAM KHẢO 59 11 DANH MỤC HÌNH VẼ Hình 2.1 Network – based IDS 22 Hình 2.2 Host – based IDS 23 d Hình 3.1 Spark’s toolkit 25 Hình 3.2 Spark Cluster 26 Hình 3.3 Kiến trúc hệ thống Spark 27 Hình 3.4 SparkSession 28 Hình 3.5 Ví dụ cách phân phối partition Spark 29 Hình 3.6 Phép biến đổi narrow dependencies 30 Hình 3.7 Phép biến đổi wide dependencies 30 Hình 3.8 Quá trình thao tác DataFrame theo logic vật lý 31 Hình 3.9 Workflow Spark Architecture 31 Hình 3.10 Apache Spark Ecosystem 32 Hình 3.11 Quy trình thực học máy Spark 33 Hình 3.12 Đồ thị mẫu có bảy nút bảy cạnh 35 Hình 4.1 Hold-out Validation 43 Hình 4.2 Cross - Validation 44 Hình 4.3 Bootstrap and Jackknife 44 Hình 4.4 Grid Search 45 Hình 4.5 Random Search 46 Hình 4.6 Minh họa phương pháp One hot encoding 47 12 Hình 4.5 Random Search 4.2.4 Tiến hành thực nghiệm 4.2.4.1 Tiền xử lý liệu Bộ liệu NSL-KDD có bốn cột thuộc tính dạng phi số: cột thuộc tính số hai biểu diễn loại giao thức, cột thuộc tính số ba biểu diễn loại dịch vụ, cột thuộc tính số bốn biểu diễn trạng thái cờ kết nối cột thứ 42 biểu diễn nhãn tương ứng với kết nối (bình thường tên loại công cụ thể) Tiến hành chuyển đổi sang số thuộc tính số hai, số ba số bốn Có nhiều cách thức chuyển đổi chọn cách thức chuyển đổi giúp việc tính tốn hội tụ nhanh “One hot encoding” Phương pháp cho phép chuyển đổi kiểu giá trị mà không làm ảnh hưởng tới thứ tự giá trị Với phương pháp liệu thêm n cột với n tổng số thuộc tính tất column, với ta trừ cột có dạng categorical Với liệu NSL KDD, tổng số thuộc tính 84 bảng liệu thêm 84 cột tên cột tên thuộc tính Sau đó, ta đánh số với thuộc tính đối tượng sở hữu với thuộc tính khơng sở hữu Phương pháp minh họa hình 4.6 46 Hình 4.6 Minh họa phƣơng pháp One hot encoding Trong tập liệu NSL-KDD, cột chứa nhãn liệu ta chuyển đổi thành dạng: - Nhãn có hai loại normal attack đánh indexer thành 1, nhãn có nhãn normal giữ ngun cịn lại đánh nhãn attack - Nhãn có năm loại normal, dos, probe, r2l, u2r đánh indexer theo thứ tự 0, 1, 2, 3, Phương án biến đổi mô tả chi tiết bảng 4.4 Bảng 4.4 Phƣơng án biến đổi nhãn cho tiền xử lý liệu Loại nhãn Tên nhãn Indexer Normal Probe Dos U2R Normal ipsweep, nmap, portsweep, satan back, land, neptune, pob, smurf, teardrop buffer_overlow, loadmodule, perl, rootkit ftp_write, guess_passwd, R2L imap, multihop, phf, spy, warezclient, warezmaster 47 4.2.3.2 Lựa chọn thuộc tính Lưu chọn thuộc tính bước quan trọng việc tiền xử lí liệu Chúng ta chọn thuộc tính quan trọng có ảnh hưởng đến thuật tốn tập thuộc tính ban đầu Mặt khác, lựa chọn liệu giúp giải số vấn đề liệu thuộc tính bị nhiễu, giảm số chiều liệu, tăng tốc độ xử lí thuật tốn tăng độ xác thuật tốn Để thực cơng việc này, nhóm chọn phương pháp Attribute Ratio (AR) để lựa chọn thuộc tính Chỉ số AR thuộc tính i tính sau: AR(i) = MAX(CR(j)) Trong đó, số Class Ratio (CR) thuộc tính thể tỷ lệ class thuộc tính j Dựa vào loại liệu thuộc tính, CR tính theo hai công thức: - Công thức cho numeric: CR(j) = AVG trung bình cộng - Cơng thức cho binary: CR(j) = Bảng 4.5 Loại liệu thuộc tính tập KDD-NSL Loại liệu Thuộc tính Nominal Protocol_type(2), Service(3), Flag(4) Land(7), logged_in(12), root_shell(14), Binary su_attempted(15), is_host_login(21),, is_guest_login(22) Numeric Duration(1), src_bytes(5), dst_bytes(6), wrong_fragment(8), urgent(9), hot(10), 48 num_failed_logins(11), num_compromised(13), num_root(16), num_file_creations(17), num_shells(18), num_access_files(19), num_outbound_cmds(20), count(23) srv_count(24), serror_rate(25), srv_serror_rate(26), rerror_rate(27), srv_rerror_rate(28), same_srv_rate(29) diff_srv_rate(30), srv_diff_host_rate(31), dst_host_count(32), dst_host_srv_count(33), dst_host_same_srv_rate(34), dst_host_diff_srv_rate(35), dst_host_same_src_port_rate(36, dst_host_srv_diff_host_rate(37), dst_host_serror_rate(38), dst_host_srv_serror_rate(39), dst_host_rerror_rate(40), dst_host_srv_rerror_rate(41) Trong tập KDD-NSL có 41 thuộc tính, bảng 4.5 mô tả loại liệu thuộc tính Dựa vào đó, áp dụng tính số AR Chúng ta ví dụ với cách tính số AR cho thuộc tính count - thuộc tính số 23 Bảng 4.6 Kết tính mean cho thuộc tính count Class Mean Total 0.16459408 Dos 0.348512787 49 Normal 0.044066495 Probe 0.150787218 R2L 0.002539183 U2R 0.011365423 Dựa vào bảng 4.6, ta tính số AR(23) = 0.348512787/0.16459408 = 2.117 Với thuộc tính dạng binary logged_in – thuộc tính số 12, dựa vào kết bảng số 4.7 tính số AR(12) = 909/86 = 10.6 Bảng 4.7 Bảng thống kê tần số thuộc tính logged_in Dos Normal Probe R2L U2R Total 44970 19486 11573 86 76121 957 47857 83 909 46 49852 Tương tự, tính số AR cho thuộc tính lại kết thống kê bảng 4.8 50 Bảng 4.8 Thống kê kết số AR cho 41 thuộc tính Từ bảng thống kê bảng 4.8, nhóm chúng tơi lựa chọn thuộc tính có số AR từ trở lên đồng nghĩa với việc bỏ thuộc tính số 22, 7, 15, 21, 20 nhằm tăng độ xác thuật tốn 4.2.4.3 Ƣớc lƣợng độ xác lực chọn tham số Để thực công việc để chọn hyperparameter tốt cho model, nhóm chúng tơi sử dụng phương pháp gridsearch để chọn tham số cross validation dự đoán xem ứng với tham số thi cho model tốt 51 Đầu tiên, nhóm chúng tơi chia liệu thành năm fold số lượng phần tử fold gần nhau, sau ứng với thuật tốn chúng tơi chọn danh sách tham số Chúng chọn thuật toán để thực thực nghiệm thuật tốn chúng tơi lại chọn tham số để thực dự đoán Với thuật toán Randomforest chọn tham số thử nghiệm numTree(số lượng cây) với giá trị 100, 400, 600, 800,1000 Với thuật tốn Neural Network chúng tơi chọn số lượng node lớp hidden với giá trị 20, 30,40,50,60 Thuât toán Logistic regression nhóm chọn chọn tham số threshold giá trị 0.4, 0.5, 0.6 , 0.7, 0.8 Và cuối với thuật tốn Support Vector Machine nhóm chọn tham số C với giá trị sau 0.4, 0.5, ,2 Kết tổng hợp mô tả chi tiết bảng 4.9 Tên thuật toán Bảng 4.9 Hyperparameter cho tham số lên thuật toán Tên Hyperpram Hyperprame Hyperpram Hyperpram Hyperpram tham số eter ter eter eter eter5 Randomforest Numtree 400 500 600 800 1000 Neural Network Hidden 20 30 40 50 60 0.4 0.5 0.6 0.7 0.8 0.4 0,5 node Logistic regression Thressh old Support Vector C Machine Sau chọn hyperparameter ứng với thuật toán, ta tiến hành lấy 5-1 fold để tiến hành xây dựng model Với tham số ta xây dựng model dựa fold đem fold lai để tiến hành kiểm tra độ xác model.Sau kiểm tra với model ta lại có số đo xác ững với model, cuối ta tính độ chính xác trung bình cách lấy độ xác model cộng lại chia cho 5, kết đưa để đánh giá với tham số cịn lại thuật tốn Ví dụ với thuật 52 tốn Randomforest ta có tham số numTree ứng với fold ta lại có x lần chạy Sau ta tính độ chính xác trung bình tham số chọn tham số có độ xác trung bình cao Tương tự ta thực với thuật tốn cịn lại Kết tính nhóm miêu tả bảng 4.10, 4.11, 4.12 4.13 Bảng 4.10 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Randomforest NumTree Avg accuracy 400 0.999 500 0.998 600 0.998 800 0.998 1000 0.998 Bảng 4.11 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Neural Network Layer Avg accuracy [77,20,2] 0.996 [77,30,2] 0.996 [77,40,2] 0.996 [77,50,2] 0.997 [77,60,2] 0.996 Bảng 4.12 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Logistic regression Threshold Avg accuracy 0.4 0.973 0.45 0.972 0.5 0.971 0.55 0.970 0.6 0.970 53 Bảng 4.13 Kết độ xác trung bình áp dụng fold lên tham số cho thuật toán Support Vector Machine regularization Avg accuracy parameter 0.967 0.1 0.964 0.2 0.961 0.3 0.959 0.4 0.955 Sau có độ xác trung bình tham số, ta xem xét ứng với giá trị tham số cho ta độ xác trung bình cao Như với trường hợp ứng với thuật toán ta lại chọn tham số tốt Ta hyperparameter tốt cho randomforest 400, Neural Network 50, Logistic regression 0.4 SVM Bảng 4.14 mô tả kết chọn hyperparameter tốt lên tham số tương ứng với thuật toán Bảng 4.14 Hyperparameter tốt cho tham số tƣơng ứng với thuật toán Tên thuật toán Tên tham số Best hyperparameter Avg accuracy Randomforest Neural Network Logistic regression Support Vector Machine Numtree 400 0.998 Hidden node 50 0.996 Thresshold 0.4 0.972 C 0.4 0.972 Sau chọn tham số tốt cho thuật toán ta xậy dựng lại model tập tập liệu train ứng với tham số tìm Sau xây dựng xong ta đem model kiểm tra tập test 54 4.2.4.4 Tiến hành kiểm tra model Sau nhóm có model, nhóm tiến hành predict với tập test tập validate để so sánh kết Kết thể bảng 4.13, 4.14, 4.15 4.16 Bảng 4.15 Kết thực nghiệm cho thuật toán Randomforest Randomforest(numTree=400) Test set Accuracy Precision F1 Validation 0.999 0.999 0.999 Test 0.769 0.834 0.766 Bảng 4.16 Kết thực nghiệm cho thuật toán Neural Network Neural Network(layer=[77,50,2]) Test set Accuracy Precision F1 Validation 0.998 0.999 0.998 Test+ 0.797 0.829 0.793 Bảng 4.17 Kết thực nghiệm cho thuật toán Logistic regression Logistic regression Test set Accuracy Precision F1 Validation 0.973 0.973 0.973 Test+ 0.753 0.799 0.751 Bảng 4.18 Kết thực nghiệm cho thuật toán Support Vector Machine Support Vector Machine Test set Accuracy Precision F1 Validation 0.967 0.968 0.967 Test+ 0.737 0.793 0.734 55 Từ bảng kết phía trên, ta thấy thuật tốn Neural Network cho ta độ xác cao Nhưng khơng phải mà lại kết luận áp dụng Neural Network tốt thuật toán cịn lại Mặt khác, chi phí huấn luyện model Neural Network tốn so với thuật toán cịn lại Vì vậy, việc lựa chọn thuật tốn phụ thuộc vào nhu cầu, yêu cầu toán đặt 56 KẾT LUẬN KẾT QUẢ ĐẠT ĐƢỢC Phát xâm nhập mạng khía cạnh quan tâm hàng đầu lĩnh vực an ninh mạng Nó giúp giảm thiểu thiệt hại nghiêm trọng cho hệ thống mạng Quá trình thu thập liệu mạng tạo lượng lớn liệu đầu vào cần đến công cụ mạnh mẽ xác để giải tốn Spark Luận văn tập trung vào tìm hiểu Spark cho phân tích liệu lớn áp dụng cho toán phát xâm nhập mạng Những kết đạt luận văn sau: Thứ nhất, luận văn trình bày hệ thống hóa vấn đề khía cạnh liên quan tới phát xâm nhập mạng Thứ hai, luận văn tìm hiểu tổng quan, kiến trúc, thành phần gói MLlib Spark Thơng qua gói MLlib, tìm thấy số thuật toán học máy Spark hỗ trợ gồm: học có giám sát, gợi ý, học khơng có giám sát, phân tích đồ thị deep learning Thứ ba, luận văn đề xuất việc thực nghiệm vài thuật toán học máy phù hợp cho toán phát xâm nhập mạng Spark Bên cạnh đó, luận văn tập trung giải vấn đề tăng tốc độ tính tốn thuật tốn học máy, đặc biệt thuật tốn có khối lượng tính tốn lớn nhờ vào Spark Từ đó, tốn đơn giản hóa rút ngắn thời gian tính tốn dễ dàng đưa so sánh đánh giá hiệu thuật tốn KHĨ KHĂN GẶP PHẢI Nguồn tài liệu đề tài cịn nên q trình tìm kiếm phục vụ cho đề tài gặp nhiều khó khăn Do kiến thức nhiều hạn chế ngơn ngữ nhóm nên q trình thực gặp nhiều trục trặc lỗi Do thời gian cịn hạn hẹp có nhiều đề tài nghiên cứu học kì nên chưa có hội giới thiệu hết chức Spark lợi ích mang lại 57 VẤN ĐỀ TỒN ĐỌNG VÀ HƢỚNG PHÁT TRIỂN Trong nghiên cứu này, luận văn dừng lại việc tìm hiểu nghiên cứu vài thuật toán học máy cho toán Nhiều thuật toán Spark hỗ trợ chưa thực nghiệm, xem hướng phát triển tương lai Đồng thời, thuật toán chạy Spark cluster việc kết hợp hướng tiếp cận dựa vào bất thường hướng tiếp cận dựa vào dấu hiệu xâm nhập phát công với tỷ lệ phát cao mà tỷ lệ cảnh báo sai thấp hướng phát triển luận văn 58 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Ngọc Thanh, Một cách tiếp cận để giảm chiều liệu việc xây dựng hệ thống phát xâm nhập mạng hiệu quả, Hội thảo lần thứ II: Một số vấn đề chọn lọc an tồn an ninh thơng tin, TP Hồ Chí Minh, 12/2017 [2] Trần Thị Hương, Đánh giá hiệu số thuật toán phát xâm nhập mạng, Luận văn thạc sĩ, Đại học Khoa học tự nhiên - ĐHQGHN, 2016, trang 04-10 Tiếng Anh [3] Anna L Buczak, Erhan Guven, A Survey of Data Mining and Machine Learning methods for Cyber Security Intrusion Detection, IEEE Communications Survey & Tutorials, 2016, trang 1153-1174 [4] Chuanlong Yin, Yuefei Zhu, Jinlong Fei, Xinzheng He, A Deep learning approach for instrusion detection using recurrent neural networks, IEEE Access, 2017, trang 21954-21960 [5] https://www.unb.ca/cic/datasets/nsl.html 59 ... hiệu cho toán phát xâm nhập Vì vậy, luận văn tiếp cận theo hướng tìm hiểu Spark cho phân tích liệu lớn áp dụng cho toán xâm nhập mạng 1.2 MỤC TIÊU Nhiệm vụ đề tài áp dụng vài thuật toán học máy Spark. .. sau: Tìm hiểu tổng quan phát xâm nhập mạng Tìm hiểu tổng quan Spark cho phân tích liệu lớn Tìm hiểu tổng quan thuật toán học máy mà Spark hỗ trợ Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán phát. .. Tìm hiểu tổng quan phát xâm nhập mạng + Tìm hiểu tổng quan Spark cho phân tích liệu lớn + Tìm hiểu tổng quan thuật toán học máy mà Spark hỗ trợ + Tìm hiểu tập liệu mạng phổ biến sử dụng cho toán

Ngày đăng: 14/02/2023, 17:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w