MẪU 14/KHCN BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG Tên đề tài Nghiên cứu kỹ thuật học tăng cư[.]
BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG Tên đề tài: Nghiên cứu kỹ thuật học tăng cường vào tốn phân tích cơng mạng máy tính Mã số đề tài: 21/1CNTT01 Chủ nhiệm đề tài: Đặng Quang Vinh Đơn vị thực hiện: Khoa Công nghệ thơng tin Tp Hồ Chí Minh, … LỜI CÁM ƠN Tôi xin chân thành cảm ơn Khoa CNTT, Trường Đại học Công nghiệp TP.HCM hỗ trợ trình thực đề tài nghiên cứu PHẦN I THƠNG TIN CHUNG I Thơng tin tổng quát 1.1 Tên đề tài: Nghiên cứu kỹ thuật học tăng cường vào tốn phân tích cơng mạng máy tính 1.2 Mã số: 21/1CNTT01 1.3 Danh sách chủ trì, thành viên tham gia thực đề tài TT Họ tên (học hàm, học vị) Đơn vị công tác Vai trò thực đề tài Tiến sỹ Đặng Quang Vinh Khoa CNTT, Trường ĐH Công nghiệp TP.HCM Chủ nhiệm Kỹ sư Võ Thanh Hải Học viên cao học Khóa 7, Khoa CNTT, Trường ĐH Cơng nghiệp TP.HCM Tham gia 1.4 Đơn vị chủ trì: 1.5 Thời gian thực hiện: 1.5.1 Theo hợp đồng: từ tháng… năm…… đến tháng… năm… 1.5.2 Gia hạn (nếu có): 1.5.3 Thực thực tế: từ tháng… năm…… đến tháng… năm… 1.6 Những thay đổi so với thuyết minh ban đầu (nếu có): Khơng có 1.7 Tổng kinh phí phê duyệt đề tài: ba mươi lăm triệu đồng II Kết nghiên cứu Đặt vấn đề Bài toán phân tích cơng mạng máy tính (intrusion detection) toán quan trọng việc phát triển hệ thống an ninh khơng gian mạng Trong tốn này, hế thống phát công (intrusion detection system – IDS) phải có khả phân tích phát theo thời gian thực công tới từ bên hệ thống Trong năm vừa qua, nhiều kỹ thuật máy học (machine learning) sử dụng tốn phân tích phát cơng Tuy nhiên, kỹ thuật yêu cầu: i) lượng liệu lớn phân tích gán nhãn; ii) giả thiết kỹ thuật công không thay đổi theo thời gian Hai yêu cầu thường không tồn thực tế Trong nghiên cứu này, dự định sử dụng kỹ thuật học tăng cường (reinforcement learning) để giải toán phát công đồng thời giải hai vấn đề nêu 2 Mục tiêu Mục tiêu tổng quát Mục tiêu tổng quát đề tài nghiên cứu framework tổng quát để tự động phát dạng cơng hệ thống máy tính từ bên ngồi Hệ thống phải có khả tự sửa chữa lỗi tự cập nhật với can thiệp Mục tiêu cụ thể Mục tiêu cụ thể nghiên cứu tìm hiểu, cải tiến implement số thuật toán học tăng cường tập dataset CICIDS 2020 DoHBRW 2020 Phương pháp nghiên cứu Nhóm nghiên cứu tiến hành nghiên cứu vấn đề lý thuyết thực tiễn: - Đánh giá kết nghiên cứu lĩnh vực - Phân tích ưu nhược điểm nghiên cứu khác - Đề xuất phương pháp cải tiến - Tiến hành cài đặt kiểm thử - Đánh giá mơ hình cải tiến đề xuất cho tương lai Tổng kết kết nghiên cứu Nhóm nghiên cứu đánh giá nhiều kết nghiên cứu lĩnh vực đạt khoảng thời gian từ năm 1999 tới năm 2021 Nhóm thành công nhược điểm mơ hình phát xâm nhập sử dụng luật (rule-based matching) hay học tăng cường (supervised machine learning) Nhóm nghiên cứu nghiên cứu 04 kỹ thuật học tăng cường (reinforcement learning) ứng dụng so sánh 04 kỹ thuật để phát xâm nhập sử dụng liệu DoHBRw 2020 Nhóm nghiên cứu so sánh kỹ thuật học tăng cường với kết nghiên cứu Các kỹ thuật học tăng cường chưa thể đạt độ xác cao kỹ thuật học có giám sát có nhiều tiềm để phát triển tương lai Đánh giá kết đạt kết luận Tổng quan, nghiên cứu thực yêu cầu đề Nhóm nghiên cứu xem xét kỹ thuật học tăng cường (reinforcement learning) cộng đồng khoa học áp dụng vào toán phát xâm nhập sử dụng liệu thực tế, công bố gần nhằm chứng minh khả kỹ thuật Tóm tắt kết (tiếng Việt tiếng Anh) Vấn đề phát xâm nhập vấn đề cốt lõi an ninh mạng Trong năm gần đây, có nhiều nghiên cứu tận dụng sức mạnh thuật tốn học máy có giám sát để phát luồng công từ Internet Trong nghiên cứu này, nghiên cứu kỹ thuật học tập củng cố để giải vấn đề Các thử nghiệm cách sử dụng tập liệu giới thực cho thấy thuật tốn học tăng cường nói chung khơng thể đạt hiệu suất thuật toán học máy có giám sát nghiên cứu, chúng có ưu điểm khác nhau, chẳng hạn chất động kỹ thuật The intrusion detection problem is one of the core problems in cyber-security In recent years, there are many research studies that leverage the power of supervised machine learning algorithms to detect the attacking flows from the Internet In this study, we study the reinforcement learning techniques to solve the problem Our experiments using the latest real-world dataset showed that the current reinforcement learning algorithms in general cannot achieve the same performance as the well studies supervised machine learning algorithms, but they have different advantages, such as the dynamic nature III Sản phẩm đề tài, công bố kết đào tạo 3.1 Kết nghiên cứu ( sản phẩm dạng 1,2,3) TT Tên sản phẩm Yêu cầu khoa học hoặc/và tiêu kinh tế - kỹ thuật Đăng ký Bài báo khoa học: “Studying the Reinforcement Learning Techniques for the Problem of Intrusion Detection” đăng hội nghị quốc tế IEEE ICAIBD 2021 (đã ghi nhận sở liệu Scopus) Link báo: https://ieeexplore.ieee.org/document/9459006 Tác giả: Quang-Vinh Dang, Thanh-Hai Vo Ghi chú: Đạt - Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo…) chấp nhận có ghi nhận địa cảm ơn trường ĐH Công Nghiệp Tp HCM cấp kính phí thực nghiên cứu theo quy định - Các ấn phẩm (bản photo) đính kèm phần phụ lục minh chứng cuối báo cáo (đối với ấn phẩm sách, giáo trình cần có photo trang bìa, trang trang cuối kèm thông tin định số hiệu xuất bản) 3.2 Kết đào tạo Thời gian Tên đề tài Tên chuyên đề NCS TT Họ tên thực đề tài Đã bảo vệ Tên luận văn Cao học Nghiên cứu sinh Học viên cao học Võ Thanh Hải 11/2019 – 11/2020 Nghiên cứu kỹ thuật máy học cho hệ thống phát xâm nhập Đã bảo vệ thành công nhận thạc sĩ Sinh viên Đại học Ghi chú: - Kèm photo trang bìa chuyên đề nghiên cứu sinh/ luận văn/ khóa luận bằng/giấy chứng nhận nghiên cứu sinh/thạc sỹ học viên bảo vệ thành công luận án/ luận văn;( thể phần cuối báo cáo khoa học) IV Tình hình sử dụng kinh phí T T A Kinh phí duyệt (triệu đồng) Kinh phí thực (triệu đồng) 25.000.000 22.000.000 10.000.000 13.000.000 Nội dung chi Chi phí trực tiếp Th khốn chun mơn Ngun, nhiên vật liệu, Thiết bị, dụng cụ Cơng tác phí Dịch vụ thuê Hội nghị, hội thảo,thù lao nghiệm thu kỳ B Ghi Đăng ký hội thảo IEEE ICAIB D 2021 In ấn, Văn phịng phẩm Chi phí khác Chi phí gián tiếp Quản lý phí Chi phí điện, nước Tổng số V Kiến nghị ( phát triển kết nghiên cứu đề tài) Đề tài tiếp tục phát triển ứng dụng vào thực tế Về hướng nghiên cứu tiếp theo, nhóm nghiên cứu kiến nghị tập trung vào kỹ thuật học tăng cường ngoại tuyến (offline policy) chúng khả thi thực tế: mơ hình phát xâm nhập thường huấn luyện (training) trước sử dụng VI Phụ lục sản phẩm ( liệt kê minh chứng sản phẩm nêu Phần III) - Photocopy báo Scopus liệt kê phần III - Bằng thạc sỹ học viên cao học Võ Thanh Hải Chủ nhiệm đề tài Tp HCM, ngày tháng năm (ĐƠN VỊ) Phòng QLKH&HTQT Trưởng (đơn vị) (Họ tên, chữ ký) PHẦN II BÁO CÁO CHI TIẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC (báo cáo tổng kết sau nghiệm thu, bao gồm nội dung góp ý hội đồng nghiệm thu) Giới thiệu 1.1 Tổng quan Cùng với phát triển khoa học công nghệ, hệ thống mạng máy tính nói chung mạng Internet nói riêng ngày đóng vai trị quan trọng đời sống hàng ngày người Khi hệ thống IoT sản xuất thâm nhập sâu vào sống sản xuất, nói hầu hết thiết bị điện tử kết nối vào mạng Internet Thực tế mở nhiều hội chưa biết đến, đặt nhiều thách thức mặt bảo mật đảm bảo an tồn thơng tin Các cơng vào hệ thống máy tính khơng phải tượng mẻ, nhiều năm trở lại có gia tăng cường độ thiệt hại mà chúng gây Các công vào mạng máy tính chia làm hai loại lớn: công từ bên mạng (internal attacks) cơng từ bên ngồi (external attacks) Rõ ràng, hầu hết hệ thống máy tính phải tập trung đối phó với cơng từ bên mạng Các hệ thống phát phòng ngừa xâm nhập nhận quan tâm lớn nhà nghiên cứu hàn lâm kỹ sư làm việc công ty chuyên phát triển hệ thống đảm bảo an ninh hệ thống Theo báo cáo Allied Market Research thị trường phát triển hệ thống ngăn chặn an ninh mạng đạt giá trị 4.8 tỷ dollar Mỹ vào năm 2020 dự báo tăng lên 6.2 tỷ dollar Mỹ vào năm 2025 (Allied Market Research, 2021) 1.2 Mục tiêu Trong đề tài này, tập trung nghiên cứu vào toán phát xâm nhập (intrusion detection) Nhiệm vụ hệ thống phát xâm nhập (intrusion detection system – IDS) đóng vai trị cửa ngõ mạng máy tính nội mạng Internet, với nhiệm vụ phát luồng tin nguy hiểm (malicious traffic) ngăn chặn chúng trước chúng gửi vào mạng máy tính nội gây nguy hiểm Cụ thể hơn, tập trung vào toán phát công vào hệ thống DNS (Domain Name Server) – hệ thống đóng vai trị cốt lõi để trì mạng Internet toàn cầu Các kết đề tài 2.1 Cơ sở lý thuyết Đã có nhiều nghiên cứu sử dụng kỹ thuật khác cho toán phát xâm nhập Các kỹ thuật phát dựa luật (rule-based) sử dụng phổ biến năm đầu kỷ nguyên Internet kéo dài tận ngày Trong kỹ thuật phát xâm nhập dựa luật, chuyên gia an ninh mạng quy định quy tắc (luật) Bộ quy tắc cài đặt hệ thống phát xâm nhập Khi gói tin gửi tới, hệ thống so sánh gói tin với quy tắc cho trước, ngăn chặn gói tin có đặc điểm trùng với nhiều quy tắc Hệ thống có nhược điểm chậm ứng phó với dạng cơng (zero attacks), cần có thời gian để chuyên gia người định nghĩa quy tắc để chống lại công Trong năm gần đây, kỹ thuật máy học (machine learning) học sâu (deep learning) nhận nhiều quan tâm cộng đồng nghiên cứu Các kỹ thuật máy học liên tục đời, cho kết dự đoán tốt kỹ thuật cũ Khơng nằm ngồi quy luật đó, nhiều nghiên cứu áp dụng kỹ thuật máy học cho toán phát xâm nhập, sử dụng nhiều kỹ thuật từ đơn giản k-NN (Liao Vemuri, 2002), k-means (Wang Megalooikonomou, 2005) tới kỹ thuật boosting machine (Dang, 2019) Các kỹ thuật chứng minh đạt kết dự đốn xác gần tuyệt đối, dựa thí nghiệm liệu (Dang, 2021) Hầu hết kỹ thuật máy học sử dụng phát xâm nhập kỹ thuật học có giám sát (supervised machine learning) Trong kỹ thuật học có giám sát, thuật toán máy học huấn luyện (training) với tập liệu có gán nhãn (labeled dataset) để phân biệt đặt trưng lớp liệu Sau đó, thuật tốn đánh giá cách cho dự đoán tập liệu (unseen data) so sánh kết dự đoán với nhãn (ground truth) Thông thường, việc đánh giá sử dụng độ đo (metric) biểu diễn bảng Hình Các độ đo phổ biến thường có accuracy, precision, recall F1-score Nguồn: Wikipedia (Creative Common License) Mặc dù sử dụng phổ biến (Zaman and Lung, 2018), độ đo nói có nhược điểm lớn: chúng yêu cầu kết dự đốn phải phân lớp Ví dụ, chúng u cầu thuật toán máy học phải đưa dự đốn rõ ràng gói tin gói tin nguy hiểm (malicious) hay an toàn (benign) Điều làm hạn chế khả thay đổi (adaptability) hệ thống – ví dụ, cần linh hoạt thay đổi ngưỡng xác định gói tin cơng tùy vào bối cảnh thực tiễn Hơn nữa, độ đo accuracy thường sai lệch tồn phân bố lệch lớp Ví dụ, 95% gói tin gói tin an tồn, mơ hình cố định (constant predictor) dự đốn tất gói tin an tồn đạt độ xác tới 95% Để khắc phục nhược điểm độ đo nói trên, độ đo ROC AUC (Receiver operating characteristic Area Under the Curve) sử dụng Độ đo AUC đo diện tích đường hiệu dự đốn TPR-FPR ngưỡng xác định thay đổi, minh họa hình Hình Độ đo AUC Độ đo AUC sử dụng rộng rãi đánh giá hiệu toán phân lớp (classification) (Narkhede, 2018) Trong nghiên cứu này, sử dụng độ đo AUC cho tốn Mặc dù đạt nhiều kết đáng ý, hệ thống máy học có giám sát có nhược điểm lớn: chúng yêu cầu tập liệu có gán nhãn, thường với kích thước lớn, để phát huy hiệu Các tập liệu lớn thường khơng có sẵn (Thakkar Lohiva, 2020) Để tạo tập liệu cho việc huấn luyện thường yêu cầu nhiều thời gian, công sức tiền bạc (Elsayed et al., 2020) Ví dụ, tập liệu CICIDS 2012 có kích thước 84GB, rõ ràng để tạo tập liệu lớn yêu cầu cao chi phí Quan trọng hơn, coi thuật tốn học có giám sát phát triển hệ thống phát xâm nhập dựa luật: thay cần chun gia trích xuất luật từ liệu khứ, mô hình máy học đóng vai trị chuyên gia để học luật tương ứng Các mơ hình máy học học nhanh hiệu với khối lượng liệu lớn, không làm thay đổi chất vấn đề Khi kiểu thức cơng xuất hiện, mơ hình cần huấn luyện lại để nhận dạng công Mặt khác, tập liệu phát xâm nhập công bố (Verma Singh, 2020) xây dựng dựa mơi trường giả lập; phân bố tập liệu không đồng với phân bố công xảy thực tế 2.2 Kết nghiên cứu 2.2.1 Mơ hình học tăng cường Nhằm khắc phục vấn đề nêu hình thức học có giám sát, đề tài này, nghiên cứu sử dụng kỹ thuật học sâu tăng cường (deep reinforcement learning) cho toán phát xâm nhập Kỹ thuật học tăng cường có ưu điểm so với học có giám sát tự nâng cấp mơ hình dựa liệu mà khơng cần can thiệp người Hình Reinforcement Learning (học tăng cường) Tư tưởng thuật toán học tăng cường (Sutton Barto, 2018) thể hình Mơ hình học tăng cường (agent) tương tác với môi trường (action – tốn mơ hình có hành vi ngăn chặn cho gói tin qua) quan sát phần thưởng (trong trường hợp hậu việc cho gói tin qua) Sau mơ hình cập nhật lại chế làm việc gọi chiến lược hành động (policy) Một chiến lược hành động (policy) hiểu phân phối xác suất hành động trạng thái định Nói đơn giản, chiến lược hành động cho ta biết phải làm tình cụ thể Trong đề tài này, chúng tơi đánh giá mơ hình học tăng cường: Deep Q-network (Mnih et al., 2013), Double Deep Q-network (Van Hasselt et al., 2016), Policy Gradient (Baxter Bartlett, 2001) Actor Critic (Grondman et al 2016) Mơ hình Deep Q-network (DQN) tối ưu phần thưởng đạt cách xấp xỉ hàm Q Double Deep Q-network (DDQN) cải thiện mơ hình DQN cách sử dụng mơ hình mạng neuron để huấn luyện cho hàm Q hàm Q tương lai Trong mơ hình Policy Gradient (PG) xấp xỉ hàm chế mơ hình học tăng cường Mơ hình Actor Critic (AC) huấn luyện mơ hình đồng thời để xấp xỉ chế hàm Q lúdc 2.2.1.1 Mơ hình Deep Q-network (DQN) Hàm Q (Q-function) Qπ(s,a) định nghĩa kỳ vọng lợi ích (expected return) tổng lợi nhuận có tính tới lãi suất (discounted sum of rewards) agent bắt đầu trạng thái s, thực hành động a sau tuân theo chiến lược π Giá trị tối ưu hàm Q thỏa mãn phương trình Bellman: (1) Về mặt lý thuyết, tính trước khả s a, sau tìm phương án tối ưu Hiển nhiên, phương pháp không khả thi thực tế số lượng kết hợp tăng nhanh theo hàm số mũ Vì vậy, phương pháp DQN đời để xấp xỉ hàm số Q mơ hình, cụ thể mạng neuron với tham số ϴ Hàm mát (loss function) mạng neuron định nghĩa (2) Hàm mát tối ưu phương pháp quen thuộc gradient descent 10 2.2.1.2 Mô hình Double Deep Q-network (DDQN) Một vấn đề với Deep Q-network ước tính lạc quan (overestimation) Do vậy, ý tưởng Double Deep Q-network sử dụng mạng Q-network để cập nhật trạng thái lẫn Hình Giả mã mơ hình Double Deep Q-network Ý tưởng DDQN mô tả giả mã hình Trong mơ hình này, mạng neuron Q Q’ cập nhật đồng thời Mơ hình Q sử dụng để đánh giá hành động (action evaluation), mơ hình Q’ sử dụng để lựa chọn hành động (action selection) (3) Trong trình học, Q hội tụ Q* (là giá trị tối ưu) 2.2.1.3 Mơ hình Policy Gradient (PG) Khác với mơ hình trước, mơ hình Policy Gradient đánh giá trực tiếp chiến lược (policy) Gradient chiến lược (policy) tính bởi: (4) 2.2.1.4 Mơ hình Actor Critic (AC) Actor Critic mơ hình cải tiến Policy Gradient Chúng ta biết mơ hình PG, gradient chiến lược tính (5) Chúng ta viết lại cơng thức dạng: 11 (6) Chúng ta nhận biểu thức giá trị kỳ vọng nằm dấu ngoặc giá trị Q, nên ta viết lại cơng thức lần nữa: (7) Thuật toán Actor Critic gồm thành phần: - Thành phần Critic đánh giá hàm giá trị (Q-value) - Thành phần Actor cập nhật chiến lược Cả hai thành phần xấp xỉ mạng neuron tương ứng Giả mã chúng trình bày Hình Hình Giả mã thuật toán Actor Critic 2.2.2 Kết thực nghiệm Chúng sử dụng tập liệu DoHBRw (Montazeri Shatoori et al., 2020) để đánh giá kết mơ hình Tập liệu ghi nhận công vào hệ thống DNS thông qua giao thức HTTPS (DNS over HTTPS), Viện an ninh thông tin Canada (Canadian Institute for Cybersecurity) thu thập1 Tập liệu bao gồm khoảng 270,000 luồng liệu gửi tới hệ thống DNS thơng qua giao thức HTTPS, có khoảng 20,000 luồng liệu gắn nhãn nguy hiểm (malicious) Dữ liệu thu thập từ hệ thống thực tế (real-world systems), sau làm trích xuất đặc trưng (feature extraction) Chúng tơi chia tập liệu thành phần: tập huấn luyện, tập kiểm định tập kiểm thử (train/validation/test set) Để đảm bảo cơng bằng, tất mơ hình huấn luyện tập huấn luyện tập kiểm định, sau mơ hình đóng bang (freeze) sau đánh giá với tập kiểm thử https://www.unb.ca/cic/datasets/dohbrw-2020.html 12 Mơ hình chúng tơi xây dựng ngơn ngữ Python phiên 3.7 thực thi tảng Google Colab Chúng tơi hồn tồn sử dụng thư viện mã nguồn mở không sử dụng tảng có trả phí Chúng tơi kết hợp so sánh bốn thuật tốn học tang cường trình bày thuật toán xgboost (Chen, 2016) Thuật toán xgboost thuật tốn học có giám sát Thuật toán xgboost thường coi thuật toán mạnh cho toán phân lớp liệu dạng bảng (Dang, 2019) Thuật toán xgboost thuộc lớp thuật toán boosting Ý tưởng chủ đạo thuật toán xây dựng nhiều định (decision trees) nhau, mà sau dự đoán sửa lỗi kề trước Kết mơ hình học tăng cường thể bảng sau (Dang Vo, 2021): Bảng Kết đánh giá thử nghiệm mơ hình Các mơ hình máy học tăng cường đạt hiệu suất xấp xỉ mơ hình máy học đơn giản SVM hay Logistic Regression (Dang, 2019) chưa thể so sánh với mơ hình máy học kết hợp (ensemble learning) phức tạp Điều tương đối dễ lý giải mơ hình máy học kết hợp coi mơ hình máy học mạnh cho liệu dạng bảng (tabular data) Kết luận Như vậy, đề tài nghiên cứu này, chúng tơi xem xét bốn thuật tốn học tăng cường khác đánh giá khả dự đoán chúng sử dụng tập liệu công vào hệ thống DNS Chúng so sánh bốn thuật tốn với thuật tốn học có giám sát mạnh (xgboost) để có nhìn tổng thể khả dự đoán thuật toán tập thử nghiệm chưa quan sát (unseen testing set) Để tổng kết, thấy thuật tốn học tăng cường đạt kết tương đối ấn tượng, chưa thể so sánh với thuật toán học có giám sát tốt Một nhược điểm khác tương đối rõ ràng hệ thống học tăng cường chúng phải thực thi môi trường sandbox, cách xây dựng “hũ mật” (honeypot) để thu hút kẻ công Trong nghiên cứu tương lai, tập trung vào toán off-policy (Fujimot et al., 2019) để huấn luyện mơ hình học tăng cường mà khơng cần tương tác môi trường thực tế Tài liệu tham khảo: Allied Market Research (2021) Intrusion Detection and Prevention Systems Market 13 Baxter, J., & Bartlett, P L (2001) Infinite-horizon policy-gradient estimation Journal of Artificial Intelligence Research, 15, 319-350 Chen, T., & Guestrin, C (2016, August) Xgboost: A scalable tree boosting system In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp 785-794) Dang, Q V (2021) Improving the performance of the intrusion detection systems by the machine learning explainability International Journal of Web Information Systems Dang, Q V., & Vo, T H (2021, May) Studying the Reinforcement Learning techniques for the problem of intrusion detection In 2021 4th International Conference on Artificial Intelligence and Big Data (ICAIBD) (pp 87-91) IEEE Dang, Q V (2019, November) Studying machine learning techniques for intrusion detection systems In International Conference on Future Data and Security Engineering (pp 411-426) Springer, Cham Elsayed, M S., Le-Khac, N A., & Jurcut, A D (2020) InSDN: A novel SDN intrusion dataset IEEE Access, 8, 165263-165284 Fujimoto, S., Meger, D., & Precup, D (2019, May) Off-policy deep reinforcement learning without exploration In International Conference on Machine Learning (pp 2052-2062) PMLR Grondman, I., Busoniu, L., Lopes, G A., & Babuska, R (2012) A survey of actor-critic reinforcement learning: Standard and natural policy gradients IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 42(6), 1291-1307 Liao, Y., & Vemuri, V R (2002) Use of k-nearest neighbor classifier for intrusion detection Computers & security, 21(5), 439-448 Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M (2013) Playing atari with deep reinforcement learning arXiv preprint arXiv:1312.5602 Montazeri Shatoori, M., Davidson, L., Kaur, G., & Lashkari, A H (2020, August) Detection of doh tunnels using time-series classification of encrypted traffic In 2020 IEEE Intl Conf on Dependable, Autonomic and Secure Computing, Intl Conf on Pervasive Intelligence and Computing, Intl Conf on Cloud and Big Data Computing, Intl Conf on Cyber Science and Technology Congress (DASC/PiCom/CBDCom/CyberSciTech) (pp 6370) IEEE 14 Narkhede, S (2018) Understanding auc-roc curve Towards Data Science, 26, 220-227 Sutton, R S., & Barto, A G (2018) Reinforcement learning: An introduction MIT press Thakkar, A., & Lohiya, R (2020) A review of the advancement in intrusion detection datasets Procedia Computer Science, 167, 636-645 Van Hasselt, H., Guez, A., & Silver, D (2016, March) Deep reinforcement learning with double q-learning In Proceedings of the AAAI conference on artificial intelligence (Vol 30, No 1) Wang, Q., & Megalooikonomou, V (2005, March) A clustering algorithm for intrusion detection In Data Mining, Intrusion Detection, Information Assurance, and Data Networks Security 2005 (Vol 5812, pp 31-38) International Society for Optics and Photonics Zaman, M., & Lung, C H (2018, April) Evaluation of machine learning techniques for network intrusion detection In NOMS 2018-2018 IEEE/IFIP Network Operations and Management Symposium (pp 1-5) IEEE Verma, J., Bhandari, A., & Singh, G (2020) Review of existing data sets for network intrusion detection system Advances in Mathematics: Scientific Journal, 9(6), 3849-3854 15 PHẦN III PHỤ LỤC ĐÍNH KÈM (tất văn có sẵn, chủ nhiệm cần photo đính kèm sau nội dung trên, sử dụng lý hợp đồng với phịng kế tốn Khi lý, báo cáo in thành 03 cuốn, đó, 01 đóng bìa mạ vàng, 02 đóng bìa cứng thường) Hợp đồng thực đề tài nghiên cứu khoa học Thuyết minh đề tài phê duyệt Quyết định nghiệm thu Hồ sơ nghiệm thu (biên họp, phiếu đánh giá, bảng tổng hợp điểm, giải trình, phiếu phản biện) Sản phẩm nghiên cứu (bài báo, vẽ, mơ hình .) 16 ... nhập sử dụng liệu DoHBRw 2020 Nhóm nghiên cứu so sánh kỹ thuật học tăng cường với kết nghiên cứu Các kỹ thuật học tăng cường chưa thể đạt độ xác cao kỹ thuật học có giám sát có nhiều tiềm để phát... Đại học Công nghiệp TP.HCM hỗ trợ tơi q trình thực đề tài nghiên cứu PHẦN I THƠNG TIN CHUNG I Thơng tin tổng quát 1.1 Tên đề tài: Nghiên cứu kỹ thuật học tăng cường vào tốn phân tích cơng mạng máy. .. (rule-based matching) hay học tăng cường (supervised machine learning) Nhóm nghiên cứu nghiên cứu 04 kỹ thuật học tăng cường (reinforcement learning) ứng dụng so sánh 04 kỹ thuật để phát xâm nhập