1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu giải pháp phát hiện xâm nhập (IDS) dựa trên công nghệ học máy cho thiết bị iot gateway TT

24 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Lưu Bích Hạnh NGHIÊN CỨU GIẢI PHÁP PHÁT HIỆN XÂM NHẬP (IDS) DỰA TRÊN CÔNG NGHỆ HỌC MÁY CHO IoT GATEWAY Chuyên ngành: Kỹ thuật viễn thơng Mã số: 8.52.02.08 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - NĂM 2022 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS LÊ HẢI CHÂU Phản biện 1: PGS TS HOÀNG MẠNH THẮNG Phản biện 2: TS NGUYỄN NGỌC MINH Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 10 00 ngày tháng năm 2022 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 3 MỞ ĐẦU Hiện nay, IoT ngày bùng nổ coi xu hướng Bên cạnh tiện ích mà IoT mang lại IoT hàm chứa mối nguy hại Trong năm vừa qua, IoT dần trở thành mục tiêu hàng đầu giới hacker tồn giới Vì vậy, giải pháp ứng dụng an ninh bảo mật cho thiết bị IoT ngày quan tâm Các sản phẩm công nghệ IoT ngày đa dạng chất lượng bùng nổ số lượng nên hệ thống phát xâm nhập (IDS) giải pháp quan tâm hàng đầu nhằm bảo vệ linh hoạt, hiệu trước xâm nhập trái phép Internet nhắm tới thiết bị IoT Ở đây, phát hành vi truy nhập bất thường sử dụng kỹ thuật học máy Thực cách thiết lập mơ hình dựa vào thuật toán học máy, thuật toán thống kê mạng Nơ ron nhân tạo Do vậy, với mục tiêu nghiên cứu, tìm hiểu nắm bắt giải pháp phát xâm nhập hiệu cho thiết bị IoT gateway, nội dung luận văn tập trung nghiên cứu, xây dựng thử nghiệm giải pháp phát xâm nhập dựa công nghệ học máy cho thiết bị IoT gateway Luận văn trình bày theo 03 chương với nội dung sau: - Chương - Tổng quan IoT, IoT gateway kỹ thuật phát xâm nhập: Giới thiệu tổng quan công nghệ IoT, khái niệm, vai trị vị trí thiết bị IoT gateway, đồng thời trình bày kiến trúc, thành phần chức thành phần hệ thống IDS khả ứng dụng, triển khai hệ thống IDS IoT Gateway - Chương - Giải pháp phát xâm nhập ứng dụng học máy: Giới thiệu tổng quan giải pháp phát xâm nhập cho IoT gateway, đồng thời trình bày kỹ thuật học máy sử dụng phát xâm nhập, mô tả chi tiết tập liệu mẫu, phân tích lựa chọn thuật tốn học máy để hỗ trợ cho việc thực đánh giá hiệu ứng dụng thuật toán học máy phát xâm nhập cho IoT gateway - Chương – Thử nghiệm hệ thống IDS IoT gateway: Trình bày mơ hình phát xâm nhập IoT gateway, xây dựng kiến trúc hệ thống phát xâm nhập cho IoT gateway dựa học máy, đồng thời thiết lập thử nghiệm hệ thống IDS ứng dụng giải pháp mạng Nơ ron thuật tốn Random Forest từ đưa kết đánh giá thử nghiệm CHƯƠNG 1: TỔNG QUAN VỀ IoT, IoT GATEWAY VÀ KỸ THUẬT PHÁT HIỆN XÂM NHẬP 1.1 Giới thiệu chung 1.1.1 Công nghệ IoT IoT viết tắt cụm từ Internet of Things – Công nghệ Internet vạn vật, mang ý nghĩa kết nối thứ với Internet Có thể khái quát Internet of Things đề cập đến thiết bị vật lý tất nơi có khả kết nối với nhau, với Internet để biến thứ trở nên chủ động, thông minh Hiện bắt gặp IoT khắp nơi, ví dụ xe tự lái, nhà thông minh, thiết bị đeo theo dõi sức khỏe 1.1.2 Các thiết bị IoT gateway Thiết bị sử dụng để kết nối thiết bị khác với đám mây hay trung tâm liệu gọi IoT gateway IoT Gateway cung cấp chế bảo mật bổ sung cho mạng IoT liệu vận chuyển Vì gateway quản lý thông tin di chuyển theo hai chiều, bảo vệ liệu di chuyển lên đám mây khỏi bị đánh cắp hạn chế thiết bị IoT bị xâm phạm cơng bên ngồi 1.1.3 Các vấn đề an tồn thơng tin IoT Thiết bị IoT dễ bị cơng mạng, gặp phải cơng hình thành lỗ hổng tiếp xúc nhiều thiết bị, làm hệ sinh thái bị lộ Nhằm hỗ trợ an ninh mạng, thiết bị IoT thông qua IoT Gateway thêm lớp bảo vệ cho hệ sinh thái a Những rủi ro an ninh IoT - Chưa có giao thức chung - Vấn đề bảo mật thiết bị Gateway - Không liệu - Tấn công vật lý - Quyền riêng tư thông tin b Những mối đe dọa an tồn thơng tin - Các thiết bị bảo vệ mã hóa cứng mật yếu kết nối với Internet - Các thiết bị thông minh dễ gặp phải lỗ hổng bảo mật Zero-day, hội để hacker sinh sôi, nảy nở - Việc công khai CVE thiết bị IoT Router gây ảnh hưởng đến uy tín nhà cung cấp doanh nghiệp - Khi lập trình IoT Linux việc khơng biết thư viện tải dùng để code vấn đề nguy hiểm 1.2 Hệ thống phát xâm nhập (IDS) 1.2.1 Giới thiệu chung IDS (Intrusion Detection Systems - Hệ thống phát xâm nhập) hệ thống có nhiệm vụ theo dõi, giám sát phát hành vi đáng ngờ, điều giúp ngăn chặn xâm nhập trái phép vào hệ thống thơng tin Mục đích IDS tìm ngăn chặn cơng gây ảnh hưởng đến tính bảo mật, tồn vẹn thông tin hệ thống Hơn nữa, IDS cịn có khả phân biệt cơng từ bên ngồi với cơng nội Hệ thống IDS thu thập thông từ nguồn hệ thống an ninh sau phân tích nhằm phát xâm nhập trái phép 1.2.2 Kiến trúc IDS Hai hướng triển khai hệ thống IDS tập trung phân tán IDS tích hợp Firewall hướng tập trung nhiều hệ thống IDS mạng lớn kết nối với hướng phân tán Có loại hệ thống IDS sau: - HIDS (Host based IDS): Phát xâm nhập dựa vào việc sử dụng liệu kiểm tra từ máy trạm đơn - NIDS (Network based IDS): Phát xâm nhập dựa vào việc sử dụng liệu tồn lưu thơng mạng liệu kiểm tra nhiều máy trạm 1.2.3 Thành phần hệ thống phát xâm nhập IDS bao gồm thành phần sau: - Information collection (thành phần thu thập gói tin) - Detection (thành phần phân tích gói tin) - Response (thành phần phản hồi): gói tin phát công 1.2.4 Chức IDS Những chức IDS: - IDS có chức giám sát thành phần cần bảo vệ hệ thống trước hoạt động bất thường - IDS cần phân tích hành vi truy cập, hoạt động, kiện quan trọng liên quan đến thành phần giám sát dựa vào hành vi bất thường, tập luật, baseline - IDS mang đến cảnh báo hiểm họa an tồn thơng tin Thay dùng thiết lập mặc định cần nâng cao để chống lại kẻ xâm nhập - IDS phải thống kê trích xuất báo cáo Những chức IDS: - IDS cung cấp cách nhìn tổng thể lưu lượng mạng - IDS giúp nhận diện hoạt động thâm nhập hay công hệ thống - IDS hỗ trợ kiểm tra cố xảy hệ thống mạng - IDS sử dụng để thu gom chứng log, event, flow… cho trình điều tra đối đầu với cố bảo mật - IDS nhận diện nguy an tồn thơng tin xảy - IDS nhanh chóng phát điểm yếu hệ thống, lỗ hổng sách bảo mật 1.3 Phát xâm nhập hệ thống IoT 1.3.1 Kiến trúc chung Kiến trúc chung IoT chia thành năm lớp bao gồm ba miền, miền ứng dụng, miền mạng miền vật lý Do đó, IoT tùy chỉnh để phù hợp với nhu cầu môi trường thông minh khác Tầng nhận thức tầng phần cứng bao gồm cảm biến đối tượng vật lý dạng khác Tầng mạng tầng giúp truyền thông tin từ đối tượng vật lý cảm biến đến hệ thống xử lý qua đường dây an tồn hệ thống truyền thơng Tầng phần mềm trung gian chịu trách nhiệm quản lý dịch vụ thiết bị IoT để tạo kết nối thiết bị IoT cung cấp dịch vụ Hơn nữa, tầng phần mềm trung gian lưu trữ thông tin đến từ tầng mạng sở liệu để tạo điều kiện cho việc định sở hoạt động xử lý thông tin Tầng ứng dụng chịu trách nhiệm quản lý toàn cầu ứng dụng IoT Tầng ứng dụng phụ thuộc vào thông tin xử lý tầng phần mềm trung gian Tầng nghiệp vụ chịu trách nhiệm quản lý toàn cầu ứng dụng IoT quản lý dịch vụ thiết bị IoT 1.3.2 Môi trường thông minh Thuật ngữ thông minh dùng để khả thu nhận áp dụng kiến thức cách tự chủ, thuật ngữ môi trường dùng để môi trường xung quanh Môi trường thông minh cung cấp số tính định sử dụng để nâng cao chất lượng dịch vụ (QoS) ứng dụng người dùng Thông tin thời gian thực tính Việc tích hợp mơi trường thông minh IoT mang đến hội liên quan đến QoS dịch vụ ứng dụng Mục tiêu môi trường thông minh làm cho sống người thoải mái hiệu cách sử dụng cảm biến Bằng mạng IoT, cảm biến theo dõi điều khiển từ xa Mơ hình Internet of Things (IoT) gần phát triển thành công nghệ để xây dựng mơi trường thơng minh Do đó, việc bảo mật hệ thống IoT trở thành mối quan tâm Vấn đề bảo mật thơng tin quyền riêng tư coi vấn đề môi trường thông minh thời đại IoT Các lỗ hổng bảo mật hệ thống IoT tạo mối đe dọa bảo mật ảnh hưởng đến ứng dụng thông minh Hệ thống phát xâm nhập (IDS) chế bảo mật hoạt động chủ yếu lớp mạng hệ thống IoT IDS triển khai cho hệ thống IoT phân tích gói liệu tạo phản hồi thời gian thực, phân tích gói liệu lớp khác mạng IoT với ngăn xếp giao thức khác thích ứng với công nghệ khác môi trường IoT IDS thiết kế cho môi trường thông minh dựa IoT hoạt động điều kiện nghiêm ngặt khả xử lý thấp, phản hồi nhanh xử lý liệu khối lượng lớn 1.4Ứng dụng giải pháp phát xâm nhập IoT gateway 1.4.1 Các kỹ thuật phát xâm nhập Có kỹ thuật phát xâm nhập là: Hệ thống phát xâm nhập dựa dấu hiệu hệ thống phát xâm nhập dựa bất thường a Kỹ thuật phát xâm nhập dựa vào dấu hiệu Phát xâm nhập dựa dấu hiệu sử dụng sở liệu gồm: chữ kí, mơ hình mã độc xâm nhập biết để phát công tiếng IDS dựa dấu hiệu thiết kế nhằm phát công, xâm nhập độc hại dựa vào kiến thức trước b Kỹ thuật phát xâm nhập dựa vào bất thường Đối với kỹ thuật phát xâm nhập dựa vào bất thường, mẫu liệu tạo dựa liệu người dùng bình thường sau đem so sánh với mẫu liệu có để phát điều bất thường có Các hành động bất thường phát cho việc xác định công, đặc biệt với công chưa biết IDS dựa vào bất thường hoạt động cách tạo mơ hình hành vi bình thường mơi trường máy tính cập nhật liên tục dựa liệu người dùng bình thường, sau sử dụng mơ hình để phát sai sót so với hành vi bình thường 1.4.2 Ứng dụng IoT gateway Luận văn tập trung mô tả hướng tiếp cận hệ thống IDS là: Phân loại IDS dựa vị trí chiến lược phương thức phát a Vị trí chiến lược - Mơ hình tập trung: Vị trí IDS tập trung đặt thành phần tập trung sử dụng để phân tích gói tin qua định tuyến biên nằm miền vật lý miền mạng - Mơ hình phân tán: Vị trí IDS phân tán đặt đối tượng vật lý, đề xuất hai kỹ thuật chuyển dịch phụ trợ định sớm Mục đích IDS để giảm thiểu tài ngun tính tốn cần thiết sử dụng phát xâm nhập - Mơ hình lai: Vị trí IDS lai kết hợp khái niệm vị trí tập trung phân tán vào để tận dụng điểm mạnh tránh phần nhược điểm Cách tiếp cận cho vị trí kết hợp tổ chức mạng thành cụm vùng, nút cụm lưu trữ thể IDS b Phương thức phát - Dựa vào chữ ký: Trong cách tiếp cận dựa vào chữ ký IDS phát công dựa vào hành vi hệ thống mạng, khớp với chữ ký công lưu sở liệu IDS - IDS dựa bất thường: Hay gọi phát dựa kiện Kỹ thuật giúp xác định hoạt động độc hại cách phân tích kiện Đầu tiên cần xác định hành vi bình thường mạng, có hoạt động khác với hành vi bình thường dấu hiệu xâm nhập - Dựa vào thông số kỹ thuật: Kỹ thuật dựa vào thông số kỹ thuật giống với kỹ thuật phát bất thường Nhưng kỹ thuật này, hành vi bình thường mạng xác định tay cho tỷ lệ dương xác - Phương pháp lai: Phương pháp kết hợp khái niệm: phát dựa dấu hiệu, dựa đặc điểm kỹ thuật bất thường để tối ưu hóa ưu điểm giảm thiểu tác động nhược điểm 1.5Kết luận Chương Chương giới thiệu tổng quan công nghệ IoT, thiết bị IoT gateway vấn đề an tồn thơng tin IoT Đồng thời, nội dung chương tập trung trình bày yếu tố cản trở hiểm họa IoT khái niệm, kiến trúc chức thành phần hệ thống phát xâm nhập, kỹ thuật nhằm phát xâm nhập trái phép, đưa quy trình chung, thành phần, mơ hình giải pháp CHƯƠNG 2: GIẢI PHÁP PHÁT HIỆN XÂM NHẬP ỨNG DỤNG HỌC MÁY 2.1 Giới thiệu chung Dưới phát triển công nghệ học máy, giải pháp phát xâm nhập trọng nghiên cứu, phát triển ứng dụng vào thực tế nhằm đóng góp cải thiện tỷ lệ phát hiện, tính xác giảm tối đa số lượng cảnh báo nhầm Có thể thấy toán phân biệt hành vi truy nhập bình thường hay bất thường dùng đến tài ngun hệ thống tốn điển hình kỹ thuật học máy Dựa vào đặc điểm hành vi thu thập được, hệ thống học máy dựng lên mơ hình tự động phân loại kết xác 2.2 Một số kỹ thuật học máy sử dụng phát xâm nhập 2.2.1 K-Nearest Neighbors K-NN xem phương pháp để phân lớp đối tượng theo khoảng cách gần đối tượng cần xếp lớp (Query point) với tất đối tượng khác liệu đào tạo KNN sử dụng để áp dụng vào hai loại tốn học có giám sát, phân lớp, hồi quy Có thể thấy, kết dự đoán điểm liệu trực tiếp từ k điểm liệu gần tập liệu huấn luyện Mô tả thuật toán K-NN: - Xác định giá trị tham số K (số neighbors gần nhất) - Tính khoảng cách đối tượng cần phân lớp (Query Point) với tất đối tượng training data (thường sử dụng khoảng cách Euclidean) - Xếp thứ tự khoảng cách tăng dần xác định K láng giềng gần với Query Point - Lấy toàn lớp K láng giềng gần xác định - Việc xác định lớp cho Query Point phụ thuộc vào lớp láng giềng gần - Trong toán phân lớp, kết đầu lớp mà liệu thuộc phụ thuộc vào việc bình chọn k điểm gần Đồng thời, tốn hồi quy đầu điểm liệu trung bình đầu k điểm gần Những phương pháp đo khoảng cách điểm để tìm điểm gần phổ biến bao gồm khoảng cách Hamming, khoảng cách Manhattan, khoảng cách Minkowski 2.2.2 SVM SVM (Support Vector Machine) thuật sử dụng nhiều toán phân lớp Ý tưởng nằm việc tìm siêu mặt phẳng phân chia lớp tối ưu Cụm từ ‘support vector’ nhằm điểm nằm gần siêu mặt phẳng bị xóa khiến vị trí siêu mặt phẳng bị ảnh hưởng Đồng thời ta có giá trị biên (margin) khoảng cách support vector siêu mặt phẳng Siêu mặt phẳng nằm xa lớp chứng tỏ dự đoán xác Do tìm nhiều siêu mặt phẳng cho toán việc tìm kiếm siêu mặt phẳng để biên lớn mục tiêu SVM Thuật toán SVM thường cho kết xác 2.2.3 Naive Bayes Naive Bayes thuật toán phân lớp dựa vào định lý Bayes lý thuyết xác suất Đây thuật tốn sử dụng cho toán nhị phân phân lớp nhiều lớp Thuật toán Naive Bayes xử lý đặc trưng cách độc lập, tính xác suất đặc trưng trước đưa dự đoán dựa vào định lý Bayes Thuật tốn Naive Bayes có ưu điểm đơn giản dễ hiểu Thuật toán thích hợp với tập liệu có nhiều đặc trưng khác dự đoán cần phụ thuộc vào xác suất đặc trưng 2.2.4 J48 Decision Tree Thuật toán định J48 (J48 Decision Tree): Đây phân cấp có cấu trúc sử dụng để phân lớp đối tượng dựa vào dãy luật Nếu đưa liệu cho đối tượng bao gồm thuộc tính với lớp nó, lúc J48 Decision Tree sinh luật nhằm dự đoán lớp đối tượng chưa biết Điều mà thuật toán J48 Decision Tree muốn đạt kết xác với số lần lựa chọn Thuật tốn định J48 xử lý tốt tập liệu lớn có nhiều liệu nhiễu, theo dõi q trình lựa chọn cách tường minh, định trở thành thuật toán phổ biến 2.2.5 Random Forest Thuật tốn Random Forest thơng dụng dùng nhiều học máy Điểm đặc biệt Random Forest không cần xử lý liệu hay lập mô hình trước mang lại kết tương đối xác Thuật tốn xây dựng tính ngẫu nhiên tạo nhiều định Thuật toán Random Forest coi định giống cử tri bỏ phiếu độc lập Khi cuối bầu cử, câu trả lời nhận nhiều bình chọn từ định câu trả lời lựa chọn Random Forest có cách khác để chắn tất định không cho câu trả lời, chọn ngẫu nhiên quan sát 2.2.6 Mạng Nơ Ron a Khái niệm Mạng nơ ron nhân tạo (ANN) tạo nên từ số lượng lớn phần tử nơ ron liên kết với Tại đây, nơ ron tính tổng giá trị đầu vào với trọng số học được, sau chuyển kết cho hàm trả giá trị Chức logistic lựa chọn phổ biến cho chức kích hoạt Trong đó, bố cục nơ ron phụ thuộc vào kiến trúc mạng b Kiến trúc Các mạng nơ ron truyền thống chia thành ba loại kiến trúc mạng khác mạng cấp liệu lớp, mạng cấp liệu đa lớp mạng hồi quy ANN chuyển tiếp xây dựng dựa vào nhiều lớp tế bào nơ ron kết nối với lớp tế bào nơ ron sau, khơng có kết nối với lớp trước Đồng thời mạng chuyển tiếp nguồn cấp lớp có lớp đầu nút thực tồn tính tốn Đối với trường hợp mạng chuyển tiếp nguồn cấp đa lớp lớp nằm lớp đầu nguồn gọi lớp ẩn c Quá trình xử lý Kết đầu ANN giải pháp cho vấn đề cụ thể Trọng số liên kết thể độ cần thiết liệu đầu vào với tiến trình xử lý thông tin Việc thay đổi trọng số liệu đầu vào để có kết mong muốn q trình học ANN Mạng nơ ron nhân tạo huấn luyện theo hai kỹ thuật học có giám sát học khơng giám sát d Phương thức huấn luyện Mạng nơ ron có ba cách huấn luyện là: Huấn luyện theo gói, huấn luyện ngẫu nhiên huấn luyện trực tuyến Riêng huấn luyện trực tuyến trọng số mạng cập nhật sau mẫu đầu vào đưa vào mạng Còn huấn luyện ngẫu nhiên giống với huấn luyện trực tuyến việc chọn mẫu đầu vào để đưa vào mạng từ tập huấn luyện thực ngẫu nhiên Đối với huấn luyện theo gói tất mẫu đầu vào đưa vào mạng lúc, sau cập nhật trọng số mạng đồng thời Trong trình huấn luyện mạng, thuật ngữ “epoch” dùng để thể q trình 2.3 Thuật tốn học máy IoT gateway 2.3.1 Phân tích lựa chọn mạng Nơ ron Mạng Nơ ron mơ hình học máy phổ biến, nét đặc trưng mạng Nơ ron khả học Mạng Nơ ron gần mối quan hệ tương quan phức tạp yếu tố đầu vào đầu trình cần nghiên cứu, sau học việc kiểm tra độc lập thường cho kết tốt Đồng thời, học xong, mạng Nơ ron nhân tạo tính tốn kết đầu tương ứng với số liệu đầu vào Về mặt cấu trúc, mạng Nơ ron nhân tạo hệ thống gồm nhiều phần tử xử lý đơn giản hoạt động song song Tính ANN cho phép áp dụng để giải toán lớn Mạng Nơ ron sử dụng để giải nhiều toán thuộc nhiều lĩnh vực ngành khác Điển hình nhóm ứng dụng mà mạng Nơ ron áp dụng có hiệu toán phân lớp: Loại toán đòi hỏi giải vấn đề phân loại đối tượng quan sát thành nhóm dựa đặc điểm nhóm đối tượng Đây dạng toán sở nhiều toán thực tế: nhận dạng chữ viết, tiếng nói, phân loại gen, phân loại chất lượng sản phẩm,… Do luận văn triển khai thử nghiệm mạng Nơ ron liệu UNSW-NB15 2.3.2 Phân tích lựa chọn thuật toán Random Forest Khi so sánh với thuật tốn học có giám sát Boosting, Baging, Nearest neighbors, SVM, Mạng nơ ron, C45 Có thể thấy thuật tốn Random Forest (RF) cho độ xác phân lớp cao Random Forest phân loại hiệu cơng phân loại đồng hoạt động tốt so với phân loại truyền thống khác Vì Random Forest thành viên họ thuật toán Decision Tree nên tư tưởng RF tạo nhiều định từ dataset, định dự đoán kết kết nhiều định dự đốn trở thành kết cuối Một nhóm nghiên cứu khác kết thuật toán Random Forest hiệu SVM, Naive Bayes, Decision Tree liệu UNSW-NB15 với số vượt trội sau: Bảng 2.1: Kết thử nghiệm thuật toán Methods Accurac Sensitivit y y 97.49 93.53 SVM 92.28 Naive Bayes Decision Tree Random Specificity Training Prediction Time Time 97.75 5.69 0.08 92.13 91.15 38.91 0.20 74.19 92.16 67.82 2.25 0.18 95.82 92.52 97.10 4.80 0.13 Forest 2.4 Phân tích lựa chọn tập liệu mẫu UNSW-NB15 Luận văn ứng dụng tập liệu UNSW-NB15, tập liệu có kết hợp liệu mạng bình thường phương thức cơng đại Các gói tin mạng thơ liệu UNSW-NB15 xây dựng nhờ công cụ IXIA PerfectStorm Phịng thí nghiệm Cyber Range Trung tâm An ninh mạng (ACCS) - Australia để tạo thành hỗn hợp hoạt động bình thường thực tế tổng hợp hành vi công Với tổng số ghi liệu triệu, 540.044 ghi lưu trữ bốn tệp CSV Cụ thể UNSW-NB15_1.csv, UNSW-NB15_2.csv, UNSW- NB15_3.csv UNSW-NB15_4.csv Mọi tính mơ tả tập tin NUSWNB15_features.csv Ở tính có nhiều loại khác nhau: Integer, Float, Binary, Nominal Timestamp 2.5 Kết luận chương Nội dung Chương tập trung trình bày kỹ thuật học máy sử dụng hệ thống phát xâm nhập Đồng thời, Chương thơng tin, phân tích lựa chọn thuật toán học máy, tập liệu mẫu mô tả chi tiết để hỗ trợ cho việc thực thử nghiệm đánh giá hiệu ứng dụng thuật toán học máy phát xâm nhập IoT gateway CHƯƠNG 3: THỬ NGHIỆM HỆ THỐNG IDS TRÊN CÁC THIẾT BỊ IoT GATEWAY 3.1 Mô hình phát xâm nhập IoT gateway Mơ hình phát xâm nhập cho thiết bị IoT gateway dựa học máy phải thực phân tích chuyên sâu lưu lượng mạng, gồm số thành phần tiền xử lý liệu, xếp hạng, lựa chọn tính năng, phân lớp học máy nhận dạng công Bước 1: Tiền xử lý liệu Bước 2: Xếp hạng lựa chọn tính khắc phục liệu đầu vào để tránh chênh lệch dẫn tới sai lệch kết Bước 3: Áp dụng học máy phân loại liệu công hay liệu bình thường Bước 4: Xác định kiểu cơng dựa vào mạng Nơ ron Mơ hình để phân loại mẫu tập liệu UNSW-NB15 phát triển phương pháp sử dụng mạng nơ ron ngẫu nhiên chuyển tiếp nguồn cấp liệu Tại đây, hệ thống sử dụng thuật toán Random Forest để phân loại đâu liệu bình thường đâu liệu độc hại Và từ liệu công tiếp tục sử dụng để huấn luyện mạng nơ ron để phân loại thành loại công khác 3.2 Kiến trúc phát xâm nhập cho IoT gateway dựa học máy 3.2.1 Kiến trúc giải pháp IDS sử dụng mạng Nơ ron Hình 3.1: Kiến trúc tổng thể dùng mạng Nơ ron Các bước thực sau: - Bước 1: Dữ liệu gốc làm input đầu vào cho thuật tốn RF, chuẩn hóa liệu dạng [0, 1] - Bước 2: Phân chia liệu thành liệu thử nghiệm liệu huấn luyện - Bước 3: Mạng Nơ ron tiến hành đào tạo - Bước 4: Mạng Nơ ron phân loại liệu công thành 10 danh mục bao gồm: Normal, Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance, Shellcode, Worms - Bước 5: Cuối ma trận nhầm lẫn đánh giá khả phân loại mạng Nơ ron 3.2.2 Kiến trúc giải pháp IDS sử dụng Random Forest Hình 3.2: Kiến trúc tổng thể dùng Random Forest Phân tích bước thực hiện: - Bước 1: Dữ liệu huấn luyện input đầu vào cho thuật toán RF - Bước 2: Thuật toán RF phân loại liệu thành nhóm là: liệu bình thường liệu công - Bước 3: Dữ liệu thử nghiệm kết phân loại bước Ma trận nhầm lẫn đánh giá dự đoán thuật toán Random Forest - Bước 4: Tại bước RF sử dụng liệu công để làm liệu huấn luyện - Bước 5: RF tiếp tục phân loại liệu công thành 10 danh mục bao gồm: Normal, Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance, Shellcode Worms - Bước 6: Ma trận nhầm lẫn tiếp tục đánh giá khả phân loại RF bước dựa vào liệu thử nghiệm 3.3 Thiết lập thử nghiệm phát xâm nhập dựa thuật toán Random Forest mạng Nơ ron Quá trình thực sử dụng mạng Nơ ron sau: - Bước 1: Tiền xử lý liệu: Phân loại thuộc tính → DictVectorizer thuộc tính nominal → Gộp với thuộc tính cịn lại → Normalize tạo thành 294 tính - Bước 2: Thực chia liệu để đào tạo kiểm tra liệu - Bước 3: Tiếp tục huấn luyện mạng Nơ ron với liệu huấn luyện nhằm dự đoán, gán nhãn cho liệu liệu cơng hay liệu bình thường - Bước 4: Dự đốn danh mục cơng với liệu thử nghiệm - Bước 5: Áp dụng số liệu hiệu suất để đo lường mức độ hệ thống tổng quát hóa liệu Q trình thực sử dụng thuật toán Random Forest sau: - Bước 1: Tiền xử lý liệu: Phân loại thuộc tính → DictVectorizer thuộc tính nominal → Gộp với thuộc tính cịn lại → Normalize tạo thành 294 tính - Bước 2: Thực chia liệu để đào tạo kiểm tra liệu - Bước 3: Tiếp tục huấn luyện thuật toán Random Forest với liệu huấn luyện nhằm dự đoán, gán nhãn cho liệu liệu cơng hay liệu bình thường mà khơng cần kết hợp sử dụng tính - Bước 4: Sử dụng thuật toán Random Forest để tạo tính cho liệu thử nghiệm - Bước 5: Dự đốn danh mục cơng với liệu thử nghiệm (với tính tạo bước 4) - Bước 6: Tiếp theo áp dụng số liệu hiệu suất để đo lường mức độ hệ thống tổng quát hóa liệu Dữ liệu đọc từ tệp CSV với Pandas Số lượng lớn liệu mạng thách thức không nhỏ bước xử lý 3.3.1 Tiền xử lí liệu Tiền xử lý chia thành hai giai đoạn Trong giai đoạn mô tả bên (tệp pre_process.py) sau: - Đọc liệu - Chia liệu theo loại tính - Chuyển đổi liệu thành loại cho phù hợp • Thay NaN, xóa điểm liệu • Sau cắt liệu danh mục từ khoảng trắng thừa, đặt chữ thường, vector hóa - Bình thường hóa liệu [0, 1] - Lưu vào HDF5 3.3.2 Phân tách liệu Giai đoạn thứ hai (tệp create_data_sets.py) tiến hành phân tách liệu thành phần huấn luyện thử nghiệm Tổng số mẫu sử dụng: 2.539.739 mẫu Dữ liệu chia để có 70% cho huấn luyện (1.777.812 mẫu) 30% (761.927 mẫu) cho thử nghiệm với danh mục, danh mục cân Được mô tả sau: - Đọc liệu xử lý trước từ HDF5 - Chia liệu thành tập liệu thử nghiệm huấn luyện khơng chồng chéo - Tìm tính quan trọng cho hai mơ hình - Chọn tính quan trọng - Lưu tập liệu vào HDF5 Tiếp theo đến bước giảm tính Dữ liệu có điểm 294 tính sau vector hóa ExtraTreesClassifier sử dụng để chọn 10 tính quan trọng cho phân loại cơng hay bình thường (Random Forest) 25 tính quan trọng cho mạng Nơ ron Hình 3.7 3.8 minh họa cho tính có tầm quan trọng hai nhiệm vụ phân loại Chia loại liệu thành liệu huấn luyện thử nghiệm cho thuật toán Random Forest mạng Nơ ron (NN) Giá trị điểm liệu nhằm mục đích minh họa 3.4 Đánh giá kết thử nghiệm 3.4.1 Kết sử dụng mạng Nơ ron Hình 3.3: Kết phân loại công (mạng Nơ ron) Kết cho thấy mạng Nơ ron hoạt động ổn với liệu này, độ xác 0, 90 cho liệu công Các lớp công thể số hay Số điểm liệu bình thường điểm số phần lại số loại công khác Lớp dự đốn xác Precision 1.0 Recall 0,93 Điều cho thấy lớp (dữ liệu bình thường) có tính riêng biệt tập liệu 3.4.2 Kết dùng thuật toán Random Forest Hình 3.4: Kết phân loại cơng (Random Forest) Qua kết ta thấy Random Forest Classifier hoạt động tốt với liệu Điểm số cải thiện sau giảm tính phân loại Điểm Recall 0.93 cho lớp 1.00 cho lớp Đồng thời, Precision cho lớp 0,38 thấp lớp 1.00 - TP (True Positive): 96261 - FP (False Positive): 129 - TN (True Negative): 2027072 - FN (False Negative): 160384 Sau quy trình xử lý tập liệu mẫu để thực đánh giá hiệu sử dụng thuật toán học máy Random Forest thấy thuật tốn Random Forest hoạt động hiệu tốt phân loại công 3.5 Kết luận chương Chương trình bày ứng dụng triển khai giải pháp phát xâm nhập dựa mạng Nơ ron thuật toán Random Forest Trong chương nêu mơ hình phát xâm nhập IoT gateway, kiến trúc hệ thống phát xâm nhập, tiến hành thiết lập thử nghiệm đưa kết đánh giá cuối Các kết thử nghiệm cho thấy hệ thống IDS ứng dụng giải pháp mạng Nơ ron đạt độ xác 90% ứng dụng thuật tốn Random Forest có độ xác lên đến 93% KẾT LUẬN Hệ thống phát xâm nhập giải pháp quan tâm hàng đầu nhằm bảo vệ linh hoạt, hiệu trước xâm nhập trái phép Internet nhắm tới thiết bị IoT Mặc dù gặp nhiều thách thức nguy công bảo mật phức tạp khó đốn trước được, hệ thống phát xâm nhập ứng dụng kỹ thuật học máy cho thấy nhiều tiềm thu hút nhiều quan tâm, đầu tư nghiên cứu Trong tình hình đó, việc nghiên cứu, tìm hiểu nắm bắt giải pháp phát xâm nhập hiệu cho thiết bị IoT gateway dựa công nghệ học máy cấp thiết Trong khuôn khổ luận văn này, học viên tập trung nghiên cứu vấn đề an tồn thơng tin cho thiết bị IoT gateway kỹ thuật phát xâm nhập ứng dụng kỹ thuật học máy IoT, sở đó, xây dựng thử nghiệm giải pháp phát xâm nhập sử dụng công nghệ học máy kịch ứng dụng cho thiết bị IoT gateway Các nội dung đạt luận văn bao gồm: - Nghiên cứu tổng quan Internet of things, thiết bị IoT Gateway, kỹ thuật mà hệ thống IDS truyền thống sử dụng để phát xâm nhập lý thuyết thuật toán học máy ứng dụng phát xâm nhập: KNN, SVM, Naive Bayes, J48 Decision Tree Đặc biệt thuật toán Random Forest mạng Nơ ron - Nghiên cứu thuật toán học máy ứng dụng tiếp cận phát xâm nhập, đưa giải pháp phát xâm nhập ứng dụng cho IoT Gateway đề xuất mơ hình ứng dụng học máy phát xâm nhập Đồng thời nghiên cứu mơ hình, kiến trúc Random Forest mạng Nơ ron nhằm áp dụng vào hệ thống phát xâm nhập giúp cải thiện tỷ lệ phát xác giảm thiểu tỷ lệ cảnh báo nhầm hệ thống IDS thông thường - Ứng dụng triển khai thử nghiệm giải pháp phát xâm nhập sử dụng mạng Nơ ron thuật toán Random Forest tập liệu UNSW-NB15 Thông qua bước xây dựng mơ hình kiến trúc tổng thể thiết lập thử nghiệm cho thấy hệ thống IDS ứng dụng giải pháp mạng Nơ ron đạt độ xác tương đối khoảng 90% ứng dụng thuật toán Random Forest đạt độ xác lên đến 93% Tuy nhiên, thời gian nghiên cứu ngắn phạm vi lĩnh vực nghiên cứu rộng, nên luận văn nhiều vấn đề chưa đề cập chưa giải triệt để Trong thời gian tới, em tiếp tục nghiên cứu thử nghiệm kết hợp với giải pháp phù hợp vào hệ thống phát xâm nhập cố gắng đưa ứng dụng vào thực tiễn ... toán học máy phát xâm nhập IoT gateway CHƯƠNG 3: THỬ NGHIỆM HỆ THỐNG IDS TRÊN CÁC THIẾT BỊ IoT GATEWAY 3.1 Mơ hình phát xâm nhập IoT gateway Mơ hình phát xâm nhập cho thiết bị IoT gateway dựa học. .. nghiên cứu, tìm hiểu nắm bắt giải pháp phát xâm nhập hiệu cho thiết bị IoT gateway, nội dung luận văn tập trung nghiên cứu, xây dựng thử nghiệm giải pháp phát xâm nhập dựa công nghệ học máy cho thiết. .. ron - Nghiên cứu thuật toán học máy ứng dụng tiếp cận phát xâm nhập, đưa giải pháp phát xâm nhập ứng dụng cho IoT Gateway đề xuất mơ hình ứng dụng học máy phát xâm nhập Đồng thời nghiên cứu mơ

Ngày đăng: 12/08/2022, 15:01

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w