Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
358,72 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Trần Thị Thanh Thủy NGHIÊN CỨU HỆ THỐNG PHÁT HIỆN XÂM NHẬP (IDS) THÔNG MINH CHO IOT TẠI BIÊN MẠNG Chuyên ngành: Kỹ thuật Viễn thơng Mã số: 8.52.02.08 TĨM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ HÀ NỘI - 2023 MỞ ĐẦU IoT bắt đầu hình thành vào năm 1982 với ý tưởng thảo luận đưa việc tổ chức xây dựng mạng lưới thiết bị thông minh Đến ngày nay, IoT ngày bùng nổ coi xu hướng Hệ thống IoT thu thập liệu từ cảm biến sau đưa lên đám mây, nơi mà liệu xử lý tính tốn trung tâm liệu sau trả cho người dùng Tuy nhiên, với lượng liệu khổng lồ từ hàng tỷ thiết bị kết nối IoT vậy, việc truyền liệu lên tận cloud để xử lý trả lại kết gây chậm trễ bảo mật liệu vấn đề xem xét Để giải vấn đề này, điện toán biên (Edge Computing) đời nhằm tối ưu hoá hệ thống điện toán đám mây (Cloud computing) cách cho phép xử lý, tính tốn liệu vùng biên – nơi gần với nguồn phát sinh liệu nhận yêu cầu xử lý (các thiết bị IoT) Sự đời cơng nghệ điện tốn biên mang lại nhiều lợi ích chia sẻ tải, độ tin cậy, khả mở rộng tích hợp chặt chẽ IoT sở hạ tầng mạng đại Cùng với phát triển không ngừng công nghệ truyền thông, Internet vạn vật (IoT) triển khai rộng khắp giới thời gian qua đạt nhiều thành tựu to lớn, nhiên nhược điểm tương đối lớn IoT vấn đề an ninh, an tồn thơng tin Chính vậy, hệ thống phát xâm nhập IDS (Intrusion Detection System) cho IoT đời coi hàng rào công nghệ hệ thống an ninh mạng để phát hành vi xâm nhập Bên cạnh ngày nay, trí tuệ nhân tạo (AI) đóng vai trị quan trọng ứng dụng nhiều lĩnh vực có IoT sử dụng hệ thống IDS thơng minh Khi hệ thống phát xâm nhập thông minh cho IoT triển khai biên mạng đặt thách thức giải pháp thơng minh dựa trí tuệ nhân tạo hay máy học thường yêu cầu tập liệu lớn để đảm bảo độ xác Nhưng xử lý biên mạng, thiết bị xử lý lượng liệu nhỏ Do đề án này, định hướng nghiên cứu hệ thống phát xâm nhập IDS thông minh cho IoT biên mạng đáp ứng đồng thời hai tiêu chí: lượng liệu đào tạo tối thiểu đáp ứng ràng buộc tài nguyên biên mạng đảm bảo độ xác giảm thời gian phát công việc chống lại công tinh vi Nội dung đề án tốt nghiệp “Nghiên cứu hệ thống phát xâm nhập (IDS) thông minh cho IoT biên mạng” trình bày theo chương sau: Chương 1: Tổng quan IoT, điện toán biên kỹ thuật phát xâm nhập: Giới thiệu chung lịch sử phát triển ưu nhược điểm hệ thống IoT, tổng quan điện toán biên kỹ thuật phát xâm nhập Chương 2: Giải pháp phát xâm nhập thơng minh cho IoT biên mạng: Trình bày kỹ thuật, thuật toán hệ thống phát xâm nhập thông minh cho IoT biên mạng tập liệu IoT-23 sử dụng chương Chương 3: Đề xuất giải pháp IDS thông minh biên mạng: Đề xuất giải pháp phát xâm nhập cho IoT biên mạng, từ thử nghiệm thuật tốn đánh giá hiệu giải pháp đề xuất Các kết đề án nộp tạp chí Medel với tiêu đề “A study on heuristic algorithms combined with LR on a DNN-based IDS model to detect IoT attacks” CHƯƠNG – TỔNG QUAN VỀ IOT, ĐIỆN TOÁN BIÊN VÀ KỸ THUẬT PHÁT HIỆN XÂM NHẬP 1.1 Giới thiệu chung 1.1.1 Công nghệ IoT IoT (Internet of Things – Công nghệ Internet vạn vật) với nghĩa liên kết vật với Internet Trong vật cấp định danh khác có khả tự truyền thơng tin liệu mạng lưới không cần thiết qua giao tiếp máy tính với người hay người với người Internet of Things xu hướng công nghệ quan trọng, IoT đóng góp đáng kể vào phát triển kinh tế xã hội, giúp cải thiện chất lượng sống người đáp ứng nhu cầu xã hội ngày cao đạt nhiều thành tựu đáng kể Tuy nhiên, tồn số vấn đề cần giải để đảm bảo phát triển bền vững cơng nghệ đem lại lợi ích cho xã hội vấn đề an tồn thơng tin, bảo mật 1.1.2 Các vấn đề an tồn thơng tin IoT Với phát triển nhanh chóng IoT nay, hệ thống IoT dễ bị công Nếu gặp phải công làm xuất lỗ hổng tiếp xúc với nhiều thiết bị khiến hệ sinh thái hệ thống IoT bị ảnh hưởng Trong IoT có lỗ hổng an ninh sau: - Chưa có giao thức chung - Vấn đề bảo mật thiết bị Gateway - Không liệu - Tấn công vật lý - Quyền riêng tư thông tin Những lỗ hổng bảo mật khiến hacker xâm nhập vào thiết bị IoT: - Các thiết bị bảo vệ mã hóa cứng mật yếu kết nối với Internet - Các thiết bị thông minh dễ gặp phải lỗ hổng bảo mật Zero-day, hội để hacker sinh sôi, nảy nở - Việc công khai CVE thiết bị IoT Router gây ảnh hưởng đến uy tín nhà cung cấp doanh nghiệp - Khi lập trình IoT Linux việc thư viện tải dùng để code vấn đề nguy hiểm 1.2 Tổng quan mơ hình điện toán biên IoT Điện toán biên (Edge Computing) mơ hình điện tốn phân tán xử lý lưu trữ liệu thực gần với nguồn thu thập liệu Điện toán biên gắn liền với điện toán đám mây IoT Đây tầng trung gian phụ trách cung cấp xử lý lưu trữ liệu nhỏ Công cụ đáp ứng yêu cầu cần phản hồi nhanh từ IoT tiết kiệm băng thông mạng, độ trễ giảm tải cho trung tâm liệu truyền thống Trong mơ hình điện toán biên, thiết bị đầu cuối IoT sử dụng để thực tác vụ tính tốn xử lý liệu Các thiết bị bao gồm cảm biến, máy tính nhúng cổng kết nối, cho phép tác vụ tính tốn xử lý liệu thực gần trực tiếp thiết bị đầu cuối Các lợi ích điện toán biên bao gồm giảm thiểu độ trễ việc truyền liệu, tăng cường bảo mật, tăng hiệu suất hệ thống giảm thiểu chi phí vận hành Nó phương tiện để tăng cường khả độc lập thiết bị IoT Mô hình điện tốn biên xem bước tiến đáng kể việc phát triển IoT cho phép liệu xử lý gần với nguồn liệu, giảm thiểu lưu lượng liệu truyền tải mạng, cải thiện bảo mật quản lý thiết bị Nó giúp tăng tính sẵn sàng hệ thống IoT, cho phép thiết bị đầu cuối hoạt động độc lập mà không cần phụ thuộc vào đám mây trung tâm liệu trung tâm Tuy nhiên, mô hình điện tốn biên đặt số thách thức cho nhà phát triển IoT Trong đó, phải đảm bảo tính đồng thiết bị đầu cuối, khả quản lý giám sát thiết bị vấn đề quan trọng Ngồi ra, việc tăng cường bảo mật cho thiết bị đầu cuối mơ hình thách thức nhà phát triển 1.3 Hệ thống phát xâm nhập (IDS) 1.3.1 Giới thiệu chung Hệ thống phát xâm nhập (Intrusion Detection System - IDS) hệ thống có tác dụng giám sát, theo dõi để tìm hành vi đáng ngờ, việc giúp ngăn chặn hệ thống thông tin không bị xâm nhập trái phép; cịn hệ thống tự giám sát thời gian thực Mục đích IDS tìm ngăn chặn cơng gây ảnh hưởng đến tính bảo mật, tồn vẹn thông tin hệ thống Hơn nữa, IDS cịn có khả phân biệt cơng từ bên ngồi với cơng nội Hệ thống IDS thu thập thông từ nguồn hệ thống an ninh sau phân tích nhằm phát xâm nhập trái phép Các hệ thống IDS triển khai nhiều cấp độ khác nhau, từ máy tính đơn lẻ tồn mạng doanh nghiệp Có hai loại hệ thống IDS phổ biến hệ thống IDS dựa chữ ký (Signature-Based IDS) hệ thống IDS dựa hành vi (Behavior-Based IDS) Hệ thống IDS dựa chữ ký hoạt động cách so sánh mẫu công biết với liệu thu thập từ mạng để phát hành vi xâm nhập Trong đó, hệ thống IDS dựa hành vi phát hành vi khơng bình thường hệ thống để xác định xem có bị cơng hay không Việc triển khai hệ thống IDS phần quan trọng việc bảo vệ mạng thông tin doanh nghiệp Tuy nhiên, để hoạt động hiệu quả, hệ thống IDS cần cấu hình xác cập nhật thường xuyên với mẫu công 1.3.2 Kiến trúc chung chức IDS Kiến trúc chung IDS bao gồm thành phần chính: - Thành phần thu thập gói tin: bao gồm cảm biến - Thành phần phân tích phát gói tin: bao gồm mẫu để so sánh với thông tin thu thập - Thành phần phản hồi: phản ứng gói tin phát nguy cơCác phương pháp học tập phân loại thành học tập có giám sát, khơng giám sát, bán giám sát tăng cường, học sâu 1.3.3 Kỹ thuật phát xâm nhập dựa vào dấu hiệu Kỹ thuật phát xâm nhập dựa vào dấu hiệu so sánh tình thực tế với dấu hiệu công (signatures) biết (signatures lưu trữ sở liệu IDS) để phát cơng Do đó, độ xác hệ thống tương đối cao, giảm tối thiểu số lượng báo động giả, phát hành vi công phức tạp Tuy nhiên, nhược điểm phổ biến IDS dựa dấu hiệu là: q tải gói mạng, chi phí khớp chữ ký cao số lượng báo động sai lớn Bên cạnh đó, việc bị hạn chế nhớ nghiêm trọng vài mạng mạng cảm biến khơng dây (WSN), dẫn đến hiệu suất thấp IDS (dựa nhu cầu cần lưu trữ sở liệu lớn chữ ký công) Đồng thời, cần phải cập nhật liên tục IDS phù hợp với mẫu, sở liệu chữ ký mẫu IDS dựa vào chữ ký IDS dựa dấu hiệu thiết kế nhằm phát công, xâm nhập độc hại dựa vào kiến thức trước 1.3.4 Kỹ thuật phát xâm nhập dựa vào bất thường Đối với kỹ thuật phát xâm nhập dựa vào bất thường, mẫu liệu tạo dựa liệu người dùng bình thường sau đem so sánh với mẫu liệu có để phát điều bất thường có Các hành động bất thường phát cho việc xác định công, đặc biệt với công chưa biết IDS dựa vào bất thường hoạt động cách tạo mơ hình hành vi bình thường mơi trường máy tính cập nhật liên tục dựa liệu người dùng bình thường, sau sử dụng mơ hình để phát sai sót so với hành vi bình thường Phát xâm nhập dựa vào bất thường phân tích dựa thuật tốn thơng minh hoạt động tùy vào môi trường, hỗ trợ phát biến cố bất thường Đồng thời, dựa vào hoạt động thường nhật hệ thống để tự động phát điều bất thường dị tìm xem thuộc vào dạng công Các kỹ thuật phát xâm nhập dựa vào bất thường bao gồm: phát bất thường dựa học máy, phát bất thường dựa dấu vết… 1.4 Hệ thống phát xâm nhập (IDS) cho IoT biên mạng 1.4.1 Giới thiệu chung Vấn đề bảo mật thông tin quyền riêng tư coi vấn đề môi trường thông minh thời đại IoT Các lỗ hổng bảo mật hệ thống IoT tạo mối đe dọa bảo mật ảnh hưởng đến ứng dụng thơng minh Do đó, cần hệ thống phát xâm nhập (IDS) thiết kế cho môi trường IoT để giảm thiểu công khai thác lỗ hổng bảo mật liên quan Tuy nhiên, khả tính tốn lưu trữ hạn chế thiết bị IoT giao thức cụ thể sử dụng, IDS thơng thường lựa chọn cho môi trường IoT Hệ thống phát xâm nhập (IDS) chế bảo mật hoạt động chủ yếu lớp mạng hệ thống IoT Phần trình bày khảo sát toàn diện IDS thiết kế cho mơ hình IoT, với trọng tâm phương pháp, đặc trưng chế tương ứng Mặc dù nghiên cứu trước thiết kế triển khai IDS cho mơ hình IoT, phát triển IDS hiệu quả, đáng tin cậy cho môi trường thông minh dựa IoT nhiệm vụ quan trọng 1.4.2 Kỹ thuật phát xâm nhập cho IoT Vì thách thức bảo mật mà hệ thống IoT phải đối mặt, phương pháp chủ động xác định công lựa chọn phù hợp để bảo vệ mạng IoT Vì cần phải có hệ thống IDS phù hợp, phát công IoT IDS thiết kế cho hệ thống IoT tập trung vào loại kỹ thuật đặc trưng hệ thống liên quan đến khả phù hợp hệ thống IDS môi trường thơng minh dựa IoT: - Vị trí chiến lược IDS - Phương pháp phát - Mối đe dọa an ninh - Chiến lược xác thực Trong khuôn khổ đề án, hai hướng tiếp cận hệ thống IDS bao gồm: phân loại IDS dựa vị trí chiến lược phương thức phát tập trung 1.4.3 Ứng dụng giải pháp phát xâm nhập cho IoT biên mạng Việc triển khai giải pháp phát xâm nhập cho IoT biên mạng quan trọng để bảo vệ hệ thống IoT khỏi công Các giải pháp phát xâm nhập triển khai theo nhiều cách khác nhau, tùy thuộc vào yêu cầu đặc trưng hệ thống IoT cụ thể Một số ứng dụng giải pháp phát xâm nhập cho IoT biên mạng: - Sử dụng giải pháp phát xâm nhập dựa học máy - Sử dụng giải pháp phát xâm nhập dựa quy tắc - Sử dụng giải pháp phát xâm nhập dựa phân tích lưu lượng mạng - Sử dụng giải pháp phát xâm nhập dựa kỹ thuật học sâu 1.5 Kết luận chương Chương đề án giới thiệu chung hệ thống IoT lịch sử hình thành, thành tựu đạt năm qua số thách thức hệ thống IoT Bên cạnh chương trình bày khái qt điện tốn biên, cơng nghệ sử dụng IoT, nhằm khắc phục số nhược điểm hệ thống IoT Hơn nữa, mơ hình kỹ thuật phát xâm nhập nói chung cho IoT biên mạng nói riêng trình bày để khắc phục nhược điểm tương đối lớn hệ thống IoT vấn đề bảo mật 2.3.5 Thuật toán heuristic Thuật toán heuristic phương pháp giải vấn đề dựa kinh nghiệm đánh giá thông qua quy tắc thực tế quy tắc xấp xỉ Thay tìm kiếm giải pháp tối ưu hồn hảo, thuật tốn heuristic cố gắng tìm giải pháp đủ tốt cho vấn đề đặt thời gian hợp lý Trong đề án này, thuật tốn heuristic khơng phải phương pháp sử dụng để xây dựng mơ hình phân loại Thay vào đó, thuật tốn heuristic sử dụng để tối ưu hóa thơng số, đặc trưng thiết lập mơ hình phân loại Một số thuật tốn heuristic điển hình sử dụng đề án thuật toán di truyền (Genetic Algorithm-GA), thuật toán tối ưu hóa bầy đàn (Particle Swarm Optimization-PSO), thuật tốn tìm cuckoo (Cuckoo Search Optimization-CSO), thuật tốn đom đóm (Firefly Algorithm-FA) Thuật toán di truyền (Genetic Algorithm - GA) thuật tốn tìm kiếm tối ưu dựa chế di truyền di truyền chọn lọc tự nhiên Nó lấy cảm hứng từ chế tiến hóa tự nhiên áp dụng nhiều lĩnh vực khác để giải toán tối ưu hóa Thuật tốn tối ưu hóa bầy đàn (Particle Swarm Optimization - PSO) thuật tốn tìm kiếm tối ưu dựa hành vi đàn đối tượng Nó lấy cảm hứng từ cách mà bầy đàn tụ tập đối tượng tự nhiên tương tác tìm kiếm vị trí tối ưu Thuật toán PSO bao gồm tập hợp "hạt" (particles), hạt biểu diễn giải pháp khơng gian tìm kiếm Thuật tốn tìm kiếm cuckoo (Cuckoo Search Optimization - CSO) thuật toán tối ưu hóa dựa hành vi sinh sản chim kêu Thuật tốn đom đóm (Firefly Algorithm - FA) thuật tốn tối ưu hóa dựa hành vi ánh sáng giao tiếp đom đóm tự nhiên Thuật toán lấy cảm hứng từ việc đom đóm sử dụng ánh sáng để thu hút tìm kiếm đối tượng khác mơi trường chúng Nhìn chung thuật tốn heuristic có số ưu điểm đơn giản dễ triển khai: thuật tốn heuristic có cấu trúc đơn giản dễ triển khai tốn tối ưu hóa Thuật tốn heuristic có khả tìm kiếm tối ưu khơng gian tìm kiếm liên tục, chúng hiệu khơng gian tìm kiếm liên tục Các thuật tốn heuristic có khả tìm kiếm tồn cục, giúp đạt giải pháp tối ưu toán Tuy nhiên, thuật tốn heuristic có số hạn chế địi hỏi tham số đầu vào kích thước quần thể, số lần lặp hệ số điều chỉnh phù hợp để đạt hiệu suất tối ưu Thêm vào đó, số trường hợp, thuật tốn heuristic rơi vào cực tiểu cục không đạt giải pháp tối ưu toán 2.3.6 Mạng Nơ-Ron sâu (DNN) Mạng DNN dạng mở rộng mạng nơ-ron tiêu chuẩn, có thêm nhiều lớp ẩn số lượng nút nơ-ron lớn Các lớp ẩn giúp mạng DNN trở nên mạnh mẽ việc học mơ hình hóa liệu phức tạp phi tuyến Mỗi lớp ẩn mạng DNN thiết kế để học đặc trưng cấp cao trừu tượng từ liệu đầu vào Mỗi lớp kết nối với lớp liền trước liền sau thông qua trọng số (weights) hệ số điều chỉnh (biases) Quá trình xử lý DNN bao gồm bước sau: - Đầu vào (input) - Trọng số ngưỡng (Weights biases): Mỗi nơ-ron mạng DNN có tập trọng số ngưỡng Các trọng số đại diện cho liên kết nơ-ron lớp liền trước sau Các giá trị trọng số ban đầu thường khởi tạo ngẫu nhiên sau điều chỉnh trình huấn luyện - Lan truyền tiến (Forward propagation): Quá trình xảy từ đầu vào đến đầu mạng DNN Tại lớp, đầu vào nhân với ma trận trọng số sau áp dụng hàm kích hoạt để tính tốn giá trị đầu lớp Q trình thực qua lớp ẩn lớp cuối - Tính sai số (Loss computation): Sau có đầu từ mạng DNN, hàm mát (loss function) sử dụng để tính tốn sai số đầu dự đoán giá trị đầu thực tế - Lan truyền ngược (Backpropagation): Quá trình giúp cập nhật trọng số mạng DNN để giảm thiểu sai số Từ giá trị mát, đạo hàm riêng hàm mát tính tốn sau lan truyền ngược qua mạng để cập nhật trọng số Thuật toán lan truyền ngược sử dụng phương pháp gradient descent để điều chỉnh trọng số - Huấn luyện (Training): Quá trình huấn luyện trình lặp lại lan truyền tiến, tính tốn mát, lan truyền ngược cập nhật trọng số Mục tiêu trình điều chỉnh trọng số cho mát giảm thiểu mơ hình có khả dự đốn xác - Đánh giá dự đốn (Evaluation and Prediction): Sau q trình huấn luyện, mạng DNN 2.4 Tập liệu IoT-23 sử dụng mơ hình phát xâm nhập IoT-23 liệu lưu lượng mạng từ thiết bị IoT Bộ liệu IoT-23 bao gồm hai mươi ba lần chụp (được gọi kịch bản) lưu lượng mạng IoT khác Các kịch chia thành hai mươi lần chụp mạng (tệp PCAP) từ thiết bị IoT bị nhiễm mã độc ba lần chụp mạng lưu lượng mạng IoT thực Trên kịch độc hại thực mẫu phần mềm độc hại cụ thể Raspberry Pi, sử dụng số giao thức thực hành động khác Bảng 2.1 cung cấp thơng tin tóm tắt kịch IoT độc hại lành tính Trong 20 dịng đầu đặc điểm kịch botnet IoT, dòng cuối lưu lượng truy cập mạng ghi lại kịch lành Bảng 2.1 Tóm tắt kịch IoT độc hại lành tính ST Tên tập liệu Khoảng Kích Gói tin ZeekFlows 233000 82000000 1309000 18000000 64000000 50000 50000 24000 271000000 109000000 13000000 54000000 23000 46000000 13000000 73000000 23146 67321810 238 5410562 19781379 3210 3287 4427 3581029 54659864 13645107 54454592 10404 10447796 3394347 73568982 thước 121 MB MB 1,7 MB 1,3 MB 4,6 MB 3,9 MB 3,9 MB 2,8 MB 21 MB 7,8 MB 992 MB 3,9 MB 2,1 MB 3,6 MB 1,2 MB 5,3 MB T 10 11 12 13 14 15 16 CTU-IoT_Malware-Capture-34-1 CTU-IoT_Malware-Capture-43-1 CTU-IoT_Malware-Capture-44-1 CTU-IoT_Malware-Capture-49-1 CTU-IoT_Malware-Capture-52-1 CTU-IoT_Malware-Capture-20-1 CTU-IoT_Malware-Capture-21-1 CTU-IoT_Malware-Capture-42-1 CTU-IoT_Malware-Capture-60-1 CTU-IoT_Malware-Capture-17-1 CTU-IoT_Malware-Capture-36-1 CTU-IoT_Malware-Capture-33-1 CTU-IoT_Malware-Capture-8-1 CTU-IoT_Malware-Capture-35-1 CTU-IoT_Malware-Capture-48-1 CTU-IoT_Malware-Capture-39-1 thời gian 24 24 24 24 24 24 24 24 24 24 24 17 CTU-IoT_Malware-Capture-7-1 24 11000000 11454723 897 MB 18 CTU-IoT_Malware-Capture-9-1 24 6437000 6378091 472 MB 19 CTU-IoT_Malware-Capture-3-1 36 496000 156104 56 MB 20 CTU-IoT_Malware-Capture-1-1 112 1686000 1008749 140 MB 21 CTU-Honeypot-Capture-7-1 1,4 8276 139 2094 KB 22 CTU-Honeypot-Capture-4-1 24 21000 461 4594 KB 23 CTU-Honeypot-Capture-5-1 5,4 389000 1383 381 KB Thiết bị Mirai Mirai Mirai Mirai Mirai Torii Torii Trojan Gagfyt Kenjiro Okiru Kenjiro Hakai Mirai Mirai IRCBot Linux, Mirai Linux, Hajime Muhstik Hide and Seek Somfy Door Lock Phillips HUE Amazon Echo 2.5 Kết luận chương Trong chương đề án tập trung trình bày kỹ thuật thơng minh có mơ tả chi tiết thuật tốn thơng minh sử dụng để phát xâm nhập cho IoT biên SVM, định J48, Random Forest, hồi quy tuyến tính, heuristic DNN; từ ưu nhược điểm thuật tốn sử dụng hệ thống IoT biên chọn DNN thuật toán với nhiều ưu điểm vượt trội Bên cạnh đó, chương tập liệu IoT-23 giới thiệu CHƯƠNG – ĐỀ XUẤT GIẢI PHÁP IDS THÔNG MINH TẠI BIÊN MẠNG 3.1 Đề xuất xây dựng mơ hình hệ thống phát xâm nhập cho IoT biên mạng Các thành phần mơ hình đề xuất bao gồm phương pháp K-means, thuật toán hồi quy Logistic (LR), thuật toán heuristic DNN, minh họa Hình 3.1 Trong giai đoạn chuẩn bị liệu hay tiền xử lý liệu, liệu đầu vào (IoT-23) loại cơng chia thành cơng có lưu lượng truy cập cao cơng có lưu lượng truy cập thấp Việc phân chia tập liệu giúp giảm độ phức tạp tính tốn kích thước vùng liệu Tập liệu chia theo tỷ lệ 80/20 thành liệu huấn luyện, thử nghiệm cơng có lưu lượng truy cập thấp Hình 3.1 Mơ hình hệ thống 3.1.1 Tiền xử lý liệu Khi tiến hành xử lý liệu, số điểm liệu bị thiếu xử lý cách lấy giá trị trung bình loại cơng liên quan đến đặc trưng Do đó, giá trị trung bình tương ứng với 16 loại liệu sử dụng để điền vào giá trị cịn thiếu cột đặc trưng Một số đặc trưng loại bỏ chúng nhiều ý nghĩa việc phân loại cơng Trong tập liệu gốc có nhiều kiểu liệu, tiền xử lý liệu sử dụng mã hóa (encoding) nhằm chuyển đổi biến có dạng chuỗi, văn bản, danh sách thành giá trị số hóa mà thuật tốn học máy hiểu xử lý Việc mã hóa liệu bước quan trọng để chuẩn bị liệu trước áp dụng thuật toán học máy, tạo điều kiện phân loại tệp liệu Trong đề án này, tập liệu sử dụng trích xuất loại công từ tập liệu IoT-23 gốc mô tả bảng 3.1 Tập liệu sử dụng trích xuất loại cơng lưu lượng cao phổ biến loại công lưu lượng thấp bao gồm Okiru, PartOfAHorizontalPortScan, C&C PartOfAHorizontalPortScan C&C- Heart Beat Attack Các loại công gán nhãn từ đến để kiểm thử với mơ hình đề xuất Bảng 3.1 Tập liệu sử dụng mô hình đề xuất trích xuất tập liệu IoT-23 Number Type Samples Okiru 100000 PartOfAHorizontalPortScan 100000 C&C PartOfAHorizontalPortScan 888 C&C HeartBeat Attack 834 Sum 201722 3.1.2 Phân cụm liệu Trong sơ đồ hình 3.1, phân cụm tập liệu công lưu lượng cao áp dụng sau tiền xử lý liệu Đối với công có lưu lượng truy cập cao, điều cần thiết tìm điểm liệu quan trọng có ảnh hưởng nhiều đến mơ hình thay xử lý tồn tập liệu Do đó, việc phân cụm tập liệu có lưu lượng truy cập cao giảm kích thước tập liệu chọn điểm liệu quan trọng Trong đề án này, sử dụng phương pháp K-means cho cơng có lưu lượng truy cập cao Thuật toán ban đầu chọn K tâm cụm ngẫu nhiên Sau đó, tính tốn điểm liệu cho trung tâm cụm ban đầu điểm liệu gần trung tâm cụm thuộc cụm Trung tâm cụm tính tốn lại với giá trị trung bình điểm liệu Thuật tốn dừng lại khơng thể cải thiện 3.1.3 Trích chọn đặc trưng Trong tập liệu IoT-23, số lượng đặc trưng 33 sau tiền xử lý liệu Hơn nữa, thực tế tập liệu IoT-23 chứa công lưu lượng nhỏ lớn nên dẫn đến cân liệu, khiến cho mạng nơ-ron gặp thách thức cho việc phát loại cơng Do đề án này, sử dụng số thuật toán heuristic kết hợp với thuật toán LR để chọn đặc trưng nhỏ mang nhiều thông tin giảm chiều liệu để nâng cao độ xác phát cơng tập liệu IoT-23 Thêm vào đó, giải vấn đề cân liệu cách sử dụng phương pháp class weight LR Thuật tốn LR-GA Thuật tốn LR-GA có bước thuật tốn Thuật tốn Tối ưu tham số GA thuật toán LR 1: Khởi tạo tập tham số ban đầu 2: Khởi tạo cá thể cho quần thể ban đầu 3: Tính tốn hàm fitness dựa thuật tốn LR 4: Chọn cá thể có hiệu cao 5: Áp dụng phép đột biến cho số giải pháp hệ để tạo đa dạng tập hợp giải pháp 6: Đánh giá chất lượng giải pháp hệ 7: Lựa chọn giải pháp tốt để trở thành tập hợp giải pháp cho hệ 8: Lặp lại từ bước đến bước đạt giải pháp tốt đủ số hệ 9: Kết thúc thuật toán Thuật toán LR-PSO Thuật toán LR-PSO thuật toán kết hợp thuật tốn LR với PSO, thuật tốn LR-PSO có bước thuật tốn Thuật tốn Tối ưu tham số PSO thuật toán LR 1: Khởi tạo tập tham số ban đầu 2: Khởi tạo cá thể cho quần thể ban đầu 3: Tính tốn hàm fitness dựa thuật tốn LR lựa chọn vị trí tốt cá thể làm quần thể 4: Cập nhật vị trí hạt cách tính tốn vector tốc độ cộng vào vị trí hạt Vector tốc độ tính tốn cách kết hợp hai thành phần: (a) thành phần tự do, hạt hướng dẫn vị trí tốt mà tìm thấy (b) thành phần xã hội, hạt hướng dẫn vị trí tốt mà hạt khác tập hợp tìm thấy 5: Đánh giá chất lượng hạt sau cập nhật vị trí 6: Cập nhật vị trí tốt mà tập hợp hạt tìm thấy 7: Lặp lại từ bước đến bước đạt giải pháp tốt đủ số lần lặp 8: Kết thúc thuật toán Thuật toán LR-CSO Thuật toán Logistic Regression kết hợp với thuật tốn Cuckoo Search mơ tả chi tiết thuật toán Thuật toán Tối ưu tham số CSO thuật toán LR 1: Khởi tạo quần thể cuckoo bao gồm giá trị ngẫu nhiên cho tham số mô hình LR 2: Đánh giá hiệu suất cuckoo quần áo cách sử dụng mơ hình LR để dự đoán so sánh với giá trị thực tế 3: Sử dụng chiến lược sinh sản cuckoo để tạo hệ quần thể, cách kết hợp giá trị cuckoo có hiệu tốt 4: Lặp lại bước bước đạt tiêu chuẩn dừng chuẩn 5: Kết thúc thuật toán Thuật toán LR-FA Thuật toán Firefly kết hợp với thuật toán Logistic Regression triển khai thuật toán Thuật toán Tối ưu tham số FA thuật toán LR 1: Khởi tạo số lượng lớn đom đóm ban đầu Thiết lập tham số, bao gồm: số lượng đom đóm, tham số alpha (số học tương tự với hệ số học thuật tốn logistic regression), khoảng cách r 2: Tìm kiếm di chuyển: Tính tốn giá trị hàm mục tiêu (thường hàm chi phí) cho đom đóm dựa tham số mơ hình LR 3: Đánh giá chọn lọc: Đánh giá hiệu suất mô hình LR với tham số tìm kiếm Lựa chọn firefly tốt dựa giá trị hàm mục tiêu chúng 4: Cập nhật mơ hình: Sử dụng tham số firefly tốt để cập nhật mơ hình LR 5: Lặp lại bước từ đến đáp ứng u cầu hiệu suất mơ hình