Nghiên cứu xây dựng hệ thống IDS để chống lại xâm nhập có sử dụng thuật toán Descion Tree Nghiên cứu xây dựng hệ thống IDS để chống lại xâm nhập có sử dụng thuật toán Descion TreeNghiên cứu xây dựng hệ thống IDS để chống lại xâm nhập có sử dụng thuật toán Descion TreeNghiên cứu xây dựng hệ thống IDS để chống lại xâm nhập có sử dụng thuật toán Descion Tree
GIỚI THIỆU CHUNG VỀ MẠNG CẢM BIẾN VÀ IDS
Mạng cảm biến trên thế giới
Mạng cảm biến đã trở thành biểu tượng toàn cầu, thể hiện sự tiến bộ trong cuộc cách mạng kỹ thuật số Sự phát triển đáng kể của mạng cảm biến đã được ứng dụng rộng rãi trong nhiều lĩnh vực quan trọng Việc sử dụng thiết bị cảm biến không dây đã làm sáng tỏ những góc tối của thế giới, mang lại nhiều lợi ích to lớn.
Tại các thị trường lớn, mạng cảm biến đóng vai trò quan trọng trong việc giám sát chất lượng không khí, giao thông và nguồn nước Các cảm biến này đo lường nồng độ khí thải, lưu lượng xe cộ và tình trạng nguồn nước, cung cấp thông tin thiết yếu cho các cơ quan quản lý và cộng đồng Điều này giúp đảm bảo một môi trường sống khỏe mạnh và bền vững.
Mạng cảm biến trong nông nghiệp đã cải thiện năng suất và hiệu quả quản lý cây trồng và động vật Các cảm biến đo độ ẩm, nhiệt độ và chất lượng đất giúp nông dân tối ưu hóa hoạt động, từ đó nâng cao độ tin cậy của nguồn lương thực.
Mạng cảm biến có vai trò quan trọng trong cả lĩnh vực y tế và quân sự Tại các bệnh viện, thiết bị cảm biến theo dõi sức khỏe bệnh nhân, cải thiện chất lượng dịch vụ chăm sóc Trong lĩnh vực quân sự, mạng lưới cảm biến hỗ trợ giám sát biên giới và hoạt động quân sự, cung cấp thông tin thiết yếu cho việc bảo vệ an ninh quốc gia.
Đặt vấn đề và thực trạng về an ninh mạng
Mạng cảm biến không dây mang lại nhiều lợi ích cho xã hội và công nghiệp, nhưng cũng đối mặt với các mối đe dọa an ninh mạng ngày càng nghiêm trọng Trong kỷ nguyên số, những mạng này dễ bị tấn công và xâm nhập, gây nguy hiểm cho tính toàn vẹn của dữ liệu, quyền riêng tư và hoạt động của hệ thống.
Với sự gia tăng khối lượng dữ liệu quan trọng được thu thập và chia sẻ trong mạng cảm biến, nhu cầu xây dựng một mạng lưới ninh mạng trở nên cấp thiết hơn bao giờ hết.
Kết nối liên tục và truyền tải dữ liệu trong mạng cảm biến đã tạo ra rủi ro bảo mật, khi dữ liệu quan trọng và cảm biến nhạy cảm có thể bị đánh cắp hoặc thay đổi bởi kẻ tấn công Bảo vệ thông tin trong bối cảnh này đang trở thành thách thức lớn đối với các nhà nghiên cứu và quản lý mạng cảm biến.
Mạng cảm biến đang phải đối mặt với các mối đe dọa tấn công ngày càng phức tạp, khiến nhu cầu phát triển các hệ thống phát hiện xâm nhập (IDS) mạnh mẽ trở nên cấp bách hơn bao giờ hết Kẻ xâm nhập có thể áp dụng các phương pháp tinh vi để xâm nhập và gây hại cho mạng, ảnh hưởng đến tính bảo mật dữ liệu và hoạt động liên tục của hệ thống Bất kỳ sự cố nào cũng có thể gây gián đoạn trong việc thu thập và truyền tải dữ liệu, ảnh hưởng đến các ứng dụng quản lý và sản xuất Do đó, việc đảm bảo an ninh mạng là yếu tố quyết định cho sự thành công và phát triển của mạng cảm biến không dây.
Mục tiêu cho nguyên cứu
Mục tiêu chính của nghiên cứu là phát triển một hệ thống IDS thông minh và hiệu quả nhằm giải quyết vấn đề mạng lưới trong mạng cảm biến, thông qua việc áp dụng các thuật toán tiên tiến.
“cây quyết định”, có khả năng phát hiện các hành vi xâm nhập và bảo vệ toàn bộ dữ liệu vật liệu và hoạt động của cảm biến mạng.
Hệ thống IDS
1.2.1 Khái niệm và vai trò của IDS a, Khái niệm
Hệ thống phát hiện xâm nhập (IDS) là công cụ giám sát lưu thông mạng, giúp phát hiện các hoạt động khả nghi và cảnh báo cho quản trị viên IDS có khả năng phân biệt giữa các cuộc tấn công từ bên trong và bên ngoài, từ đó nâng cao khả năng bảo mật cho hệ thống Hệ thống này hoạt động dựa trên việc nhận diện các dấu hiệu đặc trưng của các mối nguy đã biết, tương tự như phần mềm diệt virus, hoặc so sánh lưu lượng mạng hiện tại với các thông số chuẩn để phát hiện những bất thường.
Chức năng quan trọng nhất là: giám sát – cảnh báo – bảo vệ
Giám sát: lưu lượng mạng và các hoạt động khả nghi.
Cảnh báo: báo cáo về tình trạng mạng cho hệ thống và nhà quản trị.
Bảo vệ hệ thống là việc sử dụng các thiết lập mặc định và cấu hình từ nhà quản trị để thực hiện các hành động thiết thực nhằm ngăn chặn kẻ xâm nhập và các hoạt động phá hoại.
Phân biệt: "thù trong giặc ngoài" tấn công bên trong và tấn công bên ngoài.
Phát hiện: những dấu hiệu bất thường dựa trên những gì đã biết hoặc nhờ vào sự so sánh thông lượng mạng hiện tại với baseline.
Ngoài ra hệ thống phát hiện xâm nhập IDS còn có chức năng:
Ngăn chặn sự gia tăng của những tấn công
Bổ sung những điểm yếu mà các hệ thống khác chưa làm được
Đánh giá chất lượng của việc thiết kế hệ thống
Khi IDS hoạt động trong một thời gian, nó sẽ xác định được những điểm yếu rõ ràng trong hệ thống Việc phát hiện những điểm yếu này không chỉ giúp đánh giá chất lượng thiết kế mạng mà còn phản ánh cách bố trí bảo vệ và phòng thủ của các quản trị viên mạng.
1.2.2 Kiến trúc, chức năng và phương thức hoạt động của IDS a, Kiến trúc
Kiến trúc của IDS gồm 3 thành phần :
Thành phần thu thập gói tin (information collection)
Thành phần phân tích gói tin (Dectection)
Trong ba thành phần của hệ thống phát hiện xâm nhập, phân tích gói tin được coi là quan trọng nhất Bộ cảm biến đóng vai trò quyết định trong thành phần này, vì vậy việc phân tích bộ cảm biến là cần thiết để hiểu rõ kiến trúc của hệ thống.
Bộ cảm biến tích hợp với bộ tạo sự kiện để thu thập dữ liệu, với chính sách tạo sự kiện xác định chế độ lọc thông tin Bộ tạo sự kiện từ hệ điều hành, mạng và ứng dụng cung cấp các chính sách cho các sự kiện, bao gồm bản ghi hệ thống hoặc gói mạng Các chính sách này cùng với thông tin có thể được lưu trữ trong hệ thống bảo vệ hoặc bên ngoài, đặc biệt trong trường hợp dữ liệu sự kiện được truyền trực tiếp đến bộ phân tích mà không cần lưu trữ Điều này cũng liên quan đến các gói mạng trong quá trình hoạt động của IDS.
Hệ thống phát hiện xâm phạm có nhiệm vụ chính là bảo vệ máy tính bằng cách nhận diện các dấu hiệu tấn công Sự hiệu quả trong việc phát hiện tấn công phụ thuộc vào số lượng và loại hành động phù hợp Để ngăn chặn xâm phạm hiệu quả, cần có sự kết hợp chặt chẽ giữa “bả và bẫy” nhằm nghiên cứu các mối đe dọa Ngoài ra, việc điều hướng sự chú ý của kẻ xâm nhập vào các tài nguyên được bảo vệ cũng là một nhiệm vụ quan trọng Do đó, toàn bộ hệ thống cần được kiểm tra liên tục để đảm bảo an toàn.
Dữ liệu từ các hệ thống phát hiện xâm nhập (IDS) được kiểm tra kỹ lưỡng nhằm phát hiện các dấu hiệu tấn công và xâm phạm an ninh.
Có hai phương pháp chính để phân tích sự kiện nhằm phát hiện các vụ tấn công: phát hiện dựa trên các dấu hiệu và phát hiện sự bất thường Phương pháp đầu tiên tập trung vào việc nhận diện các chỉ số cụ thể liên quan đến tấn công, trong khi phương pháp thứ hai chú trọng vào việc phát hiện những hoạt động không bình thường trong hệ thống.
Có 2 loại IDS: Network base IDS-NIDS và Host based IDS - HIDS a,Network base IDS :
Hệ thống IDS dựa trên mạng sử dụng bộ dò và bộ cảm biến cài đặt trên toàn mạng để theo dõi lưu lượng và phát hiện các dấu hiệu xâm nhập Những bộ cảm biến này phân tích lưu lượng trong thời gian thực và gửi cảnh báo đến trạm quản trị khi phát hiện mẫu lưu lượng đáng ngờ NIPS là tập hợp nhiều cảm biến được đặt ở khắp mạng để so sánh gói tin với mẫu đã định nghĩa nhằm phát hiện tấn công Hệ thống này được đặt giữa kết nối mạng nội bộ và mạng bên ngoài để giám sát toàn bộ lưu lượng vào ra, có thể là thiết bị phần cứng riêng biệt hoặc phần mềm cài đặt trên máy tính Mặc dù chủ yếu được sử dụng để đo lưu lượng mạng, nhưng có thể xảy ra hiện tượng nghẽn cổ chai khi lưu lượng cao.
Bằng cách cài đặt phần mềm trên tất cả các máy tính chủ, hệ thống IPS dựa trên máy chủ có khả năng giám sát mọi hoạt động của hệ thống, bao gồm file log và lưu lượng mạng Hệ thống này theo dõi các thông tin như hệ điều hành, cuộc gọi hệ thống, lịch sử sổ sách và thông điệp báo lỗi trên máy chủ Trong khi các đầu dò mạng chỉ phát hiện được cuộc tấn công, hệ thống dựa trên máy chủ mới có thể xác định xem cuộc tấn công đó có thành công hay không và ghi nhận các hành động của kẻ tấn công trên máy chủ bị xâm nhập.
Không phải tất cả các cuộc tấn công đều diễn ra qua mạng; kẻ xâm nhập có thể tấn công hệ thống máy tính bằng cách có quyền truy cập vật lý mà không cần tạo ra lưu lượng mạng Hệ thống dựa trên máy chủ có thể phát hiện các cuộc tấn công không qua mạng công cộng, nhưng nếu kẻ xâm nhập có kiến thức về IDS, họ có thể tắt phần mềm phát hiện sau khi đã có quyền truy cập vật lý Một lợi thế của IDS dựa trên máy chủ là khả năng ngăn chặn các cuộc tấn công sử dụng phân mảnh hoặc TTL, vì IDS có thể giám sát quá trình tái hợp các phân mảnh HIDS thường được cài đặt trên một máy tính cụ thể và chỉ giám sát hoạt động của máy tính đó, thay vì toàn bộ mạng HIDS thường được triển khai trên các host quan trọng và các server trong vùng DMZ, nơi thường là mục tiêu tấn công đầu tiên, với nhiệm vụ chính là giám sát các thay đổi trên hệ thống.
Mức độ sử dụng CPU.
Kiểm tra tính toàn vẹn và truy cập trên hệ thống file.
Một vài thông số khác.
Các thông số này khi vượt qua một ngưỡng định trước hoặc những thay đổi khả nghi trên hệ thống file sẽ gây ra báo động.
1.2.4 Các loại tấn công thường gặp và IDS tương ứng a, Tấn công từ chối dịch vụ Dos
Tấn công DoS là một phương thức tấn công nhằm làm gián đoạn hoạt động của mạng cảm biến, khiến nó không thể cung cấp dịch vụ cho người dùng Bằng cách gửi nhiều yêu cầu giả mạo hoặc gây ra sự cố kỹ thuật, tấn công DoS có thể gây ra sự gián đoạn nghiêm trọng trong việc thu thập dữ liệu, ảnh hưởng đến tính toàn vẹn của thông tin và đe dọa khả năng sử dụng của mạng.
Hệ thống IDS có khả năng phát hiện và cảnh báo về sự gia tăng bất ngờ trong mạng lưới lưu trữ năng lượng, đồng thời đánh giá các yếu tố như tần số, nguồn gốc và mục tiêu của các yêu cầu Bằng cách áp dụng các quy tắc thống kê, IDS có thể phát hiện các cuộc tấn công từ chối dịch vụ (DoS) hiệu quả.
Tấn công quét và thăm dò là bước đầu tiên của kẻ tấn công nhằm kiểm tra các lỗ hổng bảo mật trong mạng cảm biến Quá trình này bao gồm việc quét và tìm hiểu về cấu trúc cũng như dịch vụ của mạng, từ đó tạo điều kiện cho các cuộc tấn công thực sự sau này.
Hệ thống phát hiện xâm nhập (IDS) có khả năng theo dõi hoạt động quét và thăm dò trong mạng cảm biến, giúp xác định các mẫu và quy tắc thường xuyên trong quá trình truy cập IDS sẽ cảnh báo khi phát hiện hoạt động bất thường, bao gồm cả các cuộc tấn công vào mật khẩu.
THUẬT TOÁN DECESION TREE VÀ KDD-99
2.1 Tổng quan về thuật toán Decision Tree
2.1.1.Khái niệm thuật toán Decision Tree
Trong lĩnh vực máy học, cây quyết định là một mô hình dự báo, giúp ánh xạ các quan sát tới kết luận về giá trị mục tiêu Mỗi nút trong cây quyết định tương ứng với một biến, và các đường nối giữa nút và nút con thể hiện giá trị cụ thể của biến đó Các nút lá đại diện cho giá trị dự đoán của biến mục tiêu, dựa trên các giá trị của các biến được xác định từ đường đi từ nút gốc tới nút lá Kỹ thuật học máy sử dụng trong cây quyết định được gọi là học bằng cây quyết định.
Hình 1 :Ví dụ về cây quyết định Trong đó:
● Gốc: là node trên cùng của cây
● Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)
● Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
● Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)
Cây quyết định là một cấu trúc phân cấp dùng để phân lớp các đối tượng dựa trên một chuỗi các quy tắc Các thuộc tính của đối tượng có thể thuộc nhiều kiểu dữ liệu khác nhau như nhị phân, định danh, thứ tự và số lượng, trong khi thuộc tính phân lớp chỉ có thể là nhị phân hoặc thứ tự Để phân lớp các mẫu dữ liệu chưa biết, giá trị của các thuộc tính sẽ được kiểm tra trên cây quyết định, với mỗi mẫu có một đường đi từ gốc đến lá, và lá sẽ đại diện cho giá trị dự đoán của mẫu đó.
2.1.2 Các thuật toán xây dựng thuật toán Decision Tree
ID3 (Iterative Dichotomiser 3) là một trong những thuật toán đầu tiên được phát triển để xây dựng cây quyết định Thuật toán này sử dụng độ đo Entropy và thông tin để xác định thuộc tính tốt nhất cho việc phân chia cây, giúp tối ưu hóa quá trình ra quyết định trong các bài toán phân loại.
● C4.5 (Classification and Regression Trees): Là phiên bản nâng cấp của ID3.
Sử dụng độ đo Gain Ratio thay vì Entropy và có khả năng xử lý dữ liệu bị thiếu thông tin.
M5P (M5 Prime) là một biến thể của thuật toán C4.5, được áp dụng cho các bài toán hồi quy Thuật toán này xây dựng các cây quyết định nhằm dự đoán giá trị số học thay vì phân loại các lớp.
CART (Cây phân loại và hồi quy) là một thuật toán phổ biến trong việc xây dựng cây quyết định, sử dụng độ đo Gini Impurity để xác định thuộc tính tốt nhất cho việc chia cây Ngoài ra, CART còn có khả năng áp dụng cho các bài toán hồi quy.
● Classification And Regression Tree for LWF (CART-LWF): Đây là một biến thể của CART được sử dụng cho các bài toán phân loại nhiều lớp (multi-class classification).
Random Forest không chỉ là một thuật toán xây dựng cây quyết định đơn lẻ, mà là một phương pháp kết hợp nhiều cây quyết định để cải thiện độ chính xác Phương pháp này hoạt động bằng cách xây dựng nhiều cây và tổng hợp kết quả từ chúng, từ đó tạo ra dự đoán chính xác hơn.
Gradient Boosting Trees, bao gồm các thuật toán như XGBoost, LightGBM và CatBoost, sử dụng cây quyết định làm thành phần chính Những thuật toán này xây dựng một chuỗi các cây theo cách tuần tự nhằm nâng cao độ chính xác trong dự đoán.
● Chi-squared Automatic Interaction Detection (CHAID): Là một thuật toán sử dụng trong phân tích thống kê để tạo cây quyết định cho dữ liệu phân loại.
2.1.3 Ưu và nhược điểm của thuật toán Decision Tree
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm:
● Cây quyết định dễ hiểu: Người ta có thể rất nhanh hiểu được mô hình cây quyết định sau khi được giải thích ngắn gọn.
Chuẩn hóa dữ liệu có thể là cần thiết hoặc không, tùy thuộc vào kỹ thuật phân tích Nhiều phương pháp yêu cầu chuẩn hóa, tạo biến phụ và loại bỏ giá trị rỗng, trong khi cây quyết định không nhất thiết phải làm vậy Điều này giúp tiết kiệm thời gian trong quá trình tiền xử lý dữ liệu.
Cây quyết định có khả năng xử lý cả dữ liệu số và dữ liệu dạng chữ, điều này khác biệt so với nhiều kỹ thuật phân tích khác chỉ chuyên biệt cho một loại biến Việc này giúp Cây quyết định linh hoạt hơn trong việc phân tích các bộ dữ liệu đa dạng.
Mô hình hộp trắng cho phép quan sát và giải thích các tình huống được xác định trước thông qua logic Boolean, giúp hiểu rõ hơn về các điều kiện liên quan.
● Có thể thẩm định một mô hình bằng các kiểm tra thống kê: Điều này làm cho ta có thể tin tưởng vào mô hình.
Máy tính cá nhân có khả năng xử lý một lượng lớn dữ liệu trong thời gian ngắn, giúp các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định một cách hiệu quả.
Cây quyết định là một công cụ mạnh mẽ có khả năng xử lý cả dữ liệu phân loại và hồi quy, cho phép người dùng tùy chỉnh cấu hình phù hợp với từng bài toán cụ thể.
Khả năng xử lý dữ liệu thiếu thông tin cho phép ứng dụng tự nhiên sử dụng các khu vực hoặc nhánh khác để giải quyết vấn đề này.
Cây quyết định có khả năng đưa ra quyết định hiệu quả cho cả các biến rời rạc và biến liên tục, giúp tối ưu hóa quy trình ra quyết định trong nhiều tình huống khác nhau.
Bên cạnh những ưu điểm trên, cây quyết định có những nhược điểm sau:
Cây quyết định dễ gặp vấn đề quá khớp (overfitting) khi chúng quá phức tạp hoặc thiếu quy trình cắt tỉa (pruning) hợp lý Hiện tượng này dẫn đến hiệu suất kém khi áp dụng trên dữ liệu mới.
XÂY DỰNG HỆ THỐNG
3.1 Thiết lập môi trường thử nghiệm
3.1.1 Giới thiệu về google colab a Khái niệm
Google Colaboratory, commonly known as Google Colab, is a product of Google Research that enables the execution of Python code on a cloud platform It is particularly well-suited for data analysis, machine learning, and educational purposes.
Colab cho phép người dùng chạy mã mà không cần cài đặt hay cấu hình máy tính, tất cả đều thực hiện qua trình duyệt Người dùng có thể tận dụng tài nguyên máy tính mạnh mẽ, bao gồm CPU tốc độ cao, GPUs và TPUs miễn phí.
Google Colab mang lại nhiều lợi ích vượt trội như khả năng chạy Python trên mọi thiết bị có kết nối Internet mà không cần cài đặt, dễ dàng chia sẻ và hợp tác trong nhóm, cùng với việc sử dụng miễn phí GPU cho các dự án trí tuệ nhân tạo.
Google Colab là phiên bản trực tuyến của Jupyter Notebook, cho phép người dùng mã hóa Python mà không cần cài đặt phần mềm trên máy tính Khác với Jupyter Notebook, chỉ sử dụng tài nguyên máy cục bộ, Colab hoạt động như một ứng dụng đám mây, giúp bạn viết và thực thi mã Python trực tiếp trên trình duyệt web như Google Chrome hoặc Mozilla Firefox mà không cần môi trường thời gian chạy hay giao diện dòng lệnh.
Bạn có thể nâng cao giao diện cho sổ ghi chép dự án Python của mình bằng cách tích hợp các phương trình toán học, đồ thị, bảng biểu, hình ảnh và đồ họa khác Với Python và Colab, bạn có thể mã hóa hình ảnh dữ liệu, cho phép Colab hiển thị mã dưới dạng tài sản trực quan Colab cũng hỗ trợ việc sử dụng lại các tệp Jupyter Notebook từ GitHub và nhập các dự án khoa học dữ liệu và máy học từ nhiều nguồn khác nhau Hệ thống của Colab xử lý hiệu quả nội dung đã nhập, giúp hiển thị mã Python một cách rõ ràng và không có lỗi.
Hình 2: Giao diện google colab b Các tính năng tốt nhất của Google Colab
Người dùng Colab miễn phí có thể sử dụng thời gian chạy GPU và TPU miễn phí lên đến 12 giờ Cấu hình GPU bao gồm CPU Intel Xeon @ 2,2 GHz, RAM 13 GB, bộ tăng tốc Tesla K80 và VRAM GDDR5 12 GB.
Thời gian chạy TPU bao gồm CPU Intel Xeon @2,30 GHz, RAM 13 GB và TPU đám mây với sức mạnh tính toán lên đến 180 teraflop Sử dụng Colab Pro hoặc Pro+, người dùng có thể thử nghiệm với nhiều CPU, TPU và GPU trong thời gian vượt quá 12 giờ.
Chia sẻ sổ ghi chép
Sổ ghi mã Python trên Colab giờ đây cho phép bạn tạo liên kết chia sẻ cho các tệp được lưu trên Google Drive Bạn có thể dễ dàng chia sẻ liên kết này với các cộng tác viên để cùng làm việc Ngoài ra, bạn cũng có thể mời các lập trình viên hợp tác qua email Google.
Thư viện được cài đặt sẵn
Google Colab cung cấp nhiều thư viện cài sẵn, cho phép người dùng dễ dàng nhập các thư viện cần thiết từ Đoạn mã Một số thư viện phổ biến bao gồm NumPy, Pandas, Matplotlib, PyTorch, TensorFlow, Keras và nhiều thư viện học máy khác.
Mã hóa cộng tác là yếu tố quan trọng cho các dự án nhóm, giúp hoàn thành các mốc quan trọng nhanh hơn dự kiến Nếu nhóm của bạn cần làm việc cùng nhau trong thời gian thực trên các dự án khoa học dữ liệu và học máy, Google Collaborative là công cụ lý tưởng.
Chỉ cần gửi liên kết có thể chỉnh sửa hoặc mời cộng tác viên tham gia, bạn có thể dễ dàng viết mã nhóm Tất cả sổ ghi chép Python sẽ tự động cập nhật như mã nhóm, mang lại cảm giác tương tự như làm việc trên Google Trang tính hoặc Tài liệu được chia sẻ.
Google Colab tận dụng dung lượng bộ nhớ của Google Drive để lưu trữ tệp, cho phép bạn tiếp tục công việc từ bất kỳ máy tính nào có truy cập vào tài khoản Google Drive Ngoài ra, lưu trữ đám mây cũng đóng vai trò như một bản sao lưu dữ liệu, bảo vệ bạn khỏi những rủi ro mất mát thông tin.
Bạn có thể dễ dàng liên kết tài khoản GitHub với Google Colab để nhập và xuất tệp mã Để nhập tệp, chỉ cần nhấn Ctrl+O và chọn tab GitHub Để gửi tệp lên GitHub, hãy nhấp vào "Lưu bản sao vào GitHub" từ menu Tệp.
Google Colaboratory hỗ trợ nhiều nguồn dữ liệu khác nhau cho các dự án đào tạo
Bạn có thể sử dụng ML và AI bằng cách nhập dữ liệu từ máy tính cục bộ, kết nối Google Drive với phiên bản Colab, truy xuất dữ liệu từ xa và sao chép kho lưu trữ GitHub vào Colab.
Kiểm soát phiên bản tự động
Google Colab cung cấp một trình theo dõi lịch sử đầy đủ, giống như Google Trang tính và Tài liệu, cho phép theo dõi mọi thay đổi kể từ khi tạo tệp Người dùng có thể dễ dàng truy cập nhật ký này thông qua menu Tệp và chọn tùy chọn Lịch sử sửa đổi Tuy nhiên, Colab cũng có một số nhược điểm cần xem xét.
Thời gian chạy giới hạn: Phiên làm việc trên Google Colab sẽ tự động ngắt kết nối sau khoảng thời gian cố định (thường là khoảng 12 giờ)
KẾT LUẬN
Chúng tôi sẽ áp dụng thuật toán Decision Tree để thực hiện thí nghiệm trên bộ dữ liệu KDD99 Kết quả thu được sẽ được phân tích thông qua các chỉ số đánh giá hiệu quả của mô hình Đồng thời, quá trình lựa chọn mô hình phù hợp sẽ được thực hiện dựa trên các thông số liên quan đến các loại tấn công trong dữ liệu.
Khi chạy thực nghiệm, kết quả được ghi nhận như sau: precision recall f1-score support
U2R 0.50 0.33 0.40 15 normal 0.98 0.99 0.99 24392 accuracy 0.99 123505 macro avg 0.87 0.85 0.86 123505 weighted avg 0.99 0.99 0.99 123505
Từ kết quả trên , ta có thể thấy mô hình có độ chính xác cao trong việc dự đoán các loại xâm nhập mạng
Thuật toán Decision Tree (DT) dễ bị hiện tượng quá khớp, khi mà nó học quá chi tiết từ dữ liệu đào tạo Kết quả là mô hình chỉ phù hợp với dữ liệu đã học, làm giảm khả năng dự đoán chính xác cho các mẫu mới.
Thuật toán DT có hạn chế trong việc phát hiện các cuộc tấn công mới vì chỉ học từ các đặc trưng của các cuộc tấn công đã biết Điều này dẫn đến việc mô hình không thể nhận diện các cuộc tấn công sử dụng các đặc trưng chưa từng được biết đến trước đó.
Thuật toán Decision Tree (DT) có tốc độ chậm do cần phải duyệt qua toàn bộ tập dữ liệu để đưa ra quyết định, điều này khiến mô hình không phù hợp với các ứng dụng yêu cầu tốc độ xử lý cao.
Các thuật toán phát hiện xâm nhập mới, bao gồm mạng nơ-ron, machine learning không giám sát và học máy tăng cường, giúp khắc phục những hạn chế của các phương pháp truyền thống như thuật toán quyết định (DT).
Sử dụng công nghệ mới như phân tích dữ liệu lớn và trí tuệ nhân tạo có thể nâng cao hiệu quả cho các hệ thống phát hiện xâm nhập mạng.
Tăng cường hợp tác giữa nhà nghiên cứu, doanh nghiệp và cơ quan chính phủ là yếu tố quan trọng để thúc đẩy sự phát triển công nghệ phát hiện xâm nhập mạng Sự liên kết này không chỉ tạo ra những ý tưởng sáng tạo mà còn tăng cường khả năng ứng dụng công nghệ trong thực tiễn.
[1] HỆ THỐNG PHÁT HIỆN XÂM NHẬP SỬ DỤNG CÂY QUYẾT ĐỊNH VÀ Thuật toán APRIORI - Bà Trupti Phutane và GS Apashabi Pathan
Hệ thống phát hiện xâm nhập được phát triển dựa trên thuật toán cây quyết định, do Manish Kumar, trợ lý giáo sư tại Khoa Thạc sĩ Ứng dụng Máy tính, Viện Công nghệ M S Ramaiah, thực hiện Nghiên cứu này, được công bố vào năm 2012, tập trung vào việc cải thiện khả năng phát hiện xâm nhập trong các hệ thống máy tính thông qua việc áp dụng các phương pháp học máy tiên tiến.
Bài báo "Phân tầng Cây quyết định C4.5 và Máy vectơ hỗ trợ cho Hệ thống phát hiện xâm nhập" của Koshal, J và Bag, M trình bày về việc áp dụng phương pháp phân tích dữ liệu để phát triển hệ thống phát hiện xâm nhập Nghiên cứu được thực hiện tại Viện Công nghệ thông tin Ấn Độ, Allahabad, vào tháng 8 năm 2012, nhấn mạnh tầm quan trọng của việc sử dụng cây quyết định C4.5 và máy vectơ hỗ trợ trong việc cải thiện độ chính xác và hiệu quả của các hệ thống bảo mật thông tin.
Hệ thống phát hiện xâm nhập sử dụng thuật toán Memtic, kết hợp với thuật toán di truyền và cây quyết định, nhằm nâng cao hiệu quả trong việc phát hiện và ngăn chặn các mối đe dọa an ninh mạng Nghiên cứu này được thực hiện bởi Kaliyamurthie, K P và Parameswari, D., cùng với Tiến sĩ Suresh, tại các cơ sở giáo dục hàng đầu ở Chennai, Tamil Nadu, vào tháng 3 năm 2012.
[5] Phát hiện xâm nhập mạng bằng thuật toán cây quyết định cải tiến K.V.R Swamy,
K S và Lakshmi, V Khoa Khoa học và Kỹ thuật Máy tính V R Siddhartha Engineering College, Vijayawada, Andhra Pradesh, Ấn Độ Tháng 9 năm 2011
Nghiên cứu của Das và Siva Sathya (2012) tập trung vào việc khai thác quy tắc hiệp hội từ Tập dữ liệu phát hiện xâm nhập KDD Bài báo được công bố bởi Khoa Khoa học Máy tính, Đại học Pondicherry, Ấn Độ, nhằm cải thiện khả năng phát hiện các mối đe dọa an ninh mạng thông qua việc phân tích và tìm ra các mẫu quy tắc trong dữ liệu Việc áp dụng các kỹ thuật khai thác dữ liệu giúp nâng cao hiệu quả trong việc nhận diện và ngăn chặn các cuộc tấn công mạng.
Bài viết "Đánh giá các thuật toán khai thác dữ liệu khác nhau với Bộ dữ liệu KDD CUP 99" của tác giả Safaa O Al-mamory và Firas S Jassim, được công bố trong Tập 21 năm 2013, phân tích hiệu quả của nhiều thuật toán khai thác dữ liệu khi áp dụng vào bộ dữ liệu KDD CUP 99 Nghiên cứu này nhằm so sánh độ chính xác và hiệu suất của các thuật toán, từ đó cung cấp cái nhìn sâu sắc về khả năng xử lý và phân tích dữ liệu lớn trong lĩnh vực an ninh mạng Kết quả của nghiên cứu có thể giúp các nhà nghiên cứu và chuyên gia trong ngành cải thiện các phương pháp phát hiện xâm nhập và tối ưu hóa quy trình khai thác dữ liệu.
[8] 2010 Kết hợp Nạve Bayes và Cây quyết định để phát hiện xâm nhập thích ứng Farid, D Md., Harbi, N Phòng thí nghiệm ERIC, Đại học Lumire Lyon và Rahman,
M Z Khoa Khoa học và Kỹ thuật Máy tính, Đại học Jahangirnagar, Bangladesh.Tháng 4 năm 2010.