1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài xây dựng hệ thống phát hiện xâm nhập ids cho mạng cảm biến Để chống các loại tấn công có sử dụng thuật toán knn

56 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Hệ Thống Phát Hiện Xâm Nhập IDS Cho Mạng Cảm Biến Để Chống Các Loại Tấn Công Có Sử Dụng Thuật Toán KNN
Tác giả Nguyễn Nhật Minh, Viên Bình Minh, Hoàng Trọng Nghĩa, Nguyễn Duy Minh, Phan Đắc Minh
Người hướng dẫn Giảng Viên Trần Thị Thanh Thuỷ
Trường học Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành Kỹ Thuật Điện Tử
Thể loại báo cáo bài tập lớn
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 56
Dung lượng 1,13 MB

Cấu trúc

  • Chương 1: Tổng quan về mạng cảm biến và an ninh mạng (9)
    • I. Giới thiệu về Mạng Cảm biến không dây (WSN - Wireless Sensor Network) (9)
      • 1. Định nghĩa (9)
      • 2. Các thành phần trong mạng cảm biến (9)
      • 3. Các loại mô hình WSN (11)
      • 4. Các ứng dụng và ví dụ cụ thể (12)
    • II. An ninh mạng (15)
      • 1. Khái niệm an ninh mạng (15)
      • 2. Tại sao an ninh mạng lại quan trọng? (16)
      • 3. An ninh mạng cố gắng phòng vệ trước những loại tấn công an ninh mạng nào? (17)
      • 4. An ninh mạng hoạt động như thế nào? (18)
      • 5. An ninh mạng có những loại nào? (19)
      • 6. Chiến lược an ninh mạng gồm những thành phần nào? (21)
      • 7. Công nghệ an ninh mạng hiện đại là gì? (22)
  • Chương 2: Hệ thống phát hiện xâm nhập mạng và thuật toán sử dụng (23)
    • I, Hệ thống phát hiện xâm nhập mạng (23)
      • 2. Vai trò và chức năng của IDS (27)
      • 3. Các thuật toán sử dụng (29)
      • 2. Cơ chế hoạt động của thuật toán KNN (32)
  • CHƯƠNG 3: MÔ PHỎNG VÀ ĐÁNH GIÁ HỆ THỐNG PHÁT HIỆN XÂM NHẬP (37)
    • I. Xây dựng kịch bản mô phỏng (37)
      • 1. Chuẩn bị dữ liệu đào tạo (KDD-99) (37)
      • 2. Tiền xử lý dữ liệu (44)
      • 3. Xây dựng mô hình KNN (46)
      • 4. Thực hiện mô phỏng (49)
    • II. Đánh giá độ chính xác của hệ thống (50)
      • 1. Kết quả đạt được (50)
      • 2. Hạn chế (53)
      • 3. Phương hướng phát triển (53)

Nội dung

WSN được sử dụng trong nhiềuứng dụng khác nhau, bao gồm giám sát môi trường, an ninh, y tế và công nghiệp.Tuy nhiên, WSN cũng phải đối mặt với nhiều mối đe dọa bảo mật, bao gồm các cuộct

Tổng quan về mạng cảm biến và an ninh mạng

Giới thiệu về Mạng Cảm biến không dây (WSN - Wireless Sensor Network)

Mạng cảm biến không dây (Wireless Sensor Network) là hệ thống gồm các thiết bị cảm biến kết nối qua các liên kết không dây, như vô tuyến, hồng ngoại hoặc quang học, nhằm thu thập dữ liệu phân tán trên quy mô lớn Hệ thống này hoạt động hiệu quả trong mọi điều kiện và khu vực địa lý, cho phép liên kết trực tiếp với nút quản lý giám sát hoặc thông qua một điểm thu phát (Sink) và môi trường mạng công cộng như Internet hoặc vệ tinh.

2 Các thành phần trong mạng cảm biến a Thành phần chính trong mạng cảm biến

 Nút cảm biến – Trường cảm biến.

 Nút chứa (Sink node) – Trạm gốc (Base station).

 Nút quản lý nhiệm vụ và hiển thị (Phần mềm hiển thị, quản lý và đánh giá).

Hình 1.1: Thành phần trong mạng cảm biến

Các nút cảm biến được triển khai trong một trường cảm biến, với khả năng thu thập và định tuyến dữ liệu về bộ thu nhận (Sink) để chuyển tới người dùng (User ) Dữ liệu được truyền theo cấu trúc đa liên kết không có cơ sở hạ tầng nền tảng (Multihop Infrastructureless Architecture), không cần các trạm thu phát gốc hay trung tâm điều khiển Bộ thu nhận có thể liên lạc trực tiếp với trạm điều hành (Task Manager Node) của người dùng hoặc thông qua Internet hay vệ tinh (Satellite).

Hình 1.2: Thành phần nút cảm biến

Mỗi nút cảm biến bao gồm bốn thành phần cơ bản là: bộ cảm biến, bộ xử lý, bộ thu phát không dây và nguồn điện.

- Bộ cảm biến thường gồm hai đơn vị thành phần là đầu đo cảm biến (Sensor) và bộ chuyển đổi tương tự/số (ADC)

Bộ xử lý, kết hợp với bộ nhớ nhỏ, có nhiệm vụ phân tích thông tin từ cảm biến và quản lý các quy trình hợp tác với các nút khác, nhằm phối hợp thực hiện các nhiệm vụ hiệu quả.

Bộ thu phát đảm bảo việc truyền tải thông tin giữa nút cảm biến và mạng qua kết nối không dây, có thể sử dụng công nghệ vô tuyến, hồng ngoại hoặc tín hiệu quang.

Bộ nguồn, bao gồm pin hoặc ắcquy, cung cấp năng lượng cho nút cảm biến và không thể thay thế, do đó, nguồn năng lượng của nút thường có giới hạn Để khắc phục điều này, bộ nguồn có thể được hỗ trợ bởi các thiết bị sinh điện, chẳng hạn như các tấm pin mặt trời nhỏ.

3 Các loại mô hình WSN

Mô hình WSNs được xây dựng chủ yếu theo 2 loại:

• Category 1 WSNs (C1WSNs): hệ thống lưới kết nối đa đường giữa các node qua kênh truyền vô tuyến, sử dụng giao thức định tuyến động

• Category 2 WSNs (C2WSNs): mô hình điểm-điểm hay đa điểm-điểm, chủ yếu là các liên kết đơn (single-hop) giữa các node, dùng giao thức định tuyến tỉnh.

Hình 1.3: Dạng 1 WSNs, liên kết multipoint-to-point, multihop dùng định tuyến động

Hình 1.4: Dạng 2 WSNs liên kết point-to-point, Star định tuyến tĩnh

Mô hình có thể được phân chia thành hai dạng chính: hợp tác và bất hợp tác Trong mô hình hợp tác, các node sẽ chuyển tiếp thông tin cho các node lân cận, tạo ra sự liên kết chặt chẽ trong việc truyền tải dữ liệu Ngược lại, trong mô hình bất hợp tác, các node truyền thông tin trực tiếp lên trung tâm mà không cần thông qua các node lân cận, dẫn đến cách tiếp cận độc lập hơn trong quá trình truyền tải.

Hình 1.5: Các node theo mô hình hợp tác và bất hợp tác

4 Các ứng dụng và ví dụ cụ thể a Các ứng dụng của mạng cảm biến không dây (WSN)

Chia ra 2 loại ứng dụng theo mô hình: hệ thống điểm-điểm dùng định tuyến tĩnh và hệ thống phức tạp dùng giao thức định tuyến động.

Sự kết hợp giữa Internet, thông tin vô tuyến và kỹ thuật thông tin đã thúc đẩy sự phát triển mạnh mẽ của công nghệ cảm biến Phần cứng mạng cảm biến không dây (WSN) ngày càng trở nên phổ biến với các vi xử lý giá rẻ, cảm biến nhỏ gọn và thiết bị thu phát vô tuyến tiêu thụ ít năng lượng Các mạng cảm biến thường hoạt động ở tần số 900MHz (868- và 915-MHz), trong khi các hệ thống thương mại như IEEE 802.11b và IEEE 802.15.4 hoạt động trong dải tần 2.4-GHz.

Trong những năm gần đây, nghiên cứu về mạng cảm biến không dây (WSN) đã có những bước tiến đáng kể, hứa hẹn mang lại ảnh hưởng lớn đến nhiều lĩnh vực như an ninh quốc gia, chăm sóc sức khỏe, môi trường, năng lượng, an toàn thực phẩm và sản xuất Các ứng dụng của WSN thực sự phong phú và đa dạng, chỉ bị giới hạn bởi trí tưởng tượng của con người Một trong những ứng dụng nổi bật của WSN là trong lĩnh vực quân sự và an ninh quốc gia.

• Bảo vệ an ninh cho các công trình trọng yếu

• Ứng dụng trong quân đội

• Thông tin, giám sát, điều khiển

• Phát hiện phóng xạ hạt nhân

• Giám sát dưới nước, trên không

-Ứng dụng trong bảo vệ môi trường

• Phát hiện hoạt động núi lửa

• Sử dụng hiệu quả tài nguyên thiên nhiên

• Cảm biến dùng trong nông nghiệp

-Ứng dụng trong thương mại

• Quản lý kiến trúc và xây dựng

• Quản lý tải trong tiêu thụ điện năng

• Cảm biến các chất hóa học, sinh học, nguyên tử

• Thu thập dữ liệu thời gian thực

• Các hệ thống nhận dạng bằng sóng radio (RFID tags)

• Đo lượng khí gas, nước, điện…

• Hệ thống xử lý vật liệu (hóa học, gas, nhiệt …)

• Cảm biến gắn trực tiếp lên cơ thể người

• Phản ứng với dịch bệnh

• Phân tích sức khỏe cá nhân

• Phân tích nồng độ các chất

• Giám sát bệnh nhân, nhân viên y tế

-Ứng dụng trong gia đình

• Điều khiển từ xa các thiết bị điện trong nhà

• Hệ thống tự động trong gia đình, cảnh báo an ninh …

An ninh mạng

1 Khái niệm an ninh mạng

An ninh mạng là biện pháp bảo vệ thiết yếu cho máy tính, mạng, ứng dụng phần mềm và dữ liệu khỏi các mối đe dọa kỹ thuật số Các tổ chức cần bảo mật dữ liệu để duy trì lòng tin của khách hàng và tuân thủ quy định Họ áp dụng các công cụ an ninh mạng để bảo vệ dữ liệu nhạy cảm khỏi truy cập trái phép và ngăn chặn gián đoạn hoạt động kinh doanh Việc triển khai an ninh mạng được thực hiện bằng cách tối ưu hóa sự kết hợp giữa con người, quy trình và công nghệ.

2 Tại sao an ninh mạng lại quan trọng?

Các doanh nghiệp trong nhiều lĩnh vực như năng lượng, vận tải, bán lẻ và sản xuất đang áp dụng hệ thống kỹ thuật số và kết nối tốc độ cao để nâng cao dịch vụ khách hàng và tối ưu hóa chi phí hoạt động Bên cạnh việc bảo vệ tài sản vật lý, các doanh nghiệp cần chú trọng đến bảo mật tài sản kỹ thuật số và ngăn chặn truy cập trái phép vào hệ thống Cuộc tấn công mạng, nếu thành công, có thể dẫn đến việc lộ, đánh cắp, xóa hoặc thay đổi dữ liệu bảo mật Các biện pháp an ninh mạng không chỉ giúp ngăn chặn mà còn giảm thiểu tổn thất do các vi phạm này gây ra.

Các tổ chức cần triển khai chiến lược an ninh mạng nhằm giảm thiểu hậu quả tiêu cực từ các cuộc tấn công mạng, ảnh hưởng đến uy tín, tình hình tài chính, hoạt động kinh doanh và lòng tin của khách hàng.

Các công ty triển khai kế hoạch phục hồi sau thảm họa nhằm ngăn chặn các đợt xâm nhập có thể xảy ra và giảm thiểu gián đoạn trong hoạt động kinh doanh Đồng thời, việc duy trì tuân thủ các quy định là rất quan trọng để đảm bảo an toàn và bảo mật cho doanh nghiệp.

Các doanh nghiệp hoạt động trong các ngành nghề và khu vực nhất định cần tuân thủ quy định để bảo vệ dữ liệu nhạy cảm khỏi các rủi ro mạng tiềm ẩn.

Các công ty tại Châu Âu cần tuân thủ Quy định chung về bảo vệ dữ liệu (GDPR), yêu cầu thực hiện các biện pháp an ninh mạng phù hợp nhằm bảo vệ quyền riêng tư dữ liệu Điều này cũng giúp giảm thiểu các mối đe dọa mạng đang ngày càng phức tạp.

Cuộc tấn công mạng không ngừng thay đổi cùng với sự phát triển của công nghệ, khi tội phạm sử dụng công cụ và chiến lược mới để xâm nhập trái phép vào hệ thống Để đối phó, các tổ chức phải liên tục nâng cấp và áp dụng các biện pháp an ninh mạng nhằm bảo vệ trước những mối đe dọa kỹ thuật số ngày càng tinh vi.

3 An ninh mạng cố gắng phòng vệ trước những loại tấn công an ninh mạng nào?

Các chuyên gia an ninh mạng nỗ lực hạn chế và giảm thiểu các mối đe dọa, cả hiện tại lẫn mới xuất hiện, nhằm bảo vệ hệ thống máy tính khỏi xâm nhập Một trong những mối đe dọa mạng phổ biến là phần mềm độc hại.

Phần mềm độc hại, hay còn gọi là malware, là một tập hợp các chương trình được thiết kế để truy cập trái phép thông tin nhạy cảm hoặc làm gián đoạn hoạt động của cơ sở hạ tầng quan trọng Những loại phần mềm độc hại phổ biến bao gồm Trojan, phần mềm gián điệp và vi-rút Một trong những hình thức nguy hiểm của phần mềm độc hại là phần mềm tống tiền, thường gây ra thiệt hại nghiêm trọng cho người dùng và tổ chức.

Phần mềm tống tiền là một mô hình kinh doanh và công nghệ mà kẻ lừa đảo sử dụng để tống tiền các tổ chức Dù bạn là người mới hay đã có kinh nghiệm trên AWS, chúng tôi cung cấp các tài nguyên chuyên dụng nhằm bảo vệ hệ thống quan trọng và dữ liệu nhạy cảm của bạn khỏi phần mềm tống tiền.

Tấn công xen giữa là hành vi mà một bên bên ngoài cố gắng truy cập trái phép vào mạng trong quá trình trao đổi dữ liệu, làm gia tăng rủi ro bảo mật cho thông tin nhạy cảm, đặc biệt là dữ liệu tài chính.

Lừa đảo là một mối đe dọa an ninh mạng nghiêm trọng, nơi kẻ tấn công sử dụng các kỹ thuật phi kỹ thuật để đánh lừa người dùng tiết lộ thông tin cá nhân Chẳng hạn, chúng có thể gửi email giả mạo, khiến người dùng nhấp vào và nhập thông tin thẻ tín dụng trên các trang web thanh toán giả Ngoài ra, các cuộc tấn công lừa đảo còn có thể dẫn đến việc tải xuống các tệp đính kèm độc hại, từ đó cài đặt phần mềm độc hại trên thiết bị của công ty.

Tấn công từ chối dịch vụ phân tán (DDoS) là hành vi cố ý làm quá tải máy chủ bằng cách gửi một số lượng lớn yêu cầu giả mạo, khiến người dùng bình thường không thể kết nối hoặc truy cập vào máy chủ bị tấn công Mối đe dọa nội bộ cũng là một yếu tố cần xem xét trong bối cảnh này.

Mối đe dọa nội bộ là rủi ro an ninh phát sinh từ nhân viên có ý định xấu trong tổ chức Những nhân sự này, với quyền truy cập cao vào hệ thống máy tính, có khả năng làm suy yếu tính bảo mật của cơ sở hạ tầng từ bên trong.

4 An ninh mạng hoạt động như thế nào?

Các tổ chức thực hiện chiến lược an ninh mạng thông qua đội ngũ chuyên viên an ninh mạng, những người đánh giá rủi ro bảo mật cho hệ thống điện toán, mạng, kho lưu trữ dữ liệu, ứng dụng và thiết bị kết nối Sau đó, họ xây dựng khung an ninh mạng toàn diện và triển khai các biện pháp bảo vệ trong tổ chức.

Hệ thống phát hiện xâm nhập mạng và thuật toán sử dụng

Hệ thống phát hiện xâm nhập mạng

Hệ thống phát hiện xâm nhập (IDS) là phần mềm hoặc phần cứng có nhiệm vụ giám sát lưu lượng mạng và theo dõi tự động các sự kiện trên hệ thống máy tính IDS phân tích để phát hiện các vấn đề an ninh và bảo mật, đồng thời cung cấp cảnh báo cho quản trị viên.

Cảm biến được tích hợp với bộ tạo sự kiện, đóng vai trò thu thập dữ liệu theo chính sách tạo sự kiện nhằm xác định chế độ lọc thông tin Bộ tạo sự kiện, bao gồm hệ điều hành, ứng dụng và mạng, tạo ra các sự kiện nhất quán có thể là bản ghi hệ thống hoặc gói mạng Thông tin chính sách và số liệu chính xác được lưu trữ trong hệ thống bảo vệ hoặc bên ngoài Trong một số trường hợp, dữ liệu sự kiện được chuyển trực tiếp đến máy phân tích mà không cần lưu trữ, đặc biệt là với các gói mạng.

Hệ thống IDS bao gồm ba thành phần chính: thu thập gói tin, phát hiện gói tin và phản hồi gói tin, được minh họa trong hình 8 dưới đây.

Hình 2.2: Các thành phần của IDS.

• Thành phần thu thập gói tin (Information Collection)

Thành phần IDS có khả năng thu nhận tất cả các gói tin đi qua mạng, bất kể địa chỉ của chúng Thay vì huỷ bỏ các gói tin không thuộc về card mạng, IDS sao chụp, xử lý và phân tích từng trường thông tin trong gói tin Bộ phận thu thập gói tin xác định loại gói tin và dịch vụ liên quan, sau đó chuyển thông tin này đến thành phần phát hiện tấn công.

Trong thành phần phát hiện gói tin, bộ cảm biến đóng vai trò quan trọng trong việc lọc thông tin Chúng giúp loại bỏ những dữ liệu không tương thích từ các sự kiện liên quan đến hệ thống bảo vệ, từ đó phát hiện các hành động nghi ngờ một cách hiệu quả.

• Thành phần phản hồi (Response)

Khi phát hiện dấu hiệu tấn công hoặc thâm nhập, hệ thống sẽ gửi tín hiệu cảnh báo đến thành phần phản ứng Ngay lập tức, thành phần phản ứng kích hoạt tường lửa để chặn cuộc tấn công hoặc thông báo cho quản trị viên.

Dưới đây là một số kỹ thuật ngăn chặn:

Cảnh báo thời gian thực cung cấp thông tin chi tiết về các cuộc tấn công, giúp người quản trị nắm bắt đặc điểm và thông tin liên quan đến các mối đe dọa này.

Các gói tin sẽ được ghi lại và lưu trữ trong hệ thống tập tin log để giúp các quản trị viên theo dõi luồng thông tin Điều này không chỉ hỗ trợ việc giám sát mà còn cung cấp nguồn dữ liệu quan trọng cho module phát hiện tấn công hoạt động hiệu quả.

Hệ thống phát hiện xâm nhập (IDS) có khả năng ngăn chặn và thay đổi gói tin khi phát hiện dấu hiệu tấn công Khi một gói tin phù hợp với các mẫu tấn công, IDS sẽ phản ứng bằng cách xóa bỏ, từ chối hoặc điều chỉnh nội dung của gói tin, khiến cho gói tin đó trở nên bất thường.

Sau khi thu thập dữ liệu, IDS theo dõi lưu lượng mạng và so sánh với các mẫu tấn công đã biết, phương pháp này được gọi là tương quan mẫu Khi phát hiện hoạt động đáng ngờ hoặc độc hại, IDS sẽ thông báo cho kỹ thuật viên hoặc quản trị viên CNTT Các cảnh báo từ IDS giúp nhanh chóng khắc phục sự cố, xác định nguồn gốc và ngăn chặn các tác nhân có hại.

Các hệ thống phát hiện xâm nhập (IDS) chủ yếu sử dụng hai phương pháp chính: phát hiện dựa trên signature và phát hiện dựa trên các đặc điểm bất thường Phương pháp phát hiện dựa trên signature được thiết kế để nhận diện các mối đe dọa bằng cách so sánh lưu lượng mạng và dữ liệu nhật ký với các mẫu tấn công đã biết, giúp phát hiện chính xác và xác định các cuộc tấn công đã được ghi nhận.

Phát hiện xâm nhập dựa trên đặc điểm bất thường, trái ngược với phương pháp dựa trên chữ ký, được thiết kế để nhận diện các cuộc tấn công không xác định như phần mềm độc hại mới và có khả năng thích ứng nhanh chóng nhờ vào máy học Các kỹ thuật học máy cho phép hệ thống phát hiện xâm nhập (IDS) xây dựng các mô hình tin cậy từ các hoạt động mạng, sau đó so sánh hành vi mới với những mô hình đã được xác minh Tuy nhiên, phương pháp này có thể dẫn đến báo động sai, khi lưu lượng mạng hợp lệ nhưng chưa được xác định trước đó có thể bị nhầm lẫn với hoạt động độc hại.

Các hệ thống IDS dựa trên đặc trưng và điểm bất thường giúp nâng cao khả năng phòng chống xâm nhập bằng cách xác định nhiều mối đe dọa hơn, từ đó tăng cường hiệu quả của phương pháp này IDS toàn diện có khả năng phát hiện các kỹ thuật né tránh, như mạng ẩn, mà kẻ tấn công sử dụng để đánh lừa hệ thống, khiến nó không nhận biết được các cuộc tấn công đang diễn ra Những kỹ thuật né tránh này có thể bao gồm phân mảnh, tấn công băng thông thấp, giả mạo địa chỉ và ủy quyền.

2 Vai trò và chức năng của IDS

Các Hệ thống phát hiện xâm nhập (IDS) được phát triển nhằm phát hiện các hoạt động đáng ngờ và độc hại thông qua việc phân tích lưu lượng mạng IDS cho phép khai thác và kiểm tra xem hệ thống mạng có đang bị tấn công hay không Hiện nay, có hai loại IDS chính.

NIDS (Network Intrusion Detection System) sử dụng bộ dò và cảm biến trên toàn mạng để theo dõi lưu lượng và phát hiện các dấu hiệu xâm nhập Lợi ích của NIDS bao gồm khả năng quản lý nhiều host trong một network segment, dễ dàng cài đặt và bảo trì, giảm thiểu tác động của DoS đến các host, xác định lỗi ở tầng Network theo mô hình OSI, và tính độc lập với hệ điều hành Tuy nhiên, NIDS cũng có một số hạn chế như khả năng xảy ra báo động giả, không thể phân tích gói tin mã hóa, yêu cầu cập nhật signature thường xuyên để đảm bảo an toàn, và không cung cấp thông tin về việc tấn công có thành công hay không.

Hình 2.3: Mô hình mạng NIDS 34

MÔ PHỎNG VÀ ĐÁNH GIÁ HỆ THỐNG PHÁT HIỆN XÂM NHẬP

Xây dựng kịch bản mô phỏng

1 Chuẩn bị dữ liệu đào tạo (KDD-99)

Tập dữ liệu KDD-99 là một nguồn tài nguyên quan trọng trong nghiên cứu bảo mật mạng và học máy, được phát triển từ phiên bản trích xuất tính năng của tập dữ liệu gốc DARPA.

Mục tiêu của bài viết là cung cấp dữ liệu tiêu chuẩn nhằm xác định và phân loại các loại tấn công mạng, đồng thời đào tạo, đánh giá và phát triển các mô hình phát hiện xâm nhập hiệu quả.

KDD-99 là một tập dữ liệu lớn, bao gồm hơn 4 triệu mẫu cho việc đào tạo mô hình và hơn 300.000 mẫu cho việc kiểm tra hiệu suất của mô hình.

Dữ liệu trong KDD-99 là tập hợp thông tin mạng ghi lại các sự kiện trong quá trình giao tiếp, bao gồm địa chỉ IP, cổng, giao thức, thời gian và loại tấn công.

Trong tập dữ liệu KDD-99, thuộc tính kiểu phân loại bao gồm các loại dữ liệu như loại giao thức (protocol_type) và dịch vụ (service), mô tả đặc trưng của giao thức hoặc dịch vụ mà sự kiện mạng sử dụng Các thuộc tính này không được biểu diễn bằng giá trị số mà bằng các nhãn hoặc chuỗi Cụ thể, loại giao thức xác định loại giao thức được sử dụng trong kết nối, dịch vụ mạng đích chỉ ra dịch vụ được sử dụng, trạng thái kết nối (flag) cho biết tình trạng kết nối là bình thường hay lỗi, và lớp (class) phân loại dữ liệu giao thông đầu vào.

Trong tập dữ liệu KDD-99, các thuộc tính kiểu nhị phân chỉ có giá trị 0 hoặc 1, thể hiện sự hiện diện của một tính năng cụ thể Thuộc tính "Land" có giá trị 1 khi địa chỉ IP nguồn và đích cùng cổng, ngược lại là 0 "Logged In" có giá trị 1 nếu đăng nhập thành công, và 0 nếu thất bại "Root Shell" là 1 khi đạt quyền root shell, còn 0 nếu không "Is Hot Logins" là 1 nếu đăng nhập thuộc danh sách "nóng" như root hoặc admin, và 0 nếu không Cuối cùng, "Is Guest Login" có giá trị 1 khi đăng nhập dưới dạng khách, ngược lại là 0.

Trong tập dữ liệu KDD-99, các thuộc tính rời rạc thể hiện giá trị số không liên tục, phản ánh các sự kiện đếm hoặc đánh giá bằng số lượng cụ thể Các chỉ số quan trọng bao gồm tổng số fragment sai, số lượng gói tin cấp thiết, và tỷ lệ các kết nối có cờ lỗi hoặc cờ serror Tỷ lệ cùng dịch vụ và tỷ lệ khác dịch vụ cung cấp cái nhìn về sự phân bổ kết nối đến các dịch vụ khác nhau Các chỉ số như số lượng kết nối đến cùng máy chủ đích và tỷ lệ cùng cổng nguồn cũng giúp phân tích mối quan hệ giữa các kết nối Cuối cùng, các tỷ lệ lỗi và tỷ lệ serror đích cung cấp thông tin về tình trạng kết nối trong môi trường mạng, giúp xác định các vấn đề tiềm ẩn.

Trong tập dữ liệu KDD-99, thuộc tính kiểu liên tục bao gồm các giá trị số có thể nhận bất kỳ giá trị nào trong một khoảng liên tục Các thuộc tính này bao gồm: Thời gian kết nối (Duration), số lượng byte dữ liệu được truyền từ nguồn đến đích (Src Bytes), và số lượng byte dữ liệu được truyền từ đích về nguồn (Dst Bytes) Ngoài ra, còn có chỉ số "nóng" (Hot) liên quan đến việc truy cập thư mục hệ thống, số lần thử đăng nhập không thành công (Num Failed Logins), số lần một kết nối bị xâm phạm (Num Compromised), và số lần truy cập root (Num Root) Các thuộc tính khác bao gồm số lần tạo file (Num File Creations), số lần sử dụng shell (Num Shells), số lần thực hiện các hoạt động trên file kiểm soát truy cập (Num Access Files), và số lệnh gửi từ máy chủ đích đến máy khách nguồn qua FTP (Num Outbound Cmds).

Tấn công từ chối dịch vụ (DoS) là một phương thức tấn công mạng nhằm làm cho dịch vụ hoặc hệ thống mạng không khả dụng cho người dùng thông thường bằng cách tạo ra lưu lượng truy cập lớn, dẫn đến quá tải Các hình thức tấn công bao gồm: Back, nơi kẻ tấn công sử dụng lỗ hổng bảo mật để tấn công từ xa; Land, khi nguồn và đích của gói tin ICMP trùng nhau, gây treo máy; Neptune, tấn công bằng cách gửi nhiều gói tin ICMP không hợp lệ để làm gián đoạn hệ thống; Pod, gửi gói tin ICMP giả mạo để làm quá tải máy chủ; Smurf, gửi gói tin ICMP với địa chỉ nguồn giả mạo nhằm gây quá tải mạng; và Teardrop, gửi gói tin có địa chỉ IP và các phần không hợp lệ để làm treo hệ thống.

Kẻ tấn công thực hiện việc quét các máy chủ và hệ thống mạng, gọi là probe, nhằm tìm kiếm lỗ hổng bảo mật trước khi tiến hành các cuộc tấn công khác Trong quá trình này, Ipsweep được sử dụng để quét các địa chỉ IP trên mạng, giúp xác định các máy chủ hoặc thiết bị đang hoạt động và tìm kiếm các địa chỉ IP có sẵn để tấn công Đồng thời, Portsweep là phương pháp quét mạng nhằm xác định các cổng mở trên máy chủ hoặc thiết bị, từ đó kẻ tấn công có thể nắm bắt thông tin về các dịch vụ và cổng mạng có khả năng bị lợi dụng.

Tấn công U2R (User to Root) là một phương thức mà kẻ tấn công cố gắng nâng cao quyền truy cập từ người dùng bình thường lên quyền quản trị hệ thống nhằm kiểm soát hoàn toàn hệ thống mục tiêu Một trong những kỹ thuật phổ biến là tấn công Buffer Overflow, nơi kẻ tấn công tràn bộ đệm của ứng dụng để chiếm quyền điều khiển máy tính Thêm vào đó, tấn công Loadmodule liên quan đến việc tải các module độc hại vào hệ thống để thực hiện các hành động không được phép Ngôn ngữ lập trình Perl cũng thường được sử dụng trong các cuộc tấn công, cho phép thực hiện các tác vụ xâm nhập Cuối cùng, Rootkit là phần mềm độc hại được thiết kế để ẩn giấu sự hiện diện của kẻ tấn công, cung cấp quyền truy cập cao nhất và thay đổi các file hệ thống để bảo vệ chúng khỏi bị phát hiện.

R2L (Remote to Local) là một loại tấn công mạng mà kẻ tấn công cố gắng xâm nhập vào hệ thống mục tiêu từ xa để có quyền truy cập cục bộ Các hình thức tấn công bao gồm ftp_write, nơi kẻ tấn công ghi dữ liệu trái phép lên máy chủ FTP; guess_passwd, trong đó kẻ tấn công thử đoán mật khẩu để truy cập vào hệ thống; và imap, tấn công nhằm vào dịch vụ gửi và nhận email để thu thập thông tin trái phép Ngoài ra, multihop cho phép kẻ tấn công sử dụng nhiều hệ thống trung gian để che giấu nguồn gốc của mình, trong khi phf lợi dụng dịch vụ cổng 80 trên máy chủ web Các tấn công spy liên quan đến việc giám sát và thu thập thông tin trái phép, còn warezclient và warezmaster liên quan đến việc truy cập hoặc cung cấp trái phép phần mềm và tệp tin.

- Chuẩn bị dữ liệu đào tạo KDD-99

 Đọc dữ liệu từ KDD-99

Sử dụng thư viện Pandas để đọc dữ liệu từ tệp CSV "kddcup99_csv.csv" và lưu nó vào một DataFrame có tên là df

Hình 3.1: Đọc dữ liệu từ KDD-99

 Phân tích cơ bản về tập dữ liệu KDD-99

In ra một số thông số như: số lượng điểm dữ liệu, số lượng đặc trưng, số lượng nhãn…

Hình 3.2: Phân tích cơ bản về KDD-99

Hình 3.3: Các thông số cơ bản về KDD-99

2 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước quan trọng trong phân tích dữ liệu, bao gồm việc xử lý các giá trị NULL (giá trị thiếu), áp dụng mã hóa one-hot để chuyển đổi dữ liệu phân loại thành dạng số, và phân loại các loại tấn công để nâng cao độ chính xác của mô hình.

Các giá trị NULL là những ô dữ liệu không chứa giá trị hoặc được đánh dấu là NULL, thường xuất hiện do mất mát, thiếu ghi nhận hoặc lỗi trong quá trình thu thập dữ liệu Đối với dữ liệu phân loại, có thể đếm tần suất của các giá trị trong cột và thay thế giá trị NULL bằng giá trị xuất hiện nhiều nhất Trong khi đó, đối với dữ liệu liên tục, có thể tính trị trung bình của cột và thay thế tất cả các giá trị NULL bằng trị trung bình đó.

Mã hóa one-hot là kỹ thuật chuyển đổi dữ liệu phân loại thành dạng số để áp dụng trong mô hình học máy Phương pháp này tạo ra một biến mới cho mỗi giá trị của biến phân loại, sử dụng giá trị nhị phân để biểu thị sự hiện diện (1) hoặc không (0).

Hình 3.4: Thực hiện tiền xử lý KDD-99

Đánh giá độ chính xác của hệ thống

Bằng cách sử dụng mô hình KNN, chúng ta có thể tạo ra ma trận nhầm lẫn từ các nhãn của tập kiểm tra và nhãn dự đoán Việc trực quan hóa các giá trị này thông qua biểu đồ heatmap giúp hiển thị rõ ràng các thông tin bằng màu sắc.

Hình 3.12: Biểu đồ ma trận nhầm lẫn

Ma trận nhầm lẫn cho phép tự tính toán độ nhạy (recall) và độ chính xác

Để đánh giá hiệu suất của mô hình, hai thước đo quan trọng là độ nhạy và độ chính xác Độ nhạy phản ánh khả năng của mô hình trong việc phát hiện đúng các trường hợp tích cực, trong khi độ chính xác cho thấy khả năng của mô hình trong việc hạn chế các dự đoán sai lầm.

Sau khi chạy mô phỏng, ta có được bảng đánh giá độ chính xác của hệ thống

Hình 3.13: Bảng đánh giá độ chính xác của hệ thống

Độ chính xác (Accuracy) là tỷ lệ phần trăm mẫu được dự đoán đúng so với tổng số mẫu Trong bài viết này, mô hình đạt độ chính xác lên tới 99.87%, cho thấy nó dự đoán chính xác khoảng 99.87% các mẫu trong tập kiểm tra.

Độ chính xác của tôi được tính toán theo phương pháp thông thường, không sử dụng hàm “accuracy_score ()” Kết quả thu được trong trường hợp này tương tự như khi áp dụng hàm này.

 Precision: Cho biết tỷ lệ số mẫu dự đoán đoán đúng so với tổng số mẫu dự đoán, Precision được tính riêng cho từng lớp.

 Recall: Cho biết tỷ lệ số mẫu dự đoán đúng so với tổng số mẫu thực sự thuộc lớp đó.

 F1-Score: Là một chỉ số tổng hợp của hiệu suất mô hình, kết hợp giữa precision và recall.

Macro Average là phương pháp tính toán các chỉ số cho từng lớp riêng biệt và sau đó lấy trung bình của tất cả các lớp mà không xem xét sự cân bằng mẫu giữa các lớp.

Weighted Average là phương pháp tính toán các chỉ số cho từng lớp dựa trên số lượng mẫu trong mỗi lớp, sau đó lấy trung bình của tất cả các lớp Phương pháp này chú trọng đến sự cân bằng mẫu giữa các lớp, giúp đảm bảo rằng các chỉ số phản ánh chính xác đặc điểm của từng lớp trong tập dữ liệu.

Mô hình đạt độ chính xác cao, đặc biệt trong việc phân loại các lớp "DoS" và "Normal" Tuy nhiên, vẫn tồn tại một số mẫu bị dự đoán sai ở các lớp "Probe", "R2L", và thấp nhất là lớp "U2R".

Lớp DoS có độ chính xác cao, nhưng vẫn tồn tại một số mẫu bị phân loại sai thành Normal và Probe, điều này có thể dẫn đến việc không phát hiện được các cuộc tấn công DoS đang diễn ra, gây ảnh hưởng đến khả năng truy cập dịch vụ hoặc tài nguyên của người dùng Tỷ lệ precision thấp hơn recall.

Lớp Normal đạt độ chính xác cao, nhưng vẫn có một số mẫu bị phân loại sai thành DoS, Probe, R2L, U2R Điều này có thể gây ra việc phát hiện xâm nhập nhầm các cuộc tấn công giả mạo, dẫn đến việc xử lý các cảnh báo không cần thiết và cần xác minh xem có cuộc tấn công thực sự hay không Tỷ lệ precision thấp hơn recall.

Đối với lớp Probe, vẫn còn nhiều mẫu dữ liệu bị phân loại sai thành DoS và Normal, dẫn đến việc phát hiện nhầm các cuộc tấn công giả mạo và tạo ra cảnh báo giả Điều này cũng gây ra tình trạng bỏ sót các cuộc tấn công Probe, làm gia tăng rủi ro bảo mật Tỷ lệ precision cao hơn recall trong trường hợp này.

Đối với lớp R2L, các mẫu dữ liệu không được dự đoán chính xác chủ yếu bị phân loại sai thành lớp Normal, điều này làm tăng nguy cơ xâm nhập và đánh cắp thông tin Tỷ lệ precision trong trường hợp này cao hơn tỷ lệ recall.

Đối với phương pháp U2R, độ chính xác trong việc phát hiện các cuộc tấn công khá thấp, với hơn 56% mẫu dữ liệu dự đoán sai thành Normal Điều này làm tăng rủi ro bảo mật và gây khó khăn trong việc nhận diện các cuộc tấn công U2R Tỷ lệ precision cao hơn recall cho thấy sự thiếu hiệu quả trong việc phát hiện chính xác các cuộc tấn công này.

Để đảm bảo an ninh mạng tối ưu, hệ thống cần xác định ưu tiên giữa recall và precision Nếu muốn phát hiện tất cả các cuộc tấn công, hệ thống nên ưu tiên recall Ngược lại, nếu cần đảm bảo rằng mọi cảnh báo đều chính xác và tránh tình trạng quá tải với cảnh báo giả, nên ưu tiên precision Một lựa chọn khác là sử dụng f1-score để cân bằng giữa recall và precision, từ đó tối ưu hóa khả năng phát hiện và giảm thiểu cảnh báo sai.

Sự mất cân bằng dữ liệu trong các lớp, đặc biệt là lớp “U2R”, gây khó khăn cho mô hình trong việc phân loại chính xác do số lượng mẫu rất ít Điều này dẫn đến hiệu suất thấp của mô hình khi xử lý lớp “U2R”, làm cho nó không hiệu quả trong việc phát hiện các tấn công thuộc lớp thiểu số.

Mô hình KNN có một số hạn chế, đặc biệt khi xử lý dữ liệu lớn hoặc phức tạp KNN dựa vào khoảng cách giữa các điểm dữ liệu để đưa ra dự đoán, nhưng điều này có thể gây khó khăn trong không gian dữ liệu lớn, dẫn đến thời gian tính toán kéo dài và hiệu suất kém.

Ngày đăng: 29/11/2024, 11:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w