1. Trang chủ
  2. » Luận Văn - Báo Cáo

an ninh mạng phát hiện xâm nhập mạng dựa trên bất thường và các phương pháp học máy

45 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện xâm nhập mạng dựa trên bất thường và các phương pháp học máy
Tác giả Đỗ Văn Hải, Nguyễn Quang Huy, Hoàng Hoàng Hà My
Người hướng dẫn PGS.TS Nguyễn Linh Giang
Trường học Trường Đại học Bách khoa Hà Nội, Trường Công nghệ Thông tin và Truyền thông
Chuyên ngành An ninh mạng
Thể loại Đồ án môn học
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 45
Dung lượng 6,44 MB

Nội dung

Nhưng với IPS thì khác nó sb phát hiện ngay từ đầu dấu hiệu của cuộc tấn công và sau đó là khoá ngay các lưu lượng mạng này thì mới có khả n\ng giảm thiểu được các cuộc tấn công.Như vây

Trang 2

Đồ án môn học

Trang 3

MỤC LỤC

MỞ ĐẦU

CHƯƠNG I TỔNG QUAN VỀ PHÁT HIỆN VÀ PHÒNG CHỐNG XÂM NHẬP MẠNG

I.1 Khái niệm IDS/IPS

I.2 Chức năng của IDS/IPS

I.3 Ưu, nhược điểm của IDS Các loại IDS

I.4 Kiến trúc của IDS và nguyên lý hoạt động

CHƯƠNG II CÁC PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG TRONG HỆ THỐNG IDS/IPS VÀ SNORT

II.1 Các phương pháp phát hiện bất thường

II.1.1 Phát hiện xâm nhập mạng bất thường dựa trên luật (rule – based) trong IDS/IPS

II.1.21 Phát hiện xâm nhập mạng bất thường dựa trên các thuật toán học máy

II.1.3 Phát hiện xâm nhập mạng bất thường dựa trên mạng nơ-ron (Artificial Neural Network)

II.2 Hệ thống ngăn chặn xâm nhập SNORT

II.2.1 Snort là gì?

II.2.2 Kiến trúc của Snort

II.2.3 Bộ luật của snort

II.2.4 Cách sử dụng Snort phát hiện xâm nhập mạng

CHƯƠNG III THỬ NGHIỆM PHÁT HIỆN TẤN CÔNG XÂM NHẬP MẠNG BẤT THƯỜNG BẰNG HỌC MÁY

III.1 Các kiểu tấn công Portscan

III.2 Thử nghiệm phát hiện tấn công bằng học máy

III.2.1 Giới thiệu PortscanAI

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Trang 5

MỞ ĐẦU

Hiện nay, Internet đã trở thành phương tiện phổ biến được sử dụng rộng rãi không chỉ trên máy tính cá nhân và máy tính để bàn mà còntrên điện thoại di động và các thiết bị thông minh Mọi lĩnh vực của đời sống như giáo dục, y tế, kinh tế và quốc phòng đều có sự góp mặt của Internet Tuy nhiên, sự phổ cập của Internet đã mở ra nhiềuvấn đề liên quan đến an ninh và bảo mật trên mạng

An ninh mạng trở thành một vấn đề lớn và cực kỳ quan trọng, với mục tiêu chính là đảm bảo an toàn cho môi trường làm việc của cá nhân và tổ chức Các tổn thất về thông tin và bảo mật có thể không đáng kể đối với người dùng cá nhân, nhưng đối với doanh nghiệp và

tổ chức lớn, chúng có thể gây tổn thất lên đến hàng triệu đô la Đặc biệt, trong trường hợp các cơ quan tổ chức thuộc chính phủ hay quốc phòng, nguy cơ lộ thông tin bí mật có thể đe dọa an ninh quốc gia

Các cuộc tấn công có thể nhắm vào mọi thứ, từ dữ liệu cá nhân và tổchức, tài khoản ngân hàng, phần mềm, tài khoản người dùng đến mạng cục bộ Điều này đã thúc đẩy sự phát triển của nhiều công cụ bảo mật nhằm đối mặt với các hình thức nguy hiểm từ phần mềm độc hại và tin tặc ngày nay

Trong bối cảnh hiện nay, một trong những ưu tiên hàng đầu của doanh nghiệp là bảo mật thông tin và an ninh mạng

Do đó, nhóm chúng em lựa chọn đề tài "Phát hiện xâm nhập mạng dựa trên bất thường và các phương pháp học máy" nhằm nghiên cứucác vấn đề về xâm nhập mạng và thực hiện thử nghiệm các phương pháp phát hiện xâm nhập

Trang 7

CHƯƠNG I TỔNG QUAN VỀ PHÁT HIỆN VÀ

PHÒNG CHỐNG XÂM NHẬP MẠNG

I.1 Khái niệm IDS/IPS

IDS – Intrusion Detection System (Hệ thống phát hiện xâm nhập) là

hệ thống phần cứng hoặc phần mềm có chức n\ng tự động theo d]i các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật Khi một hệ thống IDS có khả n\ng ng\n chặn các nguy cơ xâm nhập mà nó phát hiện được thì nó được gọi là một hệ thống phòng chống xâm nhập hay IPS Các vị trí thường cài đặt IDS trong mạng:

Ngày nay công nghệ IDS đã dần được thay thế bằng các giải pháp IPS Ta có thể hiểu đơn giản IDS chỉ là một cái chuông để cảnh báo cho người quản trị biết những nguy cơ có thể xảy ra tấn công đây là một giải pháp giám sát thụ động, tức là chỉ có thể cảnh báo, việc thực hiện ng\n chặn các cuộc tấn công vào hệ thống lại hoàn toàn phụ thuộc vào người quản trị Vì vậy yêu cầu rất cao đối với nhà quản trị trong việc xác định các lưu lượng cần và các lưu lượng bất thường có nghi vấn là dấu hiệu của một cuộc tấn công, công việc này thì trở nên hết sức khó kh\n

Trang 8

Với IPS, người quản trị không những có thể xác định được các lưu lượng khả nghi khi có dấu hiệu tấn công mà còn giảm thiểu được khản\ng xác định sai các lưu lượng Với IPS, các cuộc tấn công sb bị loại

bc ngay khi mới có dấu hiệu và nó hoạt động tuân theo một quy luật

do nhà Quản trị định sen

IDS hiện nay chỉ sử dụng từ một đến 2 cơ chế để phát hiện tấn công phát hiện sự lạm dụng, phát hiện sự bất thường Vì mgi cuộc tấn công lại có các cơ chế khác nhau của nó, vì vậy cần có các cơ chế khác nhau để phân biệt Với IDS, do số lượng cơ chế là ít nên có thể dhn đến tình trạng không phát hiện ra được các cuộc tấn công với cơchế không định sen, dhn đến khả n\ng các cuộc tấn công sb thành công, gây ảnh hưởng đến hệ thống Thêm vào đó, do các cơ chế của IDS là tổng quát, dhn đến tình trạng báo cáo nhầm, cảnh báo nhầm, làm tốn thời gian và công sức của nhà quản trị Với IPS thì được xây dựng trên rất nhiều cơ chế tấn công và hoàn toàn có thể tạo mới các

cơ chế phù hợp với các dạng thức tấn công mới nên sb giảm thiểu được khả n\ng tấn công của mạng, thêm đó, độ chính xác của IPS là cao hơn so với IDS

Với IDS, việc đáp ứng lại các cuộc tấn công chỉ có thể xuất hiện sau khi gói tin của cuộc tấn công đã đi tới đích, lúc đó việc chống lại tấn công là việc nó gửi các yêu cầu đến các máy của hệ thống để xoá các kết nối đến máy tấn công và máy chủ, hoặc là gửi thông tin thông báo đên tường lửa ( Firewall) để tường lửa thực hiện chức n\ng của nó, tuy nhiên, việc làm này đôi khi lại gây tác động phụ đến hệ thống Ví dụ: như nếu Attacker giả mạo (sniffer) của một đối tác, hay là khách hàng, để tạo một cuộc tấn công từ chối dịch vụ thì

có thể thấy rằng, mặc dù IDS có thể chặn được cuộc tấn công từ chốidịch vụ nhưng nó clng sb Block luôn cả IP của khách hàng, đối tác, như vậy thiệt hại vhn tnn tại và coi như hiệu ứng phụ của DoS thành

Trang 9

công mặc dù cuộc tấn công từ chối dịch vụ thất bại Nhưng với IPS thì khác nó sb phát hiện ngay từ đầu dấu hiệu của cuộc tấn công và sau đó là khoá ngay các lưu lượng mạng này thì mới có khả n\ng giảm thiểu được các cuộc tấn công.

Như vây các hệ thống IDS được thiết kế với mục đích chủ yếu là pháthiện và cảnh báo các nguy cơ xâm nhập đối với mạng máy tính nó đang bảo vệ trong khi đó, một hệ thống IPS ngoài khả n\ng phát hiện còn có thể tự hành động chống lại các nguy cơ theo các quy định được người quản trị thiết lập sen

I.2 Chức năng của IDS/IPS

Chức n\ng quan trọng nhất của IDS là: giám sát – cảnh báo – bảo vệ

Giám sát: lưu lượng mạng và các hoạt động khả nghi.Cảnh báo: báo cáo về tình trạng mạng cho hệ thống và nhà quản trị

Bảo vệ: dùng những thiết lập mặc định và sự cấu hình từnhà quản trị mà có những hành động thiết thực chống lại kẻ xâm nhập và phá hoại

Phát hiện: những dấu hiệu bất thường dựa trên những gì đã biết hoặc nhờ vào sự so sánh thông lượng mạng hiện tại với baseline Ngoài ra hệ thống phát hiện xâm nhập IDS còn có chức n\ng:

Ng\n chặn sự gia t\ng của những tấn công

Bổ sung những điểm yếu mà các hệ thống khác chưa làm được

Đánh giá chất lượng của việc thiết kế hệ thống

Trang 10

I.3 Ưu, nhược điểm của IDS Các loại IDS

Ngày nay công nghệ IDS đã dần được thay thế bằng các giải pháp IPS Tuy nhiên trên thực tế, một số hệ thống IDS được thiết kế với khả n\ng ng\n chặn như một chức n\ng tùy chọn Trong khi đó, một

số hệ thống IPS lại không mang đầy đủ chức n\ng của một hệ thống phòng chống theo đúng nghĩa

Ưu điểm của IDS gồm:

Phát hiện sớm các hoạt động xâm nhập

Cảnh báo và phản ứng nhanh

Ghi lại và phân tích

Đảm bảo sự hoạt động ổn định và tin cậy của hệ thống Tuy nhiên, hệ thống IDS vẫn còn tồn đọng những nhược điểm

cần lưu ý để sử dụng hiệu quả:

IDS cần được cấu hình đúng để tránh báo động nhầm Khả n\ng phân tích traffic mã hóa của IDS còn tương đốithấp

Chi phí phát triển và vận hành hệ thống clng khá cao.Các loại IDS:

Network IDS (NIDS)

Là hệ thống phát hiện xâm nhậpmạng NIDS giám sát và phân tích lưu lượng mạng để phát hiện các hoạt động xâm nhập hoặc bất thường trên mạng.Nod Network IDS Là hệ thống phát hiện xâm nhập

mạng dựa trên các nút mạng

Trang 11

Nod Network IDS được triển khaitại các điểm truy cập vào mạng hoặc trong các phân đoạn mạng

cụ thể để giám sát và phát hiện các hoạt động xâm nhập

Host IDS (HIDS)

Là hệ thống phát hiện xâm nhậptrên máy chủ hoặc thiết bị cuối HIDS giám sát và phân tích hoạtđộng của một máy chủ hoặc thiết bị đơn lẻ để phát hiện các hoạt động xâm nhập hoặc bất thường trên máy chủ

I.4 Kiến trúc của IDS và nguyên lý hoạt động

Kiến trúc

IDS bao gồm các thành phần chính: thành phần thu thập gói tin (information collection), thành phần phân tích gói tin (Detection), thành phần phản hồi (response) nếu gói tin đó được phát hiện là một cuộc tấn công

Thành phần phân tích gói tin là quan trọng nhất và ở thành phần này bộcảm biến đóng vai trò quyết định Bộ cảm biến tích hợp với thành phần

Trang 12

là sưu tập dữ liệu và một bộ tạo sự kiến Cách sưu tập này được xác định bởi chính sách tạo sự kiện để định nghĩa chế độ lọc thông tin sự kiện Vai trò của bộ cảm biến là dùng để lọc thông tin và loại bỏ dữ liệu không tương thích đạt được từ các sự kiện liên quan với hệ thống bảo vệ, vì vậy có thể phát hiện được các hành động nghi ngờ Bộ phân tích sử dụng cơ sở dữ liệu chính sách phát hiện cho mục này Ngoài ra còn có các thành phần: dấu hiệu tấn công, profile hành vi thông thường, các tham số cần thiết Thêm vào đó, cơ sở dữ liệu giữa các tham số cấu hình, gồm các chế độ truyền thông với module đáp trả Bộ cảm biến cũng có sơ sở dữ liệu của riêng nó.

Nguyên lý hoạt động

Một host tạo ra một gói tin mạng

Các cảm biến trong mạng đọc các gói tin trong khoảng thời gian trước khi nó được gửi ra khỏi mạng cục bộ (cảm biến này cần phải được đặt sao cho nó có thể đọc tất cả các gói tin)

Chương trình phát hiện nằm trong bộ cảm biến kiểm tra xem có gói tin nào có dấu hiệu vi phạm hay không Khi có dấu hiệu vi phạm thì một cảnh báo sẽ được tạo ra và gửi đến giao diện điều khiển

Khi giao diện điều khiển lệnh nhận được cảnh báo nó sẽ gửi thông báo cho một người hoặc một nhóm đã được chỉ định từ trước (thông qua email, cửa sổ popup, trang web v.v…)

Phản hồi được khởi tạo theo quy định ứng với dấu hiệu xâm nhập này.Các cảnh báo được lưu lại để tham khảo trong tương lai (trên địa chỉ cục bộ hoặc trên cơ sở dữ liệu)

Một báo cáo tóm tắt về chi tiết của sự cố được tạo ra

Cảnh báo được so sánh với các dữ liệu khác để xác định xem đây có phải là cuộc tấn công hay không

Trang 13

CHƯƠNG II CÁC PHƯƠNG PHÁP PHÁT HIỆN TẤN

CÔNG TRONG HỆ THỐNG IDS/IPS VÀ SNORT

II.1 Các phương pháp phát hiện bất thường

Các phương pháp thường được sử dụng trong bài toán phát hiện xâmnhập mạng là: phát hiện dựa trên luật (rule-based) và mạng nơ-ron

Trang 14

II.1.1 Phát hiện xâm nhập mạng bất thường dựa

trên luật (rule – based) trong IDS/IPS

Đây là phương pháp ra đời từ rất sớm và được ứng dụng vào lĩnh vực

dò lgi hay phát hiện bất thường trong mạng Trong hệ chuyên gia, một cơ sở dữ liệu chứa tập luật (rules) miêu tả các hành vi bất thường được dùng để so sánh với các lunng dữ liệu đi đến hệ thống mạng Nếu một lunng dữ liệu đi đến hệ thống với mục đích tấn công

mà không được định nghĩa trong tập luật thì hệ thống IDS không thể phát hiện được Trên thực tế phương pháp này được áp dụng cho hệ thống phát hiện xâm nhập Snort rất nổi tiếng

Ưu điểm: Hệ thống phát hiện bất thường dựa trên rule-based có đặcđiểm dễ cấu hình, dễ thêm luật mới và dễ sử dụng Mgi khi hệ thống mạng đứng trước những nguy cơ tấn công mới, người quản trị chỉ việc cập nhật thêm các luật chưa có vào cơ sở dữ liệu Phương pháp này có tỉ lệ phát hiện nhầm rất thấp vì nó dùng cách phân tích gói tin và so sánh với mhu đã có

Nhược điểm: hệ thống phát hiện xâm nhập dựa trên rule-based sb trở nên chậm chạp dần khi tập luật phình to lên Khi khối lượng luật quá lớn hệ thống sb không đáp ứng được yêu cầu của các ứng dụng thời gian thực Những bất cập xảy ra có thể là: gói tin bị nghbn cổ chai, số lượng kết nối TCP mở nhiều trên mức cho phép, b\ng thông đạt mức tối đa Phương pháp này còn có một nhược điểm là phụ thuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi

hệ thống mạng được mở rộng do mgi khi hệ thống có sự thay đổi thì cần có sự bổ sung về tập luật

Cơ chế hoạt động của phương pháp rule-based có thể được diễn giải như sau:

Trang 15

Giả sử các sự kiện phát triển theo 1 trình tự nhất định.

Mô tả hành vi hoạt động bình thường của hệ thống dưới dạng các luật đã được rút gọn Ví dụ: A => B => C, sự kiện A xảy ra xong đến sự kiện B, B xong thì đến sự kiện C

Ta có một tập luật, so sánh các chugi sự kiện đưa vào với tập luật, nếu các sự kiện đưa vào phù hợp với vế trái của một luật mà không trùng với về phải của luật đó thì

có thể xem xét xác định bất thường ở đây Như ở ví dụ trên trong thực tế sự kiện A dhn đến sự kiện B, nhưng sựkiện B xảy ra cuối cùng lại dhn đến sự kiện D mà không phải là C thì có thể kết luận là có sự kiện bất thường diễn ra ở đây

II.1.2 Phát hiện xâm nhập mạng bất thường dựa trên

các thuật toán học máy

Phát hiện xâm nhập mạng bất thường dựa trên tập luật còn nhược điểm đáng chú ý như tốc độ sb chậm dần khi tập luật lớn, phụ thuộc vào tập luật do người quản trị đặt ra và cần được cập nhật tập luật thường xuyên Từ đó dhn đến sự ra đời của một trong những phươngpháp tiên tiến để thực hiện phát hiện xâm nhập mạng là sử dụng học máy, một lĩnh vực của trí tuệ nhân tạo

Phương pháp này sử dụng các mô hình học máy để phân loại hoạt động trên mạng là bình thường hay bất thường Các mô hình này được huấn luyện thông qua dữ liệu lớn về các hoạt động mạng, giúp chúng học được các đặc trưng của các hành vi bình thường và phát hiện sự thay đổi đột ngột và bất thường trong môi trường mạng.Điểm mạnh của phương pháp này là khả n\ng tự động hóa quá trìnhphát hiện mà không yêu cầu sự can thiệp thủ công liên tục Các mô hình học máy có khả n\ng nhận biết các biểu hiện mà không dựa

Trang 16

vào cơ sở dữ liệu cụ thể của các tấn công đã biết trước, giúp chúng đối mặt tốt với các mối đe dọa mới và phức tạp Bên cạnh đó, các

mô hình có khả n\ng thích ứng với dữ liệu không đầy đủ, không chắcchắn và không đòi hci người quản trị cập nhật tri thức thường xuyên,nhờ quá trình tự học

Thuật toán học máy phổ biến nhất được sử dụng cho IDS là cây quyết định, K-nearest-neighbors (KNN), máy vectơ hg trợ (SVM), cụmK-Mean và mạng nơ – ron nhân tạo (ANN) (được trình bày ở mục

II.1.3 của báo cáo)

a Decision Tree (DT)

Thuật toán Decision Tree là một phương pháp mạnh mb trong lĩnh vực máy học, được thiết kế để đưa ra quyết định dựa trên dữ liệu đào tạo Nguyên tắc hoạt động của thuật toán là chia tập dữ liệu thành các phần con dựa trên các quy tắc quyết định, tạo ra một cây quyết định với một nhánh đại diện cho một quyết định hoặc quy tắc trong khi mgi lá đại diện cho một kết quả hoặc nhãn lớp Thuật toán

DT sb tự động chọn các tính n\ng tốt nhất để xây dựng nên cây quyết định và sau đó thực hiện thao tác cắt tỉa để loại bc các nhánh không liên quan từ cây để tránh sự phù hợp

Các mô hình DT phổ biến nhất là Cart, C4.5 và ID3 Nhiều thuật toánhọc tập nâng cao như rừng nghu nhiên (Random Forest) và XGBoost (eXtreme Gradient Boosting) được xây dựng từ nhiều cây quyết định

b K-Nearest Neighbor (KNN)

Thuật toán K-Nearest Neighbors (KNN) là một phương pháp máy họcgiúp thực hiện phân loại và dự đoán dựa trên nguyên lý gần nhất trong không gian đặc trưng KNN hoạt động bằng cách xác định nhãn của một điểm dữ liệu mới dựa trên đa số nhãn của K điểm dữ

Trang 17

liệu gần nhất trong tập huấn luyện Thuật toán này phản ánh triết lý

"người hàng xóm gần nhất", giả sử rằng các điểm dữ liệu có thuộc tính tương tự clng có kết quả tương tự

KNN không yêu cầu giả định về phân phối của dữ liệu và có khả n\ng xử lý cả dữ liệu rời rạc và liên tục Mặc dù đơn giản, KNN có thểđưa ra các dự đoán chính xác đối với nhiều bài toán, đặc biệt là khi

có một lượng lớn dữ liệu huấn luyện và không có giả định cụ thể về

mô hình

c Support Vector Machine (SVM)

Support Vector Machine (SVM) là một thuật toán máy học thuộc họ các thuật toán học có giám sát, được sử dụng rộng rãi trong các nhiệm vụ phân loại và hni quy Mục tiêu chính của SVM là tìm ra ranh giới phân chia tốt nhất giữa các lớp dữ liệu bằng cách tận dụng các "vector hg trợ" trong không gian đặc trưng

Thuật toán SVM hoạt động bằng cách tìm ra ranh giới phân loại sao cho khoảng cách giữa các điểm dữ liệu và đường ranh giới là lớn nhất Các điểm dữ liệu gần nhất với đường ranh giới được gọi là các vector hg trợ SVM có khả n\ng xử lý cả dữ liệu tuyến tính và phi tuyến tính, bằng cách sử dụng các hàm nhân (kernel functions) để ánh xạ dữ liệu vào các không gian cao chiều và tìm ra đường ranh giới phân loại phức tạp hơn

Một ưu điểm quan trọng của SVM là khả n\ng xử lý tốt trong các không gian đặc trưng lớn, giảm nguy cơ quá mức cực kỳ hiệu quả Đnng thời, SVM clng tc ra ổn định và hiệu quả trong việc xử lý nhiễu

và dữ liệu không đnng nhất

Trang 18

d K-mean Clustering

Thuật toán K-Means Clustering là một phương pháp phân nhóm dữ liệu không giám sát phổ biến trong lĩnh vực máy học và thống kê Mục tiêu của K-Means là chia tập dữ liệu thành các nhóm (clusters) sao cho các điểm dữ liệu trong mgi nhóm có sự tương đnng lớn nhất với một tâm của nhóm, được gọi là "centroid"

Thuật toán hoạt động theo các bước cơ bản Ban đầu, K centroids nghu nhiên được chọn từ tập dữ liệu Sau đó, mgi điểm dữ liệu được gán vào nhóm có centroid gần nhất Tiếp theo, centroid mới được tính toán bằng cách lấy trung bình của tất cả các điểm dữ liệu trong nhóm Quá trình gán và cập nhật centroid lặp lại cho đến khi sự biếnđộng của centroids giảm đến một ngưỡng nhất định hoặc số lần lặp đạt đến giới hạn đã đặt trước Mặc dù đơn giản và hiệu quả, K-Meansyêu cầu lựa chọn số lượng nhóm K trước khi thực hiện, và kết quả còn phụ thuộc vào lựa chọn khởi tạo ban đầu của centroids

II.1.3 Phát hiện xâm nhập mạng bất thường dựa trên

mạng nơ-ron (Artificial Neural Network)

a Giới thiệu mạng nơ – ron

Mạng nơ-ron nhân tạo được xây dựng dựa trên các nguyên tắc về cấu tạo và hoạt động của các tế bào nơ-ron trong não bộ con người Nơ-ron là đơn vị cơ bản cấu tạo hệ thống thần kinh và là một phần quan trọng nhất của não Não chúng ta gnm khoảng 10 triệu nơ-ron

và mgi nơ-ron liên kết với 10.000 nơ-ron khác

Trang 19

H Nơ ron nhân tạo mô phỏng nơ ron sinh học

Mạng nơ-ron nhân tạo bao gnm nhiều lớp (layer) khác nhau, độ

«ƒsâuƒ» của mạng được thể hiện ở số lượng lớp trong mạng đó Trongmgi lớp có các nút mạng (node, nơ-ron) và được liên kết với các lớp liền kề khác Trong học máy, nơ ron được định nghĩa là một hàm toán học nhận vào một hay nhiều giá trị đầu vào được nhân với các trọng số (weight) Trọng số là giá trị thể hiện của mgi kết nối giữa hai nút mạng, trọng số này càng lớn thì kết nối này càng quan trọng đối với mạng

Nơron được định nghĩa với công thức sauƒ:

Trang 20

Hàm f được gọi là hàm kích hoạt (activation function).Mạng nơ – ron nhân tạo là sự kết hợp của những tầng perceptron hay còn gọi là perceptron đa tầng Cấu trúc mạng nơ – ron thường bao gnm 3 kiểu tầng (lớp): lớp vào, lớp ra, lớp ẩn Lớp đầu tiên của mạng nơ-ron nhân tạo (input layer) nhận thông tin đầu vào từ ngunnbên ngoài và chuyển nó đến lớp ẩn (hidden layer), một mạng có thể

có một hay nhiều lớp ẩn Mgi nơ-ron ở lớp ẩn nhận thông tin từ những nơ-ron ở lớp ngay trước đó, tính toán tổng trọng số, sau đó chuyển tiếp cho các nơ-ron ở lớp tiếp theo Các trọng số này được điều chỉnh trong quá trình huấn luyện để nâng cao hiệu suất của môhình Bên cạnh đó, mgi nơ-ron sb có một hàm kích hoạt (activation function) có nhiệm vụ chuẩn hóa đầu ra từ nơ-ron này Cuối cùng, kết quả sb được trả về ở layer cuối cùng (output layer)

Trong thực tế, nhiều bài toán yêu cầu đầu ra gnm nhiều hơn một giátrị Do đó ta thường xây dựng những mạng nơ ron với lớp đầu ra gnm nhiều nút mạng

Trang 21

Để xây dựng một Hệ thống Phát hiện Xâm nhập (IDS) dựa trên mạngnơ-ron, quá trình này được chia thành ba giai đoạn chi tiết như sau:

Thu thập dữ liệu huấn luyện:

Tiến hành thu thập dữ liệu huấn luyện bằng cách thực hiện thống kê trên các nhật ký đ\ng nhập của mgi người dùng trong một khoảng thời gian cụ thể

Xây dựng một vector thể hiện tần suất sử dụng các lệnh của mgi người dùng trong mgi ngày Vector này phản ánh mức độ thường xuyên của từng lệnh được thực hiện bởi người dùng

Huấn luyện mạng nơ-ron:

Sử dụng các vectơ phân phối câu lệnh được tạo ra

từ dữ liệu huấn luyện để huấn luyện mạng nơ-ron.Mục tiêu của quá trình này là phát triển khả n\ngnhận dạng người sử dụng dựa trên các đặc điểm củavectơ phân phối lệnh

Thông qua quy trình này, hệ thống IDS dựa trên mạng nơ-ron có khản\ng học và nhận biết các mô hình hành vi của người sử dụng dựa trên tần suất và phân phối lệnh, từ đó cung cấp khả n\ng phát hiện sớm và cảnh báo về những hoạt động không bình thường trong hệ thống

Trang 22

Ưu điểm của mạng nơ – ron:

Dễ dàng thích ứng với các kiểu dữ liệu không đầy đủ: Mạng nơ-ron có khả n\ng làm việc hiệu quả với dữ liệu không đầy đủ, không hoàn chỉnh, hoặc có độ chắc chắn thấp, giúp nó linh hoạt trong việc xử lý nhiều loại dữ liệukhác nhau

Đưa ra các kết quả mà không cần sự can thiệp quá nhiều của người quản trị: Mạng nơ-ron có khả n\ng tự học và tự điều chỉnh dựa trên dữ liệu huấn luyện, giảm

sự phụ thuộc vào sự can thiệp của người quản trị Điều này giúp t\ng tính tự động và giảm gánh nặng công việc

Nhược điểm của mạng nơ – ron:

Đòi hci thời gian để chuẩn hóa xây dựng dữ liệu: Quá trình chuẩn hóa và xây dựng dữ liệu cho mạng nơ-ron cóthể đòi hci nhiều thời gian và công sức, đặc biệt là khi cần sửa lgi, làm sạch dữ liệu, và định dạng dữ liệu đầu vào sao cho phù hợp với yêu cầu của mô hình

b Giải thuật lan truyền ngược – Backpropagation

Backpropagation (lan truyền ngược) là một thuật toán quan trọng trong quá trình huấn luyện mạng nơ-ron, đặc biệt là trong các mô hình sâu Quá trình này giúp mô hình "học" từ dữ liệu bằng cách điều chỉnh trọng số của các liên kết giữa các nơ-ron

Ngày đăng: 25/05/2024, 22:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w