Nhưng với IPS thì khác nó sb phát hiện ngay từ đầu dấu hiệu của cuộc tấn công và sau đó là khoá ngay các lưu lượng mạng này thì mới có khả n\ng giảm thiểu được các cuộc tấn công.Như vây
Trang 2Đồ án môn học
Trang 3MỤC LỤC
MỞ ĐẦU
CHƯƠNG I TỔNG QUAN VỀ PHÁT HIỆN VÀ PHÒNG CHỐNG XÂM NHẬP MẠNG
I.1 Khái niệm IDS/IPS
I.2 Chức năng của IDS/IPS
I.3 Ưu, nhược điểm của IDS Các loại IDS
I.4 Kiến trúc của IDS và nguyên lý hoạt động
CHƯƠNG II CÁC PHƯƠNG PHÁP PHÁT HIỆN TẤN CÔNG TRONG HỆ THỐNG IDS/IPS VÀ SNORT
II.1 Các phương pháp phát hiện bất thường
II.1.1 Phát hiện xâm nhập mạng bất thường dựa trên luật (rule – based) trong IDS/IPS
II.1.21 Phát hiện xâm nhập mạng bất thường dựa trên các thuật toán học máy
II.1.3 Phát hiện xâm nhập mạng bất thường dựa trên mạng nơ-ron (Artificial Neural Network)
II.2 Hệ thống ngăn chặn xâm nhập SNORT
II.2.1 Snort là gì?
II.2.2 Kiến trúc của Snort
II.2.3 Bộ luật của snort
II.2.4 Cách sử dụng Snort phát hiện xâm nhập mạng
CHƯƠNG III THỬ NGHIỆM PHÁT HIỆN TẤN CÔNG XÂM NHẬP MẠNG BẤT THƯỜNG BẰNG HỌC MÁY
III.1 Các kiểu tấn công Portscan
III.2 Thử nghiệm phát hiện tấn công bằng học máy
III.2.1 Giới thiệu PortscanAI
KẾT LUẬN
TÀI LIỆU THAM KHẢO
Trang 5MỞ ĐẦU
Hiện nay, Internet đã trở thành phương tiện phổ biến được sử dụng rộng rãi không chỉ trên máy tính cá nhân và máy tính để bàn mà còntrên điện thoại di động và các thiết bị thông minh Mọi lĩnh vực của đời sống như giáo dục, y tế, kinh tế và quốc phòng đều có sự góp mặt của Internet Tuy nhiên, sự phổ cập của Internet đã mở ra nhiềuvấn đề liên quan đến an ninh và bảo mật trên mạng
An ninh mạng trở thành một vấn đề lớn và cực kỳ quan trọng, với mục tiêu chính là đảm bảo an toàn cho môi trường làm việc của cá nhân và tổ chức Các tổn thất về thông tin và bảo mật có thể không đáng kể đối với người dùng cá nhân, nhưng đối với doanh nghiệp và
tổ chức lớn, chúng có thể gây tổn thất lên đến hàng triệu đô la Đặc biệt, trong trường hợp các cơ quan tổ chức thuộc chính phủ hay quốc phòng, nguy cơ lộ thông tin bí mật có thể đe dọa an ninh quốc gia
Các cuộc tấn công có thể nhắm vào mọi thứ, từ dữ liệu cá nhân và tổchức, tài khoản ngân hàng, phần mềm, tài khoản người dùng đến mạng cục bộ Điều này đã thúc đẩy sự phát triển của nhiều công cụ bảo mật nhằm đối mặt với các hình thức nguy hiểm từ phần mềm độc hại và tin tặc ngày nay
Trong bối cảnh hiện nay, một trong những ưu tiên hàng đầu của doanh nghiệp là bảo mật thông tin và an ninh mạng
Do đó, nhóm chúng em lựa chọn đề tài "Phát hiện xâm nhập mạng dựa trên bất thường và các phương pháp học máy" nhằm nghiên cứucác vấn đề về xâm nhập mạng và thực hiện thử nghiệm các phương pháp phát hiện xâm nhập
Trang 7CHƯƠNG I TỔNG QUAN VỀ PHÁT HIỆN VÀ
PHÒNG CHỐNG XÂM NHẬP MẠNG
I.1 Khái niệm IDS/IPS
IDS – Intrusion Detection System (Hệ thống phát hiện xâm nhập) là
hệ thống phần cứng hoặc phần mềm có chức n\ng tự động theo d]i các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật Khi một hệ thống IDS có khả n\ng ng\n chặn các nguy cơ xâm nhập mà nó phát hiện được thì nó được gọi là một hệ thống phòng chống xâm nhập hay IPS Các vị trí thường cài đặt IDS trong mạng:
Ngày nay công nghệ IDS đã dần được thay thế bằng các giải pháp IPS Ta có thể hiểu đơn giản IDS chỉ là một cái chuông để cảnh báo cho người quản trị biết những nguy cơ có thể xảy ra tấn công đây là một giải pháp giám sát thụ động, tức là chỉ có thể cảnh báo, việc thực hiện ng\n chặn các cuộc tấn công vào hệ thống lại hoàn toàn phụ thuộc vào người quản trị Vì vậy yêu cầu rất cao đối với nhà quản trị trong việc xác định các lưu lượng cần và các lưu lượng bất thường có nghi vấn là dấu hiệu của một cuộc tấn công, công việc này thì trở nên hết sức khó kh\n
Trang 8Với IPS, người quản trị không những có thể xác định được các lưu lượng khả nghi khi có dấu hiệu tấn công mà còn giảm thiểu được khản\ng xác định sai các lưu lượng Với IPS, các cuộc tấn công sb bị loại
bc ngay khi mới có dấu hiệu và nó hoạt động tuân theo một quy luật
do nhà Quản trị định sen
IDS hiện nay chỉ sử dụng từ một đến 2 cơ chế để phát hiện tấn công phát hiện sự lạm dụng, phát hiện sự bất thường Vì mgi cuộc tấn công lại có các cơ chế khác nhau của nó, vì vậy cần có các cơ chế khác nhau để phân biệt Với IDS, do số lượng cơ chế là ít nên có thể dhn đến tình trạng không phát hiện ra được các cuộc tấn công với cơchế không định sen, dhn đến khả n\ng các cuộc tấn công sb thành công, gây ảnh hưởng đến hệ thống Thêm vào đó, do các cơ chế của IDS là tổng quát, dhn đến tình trạng báo cáo nhầm, cảnh báo nhầm, làm tốn thời gian và công sức của nhà quản trị Với IPS thì được xây dựng trên rất nhiều cơ chế tấn công và hoàn toàn có thể tạo mới các
cơ chế phù hợp với các dạng thức tấn công mới nên sb giảm thiểu được khả n\ng tấn công của mạng, thêm đó, độ chính xác của IPS là cao hơn so với IDS
Với IDS, việc đáp ứng lại các cuộc tấn công chỉ có thể xuất hiện sau khi gói tin của cuộc tấn công đã đi tới đích, lúc đó việc chống lại tấn công là việc nó gửi các yêu cầu đến các máy của hệ thống để xoá các kết nối đến máy tấn công và máy chủ, hoặc là gửi thông tin thông báo đên tường lửa ( Firewall) để tường lửa thực hiện chức n\ng của nó, tuy nhiên, việc làm này đôi khi lại gây tác động phụ đến hệ thống Ví dụ: như nếu Attacker giả mạo (sniffer) của một đối tác, hay là khách hàng, để tạo một cuộc tấn công từ chối dịch vụ thì
có thể thấy rằng, mặc dù IDS có thể chặn được cuộc tấn công từ chốidịch vụ nhưng nó clng sb Block luôn cả IP của khách hàng, đối tác, như vậy thiệt hại vhn tnn tại và coi như hiệu ứng phụ của DoS thành
Trang 9công mặc dù cuộc tấn công từ chối dịch vụ thất bại Nhưng với IPS thì khác nó sb phát hiện ngay từ đầu dấu hiệu của cuộc tấn công và sau đó là khoá ngay các lưu lượng mạng này thì mới có khả n\ng giảm thiểu được các cuộc tấn công.
Như vây các hệ thống IDS được thiết kế với mục đích chủ yếu là pháthiện và cảnh báo các nguy cơ xâm nhập đối với mạng máy tính nó đang bảo vệ trong khi đó, một hệ thống IPS ngoài khả n\ng phát hiện còn có thể tự hành động chống lại các nguy cơ theo các quy định được người quản trị thiết lập sen
I.2 Chức năng của IDS/IPS
Chức n\ng quan trọng nhất của IDS là: giám sát – cảnh báo – bảo vệ
Giám sát: lưu lượng mạng và các hoạt động khả nghi.Cảnh báo: báo cáo về tình trạng mạng cho hệ thống và nhà quản trị
Bảo vệ: dùng những thiết lập mặc định và sự cấu hình từnhà quản trị mà có những hành động thiết thực chống lại kẻ xâm nhập và phá hoại
Phát hiện: những dấu hiệu bất thường dựa trên những gì đã biết hoặc nhờ vào sự so sánh thông lượng mạng hiện tại với baseline Ngoài ra hệ thống phát hiện xâm nhập IDS còn có chức n\ng:
Ng\n chặn sự gia t\ng của những tấn công
Bổ sung những điểm yếu mà các hệ thống khác chưa làm được
Đánh giá chất lượng của việc thiết kế hệ thống
Trang 10I.3 Ưu, nhược điểm của IDS Các loại IDS
Ngày nay công nghệ IDS đã dần được thay thế bằng các giải pháp IPS Tuy nhiên trên thực tế, một số hệ thống IDS được thiết kế với khả n\ng ng\n chặn như một chức n\ng tùy chọn Trong khi đó, một
số hệ thống IPS lại không mang đầy đủ chức n\ng của một hệ thống phòng chống theo đúng nghĩa
Ưu điểm của IDS gồm:
Phát hiện sớm các hoạt động xâm nhập
Cảnh báo và phản ứng nhanh
Ghi lại và phân tích
Đảm bảo sự hoạt động ổn định và tin cậy của hệ thống Tuy nhiên, hệ thống IDS vẫn còn tồn đọng những nhược điểm
cần lưu ý để sử dụng hiệu quả:
IDS cần được cấu hình đúng để tránh báo động nhầm Khả n\ng phân tích traffic mã hóa của IDS còn tương đốithấp
Chi phí phát triển và vận hành hệ thống clng khá cao.Các loại IDS:
Network IDS (NIDS)
Là hệ thống phát hiện xâm nhậpmạng NIDS giám sát và phân tích lưu lượng mạng để phát hiện các hoạt động xâm nhập hoặc bất thường trên mạng.Nod Network IDS Là hệ thống phát hiện xâm nhập
mạng dựa trên các nút mạng
Trang 11Nod Network IDS được triển khaitại các điểm truy cập vào mạng hoặc trong các phân đoạn mạng
cụ thể để giám sát và phát hiện các hoạt động xâm nhập
Host IDS (HIDS)
Là hệ thống phát hiện xâm nhậptrên máy chủ hoặc thiết bị cuối HIDS giám sát và phân tích hoạtđộng của một máy chủ hoặc thiết bị đơn lẻ để phát hiện các hoạt động xâm nhập hoặc bất thường trên máy chủ
I.4 Kiến trúc của IDS và nguyên lý hoạt động
Kiến trúc
IDS bao gồm các thành phần chính: thành phần thu thập gói tin (information collection), thành phần phân tích gói tin (Detection), thành phần phản hồi (response) nếu gói tin đó được phát hiện là một cuộc tấn công
Thành phần phân tích gói tin là quan trọng nhất và ở thành phần này bộcảm biến đóng vai trò quyết định Bộ cảm biến tích hợp với thành phần
Trang 12là sưu tập dữ liệu và một bộ tạo sự kiến Cách sưu tập này được xác định bởi chính sách tạo sự kiện để định nghĩa chế độ lọc thông tin sự kiện Vai trò của bộ cảm biến là dùng để lọc thông tin và loại bỏ dữ liệu không tương thích đạt được từ các sự kiện liên quan với hệ thống bảo vệ, vì vậy có thể phát hiện được các hành động nghi ngờ Bộ phân tích sử dụng cơ sở dữ liệu chính sách phát hiện cho mục này Ngoài ra còn có các thành phần: dấu hiệu tấn công, profile hành vi thông thường, các tham số cần thiết Thêm vào đó, cơ sở dữ liệu giữa các tham số cấu hình, gồm các chế độ truyền thông với module đáp trả Bộ cảm biến cũng có sơ sở dữ liệu của riêng nó.
Nguyên lý hoạt động
Một host tạo ra một gói tin mạng
Các cảm biến trong mạng đọc các gói tin trong khoảng thời gian trước khi nó được gửi ra khỏi mạng cục bộ (cảm biến này cần phải được đặt sao cho nó có thể đọc tất cả các gói tin)
Chương trình phát hiện nằm trong bộ cảm biến kiểm tra xem có gói tin nào có dấu hiệu vi phạm hay không Khi có dấu hiệu vi phạm thì một cảnh báo sẽ được tạo ra và gửi đến giao diện điều khiển
Khi giao diện điều khiển lệnh nhận được cảnh báo nó sẽ gửi thông báo cho một người hoặc một nhóm đã được chỉ định từ trước (thông qua email, cửa sổ popup, trang web v.v…)
Phản hồi được khởi tạo theo quy định ứng với dấu hiệu xâm nhập này.Các cảnh báo được lưu lại để tham khảo trong tương lai (trên địa chỉ cục bộ hoặc trên cơ sở dữ liệu)
Một báo cáo tóm tắt về chi tiết của sự cố được tạo ra
Cảnh báo được so sánh với các dữ liệu khác để xác định xem đây có phải là cuộc tấn công hay không
Trang 13CHƯƠNG II CÁC PHƯƠNG PHÁP PHÁT HIỆN TẤN
CÔNG TRONG HỆ THỐNG IDS/IPS VÀ SNORT
II.1 Các phương pháp phát hiện bất thường
Các phương pháp thường được sử dụng trong bài toán phát hiện xâmnhập mạng là: phát hiện dựa trên luật (rule-based) và mạng nơ-ron
Trang 14II.1.1 Phát hiện xâm nhập mạng bất thường dựa
trên luật (rule – based) trong IDS/IPS
Đây là phương pháp ra đời từ rất sớm và được ứng dụng vào lĩnh vực
dò lgi hay phát hiện bất thường trong mạng Trong hệ chuyên gia, một cơ sở dữ liệu chứa tập luật (rules) miêu tả các hành vi bất thường được dùng để so sánh với các lunng dữ liệu đi đến hệ thống mạng Nếu một lunng dữ liệu đi đến hệ thống với mục đích tấn công
mà không được định nghĩa trong tập luật thì hệ thống IDS không thể phát hiện được Trên thực tế phương pháp này được áp dụng cho hệ thống phát hiện xâm nhập Snort rất nổi tiếng
Ưu điểm: Hệ thống phát hiện bất thường dựa trên rule-based có đặcđiểm dễ cấu hình, dễ thêm luật mới và dễ sử dụng Mgi khi hệ thống mạng đứng trước những nguy cơ tấn công mới, người quản trị chỉ việc cập nhật thêm các luật chưa có vào cơ sở dữ liệu Phương pháp này có tỉ lệ phát hiện nhầm rất thấp vì nó dùng cách phân tích gói tin và so sánh với mhu đã có
Nhược điểm: hệ thống phát hiện xâm nhập dựa trên rule-based sb trở nên chậm chạp dần khi tập luật phình to lên Khi khối lượng luật quá lớn hệ thống sb không đáp ứng được yêu cầu của các ứng dụng thời gian thực Những bất cập xảy ra có thể là: gói tin bị nghbn cổ chai, số lượng kết nối TCP mở nhiều trên mức cho phép, b\ng thông đạt mức tối đa Phương pháp này còn có một nhược điểm là phụ thuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi
hệ thống mạng được mở rộng do mgi khi hệ thống có sự thay đổi thì cần có sự bổ sung về tập luật
Cơ chế hoạt động của phương pháp rule-based có thể được diễn giải như sau:
Trang 15Giả sử các sự kiện phát triển theo 1 trình tự nhất định.
Mô tả hành vi hoạt động bình thường của hệ thống dưới dạng các luật đã được rút gọn Ví dụ: A => B => C, sự kiện A xảy ra xong đến sự kiện B, B xong thì đến sự kiện C
Ta có một tập luật, so sánh các chugi sự kiện đưa vào với tập luật, nếu các sự kiện đưa vào phù hợp với vế trái của một luật mà không trùng với về phải của luật đó thì
có thể xem xét xác định bất thường ở đây Như ở ví dụ trên trong thực tế sự kiện A dhn đến sự kiện B, nhưng sựkiện B xảy ra cuối cùng lại dhn đến sự kiện D mà không phải là C thì có thể kết luận là có sự kiện bất thường diễn ra ở đây
II.1.2 Phát hiện xâm nhập mạng bất thường dựa trên
các thuật toán học máy
Phát hiện xâm nhập mạng bất thường dựa trên tập luật còn nhược điểm đáng chú ý như tốc độ sb chậm dần khi tập luật lớn, phụ thuộc vào tập luật do người quản trị đặt ra và cần được cập nhật tập luật thường xuyên Từ đó dhn đến sự ra đời của một trong những phươngpháp tiên tiến để thực hiện phát hiện xâm nhập mạng là sử dụng học máy, một lĩnh vực của trí tuệ nhân tạo
Phương pháp này sử dụng các mô hình học máy để phân loại hoạt động trên mạng là bình thường hay bất thường Các mô hình này được huấn luyện thông qua dữ liệu lớn về các hoạt động mạng, giúp chúng học được các đặc trưng của các hành vi bình thường và phát hiện sự thay đổi đột ngột và bất thường trong môi trường mạng.Điểm mạnh của phương pháp này là khả n\ng tự động hóa quá trìnhphát hiện mà không yêu cầu sự can thiệp thủ công liên tục Các mô hình học máy có khả n\ng nhận biết các biểu hiện mà không dựa
Trang 16vào cơ sở dữ liệu cụ thể của các tấn công đã biết trước, giúp chúng đối mặt tốt với các mối đe dọa mới và phức tạp Bên cạnh đó, các
mô hình có khả n\ng thích ứng với dữ liệu không đầy đủ, không chắcchắn và không đòi hci người quản trị cập nhật tri thức thường xuyên,nhờ quá trình tự học
Thuật toán học máy phổ biến nhất được sử dụng cho IDS là cây quyết định, K-nearest-neighbors (KNN), máy vectơ hg trợ (SVM), cụmK-Mean và mạng nơ – ron nhân tạo (ANN) (được trình bày ở mục
II.1.3 của báo cáo)
a Decision Tree (DT)
Thuật toán Decision Tree là một phương pháp mạnh mb trong lĩnh vực máy học, được thiết kế để đưa ra quyết định dựa trên dữ liệu đào tạo Nguyên tắc hoạt động của thuật toán là chia tập dữ liệu thành các phần con dựa trên các quy tắc quyết định, tạo ra một cây quyết định với một nhánh đại diện cho một quyết định hoặc quy tắc trong khi mgi lá đại diện cho một kết quả hoặc nhãn lớp Thuật toán
DT sb tự động chọn các tính n\ng tốt nhất để xây dựng nên cây quyết định và sau đó thực hiện thao tác cắt tỉa để loại bc các nhánh không liên quan từ cây để tránh sự phù hợp
Các mô hình DT phổ biến nhất là Cart, C4.5 và ID3 Nhiều thuật toánhọc tập nâng cao như rừng nghu nhiên (Random Forest) và XGBoost (eXtreme Gradient Boosting) được xây dựng từ nhiều cây quyết định
b K-Nearest Neighbor (KNN)
Thuật toán K-Nearest Neighbors (KNN) là một phương pháp máy họcgiúp thực hiện phân loại và dự đoán dựa trên nguyên lý gần nhất trong không gian đặc trưng KNN hoạt động bằng cách xác định nhãn của một điểm dữ liệu mới dựa trên đa số nhãn của K điểm dữ
Trang 17liệu gần nhất trong tập huấn luyện Thuật toán này phản ánh triết lý
"người hàng xóm gần nhất", giả sử rằng các điểm dữ liệu có thuộc tính tương tự clng có kết quả tương tự
KNN không yêu cầu giả định về phân phối của dữ liệu và có khả n\ng xử lý cả dữ liệu rời rạc và liên tục Mặc dù đơn giản, KNN có thểđưa ra các dự đoán chính xác đối với nhiều bài toán, đặc biệt là khi
có một lượng lớn dữ liệu huấn luyện và không có giả định cụ thể về
mô hình
c Support Vector Machine (SVM)
Support Vector Machine (SVM) là một thuật toán máy học thuộc họ các thuật toán học có giám sát, được sử dụng rộng rãi trong các nhiệm vụ phân loại và hni quy Mục tiêu chính của SVM là tìm ra ranh giới phân chia tốt nhất giữa các lớp dữ liệu bằng cách tận dụng các "vector hg trợ" trong không gian đặc trưng
Thuật toán SVM hoạt động bằng cách tìm ra ranh giới phân loại sao cho khoảng cách giữa các điểm dữ liệu và đường ranh giới là lớn nhất Các điểm dữ liệu gần nhất với đường ranh giới được gọi là các vector hg trợ SVM có khả n\ng xử lý cả dữ liệu tuyến tính và phi tuyến tính, bằng cách sử dụng các hàm nhân (kernel functions) để ánh xạ dữ liệu vào các không gian cao chiều và tìm ra đường ranh giới phân loại phức tạp hơn
Một ưu điểm quan trọng của SVM là khả n\ng xử lý tốt trong các không gian đặc trưng lớn, giảm nguy cơ quá mức cực kỳ hiệu quả Đnng thời, SVM clng tc ra ổn định và hiệu quả trong việc xử lý nhiễu
và dữ liệu không đnng nhất
Trang 18d K-mean Clustering
Thuật toán K-Means Clustering là một phương pháp phân nhóm dữ liệu không giám sát phổ biến trong lĩnh vực máy học và thống kê Mục tiêu của K-Means là chia tập dữ liệu thành các nhóm (clusters) sao cho các điểm dữ liệu trong mgi nhóm có sự tương đnng lớn nhất với một tâm của nhóm, được gọi là "centroid"
Thuật toán hoạt động theo các bước cơ bản Ban đầu, K centroids nghu nhiên được chọn từ tập dữ liệu Sau đó, mgi điểm dữ liệu được gán vào nhóm có centroid gần nhất Tiếp theo, centroid mới được tính toán bằng cách lấy trung bình của tất cả các điểm dữ liệu trong nhóm Quá trình gán và cập nhật centroid lặp lại cho đến khi sự biếnđộng của centroids giảm đến một ngưỡng nhất định hoặc số lần lặp đạt đến giới hạn đã đặt trước Mặc dù đơn giản và hiệu quả, K-Meansyêu cầu lựa chọn số lượng nhóm K trước khi thực hiện, và kết quả còn phụ thuộc vào lựa chọn khởi tạo ban đầu của centroids
II.1.3 Phát hiện xâm nhập mạng bất thường dựa trên
mạng nơ-ron (Artificial Neural Network)
a Giới thiệu mạng nơ – ron
Mạng nơ-ron nhân tạo được xây dựng dựa trên các nguyên tắc về cấu tạo và hoạt động của các tế bào nơ-ron trong não bộ con người Nơ-ron là đơn vị cơ bản cấu tạo hệ thống thần kinh và là một phần quan trọng nhất của não Não chúng ta gnm khoảng 10 triệu nơ-ron
và mgi nơ-ron liên kết với 10.000 nơ-ron khác
Trang 19H Nơ ron nhân tạo mô phỏng nơ ron sinh học
Mạng nơ-ron nhân tạo bao gnm nhiều lớp (layer) khác nhau, độ
«ƒsâuƒ» của mạng được thể hiện ở số lượng lớp trong mạng đó Trongmgi lớp có các nút mạng (node, nơ-ron) và được liên kết với các lớp liền kề khác Trong học máy, nơ ron được định nghĩa là một hàm toán học nhận vào một hay nhiều giá trị đầu vào được nhân với các trọng số (weight) Trọng số là giá trị thể hiện của mgi kết nối giữa hai nút mạng, trọng số này càng lớn thì kết nối này càng quan trọng đối với mạng
Nơron được định nghĩa với công thức sauƒ:
Trang 20Hàm f được gọi là hàm kích hoạt (activation function).Mạng nơ – ron nhân tạo là sự kết hợp của những tầng perceptron hay còn gọi là perceptron đa tầng Cấu trúc mạng nơ – ron thường bao gnm 3 kiểu tầng (lớp): lớp vào, lớp ra, lớp ẩn Lớp đầu tiên của mạng nơ-ron nhân tạo (input layer) nhận thông tin đầu vào từ ngunnbên ngoài và chuyển nó đến lớp ẩn (hidden layer), một mạng có thể
có một hay nhiều lớp ẩn Mgi nơ-ron ở lớp ẩn nhận thông tin từ những nơ-ron ở lớp ngay trước đó, tính toán tổng trọng số, sau đó chuyển tiếp cho các nơ-ron ở lớp tiếp theo Các trọng số này được điều chỉnh trong quá trình huấn luyện để nâng cao hiệu suất của môhình Bên cạnh đó, mgi nơ-ron sb có một hàm kích hoạt (activation function) có nhiệm vụ chuẩn hóa đầu ra từ nơ-ron này Cuối cùng, kết quả sb được trả về ở layer cuối cùng (output layer)
Trong thực tế, nhiều bài toán yêu cầu đầu ra gnm nhiều hơn một giátrị Do đó ta thường xây dựng những mạng nơ ron với lớp đầu ra gnm nhiều nút mạng
Trang 21Để xây dựng một Hệ thống Phát hiện Xâm nhập (IDS) dựa trên mạngnơ-ron, quá trình này được chia thành ba giai đoạn chi tiết như sau:
Thu thập dữ liệu huấn luyện:
Tiến hành thu thập dữ liệu huấn luyện bằng cách thực hiện thống kê trên các nhật ký đ\ng nhập của mgi người dùng trong một khoảng thời gian cụ thể
Xây dựng một vector thể hiện tần suất sử dụng các lệnh của mgi người dùng trong mgi ngày Vector này phản ánh mức độ thường xuyên của từng lệnh được thực hiện bởi người dùng
Huấn luyện mạng nơ-ron:
Sử dụng các vectơ phân phối câu lệnh được tạo ra
từ dữ liệu huấn luyện để huấn luyện mạng nơ-ron.Mục tiêu của quá trình này là phát triển khả n\ngnhận dạng người sử dụng dựa trên các đặc điểm củavectơ phân phối lệnh
Thông qua quy trình này, hệ thống IDS dựa trên mạng nơ-ron có khản\ng học và nhận biết các mô hình hành vi của người sử dụng dựa trên tần suất và phân phối lệnh, từ đó cung cấp khả n\ng phát hiện sớm và cảnh báo về những hoạt động không bình thường trong hệ thống
Trang 22Ưu điểm của mạng nơ – ron:
Dễ dàng thích ứng với các kiểu dữ liệu không đầy đủ: Mạng nơ-ron có khả n\ng làm việc hiệu quả với dữ liệu không đầy đủ, không hoàn chỉnh, hoặc có độ chắc chắn thấp, giúp nó linh hoạt trong việc xử lý nhiều loại dữ liệukhác nhau
Đưa ra các kết quả mà không cần sự can thiệp quá nhiều của người quản trị: Mạng nơ-ron có khả n\ng tự học và tự điều chỉnh dựa trên dữ liệu huấn luyện, giảm
sự phụ thuộc vào sự can thiệp của người quản trị Điều này giúp t\ng tính tự động và giảm gánh nặng công việc
Nhược điểm của mạng nơ – ron:
Đòi hci thời gian để chuẩn hóa xây dựng dữ liệu: Quá trình chuẩn hóa và xây dựng dữ liệu cho mạng nơ-ron cóthể đòi hci nhiều thời gian và công sức, đặc biệt là khi cần sửa lgi, làm sạch dữ liệu, và định dạng dữ liệu đầu vào sao cho phù hợp với yêu cầu của mô hình
b Giải thuật lan truyền ngược – Backpropagation
Backpropagation (lan truyền ngược) là một thuật toán quan trọng trong quá trình huấn luyện mạng nơ-ron, đặc biệt là trong các mô hình sâu Quá trình này giúp mô hình "học" từ dữ liệu bằng cách điều chỉnh trọng số của các liên kết giữa các nơ-ron