Hệ thống phát hiện bất thường trong mạng sử dụng khai phá dữ liệu

82 Trang 5 Danh sách ký hiệu, từ viết tắt Từ viết tắt Tên đầy đủ VPN Virtual Private Network IPSec Internet Protocol Security IPS Intrusion Prevention System HTTPS Hypertext Transfer P

Tổng quan về Hệ thống phát hiện xâm nhập trái phép

Khái quát về bảo mật hệ thống thông tin

Thông tin chỉ có giá trị cao khi đảm bảo tính chính xác và kịp thời, và hệ thống chỉ có thể cung cấp thông tin thực sự giá trị khi các chức năng của nó hoạt động đúng đắn Mục tiêu của việc đảm bảo an toàn thông tin là áp dụng các giải pháp nhằm loại trừ hoặc giảm thiểu các nguy cơ Hiện nay, các cuộc tấn công ngày càng tinh vi, gây ra mối đe dọa lớn đối với sự an toàn thông tin Những cuộc tấn công này có thể xuất phát từ nhiều hướng và theo nhiều cách khác nhau, do đó cần thiết phải thiết lập các chính sách và biện pháp phòng ngừa phù hợp Mục đích cuối cùng của an toàn bảo mật là bảo vệ thông tin và tài nguyên theo các yêu cầu cần thiết.

 Đảm bảo tính tin cậy (Confidentiality): Thông tin không thể bị truy nhập trái phép bởi những người không có thẩm quyền.

 Đảm bảo tính nguyên vẹn (Integrity): Thông tin không thể bị sửa đổi, bị làm giả bởi những người không có thẩm quyền.

 Đảm bảo tính sẵn sàng (Availability): Thông tin luôn sẵn sàng để đáp ứng sử dụng cho người có thẩm quyền.

 Đảm bảo tính không thể từ chối (Non-repudiation): Thông tin được cam kết về mặt pháp luật của người cung cấp.

Không có hệ thống nào là an toàn tuyệt đối, vì ngay cả những hệ thống bảo vệ hiện đại cũng có thể bị vô hiệu hóa bởi những kẻ tấn công có trình độ cao Hơn nữa, tính an toàn của một hệ thống thông tin phụ thuộc nhiều vào cách sử dụng của con người Do đó, an toàn mạng thực chất là một cuộc chạy tiếp sức không ngừng, và không ai có thể khẳng định rằng sẽ có một đích cuối cùng cho cuộc chiến này.

1.1 Các nguy cơ đe dọa

Hệ thống thông tin đối mặt với nhiều nguy cơ đe dọa an toàn, bao gồm cả các hành vi tấn công trái phép từ bên ngoài và những lỗ hổng nội tại trong chính hệ thống.

Tất cả các hệ thống đều tồn tại những lỗ hổng và điểm yếu Có thể phân loại các điểm yếu này thành các nhóm chính, giúp chúng ta hiểu rõ hơn về các rủi ro tiềm ẩn trong hệ thống.

 Phần cứng: Lỗi thiết bị phần cứng như Firewall, Router, Switch v.v

Chính sách cần được điều chỉnh để loại bỏ các quy định không phù hợp và đảm bảo an ninh, chẳng hạn như cải thiện chính sách xác thực và quy định rõ ràng về nghĩa vụ cũng như trách nhiệm của người dùng trong hệ thống.

Sau đây là một số hình thức tấn công điển hình : a) Các hành vi dò quét :

Sự xâm nhập vào môi trường mạng bắt đầu bằng việc thăm dò thông tin người dùng, cấu trúc hệ thống và điểm yếu bảo mật thông qua thăm dò thụ động và chủ động Các công cụ như Nmap và Essential Network tools được hacker sử dụng để thực hiện các hành động như Port Scan và Packet Sniffer Tấn công từ chối dịch vụ (Denial of Service Attacks) là một trong những kiểu tấn công khó phòng chống nhất, khi hacker gửi nhiều yêu cầu đến máy nạn nhân, dẫn đến việc máy không thể đáp ứng kịp thời và có thể ngừng hoạt động Cuối cùng, việc khai thác lỗ hổng bảo mật cũng là một vấn đề nghiêm trọng trong an ninh mạng.

Hình 2.1 : Thời gian có tấn công sau khi công bố lỗ hổng

Các tấn công vào ứng dụng (Application-Level Attacks) là những cuộc tấn công nhắm vào phần mềm ứng dụng ở mức dịch vụ Nếu thành công, những tấn công này có thể cho phép kẻ xâm nhập kiểm soát các dịch vụ và thậm chí chiếm quyền điều khiển máy chủ bị tấn công.

Số lượng các vụ tấn công mạng đang gia tăng, trong khi các hình thức tấn công dựa vào sự sơ hở của con người lại có xu hướng giảm Điều này cho thấy các phương thức tấn công vào hệ thống máy tính ngày càng trở nên đa dạng và phức tạp, với trình độ kỹ thuật cao Hơn nữa, quá trình tấn công hiện nay đã được tự động hóa, nhờ vào sự phát tán rộng rãi của các công cụ tấn công trên mạng.

Code Red Nimda Goner Slammer Lovsan

Hình 2.2 : Số lượng máy bị tấn công ngày càng tăng

Hình 2.3 : Thời gian lây nhiễm trên 10.000 máy rút ngắn (Nguồn McAfee 2005)

1.2 Các nguyên tắc bảo vệ hệ thống thông tin

Sau đây là một số nguyên tắc bảo vệ hệ thống thông tin :

Nguyên tắc cơ bản của chức năng bảo mật là cơ chế quyền hạn tối thiểu, nghĩa là mọi đối tượng như người sử dụng, người điều hành hay chương trình chỉ nên có những quyền hạn cần thiết để thực hiện nhiệm vụ của mình Nguyên tắc này giúp hạn chế sự phơi bày hệ thống trước các cuộc tấn công và giảm thiểu thiệt hại khi xảy ra sự cố.

Để đảm bảo an ninh hiệu quả, cần áp dụng phương pháp bảo vệ theo chiều sâu, tức là xây dựng một hệ thống bảo mật đa tầng Mỗi mức bảo mật nên hỗ trợ lẫn nhau, thay vì chỉ dựa vào một chế độ an toàn duy nhất, bất kể độ mạnh của nó.

Để quản lý luồng thông tin hiệu quả, cần thiết lập các điểm thắt mà quản trị viên có thể kiểm soát Quản trị viên có thể áp dụng các cơ chế giám sát và kiểm tra để quản lý quyền truy cập vào hệ thống Trong lĩnh vực an ninh mạng, hệ thống phát hiện xâm nhập (IDS) hoạt động như một nút thắt giữa hệ thống nội bộ và Internet, nằm trước tường lửa Khi tất cả các kết nối từ Internet đi qua nút thắt này, quản trị viên có thể theo dõi và phản ứng kịp thời với các cuộc tấn công Tuy nhiên, điểm yếu của phương pháp này là không thể kiểm soát được những cuộc tấn công có thể lách qua điểm thắt đó.

Để đạt hiệu quả cao trong hệ thống an toàn, cần có sự đa dạng về giải pháp và phối hợp giữa tất cả các thành phần như người sử dụng, phần cứng bảo mật, phần mềm bảo mật và các cơ chế an toàn Hệ thống phải bao gồm nhiều module, cung cấp các hình thức phòng thủ khác nhau, trong đó mỗi module đóng vai trò là "tấm chắn" cho các module khác Ngoài firewall, mạng LAN hoặc máy cá nhân cần sử dụng các module bảo vệ khác cho ứng dụng, hệ điều hành và thiết bị phần cứng.

1.3 Các biện pháp bảo vệ

Kỹ thuật phát hiện xâm nhập trái phép

Firewall được coi là hệ thống bảo vệ ở cửa ngõ mạng, trong khi IDS hoạt động như các cảm biến giám sát trong mạng, giúp phát hiện các cuộc tấn công đã vượt qua Firewall hoặc xuất phát từ bên trong Nhiệm vụ của IDS là phân tích các gói tin mà Firewall cho phép, tìm kiếm dấu hiệu tấn công từ các mẫu đã biết hoặc thông qua việc phân tích sự kiện bất thường, nhằm ngăn chặn các cuộc tấn công trước khi chúng gây hại cho tổ chức.

Hệ thống IDS (Hệ thống phát hiện xâm nhập) bao gồm ba thành phần chính: Cảm ứng (Sensor), Giao diện (Interface) và Bộ phân tích (Engine) Dựa trên chức năng, IDS được chia thành hai loại chính: Network-based IDS (NIDS) và Host-based IDS (HIDS) NIDS thường được đặt tại cửa ngõ mạng để giám sát lưu lượng trên toàn bộ mạng, trong khi HIDS được cài đặt trên từng máy trạm để phân tích hành vi và dữ liệu đến máy đó Về cách thức hoạt động, hệ thống IDS trải qua năm giai đoạn chính: Giám sát, Phân tích, Liên lạc, Cảnh báo và Phản ứng.

Gần đây, sự gia tăng của virus và worm tấn công hệ điều hành đang diễn ra mạnh mẽ Nhiều loại virus và worm sử dụng phương pháp quét cổng để phát hiện lỗ hổng trước khi lây lan Việc cài đặt hệ thống IDS trong mạng có thể nâng cao khả năng phòng ngừa các cuộc tấn công này một cách hiệu quả.

Một hệ thống IDS bao gồm thành phầ3 n cơ bản là :

Cảm ứng (Sensor) là bộ phận quan trọng trong việc phát hiện các sự kiện đe dọa an ninh mạng Sensor thực hiện chức năng rà quét nội dung của các gói tin trên mạng, so sánh với các mẫu đã được định nghĩa để nhận diện dấu hiệu của các cuộc tấn công, hay còn gọi là sự kiện.

Giao diện Console là thành phần quan trọng giúp người quản trị tương tác và điều khiển hoạt động của bộ Sensor và Engine, đồng thời cung cấp cảnh báo về các cuộc tấn công.

Bộ xử lý (Engine) chịu trách nhiệm ghi nhận tất cả báo cáo về các sự kiện được phát hiện bởi các cảm biến vào cơ sở dữ liệu Nó sử dụng một hệ thống luật để phát hiện và đưa ra cảnh báo về các sự kiện an ninh cho hệ thống hoặc cho người quản trị.

Hình 2.6 : Thành phần của một hệ thống IDS

Hệ thống IDS hoạt động theo cơ chế "phát hiện và cảnh báo" với các Sensor được bố trí tại những điểm cần kiểm soát trên mạng Các Sensor này sẽ bắt và phân tích các gói tin để phát hiện dấu hiệu tấn công Khi phát hiện gói tin có dấu hiệu tấn công, Sensor sẽ đánh dấu sự kiện đó và gửi báo cáo về cho Engine Engine ghi nhận và lưu trữ tất cả các báo cáo từ các Sensor trong cơ sở dữ liệu, từ đó đưa ra mức cảnh báo cho từng sự kiện Console có nhiệm vụ giám sát, cảnh báo và điều khiển hoạt động của các Sensor.

Hệ thống IDS truyền thống hoạt động dựa trên cơ chế “so sánh mẫu”, trong đó các Sensor thu thập và phân tích các gói tin trên mạng Khi nội dung gói tin chứa một chuỗi trùng khớp với các mẫu tín hiệu nhận biết tấn công hoặc mã độc, Sensor sẽ đánh dấu sự kiện đó và phát sinh cảnh báo Các tín hiệu nhận biết này được tổng hợp thành một bộ mẫu (signatures), thường được phát triển từ kinh nghiệm phòng chống tấn công Các trung tâm nghiên cứu chuyên biệt đóng vai trò quan trọng trong việc cung cấp các mẫu này cho hệ thống IDS toàn cầu.

Các hệ thống IDS có thể được phân loại theo nhiều tiêu chí khác nhau, trong đó một cách phân loại dựa trên kiểu hành động của chúng Theo tiêu chí này, IDS được chia thành hai loại chính: IDS chủ động và IDS bị động.

Hệ thống phát hiện xâm nhập chủ động (IDS chủ động) có khả năng phát hiện và phản ứng ngay lập tức trước các cuộc tấn công, nhằm giảm thiểu rủi ro cho hệ thống Các hành động phản ứng có thể bao gồm việc tắt máy chủ, ngừng các dịch vụ, ngắt kết nối hoặc khóa địa chỉ IP của kẻ tấn công IDS chủ động còn được biết đến với tên gọi là hệ thống ngăn chặn xâm nhập (IPS - Intrusion Prevention System).

Hệ thống phát hiện xâm nhập bị động (IDS bị động) có khả năng phát hiện các tấn công mà không thực hiện hành động trực tiếp để ngăn chặn chúng Nó ghi lại nhật ký toàn bộ hệ thống và gửi cảnh báo đến quản trị viên IDS này không cần phải được đặt ở giữa kênh truyền (inline), vì vậy không làm gián đoạn các kết nối.

Có hai loại Hệ thống phát hiện xâm nhập (IDS) cơ bản dựa trên đối tượng giám sát: IDS dựa trên máy chủ (Host-based IDS) và IDS dựa trên mạng (Network-based IDS) Mỗi loại có phương pháp riêng để theo dõi và phát hiện các xâm nhập, cùng với những ưu điểm và nhược điểm riêng Cụ thể, IDS dựa trên máy chủ giám sát dữ liệu trên từng máy tính riêng lẻ, trong khi IDS dựa trên mạng theo dõi lưu lượng trong toàn bộ hệ thống mạng.

Hệ thống IDS dựa trên máy chủ (host-based IDS) là loại đầu tiên được nghiên cứu và triển khai Bằng cách cài đặt phần mềm IDS trên các máy trạm (được gọi là agent), hệ thống này có khả năng giám sát toàn bộ hoạt động của hệ thống, theo dõi các file log và lưu lượng mạng đến từng máy trạm.

HIDS (Hệ thống phát hiện xâm nhập máy chủ) kiểm tra lưu lượng mạng đến máy trạm và bảo vệ nó bằng cách ngăn chặn các gói tin nghi ngờ Hệ thống này có khả năng theo dõi hoạt động đăng nhập, phát hiện các hành vi bất thường như dò tìm mật khẩu và leo thang đặc quyền Ngoài ra, HIDS còn giám sát sâu vào hệ điều hành của máy trạm để đảm bảo tính toàn vẹn của Nhân (Kernel) và các file lưu trữ trong hệ thống.

Hệ thống IDS rất hiệu quả trong việc phát hiện hành vi sử dụng sai tài nguyên mạng Khi người dùng thực hiện các hành vi bất hợp pháp, hệ thống HIDS có khả năng phát hiện và thu thập thông tin nhanh chóng và chính xác Tuy nhiên, HIDS có nhược điểm là cồng kềnh, đặc biệt trong mạng lớn với hàng nghìn máy trạm, việc thu thập thông tin riêng biệt cho từng máy trở nên không hiệu quả Hơn nữa, nếu thủ phạm vô hiệu hóa việc thu thập dữ liệu trên máy tính, HIDS sẽ mất đi tính hiệu quả của nó.

Kết chương

Chương này giới thiệu về Hệ thống phát hiện xâm nhập trái phép (IDS), một thành phần quan trọng trong chiến lược an ninh mạng đa lớp Trong bối cảnh gia tăng các mối đe dọa an ninh mạng, IDS hoạt động như một bổ sung cần thiết cho Firewall, giúp phát hiện và cảnh báo các dấu hiệu tấn công trước khi chúng gây hại cho hệ thống IDS được chia thành hai loại chính: NIDS (Network Intrusion Detection System) và HIDS (Host Intrusion Detection System), tùy thuộc vào đối tượng giám sát Một hệ thống IDS điển hình bao gồm ba thành phần: Sensor, Engine và Console, với quá trình phát hiện tấn công trải qua năm giai đoạn: Giám sát, Phân tích, Liên lạc, Cảnh báo và Phản ứng Hệ thống có khả năng phản ứng chủ động trước các cuộc tấn công thông qua các hành động như ngắt phiên, ngắt dịch vụ hoặc khóa IP tấn công Hiện nay, hầu hết các hệ thống IDS sử dụng kỹ thuật phát hiện dựa trên dấu hiệu.

Kỹ thuật này so sánh các dấu hiệu hiện tại với các mẫu tấn công đã lưu trữ trong dữ liệu để xác định khả năng xảy ra tấn công Phương pháp này có ưu điểm là hoạt động ngay lập tức, cung cấp cảnh báo chính xác và cho phép người quản trị dễ dàng quản lý cũng như chỉnh sửa tập hợp các dấu hiệu.

Hệ thống phát hiện xâm nhập dựa trên dấu hiệu gặp khó khăn trong việc lưu giữ trạng thái của dấu hiệu khi hành vi xâm nhập xảy ra qua nhiều sự kiện rời rạc, như trong các cuộc tấn công kéo dài với nhiều gói tin Hơn nữa, nhược điểm của hệ thống này là không thể phát hiện các cuộc tấn công mới hoặc những cuộc tấn công đã thay đổi do thiếu dấu hiệu trong cơ sở dữ liệu Hệ thống cũng phụ thuộc nhiều vào người quản trị, yêu cầu họ phải có kiến thức sâu rộng về mạng và dịch vụ, trong khi các cuộc tấn công ngày càng trở nên đa dạng Để khắc phục những hạn chế này, kỹ thuật phát hiện xâm nhập dựa trên bất thường đã được áp dụng.

Hệ thống IDS dựa trên phát hiện bất thường

Hệ thống phát hiện bất thường tương tự như các hệ thống IDS truyền thống trong việc kiểm soát và phát hiện sớm các hành vi tấn công trong mạng, nhằm cảnh báo cho nhà quản trị về những hiện tượng đáng chú ý Tuy nhiên, phương pháp hoạt động của nó khác biệt so với các hệ thống IDS cũ, khi mà IDS truyền thống thường dựa vào các mẫu đã được định nghĩa để kiểm soát hành vi sai lệch Ngược lại, hệ thống phát hiện bất thường xây dựng một hồ sơ về hoạt động bình thường của mạng, từ đó so sánh và phát hiện các dấu hiệu bất thường để đưa ra cảnh báo.

Hình 3.1 : IDS dựa trên Phát hiện bất thường

Hệ thống IDS dựa trên phát hiện bất thường

Định nghĩa Bất thường trong mạng

Bất thường trong mạng (BTTM) là tình trạng hoạt động của hệ thống mạng biến động ra ngoài trạng thái bình thường, thường do thiết bị hỏng hóc, băng thông quá tải, hoặc xâm nhập trái phép Để phân biệt giữa trạng thái bình thường và bất thường, người ta sử dụng khái niệm hồ sơ hoạt động (activity profile), mô tả hành vi của một đối tượng qua các tham số đo lường cụ thể Những tham số này được theo dõi trong một khoảng thời gian nhất định, giúp xác định thời gian giữa các sự kiện như log-in và log-out Để phát hiện BTTM, cần xây dựng tập hồ sơ mô tả hoạt động hệ thống ở trạng thái bình thường, từ đó phân tích sự khác biệt trong các tham số để nhận diện bất thường.

Các BTTM thông thường được phân thành 2 loại chính: Loại thứ nhất là BTTM do hỏng hóc, loại thứ hai là BTTM liên quan đến an ninh mạng :

BTTM do hỏng hóc xảy ra khi một hoặc nhiều thành phần trong mạng gặp sự cố, như máy chủ lỗi, thiết bị router hay switch gặp trục trặc, hoặc hiện tượng broadcast storm Những sự cố này không ảnh hưởng trực tiếp đến các thành phần khác trong mạng nhưng làm giảm hiệu năng hoạt động và hạn chế khả năng đáp ứng dịch vụ Ví dụ, khi có quá nhiều yêu cầu đến File Server hoặc Web Server, các máy chủ này sẽ gặp khó khăn trong việc xử lý Lỗi Network paging xuất hiện khi ứng dụng tràn bộ nhớ và phải phân trang đến File Server Ngoài ra, BTTM cũng có thể do phần mềm lỗi, chẳng hạn như triển khai giao thức không đúng, dẫn đến việc máy trạm gửi liên tục các gói tin nhỏ gây tắc nghẽn mạng.

BTTM liên quan đến các sự cố an ninh, đặc biệt là tấn công từ chối dịch vụ DoS, nhằm ngăn cản người dùng hợp pháp truy cập vào dịch vụ Tấn công DoS thường được thực hiện bằng cách làm tràn ngập mạng hoặc mất kết nối với dịch vụ, khiến máy chủ không thể đáp ứng yêu cầu từ máy trạm Ngoài ra, sự lây lan của mã độc và các loại mã nguy hiểm cũng tạo ra lượng gói tin bất thường Khi các chức năng cơ bản của mạng như DHCP và DNS bị ngưng hoạt động, điều này dẫn đến số lượng lớn yêu cầu không được đáp ứng, làm giảm băng thông mạng.

Một trong những nghiên cứu tiên phong về hệ thống phát hiện xâm nhập (IDS) dựa trên việc phát hiện bất thường là của Anderson Trong báo cáo này, Anderson đã phân loại 16 loại mối đe dọa chính, trong đó có 3 mối đe dọa quan trọng nhất.

 Xâm nhập từ bên ngoài (external penetrations) : Hệ thống bị tấn công từ các máy tính hoặc hệ thống không được xác minh

 Xâm nhập từ bên trong (internal penetrations): Các máy tính được xác minh truy cập vào các dữ liệu không được phân quyền

 Lạm quyền (misfeasance): Sử dụng sai quyền truy cập vào hệ thống và dữ liệu

Kỹ thuật phát hiện Bất thường

Để phát hiện BTTM, có một số kỹ thuật cụ thể có thể được sử dụng độc lập hoặc kết hợp với nhau Ba kỹ thuật phát hiện cơ bản bao gồm:

Kỹ thuật phát hiện ngưỡng (Threshold Detection) tập trung vào việc "đếm" các hoạt động bình thường Các mức ngưỡng được thiết lập để theo dõi các hành vi, và khi có sự bất thường xảy ra, chẳng hạn như số lần đăng nhập vượt quá quy định, số lượng tiến trình hoạt động trên CPU tăng cao, hoặc số lượng gói tin gửi đi vượt mức cho phép, hệ thống sẽ cảnh báo.

Kỹ thuật dò tự học bao gồm hai bước chính: đầu tiên, hệ thống phát hiện tấn công sẽ hoạt động ở chế độ tự học để thiết lập một hồ sơ về hành vi mạng trong các hoạt động bình thường Sau giai đoạn khởi tạo, hệ thống chuyển sang chế độ cảm biến để theo dõi các hoạt động bất thường so với hồ sơ đã thiết lập Chế độ tự học có thể hoạt động song song với chế độ cảm biến để cập nhật hồ sơ, nhưng nếu phát hiện tín hiệu tấn công, chế độ tự học sẽ tạm dừng cho đến khi cuộc tấn công kết thúc.

Kỹ thuật phát hiện bất thường trong giao thức là phương pháp dựa vào hoạt động của các giao thức và dịch vụ trong hệ thống để nhận diện các gói tin không hợp lệ và hoạt động bất thường, từ đó phát hiện dấu hiệu xâm nhập hoặc tấn công Phương pháp này rất hiệu quả trong việc ngăn chặn các hình thức quét mạng và quét cổng nhằm thu thập thông tin từ các hacker.

Ưu nhược điểm của Phát hiện bất thường

Phương pháp thăm dò bất thường của hệ thống rất hiệu quả trong việc phát hiện các cuộc tấn công như tấn công từ chối dịch vụ Nó có khả năng nhận diện các kiểu tấn công mới và cung cấp thông tin bổ sung cho các phương pháp dò sự lạm dụng Mặc dù phương pháp này thường tạo ra nhiều cảnh báo sai, làm giảm hiệu suất hoạt động của mạng, nhưng vai trò của nó vẫn rất quan trọng Điều này bởi vì một kẻ tấn công, dù hiểu rõ hệ thống, cũng không thể dự đoán được hành vi nào được coi là "bình thường" bởi hệ thống.

Do đó đây sẽ là hướng được nghiên cứu nhiều hơn, hoàn thiện hơn để hệ thống chạy ngày càng chuẩn xác

Hệ thống IDS không chỉ phát hiện các mối đe dọa từ bên ngoài mà còn có khả năng nhận diện các tấn công từ bên trong Ví dụ, khi một người sử dụng tài khoản của người khác để thực hiện các hành vi khác biệt so với thói quen thông thường của chủ tài khoản, IDS có thể phát hiện những bất thường này một cách hiệu quả.

IDS dựa trên Misuse IDS dựa trên phân tích hành vi

Là phương pháp truyền thống, sử dụng một tập các Signature mô tả hành vi bất thường

Phương pháp tiên tiến, không cần sử dụng tập Signature

Không phát hiện được các dạng tấn công lạ => Zero-Day attack

Có khả năng phát hiện các tấn công mới

Biến thể của bất thường không được phát hiện

Không bị điểm yếu này do không sử dụng Signature

Tỉ lệ False positive thấp hơn False positive thường cao

False negative Tỉ lệ False negative thấp hơn

Khi tập dữ liệu lớn sẽ bị overload

Không bị overload nhờ các phương pháp mô hình hóa DL & thuật toán heuristic

Hệ thống phát hiện xâm nhập (IDS) dựa trên phát hiện bất thường mang lại nhiều ưu điểm vượt trội so với các hệ thống IDS truyền thống Để nâng cao độ chính xác của cảnh báo, việc kết hợp giữa IDS bất thường và IDS kiểu cũ là cần thiết.

Cách nhận dạng các kiểu tấn công của IDS dựa trên phát hiện bất thường :

Dữ liệu phát hiện bất thường

Nguồn dữ liệu đóng vai trò quan trọng trong phát hiện bất thường, với số liệu chính xác về tình trạng hoạt động của mạng quyết định khả năng phát hiện các bất thường Phương pháp này dựa vào việc mô hình hóa và lập hồ sơ trạng thái bình thường để so sánh và nhận diện sự cố Do đó, việc cung cấp số liệu phân tích đầy đủ và chính xác sẽ nâng cao hiệu quả hoạt động của các thuật toán phát hiện bất thường.

Dạng tấn công Cách phát hiện

Phát hiện bằng các profile bất thường hay sự vi phạm các chính sách an ninh

2 Tấn công giả dạng Phát hiện bằng các profile bất thường hay sự vi phạm các chính sách an ninh

3 Thâm nhập vào hệ thống điều khiển

Phát hiện bằng cách giám sát một số hành vi đặc biệt

4 Rò rĩ thông tin Phát hiện bằng cách giám sát việc sử dụng tài nguyên bất thường

5 Tấn công từ chối dịch vụ

Phát hiện bằng cách giám sát việc sử dụng tài nguyên bất thường

Phát hiện các hành vi bất thường, vi phạm chính sách an ninh, sử dụng các đặc quyền bất thường a) Network Probes

Network Probes là công cụ chuyên dụng để đo lường các tham số mạng, bao gồm độ trễ, tỉ lệ mất gói tin và bước truyền Hai lệnh cơ bản thường được sử dụng là ping và traceroute, giúp người dùng đánh giá hiệu suất và tình trạng kết nối mạng một cách hiệu quả.

Network Probes cung cấp số liệu tức thời mà không cần sự phối hợp từ nhà cung cấp dịch vụ, nhưng có thể gặp khó khăn nếu firewall áp dụng các quy tắc ngăn chặn loại traffic này Hơn nữa, các gói tin của giao thức này thường bị các thiết bị mạng xử lý đặc biệt, khác với các gói tin thông thường, do đó cần tinh chỉnh thêm để đảm bảo độ chính xác của số liệu từ Network Probes.

64 bytes from A.B.C.D (66.230.200.100): icmp_seq=1 ttl R time.7 ms

64 bytes from A.B.C.D (66.230.200.100): icmp_seq=2 ttlR time.6 ms

64 bytes from A.B.C.D (66.230.200.100): icmp_seq=9 ttlR timex.1 ms

64 bytes from A.B.C.D (66.230.200.100): icmp_seq ttlR timey.5 ms

10 packets transmitted, 10 received, 0% packet loss, time 8998ms rtt min/avg/max/mdev = 78.162/89.213/97.695/6.836 ms b) Kỹ thuật lọc gói tin

Kỹ thuật lọc gói tin được sử dụng để cung cấp dữ liệu cho các thuật toán phát hiện bất thường thông qua việc thống kê luồng Quá trình này bao gồm việc dẫn luồng thông tin qua bộ lọc để lấy mẫu, ghi lại các IP header của gói tin tại nhiều thời điểm và địa điểm khác nhau trong mạng.

Tổng hợp IP header cung cấp thông tin chi tiết về tình trạng hoạt động của hệ thống mạng, với các luồng thông tin được giám sát dựa trên địa chỉ nguồn và cổng đích Phương pháp lọc gói tin giúp thu thập thống kê chính xác về giao dịch trong mạng, cùng với dữ liệu từ các giao thức định tuyến.

Các giao thức định tuyến cung cấp dữ liệu quan trọng cho thuật toán phát hiện bất thường trong mạng Trong quá trình định tuyến, các router trao đổi thông tin về trạng thái đường truyền như băng thông, độ trễ và tình trạng tắc nghẽn Chẳng hạn, với giao thức OSPF (Open-Shortest Path First), mỗi router lưu trữ bảng thông số mô tả topology mạng và trạng thái các đường truyền.

SNMP (Simple Network Management Protocol) là giao thức hoạt động theo mô hình client-server, nhằm quản lý, giám sát và điều khiển thiết bị mạng từ xa Giao thức này sử dụng UDP để truyền tải dữ liệu SNMP server thu thập thông tin từ các agent, nhưng không có chức năng xử lý thông tin Thay vào đó, SNMP server lưu trữ dữ liệu trong cơ sở dữ liệu gọi là MIB (management information base), nơi chứa các giá trị thông tin được ghi nhận từ các chức năng khác nhau của thiết bị mạng.

Mỗi thiết bị mạng đều có một tập hợp các giá trị MIB phù hợp với chức năng của nó, được xác định bởi loại thiết bị và các giao thức mạng hoạt động trên đó Chẳng hạn, switch sẽ đo lường traffic ở mức đường truyền (link level), trong khi router cung cấp thông tin ở mức mạng (network-level) liên quan đến tầng Network trong mô hình OSI Việc sử dụng SNMP mang lại lợi ích về tính chuẩn hóa, nhờ vào sự chấp nhận và triển khai rộng rãi trên nhiều thiết bị khác nhau.

SNMP cung cấp dữ liệu đầy đủ và có chọn lọc, trở thành nguồn thông tin quan trọng cho các thuật toán phát hiện bất thường trong mạng.

Các phương pháp phát hiện bất thường

Phần này trình bày các hướng nghiên cứu về Phát hiện bất thường, phân tích cơ chế hoạt động, các mặt ưu thế cũng như hạn chế của chúng

Phương pháp Xác suất thống kê là công cụ quan trọng trong việc phát hiện bất thường trong hệ thống mạng Phương pháp này dựa trên mô hình xác suất để mô tả các hoạt động mạng, với mục tiêu thiết kế mô hình dữ liệu phù hợp nhằm lưu trữ kiến thức về hành vi bình thường của lưu thông mạng Từ đó, nó cho phép đánh giá tính bất thường tại các thời điểm cụ thể.

Phương pháp này cho phép hệ thống quan sát hành vi của các đối tượng và xây dựng hồ sơ về tập hành vi đó Hồ sơ này thường bao gồm các chỉ số đo lường như mật độ, cường độ hoạt động, phân loại hoạt động, cùng với các thông số kỹ thuật như mức sử dụng CPU và RAM.

Một số hệ thống phát hiện bất thường dựa trên xác suất:

Haystack là một trong những hệ thống phát hiện bất thường đầu tiên áp dụng phương pháp xác suất thống kê, kết hợp giữa phát hiện trên máy trạm và toàn mạng Hệ thống này mô hình hóa các tham số như biến độc lập và ngẫu nhiên, xác định khoảng giá trị "bình thường" cho từng yếu tố quan sát Khi giá trị vượt ra ngoài khoảng này, Haystack sẽ tính điểm dựa trên phân bố xác suất và tạo ra cảnh báo nếu điểm số quá cao Hệ thống cũng lưu trữ thông tin về quyền được cấp phép và giám sát hành vi của từng người dùng, coi hành vi vượt quyền là bất thường Tuy nhiên, điểm yếu của Haystack là thiết kế offline, không hỗ trợ giám sát thời gian thực do hạn chế về hiệu năng xử lý.

NIDES (Next Generation Intrusion Detection Expert System) là một hệ thống phát triển từ IDES, được xây dựng bởi Viện nghiên cứu Stanford Đây là một trong số ít hệ thống IDS có khả năng giám sát thời gian thực NIDES thực hiện phân tích định kỳ bằng cách tạo ra các profile với nhiều giá trị đặc trưng cho hệ thống, trong đó các trọng số được gán cho từng bản ghi và giảm một nửa sau mỗi 30 ngày Tuy nhiên, nhược điểm của NIDES là chỉ tính toán thống kê trên từng yếu tố quan sát, do đó không phát hiện được các cuộc tấn công có ảnh hưởng rộng lớn, tác động đến nhiều thành phần khác nhau của hệ thống.

SPADE (Statistical Packet Anomaly Detection Engine) là một hệ thống phát hiện bất thường dựa trên thống kê, nổi bật với khái niệm “chỉ số bất thường” (anomaly score) để nhận diện các dấu hiệu tấn công Phương pháp này tính toán tần suất xuất hiện của các yếu tố quan sát để xác định “chỉ số bất thường”, khác với các phương pháp truyền thống chỉ thống kê p sự kiện trong q đơn vị thời gian.

Phương pháp này sử dụng hàm chỉ số A(x) để đánh giá mức độ bất thường của sự kiện x, với giá trị A(x) được tính bằng hàm logarit của phân phối xác suất xảy ra sự kiện Để hỗ trợ lưu trữ dữ liệu và tính toán khi số lượng thông số lớn, người ta áp dụng Mạng Bayes để mô tả mối liên hệ phụ thuộc giữa các thông số Từ đó, có thể tính xác suất hợp bằng các xác suất có điều kiện và xác suất không điều kiện của tổ hợp ít thông số hơn.

Nguyên lý hoạt động của phương pháp này như sau:

Giả sử chúng ta có cơ sở dữ liệu thống kê về hoạt động mạng bình thường, bao gồm các phân bố xác suất của các sự kiện Khi nhận được một biến cố, ta có thể dễ dàng tính xác suất xuất hiện P(x) trong hoạt động bình thường của mạng Từ đó, chúng ta có thể tính Chỉ số bất thường A(x) (anomaly score) bằng cách thực hiện logarit trên P(x).

Hàm EC là hàm đánh giá sự kiện x có phải là bất thường hay không:

Để đánh giá một sự kiện là bất thường hay bình thường, cần có một tri thức I làm ngưỡng Nếu A(x) ≤ I, sự kiện x được coi là bình thường, trong khi A(x) > I cho thấy sự kiện x là bất thường.

Trong trường hợp hành vi bất thường, một tập hợp X các sự kiện được xác định, ví dụ như dấu chân (Footprint) của hành vi dò quét cổng, được mô tả bằng việc liên tục xuất hiện các gói tin từ cổng lạ Hàm đánh giá cho hành vi này sẽ được thiết lập dựa trên các yếu tố này.

EC(x1, x2, , xk,I’)= {bình thường, bất thường} (*)

Hàm EC() là một hàm phức tạp thể hiện mối liên hệ giữa các sự kiện trong một hành vi cụ thể Tuy nhiên, để dễ hiểu hơn, hàm EC() thường được coi là một hàm tổng Công thức (*) có thể được sử dụng để tính toán giá trị của hàm này.

EC(x1, x2, , xk,I’)= { “Bất thường” nếu ∑ = k i 1 A ( x ) > I’

Khi ∑ = k i 1 A ( x ) ≤ I, sự kiện x được định nghĩa với nhiều tham số, trong đó x = {e1,e2,…,en} và ei là các thuộc tính mạng đang được xem xét Những thuộc tính này có thể được thu thập từ nhiều nguồn dữ liệu khác nhau.

Như vậy, ý tưởng chung về hệ thống xâm nhập bất thường dựa trên Xác suất thống kê có thể mô tả bằng sơ đồ sau :

Xây dựng CSDL xác suất P(x)

∑ = k i 1 A ( x ) yes no Hành vi X bất thường

Hình 3.3: Mô hình cơ bản hệ thống Phát hiện xâm nhập bất thường bằng thống kê xác suất

Hướng tiếp cận này tuy đơn giản nhưng gặp khó khăn do mỗi sự kiện trong hệ thống thực tế được đánh giá qua nhiều tham số, dẫn đến không gian mẫu lớn và làm quá tải việc lưu trữ và tính toán xác suất Để khắc phục vấn đề này, người ta áp dụng mô hình ước lượng để tính gần đúng xác suất hợp P(e1,e2,…,en) bằng các xác suất đơn giản hơn.

P(x) = Ψ ( P ( x 1 ), P ( x 2 ), , P ( x t ) ) là mô hình ước lượng thường sử dụng Mạng Bayes để mô tả mối quan hệ giữa các biến cố trong hệ thống Mạng Bayes lưu trữ các xác suất đơn và xác suất có điều kiện, từ đó cho phép tính toán xác suất hợp P(x).

Phát hiện bất thường dựa trên thống kê có ưu điểm là tính bao quát và dễ triển khai, nhưng khi số yếu tố quan sát tăng lên hoặc không gian quan sát phân bố thưa, việc tính toán xác suất trở nên không chính xác và kém hiệu quả Phương pháp này thường có tỷ lệ cảnh báo sai cao, và nhược điểm càng rõ ràng khi thủ phạm có trình độ cao có thể bí mật đào tạo hệ thống IDS để chấp nhận các hành vi bất thường Việc lựa chọn ngưỡng bất thường phù hợp cũng là một thách thức lớn Hơn nữa, hệ thống phát hiện bất thường dựa trên xác suất cần dữ liệu đầy đủ về các phân bố xác suất, tuy nhiên, việc giám sát toàn bộ hệ thống mạng và hành vi trên đó là rất khó khăn.

5.2 Máy trạng thái hữu hạn

Mô hình máy trạng thái hữu hạn (FSM) có thể được sử dụng để phát hiện bất thường trong mạng bằng cách xây dựng chuỗi hành vi trong trạng thái hoạt động bình thường Qua đó, FSM giúp nhận diện quá trình xuất hiện lỗi dựa trên số liệu đã ghi lại trước đó và xây dựng mô hình theo xác suất các sự cố mạng Không chỉ dừng lại ở việc phát hiện sự cố, FSM còn hỗ trợ xác định nguyên nhân gây ra sự cố Các chuỗi báo động tại các điểm khác nhau trên mạng sẽ được ghi nhận như là trạng thái của máy.

Một máy trạng thái hữu hạn A được định nghĩa bằng tập A = (A, ∑,q0, δ, F) trong đó :

Q: tập các trạng thái có thể có

∑: tập ngôn ngữ hữu hạn q0 ∈ Q : Trạng thái bắt đầu δ: Hàm chuyển đổi δ: Q x ∑ → Q

Kết chương

Chương này trình bày chi tiết về Hệ thống IDS dựa trên phát hiện bất thường, khác với hệ thống truyền thống dựa trên dấu hiệu, IDS bất thường có giai đoạn tự đào tạo để xác định Trạng thái Bình thường và phát hiện sự bất thường có thể dẫn đến nguy cơ tấn công Các khái niệm và kỹ thuật bất thường được giới thiệu, cùng với việc so sánh ưu nhược điểm của phương pháp này Có nhiều phương pháp phát hiện bất thường như Xác suất thống kê, Máy trạng thái hữu hạn, Mạng Nơ ron, và Hệ chuyên gia Tuy nhiên, các phương pháp này gặp khó khăn khi hệ thống thay đổi, yêu cầu quá trình đánh giá và đào tạo lại Hạn chế lớn nhất là tính ổn định trong trường hợp Dữ liệu lớn, số lượng yếu tố quan sát tăng, hoặc Dữ liệu không đầy đủ, không chính xác Phương pháp phát hiện bất thường sử dụng kỹ thuật Khai phá dữ liệu sẽ khắc phục những nhược điểm này.

Phát hiện bất thường sử dụng kỹ thuật Khai phá dữ liệu

Khai phá dữ liệu

Khai Phá Dữ Liệu (KPDL) là kỹ thuật trích xuất thông tin hữu ích từ khối dữ liệu lớn, giúp cải thiện hiệu quả hoạt động của hệ thống thông tin Theo Tom Mitchell, KPDL sử dụng dữ liệu lịch sử để khám phá quy tắc và cải thiện quyết định tương lai KPDL được xem là quá trình khám phá tri thức trong cơ sở dữ liệu, trích xuất thông tin ẩn, chưa biết và có khả năng hữu ích dưới dạng quy luật, ràng buộc Tóm lại, KPDL là quá trình học tri thức mới từ dữ liệu đã thu thập.

Một quá trình KPDL bao gồm năm giai đoạn chính sau [26]:

 Tìm hiểu nghiệp vụ và dữ liệu

 Mô hình hóa dữ liệu

Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên phản hồi từ kết quả của các giai đoạn sau

Trong giai đoạn đầu tiên, các chuyên gia nghiên cứu nghiệp vụ và dữ liệu để hiểu rõ về các tri thức cấu trúc, nguồn dữ liệu hiện có, cũng như ý nghĩa và vai trò của các thực thể dữ liệu Qua đó, họ xác định vấn đề và không gian dữ liệu cần giải quyết Tiếp theo, giai đoạn chuẩn bị dữ liệu áp dụng các kỹ thuật tiền xử lý nhằm biến đổi và nâng cao chất lượng dữ liệu, đảm bảo đáp ứng các yêu cầu của các thuật toán.

Mô hình hóa dữ liệu là quá trình sử dụng các thuật toán trên dữ liệu đã được tiền xử lý để khám phá các quy tắc ẩn Các bài toán trong KPDL được phân loại theo đặc điểm của chúng Kết quả của giai đoạn mô hình hóa sẽ được Hậu xử lý và đánh giá trong giai đoạn tiếp theo Cuối cùng, trong giai đoạn Triển khai tri thức, các mô hình sẽ được tích hợp vào hệ thống thông tin thực tế dưới dạng các mô-đun hỗ trợ quyết định.

Các phương pháp KPDL thông thường được qui vào các dạng sau:

• Mô hình ràng buộc (Dependency modeling)

• Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)

• Biểu diễn mô hình (Model Representation)

• Kiểm định mô hình (Model Evaluation)

• Phương pháp tìm kiếm (Search Method)

KPDL là việc áp dụng học thuật vào các vấn đề thực tiễn, được sử dụng rộng rãi trong nhiều lĩnh vực để khai thác dữ liệu phong phú từ các hệ thống thông tin Cách tiếp cận KPDL có thể khác nhau tùy thuộc vào bản chất của từng lĩnh vực.

Ứng dụng Khai phá dữ liệu trong Phát hiện bất thường

Khai phá dữ liệu (KPDL) có nhiều ưu điểm nổi bật so với các kỹ thuật như Học máy hay Xác suất thống kê, đặc biệt là khả năng xử lý dữ liệu nhiễu, không đầy đủ và biến đổi liên tục Gần đây, KPDL đã được áp dụng trong các hệ thống phát hiện xâm nhập trái phép (IDS), cho phép xử lý khối lượng dữ liệu lớn và phục vụ cho các hệ thống thời gian thực Hệ thống IDS sử dụng KPDL được chia thành hai hướng chính: phát hiện dựa trên hành vi lạm dụng và phát hiện bất thường Trong hướng phát hiện dựa trên hành vi lạm dụng, dữ liệu được gán nhãn “bình thường” hoặc “bất thường”, và các thuật toán KPDL như phân cụm và phân tích luật tích hợp được sử dụng để phát hiện các tấn công đã biết với độ chính xác cao Tuy nhiên, nhược điểm của phương pháp này là không thể phát hiện các tấn công mới Đối với phát hiện bất thường, bài toán phát hiện phần tử tách biệt (Outlier Detection) được nhấn mạnh, với mục tiêu nhận diện các hành động tấn công khác biệt trong tập dữ liệu mạng, đồng thời vẫn duy trì khả năng hoạt động ổn định trong các điều kiện dữ liệu nhiễu và không đầy đủ.

Hình 4.1: Ánh xạ Bài toán Phát hiện bất thường về bài toán Phát hiện PT Tách biệt

Khai phá dữ liệu thường liên quan đến việc xác định các bất thường, được hiểu là những điểm dữ liệu có sự khác biệt rõ rệt so với phần còn lại của tập

Hình 4.2: Kết nối bất thường là một phần tử tách biệt

2.2 Khái niệm phần tử tách biệt

Phần tử tách biệt (outlier) được định nghĩa theo nhiều cách khác nhau, trong đó định nghĩa nổi bật nhất là của Hawkins vào năm 1980 Theo Hawkins, phần tử tách biệt là một quan sát có độ sai lệch lớn hơn so với các quan sát khác, điều này cho thấy nó có thể xuất phát từ một cơ chế khác.

Trong việc khai thác tri thức, các sự kiện khác biệt đóng vai trò quan trọng, cung cấp phần tử tách biệt cần thiết cho nhiều lĩnh vực Tùy thuộc vào các yếu tố cấu thành, phần tử tách biệt được phân loại thành hai loại chính: phần tử tách biệt một chiều và phần tử tách biệt nhiều chiều.

Phần tử tách biệt một chiều:

Giả sử x là Trung vị và S là Độ lệch chuẩn của một phân bố dữ liệu Một quan sát được xem là tách biệt nếu nó nằm ngoài khoảng xác định bởi Trung vị và Độ lệch chuẩn.

Trong đó k thường lấy giá trị là 2, 3 Việc lựa chọn giá trị của k phụ thuộc vào phân bố chuẩn (normal distribution) được mong đợi chiếm 95,45% hay 99,75% dữ liệu.

Từ công thức (*) , quan sát x được coi là tách biệtnếu như:

Phần tử tách biệt nhiều chiều

Tổng quát hóa phần tử tách biệt một chiều dẫn đến khái niệm phần tử tách biệt nhiều chiều, phản ánh thực tế rằng một sự kiện thường bao gồm nhiều yếu tố quan sát khác nhau Chẳng hạn, sự kiện Kiểm tra hành vi quét cổng có thể bao gồm các yếu tố như Source_IP, Destination_IP, Source_Port và Destination_Port Bài toán phát hiện phần tử tách biệt được thực hiện trên một tập dữ liệu D với p thuộc tính và n mẫu Trong kịch bản phân lớp đối tượng, việc xác định các phần tử tách biệt dựa trên việc kiểm tra các mẫu là rất quan trọng.

Phần tử tách biệt nhiều chiều không thể được suy ra từ phần tử tách biệt một chiều, vì một phần tử với nhiều yếu tố tách biệt một chiều chưa chắc đã là tách biệt nhiều chiều Ngược lại, một phần tử tách biệt nhiều chiều có thể chỉ có một thuộc tính tách biệt một chiều.

Bài toán phát hiện phần tử tách biệt nhiều chiều là một trong những thách thức cơ bản trong các hệ thống IDS dựa trên phát hiện bất thường Nhiều nghiên cứu đã áp dụng cách tiếp cận xác suất để giải quyết vấn đề này, xây dựng các mô hình dữ liệu dựa trên phân bố ngẫu nhiên và xác định phần tử tách biệt thông qua mối tương quan với các mô hình đó Tuy nhiên, khi số chiều của không gian mẫu gia tăng, việc tính toán trở nên phức tạp và độ chính xác giảm sút.

Dựa trên kỹ thuật Khai phá dữ liệu, việc tìm kiếm phần tử tách biệt trong tập dữ liệu có thể được thực hiện qua nhiều phương pháp khác nhau Bài viết sẽ giới thiệu một số thuật toán Phát hiện phần tử tách biệt tiên tiến, có khả năng áp dụng hiệu quả trong Hệ thống Phát hiện bất thường.

2.3 Các thuật toán phát hiện phần tử tách biệt

2.3.1 Phát hiện tách biệt sử dụng Khoảng cách đến phần tử gần nhất thứ k

Cách tiếp cận này tính toán khoảng cách Ơ-cơ-lít đến phần tử gần nhất thứ k của một điểm O Kí hiệu k(O) đại diện cho khoảng cách từ điểm O đến phần tử gần nhất thứ k Khoảng cách Dk(O) được sử dụng để đo lường tính "tách biệt" của mẫu O; nếu Dk(O) có giá trị lớn, điều này cho thấy rằng xung quanh điểm O có ít phần tử gần gũi.

O có ít phần tử, do đó khả năng trở thành phần tử tách biệt của O là cao Ngược lại, nếu O thuộc một cụm có mật độ phần tử cao, thì rõ ràng Dk(O) sẽ thay đổi.

Giả sử có n phần tử và một số nguyên k < n, phần tử tách biệt trong tập n phần tử là phần tử có giá trị D lớn nhất Do đó, bài toán phát hiện phần tử tách biệt trở thành bài toán tìm kiếm giá trị cực đại.

Thuật toán phần tử kề NN (Nearest Neighbor) là một trường hợp cụ thể của thuật toán phát biểu mục trên khi k=1 Ngoài ra thuật toán còn đưa ra

Ngưỡng tách biệt (outlier threshold) được sử dụng để xác định các điểm dữ liệu tách biệt trong một tập dữ liệu Ngưỡng này được tính toán dựa trên tập dữ liệu đào tạo, tức là tập dữ liệu "bình thường" Để xác định ngưỡng tách biệt, thuật toán sẽ tính toán và sắp xếp tất cả các khoảng cách từ điểm dữ liệu đến phần tử gần nhất Những điểm dữ liệu có khoảng cách gần nhất (NN) lớn hơn ngưỡng sẽ được coi là phần tử tách biệt.

2.3.3 Phát hiện Phần tử tách biệt dựa trên khoảng cách Mahalanobis

Dữ liệu được sử dụng để đào tạo mô hình phản ánh các hành vi "bình thường", từ đó dễ dàng tính toán được Trung vị và Độ lệch chuẩn cho dữ liệu này Khoảng cách Mahalanobis giữa điểm dữ liệu P và Trung vị x được tính toán theo công thức nhất định.

Mô hình Hệ thống Phát hiện bất thường dựa trên kỹ thuật Khai phá dữ liệu

kỹ thuật Khai phá dữ liệu

Hệ thống phát hiện bất thường dựa trên KPDL sử dụng thuật giải phát hiện phần tử tách biệt, kết hợp với bộ lọc các tấn công đã biết để cải thiện khả năng nhận diện Hệ thống tự học các dấu hiệu tấn công và sử dụng bộ tổng hợp để rút gọn cảnh báo cho chuyên gia, đồng thời xây dựng luật rút gọn nhằm bổ sung tri thức cho hệ thống Mô-đun tổng hợp được phát triển từ kỹ thuật tổng hợp trong khai phá dữ liệu, giúp nâng cao hiệu quả phát hiện bất thường.

Hệ thống IDS khác như Môđun Lọc thông tin, Môđun trích xuất thông tin

DL Tấn công đã biết

TẤN CÔNG MỚI - RÚT GỌN

BỔ SUNG DẤU HIỆU MỚI

Hình 4.6 Hệ thống Phát hiện bất thường sử dụng Kỹ thuật Khai Phá dữ liệu

Dữ liệu được thu thập từ nhiều nguồn như cảm biến, thiết bị mạng, SNMP MIB và file log hệ thống Do khối lượng dữ liệu lớn, không thể lưu trữ toàn bộ, nên hệ thống sẽ theo dõi thông tin trong khoảng thời gian nhất định, ví dụ như lưu trữ dữ liệu trong vòng 1 giờ Độ dài của khoảng thời gian quan sát là yếu tố quan trọng mà quản trị viên cần cân nhắc để phù hợp với hệ thống mạng của mình Nếu khoảng thời gian quá ngắn, sẽ ảnh hưởng đến khả năng phân tích dữ liệu.

Hệ thống có thể bỏ lỡ nhiều cuộc tấn công “chậm” nếu cửa sổ thời gian quá dài, đồng thời cũng không đảm bảo tốc độ cần thiết cho các ứng dụng trong môi trường thời gian thực.

Các bộ dữ liệu thông thường được lưu trữ dưới dạng bản ghi trong file Hệ thống sẽ loại bỏ những thông tin thừa và lưu lượng mạng mà nó xác định là không có tấn công Chỉ khoảng 20% tổng số thông tin từ các công cụ bắt gói tin là hữu ích cho hệ thống.

3.2 Môđun Trích xuất dữ liệu

Sau khi dữ liệu được lọc qua Môdun, quá trình trích xuất các yếu tố quan sát sẽ diễn ra Mỗi thuật toán phát hiện bất thường yêu cầu một tập hợp các thông số quan sát riêng biệt Đối với các gói tin mạng, thông tin quan trọng thường nằm chủ yếu ở phần Header Dưới đây là một số thông số mà Môdun Trích xuất có thể áp dụng.

Header Thông tin trích xuất

Source address Destination address Protocol

IP header Source address, Destination address

Header length TOS Packet size

TCP header Source port, Destination Port

Sequence & ACK Number Header length

UDP header Source port, Destination port

3.3 Môđun Phát hiện Phần tử tách biệt

Hệ thống Phát hiện bất thường có thể áp dụng nhiều thuật toán Tìm kiếm phần tử tách biệt, nhưng nên sử dụng một thuật toán duy nhất để không ảnh hưởng đến hoạt động của hệ thống Mạng Việc chọn lựa thuật toán phù hợp dựa trên phân bố dữ liệu mạng đã được thử nghiệm và đánh giá trên bộ dữ liệu DARPA, một tiêu chuẩn quan trọng trong lĩnh vực này Bộ dữ liệu DARPA 98 bao gồm hai phần chính: Dữ liệu phục vụ đào tạo và Dữ liệu thử nghiệm, trong đó Dữ liệu đào tạo chứa hơn 5 triệu kết nối mạng trong 7 tuần, bao gồm cả traffic bình thường và traffic tấn công đã được gán nhãn.

Các thử nghiệm cho thấy rằng thuật toán LOF có khả năng phát hiện tấn công trong dữ liệu mạng cao hơn và tỷ lệ cảnh báo sai thấp hơn so với các thuật toán khác Dưới đây là một số kết quả thử nghiệm.

Đường cong ROC là một chỉ số quan trọng để đánh giá tỷ lệ Cảnh báo đúng và Cảnh báo sai trong hệ thống phát hiện bất thường Kết quả cho thấy thuật toán LOF vượt trội hơn so với các thuật toán khác trong việc phát hiện các cuộc tấn công Các loại tấn công được thử nghiệm bao gồm U2R (tấn công leo thang đặc quyền), R2L (tấn công từ bên ngoài vào hệ thống), và DoS (tấn công từ chối dịch vụ) như Ping-of-death, teardrop, smurf, và SYN Flood.

Số lượng tấn công Loại tấn công LOF NN Mahalanobis Unsupervised

Kết quả thử nghiệm cho thấy thuật toán LOF phù hợp với phân bố xác suất của dữ liệu mạng, cho phép phát hiện các phần tử tách biệt Do đó, thuật toán LOF có thể được áp dụng hiệu quả trong các hệ thống phát hiện bất thường.

Thuật toán LOF (Local Outlier Factor) được sử dụng để đánh giá tính tương đồng giữa các điểm dữ liệu dựa trên phân loại và số liệu Để tính giá trị LOF cho một điểm dữ liệu, cần có thông tin về các điểm lân cận nhằm xác định khoảng cách giữa chúng Quá trình này có độ phức tạp O(N²), với N là kích thước của tập dữ liệu Tuy nhiên, để xử lý hiệu quả với tập dữ liệu lớn, có thể sử dụng một mẫu nhỏ hơn và so sánh tất cả các điểm dữ liệu với mẫu này, giúp giảm độ phức tạp xuống còn O(N*M), trong đó M là số lượng phần tử trong mẫu.

Trong môđun này, việc áp dụng các hướng quan sát khác nhau là rất cần thiết để bổ sung cho nhau Hệ thống không chỉ cần xử lý các thông số đã trích xuất mà còn phải giám sát theo thời gian và phiên kết nối Chẳng hạn, việc theo dõi số phiên kết nối đến một địa chỉ đích từ một địa chỉ nguồn, cũng như quan sát số lượng cổng đích trong một khoảng thời gian nhất định, sẽ giúp hệ thống giám sát đa chiều và toàn diện hơn về vấn đề.

Trong một hệ thống mạng lớn với nhiều nốt, số lượng kết nối cần giám sát là rất lớn, có thể lên đến hàng triệu trong chỉ 10 phút Nếu 0,1% trong số đó được đánh giá là bất thường, hàng trăm cảnh báo sẽ được phát ra, gây khó khăn cho quản trị viên trong việc giám sát và nhận định Do đó, cần thiết phải có biện pháp tổng hợp các kết nối bất thường để rút gọn dữ liệu đầu ra, đồng thời vẫn phản ánh chính xác tình trạng bất thường trong hệ thống.

Để nâng cao hiệu quả của hệ thống phát hiện xâm nhập, cần bổ sung các mẫu tấn công mới sau khi phát hiện các dạng tấn công mới Những mẫu này phải ở dạng rút gọn và phản ánh chính xác các cuộc tấn công, đồng thời thuận tiện cho việc so sánh trong tương lai Kỹ thuật Tổng hợp trong Khai phá dữ liệu được áp dụng để rút gọn cảnh báo và tập mẫu, ví dụ, 10 cảnh báo tương tự có thể được rút gọn thành một cảnh báo duy nhất.

Hình 4.9: Ví dụ về tổng hợp luật

Để đánh giá hiệu quả của một thuật toán tổng hợp, có hai tiêu chí chính là độ nén (compression gain) và tỷ lệ mất tin (information loss) Độ nén tập trung vào việc rút gọn dữ liệu, trong khi tỷ lệ mất tin phản ánh mức độ thông tin bị mất sau quá trình tổng hợp Thông thường, khi tăng độ nén trong cùng một thuật toán, tỷ lệ mất tin cũng sẽ gia tăng Vì vậy, cần có phương pháp hợp lý để giải quyết vấn đề này.

Môđun Tổng hợp nhận dữ liệu đầu vào là các kết nối có chỉ số bất thường từ Môđun Phát hiện PTTB, và đầu ra của nó là các mẫu rút gọn mô tả cuộc tấn công.

Hình 4.10 Hoạt động của Môđun Tổng hợp

So sánh và Đánh giá

Việc so sánh đánh giá khả năng hoạt động của các hệ thống Phát hiện xâm

• Học các biến thể tấn công/ bình thường

• Luật mô tả tấn công

• Hiểu cơ chế tấn công update

Kết nối được phân loại chính xác là yếu tố quan trọng để giải quyết các vấn đề trong lĩnh vực an ninh mạng Đánh giá hiệu quả của hệ thống cần dựa trên nhiều tiêu chí, bao gồm tỷ lệ phát hiện đúng (số lượng tấn công được phát hiện chính xác) và tỷ lệ phát hiện sai (số lượng kết nối bình thường bị nhầm là tấn công).

Hệ thống phát hiện bất thường MINDS sử dụng Kỹ thuật Khai phá dữ liệu với thuật toán phát hiện phần tử tách biệt, mang lại nhiều ưu điểm nổi bật Bài viết này cũng so sánh MINDS với phần mềm SNORT, một hệ thống IDS phổ biến dựa trên dấu hiệu, và với SPADE, mô-đun phát hiện bất thường dựa trên phương pháp xác suất thống kê, nhằm làm rõ hiệu quả và tính năng của từng hệ thống.

4.1 Hệ thống phát hiện bất thường MINDS

MINDS (Hệ thống Phát hiện Xâm nhập Minnesota) là một hệ thống phát hiện bất thường tiên tiến, áp dụng kỹ thuật Khai phá dữ liệu Hiện nay, MINDS đang được triển khai trên nhiều hệ thống mạng với hàng chục nghìn máy tính, giám sát hàng triệu dòng lưu lượng mạng mỗi ngày.

MINDS được xem là một giải pháp hiệu quả trong việc phát hiện các tấn công mạng mới mà các hệ thống khác không phát hiện được Nó có khả năng nhận diện các kênh kết nối giả mạo và hành vi đánh cắp thông tin, điều mà nhiều hệ thống IDS phổ biến như Snort gặp khó khăn Hệ thống MINDS sử dụng dữ liệu mạng thu thập từ công cụ Netflow, chỉ lấy thông tin trong header của gói tin mà không can thiệp vào nội dung, giúp nâng cao khả năng xử lý.

Hệ thống phát hiện bất thường chủ yếu dựa vào thông tin trong phần header của gói tin Netflow thu thập thông tin này để xây dựng các phiên giao dịch một chiều, hay còn gọi là dòng tin flow Ngoài Netflow, công cụ tcpdump cũng có thể được sử dụng để thực hiện chức năng tương tự.

Netflow sử dụng cửa sổ quan sát 10 phút, trong khoảng thời gian này thường ghi nhận từ 1 đến 2 triệu phiên giao dịch một chiều Hệ thống sẽ lọc các thông tin không cần thiết, bao gồm các gói tin từ nguồn tin cậy, một số gói tin của giao thức HTTP hoặc FTP, và các gói tin bất thường đã được xác định không phải là hành vi tấn công.

MINDS sử dụng dữ liệu đã được làm sạch để trích xuất và thống kê các yếu tố đặc trưng phục vụ cho kỹ thuật Khai phá dữ liệu Các yếu tố cơ bản được trích xuất bao gồm: SIP, DIP, Sport, Dport, Protocol, Flags, BytesNum và PacketsNum.

Hệ thống MINDS không chỉ dựa vào các yếu tố cơ bản mà còn áp dụng hai hướng đánh giá quan trọng: Quan sát dựa trên Thời gian và Quan sát dựa trên Kết nối Quan sát thời gian giúp thống kê số lượng kết nối tương tự trong một khoảng thời gian T (giây), mang lại cái nhìn sâu sắc về sự tương đồng trong các kết nối.

Yếu tố Tên Mô tả

1 SIP Địa chỉ IP nguồn

2 DIP Địa chỉ IP đích

5 Protocol Giao thức sử dụng

6 Flags Các cờ trong gói tin

Số gói tin trong quét cổng thường lớn và diễn ra trong thời gian ngắn Đặc điểm nổi bật của các loại tấn công này là sự gia tăng đột biến về lưu lượng gói tin Để quan sát sự tấn công hiệu quả, cần chú ý đến các yếu tố thời gian quan trọng.

Tấn công dò quét “chậm” là phương thức mà kẻ tấn công dành nhiều thời gian hơn để thực hiện một lần quét, dễ dàng đánh lừa các hệ thống IDS thông thường như Snort Để phòng ngừa loại tấn công này, MINDS áp dụng phương pháp Quan sát dựa trên Kết nối, tập trung vào số lượng kết nối có cùng đặc điểm trong N kết nối gần đây nhất Các yếu tố thống kê trong phương pháp này đóng vai trò quan trọng trong việc phát hiện và ngăn chặn các hành vi tấn công.

13 Count_des_conn Cùng một địa chỉ IP nguồn, số lượng IP đích trong mạng trong N kết nối gần đây nhất

14 Count_src_conn Cùng một địa chỉ IP đích, số lượng IP nguồn trong mạn g trong N kết nối gần đây nhất

15 Count_srv_src_conn Số lượng kết nối từ địa chỉ IP nguồn đến cùng một địa chỉ cổng đích trong N kết nối gần đây nhất

9 Count_des Cùng một địa chỉ IP nguồn, số lượng IP đích trong mạng trong T giây gần đây nhất

10 Count_src Cùng một địa chỉ IP đích, số lượng IP nguồn trong mạng trong

11 Cou nt_ser_src Số lượng kết nối từ địa chỉ IP nguồn đến cùng một địa chỉ cổng đích trong T giây gần đây nhất

12 Count_ser_des Số lượng kết nối từ địa chỉ IP đích đến cùng một địa chỉ cổng đích trong T giây gần đây

16 Count_srv_des_conn Số lượng kết nối từ địa chỉ IP đích đến cùng một địa chỉ cổng đích trong N kết nối gần đây

Sau khi trích xuất thông tin, MINDS áp dụng bộ phát hiện tấn công đã biết để loại bỏ những dữ liệu không cần phân tích Dữ liệu sau đó được chuyển vào môđun Phát hiện bất thường, nơi sử dụng thuật toán phát hiện phần tử tách biệt MINDS gán chỉ số bất thường cho từng kết nối, và các chuyên gia sẽ kiểm tra những kết nối có chỉ số cao nhất để xác định xem đó có phải là một cuộc tấn công thực sự hay chỉ là biến động trong hệ thống mạng.

Môđun phân tích kết hợp mẫu sẽ tổng hợp các kết nối có mức độ bất thường cao, cho phép các chuyên gia theo dõi và đánh giá Dựa trên quan sát này, họ sẽ quyết định xem có cần thiết phải thiết lập các luật mới nhằm bổ sung vào các dạng tấn công đã được xác định hay không.

4.2 Đánh giá khả năng hoạt động của hệ thống MINDS

Hệ thống MINDS có thể phát hiện nhiều dạng tấn công mới chưa có dấu hiệu

Thử nghiệm với sâu “SQL Slammer/Sapphire” cho thấy hệ thống MINDS có khả năng phát hiện nhanh chóng các dấu hiệu tấn công chỉ trong vòng 48 giờ Các dòng in đậm hơn thể hiện rõ dấu hiệu của sâu Slammer, với các thông số như score, srcIP, sPort, dstIP, dPort và packets.

Các thử nghiệm đã chứng minh rằng MINDS có khả năng phát hiện các loại sâu biến thể như Slapper, điều mà Snort không thể làm được MINDS nhận diện các loại sâu này dựa trên nhiều yếu tố khác nhau.

- Sâu sử dụng địa chỉ nguồn và đích không lạ tuy nhiên sự kết hợp giữa chúng ít khi xảy ra

Các kết nối được tạo ra bởi sâu máy tính đã làm gia tăng đột biến giá trị Count_serv_src_conn, tức là số lượng kết nối từ một địa chỉ IP nguồn đến cùng một địa chỉ cổng đích trong N kết nối gần đây.

4.3 So sánh giữa MINDS và Snort

Kết chương

Chương này khám phá việc áp dụng Kỹ thuật Khai phá dữ liệu cho Hệ thống phát hiện bất thường (IDS) Việc sử dụng phương pháp dựa trên Khai phá dữ liệu mang lại nhiều lợi ích, đặc biệt là khả năng phát hiện các tấn công mà không cần kiến thức trước về lỗ hổng bảo mật hay hình thức tấn công Nhờ đó, Hệ thống IDS có thể phát hiện các mối đe dọa tiềm ẩn một cách hiệu quả hơn.

Kỹ thuật KPDL S có khả năng phát hiện chính xác các cuộc tấn công kéo dài như DoS và Quét cổng, đồng thời thích ứng với dữ liệu không đầy đủ hoặc không chính xác Chương này trình bày cách tiếp cận bài toán phát hiện bất thường trong mạng, tập trung vào việc phát hiện phần tử tách biệt trong tập dữ liệu và giới thiệu một số thuật toán giải quyết Mô hình hệ thống phát hiện bất thường dựa trên KPDL được khái quát hóa với các mô-đun bao gồm Lọc tin, Trích xuất dữ liệu, Phát hiện phần tử tách biệt và Tổng hợp Cuối cùng, chương đưa ra so sánh đánh giá hệ thống này với các hệ thống phát hiện xâm nhập khác.

Tiêu đề	Hệ Thống Phát Hiện Bất Thường Trong Mạng Sử Dụng Khai Phá Dữ Liệu
Tác giả	Lê Thế Thắng
Người hướng dẫn	TS. Nguyễn Linh Giang
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2007
Thành phố	Hà Nội

Định dạng
Số trang	92
Dung lượng	3,35 MB

Tài liệu tham khảo	Loại	Chi tiết
[12] M. M. Breunig, H. P. Kriegel, R. T. Ng, J. Sander, - LOF: Identifying Density-Based Local Outliers, Proceedings of the ACM SIGMOD Conference, 2000	Khác
[13] Hawkins D.M, Identification of Outliers, Chapman and Hall, London 1980	Khác
[14] M. Ramadas, S. O. B. Tjaden, Detecting Anomalous Network Traffic with Self-organizing Maps , 6th International Symposium on Recent Advances in Intrusion Detection, Pittsburgh, PA, USA, 2003, pp. 36 – 54	Khác
[15] James Michael Stewart, Security+ Fast Pass , Sybex Press	Khác
[16] J. P. Anderson, Computer security threat monitoring and surveillance , Technical Report, 1980	Khác
[17] S. E. Smaha, Haystack: An Intrusion Detection System , IEEE Fourth Aerospace Computer Security Applications Conference, Orlando, FL, 1988, pp. 37 – 44	Khác
[18] Symantec Internet Security Threat Report – Symantec 03 2007 - www.symantec.com	Khác
[19] A. K. Ghosh, A. Schwartzbart, M. Schatz, Learning Program Behavior Profiles for Intrusion Detection , 1st USENIX Workshop on Intrusion Detection and Network Monitoring, Santa Clara, CA, USA, 1999	Khác
[20] J. L. Elman, Finding Structure in Time , Cognitive Science, vol. 14, pp. 179 211, 1990 -	Khác
[21] A. Valdes and K. Skinner, Adaptive Model-based Monitoring for	Khác
[22] Debra Anderson, Next-Generation Intrusion Detection Expert System (NIDES) – A summary , SRI- CSL 95 07, 1995 - -	Khác
[23] Gerald Tripp, A finite-state-machine based string matching system for intrusion detection on high-speed networks , EICAR, 2005	Khác
[24] T. Mitchell, Machine Learning and Data Mining , Communications of the ACM, Vol.42 (1999), No. 11, pp. 30—36	Khác