Nghiên cứu ứng dụng mạng nơron trong bài toán phát hiện xâm nhập

26 8 2
Nghiên cứu ứng dụng mạng nơron trong bài toán phát hiện xâm nhập

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LÊ NGOC THE

NGHIEN CUU UNG DUNG MANG NORON TRONG BAI

TOAN PHAT HIEN XAM NHAP

HÀ NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

Người hướng dẫn khoa học: TS Vũ Tất Thắng

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học

viện Công nghệ Bưu chính Viễn thông

Có thê tìm hiéu luận văn tại:

- Thu viện của Học viện Công nghệ Bưu chính Viễn thông

HÀ NỘI - 2015

Trang 3

MỞ ĐẦU

Tính cấp thiết của đề tài

Mặc dù ra đời chưa lâu nhưng mạng Internet đã phát triển mạnh mẽ và ngày

nay nó có ảnh hưởng sâu rộng trong hầu hết tất cả các lĩnh vực của đời sống con người Bên cạnh những lợi ích to lớn thì nó cũng mang lại nguy cơ bị tấn công không nhỏ cho các tô chức và người dùng kết nối vào Internet Các cuộc tấn công mạng trên toàn thế giới không ngừng tăng về số lượng cũng như mức độ nguy hiểm của chúng Những cuộc tan công mạng có thé gây ra những hậu quả nghiêm trọng về kinh tế, xã hội thậm chí ảnh hưởng tới an ninh chính trị của một quốc gia Tại Việt Nam, trong những năm gần đây chúng ta không ít lần chứng kiến các hệ thống website nổi tiếng bị tin tặc tan công như: dantri.com.vn, vietnamnet.vn, vff.org.vn Việc phát hiện và xử lý thủ phạm gây ra các cuộc tấn công là cực kì khó khăn Giải

pháp kỹ thuật phổ biến cho van dé này là tìm cách phát hiện sớm các cuộc tấn công mạng dé từ đó có giải pháp thích hợp xử lý đối phó với chúng.

Tổng quan về van đề nghiên cứu

Một số hệ thống phát hiện xâm nhập ra đời (IDS — Intrusion Detection System) nhằm phát hiện và ngăn chặn sớm các cuộc tan công mạng Hai hướng tiếp cận phổ biến dé xây dựng hệ thống IDS là: xây dựng Hệ chuyên gia (rule-based) và hướng ứng dụng Học máy (SVM, mạng no-ron ) Mỗi phương pháp đều mang lại những hiệu quả nhất định, nhưng bên cạnh đó chúng còn ton tại những hạn chế riêng:

- Hệ chuyên gia (rule-based): Phương pháp này sử dụng các luật tan công đã biết trước, dựa vào các luật được định nghĩa trong hệ thống mà khi có cuộc tan công mới thì hệ thống sẽ so sánh các đặc trưng, dấu hiệu của gói tin với tập luật đã có Ưu điểm là khi đã được định nghĩa luật cho cuộc tan công thì khả năng phát hiện nhằm rất thấp, có thé thêm các luật mới rất linh động, cơ chế hoạt động không quá phức tạp Nhược điểm là khi

không có luật cho kiểu tấn công mới thì hệ thống không phát hiện được Số lượng luật nhiều hệ thống sẽ hoạt động chậm hơn IDS dạng này phụ

Trang 4

thuộc rất nhiều vào khả năng cập nhật luật mới cũng như trình độ am hiểu về bảo mật của người quản trị.

- Ung dụng học máy: Phương pháp này ra đời với mục đích khắc phục

việc phải cập nhật các luật mới có thể tạo ra xung đột trong tập luật đã có, vốn chỉ phù hợp với các mô hình qui mô vừa Thay vào đó hệ thống IDS

sẽ được học mô hình phát hiện bất thường dựa trên một số lượng nhất

định các mẫu dữ liệu được thu thập Hiệu quả của phương pháp này

thường cho ra hệ thống có khả năng tốt hơn đồng thời lại linh động trong

thay đổi huấn luyện Với cách tiếp cận này, người ta có thé dé dang hơn trong việc xây dựng các hệ thông IDS phức tạp, việc phát hiện xâm nhập không đơn thuần chỉ là phát hiện nhằm cảnh báo có tan công hay không tấn công mà còn có thể đưa ra loại hình, tính năng chi tiết của cuộc tấn công tương ứng Mạng nơ-ron là một phương pháp học máy được chọn trong luận văn dé ứng dụng cho bài toán phát hiện xâm nhập theo phương pháp học máy.

Trên thực tế, hướng tiếp cận ứng dụng học máy cũng không đảm bảo cho kết

quả tốt trong mọi tình huống Ví dụ, các hình thức tan công như DoS, DDoS, Probe

(thăm dò), U2R (leo thang đặc quyền) thường có tần suất chênh lệch nhau rất

nhiều Các cuộc tan công DoS rat phổ biến nhưng các cuộc tấn công U2R lại rất ít dé lay mẫu Điều này dẫn đến tình trạng dữ liệu thu thập được khi áp dụng cho học máy cũng có tỉ lệ chênh lệch rat lớn giữa các kiêu tan công, dẫn đến việc dự báo bị

thiên vị cho các lớp dữ liệu nhiều và ít hiệu quả với các lớp dữ liệu ít, đôi khi làm

giảm cả chất lượng dự báo chung của cả hệ thống.

Mục đích nghiên cứu

Mục đích của đề tài là tìm hiểu mạng nơ-ron để áp dụng cho bài toán phát

hiện xâm nhập Bên cạnh đó đề tài còn quan tâm đến việc cải tiến chất lượng hệ thống IDS, nhằm mục dich phát hiện chính xác hon và không thiên vị giữa các kiểu cảnh báo tan công trong điều kiện dữ liệu huấn luyện chênh lệch nhau.

Trang 5

Đối tượng và phạm vi nghiên cứu

Nghiên cứu kỹ thuật học máy mạng nơ-ron, sau đó ứng dụng đề làm công cụ phân loại các kết nối mạng trên bộ dữ liệu KDD cup 99.

Tìm hiểu, phân tích bộ dữ liệu KDD cup 99 được cung cấp bởi Cơ quan Quản lý Nghiên cứu Dự Án Bộ quốc phòng Mỹ (DARPA) cho bài toán phát hiện

xâm nhập sử dụng mạng nơ-ron.

Nghiên cứu các hệ thống IDS sử dụng mô hình hệ chuyên gia (rule-based) như Snort dé nắm được ưu nhược điểm dé cái tiễn hệ thống IDS sử dụng học máy.

Phương pháp nghiên cứu

Nghiên cứu và cài đặt kỹ thuật học máy mạng nơ-ron Thu thập và tiền xử lý

bộ dữ liệu mẫu hiện có về tan công mạng Áp dụng giải pháp cải tiến trên dữ liệu đã xử lý, đánh giá kết quả sau khi thực hiện với các kết quả nghiên cứu đã công bố

trước đó.

Đó là ly do tác giả chọn dé tài “Nghién cứu ứng dụng mạng noron trong bài toán phát hiện xâm nhập”.

Trang 6

CHƯƠNG 1: CƠ SỞ LY THUYET

1.1 Tổng quan về tắn công mạng 1.1.1 Khai niệm

Theo Sandeep Gutta thì tan công mang (cyber attack hay intrusion) có thé được hiểu là một loạt các hoạt động máy tính nguy hiểm de dọa và làm tốn hai tới

sự bảo mật và tính toàn vẹn của một máy tính hay hệ thống mạng Tấn công mạng phá vỡ hoạt động bình thường của hệ thống máy tính và có thê truy nhập trái phép hoặc phá hủy thông tin trong các hệ thống máy tính.

1.12 Các kiểu tấn công mạng

Có nhiều cách thức tan công mạng nhưng chúng ta có thé phân thành bốn loại hình tan công chính như sau:

DoS - Denial of Service attack: Là những tấn công làm cho tài nguyên máy tính (ví dụ Web server) không phục vụ được theo yêu cầu của người dùng thực sự.

R2L - Remote to Local attack: Tin tặc có gắng đạt được quyền truy cập vào khu vực hệ thống máy tính bằng việc gửi các gói tin tới hệ thống thông qua mạng.

Một vài cách phổ biến mà loại này thực hiện là đoán mật khâu thông qua phương

pháp từ điển brute-force, FTP Write,

U2R - User to Root attack: Tin tặc với quyền của một người dùng bình thường cố gắng dé đạt được quyền truy nhập cao nhất vào hệ thống một cách bat hợp pháp.

Probe - Surveillance: Tin tặc quét mạng hoặc máy tính để tìm ra điểm yếu dễ tan công mà thông qua đó tin tặc có thé khai thác hệ thống Một cách phổ biến của loại tan công này là thực hiện thông qua việc quét các công của hệ thống máy tính.

1.2 Bài toán phát hiện xâm nhập mạng

Khi một máy tính hay một hệ thống máy tính hoạt động trên môi trường mạng, sẽ có rất nhiều kết nối giữa nó và các máy tính, các thiết bị khác Có thé trong những kết nỗi đó có những kết nối đang tìm cách tấn công hệ thống dé đạt

Trang 7

được mục đích nào đó Bản thân mỗi máy tính đều có những biện pháp để tự bảo vệ nhưng nó có những điểm yếu và thực sự không đủ sức chống lại các cuộc tấn công mới với mức độ ngày càng tinh vi hơn Bên cạnh đó các máy tinh hay hệ thống cũng phải chịu các nguy cơ đến từ việc vi phạm chính sách an toàn thông tin một cách vô tình hay cô ý Bài toán được đặt ra là cần có cơ chế phát hiện sớm các cuộc

tan công dé từ đó có những biện pháp ngăn chặn hoặc giảm thiéu tối đa những thiệt hại, tác động do các cuộc tân công gây ra.

1.2.1 Phát hiện xâm nhập mạng

Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một

hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự có có thé xảy ra, đó là các hành vi hoặc các mối de dọa sắp xảy ra vi phạm các chính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc dựa trên bảo mật tiêu chuẩn.

1.2.2 Phân loại phương pháp phát hiện xâm nhập mang

Các IDS có thê giám sát các sự kiện ở 3 cấp độ khác nhau: mạng (network), máy trạm (host), ứng dụng (application) Chúng có thé phân tích các sự kiện bằng việc sử dụng một trong các phương pháp: dựa trên dấu hiệu (signature-based), dựa trên di thường (anomaly-based) và phân tích trạng thái giao thức (statefull protocol analysic) Có hai cách dé phân loại IDS đó là:

Dựa trên phương pháp giảm satDựa trên phương pháp phán tích

1.3 Hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập (Intrusion Detection System — IDS) là hệ thống

phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đên an ninh, bao mật và đưa ra cảnh báo cho nhà quản tri.

1.3.1 Thành phan của hệ thống IDS

Trung tâm điều khiển (The Command Console)

Trang 8

Bộ cảm biến (Network Sensor)

Bộ phân tích gói tin (Network Trap)

Thành phần cảnh báo (Alert Notification)

1.3.2 Phân loại các hệ thống IDS

1.3.2.1 Network-based Intrusion Detection System (NIDS)

NIDS (hệ thống phát hiện xâm nhập cho mang) là một giải pháp độc lập dé cảnh báo các xâm nhập trái phép thông qua việc phân tích các gói tin trên mạng và

giám sát hoạt động của nhiều máy trạm nội bộ, NIDS kiểm soát các luồng thông tin

bằng cách kết nối vào các Hub, Switch được cấu hình Port mirroring hoặc Network

tap dé có thé bắt các gói tin, phân tích nội dung nhận được va từ đó sinh ra các cảnh

1.3.2.2 Host-based Intrusion Detection System (HIDS)

Trong hé thong HIDS (hé thong phát hiện truy nhập dựa trên máy trạm), các sensor thông thường là một phần mềm trên máy trạm (software agent), nó giám sát tât cả các hoạt động của máy trạm mà nó năm trên đó.

1.3.2.3 Hybrid Intrusion Detection System

La một hệ thống lai giữa hệ thống Network- based IDS va hệ thống Host-based IDS Nó kết hợp một hoặc nhiều các thành phần thích hợp của hai hệ thống lại với nhau Các thông tin thu thập được trên máy trạm (host agent data) kết hợp

với thông tin thu thập được ở trên mang dé có sự phân tích một cách chỉ tiết về hiện

trạng hệ thống mạng.

1.4 Kết luận chương

Trang 9

CHƯƠNG 2: TÌM HIỂU VÀ NGHIÊN CỨU CÁC PHƯƠNG

PHÁP PHÁT HIỆN TÁN CÔNG TRONG HỆ THÓNG IDS

2.1 Thế nào là bất thường trong mạng

Sự bất thường trong mạng thường dùng để chỉ những tình huống khi hoạt

động của mạng đi chệch so với các trạng thái được quy định là bình thường Bất thường trong mạng có thê được chia làm hai lớp chính:

- _ Lớp bất thường thứ nhất: liên quan đến những sự cố và những lỗi về hiệu năng của mạng như sự cố liên quan đến File Server, sự cô phân trang bộ nhớ qua mạng (paging across the network), tắc nghẽn đường truyền (transient congestion) Trong một vài trường hợp những lỗi phần mềm cũng có thé gây ra các bất thường như những lỗi khi xây dựng giao thức mạng khiến cho một máy liên tục gửi các gói tin gây tắc nghẽn mạng

- Lớp bat thường thứ 2: là những van đề liên quan đến an ninh mạng Ví dụ

về những bat thường dạng này là tan công từ chối dịch vu (DoS).

2.2 Các nguồn dữ liệu dùng cho phát hiện bat thường

Thu thập các loại dữ liệu liên quan đến hiệu năng của mạng là công việc cơ bản cho việc phát hiện bất thường Các loại bất thường có thể phát hiện được phụ thuộc vào bản chất của dữ liệu mạng Phương pháp phát hiện bất thường là xây dựng tập các hồ sơ trạng thái bình thường của mạng để so sánh do đó dữ liệu thu thập càng chính xác khả năng phát hiện càng cao, thuật toán càng hiệu quả Dưới đây là các nguồn dữ liệu cho phát hiện bat thường:

2.2.1 Network Probes

Network Probes là các công cụ đặc biệt như lệnh ping, traceroute được sử

dụng dé thu thập các thông số mạng cần thiết như thời gian trễ và tỉ lệ mat gói tin.

Trang 10

2.2.2 Lọc gói tin cho việc phân tích luồng

Trong phương thức lọc gói tin, các luồng gói tin sẽ được thống kê, lấy mẫu bằng cách ghi lại các thông tin IP header của các gói tin ở các thời điểm khác nhau và ở các vị trí khác nhau Các thông tin thu được từ IP header có thể cung cấp chỉ tiết về hoạt động của mạng, chúng có thể được sử dụng trong việc phát hiện các bất thường về luồng Một luồng thông tin được xác định bởi địa chỉ nguồn, địa chỉ đích

và sô hiệu công.

2.2.3 Dữ liệu từ các giao thức định tuyến

Thông tin về các sự kiện mạng có thê được thu thập thông qua các giao thức định tuyến Dữ liệu thu được có thé xây dựng topology (cách bố trí phan tử của mạng cũng như cách nối giữa chúng với nhau) của mạng và cung cấp trạng thái cập nhật của đường truyền như về băng thông, độ trễ, mức độ tắc nghẽn mạng

2.2.4 Dữ liệu từ các giao thức quản trị mạng

Các giao thức quản trị mạng cung cấp tất cả thông tin thống kê về giao thông

trên mạng Những giao thức này hỗ trợ rất nhiều thông số có thé giám sát chính xác

hoạt động thiết bị mạng Những thông tin thu thập được có thể không cung cấp trực

tiếp các thông số đo lường về giao thông mạng nhưng có thé dùng dé nhận dạng các

hành vi trên mạng do đó có thê được sử dụng trong phát hiện bất thường mạng.

2.3 Các phương pháp phát hiện bất thường

2.3.1 Phương pháp hệ chuyên gia (rule-based)

Trong hệ chuyên gia, một cơ sở dữ liệu chứa tập luật (rules) miêu tả các

hành vi bất thường được dùng để so sánh với các luồng dữ liệu đi đến hệ thống

mạng Nếu một luồng dit liệu đi đến hệ thống với mục đích tấn công mà không được định nghĩa trong tập luật thì hệ thong IDS khéng thé phát hiện được.

Hệ thống phát hiện bất thường dựa trên rule-based có đặc điểm dễ cấu hình, dễ thêm luật mới và dễ sử dụng Mỗi khi hệ thống mạng đứng trước những nguy cơ tần công mới, người quản tri chỉ việc cập nhật thêm các luật chưa có vào cơ sở dữ

Trang 11

liệu Phương pháp này có tỉ lệ phát hiện nhằm rất thấp vì nó dùng cách phân tích gói

tin và so sánh với mẫu đã có.

Tuy nhiên hệ thống phát hiện xâm nhập dựa trên rule-based sẽ trở nên chậm

chap dan khi tập luật phình to lên Phương pháp này còn có một nhược điểm là phụ thuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi hệ thống mạng được mở rộng do mỗi khi hệ thống có sự thay đồi thi cần có sự bổ sung về tập luật.

2.3.2 Phương pháp mạng no-ron (Artificial Neural Network)

Phương pháp này ra đời với mục đích khắc phục việc phải cập nhật các luật mới có thê tạo ra xung đột trong tập luật đã có của hệ thống IDS rule-based, vốn chỉ phù hợp với các mô hình quy mô vừa, nhỏ Thay vào đó hệ thống IDS sẽ được học

mô hình phát hiện bất thường dựa trên một số lượng nhất định các mẫu dữ liệu Hiệu quả của phương pháp này thường cho ra hệ thống có khả năng tốt hơn đồng thời lại linh động trong thay đồi huấn luyện Ưu điểm của mạng nơ-ron là thích ứng được với các kiểu dữ liệu không đầy đủ, dữ liệu với độ chắc chắn không cao và không cần cập nhật tri thức thường xuyên do nó có quá trình tự học.

2.3.3 Phân tích thống kê

2.3.4 Mang Bayes (Bayesian network based)2.3.5 May trang thai hitu han

2.4 Kết luận chương

Trang 12

CHƯƠNG 3: PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP DỰA

TREN MẠNG NƠ-RON

3.1 Mô hình mạng nơ-ron trong bài toán phát hiện xâm nhập

Ứng dụng một mô hình mạng nơ-ron cụ thé thường được chia lam hai giai đoạn là: huấn luyện và kiểm tra mẫu mới Tỷ lệ phát hiện xâm nhập thành công của mạng nơ-ron phụ thuộc rất nhiều vào tập mẫu Nếu tập mẫu này được phân tích và

thống kê với đầy đủ các đặc trưng của xâm nhập thì khả năng phát hiện sẽ tốt hơn.

Một tập mẫu tốt phải là một tập mẫu đủ lớn, chứa tất cả các loại tấn công điển hình, với các đặc trưng của xâm nhập được thống kê và phân tích rõ ràng.

Với những phân tích nêu trên, việc áp dụng mạng nơ-ron để giải quyết bài toán phát hiện xâm nhập là hoàn toàn khả thi Nhiệm vụ chính của bài toán là thiết kế một mạng nơ-ron dé huấn luyện trên một tập mẫu thu thập từ thực tế Như vậy dé

giải quyết bài toán chúng ta cần thực hiện qua 4 giai đoạn như sau:

- - Giai đoạn 1: Thu thập dữ liệu va tiền xử lý dữ liệu phục vụ quá trình học của

mạng nơ-ron.

- _ Giai đoạn 2: Thiết kế mạng nơ-ron dựa trên cơ sở phân tích dữ liệu xác định các đặc điểm của xâm nhập (đầu vào của mạng nơ-ron).

- Giai đoạn 3: Huấn luyện cho mô hình mạng nơ-ron đã thiết kế

— Mang Neural với

Mang Neural voi các tham số đã

các tham so khởi hiệu chỉnh, có khả

tạo ban đâu năng khái quát hóa

Dữ liệuhuan luyện

Hình 3.1: Các bước huấn luyện mạng nơ-ron

- _ Giai đoạn4: Kiêm tra huân luyện trên mâu mới (mau test)

Trang 13

tham sô đã hiệu chỉnh, cókhả năng khái quát hóa

| Kết quả kiểm tra của gói tin

Hình 3.2: Các bước kiểm tra dữ liệu với mô hình mạng no-ron đã huấn luyện

Do bài toán phát hiện xâm nhập có đầu vào và đầu ra rõ ràng, số lượng đầu ra được xác định nên ta chon mạng nơ-ron truyền thăng nhiều lớp (Multi Layer

perceptron — MLP) cho hệ thống IDS.

3.1.1 Mạng nhiều lóp truyền thẳng - MLP

Mô hình mạng nơ-ron được sử dụng rộng rãi nhất là mô hình mạng nhiều lớp truyền thắng (MLP- Multi Layer Perceptron) Một mạng MLP tông quát là mạng có n (n>2) tầng (thông thường tang đầu vào không được tính đến): trong đó gồm một

tầng đầu ra (tầng thứ n) và (n-1) tầng ần.

Input layer Hidden layer#l Hiddenlayer #2 Output layer

Kiến trúc của một mang MLP tổng quát có thé mô tả như sau:

$ Đầu vào là các vector (x1, x2, , xp) trong không gian p chiều, đầu ra là

các vector (yl, y2, , yq) trong không gian q chiều Đối với các bài toán phân loại, p chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại.

Ngày đăng: 04/04/2024, 09:27

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan