Nghiên cứu ứng dụng mạng nơron trong bài toán phát hiện xâm nhập

Thay vào đó hệ thống IDS sẽ được học mô hình phát hiện bất thường dựa trên một số lượng nhất định các mẫu dữ liệu được thu thập.. Với cách tiếp cận này, người ta có thé dé dang hơntrong

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

LÊ NGOC THE

NGHIEN CUU UNG DUNG MANG NORON TRONG BAI

TOAN PHAT HIEN XAM NHAP

HÀ NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

Người hướng dẫn khoa học: TS Vũ Tất Thắng

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học

viện Công nghệ Bưu chính Viễn thông

Có thê tìm hiéu luận văn tại:

- Thu viện của Học viện Công nghệ Bưu chính Viễn thông

HÀ NỘI - 2015

Trang 3

MỞ ĐẦU

Tính cấp thiết của đề tài

Mặc dù ra đời chưa lâu nhưng mạng Internet đã phát triển mạnh mẽ và ngày

nay nó có ảnh hưởng sâu rộng trong hầu hết tất cả các lĩnh vực của đời sống conngười Bên cạnh những lợi ích to lớn thì nó cũng mang lại nguy cơ bị tấn côngkhông nhỏ cho các tô chức và người dùng kết nối vào Internet Các cuộc tấn côngmạng trên toàn thế giới không ngừng tăng về số lượng cũng như mức độ nguy hiểmcủa chúng Những cuộc tan công mạng có thé gây ra những hậu quả nghiêm trọng

về kinh tế, xã hội thậm chí ảnh hưởng tới an ninh chính trị của một quốc gia TạiViệt Nam, trong những năm gần đây chúng ta không ít lần chứng kiến các hệ thốngwebsite nổi tiếng bị tin tặc tan công như: dantri.com.vn, vietnamnet.vn, vff.org.vn Việc phát hiện và xử lý thủ phạm gây ra các cuộc tấn công là cực kì khó khăn Giải

pháp kỹ thuật phổ biến cho van dé này là tìm cách phát hiện sớm các cuộc tấn côngmạng dé từ đó có giải pháp thích hợp xử lý đối phó với chúng

Tổng quan về van đề nghiên cứu

Một số hệ thống phát hiện xâm nhập ra đời (IDS — Intrusion DetectionSystem) nhằm phát hiện và ngăn chặn sớm các cuộc tan công mạng Hai hướng tiếpcận phổ biến dé xây dựng hệ thống IDS là: xây dựng Hệ chuyên gia (rule-based) vàhướng ứng dụng Học máy (SVM, mạng no-ron ) Mỗi phương pháp đều mang lạinhững hiệu quả nhất định, nhưng bên cạnh đó chúng còn ton tại những hạn chếriêng:

- Hệ chuyên gia (rule-based): Phương pháp này sử dụng các luật tan công

đã biết trước, dựa vào các luật được định nghĩa trong hệ thống mà khi cócuộc tan công mới thì hệ thống sẽ so sánh các đặc trưng, dấu hiệu của góitin với tập luật đã có Ưu điểm là khi đã được định nghĩa luật cho cuộctan công thì khả năng phát hiện nhằm rất thấp, có thé thêm các luật mớirất linh động, cơ chế hoạt động không quá phức tạp Nhược điểm là khi

không có luật cho kiểu tấn công mới thì hệ thống không phát hiện được

Số lượng luật nhiều hệ thống sẽ hoạt động chậm hơn IDS dạng này phụ

Trang 4

thuộc rất nhiều vào khả năng cập nhật luật mới cũng như trình độ am hiểu

về bảo mật của người quản trị

- Ung dụng học máy: Phương pháp này ra đời với mục đích khắc phục

việc phải cập nhật các luật mới có thể tạo ra xung đột trong tập luật đã có,vốn chỉ phù hợp với các mô hình qui mô vừa Thay vào đó hệ thống IDS

sẽ được học mô hình phát hiện bất thường dựa trên một số lượng nhất

định các mẫu dữ liệu được thu thập Hiệu quả của phương pháp này

thường cho ra hệ thống có khả năng tốt hơn đồng thời lại linh động trong

thay đổi huấn luyện Với cách tiếp cận này, người ta có thé dé dang hơntrong việc xây dựng các hệ thông IDS phức tạp, việc phát hiện xâm nhậpkhông đơn thuần chỉ là phát hiện nhằm cảnh báo có tan công hay khôngtấn công mà còn có thể đưa ra loại hình, tính năng chi tiết của cuộc tấncông tương ứng Mạng nơ-ron là một phương pháp học máy được chọntrong luận văn dé ứng dụng cho bài toán phát hiện xâm nhập theo phươngpháp học máy.

Trên thực tế, hướng tiếp cận ứng dụng học máy cũng không đảm bảo cho kết

quả tốt trong mọi tình huống Ví dụ, các hình thức tan công như DoS, DDoS, Probe

(thăm dò), U2R (leo thang đặc quyền) thường có tần suất chênh lệch nhau rất

nhiều Các cuộc tan công DoS rat phổ biến nhưng các cuộc tấn công U2R lại rất ít

dé lay mẫu Điều này dẫn đến tình trạng dữ liệu thu thập được khi áp dụng cho họcmáy cũng có tỉ lệ chênh lệch rat lớn giữa các kiêu tan công, dẫn đến việc dự báo bị

thiên vị cho các lớp dữ liệu nhiều và ít hiệu quả với các lớp dữ liệu ít, đôi khi làm

giảm cả chất lượng dự báo chung của cả hệ thống

Mục đích nghiên cứu

Mục đích của đề tài là tìm hiểu mạng nơ-ron để áp dụng cho bài toán phát

hiện xâm nhập Bên cạnh đó đề tài còn quan tâm đến việc cải tiến chất lượng hệthống IDS, nhằm mục dich phát hiện chính xác hon và không thiên vị giữa các kiểucảnh báo tan công trong điều kiện dữ liệu huấn luyện chênh lệch nhau

Trang 5

Đối tượng và phạm vi nghiên cứu

Nghiên cứu kỹ thuật học máy mạng nơ-ron, sau đó ứng dụng đề làm công cụphân loại các kết nối mạng trên bộ dữ liệu KDD cup 99

Tìm hiểu, phân tích bộ dữ liệu KDD cup 99 được cung cấp bởi Cơ quanQuản lý Nghiên cứu Dự Án Bộ quốc phòng Mỹ (DARPA) cho bài toán phát hiện

xâm nhập sử dụng mạng nơ-ron.

Nghiên cứu các hệ thống IDS sử dụng mô hình hệ chuyên gia (rule-based)như Snort dé nắm được ưu nhược điểm dé cái tiễn hệ thống IDS sử dụng học máy

Phương pháp nghiên cứu

Nghiên cứu và cài đặt kỹ thuật học máy mạng nơ-ron Thu thập và tiền xử lý

bộ dữ liệu mẫu hiện có về tan công mạng Áp dụng giải pháp cải tiến trên dữ liệu đã

xử lý, đánh giá kết quả sau khi thực hiện với các kết quả nghiên cứu đã công bố

trước đó.

Đó là ly do tác giả chọn dé tài “Nghién cứu ứng dụng mạng noron trongbài toán phát hiện xâm nhập”.

Trang 6

CHƯƠNG 1: CƠ SỞ LY THUYET

Một vài cách phổ biến mà loại này thực hiện là đoán mật khâu thông qua phương

pháp từ điển brute-force, FTP Write,

U2R - User to Root attack: Tin tặc với quyền của một người dùng bìnhthường cố gắng dé đạt được quyền truy nhập cao nhất vào hệ thống một cách bathợp pháp.

Probe - Surveillance: Tin tặc quét mạng hoặc máy tính để tìm ra điểm yếu dễtan công mà thông qua đó tin tặc có thé khai thác hệ thống Một cách phổ biến củaloại tan công này là thực hiện thông qua việc quét các công của hệ thống máy tính

1.2 Bài toán phát hiện xâm nhập mạng

Khi một máy tính hay một hệ thống máy tính hoạt động trên môi trườngmạng, sẽ có rất nhiều kết nối giữa nó và các máy tính, các thiết bị khác Có thétrong những kết nỗi đó có những kết nối đang tìm cách tấn công hệ thống dé đạt

Trang 7

được mục đích nào đó Bản thân mỗi máy tính đều có những biện pháp để tự bảo vệnhưng nó có những điểm yếu và thực sự không đủ sức chống lại các cuộc tấn côngmới với mức độ ngày càng tinh vi hơn Bên cạnh đó các máy tinh hay hệ thốngcũng phải chịu các nguy cơ đến từ việc vi phạm chính sách an toàn thông tin mộtcách vô tình hay cô ý Bài toán được đặt ra là cần có cơ chế phát hiện sớm các cuộc

tan công dé từ đó có những biện pháp ngăn chặn hoặc giảm thiéu tối đa những thiệthại, tác động do các cuộc tân công gây ra.

1.2.1 Phát hiện xâm nhập mạng

Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một

hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự

có có thé xảy ra, đó là các hành vi hoặc các mối de dọa sắp xảy ra vi phạm cácchính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc dựa trênbảo mật tiêu chuẩn

1.2.2 Phân loại phương pháp phát hiện xâm nhập mang

Các IDS có thê giám sát các sự kiện ở 3 cấp độ khác nhau: mạng (network),máy trạm (host), ứng dụng (application) Chúng có thé phân tích các sự kiện bằngviệc sử dụng một trong các phương pháp: dựa trên dấu hiệu (signature-based), dựatrên di thường (anomaly-based) và phân tích trạng thái giao thức (statefull protocolanalysic) Có hai cách dé phân loại IDS đó là:

Dựa trên phương pháp giảm sat Dựa trên phương pháp phán tích

1.3 Hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập (Intrusion Detection System — IDS) là hệ thống

phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõicác sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liênquan đên an ninh, bao mật và đưa ra cảnh báo cho nhà quản tri.

1.3.1 Thành phan của hệ thống IDS

Trung tâm điều khiển (The Command Console)

Trang 8

Bộ cảm biến (Network Sensor)

Bộ phân tích gói tin (Network Trap)

Thành phần cảnh báo (Alert Notification)

1.3.2 Phân loại các hệ thống IDS

1.3.2.1 Network-based Intrusion Detection System (NIDS)

NIDS (hệ thống phát hiện xâm nhập cho mang) là một giải pháp độc lập décảnh báo các xâm nhập trái phép thông qua việc phân tích các gói tin trên mạng và

giám sát hoạt động của nhiều máy trạm nội bộ, NIDS kiểm soát các luồng thông tin

bằng cách kết nối vào các Hub, Switch được cấu hình Port mirroring hoặc Network

tap dé có thé bắt các gói tin, phân tích nội dung nhận được va từ đó sinh ra các cảnh

báo.

1.3.2.2 Host-based Intrusion Detection System (HIDS)

Trong hé thong HIDS (hé thong phát hiện truy nhập dựa trên máy trạm), cácsensor thông thường là một phần mềm trên máy trạm (software agent), nó giám sáttât cả các hoạt động của máy trạm mà nó năm trên đó.

1.3.2.3 Hybrid Intrusion Detection System

La một hệ thống lai giữa hệ thống Network- based IDS va hệ thống based IDS Nó kết hợp một hoặc nhiều các thành phần thích hợp của hai hệ thốnglại với nhau Các thông tin thu thập được trên máy trạm (host agent data) kết hợp

Host-với thông tin thu thập được ở trên mang dé có sự phân tích một cách chỉ tiết về hiện

trạng hệ thống mạng

1.4 Kết luận chương

Trang 9

CHƯƠNG 2: TÌM HIỂU VÀ NGHIÊN CỨU CÁC PHƯƠNG

PHÁP PHÁT HIỆN TÁN CÔNG TRONG HỆ THÓNG IDS

2.1 Thế nào là bất thường trong mạng

Sự bất thường trong mạng thường dùng để chỉ những tình huống khi hoạt

động của mạng đi chệch so với các trạng thái được quy định là bình thường Bấtthường trong mạng có thê được chia làm hai lớp chính:

- _ Lớp bất thường thứ nhất: liên quan đến những sự cố và những lỗi về hiệu

năng của mạng như sự cố liên quan đến File Server, sự cô phân trang bộ nhớqua mạng (paging across the network), tắc nghẽn đường truyền (transientcongestion) Trong một vài trường hợp những lỗi phần mềm cũng có thégây ra các bất thường như những lỗi khi xây dựng giao thức mạng khiến chomột máy liên tục gửi các gói tin gây tắc nghẽn mạng

- Lớp bat thường thứ 2: là những van đề liên quan đến an ninh mạng Ví dụ

về những bat thường dạng này là tan công từ chối dịch vu (DoS)

2.2 Các nguồn dữ liệu dùng cho phát hiện bat thường

Thu thập các loại dữ liệu liên quan đến hiệu năng của mạng là công việc cơbản cho việc phát hiện bất thường Các loại bất thường có thể phát hiện được phụthuộc vào bản chất của dữ liệu mạng Phương pháp phát hiện bất thường là xâydựng tập các hồ sơ trạng thái bình thường của mạng để so sánh do đó dữ liệu thuthập càng chính xác khả năng phát hiện càng cao, thuật toán càng hiệu quả Dướiđây là các nguồn dữ liệu cho phát hiện bat thường:

2.2.1 Network Probes

Network Probes là các công cụ đặc biệt như lệnh ping, traceroute được sử

dụng dé thu thập các thông số mạng cần thiết như thời gian trễ và tỉ lệ mat gói tin

Trang 10

2.2.2 Lọc gói tin cho việc phân tích luồng

Trong phương thức lọc gói tin, các luồng gói tin sẽ được thống kê, lấy mẫubằng cách ghi lại các thông tin IP header của các gói tin ở các thời điểm khác nhau

và ở các vị trí khác nhau Các thông tin thu được từ IP header có thể cung cấp chỉtiết về hoạt động của mạng, chúng có thể được sử dụng trong việc phát hiện các bấtthường về luồng Một luồng thông tin được xác định bởi địa chỉ nguồn, địa chỉ đích

và sô hiệu công.

2.2.3 Dữ liệu từ các giao thức định tuyến

Thông tin về các sự kiện mạng có thê được thu thập thông qua các giao thứcđịnh tuyến Dữ liệu thu được có thé xây dựng topology (cách bố trí phan tử củamạng cũng như cách nối giữa chúng với nhau) của mạng và cung cấp trạng thái cậpnhật của đường truyền như về băng thông, độ trễ, mức độ tắc nghẽn mạng

2.2.4 Dữ liệu từ các giao thức quản trị mạng

Các giao thức quản trị mạng cung cấp tất cả thông tin thống kê về giao thông

trên mạng Những giao thức này hỗ trợ rất nhiều thông số có thé giám sát chính xác

hoạt động thiết bị mạng Những thông tin thu thập được có thể không cung cấp trực

tiếp các thông số đo lường về giao thông mạng nhưng có thé dùng dé nhận dạng các

hành vi trên mạng do đó có thê được sử dụng trong phát hiện bất thường mạng

2.3 Các phương pháp phát hiện bất thường

2.3.1 Phương pháp hệ chuyên gia (rule-based)

Trong hệ chuyên gia, một cơ sở dữ liệu chứa tập luật (rules) miêu tả các

hành vi bất thường được dùng để so sánh với các luồng dữ liệu đi đến hệ thống

mạng Nếu một luồng dit liệu đi đến hệ thống với mục đích tấn công mà khôngđược định nghĩa trong tập luật thì hệ thong IDS khéng thé phát hiện được

Hệ thống phát hiện bất thường dựa trên rule-based có đặc điểm dễ cấu hình,

dễ thêm luật mới và dễ sử dụng Mỗi khi hệ thống mạng đứng trước những nguy cơtần công mới, người quản tri chỉ việc cập nhật thêm các luật chưa có vào cơ sở dữ

Trang 11

liệu Phương pháp này có tỉ lệ phát hiện nhằm rất thấp vì nó dùng cách phân tích gói

tin và so sánh với mẫu đã có.

Tuy nhiên hệ thống phát hiện xâm nhập dựa trên rule-based sẽ trở nên chậm

chap dan khi tập luật phình to lên Phương pháp này còn có một nhược điểm là phụthuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi hệ thống mạngđược mở rộng do mỗi khi hệ thống có sự thay đồi thi cần có sự bổ sung về tập luật

2.3.2 Phương pháp mạng no-ron (Artificial Neural Network)

Phương pháp này ra đời với mục đích khắc phục việc phải cập nhật các luậtmới có thê tạo ra xung đột trong tập luật đã có của hệ thống IDS rule-based, vốn chỉphù hợp với các mô hình quy mô vừa, nhỏ Thay vào đó hệ thống IDS sẽ được học

mô hình phát hiện bất thường dựa trên một số lượng nhất định các mẫu dữ liệu.Hiệu quả của phương pháp này thường cho ra hệ thống có khả năng tốt hơn đồngthời lại linh động trong thay đồi huấn luyện Ưu điểm của mạng nơ-ron là thích ứngđược với các kiểu dữ liệu không đầy đủ, dữ liệu với độ chắc chắn không cao vàkhông cần cập nhật tri thức thường xuyên do nó có quá trình tự học

2.3.3 Phân tích thống kê

2.3.4 Mang Bayes (Bayesian network based)

2.3.5 May trang thai hitu han

2.4 Kết luận chương

Trang 12

CHƯƠNG 3: PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP DỰA

TREN MẠNG NƠ-RON

3.1 Mô hình mạng nơ-ron trong bài toán phát hiện xâm nhập

Ứng dụng một mô hình mạng nơ-ron cụ thé thường được chia lam hai giaiđoạn là: huấn luyện và kiểm tra mẫu mới Tỷ lệ phát hiện xâm nhập thành công củamạng nơ-ron phụ thuộc rất nhiều vào tập mẫu Nếu tập mẫu này được phân tích và

thống kê với đầy đủ các đặc trưng của xâm nhập thì khả năng phát hiện sẽ tốt hơn

Một tập mẫu tốt phải là một tập mẫu đủ lớn, chứa tất cả các loại tấn công điển hình,với các đặc trưng của xâm nhập được thống kê và phân tích rõ ràng

Với những phân tích nêu trên, việc áp dụng mạng nơ-ron để giải quyết bàitoán phát hiện xâm nhập là hoàn toàn khả thi Nhiệm vụ chính của bài toán là thiết

kế một mạng nơ-ron dé huấn luyện trên một tập mẫu thu thập từ thực tế Như vậy dé

giải quyết bài toán chúng ta cần thực hiện qua 4 giai đoạn như sau:

- - Giai đoạn 1: Thu thập dữ liệu va tiền xử lý dữ liệu phục vụ quá trình học của

mạng nơ-ron.

- _ Giai đoạn 2: Thiết kế mạng nơ-ron dựa trên cơ sở phân tích dữ liệu xác định

các đặc điểm của xâm nhập (đầu vào của mạng nơ-ron)

- Giai đoạn 3: Huấn luyện cho mô hình mạng nơ-ron đã thiết kế

— Mang Neural với

Mang Neural voi các tham số đã

các tham so khởi hiệu chỉnh, có khả

tạo ban đâu năng khái quát hóa

Dữ liệu huan luyện

Hình 3.1: Các bước huấn luyện mạng nơ-ron

- _ Giai đoạn4: Kiêm tra huân luyện trên mâu mới (mau test)

Trang 13

Các gói tin (packet) đi vào hệ

Hình 3.2: Các bước kiểm tra dữ liệu với mô hình mạng no-ron đã huấn luyện

Do bài toán phát hiện xâm nhập có đầu vào và đầu ra rõ ràng, số lượng đầu

ra được xác định nên ta chon mạng nơ-ron truyền thăng nhiều lớp (Multi Layer

perceptron — MLP) cho hệ thống IDS

Input layer Hidden layer#l Hiddenlayer #2 Output layer

Kiến trúc của một mang MLP tổng quát có thé mô tả như sau:

$ Đầu vào là các vector (x1, x2, , xp) trong không gian p chiều, đầu ra là

các vector (yl, y2, , yq) trong không gian q chiều Đối với các bài toán phân loại,

p chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại

Tiêu đề	Nghiên cứu ứng dụng mạng nơron trong bài toán phát hiện xâm nhập
Tác giả	Lê Ngọc Thê
Người hướng dẫn	TS. Vũ Tất Thắng
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	26
Dung lượng	5,2 MB