Thay vào đó hệ thống IDS sẽ được học mô hình phát hiện bất thường dựa trên một số lượng nhất định các mẫu dữ liệu được thu thập.. Với cách tiếp cận này, người ta có thé dé dang hơntrong
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÊ NGOC THE
NGHIEN CUU UNG DUNG MANG NORON TRONG BAI
TOAN PHAT HIEN XAM NHAP
HÀ NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
Người hướng dẫn khoa học: TS Vũ Tất Thắng
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học
viện Công nghệ Bưu chính Viễn thông
Có thê tìm hiéu luận văn tại:
- Thu viện của Học viện Công nghệ Bưu chính Viễn thông
HÀ NỘI - 2015
Trang 3MỞ ĐẦU
Tính cấp thiết của đề tài
Mặc dù ra đời chưa lâu nhưng mạng Internet đã phát triển mạnh mẽ và ngày
nay nó có ảnh hưởng sâu rộng trong hầu hết tất cả các lĩnh vực của đời sống conngười Bên cạnh những lợi ích to lớn thì nó cũng mang lại nguy cơ bị tấn côngkhông nhỏ cho các tô chức và người dùng kết nối vào Internet Các cuộc tấn côngmạng trên toàn thế giới không ngừng tăng về số lượng cũng như mức độ nguy hiểmcủa chúng Những cuộc tan công mạng có thé gây ra những hậu quả nghiêm trọng
về kinh tế, xã hội thậm chí ảnh hưởng tới an ninh chính trị của một quốc gia TạiViệt Nam, trong những năm gần đây chúng ta không ít lần chứng kiến các hệ thốngwebsite nổi tiếng bị tin tặc tan công như: dantri.com.vn, vietnamnet.vn, vff.org.vn Việc phát hiện và xử lý thủ phạm gây ra các cuộc tấn công là cực kì khó khăn Giải
pháp kỹ thuật phổ biến cho van dé này là tìm cách phát hiện sớm các cuộc tấn côngmạng dé từ đó có giải pháp thích hợp xử lý đối phó với chúng
Tổng quan về van đề nghiên cứu
Một số hệ thống phát hiện xâm nhập ra đời (IDS — Intrusion DetectionSystem) nhằm phát hiện và ngăn chặn sớm các cuộc tan công mạng Hai hướng tiếpcận phổ biến dé xây dựng hệ thống IDS là: xây dựng Hệ chuyên gia (rule-based) vàhướng ứng dụng Học máy (SVM, mạng no-ron ) Mỗi phương pháp đều mang lạinhững hiệu quả nhất định, nhưng bên cạnh đó chúng còn ton tại những hạn chếriêng:
- Hệ chuyên gia (rule-based): Phương pháp này sử dụng các luật tan công
đã biết trước, dựa vào các luật được định nghĩa trong hệ thống mà khi cócuộc tan công mới thì hệ thống sẽ so sánh các đặc trưng, dấu hiệu của góitin với tập luật đã có Ưu điểm là khi đã được định nghĩa luật cho cuộctan công thì khả năng phát hiện nhằm rất thấp, có thé thêm các luật mớirất linh động, cơ chế hoạt động không quá phức tạp Nhược điểm là khi
không có luật cho kiểu tấn công mới thì hệ thống không phát hiện được
Số lượng luật nhiều hệ thống sẽ hoạt động chậm hơn IDS dạng này phụ
Trang 4thuộc rất nhiều vào khả năng cập nhật luật mới cũng như trình độ am hiểu
về bảo mật của người quản trị
- Ung dụng học máy: Phương pháp này ra đời với mục đích khắc phục
việc phải cập nhật các luật mới có thể tạo ra xung đột trong tập luật đã có,vốn chỉ phù hợp với các mô hình qui mô vừa Thay vào đó hệ thống IDS
sẽ được học mô hình phát hiện bất thường dựa trên một số lượng nhất
định các mẫu dữ liệu được thu thập Hiệu quả của phương pháp này
thường cho ra hệ thống có khả năng tốt hơn đồng thời lại linh động trong
thay đổi huấn luyện Với cách tiếp cận này, người ta có thé dé dang hơntrong việc xây dựng các hệ thông IDS phức tạp, việc phát hiện xâm nhậpkhông đơn thuần chỉ là phát hiện nhằm cảnh báo có tan công hay khôngtấn công mà còn có thể đưa ra loại hình, tính năng chi tiết của cuộc tấncông tương ứng Mạng nơ-ron là một phương pháp học máy được chọntrong luận văn dé ứng dụng cho bài toán phát hiện xâm nhập theo phươngpháp học máy.
Trên thực tế, hướng tiếp cận ứng dụng học máy cũng không đảm bảo cho kết
quả tốt trong mọi tình huống Ví dụ, các hình thức tan công như DoS, DDoS, Probe
(thăm dò), U2R (leo thang đặc quyền) thường có tần suất chênh lệch nhau rất
nhiều Các cuộc tan công DoS rat phổ biến nhưng các cuộc tấn công U2R lại rất ít
dé lay mẫu Điều này dẫn đến tình trạng dữ liệu thu thập được khi áp dụng cho họcmáy cũng có tỉ lệ chênh lệch rat lớn giữa các kiêu tan công, dẫn đến việc dự báo bị
thiên vị cho các lớp dữ liệu nhiều và ít hiệu quả với các lớp dữ liệu ít, đôi khi làm
giảm cả chất lượng dự báo chung của cả hệ thống
Mục đích nghiên cứu
Mục đích của đề tài là tìm hiểu mạng nơ-ron để áp dụng cho bài toán phát
hiện xâm nhập Bên cạnh đó đề tài còn quan tâm đến việc cải tiến chất lượng hệthống IDS, nhằm mục dich phát hiện chính xác hon và không thiên vị giữa các kiểucảnh báo tan công trong điều kiện dữ liệu huấn luyện chênh lệch nhau
Trang 5Đối tượng và phạm vi nghiên cứu
Nghiên cứu kỹ thuật học máy mạng nơ-ron, sau đó ứng dụng đề làm công cụphân loại các kết nối mạng trên bộ dữ liệu KDD cup 99
Tìm hiểu, phân tích bộ dữ liệu KDD cup 99 được cung cấp bởi Cơ quanQuản lý Nghiên cứu Dự Án Bộ quốc phòng Mỹ (DARPA) cho bài toán phát hiện
xâm nhập sử dụng mạng nơ-ron.
Nghiên cứu các hệ thống IDS sử dụng mô hình hệ chuyên gia (rule-based)như Snort dé nắm được ưu nhược điểm dé cái tiễn hệ thống IDS sử dụng học máy
Phương pháp nghiên cứu
Nghiên cứu và cài đặt kỹ thuật học máy mạng nơ-ron Thu thập và tiền xử lý
bộ dữ liệu mẫu hiện có về tan công mạng Áp dụng giải pháp cải tiến trên dữ liệu đã
xử lý, đánh giá kết quả sau khi thực hiện với các kết quả nghiên cứu đã công bố
trước đó.
Đó là ly do tác giả chọn dé tài “Nghién cứu ứng dụng mạng noron trongbài toán phát hiện xâm nhập”.
Trang 6CHƯƠNG 1: CƠ SỞ LY THUYET
Một vài cách phổ biến mà loại này thực hiện là đoán mật khâu thông qua phương
pháp từ điển brute-force, FTP Write,
U2R - User to Root attack: Tin tặc với quyền của một người dùng bìnhthường cố gắng dé đạt được quyền truy nhập cao nhất vào hệ thống một cách bathợp pháp.
Probe - Surveillance: Tin tặc quét mạng hoặc máy tính để tìm ra điểm yếu dễtan công mà thông qua đó tin tặc có thé khai thác hệ thống Một cách phổ biến củaloại tan công này là thực hiện thông qua việc quét các công của hệ thống máy tính
1.2 Bài toán phát hiện xâm nhập mạng
Khi một máy tính hay một hệ thống máy tính hoạt động trên môi trườngmạng, sẽ có rất nhiều kết nối giữa nó và các máy tính, các thiết bị khác Có thétrong những kết nỗi đó có những kết nối đang tìm cách tấn công hệ thống dé đạt
Trang 7được mục đích nào đó Bản thân mỗi máy tính đều có những biện pháp để tự bảo vệnhưng nó có những điểm yếu và thực sự không đủ sức chống lại các cuộc tấn côngmới với mức độ ngày càng tinh vi hơn Bên cạnh đó các máy tinh hay hệ thốngcũng phải chịu các nguy cơ đến từ việc vi phạm chính sách an toàn thông tin mộtcách vô tình hay cô ý Bài toán được đặt ra là cần có cơ chế phát hiện sớm các cuộc
tan công dé từ đó có những biện pháp ngăn chặn hoặc giảm thiéu tối đa những thiệthại, tác động do các cuộc tân công gây ra.
1.2.1 Phát hiện xâm nhập mạng
Phát hiện xâm nhập mạng là quá trình theo dõi các sự kiện xảy ra trong một
hệ thống máy tính hoặc mạng máy tính và phân tích chúng để tìm ra các dấu hiệu sự
có có thé xảy ra, đó là các hành vi hoặc các mối de dọa sắp xảy ra vi phạm cácchính sách bảo mật máy tính, các chính sách sử dụng được chấp nhận hoặc dựa trênbảo mật tiêu chuẩn
1.2.2 Phân loại phương pháp phát hiện xâm nhập mang
Các IDS có thê giám sát các sự kiện ở 3 cấp độ khác nhau: mạng (network),máy trạm (host), ứng dụng (application) Chúng có thé phân tích các sự kiện bằngviệc sử dụng một trong các phương pháp: dựa trên dấu hiệu (signature-based), dựatrên di thường (anomaly-based) và phân tích trạng thái giao thức (statefull protocolanalysic) Có hai cách dé phân loại IDS đó là:
Dựa trên phương pháp giảm sat Dựa trên phương pháp phán tích
1.3 Hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập (Intrusion Detection System — IDS) là hệ thống
phần cứng hoặc phần mềm có chức năng giám sát lưu thông mạng, tự động theo dõicác sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liênquan đên an ninh, bao mật và đưa ra cảnh báo cho nhà quản tri.
1.3.1 Thành phan của hệ thống IDS
Trung tâm điều khiển (The Command Console)
Trang 8Bộ cảm biến (Network Sensor)
Bộ phân tích gói tin (Network Trap)
Thành phần cảnh báo (Alert Notification)
1.3.2 Phân loại các hệ thống IDS
1.3.2.1 Network-based Intrusion Detection System (NIDS)
NIDS (hệ thống phát hiện xâm nhập cho mang) là một giải pháp độc lập décảnh báo các xâm nhập trái phép thông qua việc phân tích các gói tin trên mạng và
giám sát hoạt động của nhiều máy trạm nội bộ, NIDS kiểm soát các luồng thông tin
bằng cách kết nối vào các Hub, Switch được cấu hình Port mirroring hoặc Network
tap dé có thé bắt các gói tin, phân tích nội dung nhận được va từ đó sinh ra các cảnh
báo.
1.3.2.2 Host-based Intrusion Detection System (HIDS)
Trong hé thong HIDS (hé thong phát hiện truy nhập dựa trên máy trạm), cácsensor thông thường là một phần mềm trên máy trạm (software agent), nó giám sáttât cả các hoạt động của máy trạm mà nó năm trên đó.
1.3.2.3 Hybrid Intrusion Detection System
La một hệ thống lai giữa hệ thống Network- based IDS va hệ thống based IDS Nó kết hợp một hoặc nhiều các thành phần thích hợp của hai hệ thốnglại với nhau Các thông tin thu thập được trên máy trạm (host agent data) kết hợp
Host-với thông tin thu thập được ở trên mang dé có sự phân tích một cách chỉ tiết về hiện
trạng hệ thống mạng
1.4 Kết luận chương
Trang 9CHƯƠNG 2: TÌM HIỂU VÀ NGHIÊN CỨU CÁC PHƯƠNG
PHÁP PHÁT HIỆN TÁN CÔNG TRONG HỆ THÓNG IDS
2.1 Thế nào là bất thường trong mạng
Sự bất thường trong mạng thường dùng để chỉ những tình huống khi hoạt
động của mạng đi chệch so với các trạng thái được quy định là bình thường Bấtthường trong mạng có thê được chia làm hai lớp chính:
- _ Lớp bất thường thứ nhất: liên quan đến những sự cố và những lỗi về hiệu
năng của mạng như sự cố liên quan đến File Server, sự cô phân trang bộ nhớqua mạng (paging across the network), tắc nghẽn đường truyền (transientcongestion) Trong một vài trường hợp những lỗi phần mềm cũng có thégây ra các bất thường như những lỗi khi xây dựng giao thức mạng khiến chomột máy liên tục gửi các gói tin gây tắc nghẽn mạng
- Lớp bat thường thứ 2: là những van đề liên quan đến an ninh mạng Ví dụ
về những bat thường dạng này là tan công từ chối dịch vu (DoS)
2.2 Các nguồn dữ liệu dùng cho phát hiện bat thường
Thu thập các loại dữ liệu liên quan đến hiệu năng của mạng là công việc cơbản cho việc phát hiện bất thường Các loại bất thường có thể phát hiện được phụthuộc vào bản chất của dữ liệu mạng Phương pháp phát hiện bất thường là xâydựng tập các hồ sơ trạng thái bình thường của mạng để so sánh do đó dữ liệu thuthập càng chính xác khả năng phát hiện càng cao, thuật toán càng hiệu quả Dướiđây là các nguồn dữ liệu cho phát hiện bat thường:
2.2.1 Network Probes
Network Probes là các công cụ đặc biệt như lệnh ping, traceroute được sử
dụng dé thu thập các thông số mạng cần thiết như thời gian trễ và tỉ lệ mat gói tin
Trang 102.2.2 Lọc gói tin cho việc phân tích luồng
Trong phương thức lọc gói tin, các luồng gói tin sẽ được thống kê, lấy mẫubằng cách ghi lại các thông tin IP header của các gói tin ở các thời điểm khác nhau
và ở các vị trí khác nhau Các thông tin thu được từ IP header có thể cung cấp chỉtiết về hoạt động của mạng, chúng có thể được sử dụng trong việc phát hiện các bấtthường về luồng Một luồng thông tin được xác định bởi địa chỉ nguồn, địa chỉ đích
và sô hiệu công.
2.2.3 Dữ liệu từ các giao thức định tuyến
Thông tin về các sự kiện mạng có thê được thu thập thông qua các giao thứcđịnh tuyến Dữ liệu thu được có thé xây dựng topology (cách bố trí phan tử củamạng cũng như cách nối giữa chúng với nhau) của mạng và cung cấp trạng thái cậpnhật của đường truyền như về băng thông, độ trễ, mức độ tắc nghẽn mạng
2.2.4 Dữ liệu từ các giao thức quản trị mạng
Các giao thức quản trị mạng cung cấp tất cả thông tin thống kê về giao thông
trên mạng Những giao thức này hỗ trợ rất nhiều thông số có thé giám sát chính xác
hoạt động thiết bị mạng Những thông tin thu thập được có thể không cung cấp trực
tiếp các thông số đo lường về giao thông mạng nhưng có thé dùng dé nhận dạng các
hành vi trên mạng do đó có thê được sử dụng trong phát hiện bất thường mạng
2.3 Các phương pháp phát hiện bất thường
2.3.1 Phương pháp hệ chuyên gia (rule-based)
Trong hệ chuyên gia, một cơ sở dữ liệu chứa tập luật (rules) miêu tả các
hành vi bất thường được dùng để so sánh với các luồng dữ liệu đi đến hệ thống
mạng Nếu một luồng dit liệu đi đến hệ thống với mục đích tấn công mà khôngđược định nghĩa trong tập luật thì hệ thong IDS khéng thé phát hiện được
Hệ thống phát hiện bất thường dựa trên rule-based có đặc điểm dễ cấu hình,
dễ thêm luật mới và dễ sử dụng Mỗi khi hệ thống mạng đứng trước những nguy cơtần công mới, người quản tri chỉ việc cập nhật thêm các luật chưa có vào cơ sở dữ
Trang 11liệu Phương pháp này có tỉ lệ phát hiện nhằm rất thấp vì nó dùng cách phân tích gói
tin và so sánh với mẫu đã có.
Tuy nhiên hệ thống phát hiện xâm nhập dựa trên rule-based sẽ trở nên chậm
chap dan khi tập luật phình to lên Phương pháp này còn có một nhược điểm là phụthuộc khá nhiều vào người quản trị mạng và không đáp ứng kịp khi hệ thống mạngđược mở rộng do mỗi khi hệ thống có sự thay đồi thi cần có sự bổ sung về tập luật
2.3.2 Phương pháp mạng no-ron (Artificial Neural Network)
Phương pháp này ra đời với mục đích khắc phục việc phải cập nhật các luậtmới có thê tạo ra xung đột trong tập luật đã có của hệ thống IDS rule-based, vốn chỉphù hợp với các mô hình quy mô vừa, nhỏ Thay vào đó hệ thống IDS sẽ được học
mô hình phát hiện bất thường dựa trên một số lượng nhất định các mẫu dữ liệu.Hiệu quả của phương pháp này thường cho ra hệ thống có khả năng tốt hơn đồngthời lại linh động trong thay đồi huấn luyện Ưu điểm của mạng nơ-ron là thích ứngđược với các kiểu dữ liệu không đầy đủ, dữ liệu với độ chắc chắn không cao vàkhông cần cập nhật tri thức thường xuyên do nó có quá trình tự học
2.3.3 Phân tích thống kê
2.3.4 Mang Bayes (Bayesian network based)
2.3.5 May trang thai hitu han
2.4 Kết luận chương
Trang 12CHƯƠNG 3: PHƯƠNG PHÁP PHÁT HIỆN XÂM NHẬP DỰA
TREN MẠNG NƠ-RON
3.1 Mô hình mạng nơ-ron trong bài toán phát hiện xâm nhập
Ứng dụng một mô hình mạng nơ-ron cụ thé thường được chia lam hai giaiđoạn là: huấn luyện và kiểm tra mẫu mới Tỷ lệ phát hiện xâm nhập thành công củamạng nơ-ron phụ thuộc rất nhiều vào tập mẫu Nếu tập mẫu này được phân tích và
thống kê với đầy đủ các đặc trưng của xâm nhập thì khả năng phát hiện sẽ tốt hơn
Một tập mẫu tốt phải là một tập mẫu đủ lớn, chứa tất cả các loại tấn công điển hình,với các đặc trưng của xâm nhập được thống kê và phân tích rõ ràng
Với những phân tích nêu trên, việc áp dụng mạng nơ-ron để giải quyết bàitoán phát hiện xâm nhập là hoàn toàn khả thi Nhiệm vụ chính của bài toán là thiết
kế một mạng nơ-ron dé huấn luyện trên một tập mẫu thu thập từ thực tế Như vậy dé
giải quyết bài toán chúng ta cần thực hiện qua 4 giai đoạn như sau:
- - Giai đoạn 1: Thu thập dữ liệu va tiền xử lý dữ liệu phục vụ quá trình học của
mạng nơ-ron.
- _ Giai đoạn 2: Thiết kế mạng nơ-ron dựa trên cơ sở phân tích dữ liệu xác định
các đặc điểm của xâm nhập (đầu vào của mạng nơ-ron)
- Giai đoạn 3: Huấn luyện cho mô hình mạng nơ-ron đã thiết kế
— Mang Neural với
Mang Neural voi các tham số đã
các tham so khởi hiệu chỉnh, có khả
tạo ban đâu năng khái quát hóa
Dữ liệu huan luyện
Hình 3.1: Các bước huấn luyện mạng nơ-ron
- _ Giai đoạn4: Kiêm tra huân luyện trên mâu mới (mau test)
Trang 13Các gói tin (packet) đi vào hệ
Hình 3.2: Các bước kiểm tra dữ liệu với mô hình mạng no-ron đã huấn luyện
Do bài toán phát hiện xâm nhập có đầu vào và đầu ra rõ ràng, số lượng đầu
ra được xác định nên ta chon mạng nơ-ron truyền thăng nhiều lớp (Multi Layer
perceptron — MLP) cho hệ thống IDS
Input layer Hidden layer#l Hiddenlayer #2 Output layer
Kiến trúc của một mang MLP tổng quát có thé mô tả như sau:
$ Đầu vào là các vector (x1, x2, , xp) trong không gian p chiều, đầu ra là
các vector (yl, y2, , yq) trong không gian q chiều Đối với các bài toán phân loại,
p chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại