HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Nguyễn Minh Hién
NGHIÊN CỨU CÁC KỸ THUAT PHAT HIỆN XÂM NHAP
MẠNG DỰA TRÊN BÁT THƯỜNG
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2017
Trang 3Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
Người hướng dẫn khoa học: TS.Hoàng Xuân Dậu
(Ghi rõ học hàm, học vị)
Phản biện Ì:
Phản biện 2:_ -
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại
Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giỜ ngày thang năm
Có thê tìm hiêu luận văn tại:
Trang 5LOI MO ĐẦU
Nhằm đảm bảo an toàn cho thông tin, hệ thống máy chủ va mạng,
mô hình phòng vệ nhiều lớp có chiều sâu (defense in depth) thường được
sử dung do các cuộc tan công, xâm nhập trái phép vào các hệ thông máy
chủ ngày càng phổ biến với mức độ tinh vi ngày càng cao Trong mô hình này, hệ thống mạng thường được bảo vệ bang lớp bảo vệ thứ nhất, gồm tường lửa, các biện pháp kiểm soát truy nhập, xác thực, mã hóa, Lớp bảo vệ hệ thống thứ hai thường gồm các hệ thống phát hiện va ngăn chặn xâm nhập mạng và host Các hệ thống phát hiện xâm nhập mạng (NIDS — Network-based Intrusion Detection System) được sử dụng để giám sát và bảo vệ cả mạng, hoặc một phân đoạn mạng Các hệ thống phát hiện xâm
nhập host (HIDS — Host-based Intrusion Detection System) được sử dụng
dé bảo vệ một máy (host), hoặc một dịch vụ cu thể.
Phát hiện xâm nhập dựa trên chữ ký (Signature-based IDS) và dựa trên bất thường (Anomaly-based IDS) là hai nhóm kỹ thuật phát hiện xâm nhập
được sử dụng phổ biến Phát hiện xâm nhập dựa trên chữ ký, hay dựa trên mẫu trước hết xây dựng một cơ sở dữ liệu các chữ ký của các tan cong,
xâm nhập đã biết Sau đó giám sát các hành vi hiện tại của hệ thống, hoặc
mạng và cảnh báo nếu phát hiện chữ ký của tấn công, xâm nhập Kỹ thuật
này có ưu điểm là có khả năng phát hiện các tấn công, xâm nhập đã biết
một cách hiệu quả với tốc độ cao xử lý cao và yêu cau tài nguyên tính toán
tương đối thấp Tuy nhiên, nó không có khả năng phát hiện các tấn công,
xâm nhập mới, do chữ ký của chúng chưa có trong cơ sở dữ liệu Ngoài ra,
phát hiện xâm nhập dựa trên chữ ký cũng đòi hỏi nhiều công sức cho xây
dựng và cập nhật cơ sở dữ liệu chữ ký, hoặc dấu hiệu tan công, xâm nhập.Phát hiện xâm nhập dựa trên bất thường dựa trên giả thiết các hành vitan công, xâm nhập thường có quan hệ chat chẽ với các hành vi batthường Quá trình xây dựng và triển khai kỹ thuật này gồm 2 giai đoạn: (1)Xây dựng hồ sơ (profile) của đối tượng trong chế độ làm việc bình thường,và (2) Giám sát hành vi hiện tại của hệ thống và cảnh báo nếu có khác biệt
Trang 6rõ nét giữa hành vi hiện tại với hành vi lưu trong hồ sơ của đối tượng Phát
hiện xâm nhập dựa trên bat thường có tiềm năng phát hiện các loại xâm
nhập, xâm nhập mới mà không yêu cầu biết trước thông tin về chúng Nhược điểm của kỹ thuật này là tỷ lệ cảnh báo sai tương đối cao so với
phương pháp dựa trên chữ ký Đồng thời, nó cũng tiêu tốn nhiều tài
nguyên hệ thống cho việc xây dựng hồ sơ đối tượng và phân tích hành vi
hiện tại.
Như vậy, phát hiện xâm nhập dựa trên bất thường có nhiều triển vọng
do nó có khả năng phát hiện các tan công, xâm nhập mới Việc nghiên cứu
sâu về các kỹ thuật, giải pháp phát hiện tắn công, xâm nhập mạng dựa trên bat thường là cần thiết dé nâng cao hiệu quả phát hiện, giảm cảnh báo sai và giảm chỉ phí tính toán Đề tài luận văn “ Nghiên cứu các kỹ thuật phát hiện xâm nhập mạng dựa trên bất thường “ tập trung nghiên cứu, đánh giá
các kỹ thuật phát hiện xâm nhập mạng dựa trên bat thường đã được đề
xuất nhằm lựa chọn kỹ thuật phù hợp ứng dụng cho đảm bảo an toàn thông tin, hệ thống máy chủ và mạng
Trang 7CHUONG 1- TONG QUAN VE PHÁT HIỆN XÂM NHAP MẠNG
1.1 Các yêu cầu đảm bảo an toàn cho hệ thống va mang
An toàn thông tin (Information security) là một lĩnh vực tương đối mới và được quan tâm trong vài thập kỷ gần đây và phát triển mạnh trong khoảng 10 năm qua nhờ sự phát triển mạnh mẽ của mạng Internet và các dịch vụ mạng trên nền Internet Tuy nhiên, do Internet ngày càng mở rộng và gần như không còn khái niệm biên giới quốc gia trong không gian
mạng, các sự cô mắt an toàn thông tin liên tục xảy ra và đặc biệt các dạng tấn công, xâm nhập các hệ thống máy tính và mạng xuất hiện ngày càng
phổ biến và mức độ phá hoại ngày càng nghiêm trọng Van dé đảm bảo an toàn cho thông tin, các hệ thống và mạng trở nên cấp thiết và là mối quan
tâm của mỗi quốc gia, co quan, tổ chức và mỗi người dùng.
1.1.1 Tính bí mật
Tính bí mật (Confidentiality): Tính bí mật đảm bảo thông tin trong hệ
thống không bị truy cập trái phép từ những đối tượng bất hợp pháp Đối tượng truy nhập có thể là con người hoặc các chương trình máy tính Tính bí mật của thông tin có thể được thực hiện dựa vào phần cứng vật lý hoặc phần mềm.
1.1.2 Tính toàn vẹn
Tính toàn vẹn (Integrity): Tính toàn vẹn đảm bảo sự nguyên vẹn, thống nhất của thông tin trong quá trình lưu trữ hay truyền thông Bat kỳ sự thay đổi trái phép nào làm sai lệch thông tin sẽ phải được phát hiện và ngăn
1.1.3 Tính sẵn dùng
- Thời gian trung bình giữa các sự có;
- Thời gian trung bình ngừng dé sửa chữa; - Thời gian khôi phục sau sự cố.
1.2 Các dạng tan công vào hệ thống và mang
1.2.1 Khái quát về tắn công
Tấn công (attack) vào hệ thống máy tính và mạng được thực hiện bằng cách khai thác các lỗ hồng của hệ thống Theo tổ chức ITU (International
Trang 8Telecommunication Union), các cuộc tan công được bắt nguồn từ 5 nguy
cơ chính (threat) được nêu trong Hình 1.4, bao gồm
1.2.2 Một số dạng tan công điển hình
e Tan công giả mạo e Tan công chặn bat
e Tan công gây gián đoạn e Tan công sửa đổi
1.3 Khái quát về phát hiện xâm nhập
1.3.1 Giới thiệu
Phát hiện xâm nhập (Intrusion Detection) là quá trình giám sát các sự kiện
xảy ra trong một hệ thống máy tính hoặc mạng, sau đó phân tích các sự kiện này để tìm băng chứng của các tấn công, xâm nhập Một hệ thống
phát hiện xâm nhập (Intrusion Detection System - IDS) thường gồm ba bộ
phận chức năng: bộ phận thu thập thông tin, bộ phận phát hiện xâm nhập
và bộ phận phản ứng xâm nhập.
1.3.2 Các thành phan của hệ thống phát hiện xâm nhập
1.4 Phân loại phát hiện xâm nhập
Có nhiều phương pháp phân loại phát hiện đột nhập, trong đó hai
phương pháp được sử dụng phô biến là phân loại phát hiện đột nhập dựa trên nguồn thông tin và dựa trên phương pháp phân tích xử lý dữ liệu.
1.4.1 Phân loại dựa trên nguồn thông tin
1.4.2 Phân loạt dựa trên kỹ thuật phát hiện1.4.2.1 Phát hiện đột nhập dựa trên chữ ký
1.4.2.2 Phát hiện đột nhập dựa trên bất thường 1.5 Kết chương
Chương 1 đề cập đến các yêu cầu đảm bảo an toàn cho thông tin, hệ thống và mạng như: tính bí mật, tính toàn vẹn và tính sẵn dùng, đồng thời giới thiệu khái quát các dạng tan công vào hệ thống và mạng Tiếp theo, chương 1 giới thiệu về mô hình và phân loại phát hiện xâm nhập mạng
Trong chương 2, luận văn đi sâu phân tích và so sánh các kỹ thuật phát
hiện xâm nhập mang dựa trên bat thường.
Trang 9CHƯƠNG 2- CÁC KỸ THUẬT PHÁT HIỆN XÂM NHẬP MẠNG
DUA TREN BAT THUONG
Cùng với các giải pháp phát hiện xâm nhập mang dựa trên chữ ký,
nhiều giải pháp phát hiện xâm nhập mạng dựa trên bất thường đã được
nghiên cứu, đề xuất Chương này sẽ trình bày một số kỹ thuật phát hiện
xâm nhập dựa trên bất thường tiêu biểu, bao gồm: phát hiện dựa trên thông kê, dựa trên phân loại, dựa trên tính toán mềm, dựa trên tri thức và phương pháp kết hợp.
2.1 Phương pháp thống kê
Vé mặt thống kê, một sự bất thường là một quan sát mà đang bị nghỉ ngờ là một phần hoặc hoàn toàn không thích hợp vì nó không phải được
tạo ra bởi một mô hình ngẫu nhiên giả định.
2.1.1 Một số mô hình phát hiện dựa trên thong kê
2.1.2 Uu nhược điểm của phát hiện dựa trên thong kê
2.2 Phương pháp dựa trên phân loại
Phân loại hay phân lớp (Classification) là vấn đề xác định loại tập hợp nào mà một quan sát mới thuộc về, trên cơ sở tập dữ liệu huấn luyện có chứa các quan sát có thành viên nhóm được biết đến.
2.2.1 Một số mô hình phát hiện dựa trên phân loại
2.2.2 Uu nhược điểm của phát hiện dựa trên phân loại
2.3 Phương pháp dựa trên tính toán mém
Tính toán mềm (Soft computing), khác với tính toán truyền thống đề cập đến các mô hình gần đúng và đưa ra các giải pháp cho những vấn đề phức tạp trong thực tiễn Không giống như tín toán cứng, tính toán mềm có thể chịu được sự không chính xác, không chắc chắn, một phần sự thật, và xấp xi.
2.3.1 Các phương pháp dựa trên thuật toán di truyền 2.3.2 Cách tiếp cận mạng nơ ron nhân tạo
2.3.3 Phương pháp dựa trên tiếp cận lý thuyết mờ 2.3.4 Các phương pháp dựa trên tiếp cận tập thô
2.3.5 Ưu nhược điểm của phát hiện dựa trên tính toán mém
Trang 102.4 Các phương pháp dựa trên tri thức
Trong các phương pháp dựa trên tri thức, các sự kiện mạng hoặc hệ
thống được kiểm tra với các quy tắc hoặc mẫu tấn công đã được xác định trước Mục đích là đề đại diện cho các cuộc tan cong da biét trong một thời gian tổng quát dé xử lý các sự kiện thực tế trở nên dé dàng hon Các phương pháp dựa trên tri thức là các hệ thống chuyên gia, dựa trên quy tắc, dựa trên nền tảng, dựa trên logic và phân tích chuyển tiếp trang thái.
2.4.1 Một số mô hình phát hiện dựa trên tri thức
2.4.2 Uu nhược điểm của phát hiện dựa trên tri thức 2.5 Phương pháp kết hợp
Mục này trình bày một số phương pháp sử dụng kết hợp của nhiều kỹ thuật phát hiện xâm nhập dựa trên bat thường.
2.5.1 Các phương pháp dựa trên tổng hợp (Ensemble-based)
2.5.2 Phương pháp dựa trên sự hiên hợp (Fusion-based)2.5.3 Cac phương pháp lai
2.6 So sánh các kỹ thuật phát hiện
2.7 Kết chương
Chương 2 đã giới thiệu một số phương pháp điển hình được sử dụng
cho phát hiện xâm nhập mạng dựa trên bat thường như: phát hiện dựa trên
thống kê, phân loại, dựa trên tính toán mềm, dựa trên tri thức, phương pháp kết hợp Chương 2 cũng cung cấp phần so sánh các ưu nhược điểm
của chúng.
Trong Chương 3, luận văn sẽ trình bày mô hình và thử nghiệm phát
hiện xâm nhập mạng dựa trên phương pháp thống kê n-gram.
Trang 11CHƯƠNG 3: THU NGHIỆM PHAT HIỆN XÂM NHẬP MẠNG
Trên cơ sở phân tích các phương pháp phát hiện xâm nhập mạng dựa
trên bất thường ở chương 2, chương 3 giới thiệu và thử nghiệm mô hình
thử nghiệm phát hiện xâm nhập mạng dựa trên thống kê n-gram [7].
3.1 Giới thiệu mô hình phát hiện xâm nhập mạng dựa trên thống kê
n-gram [7]
Payload của các gói tin truyền trên mạng là một chuỗi (stream) các
byte Không giống như đề mục (header) của các gói tin, payload không có
mô hình có định, các từ khóa, dấu hiệu chính xác hay một miền giới hạn
giá trị Một ký tự hoặc giá tri byte có thể xuất hiện trong bất ky vi trí nào
trong luồng dữ liệu Dé mô hình hóa payload chúng ta cần phải chia thành các nhóm nhỏ hơn dựa vào một số chuẩn liên kết Số hiệu công dịch vụ và độ dài là những tham số lựa chọn rõ ràng nhất và dễ xác định nhất Có thé phân loại các gói tin thành 2 loại, là các gói đến (inbound) và các gói đi
Thong thuong, cac dich vu mang chuẩn có một số hiệu công (port) dé nhan biét nhu: céng 20 cho truyén dữ liệu FTP (File Transfer Protocol), công 21 cho tín hiệu điều khiến FTP, công 22 cho dịch vụ SSH (Secure Shell), cổng 23 cho Telnet, công 25 cho dịch vụ mail SMTP (Simple Mail Transfer Protocol), công 80 cho Web Mỗi ứng dụng có một giao thức riêng và vì thế nó có một loại payload Payload đến công 22 thường bị mã hóa và hiển thị như các byte, trong khi đó payload đến công 21 hiển thị ở
dạng ký tự thông thường (plaintext).
Với mỗi công, độ dài payload cũng rất khác nhau Hầu hết những gói tin TCP thông thường có độ dài payload từ 0 đến 1460 Những payload
khác nhau có độ dài khác nhau Payload có kích thước lớn thường là
những dữ liệu media hay nhị phân (anh, video, file thực thi, ) Vì vay
chúng ta tính toán mô hình hóa cho mỗi payload có độ dài khác nhau cho
mỗi công dịch vụ của các luồng khác nhau.[7]
Trang 12Dé giữ cho mô hình đơn giản và tính toán nhanh, chúng ta mô hình hóa
payload sử dụng mô hình n-gram và cụ thể là phân bố giá tri byte, khi n=1.
Một n-gram là một chuỗi của n byte liền kề trong một đơn vị payload Một
cửa sô trượt có độ rộng n được dịch chuyên trên toàn bộ payload dé tao ra
các chuỗi n-gram.
Với mỗi payload, vector đặc trưng là tần suất quan hệ của mỗi n-gram được tính bằng thương của số lần xuất hiện của mỗi gram trên tổng số
n-gram Trường hợp đơn giản nhất của một I-gram, ta tính toán tần suất
trung bình của mỗi ký tự ASCII có mã từ 0 — 255 Một payload của một
công có độ dài có định, chúng ta xử lý tần suất của mỗi ký tự như một biến va tính toán giá tri trung bình và độ lệch chuẩn của mô hình payload.
Từ tập dữ liệu đầu vào là các gói tin (packet), chúng ta tính toán mô
hình M; Với mỗi độ dài payload i nhận được của công j, Mí; lưu thông tin tần suất byte trung bình và độ lệch chuẩn cho tần suất của mỗi byte Sự kết hợp giá trị trung bình và phương sai của từng byte có thể mô tả rõ đặc điểm payload trong phạm vi của độ dài Mỗi mô hình Mẹ sau khi tính toán trong quá trình huấn luyện được gọi là một trung tâm (centroid) Như vậy, nếu có 5 công và mỗi cổng lại có 10 độ dài payload khác nhau thì sẽ có tổng cộng 50 mô hình centroid được sinh ra sau quá trình huấn luyện.
Mô hình thử nghiệm được triển khai theo 2 giai đoạn như sau:
Giai đoạn huấn luyện: Đầu tiên giám sát và thu thập các gói tin trong thời gian mạng hoạt động bình thường (không có tấn công) cho quá trình huấn luyện Các gói tin này được mô hình hóa dựa trên 1-gram, tính toán tần suất, các giá trị trung bình và phương sai của từng byte tạo thành mô
hình Mỹ;
- Giai đoạn phát hiện: Các gói tin giám sát sẽ được xử lý, tính toán dựa
trên mô hình I-gram và so sánh với mô hình centroid đã được huấn luyện trước đó tương ứng với các giá trị công và độ dài payload Nếu payload của gói tin khác với những dấu hiệu thông thường, cờ phát hiện
sẽ đánh dấu là bất thường và sinh ra cảnh báo.
Trang 13Việc so sánh giữa 2 mô hình payload đóng vai trò rất quan trọng, có
ảnh hưởng trực tiếp đến kết qua của quá trình đánh giá, do đó yêu cầu phải
có một thuật toán so sánh có độ chính xác cao, ôn định, đồng thời phải có
hiệu suất cao để không làm ảnh hưởng đến hoạt động của hệ thống Luận
văn này sử dụng thuật toán tính khoảng cách Mahalanobis (Mahalanobis
Distance) [7].
3.2.Thử nghiệm mô hình
3.2.1.Giớt thiệu tập dữ liệu thir nghiệm
Trong mô hình thử nghiệm, luận văn sử dụng tập dữ liệu 1999 DARPAIntrusion Detection Evaluation [18] Bộ dữ liệu 1999 DARPA IDS được
thu thập tai MIT Lincoln Lab dùng dé đánh giá hệ thống phát hiện xâm
nhập Tất cả lưu lượng mạng bao gồm payload của từng gói tin được ghi
lại trong file tepdump Thêm vào đó, tập dữ liệu còn có bổ sung them các file audit log, file dump của hệ thống hằng ngày và BSM log (Solaris
system call) [18].
Bộ dữ liệu bao gồm dữ liệu thu thập trong 3 tuần dùng dé huấn luyện và di liệu thu thập trong 2 tuần dùng để kiểm tra Trong dữ liệu huấn luyện có 2 tuần dữ liệu bình thường (tuần thứ 1 và tuần thứ 3) và 1 tuần dữ liệu tấn công đã được gán nhãn (tuần thứ 2).
3.2.1.1 Dữ liệu huấn luyện
Dữ liệu huấn luyện được tạo ra trên một mạng mô phỏng bao gom dữ liệu sử dụng bình thường và cả các phiên tan công Dữ liệu huấn luyện sẽ bao gồm những thành phan sau:
e Dữ liệu tcpdump bên ngoài (outside) là lưu lượng mạng của mộttháng được thu thập bởi tcpdump packet sniffer Dữ liệu này chứa
nội dung của tất cả gói tin được truyền tải giữa các máy tính bên
trong và bên ngoài mạng.
e Dữ liệu tcpdump bên trong (inside) là lưu lượng mạng thu thập được
từ tat cả các gói tin được truyền tải giữa các máy tính bên trong
mạng.