1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các kỹ thuật phát triển xâm nhập mạng dựa trên bất thường

26 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu các kỹ thuật phát hiện xâm nhập mạng dựa trên bất thường
Tác giả Nguyễn Minh Hiến
Người hướng dẫn TS. Hoàng Xuân Dậu
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2017
Thành phố Hà Nội
Định dạng
Số trang 26
Dung lượng 5,8 MB

Nội dung

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Nguyễn Minh Hién

NGHIÊN CỨU CÁC KỸ THUAT PHAT HIỆN XÂM NHAP

MẠNG DỰA TRÊN BÁT THƯỜNG

Chuyên ngành: Khoa Học Máy Tính

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2017

Trang 3

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG

Người hướng dẫn khoa học: TS.Hoàng Xuân Dậu

(Ghi rõ học hàm, học vị)

Phản biện Ì:

Phản biện 2:_ -

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại

Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giỜ ngày thang năm

Có thê tìm hiêu luận văn tại:

Trang 5

LOI MO ĐẦU

Nhằm đảm bảo an toàn cho thông tin, hệ thống máy chủ va mạng,

mô hình phòng vệ nhiều lớp có chiều sâu (defense in depth) thường được

sử dung do các cuộc tan công, xâm nhập trái phép vào các hệ thông máy

chủ ngày càng phổ biến với mức độ tinh vi ngày càng cao Trong mô hình này, hệ thống mạng thường được bảo vệ bang lớp bảo vệ thứ nhất, gồm tường lửa, các biện pháp kiểm soát truy nhập, xác thực, mã hóa, Lớp bảo vệ hệ thống thứ hai thường gồm các hệ thống phát hiện va ngăn chặn xâm nhập mạng và host Các hệ thống phát hiện xâm nhập mạng (NIDS — Network-based Intrusion Detection System) được sử dụng để giám sát và bảo vệ cả mạng, hoặc một phân đoạn mạng Các hệ thống phát hiện xâm

nhập host (HIDS — Host-based Intrusion Detection System) được sử dụng

dé bảo vệ một máy (host), hoặc một dịch vụ cu thể.

Phát hiện xâm nhập dựa trên chữ ký (Signature-based IDS) và dựa trên bất thường (Anomaly-based IDS) là hai nhóm kỹ thuật phát hiện xâm nhập

được sử dụng phổ biến Phát hiện xâm nhập dựa trên chữ ký, hay dựa trên mẫu trước hết xây dựng một cơ sở dữ liệu các chữ ký của các tan cong,

xâm nhập đã biết Sau đó giám sát các hành vi hiện tại của hệ thống, hoặc

mạng và cảnh báo nếu phát hiện chữ ký của tấn công, xâm nhập Kỹ thuật

này có ưu điểm là có khả năng phát hiện các tấn công, xâm nhập đã biết

một cách hiệu quả với tốc độ cao xử lý cao và yêu cau tài nguyên tính toán

tương đối thấp Tuy nhiên, nó không có khả năng phát hiện các tấn công,

xâm nhập mới, do chữ ký của chúng chưa có trong cơ sở dữ liệu Ngoài ra,

phát hiện xâm nhập dựa trên chữ ký cũng đòi hỏi nhiều công sức cho xây

dựng và cập nhật cơ sở dữ liệu chữ ký, hoặc dấu hiệu tan công, xâm nhập.Phát hiện xâm nhập dựa trên bất thường dựa trên giả thiết các hành vitan công, xâm nhập thường có quan hệ chat chẽ với các hành vi batthường Quá trình xây dựng và triển khai kỹ thuật này gồm 2 giai đoạn: (1)Xây dựng hồ sơ (profile) của đối tượng trong chế độ làm việc bình thường,và (2) Giám sát hành vi hiện tại của hệ thống và cảnh báo nếu có khác biệt

Trang 6

rõ nét giữa hành vi hiện tại với hành vi lưu trong hồ sơ của đối tượng Phát

hiện xâm nhập dựa trên bat thường có tiềm năng phát hiện các loại xâm

nhập, xâm nhập mới mà không yêu cầu biết trước thông tin về chúng Nhược điểm của kỹ thuật này là tỷ lệ cảnh báo sai tương đối cao so với

phương pháp dựa trên chữ ký Đồng thời, nó cũng tiêu tốn nhiều tài

nguyên hệ thống cho việc xây dựng hồ sơ đối tượng và phân tích hành vi

hiện tại.

Như vậy, phát hiện xâm nhập dựa trên bất thường có nhiều triển vọng

do nó có khả năng phát hiện các tan công, xâm nhập mới Việc nghiên cứu

sâu về các kỹ thuật, giải pháp phát hiện tắn công, xâm nhập mạng dựa trên bat thường là cần thiết dé nâng cao hiệu quả phát hiện, giảm cảnh báo sai và giảm chỉ phí tính toán Đề tài luận văn “ Nghiên cứu các kỹ thuật phát hiện xâm nhập mạng dựa trên bất thường “ tập trung nghiên cứu, đánh giá

các kỹ thuật phát hiện xâm nhập mạng dựa trên bat thường đã được đề

xuất nhằm lựa chọn kỹ thuật phù hợp ứng dụng cho đảm bảo an toàn thông tin, hệ thống máy chủ và mạng

Trang 7

CHUONG 1- TONG QUAN VE PHÁT HIỆN XÂM NHAP MẠNG

1.1 Các yêu cầu đảm bảo an toàn cho hệ thống va mang

An toàn thông tin (Information security) là một lĩnh vực tương đối mới và được quan tâm trong vài thập kỷ gần đây và phát triển mạnh trong khoảng 10 năm qua nhờ sự phát triển mạnh mẽ của mạng Internet và các dịch vụ mạng trên nền Internet Tuy nhiên, do Internet ngày càng mở rộng và gần như không còn khái niệm biên giới quốc gia trong không gian

mạng, các sự cô mắt an toàn thông tin liên tục xảy ra và đặc biệt các dạng tấn công, xâm nhập các hệ thống máy tính và mạng xuất hiện ngày càng

phổ biến và mức độ phá hoại ngày càng nghiêm trọng Van dé đảm bảo an toàn cho thông tin, các hệ thống và mạng trở nên cấp thiết và là mối quan

tâm của mỗi quốc gia, co quan, tổ chức và mỗi người dùng.

1.1.1 Tính bí mật

Tính bí mật (Confidentiality): Tính bí mật đảm bảo thông tin trong hệ

thống không bị truy cập trái phép từ những đối tượng bất hợp pháp Đối tượng truy nhập có thể là con người hoặc các chương trình máy tính Tính bí mật của thông tin có thể được thực hiện dựa vào phần cứng vật lý hoặc phần mềm.

1.1.2 Tính toàn vẹn

Tính toàn vẹn (Integrity): Tính toàn vẹn đảm bảo sự nguyên vẹn, thống nhất của thông tin trong quá trình lưu trữ hay truyền thông Bat kỳ sự thay đổi trái phép nào làm sai lệch thông tin sẽ phải được phát hiện và ngăn

1.1.3 Tính sẵn dùng

- Thời gian trung bình giữa các sự có;

- Thời gian trung bình ngừng dé sửa chữa; - Thời gian khôi phục sau sự cố.

1.2 Các dạng tan công vào hệ thống và mang

1.2.1 Khái quát về tắn công

Tấn công (attack) vào hệ thống máy tính và mạng được thực hiện bằng cách khai thác các lỗ hồng của hệ thống Theo tổ chức ITU (International

Trang 8

Telecommunication Union), các cuộc tan công được bắt nguồn từ 5 nguy

cơ chính (threat) được nêu trong Hình 1.4, bao gồm

1.2.2 Một số dạng tan công điển hình

e Tan công giả mạo e Tan công chặn bat

e Tan công gây gián đoạn e Tan công sửa đổi

1.3 Khái quát về phát hiện xâm nhập

1.3.1 Giới thiệu

Phát hiện xâm nhập (Intrusion Detection) là quá trình giám sát các sự kiện

xảy ra trong một hệ thống máy tính hoặc mạng, sau đó phân tích các sự kiện này để tìm băng chứng của các tấn công, xâm nhập Một hệ thống

phát hiện xâm nhập (Intrusion Detection System - IDS) thường gồm ba bộ

phận chức năng: bộ phận thu thập thông tin, bộ phận phát hiện xâm nhập

và bộ phận phản ứng xâm nhập.

1.3.2 Các thành phan của hệ thống phát hiện xâm nhập

1.4 Phân loại phát hiện xâm nhập

Có nhiều phương pháp phân loại phát hiện đột nhập, trong đó hai

phương pháp được sử dụng phô biến là phân loại phát hiện đột nhập dựa trên nguồn thông tin và dựa trên phương pháp phân tích xử lý dữ liệu.

1.4.1 Phân loại dựa trên nguồn thông tin

1.4.2 Phân loạt dựa trên kỹ thuật phát hiện1.4.2.1 Phát hiện đột nhập dựa trên chữ ký

1.4.2.2 Phát hiện đột nhập dựa trên bất thường 1.5 Kết chương

Chương 1 đề cập đến các yêu cầu đảm bảo an toàn cho thông tin, hệ thống và mạng như: tính bí mật, tính toàn vẹn và tính sẵn dùng, đồng thời giới thiệu khái quát các dạng tan công vào hệ thống và mạng Tiếp theo, chương 1 giới thiệu về mô hình và phân loại phát hiện xâm nhập mạng

Trong chương 2, luận văn đi sâu phân tích và so sánh các kỹ thuật phát

hiện xâm nhập mang dựa trên bat thường.

Trang 9

CHƯƠNG 2- CÁC KỸ THUẬT PHÁT HIỆN XÂM NHẬP MẠNG

DUA TREN BAT THUONG

Cùng với các giải pháp phát hiện xâm nhập mang dựa trên chữ ký,

nhiều giải pháp phát hiện xâm nhập mạng dựa trên bất thường đã được

nghiên cứu, đề xuất Chương này sẽ trình bày một số kỹ thuật phát hiện

xâm nhập dựa trên bất thường tiêu biểu, bao gồm: phát hiện dựa trên thông kê, dựa trên phân loại, dựa trên tính toán mềm, dựa trên tri thức và phương pháp kết hợp.

2.1 Phương pháp thống kê

Vé mặt thống kê, một sự bất thường là một quan sát mà đang bị nghỉ ngờ là một phần hoặc hoàn toàn không thích hợp vì nó không phải được

tạo ra bởi một mô hình ngẫu nhiên giả định.

2.1.1 Một số mô hình phát hiện dựa trên thong kê

2.1.2 Uu nhược điểm của phát hiện dựa trên thong kê

2.2 Phương pháp dựa trên phân loại

Phân loại hay phân lớp (Classification) là vấn đề xác định loại tập hợp nào mà một quan sát mới thuộc về, trên cơ sở tập dữ liệu huấn luyện có chứa các quan sát có thành viên nhóm được biết đến.

2.2.1 Một số mô hình phát hiện dựa trên phân loại

2.2.2 Uu nhược điểm của phát hiện dựa trên phân loại

2.3 Phương pháp dựa trên tính toán mém

Tính toán mềm (Soft computing), khác với tính toán truyền thống đề cập đến các mô hình gần đúng và đưa ra các giải pháp cho những vấn đề phức tạp trong thực tiễn Không giống như tín toán cứng, tính toán mềm có thể chịu được sự không chính xác, không chắc chắn, một phần sự thật, và xấp xi.

2.3.1 Các phương pháp dựa trên thuật toán di truyền 2.3.2 Cách tiếp cận mạng nơ ron nhân tạo

2.3.3 Phương pháp dựa trên tiếp cận lý thuyết mờ 2.3.4 Các phương pháp dựa trên tiếp cận tập thô

2.3.5 Ưu nhược điểm của phát hiện dựa trên tính toán mém

Trang 10

2.4 Các phương pháp dựa trên tri thức

Trong các phương pháp dựa trên tri thức, các sự kiện mạng hoặc hệ

thống được kiểm tra với các quy tắc hoặc mẫu tấn công đã được xác định trước Mục đích là đề đại diện cho các cuộc tan cong da biét trong một thời gian tổng quát dé xử lý các sự kiện thực tế trở nên dé dàng hon Các phương pháp dựa trên tri thức là các hệ thống chuyên gia, dựa trên quy tắc, dựa trên nền tảng, dựa trên logic và phân tích chuyển tiếp trang thái.

2.4.1 Một số mô hình phát hiện dựa trên tri thức

2.4.2 Uu nhược điểm của phát hiện dựa trên tri thức 2.5 Phương pháp kết hợp

Mục này trình bày một số phương pháp sử dụng kết hợp của nhiều kỹ thuật phát hiện xâm nhập dựa trên bat thường.

2.5.1 Các phương pháp dựa trên tổng hợp (Ensemble-based)

2.5.2 Phương pháp dựa trên sự hiên hợp (Fusion-based)2.5.3 Cac phương pháp lai

2.6 So sánh các kỹ thuật phát hiện

2.7 Kết chương

Chương 2 đã giới thiệu một số phương pháp điển hình được sử dụng

cho phát hiện xâm nhập mạng dựa trên bat thường như: phát hiện dựa trên

thống kê, phân loại, dựa trên tính toán mềm, dựa trên tri thức, phương pháp kết hợp Chương 2 cũng cung cấp phần so sánh các ưu nhược điểm

của chúng.

Trong Chương 3, luận văn sẽ trình bày mô hình và thử nghiệm phát

hiện xâm nhập mạng dựa trên phương pháp thống kê n-gram.

Trang 11

CHƯƠNG 3: THU NGHIỆM PHAT HIỆN XÂM NHẬP MẠNG

Trên cơ sở phân tích các phương pháp phát hiện xâm nhập mạng dựa

trên bất thường ở chương 2, chương 3 giới thiệu và thử nghiệm mô hình

thử nghiệm phát hiện xâm nhập mạng dựa trên thống kê n-gram [7].

3.1 Giới thiệu mô hình phát hiện xâm nhập mạng dựa trên thống kê

n-gram [7]

Payload của các gói tin truyền trên mạng là một chuỗi (stream) các

byte Không giống như đề mục (header) của các gói tin, payload không có

mô hình có định, các từ khóa, dấu hiệu chính xác hay một miền giới hạn

giá trị Một ký tự hoặc giá tri byte có thể xuất hiện trong bất ky vi trí nào

trong luồng dữ liệu Dé mô hình hóa payload chúng ta cần phải chia thành các nhóm nhỏ hơn dựa vào một số chuẩn liên kết Số hiệu công dịch vụ và độ dài là những tham số lựa chọn rõ ràng nhất và dễ xác định nhất Có thé phân loại các gói tin thành 2 loại, là các gói đến (inbound) và các gói đi

Thong thuong, cac dich vu mang chuẩn có một số hiệu công (port) dé nhan biét nhu: céng 20 cho truyén dữ liệu FTP (File Transfer Protocol), công 21 cho tín hiệu điều khiến FTP, công 22 cho dịch vụ SSH (Secure Shell), cổng 23 cho Telnet, công 25 cho dịch vụ mail SMTP (Simple Mail Transfer Protocol), công 80 cho Web Mỗi ứng dụng có một giao thức riêng và vì thế nó có một loại payload Payload đến công 22 thường bị mã hóa và hiển thị như các byte, trong khi đó payload đến công 21 hiển thị ở

dạng ký tự thông thường (plaintext).

Với mỗi công, độ dài payload cũng rất khác nhau Hầu hết những gói tin TCP thông thường có độ dài payload từ 0 đến 1460 Những payload

khác nhau có độ dài khác nhau Payload có kích thước lớn thường là

những dữ liệu media hay nhị phân (anh, video, file thực thi, ) Vì vay

chúng ta tính toán mô hình hóa cho mỗi payload có độ dài khác nhau cho

mỗi công dịch vụ của các luồng khác nhau.[7]

Trang 12

Dé giữ cho mô hình đơn giản và tính toán nhanh, chúng ta mô hình hóa

payload sử dụng mô hình n-gram và cụ thể là phân bố giá tri byte, khi n=1.

Một n-gram là một chuỗi của n byte liền kề trong một đơn vị payload Một

cửa sô trượt có độ rộng n được dịch chuyên trên toàn bộ payload dé tao ra

các chuỗi n-gram.

Với mỗi payload, vector đặc trưng là tần suất quan hệ của mỗi n-gram được tính bằng thương của số lần xuất hiện của mỗi gram trên tổng số

n-gram Trường hợp đơn giản nhất của một I-gram, ta tính toán tần suất

trung bình của mỗi ký tự ASCII có mã từ 0 — 255 Một payload của một

công có độ dài có định, chúng ta xử lý tần suất của mỗi ký tự như một biến va tính toán giá tri trung bình và độ lệch chuẩn của mô hình payload.

Từ tập dữ liệu đầu vào là các gói tin (packet), chúng ta tính toán mô

hình M; Với mỗi độ dài payload i nhận được của công j, Mí; lưu thông tin tần suất byte trung bình và độ lệch chuẩn cho tần suất của mỗi byte Sự kết hợp giá trị trung bình và phương sai của từng byte có thể mô tả rõ đặc điểm payload trong phạm vi của độ dài Mỗi mô hình Mẹ sau khi tính toán trong quá trình huấn luyện được gọi là một trung tâm (centroid) Như vậy, nếu có 5 công và mỗi cổng lại có 10 độ dài payload khác nhau thì sẽ có tổng cộng 50 mô hình centroid được sinh ra sau quá trình huấn luyện.

Mô hình thử nghiệm được triển khai theo 2 giai đoạn như sau:

Giai đoạn huấn luyện: Đầu tiên giám sát và thu thập các gói tin trong thời gian mạng hoạt động bình thường (không có tấn công) cho quá trình huấn luyện Các gói tin này được mô hình hóa dựa trên 1-gram, tính toán tần suất, các giá trị trung bình và phương sai của từng byte tạo thành mô

hình Mỹ;

- Giai đoạn phát hiện: Các gói tin giám sát sẽ được xử lý, tính toán dựa

trên mô hình I-gram và so sánh với mô hình centroid đã được huấn luyện trước đó tương ứng với các giá trị công và độ dài payload Nếu payload của gói tin khác với những dấu hiệu thông thường, cờ phát hiện

sẽ đánh dấu là bất thường và sinh ra cảnh báo.

Trang 13

Việc so sánh giữa 2 mô hình payload đóng vai trò rất quan trọng, có

ảnh hưởng trực tiếp đến kết qua của quá trình đánh giá, do đó yêu cầu phải

có một thuật toán so sánh có độ chính xác cao, ôn định, đồng thời phải có

hiệu suất cao để không làm ảnh hưởng đến hoạt động của hệ thống Luận

văn này sử dụng thuật toán tính khoảng cách Mahalanobis (Mahalanobis

Distance) [7].

3.2.Thử nghiệm mô hình

3.2.1.Giớt thiệu tập dữ liệu thir nghiệm

Trong mô hình thử nghiệm, luận văn sử dụng tập dữ liệu 1999 DARPAIntrusion Detection Evaluation [18] Bộ dữ liệu 1999 DARPA IDS được

thu thập tai MIT Lincoln Lab dùng dé đánh giá hệ thống phát hiện xâm

nhập Tất cả lưu lượng mạng bao gồm payload của từng gói tin được ghi

lại trong file tepdump Thêm vào đó, tập dữ liệu còn có bổ sung them các file audit log, file dump của hệ thống hằng ngày và BSM log (Solaris

system call) [18].

Bộ dữ liệu bao gồm dữ liệu thu thập trong 3 tuần dùng dé huấn luyện và di liệu thu thập trong 2 tuần dùng để kiểm tra Trong dữ liệu huấn luyện có 2 tuần dữ liệu bình thường (tuần thứ 1 và tuần thứ 3) và 1 tuần dữ liệu tấn công đã được gán nhãn (tuần thứ 2).

3.2.1.1 Dữ liệu huấn luyện

Dữ liệu huấn luyện được tạo ra trên một mạng mô phỏng bao gom dữ liệu sử dụng bình thường và cả các phiên tan công Dữ liệu huấn luyện sẽ bao gồm những thành phan sau:

e Dữ liệu tcpdump bên ngoài (outside) là lưu lượng mạng của mộttháng được thu thập bởi tcpdump packet sniffer Dữ liệu này chứa

nội dung của tất cả gói tin được truyền tải giữa các máy tính bên

trong và bên ngoài mạng.

e Dữ liệu tcpdump bên trong (inside) là lưu lượng mạng thu thập được

từ tat cả các gói tin được truyền tải giữa các máy tính bên trong

mạng.

Ngày đăng: 09/04/2024, 17:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w