Hơn nữa đối với các vấn đề chứng thực người dùng truyền thống, mã hóa thông tin, tường lửa và một số công nghệ bảo vệ mạng khác, phát hiện xâm nhập được sử dụng để xác đ[r]
(1)MƠ HÌNH HỆ THỐNG PHÁT HIỆN BẤT THƯỜNG SỬ DỤNG THUẬT TOÁN PHÂN CỤM MỜ LAI GHÉP
Vũ Đặng Giang1, Nguyễn Duy Thái1, Phạm Văn Nhã2*
Tóm tắt: Tấn cơng phịng thủ hệ thống mạng thu hút quan tâm các nhà nghiên cứu Các hệ thống trở thành mục tiêu ưu tiên hàng đầu các cơng trái phép Vì vậy, việc củng cố hệ thống phịng thủ để phát hiện xâm nhập bất thường từ bên bên mạng cần thiết thường xuyên Trong báo này, đề xuất Mô hình hệ thống phát xâm nhập bất thường sử dụng thuật toán Phân cụm mờ lai ghép thuật toán FCM, PSO SVM Thực nghiệm tiến hành liệu chuẩn mẫu KDD CUP ‘99 Kết thực nghiệm chứng tỏ mơ hình đề xuất đạt hiệu suất vượt trội so với mơ hình đề xuất trước
Từ khóa: Phát bất thường, Phân cụm mờ, Tối ưu bầy đàn, Máy vector hỗ trợ
Ký hiệu
Ký hiệu Ý nghĩa
U={uci} Ma trận hàm thuộc JFCM Hàm mục tiêu FCM Pc Tâm cụm
Dci Khoảng cách liệu đối tượng thứ c đối tượng thứ i
Chữ viết tắt
IDS Intrusion Detection Systems PSO Particle Swarm Optimization SVM Support Vector Machine GA Genetic Algorithms ANN Artificial Neural Network FCM Fuzzy clustering
1 GIỚI THIỆU CHUNG
(2)Nghiên cứu khoa học công nghệ
hiện xâm nhập nói chung chia thành hai loại: phát sử dụng sai quy cách phát bất thường
Phát sử dụng sai quy cách dựa công biết lỗ hổng hệ thống để xây dựng quy tắc phát sử dụng để đánh giá kết nối mạng có phải kết nối xâm nhập hay khơng Nó có tỷ lệ xác tốc độ phản ứng cao, hạn chế lớn phát công quy tắc phát cập nhật tay Phát bất thường xác định xem kết nối có phải kết nối xâm nhập hay không cách phát độ lệch mẫu kết nối với mẫu hành vi bình thường [12] mơ tả so sánh vài phương pháp hệ thống phát mạng bất thường Nói chung, phát bất thường tìm thấy cơng chưa biết, mẫu hành vi bình thường thu bị nhầm lẫn với hành vi bất thường, nên tỷ lệ cảnh báo sai gia tăng [16], [29]
Để khắc phục vấn đề này, số hệ thống phát xâm nhập IDS sử dụng kỹ thuật khai phá liệu máy học thiết kế, mà chủ yếu sử dụng để điều tra phát đặc tính, phân loại phán đốn xâm nhập [20] đề xuất mơ hình phát xâm nhập cách phân cụm luồng liệu kết nối, sau sử dụng kết phân cụm để phân tích phát bất thường cho mạng khơng dây Cấu trúc liệu ban đầu độ phức tạp thuật tốn phân lớp giảm tiến trình phân cụm, tâm cụm khởi tạo ngẫu nhiên, nên chất lượng phân cụm bị ảnh hưởng hạn chế vốn có thuật tốn phân cụm dễ rơi vào bẫy tối ưu cục Một số mơ hình phát xâp nhập hiệu đề xuất gần mơ hình sử dụng mạng thần kinh nhân tạo ANN để phát xâm nhập [19], sử dụng phương pháp phân cụm mờ FCM lai ghép với phương pháp xác định tâm cụm để phát xâm nhập bất thường [21] [30] nghiên cứu khả áp dụng máy vector hỗ trợ SVM để xây dựng IDS So sánh tối ưu giải thuật di truyền GA ANN SVM IDS mô tả [5] Tuy nhiên, ANN vốn có độ phức tạp việc khởi tạo giá trị đặc tính phân lớp chủ yếu sử dụng liệu phi tuyến, SVM có khả chỉnh sửa lỗi tốt khả điều khiển tốt [1], [6] Đây lý giúp lựa chọn kỹ thuật SVM báo
(3)FCM SVM đa lớp để dự đoán nồng độ silicon metal nóng, [9] đề xuất mơ hình IDS áp dụng kỹ thuật FCM ANN Nói chung, mơ hình sử dụng kỹ thuật FCM để khởi tạo cụm thu hiệu suất tốt SVM ANN đơn lớp Tuy nhiên, phương pháp FCM truyền thống nhạy cảm với khởi tạo dễ rơi vào bẫy tối ưu cục bộ, ảnh hưởng đến kết dự đoán tồn hệ thống IDS Các thuật tốn tiến hóa giải thuật di truyền thường sử dụng để tìm tâm cụm khởi tạo cho thuật tốn FCM sử dụng PSO để tìm tâm cụm khởi tạo cho FCM [27], sử dụng GA để tìm tâm cụm khởi tạo [34] [4] sử dụng GA để tìm tâm cụm khởi tạo cho thuật tốn FCM mơ hình IDS sử dụng SVM Tuy nhiên, theo kết nghiên cứu so sánh kỹ thuật GA PSO từ [26], [28] cho thấy ảnh hưởng kích thước phân bố thời gian tìm giải pháp GA tăng theo lũy thừa PSO tăng theo tuyến tính; xu hội tụ sớm GA thấp so với PSO; khơng gian tìm kiếm PSO liên tục GA rời rạc; khả tránh bẫy tối ưu cục PSO cao so với GA Như vậy, thuật toán PSO lựa chọn phù hợp so với thuật tốn GA để tìm kiếm tâm cụm khởi tạo cho thuật toán phân cụm
Trong báo này, chúng tơi đề xuất mơ hình phát xâm nhập bất thường PFCMS cách lai ghép thuật toán FCM dựa thuật toán PSO SVM Thuật toán PSO sử dụng để khởi tạo tâm cụm cho thuật toán phân cụm FCM để sinh cụm có thuộc tính cho SVM để phát xâm nhập bất thường Thực nghiệm tiến hành liệu chuẩn mẫu KDD CUP ’99 Kết thực nghiệm chứng tỏ mơ hình đề xuất đạt kết vượt trội so với mơ hình IDS đề xuất trước Tiếp theo, báo tổ chức sau Mục 2, trình bày số vấn đề lý thuyết liên quan đến kỹ thuật sử dụng báo; Mục 3, trình bày chi tiết mơ hình PFCMS đề xuất; Mục vài kết thực nghiệm, đánh giá hiệu suất; Mục 5, kết luận định hướng nghiên cứu
2 NHỮNG VẤN ĐỀ CƠ BẢN
Trong mục này, chúng tơi trình bày số vấn đề lý thuyết liên quan đến báo Bao gồm thuật toán Phân cụm mờ, thuật toán Tối ưu bầy đàn kỹ thuật phân lớp Máy vector hỗ trợ
2.1 Thuật toán Phân cụm mờ
(4)Nghiên cứu khoa học công nghệ
nâng cao hiệu suất phân cụm liệu, thuật toán Phân cụm kết hợp với logic mờ nhằm tăng khả thu nhận vấn đề khơng chắn liệu, thuật tốn gọi thuật toán Phân cụm mờ Thuật toán phân cụm mờ lần giới thiệu Dunn [13] sau sửa đổi Bezdek [15] (gọi thuật tốn Fuzzy C-Means (FCM))
Trong khn khổ thuật tốn FCM sử dụng mơ đun Phân cụm để phân cụm liệu huấn luyện thành C cụm khác Hàm mục tiêu FCM cho công thức (1):
2 1 ( ; , , , ; ) C N m
FCM C ci ci
c i
J U p p p X u d
(1)
trong đó, X tập N ghi liệu kết nối, uci độ thuộc ghi thứ i cụm c uci bị ràng buộc điều kiện (2):
1 1, C ci c u
với i=1,2, …,N (2)
và uci xác định theo công thức (3):
2 (m 1) ij ci C ci j u d d (3)
pc tâm cụm c, tính theo cơng thức (4):
1 N m ci i i c N m ci i u x p u (4)
dci bình phương khoảng cách Euclidean ghi liệu kết nối xi với tâm cụm vc, định nghĩa sau:
2
(x v )
K
ci ik ck
k
d
(5)
Số mũ m sử dụng để điều chỉnh trọng số ảnh hưởng giá trị hàm thuộc, m lớn tăng độ mờ hàm mục tiêu JFCM, m thường lựa chọn
Thuật tốn FCM mơ tả theo bước sau:
Thuật toán 1 Thuật toán Phân cụm mờ
Bước Input: Tập liệu , K,
i i
X x x R i N , số cụm C (1<C<N), hệ số
(5)Bước Khởi tạo ma trận tâm cụm (0) x
, C K
cj
Pp P R
Bước Cập nhật pc sử dụng công thức (4)
Bước Cập nhật uci sử dụng cơng thức (3) (5)
Bước Tính tốn hàm mục tiêu JFCM (1) Nếu hội tụ ( J( )n J(n1) ) chuyển xuống bước Nếu chưa hội tụ quay lại bước
Bước Output: Kết phân cụm
Sau bước mô đun Phân cụm, liệu TR phân thành C cụm khác
Thuật toán FCM trở thành thuật toán phân cụm mờ phổ biến quan trọng lĩnh vực khai phá liệu, không ngừng cải tiến áp dụng rộng rãi nhiều lĩnh vực khác Một số nghiên cứu tiêu biểu [2] phân tích ảnh y tế, [17] phân đoạn ảnh mầu, [31] nhận dạng khuôn mặt người, [32] điều khiển khung nhìn robot phân lớp ảnh vệ tinh đa phổ [18] Tuy nhiên, thuật toán FCM tồn số hạn chế nhạy cảm với khởi tạo khơng có phản ứng với nhiễu ngoại lai liệu đầu vào Đặc biệt, liệu có cấu trúc phức tạp đa biến, kích thước lớn, hiệu thuật tốn Phân cụm mờ khơng cao
2.2 Thuật toán tối ưu bầy đàn
Thuật toán PSO thuật tốn sử dụng trí tuệ bầy đàn phổ biến [14] mô theo ý tưởng hành vi bầy đàn loài chim sống theo bầy đàn Thuật toán PSO cải tiến áp dụng số lĩnh vực ứng dụng khác Tiêu biểu [8] sử dụng thuật toán PSO để giải tốn tơ màu đồ thị phẳng, tự động tạo ký tự đồ họa phức tạp [7], phát thư rác [23] Hơn nữa, thuật toán PSO kết hợp với vài thuật toán khác để thực thi phần nhiệm vụ quan trọng thuật toán [1], [3] sử dụng PSO bước khởi tạo thuật toán FCM để phân đoạn ảnh, xử lý ảnh tự động [24], xác định số cụm liệu [10]
Thuật toán PSO bao gồm Np phần tử với Pi( )t (p , p , ., pi,1 i,2 i,K)T, i=1,Npbiểu diễn vị trí chúng không gian K chiều Các phần tử di chuyển dọc theo khơng gian tìm kiếm với vận tốc Ai( )t (ai,1, a , ., ai,2 i,K)T phía vị trí phần từ tốt ( )t
best
(6)Nghiên cứu khoa học công nghệ
chuyển phần từ phụ thuộc vào vị trí tốt cục phần tử
( )t i
p tính tốn cơng thức tốn học sau:
( 1) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 ( ) c2 ( )
t t t t t t t t
i i i i i best i
A A c r P A r P P
(6)
Sau đó, vị trí phần từ tính tốn theo công thức sau:
(t 1) (t) ( )t
i i i
P P A (7)
Hàm ước lượng điều kiện dừng mô tả sau:
( ) FCM f P
J
(8)
trong đó, số JFCM hàm mục tiêu thuật tốn FCM tính tốn cơng thức (1)
Liên quan đến điều kiện dừng, sử dụng hai tiêu chí, hai tiêu chí thỏa mãn thuật tốn dừng:
a) Hoặc hàm mục tiêu không cải thiện sau Pso vòng lặp:
( 1)( ) ( )( ) Pso
f P f P (9)
b) Hoặc đạt đến số vòng lặp tối đa Pso_max
Thuật toán PSO tốn phân cụm mờ sau: Thuật toán 2. Thuật toán Tối ưu bầy đàn PSO
Bước Đầu vào: Bộ liệu , K, i=1,
i i
X x x R N, Np, c1, c2, w, Pso,
Pso_max
Bước Khởi tạo: Khởi tao bầy đàn với Np phần tử ngẫu nhiên (P, Pbest Alà ma trận kích thước K × C)
Bước LOOP =1.
3.1. Đối với phần tử thứ i Np phần tử: - Tính tốn f(Pi) sử dụng cơng thức (8)
- Tính tốn Pbesti
- Cập nhật Gbest
- Cập nhật Ai sử dụng công thức (6)
- Cập nhật Pi sử dụng cơng thức (7)
3.2. Tính tốn Terminal_condition 3.3.=+1..
Bước WHILE (Terminal_condition<Pso or >Pso_max)
(7)2.3 Kỹ thuật Máy vector hỗ trợ
Thuật tốn Máy vectơ hỗ trợ SVM tìm VN Vapnik C Cortes năm 1995 SVM thuật toán phân lớp nhị phân nhận liệu đầu vào phân loại chúng vào hai lớp khác
Cho tập liệu huấn luyện XTR={(xi, yi)}, xiRD, yi=1, i=1÷N, N kích thước tập XTR, yi mang giá trị −1, xác định lớp điểm xi, xi vector thực D chiều Ta cần tìm siêu phẳng có lề lớn chia tách điểm có yi=1 điểm có yi=-1 Mỗi siêu phẳng viết dạng tập hợp điểm x thỏa mãn w.x-b=0, với “.” ký hiệu tích vơ hướng w vectơ pháp tuyến siêu phẳng Tham số
w
b
xác định khoảng cách gốc tọa độ siêu phẳng theo hướng vectơ pháp tuyến w
Chúng ta cần chọn w b để cực đại hóa lề, hay khoảng cách hai siêu mặt song song xa phân chia liệu Các siêu mặt xác định w.x-b=1 w.x-b=-1 (xem hình 1)
Hình 1 Siêu phẳng với lề cực đại cho SVM phân lớp liệu thành hai lớp
Tuy nhiên, thực tế, liệu khơng có khả phân lớp tuyến tính, khó xác định siêu phẳng Để giải vấn đề này, SVM sử dụng số hàm nhân khác Trong báo này, sử dụng hàm nhân Gauss để huấn luyện mơ hình SVM sau sử dụng hỗ trợ vector từ tập liệu huấn luyện pha huấn luyện Trong pha kiểm tra, mơ hình SVM sử dụng để phân lớp vector