Li (2004) đã đề xuất phương pháp sử dụng GA để phát hiện xâm nhập mạng dị thường, phương pháp này được sử dụng để định lượng và phân loại các đặc trưng của dữ liệu mạng nhằm mục tiêu t[r]
(1)CẢI TIẾN PHÁT HIỆN TẤN CÔNG SỬ DỤNG VĂN PHẠM NỐI CÂY TRONG LẬP TRÌNH GEN
Vũ Văn Cảnha,b*, Hoàng Tuấn Hảoa, Nguyễn Văn Hoànb
aKhoa Công nghệ Thông tin, Trường Đại học Kỹ thuật Lê Quý Đôn, Hà Nội, Việt Nam bKhoa Công nghệ Thông tin, Trường Đại học Thông tin Liên Lạc, Khánh Hòa, Việt Nam
Lịch sử báo
Nhận ngày 07 tháng 01 năm 2017 | Chỉnh sửa ngày 13 tháng 07 năm 2017 Chấp nhận đăng ngày 20 tháng 07 năm 2017
Tóm tắt
Những năm gần vấn đề an ninh mạng trở nên cấp thiết tác động lớn tới hiệu hoạt động mạng máy tính đại Phát ngăn chặn cơng mạng máy tính đã chủ điểm nghiên cứu nhiều nhà nghiên cứu giới Một biện pháp bảo đảm an toàn cho hệ thống mạng Hệ thống phát xâm nhập trái phép Tuy nhiên, biện pháp tỏ không hiệu tốn kém, độ tin cậy khơng cao khơng có khả phát công, xâm nhập mới, chưa biết trước dấu hiệu Kỹ thuật học máy sử dụng việc phát công, xâm nhập khắc phục được hạn chế ngày thể tính ưu việt phương pháp trước Trong bài báo này, sử dụng kỹ thuật lập trình Gen (Genetic Programming - GP) để cải thiện chất lượng phát cơng mạng Trong thí nghiệm, chúng tơi sử dụng GP chuẩn và kỹ thuật văn phạm nối (TAG3P), tiến hành liệu nhân tạo nhóm tác giả Pham, Nguyen, Nguyen (2014) đề xuất Trên sở kết thí nghiệm so sánh với một số kỹ thuật đề xuất trước, nhận thấy ứng dụng GP TAG3P phát công đạt hiệu tốt phương pháp trước
Từ khóa: Lập trình Gen; Phát xâm nhập; Phân loại công; Văn phạm nối
1 GIỚI THIỆU CHUNG
Ngày mạng máy tính trở thành phần sống đại ngày đóng vai trị quan trọng hầu hết lĩnh vực sống từ kinh tế, trị, quân sự, lĩnh vực giải trí đến giáo dục đào tạo… Cùng với phát triển mạng máy tính, nguy an tồn, an ninh thông tin ngày cao Ngày có nhiều cơng vào khơng gian mạng để truy cập trái phép vào thông tin hệ thống, lạm dụng tài nguyên mạng Việc lạm dụng dẫn tới hậu khiến cho tài nguyên mạng trở lên không đáng tin cậy không sử dụng Một số
(2)
tấn cơng dẫn đến phá hủy hệ thống, đánh cắp thông tin, hay làm ngừng hoạt động hệ thống Nhìn chung cơng thường gây nên tổn thương đến thuộc tính bảo mật thơng tin hệ thống Vì vậy, vấn đề đảm bảo an ninh, an tồn thơng tin sử dụng môi trường mạng cần phải đặc biệt quan tâm Phát công, xâm nhập mạng vấn đề lớn nhiều nhà nghiên cứu quan tâm Trong thực tế, có nhiều nguy xuất phát từ cơng mạng Vì vậy, hệ thống khác thiết kế xây dựng để ngăn cản công này, đặc biệt hệ thống phát xâm nhập (Intrusion Detection System - IDS) giúp mạng chống lại cơng từ bên ngồi Mục tiêu IDS cung cấp tường bảo vệ, giúp hệ thống mạng có khả chống lại cơng từ bên ngồi Các IDS sử dụng để phát việc sử dụng loại truyền thơng mạng hệ thống máy tính độc hại, nhiệm vụ mà tường lửa quy ước thực Devarakonda Pamidi (2012) đề xuất việc phát công dựa giả thiết hành vi kẻ công khác với người sử dụng hợp lệ Phát xâm nhập triển khai hệ thống phát xâm nhập ngày có nhiều hệ thống phát xâm nhập thương mại hiệu Hình mơ tả vị trí điển hình IDS hệ thống mạng
Hình Vị trí IDS giám sát mạng
(3)mạng Internet tiềm tàng kẻ công từ bên ngồi với phạm vi từ kẻ cơng nghiệp dư đến tổ chức tội phạm, khủng bố quốc tế, phủ thù địch Có hai nhóm hệ thống phát công phát lạm dụng phát bất thường Hệ phát lạm dụng thực dị tìm cơng qua việc so khớp với mẫu biết, hệ thống phát bất thường nhận dạng bất thường từ hành vi mạng bình thường Hệ thống phát lai tổ hợp hệ thống phát lạm dụng bất thường
Hệ thống phát công dựa bất thường cố gắng xác định độ lệch so với mẫu sử dụng thông thường thiết lập trước để đánh dấu cơng Vì vậy, hệ thống dựa bất thường cần huấn luyện dựa hành vi thông thường Các kỹ thuật học máy khác sử dụng rộng rãi để phục vụ cho mục đích Khi đó, với gói tin bắt được, sau qua cơng đoạn tiền xử lý chọn lựa thuộc tính phân lớp phân lớp (classifier) huấn luyện Việc
huấn luyện phân lớp thực qua pha huấn luyện kiểm tra với tập liệu huấn luyện lưu trữ
Đã có nhiều kỹ thuật phát công học giả đề xuất phương pháp học máy, mạng nơ-ron… Trong viết này, chúng tơi trình bày nghiên cứu kỹ thuật lập trình Gen phân tích thuộc tính kiểu cơng mạng để từ đề xuất ứng dụng lập trình Gen nhằm nâng cao khả phát công mạng Bố cục báo trình bày sau: Sau Mục giới thiệu, Mục kiến thức tảng giới thiệu công trình nghiên cứu trước đây, liệu huấn luyện KDD’99, tổng quan lập trình Gen; Mục giới thiệu mơ hình đề xuất phát cơng dựa GP/TAG3P, cài đặt thử nghiệm phân tích đánh giá kết đạt
2 KIẾN THỨC NỀN TẢNG 2.1 Một số nghiên cứu trước
(4)bản khác Botha Solms (2004); Leung, So Yam (1992); Li (2004); Peng, Leckie, Kotagiri (2007) sử dụng GA GP để tìm quy tắc phân loại Bridges Vaughn (2000); Gomez Dasgupta (2002); Lu Traore (2004) sử dụng GA GP sử dụng để chọn đặc trưng yêu cầu xác định tham số tối ưu tối thiểu số chức lõi phương pháp tính tốn thơng minh khác để tiếp nhận quy tắc dị tìm cơng
Crosbie Spafford (1995) đề xuất giải pháp sử dụng GA để phát xâm nhập, áp dụng công nghệ đa tác nhân sử dụng GP để phát mạng bất thường thông qua việc giám sát số tham số liệu dấu vết mạng Các phương pháp đề xuất có lợi sử dụng nhiều tác nhân tự trị nhỏ khó khăn giao tiếp tác nhân khởi tạo không tiến trình huấn luyện ảnh hưởng lớn đến thời gian thực
Li (2004) đề xuất phương pháp sử dụng GA để phát xâm nhập mạng dị thường, phương pháp sử dụng để định lượng phân loại đặc trưng liệu mạng nhằm mục tiêu tìm quy tắc phân loại Tuy nhiên, định lượng đặc trưng làm tăng tốc độ tìm kiếm kết thí nghiệm không hiệu Abdullah, Abd-alghafar, Gouda, Abd-Alhafez (2009); Anup Chetan (2008) đề xuất thuật toán dựa GA để phân loại tất loại công Smurf sử dụng liệu huấn luyện với tỷ lệ phát sai thấp (khoảng 0.2%) tỷ lệ phát hầu hết 100%
(5)Gong, Zulkernine, Abolmaesumi (2005) đề xuất sử dụng GA để thực phát công mạng đưa phần mềm thực thi với phương pháp tìm tập quy tắc phân loại sử dụng tảng hỗ trợ tin cậy để xem xét hàm mục tiêu Abdullah ctg (2009) sử dụng thuật toán đánh giá hiệu suất dựa GA để phát xâm nhập mạng, phương pháp sử dụng lý thuyết thông tin để lọc lưu lượng mạng Faraoun, Boukelif, Algeria (2006) đề xuất phương pháp phân loại công sử dụng GP, kỹ thuật đề xuất bao gồm kết hợp tiến hóa quần thể với chuyển đổi tuyến tính tập liệu đầu vào phân loại, sau ánh xạ chúng tới không gian với số chiều giảm để đạt khác biệt tối đa lớp
Ahmad, Hussain, Alghamdi, Alelaiwi (2013) sử dụng kỹ thuật VSM để cải thiện hiệu suất kỹ thuật phát công cách lựa chọn đặc trưng với trị số đặc trưng cao PCA (Principal Component Analysis), nghiên cứu áp dụng GA để tìm kiếm thành phần di truyền ban đầu mà tạo tập đặc trưng với độ nhạy tối ưu phân biệt cao
2.2 Bộ liệu KDDCup 99
Năm 1999, Stolfo đề xuất liệu KDD’99 (UCI KDD Archive, 1999) dựa liệu bắt chương trình đánh giá hệ thống phát xâm nhập DARPA’98 Bộ liệu gồm gần triệu ghi, ghi có 41 thuộc tính gán nhãn bình thường hay dạng cơng đặc trưng KDD’99 sử dụng rộng rãi để đánh giá kỹ thuật phát bất thường Các dạng cơng phân thành nhóm sau:
Tấn công từ chối dịch vụ (DoS): Là thủ đoạn nhằm ngăn cản người dùng hợp pháp truy cập sử dụng vào dịch vụ đó, DoS làm ngưng hoạt động hệ thống mạng, máy tính Về chất nhằm chiếm dụng lượng lớn tài nguyên mạng băng thông, nhớ làm khả xử lý yêu cầu dịch vụ từ khách hàng
(6)thường cố gắng để đạt quyền truy nhập cao vào hệ thống cách bất hợp pháp Một cách phổ biến lớp công thực phương pháp gây tràn đệm
Remote to Local Attack (R2L): Kẻ công cố gắng đạt quyền truy cập vào hệ thống máy tính việc gửi gói tin tới hệ thống thông qua mạng Một vài cách phổ biến mà loại thực đốn mật thơng qua phương pháp từ điển Brute-force, FTP Write…
Probing Attack: Kẻ công thực quét mạng máy tính để tìm điểm yếu dễ cơng mà thơng qua tin tặc khai thác hệ thống Một cách phổ biến loại công thực thông qua việc quét cổng hệ thống máy tính
Một số chuyên gia cho hầu hết công biến thể công biết dấu hiệu cơng biết đủ để nhận dạng biến thể Bộ liệu huấn luyện KDD'99 bao gồm 24 loại công khác (Bảng 1) có thêm 14 loại công thêm vào liệu kiểm tra Dựa vào đặc trưng cơng phân loại KDD'99 thành nhóm sau:
Đặc trưng bản: Gồm tất thuộc tính có từ kết nối TCP/IP
Đặc trưng lưu lượng: Gồm đặc trưng tính tốn với mối liên hệ với khoảng thời gian
Đặc trưng same host: Chỉ kiểm tra kết nối khoảng thời gian giây có host đích kết nối hành thống kê liên quan đến hành vi giao thức, dịch vụ, …
Đặc trưng same service: Chỉ kiểm tra kết nối khoảng thời gian giây có dịch vụ kết nối hành
(7)nhiều kết nối với số host khoảng thời gian ngắn, nhiên công R2L U2R nhúng đoạn gói liệu thường xuyên bao gồm kết nối Để phát loại công này, cần số đặc trưng để tìm kiếm hành vi nghi ngờ phần liệu, chẳng hạn số lần cố gắng đăng nhập thất bại Đây gọi đặc trưng nội dung
Hai loại kể đặc trưng lưu lượng gọi dựa thời gian Tuy nhiên, có số cơng thăm dị qt host (cổng) sử dụng khoảng thời gian lớn giây, phút Kết công không tạo mẫu công khoảng thời gian giây
Bảng Phân loại 24 loại công KDDCup 99 Loại Các công liệu KDDCup 99
Probe Ipsweep, Nmap, Portsweep, Satan
DoS Back, Land, Neptune, Pod, Smurf, Teardrop
U2R Buffer_overflow, Loadmodule, Perl, Rootkit
R2L Ftp_write, Guess_passwd, Imap, Multihop, Phf, Spy, Warezclient, Warezmaster
2.3 Lập trình Gen
2.3.1 Thuật tốn lập trình Gen
(8)tập số) Các function hàm tốn học, tốn tử… Ví dụ, GP sử dụng để tiến hóa quy tắc từ quy tắc tổng quát, quy tắc biểu diễn dạng if condition1 and condition2 and and conditionN then attack Trong trường hợp này, function tương ứng với toán tử and terminal condition (như:
condition1, condition2… conditionN)
GP tạo ngẫu nhiên quần thể giải pháp ban đầu, sau áp dụng tốn tử di truyền quần thể để tạo quần thể Các toán tử di truyền bao gồm tái sinh (Reproduction), lai ghép (Crossover), đột biến (Mutation), loại bỏ theo điều kiện (Dropping condition) … Quá trình tiến hóa từ quần thể sang quần thể
gọi hệ Giải thuật GP mô tả tổng quát sau:
Bước Tạo ngẫu nhiên quần thể chương trình, quy tắc, sử dụng biểu thức hồi quy để cung cấp khởi tạo quần thể ban đầu;
Bước Đánh giá độ thích nghi chương trình, quy tắc hàm thích nghi định nghĩa để đo khả quy tắc chương trình để giải vấn đề;
Bước 3. Sử dụng toán tử tái sinh để chép chương trình vào hệ mới;
Bước 4. Tạo quần thể với toán tử lai ghép, đột biến toán tử khác từ tập lựa chọn ngẫu nhiên cá thể cha mẹ;
Bước 5. Lặp lại từ Bước trở quần thể thỏa mãn tiêu chuẩn dừng định nghĩa trước số cố định hệ hoàn thành;
(9)2.3.2 Các toán tử di truyền
Trong GP, để thực toán tử lai ghép trước hết chép ngẫu nhiên hai cha mẹ từ quần thể ban đầu, sau hai điểm lai ghép chọn ngẫu nhiên hai cha mẹ Thực hoán đổi hai nhánh hai cha mẹ điểm lựa chọn để tạo hai Cây đạt thường khác với cha mẹ chúng kích thước hình dáng Hình mơ tả tốn tử lai ghép đa thức
1
2 )*
( x x x x x
2 1 1* x x x x x
, kết
quả thu hai đa thức
1 ) ( x x x x
2 1 * * x x x x x x
Hình Sử dụng tốn tử lai ghép GP
Trong toán tử đột biến, cha/mẹ chép từ quần thể ban đầu, sau chọn ngẫu nhiên điểm đột biến (nút con) Sau đó, nút thay nút tạo ngẫu nhiên Hình mô tả thao tác đột biến đa thức
2 1 * ) (x x x
x x
kết sau đột biến là
2 1 * ) ( * x x x x x x
Hình Sử dụng toán tử đột biến GP
Tốn tử “dropping condition” đề xuất để tiến hóa quy tắc mới, toán tử
(10)vậy điều kiện không cần thiết phải xem xét lại quy tắc chọn Ví dụ, quy tắc: if condition1 and condition2 and condition3 then attack đổi thành: if
condition1 and condition2 and any then attack.
2.3.3 Hàm thích nghi
Để lựa chọn cá thể cho thao tác lai ghép, tái tạo đột biến, đánh giá độ thích nghi cá thể việc giải tốn, hàm tính giá trị thích nghi phương pháp để đánh giá độ thích nghi cá thể quần thể Hàm thích nghi nhằm đảm bảo cho tiến hóa hướng tới tối ưu cách tính tốn giá trị thích nghi cho cá thể quần thể Giá trị thích nghi đánh giá hiệu suất cá thể quần thể hệ Độ thích nghi xác định sở đánh giá chương trình so với kết tập liệu huấn luyện Độ tốt cá thể thường chuẩn hóa trước lựa chọn cho phép toán di truyền (Koza, 1992)
2.4 Lập trình Gen định hướng văn phạm nối
Hệ lập trình Gen định hướng văn phạm nối (TAG3P) sử dụng văn phạm nối với văn phạm phi ngữ cảnh để tạo ràng buộc cú pháp độ sai lệch tìm kiếm chương trình tiến hóa TAG3P bao gồm tất thuộc tính GP chuẩn dựa biểu diễn dạng hình khác
Trong TAG3P, cấu trúc văn phạm xác định tập hợp