1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cải tiến phát hiện tấn công sử dụng văn phạm nối cây trong lập trình gen

22 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 7, Số 3, 2017 379–400 379 CẢI TIẾN PHÁT HIỆN TẤN CƠNG SỬ DỤNG VĂN PHẠM NỐI CÂY TRONG LẬP TRÌNH GEN Vũ Văn Cảnha,b*, Hoàng Tuấn Hảoa, Nguyễn Văn Hoànb a Khoa Công nghệ Thông tin, Trường Đại học Kỹ thuật Lê Quý Đôn, Hà Nội, Việt Nam Khoa Công nghệ Thông tin, Trường Đại học Thông tin Liên Lạc, Khánh Hòa, Việt Nam b Lịch sử báo Nhận ngày 07 tháng 01 năm 2017 | Chỉnh sửa ngày 13 tháng 07 năm 2017 Chấp nhận đăng ngày 20 tháng 07 năm 2017 Tóm tắt Những năm gần vấn đề an ninh mạng trở nên cấp thiết tác động lớn tới hiệu hoạt động mạng máy tính đại Phát ngăn chặn cơng mạng máy tính chủ điểm nghiên cứu nhiều nhà nghiên cứu giới Một biện pháp bảo đảm an toàn cho hệ thống mạng Hệ thống phát xâm nhập trái phép Tuy nhiên, biện pháp tỏ không hiệu tốn kém, độ tin cậy khơng cao khơng có khả phát công, xâm nhập mới, chưa biết trước dấu hiệu Kỹ thuật học máy sử dụng việc phát công, xâm nhập khắc phục hạn chế ngày thể tính ưu việt phương pháp trước Trong báo này, sử dụng kỹ thuật lập trình Gen (Genetic Programming - GP) để cải thiện chất lượng phát cơng mạng Trong thí nghiệm, sử dụng GP chuẩn kỹ thuật văn phạm nối (TAG3P), tiến hành liệu nhân tạo nhóm tác giả Pham, Nguyen, Nguyen (2014) đề xuất Trên sở kết thí nghiệm so sánh với số kỹ thuật đề xuất trước, nhận thấy ứng dụng GP TAG3P phát công đạt hiệu tốt phương pháp trước Từ khóa: Lập trình Gen; Phát xâm nhập; Phân loại công; Văn phạm nối GIỚI THIỆU CHUNG Ngày mạng máy tính trở thành phần sống đại ngày đóng vai trị quan trọng hầu hết lĩnh vực sống từ kinh tế, trị, quân sự, lĩnh vực giải trí đến giáo dục đào tạo… Cùng với phát triển mạng máy tính, nguy an tồn, an ninh thơng tin ngày cao Ngày có nhiều cơng vào không gian mạng để truy cập trái phép vào thông tin hệ thống, lạm dụng tài nguyên mạng Việc lạm dụng dẫn tới hậu khiến cho tài nguyên mạng trở lên không đáng tin cậy không sử dụng Một số * Tác giả liên hệ: Email: canhvuvan@yahoo.com 380 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] cơng dẫn đến phá hủy hệ thống, đánh cắp thông tin, hay làm ngừng hoạt động hệ thống Nhìn chung công thường gây nên tổn thương đến thuộc tính bảo mật thơng tin hệ thống Vì vậy, vấn đề đảm bảo an ninh, an tồn thơng tin sử dụng môi trường mạng cần phải đặc biệt quan tâm Phát công, xâm nhập mạng vấn đề lớn nhiều nhà nghiên cứu quan tâm Trong thực tế, có nhiều nguy xuất phát từ công mạng Vì vậy, hệ thống khác thiết kế xây dựng để ngăn cản công này, đặc biệt hệ thống phát xâm nhập (Intrusion Detection System - IDS) giúp mạng chống lại cơng từ bên ngồi Mục tiêu IDS cung cấp tường bảo vệ, giúp hệ thống mạng có khả chống lại cơng từ bên ngồi Các IDS sử dụng để phát việc sử dụng loại truyền thông mạng hệ thống máy tính độc hại, nhiệm vụ mà tường lửa quy ước thực Devarakonda Pamidi (2012) đề xuất việc phát công dựa giả thiết hành vi kẻ công khác với người sử dụng hợp lệ Phát xâm nhập triển khai hệ thống phát xâm nhập ngày có nhiều hệ thống phát xâm nhập thương mại hiệu Hình mơ tả vị trí điển hình IDS hệ thống mạng Hình Vị trí IDS giám sát mạng Hệ thống phát công công cụ giám sát kiện diễn hệ thống mạng máy tính phân tích chúng thành dấu hiệu mối đe dọa an ninh Một cơng gây từ bên bên tổ chức Tấn công từ bên công khởi tạo thực thể bên vành đai an ninh (tay trong), nghĩa thực thể phép truy cập vào tài nguyên hệ thống sử dụng theo cách không chấp nhận người cấp quyền Tấn cơng từ bên ngồi khởi tạo từ bên ngồi vành đai an ninh người dùng trái phép không hợp pháp hệ thống Trên Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn 381 mạng Internet ln tiềm tàng kẻ cơng từ bên ngồi với phạm vi từ kẻ công nghiệp dư đến tổ chức tội phạm, khủng bố quốc tế, phủ thù địch Có hai nhóm hệ thống phát công phát lạm dụng phát bất thường Hệ phát lạm dụng thực dị tìm cơng qua việc so khớp với mẫu biết, hệ thống phát bất thường nhận dạng bất thường từ hành vi mạng bình thường Hệ thống phát lai tổ hợp hệ thống phát lạm dụng bất thường Hệ thống phát công dựa bất thường cố gắng xác định độ lệch so với mẫu sử dụng thông thường thiết lập trước để đánh dấu cơng Vì vậy, hệ thống dựa bất thường cần huấn luyện dựa hành vi thông thường Các kỹ thuật học máy khác sử dụng rộng rãi để phục vụ cho mục đích Khi đó, với gói tin bắt được, sau qua công đoạn tiền xử lý chọn lựa thuộc tính phân lớp phân lớp (classifier) huấn luyện Việc huấn luyện phân lớp thực qua pha huấn luyện kiểm tra với tập liệu huấn luyện lưu trữ Đã có nhiều kỹ thuật phát công học giả đề xuất phương pháp học máy, mạng nơ-ron… Trong viết này, chúng tơi trình bày nghiên cứu kỹ thuật lập trình Gen phân tích thuộc tính kiểu cơng mạng để từ đề xuất ứng dụng lập trình Gen nhằm nâng cao khả phát công mạng Bố cục báo trình bày sau: Sau Mục giới thiệu, Mục kiến thức tảng giới thiệu cơng trình nghiên cứu trước đây, liệu huấn luyện KDD’99, tổng quan lập trình Gen; Mục giới thiệu mơ hình đề xuất phát công dựa GP/TAG3P, cài đặt thử nghiệm phân tích đánh giá kết đạt KIẾN THỨC NỀN TẢNG 2.1 Một số nghiên cứu trước Hiện có nhiều nhà nghiên cứu đề xuất giải pháp áp dụng kỹ thuật tính tốn thơng minh phát cơng mạng Một số nghiên cứu sử dụng giải thuật di truyền (GA) lập trình Gen (GP) để dị tìm loại công công kịch 382 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] khác Botha Solms (2004); Leung, So Yam (1992); Li (2004); Peng, Leckie, Kotagiri (2007) sử dụng GA GP để tìm quy tắc phân loại Bridges Vaughn (2000); Gomez Dasgupta (2002); Lu Traore (2004) sử dụng GA GP sử dụng để chọn đặc trưng yêu cầu xác định tham số tối ưu tối thiểu số chức lõi phương pháp tính tốn thơng minh khác để tiếp nhận quy tắc dị tìm cơng Crosbie Spafford (1995) đề xuất giải pháp sử dụng GA để phát xâm nhập, áp dụng công nghệ đa tác nhân sử dụng GP để phát mạng bất thường thông qua việc giám sát số tham số liệu dấu vết mạng Các phương pháp đề xuất có lợi sử dụng nhiều tác nhân tự trị nhỏ khó khăn giao tiếp tác nhân khởi tạo khơng tiến trình huấn luyện ảnh hưởng lớn đến thời gian thực Li (2004) đề xuất phương pháp sử dụng GA để phát xâm nhập mạng dị thường, phương pháp sử dụng để định lượng phân loại đặc trưng liệu mạng nhằm mục tiêu tìm quy tắc phân loại Tuy nhiên, định lượng đặc trưng làm tăng tốc độ tìm kiếm kết thí nghiệm khơng hiệu Abdullah, Abd-alghafar, Gouda, Abd-Alhafez (2009); Anup Chetan (2008) đề xuất thuật toán dựa GA để phân loại tất loại công Smurf sử dụng liệu huấn luyện với tỷ lệ phát sai thấp (khoảng 0.2%) tỷ lệ phát hầu hết 100% Lu Traore (2004) sử dụng GP để phân loại tập liệu lịch sử mạng, họ sử dụng tảng hỗ trợ tin cậy hàm mục tiêu phân loại xác vài loại xâm nhập mạng Tuy nhiên việc sử dụng GP họ để tạo thủ tục thực thi khó thủ tục huấn luyện tập liệu yêu cầu thời gian nhiều Wong, Leung, Cheng (2000) sử dụng GA để phát hành vi mạng bất thường thông tin lịch sử mạng Một số đặc trưng mạng định nghĩa với loại công mạng dựa thông tin tương hỗ đặc trưng mạng dạng cơng, sau sử dụng đặc trưng để tạo cấu trúc quy tắc tuyến tính cho GA Phương pháp sử dụng thơng tin tương hỗ kết quy tắc tuyến tính có hiệu nâng cao tỷ lệ phát giảm thời gian thực hiện, nhiên họ coi đặc trưng rời rạc Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn 383 Gong, Zulkernine, Abolmaesumi (2005) đề xuất sử dụng GA để thực phát công mạng đưa phần mềm thực thi với phương pháp tìm tập quy tắc phân loại sử dụng tảng hỗ trợ tin cậy để xem xét hàm mục tiêu Abdullah ctg (2009) sử dụng thuật toán đánh giá hiệu suất dựa GA để phát xâm nhập mạng, phương pháp sử dụng lý thuyết thông tin để lọc lưu lượng mạng Faraoun, Boukelif, Algeria (2006) đề xuất phương pháp phân loại công sử dụng GP, kỹ thuật đề xuất bao gồm kết hợp tiến hóa quần thể với chuyển đổi tuyến tính tập liệu đầu vào phân loại, sau ánh xạ chúng tới khơng gian với số chiều giảm để đạt khác biệt tối đa lớp Ahmad, Hussain, Alghamdi, Alelaiwi (2013) sử dụng kỹ thuật VSM để cải thiện hiệu suất kỹ thuật phát công cách lựa chọn đặc trưng với trị số đặc trưng cao PCA (Principal Component Analysis), nghiên cứu áp dụng GA để tìm kiếm thành phần di truyền ban đầu mà tạo tập đặc trưng với độ nhạy tối ưu phân biệt cao 2.2 Bộ liệu KDDCup 99 Năm 1999, Stolfo đề xuất liệu KDD’99 (UCI KDD Archive, 1999) dựa liệu bắt chương trình đánh giá hệ thống phát xâm nhập DARPA’98 Bộ liệu gồm gần triệu ghi, ghi có 41 thuộc tính gán nhãn bình thường hay dạng cơng đặc trưng KDD’99 sử dụng rộng rãi để đánh giá kỹ thuật phát bất thường Các dạng cơng phân thành nhóm sau:  Tấn công từ chối dịch vụ (DoS): Là thủ đoạn nhằm ngăn cản người dùng hợp pháp truy cập sử dụng vào dịch vụ đó, DoS làm ngưng hoạt động hệ thống mạng, máy tính Về chất nhằm chiếm dụng lượng lớn tài nguyên mạng băng thông, nhớ làm khả xử lý yêu cầu dịch vụ từ khách hàng  User to Root Attack (U2R): Kẻ công với quyền người dùng bình TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 384 thường cố gắng để đạt quyền truy nhập cao vào hệ thống cách bất hợp pháp Một cách phổ biến lớp công thực phương pháp gây tràn đệm  Remote to Local Attack (R2L): Kẻ công cố gắng đạt quyền truy cập vào hệ thống máy tính việc gửi gói tin tới hệ thống thơng qua mạng Một vài cách phổ biến mà loại thực đốn mật thơng qua phương pháp từ điển Brute-force, FTP Write…  Probing Attack: Kẻ công thực qt mạng máy tính để tìm điểm yếu dễ cơng mà thơng qua tin tặc khai thác hệ thống Một cách phổ biến loại công thực thông qua việc quét cổng hệ thống máy tính Một số chuyên gia cho hầu hết công biến thể công biết dấu hiệu công biết đủ để nhận dạng biến thể Bộ liệu huấn luyện KDD'99 bao gồm 24 loại cơng khác (Bảng 1) có thêm 14 loại công thêm vào liệu kiểm tra Dựa vào đặc trưng cơng phân loại KDD'99 thành nhóm sau:  Đặc trưng bản: Gồm tất thuộc tính có từ kết nối TCP/IP  Đặc trưng lưu lượng: Gồm đặc trưng tính tốn với mối liên hệ với khoảng thời gian  Đặc trưng same host: Chỉ kiểm tra kết nối khoảng thời gian giây có host đích kết nối hành thống kê liên quan đến hành vi giao thức, dịch vụ, …  Đặc trưng same service: Chỉ kiểm tra kết nối khoảng thời gian giây có dịch vụ kết nối hành  Đặc trưng nội dung: Khác với hầu hết công DoS, Probing, R2L U2R khơng có mẫu cơng Bởi DoS Probing liên quan đến Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn 385 nhiều kết nối với số host khoảng thời gian ngắn, nhiên cơng R2L U2R nhúng đoạn gói liệu thường xuyên bao gồm kết nối Để phát loại công này, cần số đặc trưng để tìm kiếm hành vi nghi ngờ phần liệu, chẳng hạn số lần cố gắng đăng nhập thất bại Đây gọi đặc trưng nội dung Hai loại kể đặc trưng lưu lượng gọi dựa thời gian Tuy nhiên, có số cơng thăm dị qt host (cổng) sử dụng khoảng thời gian lớn giây, phút Kết công không tạo mẫu công khoảng thời gian giây Bảng Phân loại 24 loại công KDDCup 99 2.3 Loại Các công liệu KDDCup 99 Probe Ipsweep, Nmap, Portsweep, Satan DoS Back, Land, Neptune, Pod, Smurf, Teardrop U2R Buffer_overflow, Loadmodule, Perl, Rootkit R2L Ftp_write, Guess_passwd, Imap, Multihop, Phf, Spy, Warezclient, Warezmaster Lập trình Gen 2.3.1 Thuật tốn lập trình Gen Lập trình Gen (GP) mở rộng thuật toán di truyền (GA), phương pháp tìm kiếm tổng quát sử dụng phép loại suy từ chọn lọc tự nhiên tiến hóa Sự khác biệt GP GA phương pháp mã hóa giải pháp tìm kiếm, GA mã hóa giải pháp tiềm cho vấn đề quần thể chuỗi nhị phân có chiều dài cố định gọi nhiễm sắc thể, sau áp dụng thao tác di truyển lên nhiễm sắc thể để tạo nhiễm sắc thể Ngược lại với GA, GP mã hóa giải pháp đa tiềm cho vấn đề cụ thể quần thể chương trình hàm, chương trình biểu diễn dạng phân tích cú pháp Thơng thường, phân tích cú pháp bao gồm nút nội nút Các nút nội gọi nguyên hàm (function), nút gọi ký hiệu kết thúc (terminal) Các terminal xem đầu vào cho vấn đề cụ thể (các biến độc lập TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 386 tập số) Các function hàm tốn học, tốn tử… Ví dụ, GP sử dụng để tiến hóa quy tắc từ quy tắc tổng quát, quy tắc biểu diễn dạng if condition1 and condition2 and and conditionN then attack Trong trường hợp này, function tương ứng với toán tử and terminal condition (như: condition1, condition2… conditionN) GP tạo ngẫu nhiên quần thể giải pháp ban đầu, sau áp dụng toán tử di truyền quần thể để tạo quần thể Các toán tử di truyền bao gồm tái sinh (Reproduction), lai ghép (Crossover), đột biến (Mutation), loại bỏ theo điều kiện (Dropping condition) … Quá trình tiến hóa từ quần thể sang quần thể gọi hệ Giải thuật GP mô tả tổng quát sau:  Bước Tạo ngẫu nhiên quần thể chương trình, quy tắc, sử dụng biểu thức hồi quy để cung cấp khởi tạo quần thể ban đầu;  Bước Đánh giá độ thích nghi chương trình, quy tắc hàm thích nghi định nghĩa để đo khả quy tắc chương trình để giải vấn đề;  Bước Sử dụng tốn tử tái sinh để chép chương trình vào hệ mới;  Bước Tạo quần thể với toán tử lai ghép, đột biến toán tử khác từ tập lựa chọn ngẫu nhiên cá thể cha mẹ;  Bước Lặp lại từ Bước trở quần thể thỏa mãn tiêu chuẩn dừng định nghĩa trước số cố định hệ hoàn thành;  Bước Giải pháp cho vấn đề chương trình di truyền với giá trị thích nghi cho tất hệ Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hồn 387 2.3.2 Các tốn tử di truyền Trong GP, để thực toán tử lai ghép trước hết chép ngẫu nhiên hai cha mẹ từ quần thể ban đầu, sau hai điểm lai ghép chọn ngẫu nhiên hai cha mẹ Thực hoán đổi hai nhánh hai cha mẹ điểm lựa chọn để tạo hai Cây đạt thường khác với cha mẹ chúng kích thước hình dáng Hình mơ tả tốn tử lai ghép đa thức ( x1  x2 ) * x2 x1 * x2  x1 , kết x1  x1 x1  x2 thu hai đa thức ( x1  x2 ) x1 * x2  x1 x1  x1 x1  x2 * x2 Hình Sử dụng tốn tử lai ghép GP Trong toán tử đột biến, cha/mẹ chép từ quần thể ban đầu, sau chọn ngẫu nhiên điểm đột biến (nút con) Sau đó, nút thay nút tạo ngẫu nhiên Hình mơ tả thao tác đột biến đa thức x1  x1 ( x1  x2 ) * x2 kết sau đột biến x1 * x2  x1 ( x1  x2 ) * x2 Hình Sử dụng toán tử đột biến GP Toán tử “dropping condition” đề xuất để tiến hóa quy tắc mới, toán tử lựa chọn ngẫu nhiên điều kiện quy tắc sau thay đổi thành bất kỳ, 388 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] điều kiện khơng cần thiết phải xem xét lại quy tắc chọn Ví dụ, quy tắc: if condition1 and condition2 and condition3 then attack đổi thành: if condition1 and condition2 and any then attack 2.3.3 Hàm thích nghi Để lựa chọn cá thể cho thao tác lai ghép, tái tạo đột biến, đánh giá độ thích nghi cá thể việc giải tốn, hàm tính giá trị thích nghi phương pháp để đánh giá độ thích nghi cá thể quần thể Hàm thích nghi nhằm đảm bảo cho tiến hóa hướng tới tối ưu cách tính tốn giá trị thích nghi cho cá thể quần thể Giá trị thích nghi đánh giá hiệu suất cá thể quần thể hệ Độ thích nghi xác định sở đánh giá chương trình so với kết tập liệu huấn luyện Độ tốt cá thể thường chuẩn hóa trước lựa chọn cho phép toán di truyền (Koza, 1992) 2.4 Lập trình Gen định hướng văn phạm nối Hệ lập trình Gen định hướng văn phạm nối (TAG3P) sử dụng văn phạm nối với văn phạm phi ngữ cảnh để tạo ràng buộc cú pháp độ sai lệch tìm kiếm chương trình tiến hóa TAG3P bao gồm tất thuộc tính GP chuẩn dựa biểu diễn dạng hình khác Trong TAG3P, cấu trúc văn phạm xác định tập hợp   cấu trúc quần thể dẫn xuất từ văn phạm Việc lượng giá độ tốt cá thể thực cách tạo dẫn xuất tương ứng từ dẫn xuất TAG, sau đánh giá biểu thức dẫn xuất Khơng gian tìm kiếm xác định văn phạm, tập hợp tất biểu thức GP văn phạm cho trước tạo với giới hạn độ phức tạp Tuy nhiên, đặc tính thứ ngun khơng xác định giúp kiểm sốt cách dễ dàng theo kích thước cây, đó, kích thước sử dụng để kiểm sốt độ phức tạp TAG3P thay theo chiều cao hệ GP khác Hình mơ tả ví dụ dẫn xuất Tương tự GP chuẩn, TAG3P gồm có thành phần: Biểu diễn chương trình; Khởi tạo quần thể; Hàm thích nghi; Tốn tử di truyền; Các tham số Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hồn 389 Hình Ví dụ dẫn xuất 2.4.1 Biểu diễn chương trình TAG3P sử dụng chuyển đổi kiểu Gen kiểu hình, TAG3P giải toán với ràng buộc cú pháp cảm ngữ cảnh, cú pháp phi ngữ cảnh khơng có ràng buộc cú pháp Do đó, kiểu hình trường hợp sau:  Văn phạm LTAG Glex sử dụng ngơn ngữ hình thức cho việc định nghĩa độ lệch, trường hợp này, kiểu hình dẫn xuất Glex;  Văn phạm phi ngữ cảnh (CFG) sử dụng để tạo LTAG Glex, dó, dẫn xuất Glex sử dụng kiểu Gen, cịn kiểu hình dẫn xuất G (cây dẫn xuất văn phạm Glex - Xem Hình 5);  Tập hàm GP ký hiệu kết sử dụng để tạo văn phạm phi ngữ cảnh G = (N, T, P, {Bool}) Trong đó: - N={Bool, PRE, OP, VAR}: Tập ký hiệu không kết thúc - T= {X, sin, cos, log, ep, +,-,*,/, (, )}: Tập ký hiệu kết thúc - P = {Bool  Bool OP Bool, Bool  PRE (Bool), Bool  VAR, OP  +, OP  -, OP  *, OP  /, PRE  sin, PRE  cos, PRE  log, PRE  ep, VAR  TL}: Tập luật dẫn xuất Từ ta có LTAG Glex biểu diễn sau: Glex=[N={Bool, PRE, OP, VAR}, T={TL, sqrt, ep, log, +, -, *, /}, I, A] IA TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 390 Hình Ví dụ sở văn phạm LTAG 2.4.2 Khởi tạo quần thể Chọn số ngẫu nhiên khoảng cho trước, sau lấy ngẫu nhiên  từ tập sở Glex để tạo dẫn xuất cho Glex Cây dẫn xuất mở rộng phép nối với  chọn ngẫu nhiên từ tập sở Q trình kết thúc kích thước quần thể đạt tới giá trị chọn 2.4.3 Hàm thích nghi Để đánh giá thích nghi cá thể, trước hết chuyển cá thể thành dẫn xuất Sau tính tốn thích nghi cá thể thực dẫn xuất (Hình 6) Hình Quy trình chuyển đổi cá thể thành dẫn xuất 2.4.4 Toán tử truyền TAG3P có tốn tử di truyền GP chuẩn lựa chọn, tái tạo, lai ghép đột biến  Lựa chọn: Trong TAG3P, chế lựa chọn sử dụng Đặc biệt, chế dựa độ thích nghi lựa chọn cạnh tranh thường hay sử dụng Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn  391 Tái tạo: Một phần quần thể chọn dựa độ thích nghi chép chúng vào hệ  Lai ghép: Tạo hai cá thể từ hai cá thể cha mẹ lựa chọn từ quần thể dựa vào giá trị thích nghi Đầu tiên, hai cha mẹ P1 P2 chọn thơng qua chế lựa chọn Q trình thực cách chọn ngẫu nhiên hai nút tương thích từ hai cha mẹ, sau hốn đổi hai hai cha mẹ với thu hai (Hình 7) Hình Thao tác lai ghép TAG3P  Đột biến: Trong thao tác đột biến, chọn ngẫu nhiên Sau đó, loại bỏ thay khác có kích thước Hình 392 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] Hình Thao tác đột biến TAG3P HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN TAG3P 3.1 Mơ hình phát cơng dựa lập trình Gen Mơ hình đề xuất bao gồm hai giai đoạn mơ tả Hình Trong giai đoạn huấn luyện, sử dụng liệu dấu vết mạng để tạo tập quy tắc phát cơng mạng Giai đoạn giá trị thích nghi cao tập quy tắc tốt sử dụng để phát cơng mạng Hình Mơ tả thiết kế cho mơ hình đề xuất phát cơng dựa GP Trong hình trên, GP thực cá thể tiến hóa nhóm cá thể thành Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn 393 quần thể Mỗi cá thể biểu diễn kỹ thuật để giải vấn đề Một hàm thích nghi đánh giá cho quy tắc mà thi hành Sự tiến hóa quần thể quần thể khởi tạo ban đầu cách lựa chọn cá thể mà cải thiện dần giá trị thích nghi Các tốn tử di truyền lựa chọn, lai ghép, đột biến tái sinh áp dụng cho cá thể suốt trình tạo hệ Đầu tiên số cá thể lựa chọn dựa vào chiến lược lựa chọn phù hợp, sau cá thể áp dụng toán tử lại ghép, đột biến tái sinh theo tỷ lệ định (tùy thuộc vào thí nghiệm) Cuối cá thể tốt lựa chọn để đưa vào hệ cho cá thể đảm bảo khả phát công từ quần thể tạo hệ Trong nghiên cứu này, sử dụng TAG3P để thực phương pháp lựa chọn toán tử di truyền thích nghi áp dụng cho hai tốn tử di truyền lai ghép đột biến  Lai ghép: Hai cá thể lựa chọn dựa giá trị thích nghi chúng Chọn ngẫu nhiên điểm chọn, tùy theo ràng buộc nối với cha mẹ khác Nếu điểm nối tìm thấy, nối với cha mẹ ngược lại điểm kết nối, ngược lại hai cá thể bị loại bỏ Quá trình lặp lại điểm lai ghép hợp lệ tìm thấy vượt giới hạn;  Đột biến: Chọn ngẫu nhiên điểm chọn, sau tạo ngẫu nhiên để thay điểm chọn cha/mẹ Cài đặt thử nghiệm 3.2 Nhóm tác giả tiến hành thử nghiệm phát công mơ hình đề xuất liệu nhân tạo nhóm tác giả Pham, Nguyen, Nguyen (2014) đề xuất với 10 thuộc tính cho loại công Thử nghiệm đươc tiến hành Phịng Thí nghiệm An ninh mạng, Bộ mơn An tồn Thông tin, Học viện Kỹ thuật Quân với tham số di truyền xác định trình bày Tiểu mục 3.2.1 3.2.1 Các tham số hàm mục tiêu  Tham số: Các tham số sử dụng q trình tiến hóa để huấn luyện cho phát TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 394 công, xâm nhập lựa chọn Bảng Bảng Tập tham số lựa chọn q trình tiến hóa Tham số Giá trị Tỷ lệ lai ghép 0.9 Tỷ lệ đột biến 0.1 Kích thước quần thể 200 Số thể hệ thực di truyền 51 Số mẫu liệu huấn luyện Phụ thuộc kịch Số mẫu liệu kiểm tra Phụ thuộc kịch Phương pháp lựa chọn Lựa chọn cạnh tranh, size=10 Tập Function {add, sub, div, mul, sin, cos, log, ep} Tập Terminal x1, x2, …x10: 10 thuộc tính cho loại cơng Kích thước cá thể MIN_SIZE=2, MAX_SIZE=40  Hàm thích nghi (fitness): Giá trị thích nghi cá thể tính tốn theo bước sau: Tính thơ (rawfitness): rawfitness(i)  i 1 NumFitcase f i ( x1 , x , , x10 )  yi NumFitcase (1) Trong đó: NumFitcase số mẫu liệu huấn luyện; x1, x2, , x10 thuộc tính lựa chọn cho kiểu cơng; fi hàm xây dựng trình tiến hóa; yi giá trị phân loại mẫu liệu cơng hay khơng cơng Chuẩn hóa fitness sau: adjustfitness(i)  i1 poplen nomalfitness(i)  1  rawfitness(i) adjustfitness(i)  polen i 1 adjustfitness(i) (2) (3) Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn 395 3.2.2 Kịch thử nghiệm Chúng tiến hành thử nghiệm ba kịch với mẫu liệu huấn luyện kiểm tra cụ thể sau Kịch 1: Trong giai đoạn huấn luyện huấn luyện liệu mẫu liệu cơng Trong giai đoạn kiểm tra, kiểm tra liệu có mẫu liệu bình thường liệu cơng nhằm đánh giá khả phát công phương pháp đề xuất Thử nghiệm tiến hành ba thí nghiệm sau:  Thí nghiệm cho kiểu cơng DDoS: Khơng có mẫu liệu huấn luyện 500 mẫu liệu bình thường; Dữ liệu kiểm tra có 500 mẫu liệu cơng 1000 mẫu liệu bình thường;  Thí nghiệm cho kiểu cơng PROBE: Khơng có liệu huấn luyện 190 mẫu liệu bình thường; Dữ liệu kiểm tra có 180 mẫu liệu công 380 mẫu liệu bình thường  Thí nghiệm cho kiểu cơng DDOS PROBE: Khơng có liệu huấn luyện 360 mẫu liệu bình thường; Dữ liệu kiểm tra 180 mẫu liệu công PROBE với 180 mẫu liệu công DDOS với 320 mẫu liệu bình thường Kịch 2: Trong giai đoạn huấn luyện, huấn luyện liệu có mẫu liệu cơng bình thường Trong giai đoạn kiểm tra, kiểm tra liệu có mẫu liệu công mẫu không công nhằm đánh giá khả phát công phương pháp đề xuất Kịch thử nghiệm ba thí nghiệm với kiểu cơng: DDOS, PROBE hỗn hợp DDOS-PROBE  Thí nghiệm cho kiểu công DDOS: Dữ liệu đầu vào bao gồm liệu huấn luyện 50 mẫu liệu công 150 mẫu liệu bình thường; Dữ liệu kiểm tra 300 mẫu liệu công 600 mẫu liệu bình thường;  Thí nghiệm cho kiểu công PROBE: Dữ liệu đầu vào bao gồm liệu huấn TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 396 luyện 40 mẫu liệu công 80 mẫu liệu bình thường; Dữ liệu kiểm tra 140 mẫu liệu công 300 mẫu liệu bình thường;  Thí nghiệm cho kiểu cơng PROBE DDOS: Dữ liệu huấn luyện gồm 30 mẫu liệu công PROBE 30 mẫu liệu cơng DDOS 120 mẫu liệu bình thường; Dữ liệu kiểm tra gồm 150 mẫu liệu công PROBE với 150 mẫu liệu công DDOS 320 mẫu liệu bình thường; Kịch 3: Trong giai đoạn huấn luyện liệu có chứa mẫu cơng smurf bình thường Trong giai đoạn kiểm tra, kiểm tra liệu có mẫu liệu bình thường mẫu công nhằm đánh giá khả phát mẫu công mới, chưa biết phương pháp đề xuất Dữ liệu huấn luyện bao gồm 87 mẫu liệu công smurf 400 mẫu liệu bình thường; Dữ liệu kiểm tra gồm 400 mẫu liệu công kiểu DDOS (land, back, neptune, pop, teardrop) 800 mẫu liệu bình thường 3.3 Kết phân tích Kết thử nghiệm phương pháp đề xuất với tham số thuật toán đề cập đến Bảng 2, nhóm tác giả thực với 30 lần chạy lấy kết phân loại công tất lần thực để làm giá trị thống kê so sánh với phương pháp khác Hiệu suất phương pháp áp dụng cho tập liệu thử nghiệm tính theo tỷ lệ % phân loại xác tập liệu kiểm tra kết thử nghiệm thống kê bảng Các kết thống kê áp dụng phương pháp đề xuất với GP chuẩn TAG3P cho vấn đề phát công so sánh với phương pháp học máy khác (cây định (J48), SVM, hai kỹ thuật mạng thần kinh nhân tạo (Multilayer Perceptron: Perc Resting Bitch Face: RBF), mạng Bayes (mạng Bayes: Bayes NaiveBayes: Naïve)) Kịch 1: Các kết Bảng cho thấy phương pháp đề xuất thí nghiệm Kịch cho kết phân loại công cao số phương Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn 397 pháp học máy khác Điều cho thấy GP TAG3P cải thiện đáng kể tỷ lệ phát công, xâm nhập Bảng Kết thí nghiệm Kịch (%) Phương pháp J48 SVM Perc Bayes Nạve RBF StandGP TAG3P Thí nghiệm 66.67 66.67 66.67 66.67 66.67 66.67 70.00 97.06 Thí nghiệm 67.86 67.86 67.86 67.86 67.86 67.86 65.00 99.29 Thí nghiệm 47.06 47.06 47.06 47.06 47.06 47.06 95.00 98.72 Kịch 2: Kết Kịch cho thấy phương pháp đề xuất GP chuẩn cải thiện tỷ lệ phát cơng thí nghiệm cho mẫu cơng thăm dị TAG3P cải thiện tỷ lệ phát công, xâm nhập thí nghiệm bao gồm mẫu công từ chối dịch vụ mà công thăm dị Tuy nhiên số mẫu khác tỷ lệ phát lại chưa cao (Bảng 4) Bảng Kết thí nghiệm Kịch (%) Phương pháp J48 SVM Perc Bayes Nạve RBF StandGP TAG3P Thí nghiệm 90.36 98.25 98.62 93.61 96.62 98.50 75.00 93.74 Thí nghiệm 96.59 93.41 95.00 97.50 92.95 92.95 100.0 94.76 Thí nghiệm 96.58 94.47 97.11 98.42 93.95 93.95 95.00 99.08 Kịch 3: Kết Kịch cho thấy TAG3P thực hiệu phát mẫu công chưa biết trước dấu hiệu cơng Có thể nhận thấy TAG3P thực hiệu khả học đưa dự đoán trường hợp chưa biết trước dạng công dạng công (Bảng 5) Bảng Kết thí nghiệm Kịch (%) Phương pháp Thí nghiệm J48 SVM Perc Bayes Naïve RBF StandGP TAG3P 67.17 67.17 69.33 67.58 89.42 65.92 67.17 93.09 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU Bài báo trình bày nghiên cứu vấn đề cải thiện phát cơng mạng sử dụng lập trình gen dựa kỹ thuật văn phạm nối (TAG3P) GP chuẩn Các thực nghiệm cho thấy việc phân loại công cải thiện đáng kể tỷ lệ phát cơng mạng Qua 398 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] thí nghiệm cho thấy kết phát công mẫu công đạt hiệu so với số phương pháp học máy khác Bên cạnh đó, TAG3P cải thiện đáng kể tốc độ huấn luyện so với GP chuẩn Trong thời gian tới, nhóm nghiên cứu tiếp tục cải tiến phương pháp phát cơng dựa hệ lập trình gen với định hướng nâng cao tốc độ huấn luyện số kỹ thuật tự động đáp ứng tham số đầu vào hay giữ lại cá thể cho tốt hệ, sau chép trực tiếp vào hệ mà không cần áp dụng toán tử di truyền TÀI LIỆU THAM KHẢO Abadeh, M S., Habibi, J., & Lucas, C (2007) Intrusion detection using a fuzzy geneticsbased learning algorithm Journal of Network and Computer Applications, 30(1), 414-428 Abdullah, B., Abd-Alghafar, I., Gouda, I., & Salama, A A (2009) Performance avaluation of a genetic algorithm based approach to network intrusion detection system Paper presented at The 13th International Conference on Aerospace Sciences and Aviation Technology, USA Ahmad, I., Hussain, M., Alghamdi, A., & Alelaiwi, A (2013) Enhancing SVM performance in intrusion detection using optimal feature subset selection based on genetic principal components Springer Open, 24(7-8), 1671-1682 Al-Jarrah, O Y., Siddiqui, A., Elsalamouny, M., Yoo, P D., Muhaidat, S., & Kim, K (2014) Machine learning based feature selection techniques for large-scale network intrusion detection Paper presented at The IEEE 34th International Conference on Distributed Computing Systems Workshops, USA Anup, G., & Chetan, K (2008) GA-NIDS: A Genetic algorithm based network intrusion detection system Retrieved from https://www.researchgate.net/publication/ 228791237_GA-NIDS_A_Genetic_Algorithm_based_Network_Intrusion_ Detection_System Botha, M., & Solms, R (2004) Utilizing neural networks for effective intrusion detection Retrieved from http://icsa.cs.up.ac.za/issa/2004/Proceedings/Full/040.pdf Bridges, S M., & Vaughn, R B (2000) Fuzzy data mining and genetic algorithms applied to intrusion detection Paper presented at The Twenty-third National Information Systems Security Conference, USA Crosbie, M., & Spafford, E (1995) Applying genetic programming to intrusion detection International Journal of Science and Research, 2(6), 480-483 Devarakonda, N., & Pamidi, S (2012) Intrusion detection system using Bayesian network and Hidden Markov model Procedia Technology, 4(1), 506-514 Vũ Văn Cảnh, Hoàng Tuấn Hảo Nguyễn Văn Hoàn 399 Faraoun, K M., Boukelif, A., & Algeria, S B A (2006) Genetic programming approach for multi-category pattern classification applied to network intrusions detection International Journal of Computational Intelligence and Applications, 6(1), 3098-3109 Gomez, J., & Dasgupta, D (2002) Evolving fuzzy rules for intrusion detection Paper presented at The Third Annual IEEE Information Assurance Workshop 2002 Conference, USA Gong, R H., Zulkernine, M., & Abolmaesumi, P (2005) A software implementation of a genetic algorithm based approach to network intrusion detection Paper presented at The Sixth International Conference on Software Engineering, USA Koza, J R (1992) Genetic programming: On the programming of computers by means of natural selection Massachusetts, USA: MIT Press Le, H N., Hoang, T H., & Vu, V C (2015) Self-adaptive srossover and mutation parameters in tree adjoining grammar guided genetic programming Tạp chí Khoa học Kỹ thuật Học viện Kỹ thuật Quân sự, 15(6), 5-15 Leung, Y., So, L., & Yam, K F (1992) Rule learning in expert systems using genetic algorithm Paper presented at The International Conference on Fuzzy Logic & Neural Networksm, Japan Li, W (2004) Using genetic algorithm for network intrusion detection Retrieved from https://pdfs.semanticscholar.org/9175/54c7cce69e6ee9708020863f2bd27fa986a 6.pdf Lu, W., & Traore, I (2004) Detecting new forms of network intrusion using genetic programming Computational Intelligence, 20(3), 475-494 Middlemiss, M., & Dick, G (2003) Feature selection of intrusion detection data using a hybrid genetic algorithm/KNN approach Amsterdam, Netherlands: IOS Press Mukkamala, S., Andrew, H S., & Ajith, A (2005) Intrusion detection using an ensemble of intelligent paradigms Journal of Network and Computer Applications, 28(2), 167-182 Nguyen, X H., McKay, R I., & Abbass, H A (2003) Tree adjoining grammars, language bias, and genetic programming Paper presented at The EuroGP2003, Netherlands Peddabachigari, S., Ajith, A G., & Thomas, J (2007) Modeling intrusion detection system using hybrid intelligent systems Journal of Network and Computer Applications, 30(1), 114-132 Peng, T., Leckie, C., & Kotagiri, R (2007) Information sharing for distributed intrusion detection systems Journal of Network and Computer Applications, 30(3), 877899 Pham, T S., Nguyen, Q U., & Nguyen, X H (2014) Generating artificial attack data for intrusion detection using machine learning Paper presented at The Fifth TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 400 Symposium on Information and Communication Technology Conference, Vietnam Pillai, M M., Eloff, J H P., & Venter, H S (2004) An approach to implement a network intrusion detection system using genetic algorithms Paper presented at The SAICSIT, South Africa UCI KDD Archive (1999) KDD cup 1999 data Retrieved from http://kdd.ics.uci.edu/ databases/kddcup99/kddcup99.html Wong, M L., Leung, K S., & Cheng, J C Y (2000) Discovering knowledge from noisy databases using genetic programming Journal of the American Society for Information Science and Technology, 51(9), 870-881 IMPROVING INTRUSION DETECTION USING TREE ADJOINING GRAMMAR GUIDED GENETIC PROGRAMMING Vu Van Canha,b*, Hoang Tuan Haoa, Nguyen Van Hoanb a b The Faculty of Information Technology, Lequydon Technical University, Hanoi, Vietnam The Faculty of Information Technology, Telecommunication University, Khanhhoa, Vietnam * Corresponding author: Email: canhvuvan@yahoo.com Article history Received: January 07th, 2017 | Received in revised form: July 13th, 2017 Accepted: July 20th, 2017 Abstract Nowadays, the problem of network security has become urgent and affect the performance of modern computer networks greatly Detection and prevention of network attacks have been the main topic of many researchers in the World One of the safety measures for networks is using the intrusion detection systems However, these measures are costly, ineffective, unreliable and can-not detect new or unknown attacks Some studies using machine learning technology have been applied in intrusion detection In our work, we proposed using Genetic Programming (GP) to improve intrusion detection In the experiments, we used GP and Tree Adjoining Grammar Guided Genetic Programming (TAG3P) on artifical datasets suggested by Pham, Nguyen, and Nguyen (2014) Compared with previous results, we found that GP and TAG3P are more effective in detecting attacks than previous measures Keywords: Attack detection; Classification; Genetic Programming (GP); IDS; TAG3P ... 2.4 Lập trình Gen định hướng văn phạm nối Hệ lập trình Gen định hướng văn phạm nối (TAG3P) sử dụng văn phạm nối với văn phạm phi ngữ cảnh để tạo ràng buộc cú pháp độ sai lệch tìm kiếm chương trình. .. báo trình bày nghiên cứu vấn đề cải thiện phát công mạng sử dụng lập trình gen dựa kỹ thuật văn phạm nối (TAG3P) GP chuẩn Các thực nghiệm cho thấy việc phân loại công cải thiện đáng kể tỷ lệ phát. .. Warezmaster Lập trình Gen 2.3.1 Thuật tốn lập trình Gen Lập trình Gen (GP) mở rộng thuật toán di truyền (GA), phương pháp tìm kiếm tổng quát sử dụng phép loại suy từ chọn lọc tự nhiên tiến hóa Sự

Ngày đăng: 26/08/2022, 15:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w