Các tham số trong TAG3P bao gồm: kích cỡ quần thể, số thế hệ tối đa, kích thước tối đa và tối thiểu của cây, số lần thực hiện tối đa (thực hiện các thao tác di truyền), xác xuất thực hiện các toán tử di truyền, sự sai khác tối đa về kích thước của cây con cũ và mới khi thực hiện thao tác di truyền (lai ghép, đột biến,…).
Có thể nói TAG3P thuộc về lớp các hệ lập trình GEN định hướng bởi văn phạm, nhưng thay vì sử dụng cây dẫn xuất trong văn phạm phi ngữ cảnh như các hệ lập trình GEN định hướng bởi văn phạm khác, TAG3P sử dụng cây dẫn xuất của hệ văn phạm nối cây. Như đã được chỉ ra gần đây, biểu diễn bởi TAG cho phép mở rộng q trình tìm kiếm tiến hóa so với các trình diễn bằng văn phạm phi ngữ cảnh. Với mơ hình này, lợi ích chính của biểu diễn TAG là sự chuyển đổi khoảng cách các điểm không gian tìm kiếm và khả năng sử dụng kích thước cây thay cho chiều cao cây làm độ đo phức tạp cho mỗi cá thể.
TAG3P tốt hơn GP trong một số bài tốn hồi quy tượng trưng và tích phân. Trong các nghiên cứu gần đây đã chỉ ra rằng việc biểu diễn dựa trên TAG là tốt hơn các biểu
Sau Trướ Trướ
diễn dựa trên văn phạm phi ngữ cảnh trong tiến hóa trong việc thực hiện tìm kiếm tiến hóa mở rộng.
3.7.3 Ứng dụng lập trình GEN định hướng bởi văn phạm nối cây vào bài toán phát hiện xâm nhập tích hợp vào thiết bị trinh sát mạng. phát hiện xâm nhập tích hợp vào thiết bị trinh sát mạng.
Bài toán phát hiện xâm nhập đã và đang được nghiên cứu rộng rãi bởi tính quan trọng cũng như tính cấp thiết của nó khi áp dụng vào hệ thống an ninh mạng. Thông thường kỹ thuật phát hiện xâm nhập được chia thành phát hiện dựa trên các dấu hiệu và phát hiện bất thường. Trong đó kỹ thuật phát hiện dựa trên dấu hiệu chủ yếu tập trung vào việc phát triển mơ hình các cuộc tấn cơng đã biết trước, có thể được mơ tả bằng mơ hình hoặc trình tự của các sự kiện và số liệu cụ thể, kỹ thuật phát hiện bất thường thiết lập một hiện trạng các hoạt động bình thường và sau đó duy trì một hiện trạng hiện hành cho hệ thống, khi hai yếu tố này xuất hiện sự khác biệt nghĩa là đã có sự xâm nhập. Kỹ thuật phát hiện xâm nhập dựa trên các dấu hiệu có tỷ lệ phát hiện thấp, kém hiệu quả trong phát hiện các cuộc tấn cơng mới hoặc chưa biết, trong khi đó kỹ thuật phát hiện bất thường có khả năng phát hiện các cuộc tấn công tốt hơn kể cả các cuộc tấn công chưa được biết đến, tuy nhiên kỹ thuật này lại khó phân biệt giữa hành vi bất thường và xâm nhập.
Trong đề tài này, em đề xuất một phương pháp tiếp cận phát triển dựa trên nguyên tắc lập trình di truyền hướng văn phạm nối cây (TAG3P) để phát hiện các cuộc tấn công đã biết hoặc chưa biết trên các mạng. TAG3P mở rộng ý tưởng của lập trình di truyền GP và thuật tốn di truyền GA, nó sử dụng các cây phân tích cú pháp để đại diện cho quần thể ban đầu là các luật, các luật này được lựa chọn trên nền tảng kiến thức từ các cuộc tấn công đã được biết đến dựa bộ dữ liệu thử nghiệm của DARPA (Lippmann 2000) và các sự kiện tương quan an ninh trong mã nguồn mở OSSIM trong đó bao gồm các cuộc tấn cơng dựa trên mạng: name lyland, synflood, ping of death (pod), smurf, teardrop, back, neptune, ip sweep, port sweep, and UDP storm attacks. a. Xây dựng các luật trong OSSIM áp dụng TAG3P
OSSIM có khả năng tương quan các cuộc tấn công để thu thập, phát hiện và giám sát các sự kiện bảo mật thông tin an ninh. Khi phát hiện các sự kiện phù hợp với mô hình đã được mơ tả bởi các luật thì nó sẽ đưa ra các cảnh báo. Sau khi phát hiện, một luật sẽ được kích hoạt, OSSIM có thể bắt đầu theo dõi các bộ cảm biến (Sensor) và
cung cấp các chỉ số, các thông tin liên quan đến các sự kiện bằng cách sử dụng các luật giám sát sẵn có.
Các luật được biểu diễn như là các cây phân tích cú pháp, thơng thường cây phân tích cú pháp được tạo thành từ các nút nội bộ và các nút lá. Nút nội bộ gọi là tập hàm, và các nút lá được gọi là tập kết thúc.
VD: TAG3P có thể được sử dụng để phát triển các quy định mới từ những cái chung. Các luật được biểu diễn như:
if condition 1 and condition 2 . . . and condition N then consequence
Trong trường hợp này, tập hàm tương ứng với toán tử AND và tập kết thúc là consequence.
Hình vẽ 3.21. Biểu diễn luật theo cấu trúc cây dẫn xuất
Trong đó các condition là các thuộc tính, các sự kiện của các luật dựa trên các cuộc tấn công đã được biết trước như kiểu giao thức, số lượng các kết nối bị lỗi, độ tin cây, độ rủi ro…
Các sự kiện trong mạng, trong các host hoặc trong các sensor sẽ được thu thập trong hệ thống được triển khai bởi OSSIM. Các cảm biến sensor trong OSSIM được cấu hình và báo cáo các sự kiện gặp phải, mô tả chi tiết thông tin của mỗi sự kiện an ninh. Số lượng lớn các sự kiện là đặc trưng của các loại tấn công trong mạng được lưu trữ bởi hệ thống SIEM, từ đó là cơ sở để phân tích mức độ cảnh báo dựa trên sự phân loại, sự tin cậy, độ rủi ro đối với mỗi loại sự kiện.
Như vậy các sự kiện đặc biệt được xử lí trước, hệ thống SIEM tạo ra một quần thể các luật và tiến hành di truyền, sau nhiều thế hệ các luật có độ thích nghi tốt nhất sẽ được giữ lại và các sự kiện được chuyển sang cơng cụ tương quan OSSIM.
Hình vẽ dưới đây mơ tả cấu trúc cây TAGs
Hình vẽ 3.22. Mơ hình hóa cây TAGs
Trong đó:
Hàm tốn tử OP={AND}.
Các biểu thức EXP={a,b,c,d,…,x,y,z} là đại diện cho các điều kiện, sự kiện xảy ra trong luật.
b. Hàm đánh giá khả năng thích nghi
Khả năng thích nghi đảm bảo rằng tiến hóa là hướng tối ưu bằng cách tính tốn các giá trị thích nghi cho từng cá thể trong quần thể. Giá trị đó đánh giá độ tốt của mỗi cá thể trong quần thể. Trong bài tốn phát hiện xâm nhập dựa trên lập trình di truyền, Confidence factor (cf ) đại diện cho sự chính xác của luật, đảm bảo các kết quả đúng theo các điều kiện. Hỗ trợ một tỷ lệ số lượng bản ghi được bao phủ bởi các luật cho tổng số bản ghi được đưa vào.
Trong bài toán phát hiện xâm nhập ứng dụng TAG3P, sử dụng các luật đầu vào có dạng if A and B and…then intrustion, và kích thước các luật đầu vào là N thì hàm đánh giá độ thích nghi của các luật có dạng:
raw_fitness = cf + support if support > max_support
Trong đó:
cf = |A and B| / (|A|+|B|); support = |A and B|/N
|A| là viết tắt của số lượng bản ghi mà chỉ thỏa mãn điều kiện A. |B| là viết tắt của số lượng bản ghi mà chỉ thỏa mãn điều kiện B.
|A|+|B| là viết tắt của số lượng bản ghi thỏa mãn điều kiện A hoặc điều kiện B. c. Tạo ra các luật mới sử dụng TAG3P
Việc sử dụng TAG3P để phát hiện các cuộc tấn công chưa biết dựa trên các luật mới được tạo ra từ các luật ban đầu của các cuộc tấn công đã được biết đến. Trong bài tốn này em có sử dụng 20 luật đầu vào dựa trên một loạt các cuộc tấn cơng trên mạng.
Hình vẽ 3.22. Các luật đầu vào ban đầu
Các luật đầu vào trong một quần thể các luật được biểu diễn theo cấu trúc cây và được mô tả bằng một cấu trúc dữ liệu chuỗi các kí tự. Ví dụ một cây có thể được biểu diễn như là “AabAcdAceI”. Bằng cách sử dụng toán tử “and”; a,b,c,d, và e phù hợp với các điều kiện trong luật. Đây là kết quả có nghĩa là sự xâm nhập. Các điều kiện không cần đến trong quy tắc sẽ bị xóa sau q trình tiến hóa, và do đó AabAcdAceI có thể được hiểu là “if a and b,and,c and d and e,then intrusion.” Các giá trị thuộc tính của a, b, c, d, e được lựa chọn từ các cuộc tấn cơng được biết đến. Trong đó các thuộc tính a, b, c, d, e…. được mô tả bởi bảng sau:
Bảng 3.1. Mô tả các dấu hiệu trong các luật đầu vào
Terminal Meaning
s num compromised = 0b count > R1