Dự báo virus lạ bằng kỹ thuật hợp nhất dữ liệu

Một phần của tài liệu Thiết kế xây dựng hệ thống và thực nghiệm (Trang 25 - 27)

Nếu số tập hành vi biến dạng của x so với v là đủ nhỏ, bài toán suy luận khả năng x là biến thể của virus v được phát biểu như sau:

Rx : a1 ^ a2 ^… ^ (au← NULL) ^…^ anqx

trong đó: ai đặc trưng cho trị thuộc tính thứ i của virus v

au đặc trưng cho hành vi biến dạng của virus v (để v biến dạng thành x) Kỹ thuật khôi phục trị thuộc tính dựa vào hợp nhất dữ liệu DF2RV (Data Fusion to Recall Values) gồm ba thao tác:

1. Hóa NULL (toNULL): tạo bản sao dữ liệu trước khi xóa rỗng (au NULL) các trị thuộc tính bất thường (au) của mẫu chẩn đoán. Mục tiêu của bước này nhằm cô lập các đặc tính mới của biến thể dưới dạng mẫu dữ liệu chứa các NULL ‘ảo’ (virtual NULL).

2. Giải NULL (deNULL): hợp nhất dữ liệu từ CSDL để tìm các trị thuộc tính khả dĩ gần với giá trị ban đầu nhất của au. Mục tiêu của bước này nhằm xác định virus có đặc tính gần giống với đối tượng nhất.

3. Rõ NULL (fixNULL): phục hồi các giá trị NULL về nguyên trạng, bổ sung mẫu mới vào CSDL, làm cơ sở nhận dạng tiếp các biến thể của biến thể virus trong tương lai.

Để minh họa, xét CSDL S chứa họ virus Family.x.vir như trong bảng 4.4.

Bảng 4.4:CSDL chứa 9 thành viên họ virus Family.x.vir

stt Tên virus a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 1 Family.a.vir 15 28 03 101 32 27 65 37 81 61 2 Family.b.vir 15 28 03 101 35 27 65 37 85 61 3 Family.c.vir 15 28 03 101 30 27 65 37 90 61 4 Family.d.vir 15 28 03 101 34 27 65 37 84 61 5 Family.e.vir 15 28 03 101 33 27 65 37 83 61 6 Family.f.vir 15 28 03 101 38 27 65 37 90 61 7 Family.g.vir 15 28 03 101 30 27 65 37 88 61 8 Family.h.vir 15 28 03 101 29 27 65 37 87 61 9 Family.i.vir 15 28 03 101 31 27 65 37 92 61

Đối tượng chẩn đoán ObjectX có tập trị thuộc tính như trong hình 4.16a. Nếu áp dụng các phép truy vấn thông thường trên S, sẽ không tìm thấy mẫu virus nào khớp luật (4.1), vì vậy ObjectX được kết luận an toàn. Tuy nhiên khi áp dụng DF2RV, kết quả sẽ khác. Các bước thực hiện được minh họa như sau:

Hóa NULL:

- Xác định số trị thuộc tính khác biệt (trong ví dụ này, m=2 ứng với các trị thuộc tính a4a8)

ƒ Nếu m = 0, có sự tương đồng mã độc (wRate = 1): kết luận ObjectX là biến thể virus. Thoát sớm.

ƒ Nếu m >0, thực hiện các bước tiếp theo.

- Xác định tỷ lệ đồng dạng dữ liệu µ = 1- (m/n) = 1- (2/10) = 0.8.

ƒ Nếu µ < λ, ngưng thuật giải (λ là hằng số ngưỡng an toàn).

ƒ Nếu µ ≥ λ , thực hiện các bước tiếp theo (giả sử cho λ = 0.78).

- Lưu lại và xóa rỗng hai trị thuộc tính sai biệt 39 (cột a4) và 91 (cột a8) của

ObjectX (hình 4.16b).

• Giải NULL: tìm trong cột a4a8 các giá trị gần với 39 và 91 nhất:

- Ở cột a4, tập khoảng cách d(xi, x)|a4={7, 4, 9, 5, 6, 1, 9, 10, 8}. Giá trị chọn là 38 có d =1 (nhỏ nhất), ứng với mẫu thử thứ 6 trong CSDL.

- Ở cột a8, tập khoảng cách d(xi, x)|a8={10, 6, 1, 7, 8, 1, 3, 4, 1}. Có hai giá trị được chọn là 90 và 92 (d=1) ứng với các mẫu thứ ba, thứ sáu và thứ chín trong CSDL. Loại mẫu thứ ba và mẫu thứ chín vì d(3, x)|a4 > d(6, x)|a4

d(9, x)|a4 > d(6, x)|a4 (Bảng 4.5).

- Dựa vào kết quả hợp nhất, dựng mẫu ứng viên ObjectV (Hình 4.16c). - Vận dụng luật suy diễn (4.1) truy vấn dữ liệu của mẫu mới tạo trên S. Kết

quả nhận được ObjectV là biến thể gần nhất của virus Family.f.vir (mẫu virus thứ sáu trong CSDL).

Rõ NULL: phục hồi các NULL ảo về giá trị ban đầu (39 và 91), cập nhật

ObjectX vào CSDL virus (Hình 4.16d), tăng trưởng CSTT, chuyển bài toán sang các bước tiếp theo (xem lưu đồ xử lý ở hình 4.11) [64].

Các thuộc tính của đối tượng chẩn đoán a0 a1 a2 a3 a4 a5 a6 a7 a8 a9

Một phần của tài liệu Thiết kế xây dựng hệ thống và thực nghiệm (Trang 25 - 27)