Ví dụ minh họa bài toán A-class

Một phần của tài liệu Cơ chế máy học chuẩn đoán virus máy tính (Trang 28)

Xét bài toán A-class áp dụng mô hình không gian vectơ như sau:

- CSDL virus A chứa 12 mẫu virus đã được quá trình phân cụm (ở giai đoạn học) tách thành 3 nhóm f1, f2 và f3 (Bảng 3.8).

- Ngưỡng an toàn cho trước λ = 0.85.

- Mẫu dữ liệu M = 6E, 72, 0D, 0A, 79, 75, 76, 75, 65, 6C, 6E, 74, 62, 67, 6C, EB Yêu cầu đặt ra là xác định xem M có phải là virus mới không, nếu có thì thuộc nhóm nào (f1, f2 hay f3), độ tương đồng dữ liệu và tỷ lệ mã độc là bao nhiêu.

Đầu tiên, căn cứ vào các từ sử dụng của M (13 từ), các mẫu virus trong CSDL được tổ chức thành các vector tần suất 13 từ. Sau đó ánh xạ các vectơ này vào ma trận từ-tài liệu như hình 3.10. Kế tiếp, tính tần suất tài liệu DF(w) của các từ

w. Do có ba tập f nên các giá trị DF(w) là số tập f có từw xuất hiện ít nhất một lần chia cho 3. Sau đó tính tần suất phân đoạn FF(f,w) của các từ w trong từng tập f, là số lần xuất hiện của từw trong từng tập f chia cho tổng số từ có trong tập đó (số từ

sử dụng của f1, f2f3 tương ứng là 19, 23 và 26). Tính tiếp các giá trị FF(A,w), là số lần xuất hiện w trong toàn bộ các mẫu. Sau đó tính trọng số W(f,w) của các từw

trên từng tập f , rồi tính các bộ giá trị tử số trong công thức (3.3) cho các từw trong từng tập f (Bảng 3.9).

Bảng 3.8:Các nhóm virus trong CSDL và mẫu dữ liệu chẩn đoán

f stt a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a151 E9 96 00 00 00 0D 0A 76 75 75 76 65 6C 6E 74 63

Một phần của tài liệu Cơ chế máy học chuẩn đoán virus máy tính (Trang 28)