Mơ hình tổng quát của hệ

Hệ MAV được triển khai trên mạng cục bộ [16] qua ba giai đoạn (i) Học dữ liệu, (ii) Xử lý dữ liệu và (iii) Báo cáo. Giai đoạn 1 cài đặt trên máy chủ dành cho chuyên gia: đầu vào là tập mẫu và tri thức chuyên gia, đầu ra là CSDL và CSTT. Giai đoạn 2 và 3 cài đặt trên máy khách. Giai đoạn 2 chứa phần lõi của hệ gồm hai bước tiền xử lý và xử lý dữ liệu. Tiền xử lý cĩ nhiệm vụ phân lớp dữ liệu và nhận dạng sơ khởi để loại bớt các trường hợp chắc chắn nhiễm. Tiếp theo, bước xử lý sẽ áp dụng các thuật giải nhận dạng virus dựa trên luật để phát hiện virus mới. Mọi kết quả nhận dạng, suy diễn, lập luận sẽ được kết xuất sang giai đoạn Báo cáo. Phân tích kết quả chẩn đốn, hệ sẽ đặt một số câu hỏi và giải thích nhằm tham vấn, xác nhận quyết định người dùng để cĩ cách giải quyết thích hợp. Cuối cùng, thơng báo kết quả chẩn đốn (Hình 4.1).

4.2. Tổ chức cơ sở tri thức

CSTT chứa các mơ tảđối tượng - virus máy tính và các luật nhận dạng.

4.2.1. Mơ tảđối tượng

Cĩ nhiều loại virus máy tính với nhiều kỹ thuật lây nhiễm (xem Phụ lục 1 - Khảo sát virus máy tính) trên các định dạng dữ liệu khác nhau (xem Phụ lục 2 - Các định dạng dữ liệu). Đối với loại đối tượng cĩ dữ liệu khơng đồng nhất, mơ hình lớp (class) là kiểu biểu diễn tri thức thuận tiện nhất. Mỗi lớp đối tượng sẽ chứa các virus cĩ cùng đặc tính dữ liệu (mã thi hành, dữ liệu byte hay ký tự).

Hình 4.1.Mơ hình tổng quát của hệ Phịng chống virus máy tính hướng tiếp cận Máy học và Hệ chuyên gia MAV

- Trích chọn đặc trưng - Phân cụm dữ liệu - Rút luật phân cụm Tiếp nhận tri thức Giai đoạn Xử lý dữ liệu (máy trạm) Giai đoạn Học dữ liệu (máy chủ + chuyên gia)

Giai đoạn Báo cáo (máy trạm + người dùng) CSDL CSTT - Tổ chức khơng gian - Phân lớp dữ liệu - Hợp nhất dữ liệu - Chẩn đốn truyền thống Tiền xử lý dữ liệu - Chẩn đốn dựa trên luật - Các thuật giải tìm kiếm - Phân tích, suy diễn, lập luận Động cơ suy diễn Báo cáo kết quả Dữ liệu chẩn đốn - Hội thoại - Tham vấn Giải thích Dữ liệu chẩn đốn CSDL

- 64 -

Mơ hình lớp thích hợp cho việc phân loại các virus đa hình (lây nhiễm vào nhiều đối tượng thi hành thuộc nhiều mơi trường, hệ điều hành khác nhau), hoặc virus lai tạp (sử dụng nhiều kỹ thuật của nhiều loại virus khác nhau). Như vậy, mỗi virus cĩ thể thuộc về nhiều lớp. Tổng quát, lớp virus chuẩn (tiền bối của tất cả các lớp) được định nghĩa hướng đối tượng như sau [41]:

Đối tượng: Định danh virus

Thuộc tính: Tập thuộc tính/hành vi cơ sở

Phương thức: Tập điều trị, hướng xử lý

Mặc dù các virus thuộc lớp A-class và E-class cĩ định dạng như nhau, nhưng cĩ tập thuộc tính khác nhau (E-class chứa các virus ký sinh vật chủ, trong khi A- class chứa các sâu trình và trojan hoạt động độc lập). Tương ứng với năm lớp virus (Chương 3, Bảng 3.1), MAV định nghĩa bốn lớp dữ liệu cĩ khả năng nhiễm virus gồm lớp Application, lớp Document, lớp Boot record và lớp Text theo mơ hình:

Đối tượng: Tên lớp dữ liệu

Thuộc tính: Tập định dạng của lớp

Phương thức: Phép trích chọn dữ liệu của lớp

Mỗi lớp dữ liệu lại được tổ chức thành các lớp con. Ví dụ lớp Application cĩ hai lớp con là COM và EXE. Lớp EXE cĩ bốn lớp con DOS-EXE, NE-EXE, PE- EXE và LE-EXE (xem Phụ lục 2, hình P2.2). Mỗi lớp dữ liệu cĩ quan hệ với một lớp virus (ví dụ lớp Document cĩ quan hệ 1-1 với lớp D-class) hoặc với nhiều lớp virus (ví dụ lớp Application cĩ quan hệ 1-n với các lớp A-class và E-class).

4.2.2. Luật nhận dạng virus

Dạng tri thức thứ hai được mơ tả trong CSTT là tập luật nhận dạng. Để nhận dạng virus, hệ sử dụng một thư viện mơ tảđặc trưng virus (ID-virus library) tổ chức dưới dạng tập các vector VK= {v1, v2, …, vk}. Chẩn đốn virus là quá trình truy vấn các vector vi trong tập dữ liệu S theo các luật dẫn xuất (production rule) dạng:

R: p1^ p2 ^…^ pn→q (4.1)

Dạng luật này phù hợp cho cả chiến lược nhận dạng truyền thống lẫn nhận dạng dựa trên luật ở giai đoạn xử lý. Trong giai đoạn học, ngồi tập các luật nhận dạng virus, CSTT cịn chứa luật phân cụm virus (sẽ mơ tả sau).

4.3. Giai đoạn Học dữ liệu

Giai đoạn Học dữ liệu được thiết kế dành riêng cho chuyên gia (cài đặt trên máy chủ). Giai đoạn này cĩ nhiệm vụ tiếp nhận tri thức chuyên gia, phân tích và rút ra các quy luật phân bố dữ liệu trong CSDL virus. Tập luật này sau đĩ dùng nhận dạng virus ở giai đoạn xử lý (cài đặt trên máy khách). Các tác vụ chính trong giai đoạn Học dữ liệu là trích chọn dữ liệu, phân cụm dữ liệu và rút luật trên tập mẫu.

4.3.1. Trích chọn dữ liệu

Dữ liệu đầu vào của giai đoạn này là tập mẫu virus. Tập mẫu dương này đã được chuyên gia giải mã, phân tích kỹ thuật và phân loại theo các lớp virus đã định nghĩa (boot virus, file virus, text virus, macro virus hay worm-trojan). Gọi V là tập mẫu của một lớp virus xác định, hàm trích chọn dữ liệu tổng quát cĩ dạng:

f(vi) = {aj | j ÷1..m; m∈N*} Trong đĩ: vi là mẫu virus thứ i thuộc lớp virus V (v∈V)

aj là tập dữ liệu đặc trưng của virus vi (j÷1..m; m∈N*)

Hàm này sẽ trích chọn tựđộng các đoạn mã đặc trưng của virus trong các tổ chức thi hành. Ở giai đoạn xử lý, hàm này cũng được dùng để trích chọn mẫu dữ liệu đặc trưng tương ứng với các lớp virus cần chẩn đốn (xem Bảng 4.1).

4.3.2. Phân cụm dữ liệu

Mục tiêu của bước này nhằm phát hiện sự giống nhau giữa các mẫu virus để gom chúng thành từng nhĩm cĩ cùng đặc điểm. Quy luật phân bố nhĩm dùng trong giai đoạn Xử lý dữ liệu nhằm ước lượng đối tượng chẩn đốn cĩ thuộc một trong các nhĩm virus đã phân hoạch hay khơng để quyết định các bước kiểm tra tiếp theo. Cĩ thể thực hiện việc này bằng phân cụm dữ liệu, kỹ thuật phân loại dữ liệu phổ biến trong các hệ học khơng giám sát.

- 66 -

Bảng 4.1: Trích chọn dữ liệu đặc trưng từ các định dạng cơ bản

Stt Lớp dữ liệu Lớp virus Vật chủ Nội dung trích chọn

1 Văn bản C-class Văn bản 7-bit Tồn bộ nội dung Dữ liệu byte < 64KB Tập tin thi hành 2 Chương trình A-class E-class Tập tin thư viện Từđiểm vào lệnh (IP- Instruction Pointer) của chương trình Tập tin tư liệu Tập tin bảng tính 3 Tư liệu MS Office D-class Tập tin trình diễn

Tên và nội dung macro

Mẫu tin khởi động hệ điều hành đĩa mềm Mẫu tin khởi động hệ điều hành đĩa cứng 4 Mẫu tin khởi động B-class Mẫu tin khởi tạo phân khu đĩa cứng Từđiểm vào lệnh IP của mẫu tin khởi động

Cĩ nhiều kỹ thuật phân cụm: phân hoạch, phân cấp, dựa trên mật độ, dựa trên mơ hình hoặc trên lưới. Đề tài này sử dụng phân cụm phân cấp (hierarchical clustering). Đặc điểm của kỹ thuật này là khơng cần xác định số cụm ngay từ đầu (khi thuật giải kết thúc mới biết được số cụm). Phân cấp cụm thường được biểu diễn dưới dạng đồ thị cây các cụm (dendogram): nút lá biểu diễn các đối tượng riêng lẻ, nút trung gian biểu diễn các cụm. Cĩ hai kỹ thuật phân cụm phân cấp là (i) xuất phát từ các đối tượng đơn lẻ, gộp các điểm dữ liệu đủ gần vào các cụm hoặc (ii) xuất phát từ một cụm duy nhất (tồn bộ khơng gian), tách các điểm dữ liệu cĩ độ phân biệt cao nhất vào các cụm con [6] (Hình 4.2). Trong đề tài này, do bắt đầu từ tập mẫu virus nên phân cụm tách nhĩm sẽđược vận dụng để phân loại các mẫu thử.

4.3.2.1. Tổ chức cấu trúc dữ liệu

Để phân cụm virus, MAV sử dụng ma trận dữ liệu (p cột-thuộc tính, k dịng- đối tượng) như hình 4.3 [51]. Khơng gian phân cụm sử dụng cấu trúc dữ liệu Cây giá trị (Value Tree, ký hiệu là V-Tree).

Là mơ hình thích hợp để lưu trữ dữ liệu vector dài, V-Tree cĩ cấu trúc giống B-Tree và được xem là biến thể của R-Tree. Khác với R-Tree, V-Tree khơng quan tâm đến việc tối thiểu các chữ nhật chồng lấp như R-Tree.

Cho các số nguyên m>1, n>1, cây m-phân V-Tree bậc (m,n) là một cây cĩ: - Tất cả các nút lá đều cĩ số mức như nhau.

- Mỗi nút lá chứa các điểm cĩ giá trị từ n/2 đến n.

- Mỗi nút trung gian cĩ m/2 đến m nút con, trừ nút gốc cĩ từ 2 đến m con. - Đối với mỗi nút con M của một nút trung gian N, nút N chứa danh sách

các con trỏđến M [48].

Khảo sát virus máy tính

Các hệ phịng chống virus máy tính