Rút luật phân cụm trên V-Tree

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 92)

Phân cụm bằng V-tree nói riêng, các phương pháp phân cụm phân cấp nói chung, phân bố các cụm kết quả nằm ở nút lá (hoặc ở mức cha trực tiếp của nút lá). Quá trình rút luật được thực hiện bằng cách duyệt đường đi các nhánh từ gốc đến lá (tạm gọi là R2LTA Root-to-Leaf Traverse Algorithm, thuộc loại thuật giải phổ biến nên không trình bày lại ở đây). Mỗi nhánh chứa một luật theo mệnh đề Horn. Đường đi trên nhánh chứa tiền đề (phần thân) của luật, mỗi nút trên nhánh là một trực kiện. Tên nhánh là hệ quả của luật.

Như giới thiệu, các nút lá của V-Tree đều đồng mức. Số mức trên cây V- Tree nhiều hơn số cột tham gia phân cụm một đơn vị (p+1). Mỗi nhánh V-Tree tương ứng với một cluster. Độ phức tạp của thuật giải R2LTA trên cây V-Tree là một hàm đa thức O(n) tỷ lệ với số nhánh (số cluster). Trường hợp xấu nhất, khi các mẫu tin đều “tách rời” nhau và được phân vào k nhánh, số lần duyệt nút trên cây là

(p+1). Trường hợp tốt nhất, khi tất cả các mẫu tin đều “giống nhau” và được phân vào một cụm, chỉ cần duyệt (p+1) nút là đã rút được luật phân bốđặc trưng dữ liệu.

- 74 -

Áp dụng thuật giải R2LTA trên V-Tree, ta thu được sáu luật như sau:

Luật 1: Cluster_1 ← (Type=DLL) ∧ (Hooking=Registry) ∧ (Host=Application)

Luật 2: Cluster_2 ← (Type=DLL)∧ (Hooking=Registry) ∧ (Host=Service)

Luật 3: Cluster_3 ← (Type=EXE) ∧ (Hooking=StartUp) ∧ (Host=Application)

Luật 4: Cluster_4 ← (Type=EXE) ∧ (Hooking=StartUp) ∧ (Host=Service)

Luật 5: Cluster_5 ← (Type=EXE)∧ (Hooking=Registry) ∧ (Host=Service)

Luật 6: Cluster_6 ←(Type=EXE) ∧ (Hooking=WinFile) ∧ (Host=Application)

Trong ví dụ trên, số nút duyệt để rút được 6 luật là (3 cột +1)×6 luật = 24 nút Về mặt trực quan, 6 luật trên có dạng tổng quát:

ClusterNum ← Type, Hooking, Host

Trong đó: ClusterNum ∈ {Cluster_1, Cluster2, …, Cluster_6} = q

Type ∈ {DLL, EXE} = p1

Hooking ∈ {Registry, Startup, WinFile} = p2

Host ∈ {Application, Service} = p3

Rõ ràng, dạng tri thức này phù hợp với luật (4.1), công cụ lập luận chủ đạo xây dựng các phát biểu IF-THEN cho quá trình lập luận và suy diễn của hệ. Phần tiếp theo sẽ trình bày phương án rút luật phân cụm không sử dụng V-Tree.

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 92)