Bản chất của bài tốn chẩn đốn C-class là học vẹt. Tri thức của hệ được chuyên gia cung cấp dưới dạng 〈Mẫu dữ liệu, Khẳng định virus〉. Các lệnh (1), (2), (3) và (6) nối tiếp nhau nên độ phức tạp của thuật tốn là độ phức tạp lớn nhất của các lệnh này. Do các lệnh (1), (2), (4), (6), (7) và (8) đều cĩ độ phức tạp O(1) nên độ phức tạp chủ yếu nằm ở vịng lặp while. Trường hợp xấu nhất, vịng lặp thực hiện k
lần, như vậy độ phức tạp của thuật tốn là O(n).
Quá trình đánh giá kết quả bài tốn C-class được thực hiện như sau:
• Chuẩn bị dữ liệu:
- Chọn ngẫu nhiên 2/3 mẫu virus khác biệt từ tập virus thử nghiệm - Cập nhật các virus này vào CSDL SC
- Trộn các mẫu virus vào tập Xđã cĩ sẵn nhiều loại dữ liệu khác nhau
• Tiến hành thực nghiệm:
- Áp dụng thuật giải chẩn đốn C-class trên tập X
- Ghi nhận số virus phát hiện chính xác, số mẫu cảnh báo, số virus bị bỏ sĩt - Thay số liệu, lập lại thí nghiệm nhiều lần
• Đánh giá thuật tốn:
- Tính tốn độ chính xác, độ dự báo và độ tin cậy sau mỗi lần thí nghiệm - Tính giá trị trung bình các độđo chất lượng (Bảng 3.2)
- 34 -
Bảng 3.2: Kết quả thực nghiệm bài tốn chẩn đốn lớp virus C-class
Lần thSửố nghi virus ệm cSậốp nh virus ật phát hiSố virus ện cSảốnh báo virus Sbốỏ virus sĩt Độxác (%) chính báo (%) Độ dự cĐộậy (%) tin
1 1564 1042 1035 31 498 99.33 5.86 68.16 2 1452 968 958 23 471 98.97 4.66 67.56 3 1572 1048 1040 32 500 99.24 6.02 68.19 4 1315 877 868 19 428 99.01 4.25 67.45 5 1389 926 914 20 455 98.70 4.21 67.24 Trung bình: 99.05 5.00 67.72
Thuật tốn cĩ độ chính xác cao (99.05%). Tỷ lệ lỗi do các mẫu virus thử nghiệm cĩ sự ghép nối mã lệnh (phát hiện virus thứ nhất trước khi truy vấn trọn vẹn virus thứ hai). Tuy nhiên với tỷ lệ dự báo 5% (chủ yếu là gọi sai tên virus), thuật tốn c-Diagnose khĩ đưa ra khẳng định dương khi chẩn đốn các virus mới (là các mẫu virus chưa cập nhật trong CSDL SC). Khi tập mẫu virus text đủ lớn, cĩ thể bổ sung các mơ hình học tiên tiến khác trên lớp dữ liệu văn bản text.