Phân tích, đánh giá thuật toán chẩn đoán lớp C-class

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 52)

Bản chất của bài toán chẩn đoán C-class là học vẹt. Tri thức của hệ được chuyên gia cung cấp dưới dạng 〈Mẫu dữ liệu, Khẳng định virus〉. Các lệnh (1), (2), (3) và (6) nối tiếp nhau nên độ phức tạp của thuật toán là độ phức tạp lớn nhất của các lệnh này. Do các lệnh (1), (2), (4), (6), (7) và (8) đều có độ phức tạp O(1) nên độ phức tạp chủ yếu nằm ở vòng lặp while. Trường hợp xấu nhất, vòng lặp thực hiện k

lần, như vậy độ phức tạp của thuật toán là O(n).

Quá trình đánh giá kết quả bài toán C-class được thực hiện như sau:

• Chuẩn bị dữ liệu:

- Chọn ngẫu nhiên 2/3 mẫu virus khác biệt từ tập virus thử nghiệm - Cập nhật các virus này vào CSDL SC

- Trộn các mẫu virus vào tập Xđã có sẵn nhiều loại dữ liệu khác nhau

• Tiến hành thực nghiệm:

- Áp dụng thuật giải chẩn đoán C-class trên tập X

- Ghi nhận số virus phát hiện chính xác, số mẫu cảnh báo, số virus bị bỏ sót - Thay số liệu, lập lại thí nghiệm nhiều lần

• Đánh giá thuật toán:

- Tính toán độ chính xác, độ dự báo và độ tin cậy sau mỗi lần thí nghiệm - Tính giá trị trung bình các độđo chất lượng (Bảng 3.2)

- 34 -

Bảng 3.2: Kết quả thực nghiệm bài toán chẩn đoán lớp virus C-class

Lần thSửố nghi virus ệm cSậốp nh virus ật phát hiSố virus ện cSảốnh báo virus Sbốỏ virus sót Độxác (%) chính báo (%) Độ dự cĐộậy (%) tin

1 1564 1042 1035 31 498 99.33 5.86 68.16 2 1452 968 958 23 471 98.97 4.66 67.56 3 1572 1048 1040 32 500 99.24 6.02 68.19 4 1315 877 868 19 428 99.01 4.25 67.45 5 1389 926 914 20 455 98.70 4.21 67.24 Trung bình: 99.05 5.00 67.72

Thuật toán có độ chính xác cao (99.05%). Tỷ lệ lỗi do các mẫu virus thử nghiệm có sự ghép nối mã lệnh (phát hiện virus thứ nhất trước khi truy vấn trọn vẹn virus thứ hai). Tuy nhiên với tỷ lệ dự báo 5% (chủ yếu là gọi sai tên virus), thuật toán c-Diagnose khó đưa ra khẳng định dương khi chẩn đoán các virus mới (là các mẫu virus chưa cập nhật trong CSDL SC). Khi tập mẫu virus text đủ lớn, có thể bổ sung các mô hình học tiên tiến khác trên lớp dữ liệu văn bản text.

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 52)