Virus lạ và dữ liệu NULL

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 103)

Các anti-virus sử dụng CSDL mẫu virus dạng 〈a1(x), a2(x),…, an(x)〉. Mỗi khi nhận được virus mới, các chuyên gia anti-virus sẽ phân tích và cập nhật chính xác

mẫu virus xi vào thư viện. Nhận dạng virus đã biết (known virus) là quá trình truy vấn dữ liệu chắc chắn (đầy đủ thông tin) trên CSDL. Virus lạ (unknown virus) là virus chưa được cập nhật vào CSDL.

Gọi S là tập mẫu của anti-virus AV, xđược gọi là virus lạđối với AV khi và chỉ khi x∉ S. Tổng quát, gọi X là tập các virus lạ, vậy thì SX = ∅. Bài toán so khớp chỉ thành công khi có đủ dữ liệu chính xác. Giả sử virus v biến thể thành virus

x = (a1, a2, …, bu,…, an). Khi vận dụng luật suy diễn (4.1) để chẩn đoán virus x, kết quả hiển nhiên là ¬qv do tồn tại ít nhất một buau (u=1÷n). Virus máy tính là đối tượng mang thông tin. Khi thiếu thông tin (do virus chưa được cập nhật vào CSDL), các AV sẽ không phát hiện được virus mới.

X0 Y0

X1 ?

J

I

Nearest neightbour Imputation

Donor file

Recipient file

Thực tế, ngoại trừ số ít các mầm độc khởi thủy (germ), phần lớn virus máy tính được phát triển qua nhiều phiên bản [53] hình thành nên các họ (family) virus (ví dụ các họ virus Netsky, Bugbear, Mydoom, Sobig,…). Mỗi thành viên trong họ đều kế thừa ít nhiều mã lệnh từ các phiên bản trước. Hình 4.15a biểu thị histogram

của sâu trình Klez.a.worm.W32, hình 4.15b là của Klez.h.worm.W32 - biến thể thứ bảy kể từ phiên bản đầu tiên của họ virus này. Biểu diễn mối tương quan giữa mã chỉ thị (0-255) và vị trí (0-255) của mã chỉ thị trong tập mã lệnh virus, biểu đồ này cung cấp hình ảnh trực quan về sự tương tự mã lệnh của các virus trong cùng họ.

Giả sử các virus x và virus v chỉ khác biệt nhau một trị thuộc tính thứu (tức là X-V = {au, bu}). Do sai sót khi cập nhật V, chuyên gia đã đưa vào trị bu thay vì au. Kết quả là khi sử dụng CSDL này, AV sẽ phát hiện virus x thay vì virus v.

Tình huống giảđịnh này cho thấy mối liên hệ giữa dữ liệu NULL trong các hệ KDD và các trị thuộc tính mới của biến thể virus. Trong ví dụ trên, các trị thuộc tính bu của một virus mới có ‘tác hại’ tương đương với các ô dữ liệu không chắc chắn trong CSDL virus. Nói cách khác, nếu xem các giá trị khác biệt bu trên mẫu chẩn đoán như dữ liệu NULL, việc dự báo virus mới có thể thực hiện được bằng các thuật giải xử lý nhiễu trong giai đoạn tinh chế của các hệ KDD.

0 50 100 150 200 256 1 16 31 46 61 76 91 106 121 136 151 166 181 196 211 226 241 256

(b). Executable code sequence of virus Klez.h.worm.W32

V al ue of E xec uta b le C ode 0 50 100 150 200 1 16 31 46 61 76 91 106 121 136 151 166 181 196 211 226 241 256

(a). Executable code sequence of virus Klez.a.worm.W32

V al ue of E xec uta b le C ode 256 Hình 4.15a: Biểu đồ mã lệnh của virus

- 86 -

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 103)