Các nghiên cứu máy học nhận dạng virus máy tính

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 44)

Các hệ học thường sử dụng các kỹ thuật học và rút luật tiêu biểu như thuật toán Hybrid Algorithms (Clark & Niblett 1989); thuật toán cây quyết định - Decision Tree Algorithms (C5.0, Quinlan-1993); thuật toán luật kết hợp - Association Rule Algorithms (Kaufman và Michalski, 1999); các thuật toán CLIP - Cover Learning Using Integer Linear Programming [20]…

- 26 -

Trong lĩnh vực nhận dạng virus máy tính, tiếp cận máy học cũng được vận dụng theo nhiều hướng khác nhau. Năm 1995, Lo và cộng sự [57] giới thiệu phương pháp lọc mã độc dựa vào phân tích đặc trưng và thuộc tính của chúng. Do không sử dụng mẫu thử nên phương pháp này có ưu điểm là gọn nhẹ. Tuy nhiên các phương pháp nhận dạng mã độc bán tựđộng này có độ chính xác không cao, dễ nhận dạng nhầm với các ứng dụng sạch có đặc trưng thuộc tính giống mã độc.

Năm 1996, IBM đề xuất phương pháp thống kê dựa trên các thuật toán nhận dạng tiếng nói để chương trình hóa quá trình phân tích chuỗi mã của các chuyên gia trong thế giới thực, giúp hệ trích chọn chuỗi nhận dạng tựđộng [36]. Do đầu ra chỉ là chuỗi mã trích chọn của các đối tượng chẩn đoán nên chưa dự báo được đối tượng này có phải là mã độc hay không.

Năm 1998, Spafford giới thiệu phương pháp phân tích diễn biến quá trình lây lan của sâu trình Internet trên cơ sở dữ liệu mã thực thi của sâu trình, phương pháp tấn công và vị trí các nút mạng bị tấn công [26]. Phương pháp này tái hiện lộ trình lây lan, qua đó dự báo được các tình huống tấn công tương tự của sâu trình trên các nút tiềm tàng. Tuy nhiên phương pháp này chạy chậm và chi phí cao, dễ quá tải khi mở rộng danh sách các nút mạng, cũng như khi bổ sung danh sách sâu trình.

Để giải quyết bài toán nhận dạng mã độc, một nghiên cứu khác của IBM chọn mô hình mạng trí tuệ nhân tạo ANN (Artificial Neural Networks) để phân lớp các mẫu tin khởi động (MTKĐ). Kết quả nghiên cứu cho thấy mô hình này nhận dạng 80-85% các MTKĐ lạ với sai số dưới 1% trên các mẫu dương [31]. Tuy nhiên khi sử dụng ANN cho các đối tượng thi hành Win32, các chuyên gia IBM cũng chưa đưa ra được minh chứng thuyết phục nào cho hướng áp dụng này [68].

Trong khi các nhà khoa học tập trung nghiên cứu mô hình máy học nhận dạng mã độc, các anti-virus tiếp tục sử dụng các kỹ thuật heurisic để trích chọn đặc trưng và phân lớp thủ công đối tượng chẩn đoán [24].

Năm 2001, các nhà nghiên cứu ở đại học Columbia (Mỹ) công bố kết quả nhận dạng mã độc sử dụng kỹ thuật học quy nạp Find-S (đạt 87.35%) và các phương pháp phân lớp Naïve Bayes (đạt 96.7%). Kết quả này cho thấy tiếp cận học

khá phù hợp để nhận dạng các loại mã độc Win32. Tuy nhiên theo các tác giả, đề tài gặp khó khăn trong việc chuẩn hóa dữ liệu với các thuật toán mã hóa, giải mã phức tạp và kém hiệu quả trên các đối tượng chưa được phân lớp chính xác. Khi đánh giá chi phí, các tác giả chỉ nêu hạn chế của mô hình phân lớp Naïve Bayes (sử dụng đến 1 GB bộ nhớ cho 4266 mẫu thử của 3265 mã độc và 1001 ứng dụng sạch) [47] mà không công bố các chi phí luyện học và tốc độ thực thi của hệ. Thông thường CSDL của các AV có hơn 10.000 virus. Muốn đạt hiệu quả từ bằng đến hơn các AV truyền thống, tiếp cận này cần số mẫu nhiều hơn ba lần so với bộ dữ liệu thử nghiệm, tức là chỉ các hệ thống với ít nhất 3 GB bộ nhớ mới phát huy được hiệu quả của công nghệ này. Hơn nữa, nghiên cứu này chỉ áp dụng trên định dạng Win32, chưa xây dựng mô hình tổng quát của một hệ anti-virus theo hướng máy học hoàn chỉnh.

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 44)