Các nghiên cứu máy học nhận dạng virus máy tính

Một phần của tài liệu TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 44 - 46)

Các hệ học thường sử dụng các kỹ thuật học và rút luật tiêu biểu như thuật tốn Hybrid Algorithms (Clark & Niblett 1989); thuật tốn cây quyết định - Decision Tree Algorithms (C5.0, Quinlan-1993); thuật tốn luật kết hợp - Association Rule Algorithms (Kaufman và Michalski, 1999); các thuật tốn CLIP - Cover Learning Using Integer Linear Programming [20]…

- 26 -

Trong lĩnh vực nhận dạng virus máy tính, tiếp cận máy học cũng được vận dụng theo nhiều hướng khác nhau. Năm 1995, Lo và cộng sự [57] giới thiệu phương pháp lọc mã độc dựa vào phân tích đặc trưng và thuộc tính của chúng. Do khơng sử dụng mẫu thử nên phương pháp này cĩ ưu điểm là gọn nhẹ. Tuy nhiên các phương pháp nhận dạng mã độc bán tựđộng này cĩ độ chính xác khơng cao, dễ nhận dạng nhầm với các ứng dụng sạch cĩ đặc trưng thuộc tính giống mã độc.

Năm 1996, IBM đề xuất phương pháp thống kê dựa trên các thuật tốn nhận dạng tiếng nĩi để chương trình hĩa quá trình phân tích chuỗi mã của các chuyên gia trong thế giới thực, giúp hệ trích chọn chuỗi nhận dạng tựđộng [36]. Do đầu ra chỉ là chuỗi mã trích chọn của các đối tượng chẩn đốn nên chưa dự báo được đối tượng này cĩ phải là mã độc hay khơng.

Năm 1998, Spafford giới thiệu phương pháp phân tích diễn biến quá trình lây lan của sâu trình Internet trên cơ sở dữ liệu mã thực thi của sâu trình, phương pháp tấn cơng và vị trí các nút mạng bị tấn cơng [26]. Phương pháp này tái hiện lộ trình lây lan, qua đĩ dự báo được các tình huống tấn cơng tương tự của sâu trình trên các nút tiềm tàng. Tuy nhiên phương pháp này chạy chậm và chi phí cao, dễ quá tải khi mở rộng danh sách các nút mạng, cũng như khi bổ sung danh sách sâu trình.

Để giải quyết bài tốn nhận dạng mã độc, một nghiên cứu khác của IBM chọn mơ hình mạng trí tuệ nhân tạo ANN (Artificial Neural Networks) để phân lớp các mẫu tin khởi động (MTKĐ). Kết quả nghiên cứu cho thấy mơ hình này nhận dạng 80-85% các MTKĐ lạ với sai số dưới 1% trên các mẫu dương [31]. Tuy nhiên khi sử dụng ANN cho các đối tượng thi hành Win32, các chuyên gia IBM cũng chưa đưa ra được minh chứng thuyết phục nào cho hướng áp dụng này [68].

Trong khi các nhà khoa học tập trung nghiên cứu mơ hình máy học nhận dạng mã độc, các anti-virus tiếp tục sử dụng các kỹ thuật heurisic để trích chọn đặc trưng và phân lớp thủ cơng đối tượng chẩn đốn [24].

Năm 2001, các nhà nghiên cứu ở đại học Columbia (Mỹ) cơng bố kết quả nhận dạng mã độc sử dụng kỹ thuật học quy nạp Find-S (đạt 87.35%) và các phương pháp phân lớp Nạve Bayes (đạt 96.7%). Kết quả này cho thấy tiếp cận học

khá phù hợp để nhận dạng các loại mã độc Win32. Tuy nhiên theo các tác giả, đề tài gặp khĩ khăn trong việc chuẩn hĩa dữ liệu với các thuật tốn mã hĩa, giải mã phức tạp và kém hiệu quả trên các đối tượng chưa được phân lớp chính xác. Khi đánh giá chi phí, các tác giả chỉ nêu hạn chế của mơ hình phân lớp Nạve Bayes (sử dụng đến 1 GB bộ nhớ cho 4266 mẫu thử của 3265 mã độc và 1001 ứng dụng sạch) [47] mà khơng cơng bố các chi phí luyện học và tốc độ thực thi của hệ. Thơng thường CSDL của các AV cĩ hơn 10.000 virus. Muốn đạt hiệu quả từ bằng đến hơn các AV truyền thống, tiếp cận này cần số mẫu nhiều hơn ba lần so với bộ dữ liệu thử nghiệm, tức là chỉ các hệ thống với ít nhất 3 GB bộ nhớ mới phát huy được hiệu quả của cơng nghệ này. Hơn nữa, nghiên cứu này chỉ áp dụng trên định dạng Win32, chưa xây dựng mơ hình tổng quát của một hệ anti-virus theo hướng máy học hồn chỉnh.

Một phần của tài liệu TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 44 - 46)