Bàn luận về phương pháp chẩn đoán lớp A-class

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 78)

Trong mô hình KGVT, “từ” là phần tử cơ bản của văn bản. Tập hợp các từ mẫu dùng phân loại văn bản gọi là “túi từ” (bag-of-words) [23]. Trong các bài toán phân loại ảnh, khái niệm “từ” được cải biên cùng với thuật ngữ keyblock [44], “túi từ” trở thành “túi mảnh ảnh” (bag-of-keypoints) [29]. Quan niệm malware như một tập dữ liệu phi ngữ nghĩa các từ máy, thuật ngữ “túi từ” của mô hình KGVT trong bài toán A-class có thể hiểu là “túi từ máy” (bag-of-machine words).

- 60 -

Một trong những trở ngại của mô hình KGVT là chi phí tính toán. Dễ nhận thấy rằng khi wRate = 1, bài toán A-class quay về bài toán chuỗi mã. Do đó để giảm tải quá trình xử lý ma trận dữ liệu, có thể loại bớt các trường hợp chắc chắc nhiễm bằng kỹ thuật chuỗi mã trước khi áp dụng bài toán A-class.

Chi phí của mô hình KGVT gồm (i) chi phí tính toán (đếm số từ của M xuất hiện trong các lớp) và (ii) chi phí cập nhật ma trận dữ liệu. Thứ nhất, do tần suất từ của các mẫu virus trong CSDL đã được tính ở giai đoạn học (trên máy chủ) nên chỉ cần chuyển số liệu này cho giai đoạn xử lý (trên máy trạm). Thứ hai, ma trận từ-tài liệu có 256 cột kiểu word nên chi phí cập nhật hàng ma trận chỉ tương đương với chi phí thao tác append một chuỗi unicode vào mảng string16 dài 512 byte của các ngôn ngữ lập trình. Hơn nữa, khi kết hợp mô hình KGVT với mô hình AMKBD theo nguyên tắc ‘không học lại những gì đã biết’, bài toán A-class chỉ tốn chi phí cho thao tác cập nhật ma trận dữ liệu vào lần chạy đầu tiên trên máy trạm.

3.4. Tổng kết chương

Cơ chế máy học chẩn đoán virus máy tính gồm năm bài toán:

Bài toán th nht chẩn đoán lớp virus C-class theo nguyên lý học vẹt cho các điểm dữ liệu ASCII-7bit, đối tượng lây của các loại sâu và file virus. Đây là mô hình kinh điển của các AV hướng chuỗi mã với thuật toán tìm kiếm tuần tự. Mặc dù khả năng dự báo không cao (5%) nhưng nhờ có độ chính xác rất cao (99.05%) nên kỹ thuật chuỗi mã vẫn được sử dụng để bổ khuyết cho các kỹ thuật khác.

Bài toán th hai chẩn đoán lớp virus D-class theo nguyên lý học tương tự cho các điểm dữ liệu MSOffice, đối tượng lây của các loại virus macro. Đầu tiên, không gian chẩn đoán được tổ chức dưới dạng một vector động các con trỏ tham chiếu đến danh sách macro trong từng paragraph của đối tượng chẩn đoán. Tiếp theo một thuật giải duyệt mảng sẽ thu thập danh sách macro và phân tích tập hành vi các macro có trong danh sách. Cuối cùng, xây dựng các hàm nhận dạng hành vi macro và tiến hành chẩn đoán bệnh cho đối tượng.

Bài toán th ba chẩn đoán lớp virus B-class theo nguyên lý học chỉ dẫn dựa vào tập miền định nghĩa khái niệm, áp dụng cho các MTKĐ là vật chủ của các loại

boot virus. Không gian tìm kiếm được tổ chức dưới dạng cây nhị phân cài đặt trên vùng nhớ ứng dụng của một máy ảo chẩn đoán có kiến trúc máy tính sử dụng CPU 80x86/Pentium. Một thuật giải tìm kiếm với tri thức bổ sung có nhiệm vụ thu thập và phân tích hành vi đối tượng trong ngăn xếp máy ảo để phát hiện boot virus

Bài toán th tư chẩn đoán lớp virus E-class theo nguyên lý học tình huống dựa trên mô hình kết hợp CSDL và CSTT để phát hiện tình huống thay đổi trạng thái của đối tượng thi hành thông qua cơ chếđa tác tử. Chạy ở mức nền trước, tác tử duyệt quét VSA thu thập thông tin đối tượng lưu vào CSDL VerifyDB. Ở mức nền sau, tác tử canh phòng VAA liên tục giám sát hệ thống. Khi có tình huống truy xuất đối tượng, VAA sẽ thu thập thông tin, truy vấn trên CSDL VerifyDB, đối chiếu với tập luật nhận dạng và phát cảnh báo. Phân tích tri thức quyết định của người dùng, hệ sẽ phục hồi nội dung/trạng thái đối tượng theo hướng tiếp cận ý định.

Bài toán th năm chẩn đoán lớp A-virus theo nguyên lý học quy nạp sử dụng mô hình không gian vector chẩn đoán các loại mã độc. Đầu tiên mẫu dữ liệu M

được biểu diễn thành các từ phân biệt. Ứng với mỗi từ, biểu diễn các mẫu virus trong CSDL dưới dạng ma trận từ-tài liệu có n cột, p hàng. Tiếp theo, quá trình rút trích đặc trưng sử dụng nguyên lý TF-IDF để tính trọng số các từ trong các nhóm virus. Sau đó tính độ tương đồng dữ liệu SIM của điểm chẩn đoán M so với các nhóm rồi chọn nhóm có SIM cao nhất. Cuối cùng tính tỷ lệ mã độc của M so với các mẫu virus trong nhóm để chọn ra mẫu có giá trị wRate lớn nhất. Nếu wRate vượt quá ngưỡng λ, có thể kết luận M là biến thể của mẫu virus này (mẫu có số từ giống với số từ của M nhiều nhất), là virus gần với đối tượng chẩn đoán nhất.

Dựa vào đặc điểm dữ liệu từng lớp virus, việc lựa chọn bài toán học cho các lớp hướng đến tính hiệu quả, phù hợp với thực tiễn sử dụng và bối cảnh nghiên cứu của đề tài. Khi có những thay đổi sâu sắc trên các lớp virus (ví dụ như các mô tả lớp, hành vi, đặc trưng dữ liệu…), có thể lựa chọn các bài toán học khác tốt hơn.

Chương 4 tiếp theo sẽ trình bày phương pháp thiết kế hệ thống qua ba giai đoạn tương ứng với ba mức xử lý của một hệ chuyên gia. Trong đó, thành phần hạt nhân của hệ sẽ chứa năm lớp bài toán đã xây dựng trong chương này.

Thiết kế xây dng h thng và thc nghim

Một phần của tài liệu luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH (Trang 78)