Support Vector Machine

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện mã độc dựa trên phân tích mẫu (Trang 27 - 29)

CHƢƠNG II: MƠ HÌNH PHÁT HIỆN MÃ ĐỘC

2.2.2 Support Vector Machine

Support Vector Machines (SVM) là một thuật tốn phổ biến thường được dùng trong các bài tốn phân lớp. Ý tưởng chính là tìm kiếm một siêu mặt phẳng phân chia các lớp một cách tối ưu nhất. Khoảng cách giữa support vector và siêu mặt phẳng được gọi là khoảng cách biên (margin).

Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác. Mục đích thuật tốn SVM tìm ra được khoảng cách biên lớn nhất để tạo kết quả phân lớp tốt.

Dữ liệu huấn luyện của mơ hình SVM là tập các cặp dữ liệu

với là số chiều của dữ liệu, đại diện cho toạ độ

trong khơng gian của dữ liệu đầu vào, là nhãn của dữ liệu đĩ và là số lượng dữ liệu đầu vào. Ví dụ như hình sau:

Hình II-1: Ví dụ SVM bài tốn phân loại 2 lớp (nguồn: machinelearningcoban.com)

Dữ liệu đầu vào thuộc mặt phẳng 2 chiều, cĩ nhãn đại diện bởi các điểm hình vuơng màu xanh hoặc đại diện bởi các điểm hình trịn màu đỏ và cĩ đường thẳng làm mặt phẳng phân chia lớp. Để ý thấy khoảng cách từ một cặp dữ liệu bất kỳ bất kỳ tới mặt phẳng phân chia lớp là:

Như vậy margin sẽ là khoảng cách gần nhất từ một điểm dữ liệu tới mặt phẳng phân chia lớp. Margin được tính như sau:

Quá trình huấn luyện SVM chính là đi tối ưu để tìm và sao cho giá trị margin là lớn nhất:

{

Thuật tốn SVM thường cho kết quả khá chính xác, đặc biệt là đối với các tập dữ liệu “sạch”. Hơn nữa, nĩ cịn phù hợp với các tập dữ liệu nhiều chiều, kể cả khi số chiều nhiều hơn số lượng mẫu. Nĩ cũng hiệu quả với các tập dữ liệu cĩ nhiều nhiễu hoặc chồng chéo nhau. Tuy nhiên, thời gian huấn luyện cĩ thể rất lâu.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện mã độc dựa trên phân tích mẫu (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(58 trang)