Kỹ thuật phân loại máy vector hỗ trợ

Một phần của tài liệu Kỹ thuật phân lớp dữ liệu và ứng dụng trong phát hiện mã độc (Trang 48 - 50)

2.5.1. Giới thiệu

Máy vector hỗ trợ là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phƣơng pháp học cĩ giám sát liên quan đến nhau để phân loại và phân tích hồi qui. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đĩ SVM là một thuật tốn phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trƣớc, thuật

tốn luyện tập SVM xây dựng một mơ hình SVM để phân loại các ví dụ khác vào hai thể loại đĩ. Một mơ hình SVM là một cách biểu diễn các điểm trong khơng gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất cĩ thể. Các ví dụ mới cũng đƣợc biểu diễn trong cùng một khơng gian và đƣợc thuật tốn dự đốn thuộc một trong hai thể loại tùy vào ví dụ đĩ nằm ở phía nào của ranh giới.

Một máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một khơng gian nhiều chiều hoặc vơ hạn chiều, cĩ thể đƣợc sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Một cách trực giác, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt, vì nĩi chung lề càng lớn thì sai số tổng quát hĩa của thuật tốn phân loại càng bé.

Trong nhiều trƣờng hợp, khơng thể phân chia các lớp dữ liệu một cách tuyến tính trong khơng gian dùng để mơ tả vấn đề. Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong khơng gian ban đầu vào một khơng gian mới nhiều chiều hơn, vì việc phân tách chúng trở nên dễ dàng hơn trong khơng gian đĩ. Để việc tính tốn đƣợc hiệu quả, ánh xạ sử dụng trong thuật tốn SVM chỉ địi hỏi giá trị tích vơ hƣớng của các vectơ dữ liệu trong khơng gian lớn hơn mà khơng cần đến tọa độ của chúng. Tích vơ hƣớng này đƣợc xác định bằng một hàm hạt nhân k(x,y) phù hợp.

Một siêu phẳng trong khơng gian mới đƣợc định nghĩa là tập hợp các điểm cĩ tích vơ hƣớng với một vectơ cố định trong khơng gian đĩ là một hằng số. Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các vectơ dữ liệu luyện tập trong khơng gian mới với các hệ số i . Với siêu phẳng lựa chọn nhƣ trên, các điểm x trong khơng gian đặc trƣng đƣợc ánh xạ vào một siêu mặt phẳng là các điểm thỏa mãn: Σi αi

K(xi,x) = hằng số.

Ghi chú rằng nếu K(x,y) nhận giá trị ngày càng nhỏ khi y xa dần khỏi x thì mỗi số hạng của tổng trên đƣợc dùng để đo độ tƣơng tự giữa x với điểm xi tƣơng ứng trong dữ liệu luyện tập. Nhƣ vậy, tác dụng của tổng trên chính là so sánh khoảng cách giữa điểm cần dự đốn với các điểm dữ liệu đã biết. Lƣu ý là tập hợp các điểm x đƣợc ánh xạ vào một siêu phẳng cĩ thể cĩ độ phức tạp tùy ý trong khơng gian ban đầu, nên cĩ thể phân tách các tập hợp thậm chí khơng lồi trong khơng gian ban đầu.

Phân loại thống kê là một nhiệm vụ phổ biến trong học máy. Trong mơ hình học cĩ giám sát, thuật tốn đƣợc cho trƣớc một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trƣớc. Mục tiêu của thuật tốn là xác định xem một điểm dữ liệu mới sẽ đƣợc thuộc về lớp nào. Mỗi điểm dữ liệu đƣợc biểu diễn dƣới dạng một vector p-chiều, và ta muốn biết liệu cĩ thể chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1 chiều. Đây gọi là phân loại tuyến tính. Cĩ nhiều siêu phẳng cĩ thể phân loại đƣợc dữ liệu. Một lựa chọn hợp lý trong chúng là siêu phẳng cĩ lề lớn nhất giữa hai lớp.

Một phần của tài liệu Kỹ thuật phân lớp dữ liệu và ứng dụng trong phát hiện mã độc (Trang 48 - 50)