SVM cho bài toán phi tuyến

Một phần của tài liệu Tìm kiếm CVs tương ứng với yêu cầu tuyển dụng (Trang 32 - 35)

5. Bố cục luận văn

3.4SVM cho bài toán phi tuyến

Trong nhiều ứng dụng, một bộ phân lớp phi tuyến có độ chính xác cao hơn. Tuy nhiên, phân lớp tuyến tính có một lợi thế đó là các thuật toán đơn giản. Việc phân loại SVM cho bài toán phi tuyến theo các bước sau:

Bước 1: Chuyển đổi không gian biểu diễn đầu vào sang một không gian khác, dữ liệu được biểu diễn trong không gian mới này có thể phân lớp tuyến tính.

Bước 2: Áp dụng lại các công thức và các bước như trong bài toán phân lớp SVM tuyến tính.

Ý tưởng cơ bản ở đây là ánh xạ dữ liệu cho một không gian véc tơ X nào đó sang một không gian khác F bằng cách sử dụng hàm ánh xạ phi tuyến ϕ.

Hàm đó là:

g N =< M . ϕ(x)> +b

Trong không gian chuyển đổi, tập dữ liệu học ban đầu {(x1, y1), (x2, y2),…, (xm, ym)}được biểu diễn (ánh xạ) tương ứng :

{( ϕ (x1), y1), (ϕ (x2), y2),…, (ϕ (xm), ym)}

Lưu ý rằng f(x) là tuyến tính trong không gian đặc trưng được định nghĩa bởi ánh xạ f, nhưng khi nhìn trong không gian đầu vào ban đầu nó là một hàm số phi tuyến x nếu f(x) là một hàm phi tuyến. Ví dụ đơn giản nhất của ánh xạ là xem xét tất cả các tích của các cặp (liên quan đến nhân đa thức). Kết quả là một bộ phân loại có dạng hàm phân tách bậc hai. Cách tiếp cận tính toán trực tiếp các đặc trưng phi tuyến này khó mở rộng cho số lượng đầu vào lớn. Chiều của không gian đặc trưng liên quan kích thước của không gian đầu vào. Nếu chúng ta sử dụng đơn thức bậc d cao hơn 2, số chiều sẽ lũy thừa theo d, kết quả là tăng sử dụng bộ nhớ và thời gian cần thiết để tính toán các hàm phân tách. Nếu dữ liệu nhiều chiều, chẳng hạn như trong trường hợp dữ liệu biểu hiện gen, thì rất phức tạp. Phương pháp nhân tránh điều phức tạp này bằng cách ánh xạ dữ liệu tới không gian đặc trưng nhiều chiều hơn.

Hàm nhân (hàm nhân) k(x, x’) được định nghĩa là: K(x, x’)= <ϕ(x) . ϕ(x’)>

Hàm này có thể được tính toán một cách hiệu quả. Dạng đối ngẫu cho phép giải quyết vấn đề mà không cần thực hiện ánh xạ ϕ vào một không gian có nhiều chiều. Các vấn đề tiếp theo là xác định các độ đo tương tự (hàm nhân) có thể

được tính một cách hiệu quả. Hai hàm nhân phổ biến nhất được sử dụng cho các dữ liệu thực là đa thức nhân và nhân Gaussian.

Bậc d của đa thức nhân được định nghĩa là:

y%,9z{|}.{i/~| N, N = (< N. N > +y)% ; y ∈ Ä, V ∈ Å

Bậc của nhân đa thức kiểm soát sự linh hoạt của bộ phân lớp (hình 3.5). Đa thức bậc thấp nhất là nhân tuyến tính. Hàm nhân này không đủ tốt nếu không gian đặc trưng là phi tuyến. Đối với các dữ liệu trong hình 3.5 ở đa thức bậc 2 đã đủ linh hoạt để phân biệt giữa hai lớp với một biên tốt. Đa thức bậc 5 định lượng một ranh giới quyết định tương tự, với độ cong lớn hơn.

Hình 3.5 Mức độ tác động của nhân đa thức

Nhân thứ hai được sử dụng rộng rãi là nhân Gaussian (σ)được xác định bởi:

yÇÉ~ÑÖÖ/~Ü N, N = exp −1

ä N − N ^ ; ä > 0 (46)

Trong đó σ > 0 là một tham số điều khiển độ rộng của Gaussian. Nó đóng một vai trò tương tự như bậc của nhân đa thức trong việc kiểm soát sự linh hoạt của bộ phân lớp (hình 3.4 - 3.5). Nhân Gaussian cơ bản là bằng không nếu khoảng cách bình phương N − N ^ là lớn hơn nhiều so với σ, tức là cho x’ cố định là một vùng xung quanh x’ với các giá trị nhân cao.

Hình 3.6 Ảnh hưởng của số chiều nhân Gaussian

Một phần của tài liệu Tìm kiếm CVs tương ứng với yêu cầu tuyển dụng (Trang 32 - 35)