Vector hỗ trợ hồi quy (SVR)

5. Ý nghĩa khoa học và thực tiễn của đề tài

2.2. Vector hỗ trợ hồi quy (SVR)

SVR ban đầu đƣợc đề xuất bởi Drucker và cộng sự [19], là một kỹ thuật học có giám sát, dựa trên khái niệm về các vectơ hỗ trợ của Vapnik. SVR nhằm mục đích giảm lỗi bằng cách xác định siêu phẳng và giảm thiểu phạm vi giữa các giá trị đƣợc dự đoán và quan sát.

Ý tƣởng cơ bản của SVR là ta sẽ ánh xạ không gian đầu vào (mà nếu ta áp dụng hồi qui tuyến tính thì không hiệu quả) sang một không gian mới cao chiều hơn mà ở đó, ta có thể áp dụng đƣợc hồi qui tuyến tính.

Đặc điểm của SVR là cho ta một giải pháp thƣa; nghĩa là để xây dựng đƣợc hàm hồi qui, ta không cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn luyện.

Hình 2.3. Mô hình mạng SVR so sánh với SVC

Những điểm có đóng góp vào việc xây dựng hàm hồi qui đƣợc gọi là những Support Vector.

Điểm mạnh của SVR là sử dụng tối ƣu hóa rủi ro cấu trúc (structural risk minimization), nhờ đó mà khả năng tổng quát hóa cao, tránh overfit

(ANN thì dễ bị overfit). Hơn nữa, hàm mục tiêu của SVR là hàm-convex‖, do đó điểm cực trị tìm đƣợc sẽ là cực trị toàn cục (hàm mục tiêu của ANN thì không nhƣ vậy, nó có nhiều điểm cực trị và dẫn đến cực trị tìm đƣợc thƣờng là cực trị cục bộ).

Một số ƣu, nhƣợc điểm của SVR có thể kể đến:

Ƣu điểm:

 Sử dụng tối ƣu hóa rủi ro cấu trúc (structural risk minimization), nhớ đó mà khả năng tổng quát hóa cao, tránh đƣợc vấn đề quá khớp (overfitting).

 Giải pháp tìm đƣợc sau cùng là giải pháp tối ƣu toàn cục.

Nhƣợc điểm:

 Để hiểu đƣợc thuật toán là điều không đơn giản. Việc cài đặt thuật toán cũng phức tạp.

Với bài toán hồi qui tuyến tính đơn giản, ta phải minimize hàm lỗi chuẩn hóa:

∑ { }

Để có đƣợc một giải pháp thƣa, ta sẽ thay hàm lỗi trên bằng hàm lỗi độ nhạy cảm .

Đặc điểm của hàm lỗi này là nếu trị tuyệt đối của sự sai khác giữa giá trị dự đoán với giá trị đích nhỏ hơn (với > 0) thì nó coi nhƣ độ lỗi bằng 0.

{ Để hiểu thêm về SVR, ta xem hình 2.4:

Hình 2.4: Minh họa hàm lỗi thông thƣờng và hàm lỗi độ nhạy

Trong đó, đƣờng màu xanh là hàm lỗi bậc hai thông thƣờng; đƣờng màu đỏ là hàm lỗi độ nhạy ε. Nhƣ vậy bây giờ, ta phải tối thiểu hàm lỗi chuẩn hóa sau:

∑

Với:

Trong phần này, chúng tôi trình bày về lý thuyết đằng sau các phƣơng trình SVR đƣợc đƣa ra, dựa trên công thức của Vapnik (1995)[11]. Xem xét một tập dữ liệu huấn luyện T:

{ } (2.1) Với là đầu vào đào tạo và là các kết quả đào tạo. Giả sử một hàm phi tuyến tính, nhƣ sau:

Với là trọng số vector, là độ lệch và là không gian đặc trƣng cao chiều, đƣợc ánh xạ tuyến tính từ không gian đầu vào . Giả sử rằng mục tiêu là khớp dữ liệu bằng cách tìm một hàm mà có độ lệch lớn nhất so với mục tiêu thực tế, cho tất cả dữ liệu huấn luyện , và đồng thời càng nhỏ càng tốt. Do đó, công thức (2.2) đƣợc biến đổi thành một bài toán tối ƣu hóa lồi có giới hạn nhƣ sau:

(2.3) {

Với là do ngƣời dùng định nghĩa và thể hiện độ lệch tối đa có thể chấp nhận đƣợc.

Công thức (2.3) có thể đƣợc viết lại nhƣ sau:

(2.4) {

Mục tiêu của hàm mục tiêu trong công thức (2.4) là làm cho hàm “phẳng” hết mức có thể, nghĩa là, để làm “nhỏ” nhất có thể trong khi vẫn thỏa mãn các ràng buộc. Để giải quyết công thức (2.4), các biến bù đƣợc đƣa ra để đối phó với khả năng không khả thi có thể xảy ra trong vấn đề tối ƣu hóa. Một giả định thầm lặng ở đây là thực sự tồn tại; nói cách khác, vấn đề tối ƣu hóa lồi là khả thi. Tuy nhiên, điều này không phải lúc nào cũng xảy ra; vì vậy, ngƣời tá có thể muốn đánh đổi sai số bằng tính ổn định của ƣớc tính. Ý tƣởng này dẫn đến các công thức nguyên thủy sau đây đã nêu trong

Vapnik (1995)[11]: ∑ (2.5) {

Với là hằng số chính quy đƣợc chỉ định trƣớc và đại diện cho trọng số của hàm mất mát. Số hạng đầu tiên trong hàm mục tiêu là thuật ngữ chính quy và làm cho hàm “phẳng” nhất có thể trong khi số hạng thứ hai ∑ đƣợc gọi là hạng thực nghiệm và đo lƣờng hàm mất mát có mức nhạy cảm . Theo công thức (2.5), tất cả các điểm dữ liệu có giá trị khác với nhiều hơn một khoảng , thì bị phạt. Các biến bù, và tƣơng ứng với kích thƣớc của mức vƣợt quá của độ lệch trên và dƣới, tƣơng ứng, đƣợc biểu diễn trong hình 2.2. Khối là độ lệch lớn nhất và tất cả các điểm dữ liệu bên trong ống này không góp phần vào mô hình hồi quy vì hệ số của chúng bằng không.

Trong hình 2.5: Bên trái mô tả đƣờng ống của độ chính xác và các điểm không đạt đƣợc độ chính xác này. Các chấm phía sau nằm trên hoặc bên ngoài ống là các vector hỗ trợ. Bên phải, hàm mất mát tuyến tính nhạy cảm đƣợc thể hiện với độ dốc đƣợc xác định bởi .

Các điểm dữ liệu bên ngoài ống này hoặc nằm trên ống này đƣợc sử dụng để xác định quyết định và chúng đƣợc gọi là các vector hỗ trợ và có hệ số khác 0. Phƣơng trình (2.5) giả định hàm mất mát nhạy cảm (Vapnik, 1995)[11] nhƣ trong Hình 2.5 và đƣợc định nghĩa nhƣ sau:

{ (2.6) Để giải quyết công thức (2.5), một số nhân Lagrangian đƣợc giới thiệu theo thứ tự để loại bỏ một số biến cơ bản. Do đó, Lagrangian của công thức (2.5) đƣợc cho sẽ là:

∑ ∑ (2.7) ∑ ∑

Phƣơng trình (2.7) cho phép sự mở rộng SVM thành các hàm phi tuyến. Nó đƣợc dẫn từ các điều kiệm điểm yên ngựa (điểm mà hàm mục tiêu ban đầu là cực tiểu và hàm mục tiêu kép là cực đại) mà các đạo hàm riêng của

đối với các biến cơ bản phải biến mất để đạt đƣợc độ tối ƣu. Do đó, ∑ (2.8) ∑ (2.9) (2.10) Trong đó (*) biểu thị các biến có + và – ký tự trên. Thay thế (2.8) và (2.10) thành (2.7) cho phép các miền trong và biến mất. Ngoài ra, công thức (2.10) có thể đƣợc chuyển đổi thành [ ]. Do đó, thay thế các công thức (2.8) và (2.10) thành (2.7) giải quyết vấn đề tối ƣu hóa kép:

Tối đa ∑ ∑ ∑

(2.11) Tùy thuộc vào {∑

[ ]

Với ( ) là các hàm kernel. Tính linh hoạt của một hàm kernel cho phép kỹ thuật tìm kiếm phạm vi rộng của không gian giải pháp. Hàm kernel cho phép các xấp xỉ hàm không tuyến tính với kỹ thuật SVM, trong khi vẫn duy trì tính đơn giản và hiệu quả tính toán của các xấp xỉ SVM tuyến tính. Một hàm kernel phải là xác định dƣơng để đảm bảo một giải pháp tối ƣu duy nhất cho bài toán tối ƣu hóa bậc hai. Một số hàm kernel phổ biến là nhân đa thức (polynomial), hàm linear, hàm sigmoid và hàm kernel cơ sở xuyên tâm Gaussian (RBF).

Cơ sở toán học của hàm kernel

Một số hàm kernel thông dụng