Phương pháp học máy SVM là phương pháp học có giám sát để nhận dạng mẫu (xem [3,6]). Trong phương pháp này, dựa trên tập dữ liệu huấn luyện đã có:
D = { } , (6.1)
trong đó là các đối tượng có đặc trưng và là nhãn lớp của nó. Người ta sẽ phân lớp theo từng loại nhãn bằng hàm phân biệt tuyến tính:
∑ (6.2)
sao cho nó xác định lề cực đại.
Khi tập mẫu không tách được tuyến tính, người ta dùng biên mềm. Các hệ số và của hàm phân biệt có thể xác định nhờ giải bài toán quy hoạch:
Cực tiểu hàm:
‖ ‖ ∑ (6.3a)
115
, (6.3b)
, (6.3c)
trong đó là hằng số dương biểu thị mức phạt các điểm phân lớp sai, trường hợp tách được tuyến tính ứng với .
Để tăng chất lượng nhận dạng, người ta dùng ánh xạ nhúng không gian đặc trưng lên không gian có số chiều lớn hơn. Ánh xạ thường được xác định qua hàm nhân:
‖ ‖ (6.4a)
và: = (u, ) (6.4b)
trong đó được chọn trước.
Zinzen và các cộng sự [71] chọn các hằng số C, trên một lưới sao cho kết quả nhận dạng các lớp có sai số nhỏ nhất. Với mỗi cặp giá trị trên lưới được chọn, tập huấn luyện được dùng để huấn luyện các bộ phân lớp (dùng SVM ở [73]) theo phương pháp với (còn gọi là phương pháp Leave One Out). Với mỗi đối tượng bỏ ra, người ta huấn luyện bộ phân lớp dựa trên tập còn lại và nhận dạng cho đối tượng này để kiểm tra. Sau khi xoay vòng hết thì người ta đánh giá tỷ lệ sai để xác định sai số cho cặp giá trị tham số tương ứng. Cặp giá trị với sai số nhỏ nhất được dùng để huấn luyện bộ nhận dạng. Phần mềm dự đoán theo phương pháp này có ở [78] và được dùng để so sánh với phương pháp mới. Sơ đồ đánh giá hiệu quả dự đoán của tham số cho SVM này được minh họa trong hình 6.2.
116
Hình 6.2: Sơ đồ đánh giá hiệu quả tham số SVM
Mặc dù phương pháp tìm kiếm tham số trên lưới là thông dụng trong Y-Sinh nhưng nhược điểm cơ bản của nó là không thể tìm kiếm trên lưới dày (bước lưới nhỏ) vì vậy, khi đó không cải thiện được lời giải. Để tăng chất lượng dự đoán, luận án đề xuất ứng dụng thuật toán di truyền [26] và phương pháp ACO [23] để xác định tham số SVM.