Thuật toán tìm siêu phẳng phân tách tối ƣu- 123docz.net

Đối với các bài toán tối ưu như đã nêu, vấn đề giải bài toán tối ưu để tìm tham số vector α* là công việc quan trọng của bài toán phân loại với phương pháp SVMs, khi tìm được vector α* việc học của bài toán phân loại văn bản theo phương pháp SVMs sẽ thành công. Khi đó, để phân loại văn bản, ta chỉ cần dựa vào những tham số đã học được và xét dấu hàm f(x) để đưa ra quyết định phân loại văn bản x.

Bài toán tối ưu có hàm mục tiêu là hàm bậc hai đối với vector α, thoả các điều kiện tuyến tính. Hàm mục tiêu và các ràng buộc của nó là hàm lồi trong không gian Rn, cho nên nó được gọi là bài toán QP lồi (Quadratic Programming). Trường hợp bài toán phân loại SVMs có nhiễu nêu trên là trường hợp bài toán QP lồi, nên nếu hàm mục tiêu đạt cực trị địa phương thì nó cũng sẽ đạt cực trị toàn cục. Bởi vậy, ý tưởng tìm α* của bài toán QP là tại mỗi bước lặp ta sẽ cập nhật lại giá trị cho mỗi cặp biến (αp, αq) trong tập hợp các biến {αi} (i = 1,…,m) mà việc thay đổi giá trị của cặp biến này sẽ làm tăng hàm mục tiêu nhiều nhất, các biến còn lại giữ nguyên. Quá trình lựa chọn cặp biến (αp, αq) để thay đổi giá trị được lặp đi lặp lại, cho đến khi không thể chọn được một cặp (αp, αq) nào mà có thể làm tăng hàm mục tiêu thêm được nữa và giá trị của α* = (α1,…,αm) tại bước này chính là lời giải của bài toán tối ưu.

Sau đây, em xin trình bày giải thuật 2v-SVM được áp dụng nhằm giải quyết trường hợp dữ liệu không thể phân tách tuyến tính.

Thuật toán tìm siêu phẳng phân tách tối ƣu

Các mô hình biểu diễn văn bản

Bài toán phân loại văn bản