Phân lớp sử dụng VM

Chương 2: B i toán phân lớp v phân tích quan điểm

2.4. Khái quát một số phương pháp phân lớp văn bản

2.4.2. Phân lớp s dụng các phương pháp học máy có giám sát

2.4.2.4. Phân lớp sử dụng VM

Thuật toán upport Vector Machine máy vector hỗ trợ được Corter v Vapnik giới thiệu v o năm 1995. VM dạng chuẩn nhận dữ liệu v o v phân loại chúng v o hai lớp khác nhau. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập VM xây d ng một mô hình VM để phân loại các ví dụ khác v o hai thể loại đó.

Ý tưởng:

Ý tưởng ch nh của thuật toán này là cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng lớp + và lớp -.

Chất lượng của iêu mặt phẳng n y được quyết định bởi khoảng cách gọi l biên của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng n y. Khoảng cách biên c ng lớn thì mặt phẳng quyết định c ng tốt đồng thời việc phân loại c ng chính xác. Mục đích thuật toán VM tìm ra được khoảng cách biên lớn nhất để tạo kết quả phân lớp tốt. Các ví dụ mới cũng được biểu diễn trong cùng một không gian v được thuật toán d đoán thuộc một trong hai lớp tùy v o ví dụ đó nằm ở phía n o của ranh giới. Ban đầu SVM được thiết kế để giải quyết b i toán phân lớp nhị phân hai lớp .

Thuật toán:

Trong mô hình học có giám át, thuật toán được cho trước một ố điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước. Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới ẽ được thuộc về lớp n o. Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p-chiều, v ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một iêu phẳng p − 1 chiều. Đây gọi l phân loại tuyến tính. Có nhiều iêu phẳng có thể phân loại được dữ liệu. Một l a chọn hợp l trong chúng l iêu phẳng có lề lớn nhất giữa hai lớp [27].

nh 2.5: iêu phẳng với lề c c đại cho một VM phân tách dữ liệu thuộc hai lớp

* Các ví dụ nằm trên lề được gọi l các vectơ hỗ trợ

Xét b i toán phân lớp đơn giản nhất – phân lớp hai lớp với tập dữ liệu mẫu:

{(xi, yi i = 1, … N, xi ∈ Rm, yi ∈ {−1, 1}}

Trong đó mẫu huấn luyện l các vector được phân lớp th nh các mẫu dương v mẫu âm như trong hình .5:

- Các mẫu dương l các mẫu xi thuộc lớp + v được gán nhãn yi = +1.

- Các mẫu âm l các mẫu xi không thuộc lớp -) v được gán yi = -1.

Bản chất phương pháp n y l một b i toán tối ưu với mục tiêu l tìm ra một không gian v iêu mặt phẳng quyết định h trên ao cho ai ố phân lớp l thấp nhất. Tập phân lớp VM l mặt iêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch c c đại, trong đó độ chênh lệch – còn gọi l Lề margin xác định bằng khoảng cách giữa các mẫu dương v các mẫu âm gần mặt iêu phẳng nhất hình .5 . Mặt iêu phẳng n y được gọi l mặt iêu phẳng lề tối ưu.

Các mặt iêu phẳng trong không gian đối tượng có phương trình l : C + w1x1 + w2x2 + … + wnxn = 0

Tương đương với:

C + ∑wixi = 0 (i=1, 2…n)

Với w = w1 + w2 + …+ wn l vector trọng ố, C l độ dịch, khi thay đổi w v C thì hướng v khoảng cách từ gốc toạ độ đến mặt iêu phẳng thay đổi.

Tập phân lớp VM được định nghĩa như au:

f x = ign C + ∑wixi) Trong đó:

ign z = +1 nếu z ≥ 0 sign(z) = -1 nếu z < 0

Nếu f x = +1 thì x thuộc về lớp dương, v ngược lại, nếu f x = -1 thì x thuộc về lớp âm.

Mục tiêu của phương pháp VM l ước lượng w v C để c c đại hoá lề giữa các lớp dữ liệu dương v âm. Các giá trị khác nhau của lề cho ta các họ iêu mặt phẳng khác nhau, v lề c ng lớn thì năng l c của máy học c ng giảm. Như vậy, c c đại hoá lề th c chất l việc tìm một máy học có năng l c nhỏ nhất. Quá trình phân lớp được coi l tối ưu khi ai ố phân lớp l c c tiểu.

Ta phải giải phương trình au:

Tìm ra được vector trọng ố w v ai ố của mỗi điểm trong tập huấn luyện l ξi từ đó ta có phương trình tổng quát của iêu phẳng tìm ra được bởi thuật toán VM l :

f(x1, x2,…, xn = C +∑ wixi

Với i = 1, 2…, n. Trong đó n l ố dữ liệu huấn luyện.

au khi đã tìm được phương trình của iêu phẳng bằng thuật toán VM, áp dụng công thức n y để tìm ra nhãn lớp cho các dữ liệu mới.

ọc v phân lớp VM, ử dụng một trong ố các h m nhân au:

- m tuyến tính linear: K (xi, xj) = xTi xj.

- m đa thức polynomial: K (xi, xj = γxiT xj + r)d, γ > 0.

- Hàm vòng RBF radial basis function (RBF): K (xi, xj = exp −γ||xi − xj||2 , γ > 0.

- m chữ igmoid: K (xi, xj = tanh γxiT xj + r).

Trong đó, γ, r, và d là các tham ố nhân [36].

nh 2.6: phân lớp VM sử dụng một số các h m nhân

Ưu nhược điểm:

Chúng ta có thể thấy thuật toán phân lớp VM có đặc điểm l yêu cầu văn bản phải được biểu diễn dưới dạng vector đặc trưng. Các thuật toán khác đều phải ử dụng các uớc lượng tham ố v ngưỡng tối ưu trong khi đó thuật toán VM có thể t tìm ra các tham ố tối ưu n y. Trong các phương pháp thì VM l phương pháp ử dụng không gian vector đặc trưng lớn nhất hơn 10.000 chiều .

Ch nh vì thế, SVM rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản.

Trong cơng trình của mình, Joachim đã o ánh VM với Nạve Baye ian, k- Nearest Neighbour, Rocchio và C4.5. Joachim đã chứng minh rằng VM l m việc rất tốt cùng với các đặc trưng được đề cập trước đây của văn bản. Các kết quả cho thấy rằng VM đưa ra độ chính xác phân lớp tốt nhất khi o ánh với các phương pháp khác [33][34].

Phân lớp sử dụng Nạve Bayes