2.2. Phương pháp sử dụng học máy
2.2.3. Thuật tốn máy hỗ trợ vector (SVM-Support Vector Machine)
Support vector Machine (SVM) là phương pháp tiếp cận phân loại rất hiệu quả được Vapnik và Chervonenkis xây dựng [5] để giải quyết vấn đề nhận dạng mẫu 2 lớp
sử dụng nguyên lý Cực tiểu Vapnik).
Ý tưởng
Cho trước một tập huấn luyện đ mỗi tài liệu là một điểm, ph
nhất cĩ thể chia các điểm tr và lớp –. Chất lượng của si biên) của điểmdữ liệu gần nhất lớn thì mặt phẳng quyết định c đích thuật tốn SVM tìm đư
Đường tơ đậm là siêu là những điểm gần siêu ph vector). Trong hình trên, gi
tuân theo luật phân bố chuẩn Gaussian, v một siêu phẳng phân cách đ
sai cho một điểm dữ liệu mới. Với giả thuyết ở tr sẽ trực giao với đoạn thẳng nối tâm của hai v
24
ểu hĩa Rủi ro cĩ Cấu trúc (Structural Risk Minimization) (theo
ớc một tập huấn luyện được biểu diễn trong khơng gian vector trong đĩ ột điểm, phương pháp này tìm ra một siêu mặt phẳng
ất cĩ thể chia các điểm trên khơng gian này thành hai lớp riêng biệt t ợng của siêu mặt phẳng này được quyết định bởi kho
ữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách bi ặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác. M
được khoảng cách biên lớn nhất.
Hình 5: Mơ tả thuật tốn SVM.
Hình 5: Mơ tả thuật tốn SVM.
à siêu phẳng tốt nhất và các điểm được bao bởi h êu phẳng nhất, chúng được gọi là các vector h vector). Trong hình trên, giả sử rằng các dữ liệu mẫu thuộc lớp âm v
ật phân bố chuẩn Gaussian, và được tạo ra với cùng một xác suất. Khi đĩ ẳng phân cách được gọi là lý tưởng nếu nĩ làm cực tiểu xác suất phân lớp ột điểm dữ liệu mới. Với giả thuyết ở trên thì siêu phẳng phân cách lý t
ới đoạn thẳng nối tâm của hai vùng cĩ mật độ xác suất lớn nhất. R uctural Risk Minimization) (theo
gian vector trong đĩ
ặt phẳng h quyết định tốt
ệt tương ứng lớp + ợc quyết định bởi khoảng cách (gọi là ảng cách biên càng àng chính xác. Mục
ợc bao bởi hình chữ nhật à các vector hỗ trợ (support ả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều ột xác suất. Khi đĩ ực tiểu xác suất phân lớp ẳng phân cách lý tưởng ật độ xác suất lớn nhất. Rõ ràng
Formatted: Normal, Indent: Left: line: 0.38", No bullets or numbering
Left: 0.25", First numbering
25
các siêu phẳng mà chúng ta xây dựng nhằm phân cách các điểm dữ liệu mẫu cĩ thể lệch đi rất nhiều so với siêu phẳng lý tưởng, do đĩ sẽ dẫn tới việc phân lớp khơng tốt trên dữ liệu mới sau này. Độ phức tạp của quá trình xác định siêu phẳng lý tưởng sẽ tăng theo số chiều của khơng gian đầu vào m, vì với một số lượng các dữ liệu mẫu cố định, tập hợp các siêu phẳng thực tế sẽ tăng theo hàm mũ với lũy thừa m. Với bài tốn phân lớp trang văn bản, m thường rất lớn, khoảng vài ngàn hay thậm chí là hàng triệu từ.
Theo lý thuyết thống kê được phát triển bởi Vapnik năm 1998 chỉ ra rằng chúng ta cĩ thể xác định một siêu phẳng tối ưu thoả mãn hai tính chất quan trọng: nĩ là duy nhất với mỗi tập dữ liệu học tách rời tuyến tính; và khả năng overfitting là nhỏ hơn so với các siêu phẳng khác. Định nghĩa biên M của bộ phân lớp là khoảng cách giữa các siêu phẳng và các dữ liệu học gần nhất. Siêu phẳng tối ưu nhất là siêu phẳng cĩ biên lớn nhất, điều đĩ cĩ nghĩa là chúng ta cần tìm siêu phẳng sao cho khoảng cách từ siêu phẳng đến những điểm gần nhất là lớn nhất. Vapnik cũng chứng minh rằng khả năng overfitting với siêu phẳng tối ưu nhỏ hơn so với các siêu phẳng khác.
Đường tơ đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support vector). Các đưđiũng chm gêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support
Cơng thức
SVM thực chất là một bài tốn tối ưu, mục tiêu của thuật tốn này là tìm được một
khơng gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phân loại là thấp
nhất. Phương trình siêu mặt phẳng chứa vector di trong khơng gian như sau:
i . + b = 0
Đặt
h( ⃗)= ⃗ − ⃗ + = +1, ⃗. ⃗ + > 0 −1, ⃗ . ⃗ + < 0
Bài tốn SVM cĩ thể giải bằng kỹ thuật sử dụng tốn tử Lagrange để biến đổi thành dạng đẳng thức. Khi các điểm khác bị xĩa đi thì thuật tốn vẫn cho kết quả giống như ban đầu. Chính đặc điểm này làm cho SVM khác với các thuật tốn khác như kNN,LLSF, NNet và NB vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu
Formatted: Indent: First line: 0.38"
Formatted: Font: (Default) Times New Roman, 13 pt, No underline, Font color: Auto Comment [t1]: Sai lõi chính tả.
Formatted: Font: (Default) Times New Roman, 13 pt
26
hĩa kết quả. Các phiên bản SVM tốt cĩ thể kể đến là SVMLight (Joachims trình bày năm 1998) và Sequential Minimal Optimization (SMO) (Platt trình bày năm 1998).
Phương pháp SVM được coi là phương pháp hiệu quả để giải quyết bài tốn phân l pháp SVM được coi là phương pháp hiệu quả để giải quyết bài tốn là SVMLight (Joachims trình bày năm 1u phẳng tối ưu nhất là siêu phẳng cĩ biên lớn nhất, điều đĩ cĩ nghĩa là chúng ta cần tìm siêu phẳng sao cho khoảng cách từ siêu phẳng đến những đi phân lớp văn bản sử dụng phương pháp SVM thì việc lựa chọn thuộc tính cho từng phân lớp lại là vấn đề cực kỳ quan trọng, nĩ quyết định đến hiệu quả của phân lớp.
Phương pháp SVM cĩ thể tránh được over-fiting thường gặp trong bài tốn phân lớp.Ưu đig pháp SVM cĩ thể tránh được over-fiting thường gặp trong bài tốn phân lớp. khơng gian nh xác. Mục đích thuật tốn SVM tì thể được áp dụng cho nhiều bài tốn như: Nhận dạng kuơn mặt, nhận dạng chận dạng kuơn mặt, nhận dạng i c over-fiting thường gặp trong bài Tuy nhiên SVM cũng cĩ một số nhược điểm như SVM chhiên SVthiết kế cho phân lớp nhị phân. Tuy nhiên trong thlớp nhị phân. ược điểm như thường
2.2.4. Mơ hình Entropy cực đại (Maximum Entropy) 2.2.4.1. Nguyên lý Entropy cực đại 2.2.4.1. Nguyên lý Entropy cực đại
Đối với bài tốn phân lớp dữ liệu, Entropy cực đại là một kỹ thuật dùng để ước lượng xác suất các phân phối từ dữ liệu. Tư tưởng chủ đạo của nguyên lý Entropy cực đại là “mơ hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt được độ cân bằng/đều nhất cĩ thể”. Tập dữ liệu học (tức là tập gồm các dữ liệu đã được gán nhãn) được sử dụng để tìm ra các ràng buộc cho mơ hình, đĩ là cơ sở để ước lượng phân phối cho từng lớp cụ thể. Những ràng buộc này được thể hiện bởi các giá trị ước lượng được của các đặc trưng. Từ các ràng buộc sinh ra bởi tập dữ liệu này, mơ hình sẽ tiến hành tính tốn để cĩ được một phân phối cho Entropy cực đại.
Ví dụ một mơ hình Entropy cực đại: “Giả sử với bộ phân lớp về lĩnh vựcphạm tội trên báo VnExpress.net cĩ bốn lớp chính được chỉ ra là lừa đảo, cướp giật, ma túy, giết người. Các thống kê dữ liệu chỉ ra rằng trung bình 70% các tài liệu trong lớp lừa
đảo cĩ chứa từ lừa_đảo. Như vậy một cách trực quan cĩ thể thấy rằng nếu một tài liệu
Formatted: Font: (Default) Times New Roman, 13 pt, No underline, Font color: Auto
Formatted: Font: (Default) Times New Roman, 13 pt
Formatted: Space Before: 0 pt, Line spacing: 1.5 lines
27
D cĩ chứa từ lừa_đảo thì xác suất được phân vào lớp lừa đảo là 70% và xác suất phân vào ba lớp cịn lại là 10% đối với mỗi lớp. Nếu tài liệu D khơng chứa từ lừa_đảo thì xác
suất phân phối của D là 25% đều cho mỗi lớp.” Trong ví dụ trên, “nếu tài liệu chứa cụm
từ lừa_đảo thì cĩ xác suất phân vào lớp lừa đảo là 70%” là một ràng buộc của mơ hình.