Thuật tốn Máy hỗ trợ Vector (Support Vector Machines)

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 76 - 79)

Support Vector Machines được phát triển cho các vấn đề phân lớp nhị phân, mặc dù các phần mở rộng cho kỹ thuật đã được thực hiện để hỗ trợ các vấn đề phân lớp và hồi quy đa lớp. Thuật tốn thường được gọi là SVM cho ngắn. SVM được phát triển cho các biến đầu vào số, mặc dù sẽ tự động chuyển đổi các giá trị danh nghĩa thành giá trị số. Dữ liệu đầu vào cũng được chuẩn hĩa trước khi được sử dụng.

SVM hoạt động bằng cách tìm một dịng phân tách tốt nhất dữ liệu thành hai nhĩm. Điều này được thực hiện bằng cách sử dụng một quy trình tối ưu hĩa chỉ xem xét các trường hợp dữ liệu đĩ trong tập dữ liệu huấn luyện gần nhất với dịng phân tách tốt nhất các lớp. Các thể hiện được gọi là vectơ hỗ trợ, do đĩ tên của kỹ thuật. Trong hầu hết tất cả các vấn đề quan tâm, một dịng khơng thể được rút ra để phân tách gọn gàng các lớp. Do đĩ, một lề được thêm vào xung quanh dịng để giảm bớt ràng buộc, cho phép một số trường hợp bị phân lớp sai nhưng cho phép kết quả tổng thể tốt hơn.

Cuối cùng, một vài bộ dữ liệu cĩ thể được tách ra chỉ bằng một đường thẳng. Đơi khi một đường cĩ các đường cong hoặc thậm chí các vùng đa giác cần được đánh dấu. Điều

này đạt được với SVM bằng cách chiếu dữ liệu vào khơng gian chiều cao hơn để vẽ các đường và đưa ra dự đốn. Các hạt nhân khác nhau cĩ thể được sử dụng để kiểm sốt phép chiếu và mức độ linh hoạt trong việc tách các lớp.

Chọn thuật tốn Máy hỗ trợ Vector (Support Vector Machines):

1. Nhấp vào nút “Choose” và chọn “SMO” trong nhĩm “Function”. 2. Nhấp vào tên của thuật tốn để xem lại cấu hình thuật tốn.

Hình 3. 16. Cấu hình Weka cho thuật tốn Máy hỗ trợ Vector (Support Vector Machines).

Tham số C, được gọi là tham số độ phức tạp trong Weka kiểm sốt mức độ linh hoạt của quy trình vẽ đường phân tách các lớp cĩ thể. Giá trị 0 cho phép khơng vi phạm ký quỹ, trong khi mặc định là 1.

Một tham số chính trong SVM là loại Kernel sẽ sử dụng. Hạt nhân đơn giản nhất là hạt nhân tuyến tính phân tách dữ liệu bằng một đường thẳng hoặc siêu phẳng. Mặc định trong Weka là một hạt nhân đa thức sẽ phân tách các lớp bằng cách sử dụng một đường cong hoặc uốn lượn, đa thức càng cao, càng lung lay (giá trị số mũ).

Một hạt nhân phổ biến và mạnh mẽ là Kernel RBF hoặc Radial Basis Function Kernel cĩ khả năng học các đa giác khép kín và các hình dạng phức tạp để phân tách các lớp.

Đĩ là một ý tưởng tốt để thử một bộ các giá trị hạt nhân và C (độ phức tạp) khác nhau về vấn đề của bạn và xem cái gì hoạt động tốt nhất.

1. Nhấn vào “ok” đây để đĩng cấu hình thuật tốn.

2. Nhấp vào nút “Bắt đầu” trực tiếp để chạy thuật tốn trên bộ dữ liệu Ionosphere. cĩ thể thấy rằng với cấu hình mặc định, thuật tốn SVM đạt được độ chính xác 88%.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 76 - 79)

Tải bản đầy đủ (PDF)

(82 trang)