3.3 Áp dụng các phương pháp phân lớp trên tập dữ liệu Mushroom
3.3.3 Thực hiện phân lớp bằng thuật tốn Support Vector Machines
1) Nhấp vào nút “Choose” và chọn “SMO” trong nhĩm “Function” 2) Nhấp vào tên của thuật tốn để xem lại cấu hình thuật tốn
Hình 3.26: Cấu hình Weka cho thuật tốn SVM
Theo hình (3.26) tham số C, được gọi là tham số độ phức tạp trong Weka kiểm sốt mức độ linh hoạt của quy trình vẽ đường phân tách các lớp cĩ thể. Giá trị 0 cho phép khơng vi phạm ký quỹ, trong khi mặc định là 1.
Một tham số chính trong SVM là loại Kernel sẽ sử dụng. Hạt nhân đơn giản nhất là hạt nhân tuyến tính phân tách dữ liệu bằng một đường thẳng hoặc siêu phẳng. Mặc định trong Weka là một hạt nhân đa thức sẽ phân tách các lớp bằng cách sử dụng một đường cong hoặc uốn lượn, đa thức càng cao, càng lung lay (giá trị số mũ).
Một hạt nhân phổ biến và mạnh mẽ là Kernel RBF hoặc Radial Basis Function Kernel cĩ khả năng học các đa giác khép kín và các hình dạng phức tạp để phân tách các lớp.
Đĩ là một ý tưởng tốt để thử một bộ các giá trị hạt nhân và C (độ phức tạp) khác nhau về vấn đề của bạn và xem cái gì hoạt động tốt nhất.
4) Ta chọn thuộc tính phân lớp là “class”, chọn các Classifer tương ứng, sau đĩ bấm Start để tiến hành xây dựng mơ hình và đánh giá độ chính xác. Sau chạy thuật tốn trên bộ dữ liệu Ionosphere. Cĩ thể thấy rằng với cấu hình mặc định, thuật tốn cây quyết định đạt được độ chính xác 100%.
Hình 3.27: Kết quả phân lớp Weka cho thuật tốn SVM với số 70% Split
Hình 3.28: Kết quả phân lớp Weka cho thuật tốn SVM kiểm tra chéo 10 mặt (fold=10 cross-validation) (fold=10 cross-validation)
3.3.4 Thực hiện phân lớp bằng thuật tốn Decision tree (J48)
1) Nhấp vào nút “Choose” và chọn “J48” trong nhĩm “Trees”. 2) Nhấp vào tên của thuật tốn để xem lại cấu hình thuật tốn.
Hình 3.29: Cấu hình Weka cho thuật tốn J48
5) Sau đĩ nhấn vào “Ok” đây để đĩng cấu hình thuật tốn.
6) Ta chọn thuộc tính phân lớp là “class”, chọn các Classifer tương ứng, sau đĩ bấm Start để tiến hành xây dựng mơ hình và đánh giá độ chính xác. Sau chạy thuật tốn trên bộ dữ liệu Ionosphere. Cĩ thể thấy rằng với cấu hình mặc định, thuật tốn cây quyết định đạt được độ chính xác 100%.
Hình 3.31: Kết quả phân lớp Weka cho thuật tốn J48 kiểm tra chéo 10 mặt (fold=10 cross-validation) (fold=10 cross-validation)
Riêng thuật tốn J48, ta cĩ thể sử dụng chức năng Visualize Tree để xem hình ảnh cây quyết định.
Hình 3.33: cây quyết định Visualization