Ma trận nhầm lẫn giữa MLP và SVM trên tập School_Text_Books

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 77 - 78)

MLP SVM

Predicted classes Predicted classes

Actual classes a b c d a b c d 283 0 0 1 a = accounts 281 1 0 2 0 626 7 2 b = biology 0 632 3 0 0 8 87 3 c = geography 0 16 78 4 0 4 3 762 d = physics 0 4 1 764

Như kết quả ở Bảng 3.4, MLP hoạt động tốt hơn SVM ở trường hợp lớp này cĩ số lượng mẫu ít hơn nhiều so với các lớp khác. Cụ thể, lớp “geography" cĩ số mẫu rất ít so với các lớp cịn lại (chỉ 98 mẫu) thì tỷ lệ mẫu bị dự đốn nhầm vào lớp khác của giải thuật SVM cao hơn hẳn so với MLP. Điều này cho thấy khi tình trạng mất cân bằng dữ liệu (imbalance) xảy ra thì MLP cho kết quả phân loại khả quan hơn so với SVM trên lớp cĩ ít mẫu. Kết quả này cũng tương tự trên các tập dữ liệu cịn lại. Nghiên cứu này được kỳ vọng áp dụng vào các trường hợp thực tế khi phân loại ở những tập dữ liệu mất cân bằng.

Một trường hợp khác là phân loại nhị phân trên tập dữ liệu Reuters_Newswire cho thấy kết quả tương tự, trong đĩ phương pháp MLP cũng đạt được hiệu suất tốt hơn SVM đối với lớp cĩ ít mẫu hơn (xem Bảng 3.5). Bảng dữ liệu này mơ tả lớp cĩ liên quan (b = 1) hay lớp khơng cĩ liên quan (a = 0). Bảng 3.5 cho thấy số mẫu liên quan ít hơn nhiều so với mẫu khơng liên quan. Trong trường hợp này, mẫu cĩ liên quan (b = 1) chỉ chiếm khoảng 3% so với 97% mẫu khơng liên quan (a = 0), điều này thể hiện sự mất cân bằng rất lớn trong tập dữ liệu. Cũng tương tự như phân nhiều lớp, phân loại nhị phân ở tập dữ liệu mất cân bằng và cĩ ít mẫu thì MLP cho hiệu suất tốt hơn nhiều so sánh với giải thuật SVM.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 77 - 78)

Tải bản đầy đủ (PDF)

(148 trang)