Kết quả thực nghiệm

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 76 - 78)

CHƯƠNG 3 MƠ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP

3.5. Kết quả thực nghiệm

Nghiên cứu ở cơng trình trước đĩ, với hai tập dữ liệu Scientific_Articles và VnExpress_Newsletters, cho thấy giải thuật SVM phân loại văn bản tốt hơn nhiều so với hai giải thuật phân loại khác là Naive Bayes và kNN (Dien et al., 2019). Vì vậy, trong nghiên cứu này, giải thuật SVM, cùng với giải thuật cây quyết định được chọn làm cơ sở so sánh với mạng nơ-ron truyền thẳng đa tầng MLP trong việc phân loại tài nguyên học tập. Độ đo diện tích dưới đường ROC (Area under the ROC Curve) AUC được sử dụng trên 5 tập dữ liệu khác nhau để đánh giá mơ hình phân loại. Sở dĩ độ đo AUC được lựa chọn vì một số tập dữ liệu thực nghiệm khá mất cân bằng.

Kết quả ở Bảng 3.3 cho thấy MLP đạt hiệu suất phân loại khá tốt so với SVM và Decision Tree. Ở cả 5 tập dữ liệu, kỹ thuật MLP cĩ độ đo AUC đều cao hơn hai kỹ thuật cịn lại. Ngồi ra, độ đo AUC của mạng MLP cũng khá tốt, đều trên 0,960, trong đĩ cĩ ba tập dữ liệu cĩ AUC đạt từ 0,990 trở lên.

Bảng 3.3: So sánh độ đo AUC của các kỹ thuật phân loại tài nguyên học tập

Dataset MLP SVM Decision Tree

Reuters_Newswire 0,991 0,811 0,813

School_Text_Books 0,999 0,991 0,928

Turkish_News_Articles 0,962 0,949 0,871

Scientific_Articles 0,977 0,965 0,819

Một ví dụ về trực quan hĩa AUC của tập dữ liệu Turkish_News_Articles được biểu diễn như Hình 3.4. Các tập dữ liệu khác cũng tương tự.

Hình 3.4: AUC cho tập dữ liệu Turkish_News_Articles

Để kiểm chứng quá trình phân loại, lớp nào được phân loại đúng nhiều nhất và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác, ma trận nhầm lẫn (confusion matrix) của tập dữ liệu School_Text_Books được sử dụng để quan sát hiệu quả của việc phân loại giữa MLP và SVM, được trình bày như trình trong Bảng 3.4.

Bảng 3.4: Ma trận nhầm lẫn giữa MLP và SVM trên tập School_Text_Books

MLP SVM

Predicted classes Predicted classes

Actual classes a b c d a b c d 283 0 0 1 a = accounts 281 1 0 2 0 626 7 2 b = biology 0 632 3 0 0 8 87 3 c = geography 0 16 78 4 0 4 3 762 d = physics 0 4 1 764

Như kết quả ở Bảng 3.4, MLP hoạt động tốt hơn SVM ở trường hợp lớp này cĩ số lượng mẫu ít hơn nhiều so với các lớp khác. Cụ thể, lớp “geography" cĩ số mẫu rất ít so với các lớp cịn lại (chỉ 98 mẫu) thì tỷ lệ mẫu bị dự đốn nhầm vào lớp khác của giải thuật SVM cao hơn hẳn so với MLP. Điều này cho thấy khi tình trạng mất cân bằng dữ liệu (imbalance) xảy ra thì MLP cho kết quả phân loại khả quan hơn so với SVM trên lớp cĩ ít mẫu. Kết quả này cũng tương tự trên các tập dữ liệu cịn lại. Nghiên cứu này được kỳ vọng áp dụng vào các trường hợp thực tế khi phân loại ở những tập dữ liệu mất cân bằng.

Một trường hợp khác là phân loại nhị phân trên tập dữ liệu Reuters_Newswire cho thấy kết quả tương tự, trong đĩ phương pháp MLP cũng đạt được hiệu suất tốt hơn SVM đối với lớp cĩ ít mẫu hơn (xem Bảng 3.5). Bảng dữ liệu này mơ tả lớp cĩ liên quan (b = 1) hay lớp khơng cĩ liên quan (a = 0). Bảng 3.5 cho thấy số mẫu liên quan ít hơn nhiều so với mẫu khơng liên quan. Trong trường hợp này, mẫu cĩ liên quan (b = 1) chỉ chiếm khoảng 3% so với 97% mẫu khơng liên quan (a = 0), điều này thể hiện sự mất cân bằng rất lớn trong tập dữ liệu. Cũng tương tự như phân nhiều lớp, phân loại nhị phân ở tập dữ liệu mất cân bằng và cĩ ít mẫu thì MLP cho hiệu suất tốt hơn nhiều so sánh với giải thuật SVM.

Bảng 3.5: Ma trận nhầm lẫn giữa MLP và SVM trên tập Reuters_Newswire

MLP SVM

Predicted classes Predicted classes Actual classes

a b a b

2064 25 a = 0 2088 1

13 56 b = 1 26 43

Qua các kết quả thử nghiệm, MLP cĩ hiệu suất tốt hơn SVM trong trường hợp dữ liệu mất cân bằng và phù hợp cho việc dự đốn đối với các lớp cĩ số mẫu nhỏ. Đây cũng là lý do tại sao AUC được chọn làm thước đo đánh giá thay vì sử dụng các độ đo khác.

Về thời gian huấn luyện, đối với các tập dữ liệu được sử dụng trong nghiên cứu này, MLP hồn thành thời gian huấn luyện khơng quá chênh lệch so với các giải thuật học máy khác (chỉ mất vài phút).

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 76 - 78)

Tải bản đầy đủ (PDF)

(148 trang)