CHƯƠNG 3 MƠ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP
3.3. Mơ tả tậpdữ liệu và độ đo đánh giá mơ hình
Như mơ tả ở Bảng 3.1, nguồn tài nguyên học tập sử dụng cho nghiên cứu này là 5 tập dữ liệu thực nghiệm với ba ngơn ngữ khác nhau (tiếng Anh, tiếng Thổ Nhĩ Kỳ và tiếng Việt). Bảng 3.1: Các tập dữ liệu thực nghiệm Data set Reuters_Newswire School_Text_Books Turkish_News_Articles Scientific_Articles VnExpress_Newsletters
Với 5 tập dữ liệu trên, số lớp xem xét cũng thay đổi từ 2 phân đến 10 lớp. Tập dữ liệu thứ nhất là các bài báo tin tức tài chính Reuters_Newswire (Weiss, 2019) sử dụng cho phân loại nhị phân. Tập dữ liệu thứ hai là nguồn học liệu mở của bộ sách giáo khoa lớp 11 và lớp 12 School_Text_Books (Deepak, 2020) của Kaggle với 4 lớp chủ đề. Tập dữ liệu thứ ba là tin tức và bài báo của một cổng thơng tin nổi tiếng ở Thổ Nhĩ Kỳ Turkish_News_Articles (Deniz, 2017). Tập dữ liệu thứ tư là các bài báo khoa học được xuất bản trên Tạp chí khoa học Trường Đại học Cần Thơ Scientific_Articles với 9 chủ đề. Tập dữ liệu thứ năm là các bài báo dạng tin tức thuộc báo điện tử VnExpress_Newsletters (Vnexpress, 2020) với 10 chủ đề được sử dụng cho nghiên cứu này.
Để đánh giá mơ hình, độ đo AUC với cross-validation là 3-fold được sử dụng; các fold giống nhau đối với các tập huấn luyện và tập kiểm tra. AUC là một phương pháp tính tốn hiệu suất của một mơ hình phân loại, giá trị này là một số dương nhỏ hơn hoặc bằng 1. Chỉ số AUC càng cao thì mơ hình càng chính xác trong việc phân loại các lớp. Lý do AUC được sử dụng vì đây là độ đo đáng tin cậy để đánh giá các bộ phân loại đối với dữ liệu mất cân bằng. Một số tập dữ liệu thực nghiệm trong nghiên cứu này mất cân bằng do số lượng mẫu của một số lớp lớn hơn khá nhiều so với các lớp khác. Chẳng hạn, một lớp của tập dữ liệu Reuters_Newswire chiếm tới 97% trong khi các lớp cịn lại chỉ chiếm 3%. Ngồi ra, AUC được sử dụng rộng rãi trong nhiều nghiên cứu để kiểm tra việc thực hiện các dự đốn, vì vậy được xem là thước đo khá tin cậy để đánh giá hiệu quả dự đốn các lớp.