Các tập dữ liệu thực nghiệm

Data set #Instances #Attributes #Classes Language

Reuters_Newswire 2.158 1.503 2 English

School_Text_Books 1.786 2.566 4 English

Turkish_News_Articles 3.600 5.693 6 Turkish

Scientific_Articles 650 3.431 9 Vietnamese

VnExpress_Newsletters 10.000 3.266 10 Vietnamese

Với 5 tập dữ liệu trên, số lớp xem xét cũng thay đổi từ 2 phân đến 10 lớp. Tập dữ liệu thứ nhất là các bài báo tin tức tài chính Reuters_Newswire (Weiss, 2019) sử dụng cho phân loại nhị phân. Tập dữ liệu thứ hai là nguồn học liệu mở của bộ sách giáo khoa lớp 11 và lớp 12 School_Text_Books (Deepak, 2020) của Kaggle với 4 lớp chủ đề. Tập dữ liệu thứ ba là tin tức và bài báo của một cổng thơng tin nổi tiếng ở Thổ Nhĩ Kỳ Turkish_News_Articles (Deniz, 2017). Tập dữ liệu thứ tư là các bài báo khoa học được xuất bản trên Tạp chí khoa học Trường Đại học Cần Thơ Scientific_Articles với 9 chủ đề. Tập dữ liệu thứ năm là các bài báo dạng tin tức thuộc báo điện tử VnExpress_Newsletters (Vnexpress, 2020) với 10 chủ đề được sử dụng cho nghiên cứu này.

Để đánh giá mơ hình, độ đo AUC với cross-validation là 3-fold được sử dụng; các fold giống nhau đối với các tập huấn luyện và tập kiểm tra. AUC là một phương pháp tính tốn hiệu suất của một mơ hình phân loại, giá trị này là một số dương nhỏ hơn hoặc bằng 1. Chỉ số AUC càng cao thì mơ hình càng chính xác trong việc phân loại các lớp. Lý do AUC được sử dụng vì đây là độ đo đáng tin cậy để đánh giá các bộ phân loại đối với dữ liệu mất cân bằng. Một số tập dữ liệu thực nghiệm trong nghiên cứu này mất cân bằng do số lượng mẫu của một số lớp lớn hơn khá nhiều so với các lớp khác. Chẳng hạn, một lớp của tập dữ liệu Reuters_Newswire chiếm tới 97% trong khi các lớp cịn lại chỉ chiếm 3%. Ngồi ra, AUC được sử dụng rộng rãi trong nhiều nghiên cứu để kiểm tra việc thực hiện các dự đốn, vì vậy được xem là thước đo khá tin cậy để đánh giá hiệu quả dự đốn các lớp.

3.4. Cài đặt các siêu tham số và mơi trường thực nghiệm

Để chọn các tham số thích hợp cho các mơ hình MLP, các cấu hình khác nhau của kiến trúc MLP được chạy thử nghiệm. Hình 3.3 mơ tả hiệu suất của các cấu hình khác nhau của MLP trên một tập dữ liệu được lấy làm mẫu là Scientific_Articles. Kết quả cho thấy hiệu suất tăng lên theo độ lớn của mạng MLP. Tuy nhiên, hiệu suất đạt đến đỉnh và thay đổi tùy thuộc vào số lượng lớp ẩn được sử dụng. Sau khi đạt đến đỉnh, hiệu

suất cĩ xu hướng giảm dần khi tiếp tục tăng số nơ-ron. Hình 3.3 mơ tả hiệu suất AUC theo số nơ-ron của từng lớp ẩn. Thực nghiệm cho thấy, với một lớp ẩn và số nơ-ron bằng 16 thì AUC bằng 0,977 đạt kết quả tốt nhất. Trong khi đĩ, nếu sử dụng hai hoặc ba lớp ẩn thì AUC đạt hiệu suất cao nhất với 32 nơ-ron trên mỗi lớp ẩn (AUC bằng 0,974 đối với hai lớp ẩn và bằng 0,975 đối với ba lớp ẩn). Một vấn đề đáng chú ý là hiệu suất giảm khi tăng dần lớp ẩn do tình trạng quá khớp (overfitting).

Hình 3.3: Tìm kiếm số lượng nơ-ron trên nhiều lớp ẩn

Tương tự, các tập dữ liệu cịn lại cũng cho thấy các kiến trúc MLP cĩ một lớp ẩn cho hiệu suất cao hơn các kiến trúc cĩ nhiều lớp ẩn. Tuy nhiên, với số lượng lớn nơ-ron thì hiệu suất của nhiều lớp ẩn khác nhau là gần như nhau. Số lượng lớp ẩn và số lượng nơ-ron được thực hiện từ các thử nghiệm trong quá trình điều chỉnh siêu tham số (xem Bảng 3.2). Kết quả thực nghiệm cho thấy rằng kiến trúc MLP gồm một lớp ẩn, với 16 nơ-ron đạt hiệu suất tốt nhất trên cả 5 tập dữ liệu.

Hệ thống gợi ý tài nguyên học tập

Một số kỹ thuật phân loại văn bản