5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
6.6 Đánh giá ưu, nhược điểm của mơ hình đề xuất
1. Ưu điểm:
• Mơ hình đã khai thác được sự kết hợp phương pháp cơ bản trong phân cụm dữ liệu văn bản là LDA với phương pháp mới khai thác thêm ngữ nghĩa của văn bản là BERT
• Tính chính xác trong phân cụm văn bản tốt hơn LDA
• Nhờ khai thác được sự phân cụm nên ứng dụng trong quan sát sự thay đổi dư luận cũng đem lại kết quả tốt
2. Nhược điểm:
• Chưa thật sự khai thác tốt sentence embedding. Như đã đề cập việc lấy sentence em- bedding cũng chỉ là trung bình cộng của tất cả các word embedding, điều này khiến cho kiến trúc của câu đã bị bỏ qua, tuy nhiên sự kết hợp này vẫn thể hiện được những thông tin về sự liên quan về nghĩa của các từ.
• Thời gian huấn luyện chậm, bởi vì kiến trúc của mơ hình BERT phức tạp dẫn đến thời gian huấn luyện có lên đến 1 giờ cho 1000 hàng dữ liệu
• Số lượng topic vẫn đang chưa được tối ưu hố, vì thế vẫn sinh ra trường hợp chồng lấp topic vì những topic này liên quan gần đến nhau.
• Xử lý đầu vào dữ liệu vẫn cịn là một vấn đề khó, chỉ giảm nhiễu đơn thuần có thể khiến một thời gian lượng nhiễu xuất hiện nhiều gây ảnh hưởng xấu đến tính chính xác của mơ hình. Hiện nay q trình xử lý nhiễu(những bài báo khơng đem lại nhiều khả năng phân loại hoặc gây ảnh hưởng xấu đến quá trình phân loại) được thực hiện từng bước một(hard code), các tín hiệu nhận biết nhiễu được con người thực hiện(quan sát, phân loại, thống kê). Không tránh khỏi việc đã bỏ qua một lượng lớn nhiễu nếu lượng dữ liệu sử dụng lớn hơn. Trong tương lại những trang báo mạng, diễn đàn này cũng sẽ được cập nhật các tính năng mới hoặc các bài báo nhiễu loại mới mà mơ hình khơng kiểm sốt được.