5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
6.2 Tiền xử lý dữ liệu
Dữ liệu thô được xử lý theo các bước:
1. Loại bỏ nhiễu: Quá trình loại bỏ nhiễu nhằm đảm bảo giảm thiểu các sai số về mặt dữ liệu, Trên thực tế dữ liệu thơ thu thập thường có chứa rất nhiều vấn đề, nếu đưa trực tiếp vào các
mơ hình rất dễ gây ra sự sai lệch lớn trong kết quả cuối cùng. Trong mơ hình này loại bỏ nhiễu được thực hiện khá đơn giản:
• Loại bỏ các hàng dữ liệu khơng có giá trị(NULL). Khơng tránh khỏi việc trong quá trình thu thập dữ liệu gặp trường hợp bài báo khơng có nội dung. Hoặc chỉ có tiêu đề nhưng mất ngày cơng bố, làm khó mà quan sát được sự thay đổi dư luận.
• Loại bỏ các bài báo có độ dài văn bản dưới 50 từ. Trong quá trình thu thập dữ liệu, trong tập dữ liệu thơ thu thập được, có rất nhiều bài báo được viết dưới dạng hình thức quảng cáo cho doanh nghiệp, bài báo chỉ có hình ảnh, bài báo mang tính quảng bá,.... Hầu hết các bài báo này khơng mang lại giá trị khi huấn luyện vì thế cần bỏ đi để tránh tập huấn luyện học nhiễu. Việc lựa chọn 50 từ là một giới hạn sau khi đã xem qua nhiều bài báo nhiễu có trường hợp tương tự như trên(Khoảng 80%), tuy nhiên vẫn phải thừa nhận rằng trong dữ liệu đã xử lý vẫn còn tồn tại một số lượng nhiễu nhất định.
2. Chuẩn hố dữ liệu. Q trình chuẩn hố dữ liệu để đảm bảo các văn bản từ các bài báo thu thập được sẽ phù hợp hơn khi đưa vào các mơ hình. Một số kí tự đặc biệt, những từ khơng nhiều ý nghĩa(stop-word) có thể ảnh hưởng xấu đến mơ hình. Chuẩn hố dữ liệu trong mơ hình được thực hiện qua 3 bước:
• Loại bỏ các kí tự đặc biệt(%, $, &, ... )
• Loại bỏ stop-word của tiếng Việt(những từ mang nghĩa bổ sung, hoặc khơng hề có nghĩa chỉ là từ lóng của tiếng Việt)
• Xử lý đơn giản cho một câu về đúng cấu trúc(loại bỏ khoảng trắng liên tục, từ lặp,.. ) 3. Phân tách dữ liệu. Bởi vì sẽ so sánh độ hiệu quả trong nhiều mơ hình vì thế cần phải xử lý
đầu vào cho từng mơ hình cụ thể. Sẽ có 3 loại thơng tin chính:
• token_list: là danh sách các từ được tách ra từ văn bản bởi công cụ VncoreNLP. Chú ý vào 3 loại từ chính là: danh từ, tính từ, động từ. Vì gần như nội dung văn bản thuộc vào nhóm các từ này.
• sentence: là câu đã được bộ tách từ của VNCoreNLP tách ra và nối lại để phù hợp cho mơ hình PhoBERT.
• sentence1: là câu khơng được xử lý bởi VNCoreNLP. Đầu vào này dành riêng cho mơ hình BERT đa ngôn ngữ để so sánh với hiệu quả mà PhoBERT đem lại khi PhoBERT dành chỉ riêng cho tiếng Việt, cịn BERT đa ngơn ngữ có thể sử dụng cho 104 ngơn ngữ(BERT_mul_base_case)
4. Phân chia các bộ dữ liệu. Dữ liệu được phân chia làm 2 tập dữ liệu. Tập thứ nhất là toàn bộ dữ liệu đã được tiền xử lý thu được: 13525 bài báo, chiếm 83% dữ liệu thô. Tập dữ liệu thứ hai là tập con của tập dữ liệu thứ nhất chỉ bao gồm dữ liệu của hai tháng 4 và tháng 5, nhằm xem luồng dư luận(sự chú ý của các chủ đề xuất hiện nhiều hơn các chủ đề khác trong cùng một khoảng thời gian) thay đổi theo tuần trong hai tháng này. Bao gồm 8741 bài báo, thu thập từ ngày 5/4/2021 đến ngày 30/5/2021.
Tập dữ liệu
Số lượng dữ liệu(đơn vị: bài báo)
Mô tả về tập dữ liệu Nhiệm vụ của tập dữ liệu
Tập dữ liệu
[I] 13525
Là tập dữ liệu được tiền xử lý lấy trong bốn tháng từ tháng 3 đến tháng 5 năm 2021 trên trang báo điện tử VnExpress Dùng để quan sát sự phân cụm cho 11 chủ đề có trong tập dữ liệu. Tập dữ liệu [II] 8741
Dữ liệu được trích xuất từ tập dữ liệu [I] trong 8 tuần(từ ngày 5/4 đến ngày 30/5)
Dùng để quan sát thay đổi sự quan tâm của dư luận theo thời gian ( sự thay đổi mật độ phân bố các chủ đề trong tuần theo thời gian) .
Chủ đề Số lượng dữ liệu(đơn vị: bài báo) Giáo dục 1066 Sức khoẻ 1360 Khoa học 1166 Số hố 986 Giải trí 1322 Thể thao 1420 Đời sống 1160 Du lịch 886 Thế giới 1461 Kinh doanh 1406 Pháp luật 1292
Bảng 6.2: Thống kê sự phân bố dữ liệu theo chủ đề trong tập dữ liệu [I]
Tuần Số lượng dữ liệu(đơn vị: bài báo) Tuần 1(5/4 - 11/4) 850 Tuần 2(12/4 - 18/4) 897 Tuần 3(19/4 - 25/4) 1062 Tuần 4(26/4 - 2/5) 1135 Tuần 5(3/5 - 9/5) 1161 Tuần 6(10/5 - 16/5) 1174 Tuần 7(17/5 - 23/5) 1244 Tuần 8(24/5 - 30/5) 1218