5 Đề xuất mô hình gom cụm văn bản dựa trên mô hình chủ đề kết hợp với véc-tơ ngữ
6.4 Đánh giá khách quan, chủ quan và so sánh các mô hình
6.4.1 Độ đo coherence và silhouette
Coherence - Tính mạch lạc. Là đặc trưng đại diện cho sự mạch lạc về ngữ nghĩa trong một hoàn cảnh nhất định của văn bản. Các tuyên bố hoặc dữ kiện được cho là mạch lạc khi chúng có sự tương quan hỗ trợ lẫn nhau. Do đó, một tập hợp dữ kiện mạch lạc sẽ có thể được giải thích trong một ngữ cảnh gồm tập hợp gần như toàn bộ các dữ kiện. Lấy một ví dụ về dữ kiện mạch lạc: "Trò chơi là một môn thể thao đồng đội", đây là một câu hoàn chỉnh, trong đó các dữ kiện có liên quan với nhau, và sắp xếp trong một thứ tự hợp lý(trò chơi - môn thể thao đồng đội) khiến cho câu này mạch lạc.
Độ đo coherence - hay topic coherence là một độ đo xác định tính mạch lạc trong chủ đề. Độ đo này được tính bằng cách đo mức độ tương đồng về ngữ nghĩa của các từ đạt điểm cao(top- word) trong chủ đề. Được sử dụng rất nhiều trong việc đo độ mạch lạc chủ đề trong các mô hình chủ đề. Độ đo này giúp phân biệt giữa các chủ đề có thể giải thích bởi sự mạch lạc, liên quan về ngữ nghĩa của ngôn ngữ tự nhiên và các chủ đề được sinh từ phương pháp suy luận thống kê.
Có khá nhiều độ đo topic coherence như: C_v, C_p, C_uci, C_umass, C_npmi, C_a. Tuy nhiên trong đề tài này chỉ sử dụng độ đo C_v[46], được đề xuất bởi R¨oder và cộng sự năm 2015. Độ đo này dựa trên cửa sổ trượt(sliding window), một tập hợp các top-word và phép đo xác nhận gián tiếp sử dụng thông tin tương hỗ theo chiều kim đồng hồ - normalized pointwise mutual information (NPMI) và độ tương đồng cosin. Độ đo này có giá trị trong khoảng từ 0 - 1, với giá trị càng gần về 0 thì các từ trong chủ đề càng mất đi tính mạch lạc. Bởi vì theo như giải thích độ đo này đo mối quan hệ tương đồng giữa các từ trong toàn bộ một chủ đề, do đó rất hiếm khi đạt được ngưỡng 1, vì đó là trường hợp hầu như các từ trong cùng một chủ đề giống nhau(cả chủ đề chỉ có một từ). Theo như những thực nghiệm thực tế, độ đo này đạt giá trị tốt nhất rơi vào khoảng 0.65 đến 0.75.
Silhouette là một phương pháp đề cập đến sự giải thích và xác nhận tính nhất quán trong các cụm dữ liệu. Độ đo silhouette đo lường mức độ tương tự của một đối tượng với cụm chính nó(sự gắn kết) so với các cụm khác(sự tách biệt). Độ đo này thường dùng để tính toán mức độ tốt của kỹ thuật phân cụm.
Giá trị của độ đo silhouette nằm trong khoảng từ -1 đến 1. Càng gần về một thì các cụm càng cách xa nhau, các đối tượng trong cùng một cụm có tương đồng với nhau lớn, các đối tượng khác cụm thì phân biệt nhau tốt. Càng gần về 0 thì các cụm ít có sự phân biệt, khoảng cách giữa các cụm là không đáng kể. Càng gần về -1, hoặc bị giá trị âm, có nghĩa là các cụm đang được phân chia chưa hợp lí, công thức để xác định độ means của các cụm đang tính toán sai.
6.5 Kết quả từ các tập dữ liệu6.5.1 Tập dữ liệu [I] 6.5.1 Tập dữ liệu [I]
Vì mục tiêu của tập dữ liệu [I] là chứng tỏ hiệu quả của mô hình đề xuất. Với kết quả thu thập được trong quá trình thực nghiệm cho khả năng phân cụm dữ liệu của các chủ đề trong từng mô hình
• TF-IDF và Kmeans++: Kết quả phân cụm có thể nói là không tốt. Không thể tách rời các cụm với nhau, độ phân bố của cụm nó có sự sai lệch lớn, mất cân bằng giữa mật độ dữ liệu giữa các cụm. Bởi vì về cơ bản TF_IDF chỉ dựa vào sự phân bố của các từ, tần suất xuất hiện của nó trong văn bản, làm mất đi cấu trúc văn bản, và không sử dụng được ngữ nghĩa. Phương pháp này quá cơ bản để có thể phân cụm dữ liệu, hoặc nói đơn giản là một thuật toán thuần tuý mà chưa khai thác được sự thông minh của ngôn ngữ.
Hình 6.1: Phân cụm dữ liệu trên vector sinh bởi TF-IDF(mô phỏng với UMAP)
• LDA và Kmeans++: Kết quả phân cụm của LDA không được thể hiện trên mô phỏng hình ảnh bởi vì các véc-tơ sinh ra của LDA đã mang tính chất phân cụm cho các chủ đề. Nhưng kết quả thì tốt hơn TF_IDF. Mô hình LDA đã có thể khai thác được các công thức xác suất nên về mối quan hệ của các bài báo trong cùng một chủ đề rất rõ rệt, các chủ đề có một khoảng cách với nhau.
• BERT, Autoencoder và Kmeans++: Khai thác véc-tơ sentence embedding sinh ra bởi BERT. Có thể thấy các chủ đề khác nhau cũng có sự khác biệt rõ rệt, tuy nhiên vẫn còn sự chồng lấp giữa những chủ đề có nghĩa gần nhau.
Hình 6.2: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm chiềubởi Autoencoder(mô phỏng với UMAP) bởi Autoencoder(mô phỏng với UMAP)
• PhoBERT, Autoencoder và Kmeans++: Véc-tơ sinh ra bởi PhoBERT qua quá trình phân cụm, có thể nhận thấy có sự phân chia rõ ràng hơn giữa các cụm, sự chồng lấp các cụm vẫn có nhưng tương đối thấp.
Hình 6.3: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được giảmchiều bởi Autoencoder(mô phỏng với UMAP) chiều bởi Autoencoder(mô phỏng với UMAP)
• LDA kết hợp BERT, Autoencoder và Kmeans++: Kết quả mô hình này đạt được sự phân cụm rất rõ rệt. Sự kết hợp phù hợp giữa véc-tơ xác suất xác định chủ đề và véc-tơ sentence embedding khai thác ngữ nghĩa và cấu trúc văn bản đã đem lại kết quả tốt hơn mô hình LDA(*về mặt độ đo sẽ đề cập sau).
Hình 6.4: Phân cụm dữ liệu trên vector sinh bởi việc kết hợp BERT và LDA được giảm chiềubởi Autoencoder(mô phỏng với UMAP) bởi Autoencoder(mô phỏng với UMAP)
• LDA kết hợp PhoBERT, Autoencoder và Kmeans++: Tương tự như mô hình kết hợp BERT_LDA, mô hình này cũng cho ra kết quả tốt trong sự phân chia của các cụm.
Hình 6.5: Phân cụm dữ liệu trên vector sinh bởi việc kết hợp PhoBERT và LDA PhoBERT vàđược giảm chiều bởi Autoencoder(mô phỏng với UMAP) được giảm chiều bởi Autoencoder(mô phỏng với UMAP)
Xem xét độ đo của các mô hình:
Độ đo / Mô hình TF-IDF LDA BERT PHOBERT LDA- BERT LDA- PHOBERT Coherensive(CV) 0.7471 0.6918 0.5934 0.5961 0.7128 0.7137 Silhouette 0.0149 / 0.0321 0.0616 0.4684 0.4711 Bảng 6.4: Bảng độ đo so sánh các mô hình
Nhận xét: Mô hình đề xuất PhoBERT + LDA đem lại kết quả tốt nhất về độ mạch lạc giữa các từ trong cùng một chủ đề và sự phân biệt giữa các chủ đề khác nhau. Xét về độ chênh lệch với mô hình BERT đa ngôn ngữ + LDA là không nhiều, nhưng những cải thiện hơn đó, mặt nào cũng đã chứng minh được khả năng của một mô hình đơn ngôn ngữ do các nhà nghiên cứu Việt Nam đề xuất đã có những cải thiện tốt hơn trong một số tác vụ NLP chuyên biệt.
Quan sát trên 2 cụm của mô hình đề xuất, có thể thấy rằng quá trình phân cụm khá tốt thông qua wordclouds có thể thấy các từ cùng một chủ đề có sự liên quan đến nhau rất rõ ràng:
• Cụm 0: Đây là cụm với chủ đề giáo dục. Dễ dàng nhận thấy từ wordclouds, các từ như: Trường, thi, học_sinh, đào tạo, đại học, ... thể hiện khá rõ cho một chủ đề Giáo dục.
Hình 6.6: Cụm ở index 0 của mô hình để xuất
• Cụm 1: Đây là cụm với chủ đề kinh doanh. Dễ dàng nhận thấy từ wordclouds, các từ như: giá, doanh nghiệp, thị trường, công ty, ....
6.5.2 Tập dữ liệu [II]
Để quan sát luồng dư luận thay đổi như thế nào, phải quan sát sự thay đổi trong sự đề cập, chú ý của thông tin. Ở đây chính là sự thay đổi về mức độ quan tâm, độ nổi bật của các chủ đề theo thời gian. Để làm được việc đó đầu tiên mô hình phải có thể phân cụm chủ đề tốt. Như đề cập ở tập dữ liệu [I], mô hình đề xuất đem lại kết quả phân cụm chủ đề tương đối tốt. Sau đó, sử dụng nguồn dữ liệu đã thu thập được theo thời gian để đem đi phân cụm và xem xét sự thay đổi trong phân bố các chủ đề qua từng tuần như thế nào. Thực nghiệm này cũng thể hiện tính thực tiễn trong ứng dụng của mô hình đề xuất của luận văn.
Quan sát kết quả của quá trình phân cụm chủ đề qua 8 tuần:
Vị trí của chủ đề / Tuần
Tuần 1 Tuần 2 Tuần 3 Tuần 4 Tuần 5 Tuần 6 Tuần 7 Tuần 8
0 13.88 4.79 15.91 6.26 6.72 7.07 8.06 5.45 1 8.94 19.96 14.03 14.71 12.58 11.16 13.1 15.2 2 8.47 14.27 11.3 13.83 13.52 10.14 11.33 10.39 3 8.59 8.7 9.42 15.07 12.06 10.9 13.75 14.41 4 8.94 5.46 13.94 5.11 8.01 4.68 11.09 12.62 5 9.41 8.36 5.18 9.34 8.27 10.65 9 10.18 6 12 5.13 8.66 7.75 6.08 11.5 5.71 4.01 7 6.82 14.38 7.82 7.75 10.59 11.67 4.66 6.88 8 6.59 3.79 6.78 7.31 8.96 9.37 6.59 8.53 9 10.12 6.13 3.48 5.81 10.51 8.01 5.39 4.01 10 6.24 9.03 3.48 7.05 1.98 4.86 10.77 8.32
Bảng 6.5: Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% -Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất ra)
Dễ dàng nhận thấy có sự phân bố của chủ đề qua các tuần khá khác nhau. Để nhận thấy sự phân bố này, hãy xem xét sự những bảng tiếp theo, các bảng này lần lượt lấy ra các chủ đề có
phân bố lớn nhất trong tuần và xem xét sự thay đổi qua mỗi tuần của luồng thông tin. Mức nổi bật Tuần 1 Tuần 2 Tuần 3 Tuần 4 1 thể thao sức khoẻ sức khoẻ sức khoẻ
wordclouds bóng, bàn, trận, đội, giải vaccine, y tế, bác sĩ, bệnh nhân ca, vaccine, bệnh viện, nhiễm Ca, cách ly, covid, y tế, nhiễm 2 giải trí giáo dục kinh doanh kinh doanh
wordclouds phim, diễn viên, mẹ, trẻ trường, xét tuyển, thi, học bổng thị trường, dự án, đầu tư Công ty, thị trường, doanh nghiệp 3 kinh doanh giải trí
wordclouds Ngân hàng, công ty, cổ phiếu phim, tác phẩm, diễn viên,đạo diễn, diễn
Bảng 6.6: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4
Nhận xét: Có thể thấy trong đầu tháng 4, sự nổi bật trong thông tin được chiếm bởi chủ đề bóng đá của thể thao, hay các phim mới của giải trí, chứng khoán của chủ đề kinh doanh. Nhưng sự chuyển biến bắt đầu từ 3 tuần còn lại của tháng 4, khi các chủ đề nóng lại tập trung trong chủ đề sức khoẻ liên quan đến dịch Covid như vắc-xin, ca, nhiễm. Tuy nhiên, đã có thể thấy luồng dư luận có sự thay đổi về chú ý trong thông tin thông quan quan sát các chủ đề được chú ý nhiều hay ít qua từng tuần.
Mức nổi bật Tuần 5 Tuần 6 Tuần 7 Tuần 8 1 sức khoẻ sức khoẻ sức khoẻ sức khoẻ
wordclouds ca, cách ly, tiêm, covid, nhiễm, tử vong vaccine, bệnh viện, xét nghiệm, covid, tiêm, nhiễm ca, bệnh nhân,xét nghiệm, vaccine, nhiễm, liều, y tế Y tế, ca, nhiễm, vac- cine, bệnh nhân
2 thể thao kinh doanh kinh doanh
wordclouds Trận, bóng, mùa, đội
Thị trường, tiền, đầu tư, công ty, giá
doanh nghiệp, tiền, thị trường,công ty, vải, cổ phiếu 3 wordclouds
Bảng 6.7: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5
Nhận xét: Trong tháng 5, tình hình covid khá trầm trọng. Hầu như phần lớn các bài viết đều nói về vấn đề này, không chỉ riêng chủ đề sức khoẻ. Tuy nhiên theo quan sát, đầu tháng 5 khi chủ đề thể thao nói về các trận World Cup giữa các đội tuyển đã chiếm khá nhiều chú ý. Hay tuần 7, và tuần 8, sự chú ý cũng thuộc về chủ đề kinh doanh khi mà thị trường chứng khoán có sự thay đổi mạnh, hay hỗ trợ các công ty vải thiều trong mùa dịch bệnh cũng được đề cập.
Kết luận: Nhờ mô hình đề xuất, việc quan sát sự thay đổi dư luận theo thời gian có thể được thực hiện. Việc xác định thông qua mức độ nổi bật theo phần trăm của các chủ đề trong một tuần. Tuy đạt được kết quả quan sát trên tuần, nhưng với mong muốn mô hình có thể đạt được kết quả quan sát thay đổi dư luận theo ngày, sẽ tiếp tục nghiên cứu hơn nữa.
6.6 Đánh giá ưu, nhược điểm của mô hình đề xuất
1. Ưu điểm:
• Mô hình đã khai thác được sự kết hợp phương pháp cơ bản trong phân cụm dữ liệu văn bản là LDA với phương pháp mới khai thác thêm ngữ nghĩa của văn bản là BERT
• Tính chính xác trong phân cụm văn bản tốt hơn LDA
• Nhờ khai thác được sự phân cụm nên ứng dụng trong quan sát sự thay đổi dư luận cũng đem lại kết quả tốt
2. Nhược điểm:
• Chưa thật sự khai thác tốt sentence embedding. Như đã đề cập việc lấy sentence em- bedding cũng chỉ là trung bình cộng của tất cả các word embedding, điều này khiến cho kiến trúc của câu đã bị bỏ qua, tuy nhiên sự kết hợp này vẫn thể hiện được những thông tin về sự liên quan về nghĩa của các từ.
• Thời gian huấn luyện chậm, bởi vì kiến trúc của mô hình BERT phức tạp dẫn đến thời gian huấn luyện có lên đến 1 giờ cho 1000 hàng dữ liệu
• Số lượng topic vẫn đang chưa được tối ưu hoá, vì thế vẫn sinh ra trường hợp chồng lấp topic vì những topic này liên quan gần đến nhau.
• Xử lý đầu vào dữ liệu vẫn còn là một vấn đề khó, chỉ giảm nhiễu đơn thuần có thể khiến một thời gian lượng nhiễu xuất hiện nhiều gây ảnh hưởng xấu đến tính chính xác của mô hình. Hiện nay quá trình xử lý nhiễu(những bài báo không đem lại nhiều khả năng phân loại hoặc gây ảnh hưởng xấu đến quá trình phân loại) được thực hiện từng bước một(hard code), các tín hiệu nhận biết nhiễu được con người thực hiện(quan sát, phân loại, thống kê). Không tránh khỏi việc đã bỏ qua một lượng lớn nhiễu nếu lượng dữ liệu sử dụng lớn hơn. Trong tương lại những trang báo mạng, diễn đàn này cũng sẽ được cập nhật các tính năng mới hoặc các bài báo nhiễu loại mới mà mô hình không kiểm soát được.
6.7 Tổng kết chương 6
Chương 6 tìm hiểu lý thuyết về độ đo cho chủ đề coherence và độ đo cho phân cụm silhou- ette. Và thông tin liên quan đến kết quả thực nghiệm khả năng phân cụm chủ đề của mô hình, so
sánh kết quả với các phương pháp có trước đó. Ngoài ra việc ứng dụng của mô hình trong quan sát sự thay đổi của luồng dư luận cũng đạt được những hiệu quả tích cực.
Với những kết quả thu thập được đã rút ra được nhận xét về ưu điểm, khuyết điểm của mô hình.
Chương 7 Kết luận
Qua tìm hiểu kết hợp các kiến thức liên quan về mô hình chủ đề, mô hình gom cụm, hệ thống kiến thức liên quan đến mô hình BERT, và sự cải tiến của BERT(mô hình RoBERTa) trong đơn ngôn ngữ là tiếng Việt(mô hình PhoBERT). Luận văn đã chứng minh những cải tiến đạt hiệu quả trong phân cụm chủ đề cho một tập dữ liệu gồm văn bản với một đề xuất mô hình kết hợp mới. Ngoài ra nhờ mô hình đề xuất, việc phát hiện thông tin chú ý của dư luận hay sự thay đổi của luồng dư luận theo thời gian đạt được những kết quả tích cực.
Kết quả đạt được:
• Kết quả phân cụm mô hình đạt được hiệu quả hơn so với mô hình TF-IDF, LDA, hoặc BERT. Mô hình kết hợp với các cụm được phân chia có sự phân biệt với nhau, dễ nhận biết hơn các mô hình khác.
• Kết quả về quan sát thay đổi dư luận mang tính tích cực. Sự chênh lệch phân bố của các chủ đề qua từng tuần rất rõ rệt, có thể dựa vào các từ top(những từ có tần suất xuất hiện nhiều) trong từng chủ đề hot(chủ đề được chú ý nhiều) để xác định sự chú ý của luồng thông tin.