5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
6.3 Thống kê sự phân bố dữ liệu theo từng tuần trong tập dữ liệu [II]
6.3 Xây dựng các mơ hình so sánh
Các thực nghiệm được xây dựng để so sánh và xác định khả năng của mơ hình đề xuất so với các mơ hình từng tồn tại từ trước đó, cụ thể gồm có:
1. Mơ hình kết hợp TF-IDF với clustering. 2. Mơ hình kết hợp LDA và clustering.
3. Mơ hình kết hợp PhoBERT(hoặc BERT), Autoencoder và clustering 4. Mơ hình kết hợp PhoBERT(hoặc) + LDA, Autoencoder và clustering
Các công cụ sử dụng để hiện thực thực nghiệm:
• Để sinh véc-tơ TF-IDF dùng TfidfVectorizer trong thư viện sklearn
• Bộ clustering sử dụng Kmeans trong thư viện sklearn
• Thuật tốn LDA của thư viện gensim
• Mơ hình BERT xây dựng bởi pretrained "bert-base-multilingual-cased" trong thư viện transformer
• Mơ hình PhoBERT xây dựng bởi pretrained "vinai/phobert-base" trong thư viện trans- former
6.4 Đánh giá khách quan, chủ quan và so sánh các mơ hình6.4.1 Độ đo coherence và silhouette 6.4.1 Độ đo coherence và silhouette
Coherence - Tính mạch lạc. Là đặc trưng đại diện cho sự mạch lạc về ngữ nghĩa trong một hoàn cảnh nhất định của văn bản. Các tuyên bố hoặc dữ kiện được cho là mạch lạc khi chúng có sự tương quan hỗ trợ lẫn nhau. Do đó, một tập hợp dữ kiện mạch lạc sẽ có thể được giải thích trong một ngữ cảnh gồm tập hợp gần như tồn bộ các dữ kiện. Lấy một ví dụ về dữ kiện mạch lạc: "Trị chơi là một mơn thể thao đồng đội", đây là một câu hồn chỉnh, trong đó các dữ kiện có liên quan với nhau, và sắp xếp trong một thứ tự hợp lý(trị chơi - mơn thể thao đồng đội) khiến cho câu này mạch lạc.
Độ đo coherence - hay topic coherence là một độ đo xác định tính mạch lạc trong chủ đề. Độ đo này được tính bằng cách đo mức độ tương đồng về ngữ nghĩa của các từ đạt điểm cao(top- word) trong chủ đề. Được sử dụng rất nhiều trong việc đo độ mạch lạc chủ đề trong các mơ hình chủ đề. Độ đo này giúp phân biệt giữa các chủ đề có thể giải thích bởi sự mạch lạc, liên quan về ngữ nghĩa của ngôn ngữ tự nhiên và các chủ đề được sinh từ phương pháp suy luận thống kê.
Có khá nhiều độ đo topic coherence như: C_v, C_p, C_uci, C_umass, C_npmi, C_a. Tuy nhiên trong đề tài này chỉ sử dụng o C_v[46], c xut bi Răoder v cộng sự năm 2015. Độ đo này dựa trên cửa sổ trượt(sliding window), một tập hợp các top-word và phép đo xác nhận gián tiếp sử dụng thông tin tương hỗ theo chiều kim đồng hồ - normalized pointwise mutual information (NPMI) và độ tương đồng cosin. Độ đo này có giá trị trong khoảng từ 0 - 1, với giá trị càng gần về 0 thì các từ trong chủ đề càng mất đi tính mạch lạc. Bởi vì theo như giải thích độ đo này đo mối quan hệ tương đồng giữa các từ trong toàn bộ một chủ đề, do đó rất hiếm khi đạt được ngưỡng 1, vì đó là trường hợp hầu như các từ trong cùng một chủ đề giống nhau(cả chủ đề chỉ có một từ). Theo như những thực nghiệm thực tế, độ đo này đạt giá trị tốt nhất rơi vào khoảng 0.65 đến 0.75.
Silhouette là một phương pháp đề cập đến sự giải thích và xác nhận tính nhất quán trong các cụm dữ liệu. Độ đo silhouette đo lường mức độ tương tự của một đối tượng với cụm chính nó(sự gắn kết) so với các cụm khác(sự tách biệt). Độ đo này thường dùng để tính tốn mức độ tốt của kỹ thuật phân cụm.
Giá trị của độ đo silhouette nằm trong khoảng từ -1 đến 1. Càng gần về một thì các cụm càng cách xa nhau, các đối tượng trong cùng một cụm có tương đồng với nhau lớn, các đối tượng khác cụm thì phân biệt nhau tốt. Càng gần về 0 thì các cụm ít có sự phân biệt, khoảng cách giữa các cụm là không đáng kể. Càng gần về -1, hoặc bị giá trị âm, có nghĩa là các cụm đang được phân chia chưa hợp lí, cơng thức để xác định độ means của các cụm đang tính tốn sai.
6.5 Kết quả từ các tập dữ liệu6.5.1 Tập dữ liệu [I] 6.5.1 Tập dữ liệu [I]
Vì mục tiêu của tập dữ liệu [I] là chứng tỏ hiệu quả của mô hình đề xuất. Với kết quả thu thập được trong quá trình thực nghiệm cho khả năng phân cụm dữ liệu của các chủ đề trong từng mơ hình
• TF-IDF và Kmeans++: Kết quả phân cụm có thể nói là khơng tốt. Khơng thể tách rời các cụm với nhau, độ phân bố của cụm nó có sự sai lệch lớn, mất cân bằng giữa mật độ dữ liệu giữa các cụm. Bởi vì về cơ bản TF_IDF chỉ dựa vào sự phân bố của các từ, tần suất xuất hiện của nó trong văn bản, làm mất đi cấu trúc văn bản, và không sử dụng được ngữ nghĩa. Phương pháp này quá cơ bản để có thể phân cụm dữ liệu, hoặc nói đơn giản là một thuật toán thuần tuý mà chưa khai thác được sự thơng minh của ngơn ngữ.
Hình 6.1: Phân cụm dữ liệu trên vector sinh bởi TF-IDF(mơ phỏng với UMAP)
• LDA và Kmeans++: Kết quả phân cụm của LDA không được thể hiện trên mơ phỏng hình ảnh bởi vì các véc-tơ sinh ra của LDA đã mang tính chất phân cụm cho các chủ đề. Nhưng kết quả thì tốt hơn TF_IDF. Mơ hình LDA đã có thể khai thác được các cơng thức xác suất nên về mối quan hệ của các bài báo trong cùng một chủ đề rất rõ rệt, các chủ đề có một khoảng cách với nhau.
• BERT, Autoencoder và Kmeans++: Khai thác véc-tơ sentence embedding sinh ra bởi BERT. Có thể thấy các chủ đề khác nhau cũng có sự khác biệt rõ rệt, tuy nhiên vẫn cịn sự chồng lấp giữa những chủ đề có nghĩa gần nhau.
Hình 6.2: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm chiềubởi Autoencoder(mô phỏng với UMAP) bởi Autoencoder(mô phỏng với UMAP)
• PhoBERT, Autoencoder và Kmeans++: Véc-tơ sinh ra bởi PhoBERT qua q trình phân cụm, có thể nhận thấy có sự phân chia rõ ràng hơn giữa các cụm, sự chồng lấp các cụm vẫn có nhưng tương đối thấp.
Hình 6.3: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được giảmchiều bởi Autoencoder(mô phỏng với UMAP) chiều bởi Autoencoder(mơ phỏng với UMAP)
• LDA kết hợp BERT, Autoencoder và Kmeans++: Kết quả mơ hình này đạt được sự phân cụm rất rõ rệt. Sự kết hợp phù hợp giữa véc-tơ xác suất xác định chủ đề và véc-tơ sentence embedding khai thác ngữ nghĩa và cấu trúc văn bản đã đem lại kết quả tốt hơn mơ hình LDA(*về mặt độ đo sẽ đề cập sau).
Hình 6.4: Phân cụm dữ liệu trên vector sinh bởi việc kết hợp BERT và LDA được giảm chiềubởi Autoencoder(mơ phỏng với UMAP) bởi Autoencoder(mơ phỏng với UMAP)
• LDA kết hợp PhoBERT, Autoencoder và Kmeans++: Tương tự như mơ hình kết hợp BERT_LDA, mơ hình này cũng cho ra kết quả tốt trong sự phân chia của các cụm.
Hình 6.5: Phân cụm dữ liệu trên vector sinh bởi việc kết hợp PhoBERT và LDA PhoBERT vàđược giảm chiều bởi Autoencoder(mô phỏng với UMAP) được giảm chiều bởi Autoencoder(mô phỏng với UMAP)
Xem xét độ đo của các mơ hình:
Độ đo / Mơ hình TF-IDF LDA BERT PHOBERT LDA- BERT LDA- PHOBERT Coherensive(CV) 0.7471 0.6918 0.5934 0.5961 0.7128 0.7137 Silhouette 0.0149 / 0.0321 0.0616 0.4684 0.4711 Bảng 6.4: Bảng độ đo so sánh các mơ hình
Nhận xét: Mơ hình đề xuất PhoBERT + LDA đem lại kết quả tốt nhất về độ mạch lạc giữa các từ trong cùng một chủ đề và sự phân biệt giữa các chủ đề khác nhau. Xét về độ chênh lệch với mơ hình BERT đa ngơn ngữ + LDA là không nhiều, nhưng những cải thiện hơn đó, mặt nào cũng đã chứng minh được khả năng của một mơ hình đơn ngơn ngữ do các nhà nghiên cứu Việt Nam đề xuất đã có những cải thiện tốt hơn trong một số tác vụ NLP chun biệt.
Quan sát trên 2 cụm của mơ hình đề xuất, có thể thấy rằng q trình phân cụm khá tốt thơng qua wordclouds có thể thấy các từ cùng một chủ đề có sự liên quan đến nhau rất rõ ràng:
• Cụm 0: Đây là cụm với chủ đề giáo dục. Dễ dàng nhận thấy từ wordclouds, các từ như: Trường, thi, học_sinh, đào tạo, đại học, ... thể hiện khá rõ cho một chủ đề Giáo dục.
Hình 6.6: Cụm ở index 0 của mơ hình để xuất
• Cụm 1: Đây là cụm với chủ đề kinh doanh. Dễ dàng nhận thấy từ wordclouds, các từ như: giá, doanh nghiệp, thị trường, cơng ty, ....
6.5.2 Tập dữ liệu [II]
Để quan sát luồng dư luận thay đổi như thế nào, phải quan sát sự thay đổi trong sự đề cập, chú ý của thơng tin. Ở đây chính là sự thay đổi về mức độ quan tâm, độ nổi bật của các chủ đề theo thời gian. Để làm được việc đó đầu tiên mơ hình phải có thể phân cụm chủ đề tốt. Như đề cập ở tập dữ liệu [I], mơ hình đề xuất đem lại kết quả phân cụm chủ đề tương đối tốt. Sau đó, sử dụng nguồn dữ liệu đã thu thập được theo thời gian để đem đi phân cụm và xem xét sự thay đổi trong phân bố các chủ đề qua từng tuần như thế nào. Thực nghiệm này cũng thể hiện tính thực tiễn trong ứng dụng của mơ hình đề xuất của luận văn.
Quan sát kết quả của q trình phân cụm chủ đề qua 8 tuần:
Vị trí của chủ đề / Tuần
Tuần 1 Tuần 2 Tuần 3 Tuần 4 Tuần 5 Tuần 6 Tuần 7 Tuần 8
0 13.88 4.79 15.91 6.26 6.72 7.07 8.06 5.45 1 8.94 19.96 14.03 14.71 12.58 11.16 13.1 15.2 2 8.47 14.27 11.3 13.83 13.52 10.14 11.33 10.39 3 8.59 8.7 9.42 15.07 12.06 10.9 13.75 14.41 4 8.94 5.46 13.94 5.11 8.01 4.68 11.09 12.62 5 9.41 8.36 5.18 9.34 8.27 10.65 9 10.18 6 12 5.13 8.66 7.75 6.08 11.5 5.71 4.01 7 6.82 14.38 7.82 7.75 10.59 11.67 4.66 6.88 8 6.59 3.79 6.78 7.31 8.96 9.37 6.59 8.53 9 10.12 6.13 3.48 5.81 10.51 8.01 5.39 4.01 10 6.24 9.03 3.48 7.05 1.98 4.86 10.77 8.32
Bảng 6.5: Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% -Vị trí các chủ đề khơng giống nhau trên cùng một hàng, đây chỉ là trị số index do mơ hình xuất Vị trí các chủ đề khơng giống nhau trên cùng một hàng, đây chỉ là trị số index do mơ hình xuất ra)
Dễ dàng nhận thấy có sự phân bố của chủ đề qua các tuần khá khác nhau. Để nhận thấy sự phân bố này, hãy xem xét sự những bảng tiếp theo, các bảng này lần lượt lấy ra các chủ đề có
phân bố lớn nhất trong tuần và xem xét sự thay đổi qua mỗi tuần của luồng thông tin. Mức nổi bật Tuần 1 Tuần 2 Tuần 3 Tuần 4 1 thể thao sức khoẻ sức khoẻ sức khoẻ
wordclouds bóng, bàn, trận, đội, giải vaccine, y tế, bác sĩ, bệnh nhân ca, vaccine, bệnh viện, nhiễm Ca, cách ly, covid, y tế, nhiễm 2 giải trí giáo dục kinh doanh kinh doanh
wordclouds phim, diễn viên, mẹ, trẻ trường, xét tuyển, thi, học bổng thị trường, dự án, đầu tư Công ty, thị trường, doanh nghiệp 3 kinh doanh giải trí
wordclouds Ngân hàng, cơng ty, cổ phiếu phim, tác phẩm, diễn viên,đạo diễn, diễn
Bảng 6.6: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4
Nhận xét: Có thể thấy trong đầu tháng 4, sự nổi bật trong thông tin được chiếm bởi chủ đề bóng đá của thể thao, hay các phim mới của giải trí, chứng khốn của chủ đề kinh doanh. Nhưng sự chuyển biến bắt đầu từ 3 tuần còn lại của tháng 4, khi các chủ đề nóng lại tập trung trong chủ đề sức khoẻ liên quan đến dịch Covid như vắc-xin, ca, nhiễm. Tuy nhiên, đã có thể thấy luồng dư luận có sự thay đổi về chú ý trong thông tin thông quan quan sát các chủ đề được chú ý nhiều hay ít qua từng tuần.
Mức nổi bật Tuần 5 Tuần 6 Tuần 7 Tuần 8 1 sức khoẻ sức khoẻ sức khoẻ sức khoẻ
wordclouds ca, cách ly, tiêm, covid, nhiễm, tử vong vaccine, bệnh viện, xét nghiệm, covid, tiêm, nhiễm ca, bệnh nhân,xét nghiệm, vaccine, nhiễm, liều, y tế Y tế, ca, nhiễm, vac- cine, bệnh nhân
2 thể thao kinh doanh kinh doanh
wordclouds Trận, bóng, mùa, đội
Thị trường, tiền, đầu tư, công ty, giá
doanh nghiệp, tiền, thị trường,công ty, vải, cổ phiếu 3 wordclouds
Bảng 6.7: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5
Nhận xét: Trong tháng 5, tình hình covid khá trầm trọng. Hầu như phần lớn các bài viết đều nói về vấn đề này, không chỉ riêng chủ đề sức khoẻ. Tuy nhiên theo quan sát, đầu tháng 5 khi chủ đề thể thao nói về các trận World Cup giữa các đội tuyển đã chiếm khá nhiều chú ý. Hay tuần 7, và tuần 8, sự chú ý cũng thuộc về chủ đề kinh doanh khi mà thị trường chứng khốn có sự thay đổi mạnh, hay hỗ trợ các công ty vải thiều trong mùa dịch bệnh cũng được đề cập.
Kết luận: Nhờ mơ hình đề xuất, việc quan sát sự thay đổi dư luận theo thời gian có thể được thực hiện. Việc xác định thông qua mức độ nổi bật theo phần trăm của các chủ đề trong một tuần. Tuy đạt được kết quả quan sát trên tuần, nhưng với mong muốn mơ hình có thể đạt được kết quả quan sát thay đổi dư luận theo ngày, sẽ tiếp tục nghiên cứu hơn nữa.
6.6 Đánh giá ưu, nhược điểm của mơ hình đề xuất
1. Ưu điểm:
• Mơ hình đã khai thác được sự kết hợp phương pháp cơ bản trong phân cụm dữ liệu văn bản là LDA với phương pháp mới khai thác thêm ngữ nghĩa của văn bản là BERT
• Tính chính xác trong phân cụm văn bản tốt hơn LDA
• Nhờ khai thác được sự phân cụm nên ứng dụng trong quan sát sự thay đổi dư luận cũng đem lại kết quả tốt
2. Nhược điểm:
• Chưa thật sự khai thác tốt sentence embedding. Như đã đề cập việc lấy sentence em- bedding cũng chỉ là trung bình cộng của tất cả các word embedding, điều này khiến cho kiến trúc của câu đã bị bỏ qua, tuy nhiên sự kết hợp này vẫn thể hiện được những thông tin về sự liên quan về nghĩa của các từ.
• Thời gian huấn luyện chậm, bởi vì kiến trúc của mơ hình BERT phức tạp dẫn đến thời gian huấn luyện có lên đến 1 giờ cho 1000 hàng dữ liệu
• Số lượng topic vẫn đang chưa được tối ưu hố, vì thế vẫn sinh ra trường hợp chồng lấp topic vì những topic này liên quan gần đến nhau.
• Xử lý đầu vào dữ liệu vẫn cịn là một vấn đề khó, chỉ giảm nhiễu đơn thuần có thể khiến một thời gian lượng nhiễu xuất hiện nhiều gây ảnh hưởng xấu đến tính chính xác của mơ hình. Hiện nay q trình xử lý nhiễu(những bài báo khơng đem lại nhiều khả năng phân loại hoặc gây ảnh hưởng xấu đến quá trình phân loại) được thực hiện từng bước một(hard code), các tín hiệu nhận biết nhiễu được con người thực hiện(quan sát, phân loại, thống kê). Không tránh khỏi việc đã bỏ qua một lượng lớn nhiễu nếu lượng dữ liệu sử dụng lớn hơn. Trong tương lại những trang báo mạng, diễn đàn này cũng sẽ được cập nhật các tính năng mới hoặc các bài báo nhiễu loại mới mà mơ hình khơng kiểm sốt được.
6.7 Tổng kết chương 6
Chương 6 tìm hiểu lý thuyết về độ đo cho chủ đề coherence và độ đo cho phân cụm silhou- ette. Và thông tin liên quan đến kết quả thực nghiệm khả năng phân cụm chủ đề của mơ hình, so
sánh kết quả với các phương pháp có trước đó. Ngồi ra việc ứng dụng của mơ hình trong quan sát sự thay đổi của luồng dư luận cũng đạt được những hiệu quả tích cực.
Với những kết quả thu thập được đã rút ra được nhận xét về ưu điểm, khuyết điểm của mơ hình.
Chương 7 Kết luận
Qua tìm hiểu kết hợp các kiến thức liên quan về mơ hình chủ đề, mơ hình gom cụm, hệ thống kiến thức liên quan đến mơ hình BERT, và sự cải tiến của BERT(mơ hình RoBERTa) trong đơn