Kết quả từ các tập dữ liệu

5 Đề xuất mô hình gom cụm văn bản dựa trên mô hình chủ đề kết hợp với véc-tơ ngữ

6.5 Kết quả từ các tập dữ liệu

6.5.1 Tập dữ liệu [I]

Vì mục tiêu của tập dữ liệu [I] là chứng tỏ hiệu quả của mô hình đề xuất. Với kết quả thu thập được trong quá trình thực nghiệm cho khả năng phân cụm dữ liệu của các chủ đề trong từng mô hình

• TF-IDF và Kmeans++: Kết quả phân cụm có thể nói là không tốt. Không thể tách rời các cụm với nhau, độ phân bố của cụm nó có sự sai lệch lớn, mất cân bằng giữa mật độ dữ liệu giữa các cụm. Bởi vì về cơ bản TF_IDF chỉ dựa vào sự phân bố của các từ, tần suất xuất hiện của nó trong văn bản, làm mất đi cấu trúc văn bản, và không sử dụng được ngữ nghĩa. Phương pháp này quá cơ bản để có thể phân cụm dữ liệu, hoặc nói đơn giản là một thuật toán thuần tuý mà chưa khai thác được sự thông minh của ngôn ngữ.

Hình 6.1: Phân cụm dữ liệu trên vector sinh bởi TF-IDF(mô phỏng với UMAP)

• LDA và Kmeans++: Kết quả phân cụm của LDA không được thể hiện trên mô phỏng hình ảnh bởi vì các véc-tơ sinh ra của LDA đã mang tính chất phân cụm cho các chủ đề. Nhưng kết quả thì tốt hơn TF_IDF. Mô hình LDA đã có thể khai thác được các công thức xác suất nên về mối quan hệ của các bài báo trong cùng một chủ đề rất rõ rệt, các chủ đề có một khoảng cách với nhau.

• BERT, Autoencoder và Kmeans++: Khai thác véc-tơ sentence embedding sinh ra bởi BERT. Có thể thấy các chủ đề khác nhau cũng có sự khác biệt rõ rệt, tuy nhiên vẫn còn sự chồng lấp giữa những chủ đề có nghĩa gần nhau.

Hình 6.2: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm chiềubởi Autoencoder(mô phỏng với UMAP) bởi Autoencoder(mô phỏng với UMAP)

• PhoBERT, Autoencoder và Kmeans++: Véc-tơ sinh ra bởi PhoBERT qua quá trình phân cụm, có thể nhận thấy có sự phân chia rõ ràng hơn giữa các cụm, sự chồng lấp các cụm vẫn có nhưng tương đối thấp.

Hình 6.3: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được giảmchiều bởi Autoencoder(mô phỏng với UMAP) chiều bởi Autoencoder(mô phỏng với UMAP)

• LDA kết hợp BERT, Autoencoder và Kmeans++: Kết quả mô hình này đạt được sự phân cụm rất rõ rệt. Sự kết hợp phù hợp giữa véc-tơ xác suất xác định chủ đề và véc-tơ sentence embedding khai thác ngữ nghĩa và cấu trúc văn bản đã đem lại kết quả tốt hơn mô hình LDA(*về mặt độ đo sẽ đề cập sau).

Hình 6.4: Phân cụm dữ liệu trên vector sinh bởi việc kết hợp BERT và LDA được giảm chiềubởi Autoencoder(mô phỏng với UMAP) bởi Autoencoder(mô phỏng với UMAP)

• LDA kết hợp PhoBERT, Autoencoder và Kmeans++: Tương tự như mô hình kết hợp BERT_LDA, mô hình này cũng cho ra kết quả tốt trong sự phân chia của các cụm.

Hình 6.5: Phân cụm dữ liệu trên vector sinh bởi việc kết hợp PhoBERT và LDA PhoBERT vàđược giảm chiều bởi Autoencoder(mô phỏng với UMAP) được giảm chiều bởi Autoencoder(mô phỏng với UMAP)

Xem xét độ đo của các mô hình:

Độ đo / Mô hình TF-IDF LDA BERT PHOBERT LDA- BERT LDA- PHOBERT Coherensive(CV) 0.7471 0.6918 0.5934 0.5961 0.7128 0.7137 Silhouette 0.0149 / 0.0321 0.0616 0.4684 0.4711 Bảng 6.4: Bảng độ đo so sánh các mô hình

Nhận xét: Mô hình đề xuất PhoBERT + LDA đem lại kết quả tốt nhất về độ mạch lạc giữa các từ trong cùng một chủ đề và sự phân biệt giữa các chủ đề khác nhau. Xét về độ chênh lệch với mô hình BERT đa ngôn ngữ + LDA là không nhiều, nhưng những cải thiện hơn đó, mặt nào cũng đã chứng minh được khả năng của một mô hình đơn ngôn ngữ do các nhà nghiên cứu Việt Nam đề xuất đã có những cải thiện tốt hơn trong một số tác vụ NLP chuyên biệt.

Quan sát trên 2 cụm của mô hình đề xuất, có thể thấy rằng quá trình phân cụm khá tốt thông qua wordclouds có thể thấy các từ cùng một chủ đề có sự liên quan đến nhau rất rõ ràng:

• Cụm 0: Đây là cụm với chủ đề giáo dục. Dễ dàng nhận thấy từ wordclouds, các từ như: Trường, thi, học_sinh, đào tạo, đại học, ... thể hiện khá rõ cho một chủ đề Giáo dục.

Hình 6.6: Cụm ở index 0 của mô hình để xuất

• Cụm 1: Đây là cụm với chủ đề kinh doanh. Dễ dàng nhận thấy từ wordclouds, các từ như: giá, doanh nghiệp, thị trường, công ty, ....

6.5.2 Tập dữ liệu [II]

Để quan sát luồng dư luận thay đổi như thế nào, phải quan sát sự thay đổi trong sự đề cập, chú ý của thông tin. Ở đây chính là sự thay đổi về mức độ quan tâm, độ nổi bật của các chủ đề theo thời gian. Để làm được việc đó đầu tiên mô hình phải có thể phân cụm chủ đề tốt. Như đề cập ở tập dữ liệu [I], mô hình đề xuất đem lại kết quả phân cụm chủ đề tương đối tốt. Sau đó, sử dụng nguồn dữ liệu đã thu thập được theo thời gian để đem đi phân cụm và xem xét sự thay đổi trong phân bố các chủ đề qua từng tuần như thế nào. Thực nghiệm này cũng thể hiện tính thực tiễn trong ứng dụng của mô hình đề xuất của luận văn.

Quan sát kết quả của quá trình phân cụm chủ đề qua 8 tuần:

Vị trí của chủ đề / Tuần

Tuần 1 Tuần 2 Tuần 3 Tuần 4 Tuần 5 Tuần 6 Tuần 7 Tuần 8

0 13.88 4.79 15.91 6.26 6.72 7.07 8.06 5.45 1 8.94 19.96 14.03 14.71 12.58 11.16 13.1 15.2 2 8.47 14.27 11.3 13.83 13.52 10.14 11.33 10.39 3 8.59 8.7 9.42 15.07 12.06 10.9 13.75 14.41 4 8.94 5.46 13.94 5.11 8.01 4.68 11.09 12.62 5 9.41 8.36 5.18 9.34 8.27 10.65 9 10.18 6 12 5.13 8.66 7.75 6.08 11.5 5.71 4.01 7 6.82 14.38 7.82 7.75 10.59 11.67 4.66 6.88 8 6.59 3.79 6.78 7.31 8.96 9.37 6.59 8.53 9 10.12 6.13 3.48 5.81 10.51 8.01 5.39 4.01 10 6.24 9.03 3.48 7.05 1.98 4.86 10.77 8.32

Bảng 6.5: Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% -Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất ra)

Dễ dàng nhận thấy có sự phân bố của chủ đề qua các tuần khá khác nhau. Để nhận thấy sự phân bố này, hãy xem xét sự những bảng tiếp theo, các bảng này lần lượt lấy ra các chủ đề có

phân bố lớn nhất trong tuần và xem xét sự thay đổi qua mỗi tuần của luồng thông tin. Mức nổi bật Tuần 1 Tuần 2 Tuần 3 Tuần 4 1 thể thao sức khoẻ sức khoẻ sức khoẻ

wordclouds bóng, bàn, trận, đội, giải vaccine, y tế, bác sĩ, bệnh nhân ca, vaccine, bệnh viện, nhiễm Ca, cách ly, covid, y tế, nhiễm 2 giải trí giáo dục kinh doanh kinh doanh

wordclouds phim, diễn viên, mẹ, trẻ trường, xét tuyển, thi, học bổng thị trường, dự án, đầu tư Công ty, thị trường, doanh nghiệp 3 kinh doanh giải trí

wordclouds Ngân hàng, công ty, cổ phiếu phim, tác phẩm, diễn viên,đạo diễn, diễn

Bảng 6.6: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4

Nhận xét: Có thể thấy trong đầu tháng 4, sự nổi bật trong thông tin được chiếm bởi chủ đề bóng đá của thể thao, hay các phim mới của giải trí, chứng khoán của chủ đề kinh doanh. Nhưng sự chuyển biến bắt đầu từ 3 tuần còn lại của tháng 4, khi các chủ đề nóng lại tập trung trong chủ đề sức khoẻ liên quan đến dịch Covid như vắc-xin, ca, nhiễm. Tuy nhiên, đã có thể thấy luồng dư luận có sự thay đổi về chú ý trong thông tin thông quan quan sát các chủ đề được chú ý nhiều hay ít qua từng tuần.

Mức nổi bật Tuần 5 Tuần 6 Tuần 7 Tuần 8 1 sức khoẻ sức khoẻ sức khoẻ sức khoẻ

wordclouds ca, cách ly, tiêm, covid, nhiễm, tử vong vaccine, bệnh viện, xét nghiệm, covid, tiêm, nhiễm ca, bệnh nhân,xét nghiệm, vaccine, nhiễm, liều, y tế Y tế, ca, nhiễm, vaccine, bệnh nhân

2 thể thao kinh doanh kinh doanh

wordclouds Trận, bóng, mùa, đội

Thị trường, tiền, đầu tư, công ty, giá

doanh nghiệp, tiền, thị trường,công ty, vải, cổ phiếu 3 wordclouds

Bảng 6.7: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5

Nhận xét: Trong tháng 5, tình hình covid khá trầm trọng. Hầu như phần lớn các bài viết đều nói về vấn đề này, không chỉ riêng chủ đề sức khoẻ. Tuy nhiên theo quan sát, đầu tháng 5 khi chủ đề thể thao nói về các trận World Cup giữa các đội tuyển đã chiếm khá nhiều chú ý. Hay tuần 7, và tuần 8, sự chú ý cũng thuộc về chủ đề kinh doanh khi mà thị trường chứng khoán có sự thay đổi mạnh, hay hỗ trợ các công ty vải thiều trong mùa dịch bệnh cũng được đề cập.

Kết luận: Nhờ mô hình đề xuất, việc quan sát sự thay đổi dư luận theo thời gian có thể được thực hiện. Việc xác định thông qua mức độ nổi bật theo phần trăm của các chủ đề trong một tuần. Tuy đạt được kết quả quan sát trên tuần, nhưng với mong muốn mô hình có thể đạt được kết quả quan sát thay đổi dư luận theo ngày, sẽ tiếp tục nghiên cứu hơn nữa.

6.6 Đánh giá ưu, nhược điểm của mô hình đề xuất

1. Ưu điểm:

• Mô hình đã khai thác được sự kết hợp phương pháp cơ bản trong phân cụm dữ liệu văn bản là LDA với phương pháp mới khai thác thêm ngữ nghĩa của văn bản là BERT

• Tính chính xác trong phân cụm văn bản tốt hơn LDA

• Nhờ khai thác được sự phân cụm nên ứng dụng trong quan sát sự thay đổi dư luận cũng đem lại kết quả tốt

2. Nhược điểm:

• Chưa thật sự khai thác tốt sentence embedding. Như đã đề cập việc lấy sentence embedding cũng chỉ là trung bình cộng của tất cả các word embedding, điều này khiến cho kiến trúc của câu đã bị bỏ qua, tuy nhiên sự kết hợp này vẫn thể hiện được những thông tin về sự liên quan về nghĩa của các từ.

• Thời gian huấn luyện chậm, bởi vì kiến trúc của mô hình BERT phức tạp dẫn đến thời gian huấn luyện có lên đến 1 giờ cho 1000 hàng dữ liệu

• Số lượng topic vẫn đang chưa được tối ưu hoá, vì thế vẫn sinh ra trường hợp chồng lấp topic vì những topic này liên quan gần đến nhau.

• Xử lý đầu vào dữ liệu vẫn còn là một vấn đề khó, chỉ giảm nhiễu đơn thuần có thể khiến một thời gian lượng nhiễu xuất hiện nhiều gây ảnh hưởng xấu đến tính chính xác của mô hình. Hiện nay quá trình xử lý nhiễu(những bài báo không đem lại nhiều khả năng phân loại hoặc gây ảnh hưởng xấu đến quá trình phân loại) được thực hiện từng bước một(hard code), các tín hiệu nhận biết nhiễu được con người thực hiện(quan sát, phân loại, thống kê). Không tránh khỏi việc đã bỏ qua một lượng lớn nhiễu nếu lượng dữ liệu sử dụng lớn hơn. Trong tương lại những trang báo mạng, diễn đàn này cũng sẽ được cập nhật các tính năng mới hoặc các bài báo nhiễu loại mới mà mô hình không kiểm soát được.

6.7 Tổng kết chương 6

Chương 6 tìm hiểu lý thuyết về độ đo cho chủ đề coherence và độ đo cho phân cụm silhouette. Và thông tin liên quan đến kết quả thực nghiệm khả năng phân cụm chủ đề của mô hình, so

sánh kết quả với các phương pháp có trước đó. Ngoài ra việc ứng dụng của mô hình trong quan sát sự thay đổi của luồng dư luận cũng đạt được những hiệu quả tích cực.

Với những kết quả thu thập được đã rút ra được nhận xét về ưu điểm, khuyết điểm của mô hình.

Chương 7 Kết luận

Qua tìm hiểu kết hợp các kiến thức liên quan về mô hình chủ đề, mô hình gom cụm, hệ thống kiến thức liên quan đến mô hình BERT, và sự cải tiến của BERT(mô hình RoBERTa) trong đơn ngôn ngữ là tiếng Việt(mô hình PhoBERT). Luận văn đã chứng minh những cải tiến đạt hiệu quả trong phân cụm chủ đề cho một tập dữ liệu gồm văn bản với một đề xuất mô hình kết hợp mới. Ngoài ra nhờ mô hình đề xuất, việc phát hiện thông tin chú ý của dư luận hay sự thay đổi của luồng dư luận theo thời gian đạt được những kết quả tích cực.

Kết quả đạt được:

• Kết quả phân cụm mô hình đạt được hiệu quả hơn so với mô hình TF-IDF, LDA, hoặc BERT. Mô hình kết hợp với các cụm được phân chia có sự phân biệt với nhau, dễ nhận biết hơn các mô hình khác.

• Kết quả về quan sát thay đổi dư luận mang tính tích cực. Sự chênh lệch phân bố của các chủ đề qua từng tuần rất rõ rệt, có thể dựa vào các từ top(những từ có tần suất xuất hiện nhiều) trong từng chủ đề hot(chủ đề được chú ý nhiều) để xác định sự chú ý của luồng thông tin.

Tuy nhiên, do hạn chế về thời gian nên luận văn vẫn còn những hạn chế:

• Quá trình xử lý nhiễu vẫn còn đang vẫn còn đơn giản. Lượng dữ liệu chưa phong phú vì dữ liệu quan sát chỉ lấy mới hơn 15000 bài báo.

• Hạn chế về phần cứng và thời gian huấn luyện mô hình.

xuất phát ở siêu tham số Gamma. Mô hình phân cụm đề xuất phụ thuộc vào siêu tham số này để tối ưu hoá khả năng kết hợp của LDA và PHOBERT, do đó siêu tham số này ảnh hưởng lớn tới quá trình phân cụm ở khối Clustering.

• Vẫn chưa khắc phục được hạn chế của LDA nằm trong việc số cụm chủ đề phân chia K phải xác định trước nếu không chọn được K hợp lý dễ gặp trường hợp chồng lấp topic hoặc thưa thớt topic.

Đề xuất phương án cải tiến cho mô hình:

• Về dữ liệu: Khai thác thêm các nguồn dữ liệu là báo điện tử, bổ sung thêm vào nguồn dữ liệu hiện tại. Hướng đến kết hợp thêm nguồn thông tin từ những bài viết trên mạng xã hội hoặc diễn đàn trực tuyến. Lượng dữ liệu phong phú và đa dạng đòi hỏi phải tối ưu và xử lý tốt trong quá trình giảm nhiễu ở bước tiền xử lý dữ liệu.

• Về mô hình: Đề xuất từ thuật toán nền tảng áp dụng và khai thác những thuật toán hiện đại. Một vài đề xuất: thay mô hình PhoBERT với mô hình Big Bird, đây là một mô hình cải tiến của BERT được đề xuất năm 2020 dành cho những văn bản có độ dài lớn; Việc giảm chiều dữ liệu có thể được thực hiện quan lớp CNN(Mạng tích chập), khả năng giữ được nhiều hơn về lượng thông tin trong véc-tơ nối; Những phương pháp phân cụm hiện đại khác KMeans.

• Về ứng dụng: Mong muốn hình thành được một ứng dụng tự động thu thập và huấn luyện mô hình. Người dùng chỉ cần lựa chọn khoảng thời gian(ngày, tuần, tháng, năm) cần quan sát sự thay đổi của luồng dư luận và nhận được kết quả ngay lập tức từ mô hình đã huấn luyện sẵn.

Các kết quả của luận văn này hi vọng sẽ đem đến một hướng nghiên cứu và được ứng dụng trong thực tế. Tìm ra những hướng cải tiến trong tương lai, cũng như phát triển và nâng cao kết quả cho mô hình phân cụm chủ đề trong văn bản.

Tài liệu tham khảo

[1] Martin Gerlach; Tiago Pexioto; Eduardo Altmann. InA network approach to topic models. Science Advances. 4 (7): eaaq1360. arXiv:1708.01677. Bibcode:2018SciA....4.1360G.. PMC 6051742. PMID 30035215, 2018.

[2] Markus M.; Kriegel Hans-Peter; Sander J¨org Ankerst, Mihael; Breunig. Optics: Order- ing points to identify the clustering structure". acm sigmod international conference on management of data. InACM SIGMOD international conference on Management of data. ACM Press, page 49_60, 1999.

[3] S Arthur, D.; Vassilvitskii. "k-means++: the advantages of careful seeding". In Pro- ceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, page 1027_1035. Society for Industrial and Applied Mathematics Philadelphia, PA, USA, 2007. [4] David M. Blei B. Dieng, Francisco J. R. Ruiz. Topic modeling in embedding spaces. In

Transactions of the Association for Computational Linguistics, volume 8, page 439_453, Jul 2020.

[5] Xu S. Zhang L. Yan R. Su Z. Han D. Bao, S. and Y Yu. Data mining, 2009. icdm.

Kiến trúc của Mơ hình CTM

Kiến trúc của Mơ hình LDA