5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
6.7 Cụ mở index 1 của mơ hình để xuất
6.5.2 Tập dữ liệu [II]
Để quan sát luồng dư luận thay đổi như thế nào, phải quan sát sự thay đổi trong sự đề cập, chú ý của thơng tin. Ở đây chính là sự thay đổi về mức độ quan tâm, độ nổi bật của các chủ đề theo thời gian. Để làm được việc đó đầu tiên mơ hình phải có thể phân cụm chủ đề tốt. Như đề cập ở tập dữ liệu [I], mơ hình đề xuất đem lại kết quả phân cụm chủ đề tương đối tốt. Sau đó, sử dụng nguồn dữ liệu đã thu thập được theo thời gian để đem đi phân cụm và xem xét sự thay đổi trong phân bố các chủ đề qua từng tuần như thế nào. Thực nghiệm này cũng thể hiện tính thực tiễn trong ứng dụng của mơ hình đề xuất của luận văn.
Quan sát kết quả của quá trình phân cụm chủ đề qua 8 tuần:
Vị trí của chủ đề / Tuần
Tuần 1 Tuần 2 Tuần 3 Tuần 4 Tuần 5 Tuần 6 Tuần 7 Tuần 8
0 13.88 4.79 15.91 6.26 6.72 7.07 8.06 5.45 1 8.94 19.96 14.03 14.71 12.58 11.16 13.1 15.2 2 8.47 14.27 11.3 13.83 13.52 10.14 11.33 10.39 3 8.59 8.7 9.42 15.07 12.06 10.9 13.75 14.41 4 8.94 5.46 13.94 5.11 8.01 4.68 11.09 12.62 5 9.41 8.36 5.18 9.34 8.27 10.65 9 10.18 6 12 5.13 8.66 7.75 6.08 11.5 5.71 4.01 7 6.82 14.38 7.82 7.75 10.59 11.67 4.66 6.88 8 6.59 3.79 6.78 7.31 8.96 9.37 6.59 8.53 9 10.12 6.13 3.48 5.81 10.51 8.01 5.39 4.01 10 6.24 9.03 3.48 7.05 1.98 4.86 10.77 8.32
Bảng 6.5: Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% -Vị trí các chủ đề khơng giống nhau trên cùng một hàng, đây chỉ là trị số index do mơ hình xuất Vị trí các chủ đề khơng giống nhau trên cùng một hàng, đây chỉ là trị số index do mơ hình xuất ra)
Dễ dàng nhận thấy có sự phân bố của chủ đề qua các tuần khá khác nhau. Để nhận thấy sự phân bố này, hãy xem xét sự những bảng tiếp theo, các bảng này lần lượt lấy ra các chủ đề có
phân bố lớn nhất trong tuần và xem xét sự thay đổi qua mỗi tuần của luồng thông tin. Mức nổi bật Tuần 1 Tuần 2 Tuần 3 Tuần 4 1 thể thao sức khoẻ sức khoẻ sức khoẻ
wordclouds bóng, bàn, trận, đội, giải vaccine, y tế, bác sĩ, bệnh nhân ca, vaccine, bệnh viện, nhiễm Ca, cách ly, covid, y tế, nhiễm 2 giải trí giáo dục kinh doanh kinh doanh
wordclouds phim, diễn viên, mẹ, trẻ trường, xét tuyển, thi, học bổng thị trường, dự án, đầu tư Cơng ty, thị trường, doanh nghiệp 3 kinh doanh giải trí
wordclouds Ngân hàng, cơng ty, cổ phiếu phim, tác phẩm, diễn viên,đạo diễn, diễn
Bảng 6.6: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4
Nhận xét: Có thể thấy trong đầu tháng 4, sự nổi bật trong thơng tin được chiếm bởi chủ đề bóng đá của thể thao, hay các phim mới của giải trí, chứng khốn của chủ đề kinh doanh. Nhưng sự chuyển biến bắt đầu từ 3 tuần còn lại của tháng 4, khi các chủ đề nóng lại tập trung trong chủ đề sức khoẻ liên quan đến dịch Covid như vắc-xin, ca, nhiễm. Tuy nhiên, đã có thể thấy luồng dư luận có sự thay đổi về chú ý trong thông tin thông quan quan sát các chủ đề được chú ý nhiều hay ít qua từng tuần.
Mức nổi bật Tuần 5 Tuần 6 Tuần 7 Tuần 8 1 sức khoẻ sức khoẻ sức khoẻ sức khoẻ
wordclouds ca, cách ly, tiêm, covid, nhiễm, tử vong vaccine, bệnh viện, xét nghiệm, covid, tiêm, nhiễm ca, bệnh nhân,xét nghiệm, vaccine, nhiễm, liều, y tế Y tế, ca, nhiễm, vac- cine, bệnh nhân
2 thể thao kinh doanh kinh doanh
wordclouds Trận, bóng, mùa, đội
Thị trường, tiền, đầu tư, cơng ty, giá
doanh nghiệp, tiền, thị trường,công ty, vải, cổ phiếu 3 wordclouds
Bảng 6.7: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5
Nhận xét: Trong tháng 5, tình hình covid khá trầm trọng. Hầu như phần lớn các bài viết đều nói về vấn đề này, không chỉ riêng chủ đề sức khoẻ. Tuy nhiên theo quan sát, đầu tháng 5 khi chủ đề thể thao nói về các trận World Cup giữa các đội tuyển đã chiếm khá nhiều chú ý. Hay tuần 7, và tuần 8, sự chú ý cũng thuộc về chủ đề kinh doanh khi mà thị trường chứng khốn có sự thay đổi mạnh, hay hỗ trợ các công ty vải thiều trong mùa dịch bệnh cũng được đề cập.
Kết luận: Nhờ mơ hình đề xuất, việc quan sát sự thay đổi dư luận theo thời gian có thể được thực hiện. Việc xác định thông qua mức độ nổi bật theo phần trăm của các chủ đề trong một tuần. Tuy đạt được kết quả quan sát trên tuần, nhưng với mong muốn mơ hình có thể đạt được kết quả quan sát thay đổi dư luận theo ngày, sẽ tiếp tục nghiên cứu hơn nữa.
6.6 Đánh giá ưu, nhược điểm của mơ hình đề xuất
1. Ưu điểm:
• Mơ hình đã khai thác được sự kết hợp phương pháp cơ bản trong phân cụm dữ liệu văn bản là LDA với phương pháp mới khai thác thêm ngữ nghĩa của văn bản là BERT
• Tính chính xác trong phân cụm văn bản tốt hơn LDA
• Nhờ khai thác được sự phân cụm nên ứng dụng trong quan sát sự thay đổi dư luận cũng đem lại kết quả tốt
2. Nhược điểm:
• Chưa thật sự khai thác tốt sentence embedding. Như đã đề cập việc lấy sentence em- bedding cũng chỉ là trung bình cộng của tất cả các word embedding, điều này khiến cho kiến trúc của câu đã bị bỏ qua, tuy nhiên sự kết hợp này vẫn thể hiện được những thông tin về sự liên quan về nghĩa của các từ.
• Thời gian huấn luyện chậm, bởi vì kiến trúc của mơ hình BERT phức tạp dẫn đến thời gian huấn luyện có lên đến 1 giờ cho 1000 hàng dữ liệu
• Số lượng topic vẫn đang chưa được tối ưu hố, vì thế vẫn sinh ra trường hợp chồng lấp topic vì những topic này liên quan gần đến nhau.
• Xử lý đầu vào dữ liệu vẫn cịn là một vấn đề khó, chỉ giảm nhiễu đơn thuần có thể khiến một thời gian lượng nhiễu xuất hiện nhiều gây ảnh hưởng xấu đến tính chính xác của mơ hình. Hiện nay q trình xử lý nhiễu(những bài báo khơng đem lại nhiều khả năng phân loại hoặc gây ảnh hưởng xấu đến quá trình phân loại) được thực hiện từng bước một(hard code), các tín hiệu nhận biết nhiễu được con người thực hiện(quan sát, phân loại, thống kê). Không tránh khỏi việc đã bỏ qua một lượng lớn nhiễu nếu lượng dữ liệu sử dụng lớn hơn. Trong tương lại những trang báo mạng, diễn đàn này cũng sẽ được cập nhật các tính năng mới hoặc các bài báo nhiễu loại mới mà mơ hình khơng kiểm sốt được.
6.7 Tổng kết chương 6
Chương 6 tìm hiểu lý thuyết về độ đo cho chủ đề coherence và độ đo cho phân cụm silhou- ette. Và thông tin liên quan đến kết quả thực nghiệm khả năng phân cụm chủ đề của mơ hình, so
sánh kết quả với các phương pháp có trước đó. Ngồi ra việc ứng dụng của mơ hình trong quan sát sự thay đổi của luồng dư luận cũng đạt được những hiệu quả tích cực.
Với những kết quả thu thập được đã rút ra được nhận xét về ưu điểm, khuyết điểm của mơ hình.
Chương 7 Kết luận
Qua tìm hiểu kết hợp các kiến thức liên quan về mơ hình chủ đề, mơ hình gom cụm, hệ thống kiến thức liên quan đến mơ hình BERT, và sự cải tiến của BERT(mơ hình RoBERTa) trong đơn ngơn ngữ là tiếng Việt(mơ hình PhoBERT). Luận văn đã chứng minh những cải tiến đạt hiệu quả trong phân cụm chủ đề cho một tập dữ liệu gồm văn bản với một đề xuất mơ hình kết hợp mới. Ngồi ra nhờ mơ hình đề xuất, việc phát hiện thơng tin chú ý của dư luận hay sự thay đổi của luồng dư luận theo thời gian đạt được những kết quả tích cực.
Kết quả đạt được:
• Kết quả phân cụm mơ hình đạt được hiệu quả hơn so với mơ hình TF-IDF, LDA, hoặc BERT. Mơ hình kết hợp với các cụm được phân chia có sự phân biệt với nhau, dễ nhận biết hơn các mơ hình khác.
• Kết quả về quan sát thay đổi dư luận mang tính tích cực. Sự chênh lệch phân bố của các chủ đề qua từng tuần rất rõ rệt, có thể dựa vào các từ top(những từ có tần suất xuất hiện nhiều) trong từng chủ đề hot(chủ đề được chú ý nhiều) để xác định sự chú ý của luồng thông tin.
Tuy nhiên, do hạn chế về thời gian nên luận văn vẫn cịn những hạn chế:
• Q trình xử lý nhiễu vẫn cịn đang vẫn cịn đơn giản. Lượng dữ liệu chưa phong phú vì dữ liệu quan sát chỉ lấy mới hơn 15000 bài báo.
• Hạn chế về phần cứng và thời gian huấn luyện mơ hình.
xuất phát ở siêu tham số Gamma. Mơ hình phân cụm đề xuất phụ thuộc vào siêu tham số này để tối ưu hoá khả năng kết hợp của LDA và PHOBERT, do đó siêu tham số này ảnh hưởng lớn tới q trình phân cụm ở khối Clustering.
• Vẫn chưa khắc phục được hạn chế của LDA nằm trong việc số cụm chủ đề phân chia K phải xác định trước nếu không chọn được K hợp lý dễ gặp trường hợp chồng lấp topic hoặc thưa thớt topic.
Đề xuất phương án cải tiến cho mơ hình:
• Về dữ liệu: Khai thác thêm các nguồn dữ liệu là báo điện tử, bổ sung thêm vào nguồn dữ liệu hiện tại. Hướng đến kết hợp thêm nguồn thông tin từ những bài viết trên mạng xã hội hoặc diễn đàn trực tuyến. Lượng dữ liệu phong phú và đa dạng đòi hỏi phải tối ưu và xử lý tốt trong quá trình giảm nhiễu ở bước tiền xử lý dữ liệu.
• Về mơ hình: Đề xuất từ thuật toán nền tảng áp dụng và khai thác những thuật tốn hiện đại. Một vài đề xuất: thay mơ hình PhoBERT với mơ hình Big Bird, đây là một mơ hình cải tiến của BERT được đề xuất năm 2020 dành cho những văn bản có độ dài lớn; Việc giảm chiều dữ liệu có thể được thực hiện quan lớp CNN(Mạng tích chập), khả năng giữ được nhiều hơn về lượng thơng tin trong véc-tơ nối; Những phương pháp phân cụm hiện đại khác KMeans.
• Về ứng dụng: Mong muốn hình thành được một ứng dụng tự động thu thập và huấn luyện mơ hình. Người dùng chỉ cần lựa chọn khoảng thời gian(ngày, tuần, tháng, năm) cần quan sát sự thay đổi của luồng dư luận và nhận được kết quả ngay lập tức từ mơ hình đã huấn luyện sẵn.
Các kết quả của luận văn này hi vọng sẽ đem đến một hướng nghiên cứu và được ứng dụng trong thực tế. Tìm ra những hướng cải tiến trong tương lai, cũng như phát triển và nâng cao kết quả cho mơ hình phân cụm chủ đề trong văn bản.
Tài liệu tham khảo
[1] Martin Gerlach; Tiago Pexioto; Eduardo Altmann. InA network approach to topic models.
Science Advances. 4 (7): eaaq1360. arXiv:1708.01677. Bibcode:2018SciA....4.1360G.. PMC 6051742. PMID 30035215, 2018.
[2] Markus M.; Kriegel Hans-Peter; Sander Jăorg Ankerst, Mihael; Breunig. Optics: Order- ing points to identify the clustering structure". acm sigmod international conference on management of data. InACM SIGMOD international conference on Management of data. ACM Press, page 49_60, 1999.
[3] S Arthur, D.; Vassilvitskii. "k-means++: the advantages of careful seeding". In Pro- ceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, page
1027_1035. Society for Industrial and Applied Mathematics Philadelphia, PA, USA, 2007. [4] David M. Blei B. Dieng, Francisco J. R. Ruiz. Topic modeling in embedding spaces. In
Transactions of the Association for Computational Linguistics, volume 8, page 439_453,
Jul 2020.
[5] Xu S. Zhang L. Yan R. Su Z. Han D. Bao, S. and Y Yu. Data mining, 2009. icdm. In Joint Emotion-Topic Modeling for Social Affective Text Mining, page 699_704. Ninth
IEEE International Conference, 2009.
[6] Chang J. PaaßG. Reichartz F. Bergholz, A. and S. Strobel. InImproved phishing detection using model-based features, 2008.
[7] Martin D. Berry, M. W. In e. kontoghiorghes (series ed.), statistics: A series of textbooks and monographs: Handbook of parallel computing and statistics. InPrinciple component analysis for information retrieval, page 399_413, 2005.
[8] James C Bezdek. InPattern Recognition with Fuzzy Objective Function Algorithms, 1981.
allocation, page 993_1022. Journal of Machine Learning Research, Jan. 2003.
[10] D. Blei and J. Lafferty. InCorrelated Topic Models. Proceedings of the 18th International
Conference on Neural Information Processing Systems, 2005.
[11] David M. Blei and John D. Lafferty. InDynamic topic models, page 113_120. Proceedings
of the 23rd international conference on Machine learning, 2006.
[12] Allan J. Salton G. Buckley, C. InAutomatic routing and ad-hoc retrieval using SMART: TREC2, page 45_45. NIST SPECIAL PUBLICATION SP, 1994.
[13] Davoud Moulavi Campello, Ricardo JGB and Jăorg Sander. Density-based clustering based on hierarchical density estimates. InPacific-Asia conference on knowledge discovery and data mining, 2013.
[14] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil. Universal sentence encoder. CoRR, abs/1803.11175, 2018.
[15] Y. Chen and M. J. Zaki. InKate: K-competitive autoencoder for text. Proceedings of the
ACM SIGKDD International Conference on Data Mining and Knowledge Discovery, Aug 2017.
[16] Alexis Conneau, Douwe Kiela, Holger Schwenk, Loăic Barrault, and Antoine Bordes. Su- pervised learning of universal sentence representations from natural language inference data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Lan- guage Processing, pages 670–680, Copenhagen, Denmark, September 2017. Association
for Computational Linguistics.
[17] Dumais S. T. Furnas G. W Landauer T. K. Harshman R. Deerwester, S. InIndexing by latent semantic analysis. Journal of the American society for information science, 41(6):
391, 1990.
[18] Nan M. Laird Dempster, Arthur P. and Donald B. Rubin. In Maximum likelihood from incomplete data via the EM algorithm, volume Series B (methodological), page 1_38.
Journal of the royal statistical society, 1977. [19] Arden Dertat. Autoencoder.
[20] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805,
[21] Fridlyand J. Dudoit, S. and T. P. InSpeed: comparison of discrimination methods for the classification of tumor using gene expression data., page 77_87. J. Amer. Stat. Assoc. 97,
2002.
[22] J. C Dunn. A fuzzy relative of the isodata process and its use in detecting compact well- separated clusters". journal of cybernetics. page 32_57, 1973.
[23] Hans-Peter; Sander Jăorg; Xu Xiaowei Ester, Martin; Kriegel. A density-based algorithm for discovering clusters in large spatial databases with noise. InSimoudis, Evangelos; Han, Jiawei; Fayyad, Usama M. (eds.). Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), page 226_231, 1996.
[24] D.B.T.L. Griffiths and M. I. J. J. B. Tenenbaum. InHierarchical topic models and the nested chinese restaurant process, page 17. Advances in neural information processing
systems 16, 2004.
[25] Hofmann, Thomas. InProbabilistic Latent Semantic Indexing(PDF). Proceedings of the
Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Archived from the original (PDF) on 2010-12-14, 1999.
[26] ChengXiang Zhai Hongning Wang, Duo Zhang. In Structural Topic Model for Latent Topical Structure Analysis, page 1526_1535. Proceedings of the 49th Annual Meeting of
the Association for Computational Linguistics, Jun 2011.
[27] Kai Yu Matthias Schubert Shipeng Yu Volker Tresp Huang, Yi and Hans-Peter Kriegel. Data mining,fifth ieee international conference. In"Hierarchy-regularized latent semantic indexing, page 8_8. IEEE, 2005.
[28] Yang LI Ting LIU Jing JIANG. InHashtag recommendation with topical attention-based LSTM. Singapore Management University, Dec 2016.
[29] Myller N. Kakkonen, T. and E. Sutinen. InApplying latent Dirichlet allocation to auto- matic essay grading, page 110_120. Lecture Notes in Computer Science, 2006.
[30] Myller N. Sutinen E. Kakkonen, T. and J. Timonen. In Comparison of Dimension Re- duction Methods for Automated Essay Grading||, Educational Technology Society, page
275_288, 2008.
[31] Bansal P. Kherwa, P. InLatent Semantic Analysis: An Approach to Understand Seman- tic of Text, page 870_874. In International Conference on Current Trends in Computer,
[32] Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S Zemel, Antonio Torralba, Raquel Urtasun, and Sanja Fidler. Skip-thought vectors.arXiv preprint arXiv:1506.06726,
2015.
[33] Andrew Li, Wei; McCallum. Pachinko allocation: Dag-structured mixture models of topic correlations. Proceedings of the 23rd International Conference on Machine Learning, 2006.
[34] Kar Wai Lim and Wray Buntine. Machine learning 103. In Bibliographic analysis on research publications using authors, categorical labels and the citation network, volume 2,
page 185_213, 2016.