1. Trang chủ
  2. » Luận Văn - Báo Cáo

Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

98 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Gom Cụm Văn Bản Dựa Trên Mô Hình Phát Hiện Chủ Đề
Tác giả Nguyễn Văn Quyền Lâm
Người hướng dẫn TS. Lê Thanh Vân
Trường học Đại Học Bách Khoa
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn Tốt Nghiệp
Năm xuất bản 2021
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 98
Dung lượng 1,88 MB

Nội dung

Ngày đăng: 12/05/2022, 11:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Martin Gerlach; Tiago Pexioto; Eduardo Altmann. In A network approach to topic models.Science Advances. 4 (7): eaaq1360. arXiv:1708.01677. Bibcode:2018SciA....4.1360G..PMC 6051742. PMID 30035215, 2018 Sách, tạp chí
Tiêu đề: A network approach to topic models
[3] S Arthur, D.; Vassilvitskii. "k-means++: the advantages of careful seeding". In Pro- ceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, page 1027_1035. Society for Industrial and Applied Mathematics Philadelphia, PA, USA, 2007 Sách, tạp chí
Tiêu đề: k-means++: the advantages of careful seeding
[4] David M. Blei B. Dieng, Francisco J. R. Ruiz. Topic modeling in embedding spaces. In Transactions of the Association for Computational Linguistics, volume 8, page 439_453, Jul 2020 Sách, tạp chí
Tiêu đề: Transactions of the Association for Computational Linguistics
[5] Xu S. Zhang L. Yan R. Su Z. Han D. Bao, S. and Y Yu. Data mining, 2009. icdm.In Joint Emotion-Topic Modeling for Social Affective Text Mining, page 699_704. Ninth IEEE International Conference, 2009 Sách, tạp chí
Tiêu đề: Joint Emotion-Topic Modeling for Social Affective Text Mining
[6] Chang J. Paa ò G. Reichartz F. Bergholz, A. and S. Strobel. In Improved phishing detection using model-based features, 2008 Sách, tạp chí
Tiêu đề: Improved phishing detectionusing model-based features
[7] Martin D. Berry, M. W. In e. kontoghiorghes (series ed.), statistics: A series of textbooks and monographs: Handbook of parallel computing and statistics. In Principle component analysis for information retrieval, page 399_413, 2005 Sách, tạp chí
Tiêu đề: Principle componentanalysis for information retrieval
[10] D. Blei and J. Lafferty. In Correlated Topic Models. Proceedings of the 18th International Conference on Neural Information Processing Systems, 2005 Sách, tạp chí
Tiêu đề: Correlated Topic Models
[11] David M. Blei and John D. Lafferty. In Dynamic topic models, page 113_120. Proceedings of the 23rd international conference on Machine learning, 2006 Sách, tạp chí
Tiêu đề: Dynamic topic models
[12] Allan J. Salton G. Buckley, C. In Automatic routing and ad-hoc retrieval using SMART:TREC2, page 45_45. NIST SPECIAL PUBLICATION SP, 1994 Sách, tạp chí
Tiêu đề: Automatic routing and ad-hoc retrieval using SMART:"TREC2
[13] Davoud Moulavi Campello, Ricardo JGB and J¨org Sander. Density-based clustering based on hierarchical density estimates. In Pacific-Asia conference on knowledge discovery and data mining, 2013 Sách, tạp chí
Tiêu đề: Pacific-Asia conference on knowledge discovery anddata mining
[14] Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil. Universal sentence encoder. CoRR, abs/1803.11175, 2018 Sách, tạp chí
Tiêu đề: CoRR
[15] Y. Chen and M. J. Zaki. In Kate: K-competitive autoencoder for text. Proceedings of the ACM SIGKDD International Conference on Data Mining and Knowledge Discovery, Aug 2017 Sách, tạp chí
Tiêu đề: Kate: K-competitive autoencoder for text
[16] Alexis Conneau, Douwe Kiela, Holger Schwenk, Lo¨ic Barrault, and Antoine Bordes. Su- pervised learning of universal sentence representations from natural language inference data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Lan- guage Processing, pages 670–680, Copenhagen, Denmark, September 2017. Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Proceedings of the 2017 Conference on Empirical Methods in Natural Lan-guage Processing
[17] Dumais S. T. Furnas G. W Landauer T. K. Harshman R. Deerwester, S. In Indexing by latent semantic analysis. Journal of the American society for information science, 41(6):391, 1990 Sách, tạp chí
Tiêu đề: Indexing bylatent semantic analysis
[18] Nan M. Laird Dempster, Arthur P. and Donald B. Rubin. In Maximum likelihood from incomplete data via the EM algorithm, volume Series B (methodological), page 1_38.Journal of the royal statistical society, 1977 Sách, tạp chí
Tiêu đề: Maximum likelihood fromincomplete data via the EM algorithm
[20] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018 Sách, tạp chí
Tiêu đề: CoRR
[21] Fridlyand J. Dudoit, S. and T. P. In Speed: comparison of discrimination methods for the classification of tumor using gene expression data., page 77_87. J. Amer. Stat. Assoc. 97, 2002 Sách, tạp chí
Tiêu đề: Speed: comparison of discrimination methods for theclassification of tumor using gene expression data
[23] Hans-Peter; Sander J¨org; Xu Xiaowei Ester, Martin; Kriegel. A density-based algorithm for discovering clusters in large spatial databases with noise. In Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M. (eds.). Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), page 226_231, 1996 Sách, tạp chí
Tiêu đề: Simoudis, Evangelos; Han,Jiawei; Fayyad, Usama M. (eds.). Proceedings of the Second International Conference onKnowledge Discovery and Data Mining (KDD-96)
[24] D.B.T.L. Griffiths and M. I. J. J. B. Tenenbaum. In Hierarchical topic models and the nested chinese restaurant process, page 17. Advances in neural information processing systems 16, 2004 Sách, tạp chí
Tiêu đề: Hierarchical topic models and thenested chinese restaurant process
[25] Hofmann, Thomas. In Probabilistic Latent Semantic Indexing(PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. Archived from the original (PDF) on 2010-12-14, 1999 Sách, tạp chí
Tiêu đề: Probabilistic Latent Semantic Indexing(PDF)

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Kiến trúc của mô hình LSA(hashtags là những document) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 2.1 Kiến trúc của mô hình LSA(hashtags là những document) (Trang 27)
Mô hình PLSA: Trong mô hình xác suất, với các biến tiềm ẩn ck ∈ c1 ,c 2, .., c K, tương ứng với một lớp ngữ nghĩa tiềm ẩn - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
h ình PLSA: Trong mô hình xác suất, với các biến tiềm ẩn ck ∈ c1 ,c 2, .., c K, tương ứng với một lớp ngữ nghĩa tiềm ẩn (Trang 29)
Hình 2.3: Hai quá trình sinh của mô hình PLSA mô tả theo đồ thị - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 2.3 Hai quá trình sinh của mô hình PLSA mô tả theo đồ thị (Trang 30)
2.3.3 Mô hình LDA - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
2.3.3 Mô hình LDA (Trang 31)
Trong mô hình LDA biến suy nhất có thể quan sát được là wi j, còn các nhân tố còn lại đều được sinh bởi phân phối xác suất Dirichlet(Dir) và Multinominal(Mul). - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
rong mô hình LDA biến suy nhất có thể quan sát được là wi j, còn các nhân tố còn lại đều được sinh bởi phân phối xác suất Dirichlet(Dir) và Multinominal(Mul) (Trang 35)
Hình 4.1: Kiến trúc BERT, OpenAI GPT và ELMo - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 4.1 Kiến trúc BERT, OpenAI GPT và ELMo (Trang 50)
Hình 4.3: Kiến trúc Transformer gồm cả hai khối encoder-decoder; BERT chỉ sử dụng khối encoder - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 4.3 Kiến trúc Transformer gồm cả hai khối encoder-decoder; BERT chỉ sử dụng khối encoder (Trang 51)
Hình 4.5: Mô phỏng quá trình che giấu token và dự đoán token được che giấu đó - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 4.5 Mô phỏng quá trình che giấu token và dự đoán token được che giấu đó (Trang 53)
Tìm hiểu về mô hình BERT, kiến trúc, các thành phần chính và cách hoạt động của BERT. Giới thiệu về RoBERTa, được biết đến với những cải thiện tăng cường khả năng của BERT - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
m hiểu về mô hình BERT, kiến trúc, các thành phần chính và cách hoạt động của BERT. Giới thiệu về RoBERTa, được biết đến với những cải thiện tăng cường khả năng của BERT (Trang 58)
Hình 5.1: Kiến trúc của mô hình phân cụm dựa trên mô hình chủ đề - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.1 Kiến trúc của mô hình phân cụm dựa trên mô hình chủ đề (Trang 60)
Hình 5.3: Mô phỏng quá trình sinh và kết quả với LDA - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.3 Mô phỏng quá trình sinh và kết quả với LDA (Trang 62)
Hình 5.4: Ví dụ về khối LDA trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.4 Ví dụ về khối LDA trong mô hình đề xuất (Trang 63)
Hình 5.6: Mô phỏng quá trình tạo sentence-embedding với PHOBERT - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.6 Mô phỏng quá trình tạo sentence-embedding với PHOBERT (Trang 64)
Hình 5.7: Ví dụ về khối phoBERT trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.7 Ví dụ về khối phoBERT trong mô hình đề xuất (Trang 66)
Hình 5.8: Kiến trúc của một Autoencoder [19] - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.8 Kiến trúc của một Autoencoder [19] (Trang 68)
5.4.3 Khối Autoencoder trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
5.4.3 Khối Autoencoder trong mô hình đề xuất (Trang 69)
Hình 5.10: Mô phỏng quá trình kết hợp véc-tơ LDA với vec-tơ sentence embedding và kết quả với Autoencoder - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.10 Mô phỏng quá trình kết hợp véc-tơ LDA với vec-tơ sentence embedding và kết quả với Autoencoder (Trang 70)
Hình 5.11: Ví dụ về khối Autoencoder trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.11 Ví dụ về khối Autoencoder trong mô hình đề xuất (Trang 71)
Hình 5.12: Mô phỏng quá trình phân cụm và kết quả của Kmeans++ - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.12 Mô phỏng quá trình phân cụm và kết quả của Kmeans++ (Trang 72)
Hình 5.13: Kiến trúc của khối Clustering trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 5.13 Kiến trúc của khối Clustering trong mô hình đề xuất (Trang 73)
Bảng 6.1: Phân chia 2 tập dữ liệu để thực nghiệm - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Bảng 6.1 Phân chia 2 tập dữ liệu để thực nghiệm (Trang 77)
Bảng 6.3: Thống kê sự phân bố dữ liệu theo từng tuần trong tập dữ liệu [II] - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Bảng 6.3 Thống kê sự phân bố dữ liệu theo từng tuần trong tập dữ liệu [II] (Trang 78)
Bảng 6.2: Thống kê sự phân bố dữ liệu theo chủ đề trong tập dữ liệu [I] - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Bảng 6.2 Thống kê sự phân bố dữ liệu theo chủ đề trong tập dữ liệu [I] (Trang 78)
Hình 6.2: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 6.2 Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) (Trang 82)
Hình 6.3: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 6.3 Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) (Trang 83)
Hình 6.7: Cụ mở index 1 của mô hình để xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 6.7 Cụ mở index 1 của mô hình để xuất (Trang 85)
Hình 6.6: Cụ mở index của mô hình để xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Hình 6.6 Cụ mở index của mô hình để xuất (Trang 85)
Bảng 6.5: Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% - -Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất ra) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Bảng 6.5 Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% - -Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất ra) (Trang 86)
Bảng 6.6: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4 - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Bảng 6.6 Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4 (Trang 87)
Bảng 6.7: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5 - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Bảng 6.7 Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5 (Trang 88)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN