Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

98 17 0
Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

... nhằm cải thiện khả mơ hình phát chủ đề Với hi vọng đạt kết khả quan từ mơ hình đề xuất Nhận thấy vấn đề cần nghiên cứu tơi lựa chọn đề tài luận văn: "Gom cụm văn dựa mô hình phát chủ đề" Nhằm... Tổng quan mơ hình chủ đề 2.1 Tổng quan chủ đề Chủ đề vấn đề bản, vấn đề cốt lõi mà người viết, người nói nêu lên thơng qua văn lời nói Chủ đề cung cấp hội để hiểu nội dung đề cập từ chủ đề chi phối... văn lại mang chủ đề bao quát giống nhau, nhờ tính liên quan đến chủ đề mà hình thành mơ hình gom cụm chủ đề cho văn 2.2 Tổng quan mơ hình chủ đề 2.2.1 Khái niệm mơ hình chủ đề Trong học máy xử

Ngày đăng: 12/05/2022, 11:17

Hình ảnh liên quan

Hình 2.1: Kiến trúc của mô hình LSA(hashtags là những document) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 2.1.

Kiến trúc của mô hình LSA(hashtags là những document) Xem tại trang 27 của tài liệu.
Mô hình PLSA: Trong mô hình xác suất, với các biến tiềm ẩn ck ∈ c1 ,c 2, .., c K, tương ứng với một lớp ngữ nghĩa tiềm ẩn - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

h.

ình PLSA: Trong mô hình xác suất, với các biến tiềm ẩn ck ∈ c1 ,c 2, .., c K, tương ứng với một lớp ngữ nghĩa tiềm ẩn Xem tại trang 29 của tài liệu.
Hình 2.3: Hai quá trình sinh của mô hình PLSA mô tả theo đồ thị - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 2.3.

Hai quá trình sinh của mô hình PLSA mô tả theo đồ thị Xem tại trang 30 của tài liệu.
2.3.3 Mô hình LDA - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

2.3.3.

Mô hình LDA Xem tại trang 31 của tài liệu.
Trong mô hình LDA biến suy nhất có thể quan sát được là wi j, còn các nhân tố còn lại đều được sinh bởi phân phối xác suất Dirichlet(Dir) và Multinominal(Mul). - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

rong.

mô hình LDA biến suy nhất có thể quan sát được là wi j, còn các nhân tố còn lại đều được sinh bởi phân phối xác suất Dirichlet(Dir) và Multinominal(Mul) Xem tại trang 35 của tài liệu.
Hình 4.1: Kiến trúc BERT, OpenAI GPT và ELMo - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 4.1.

Kiến trúc BERT, OpenAI GPT và ELMo Xem tại trang 50 của tài liệu.
Hình 4.3: Kiến trúc Transformer gồm cả hai khối encoder-decoder; BERT chỉ sử dụng khối encoder - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 4.3.

Kiến trúc Transformer gồm cả hai khối encoder-decoder; BERT chỉ sử dụng khối encoder Xem tại trang 51 của tài liệu.
Hình 4.5: Mô phỏng quá trình che giấu token và dự đoán token được che giấu đó - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 4.5.

Mô phỏng quá trình che giấu token và dự đoán token được che giấu đó Xem tại trang 53 của tài liệu.
Tìm hiểu về mô hình BERT, kiến trúc, các thành phần chính và cách hoạt động của BERT. Giới thiệu về RoBERTa, được biết đến với những cải thiện tăng cường khả năng của BERT - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

m.

hiểu về mô hình BERT, kiến trúc, các thành phần chính và cách hoạt động của BERT. Giới thiệu về RoBERTa, được biết đến với những cải thiện tăng cường khả năng của BERT Xem tại trang 58 của tài liệu.
Hình 5.1: Kiến trúc của mô hình phân cụm dựa trên mô hình chủ đề - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.1.

Kiến trúc của mô hình phân cụm dựa trên mô hình chủ đề Xem tại trang 60 của tài liệu.
Hình 5.3: Mô phỏng quá trình sinh và kết quả với LDA - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.3.

Mô phỏng quá trình sinh và kết quả với LDA Xem tại trang 62 của tài liệu.
Hình 5.4: Ví dụ về khối LDA trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.4.

Ví dụ về khối LDA trong mô hình đề xuất Xem tại trang 63 của tài liệu.
Hình 5.6: Mô phỏng quá trình tạo sentence-embedding với PHOBERT - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.6.

Mô phỏng quá trình tạo sentence-embedding với PHOBERT Xem tại trang 64 của tài liệu.
Hình 5.7: Ví dụ về khối phoBERT trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.7.

Ví dụ về khối phoBERT trong mô hình đề xuất Xem tại trang 66 của tài liệu.
Hình 5.8: Kiến trúc của một Autoencoder [19] - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.8.

Kiến trúc của một Autoencoder [19] Xem tại trang 68 của tài liệu.
5.4.3 Khối Autoencoder trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

5.4.3.

Khối Autoencoder trong mô hình đề xuất Xem tại trang 69 của tài liệu.
Hình 5.10: Mô phỏng quá trình kết hợp véc-tơ LDA với vec-tơ sentence embedding và kết quả với Autoencoder - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.10.

Mô phỏng quá trình kết hợp véc-tơ LDA với vec-tơ sentence embedding và kết quả với Autoencoder Xem tại trang 70 của tài liệu.
Hình 5.11: Ví dụ về khối Autoencoder trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.11.

Ví dụ về khối Autoencoder trong mô hình đề xuất Xem tại trang 71 của tài liệu.
Hình 5.12: Mô phỏng quá trình phân cụm và kết quả của Kmeans++ - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.12.

Mô phỏng quá trình phân cụm và kết quả của Kmeans++ Xem tại trang 72 của tài liệu.
Hình 5.13: Kiến trúc của khối Clustering trong mô hình đề xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 5.13.

Kiến trúc của khối Clustering trong mô hình đề xuất Xem tại trang 73 của tài liệu.
Bảng 6.1: Phân chia 2 tập dữ liệu để thực nghiệm - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Bảng 6.1.

Phân chia 2 tập dữ liệu để thực nghiệm Xem tại trang 77 của tài liệu.
Bảng 6.3: Thống kê sự phân bố dữ liệu theo từng tuần trong tập dữ liệu [II] - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Bảng 6.3.

Thống kê sự phân bố dữ liệu theo từng tuần trong tập dữ liệu [II] Xem tại trang 78 của tài liệu.
Bảng 6.2: Thống kê sự phân bố dữ liệu theo chủ đề trong tập dữ liệu [I] - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Bảng 6.2.

Thống kê sự phân bố dữ liệu theo chủ đề trong tập dữ liệu [I] Xem tại trang 78 của tài liệu.
Hình 6.2: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 6.2.

Phân cụm dữ liệu trên vector sentence-embedding sinh bởi BERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) Xem tại trang 82 của tài liệu.
Hình 6.3: Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 6.3.

Phân cụm dữ liệu trên vector sentence-embedding sinh bởi PhoBERT và được giảm chiều bởi Autoencoder(mô phỏng với UMAP) Xem tại trang 83 của tài liệu.
Hình 6.7: Cụ mở index 1 của mô hình để xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 6.7.

Cụ mở index 1 của mô hình để xuất Xem tại trang 85 của tài liệu.
Hình 6.6: Cụ mở index của mô hình để xuất - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Hình 6.6.

Cụ mở index của mô hình để xuất Xem tại trang 85 của tài liệu.
Bảng 6.5: Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% - -Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất ra) - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Bảng 6.5.

Thống kê sự phân bố( tính theo %) của các chủ đề theo tuần(tổng 11 chủ đề là 100% - -Vị trí các chủ đề không giống nhau trên cùng một hàng, đây chỉ là trị số index do mô hình xuất ra) Xem tại trang 86 của tài liệu.
Bảng 6.6: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4 - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Bảng 6.6.

Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 4 Xem tại trang 87 của tài liệu.
Bảng 6.7: Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5 - Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Bảng 6.7.

Ghi nhận các chủ đề nổi bật nhất qua 4 tuần của tháng 5 Xem tại trang 88 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan