5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
2.4 Kiến trúc của Mơ hình CTM
• β đại diện cho phân phối Dirichlet của từ theo topic
• η đại diện cho biến đổi logistic cho phân phối của topic theo văn bản
• z đại diện cho topic thể hiện cho một từ nằm trong văn bản
• w đại diện cho index của một từ trong bộ ngữ liệu(vocabulary) nằm trong văn bản Nhận xét về ưu, nhược điểm và một số mơ hình dựa trên của CTM:
• Ưu điểm của CTM
– Có thể nhận thấy tính tương quan giữa các chủ đề có sự liên quan gần nhau
– Phù hợp với mơ hình có nhiều chủ đề và sự tương quan giữa các chủ đề phức tạp
• Nhược điểm của CTM
– Yêu cầu nhiều thời gian để thực hiện tính tốn
– Có khá nhiều từ tổng quát xuất hiện khá nhiều trong các chủ đề
• Các mơ hình dựa trên CTM
– The Embedded Topic Model[4]
– Structural Topic Models[26]
2.3.5 Một số mơ hình khác
• LSTM - Long Short Term Memory (2016)[28] - là một mơ hình mạng thuộc RNN. Được dựa trên thuật toán LSTM (Hochreiter & Schmidhuber, 1997)[49] . Được biết đến là một trong những mơ hình làm việc hiệu quả trong việc mơ hình hóa các mẫu ngữ cảnh tuần tự trong tập văn bản.
• NVDM - Neural Variational Document Model (2016)[58]. MVDM là một mơ hình sinh văn bản khơng giám sát với mục đích nhằm trích xuất một biến tìm ẩn ngữ nghĩa liên tục cho mỗi văn bản. Mơ hình có thể hiểu là một bộ mã hóa tự động biến thể: một bộ mã hóa MLP(mạng suy luận ) nén BOW thể hiện của văn bản dưới dạng phân phối tìm ẩn liên tục và softmax decoder(mơ hình sinh) sẽ cấu trúc lại văn bản bằng cách sinh các từ một cách độc lập.
• pseudo-document-based topic modeling (PTM)[61] (2016)dựa trên phương pháp tự tổng hợp để làm giảm bớt các vấn đề khó hiểu nhờ việc hợp nhất các đoạn văn bản ngăn thành văn bản dài và tìm những nhân tố tìm ẩn trong nó. PTM giả định rằng mỗi văn bản ngắn
được lấy từ mẫu của những văn bản dài giả và sau đó chúng ta sẽ suy ra những chủ đề ẩn từ văn bản dài giả đó. Phân phối đa thức được sử dụng để thiết lập mơ hình phân phối cho các văn bản ngắn trên các văn bản giả.
• K-competitive autoencoder for text(KATE)[15](2017) KATE được phát triển để khắc phục những điểm yếu của bộ mã hóa truyền thống cho dữ liệu văn bản khi mà bộ mã hóa truyền thống ln cố gắng tái tạo lại mỗi chiều của tập vector đầu vào dựa trên cơ sở bình đẳng điều này gây sự khơng phù hợp đối với dữ liệu là văn bản. KATE phát triển trên nền của thuật toán học sâu, dựa trên việc học tập cạnh tranh giữa các nơron tự động mã hóa.
• hsBM - Hierarchical Stochastic Block Modeling(2019)[37]. Mơ hình phân khối ngẫu nhiên dựa trên quy trình phân cấp Dirichlet[57] và mơ hình khối ngẫu nhiên(stochastic block model). Cải thiện quá trình kết hợp mơ hình khối ngẫu nhiên với q trình phân cấp trên các lớp khác nhau đã tạo ra một mơ hình mới có hiệu suất vượt trội hơn các mơ hình cũ trong tác vụ nhận biết các mối liên quan trong mạng phức hợp.
• Topic Aware Neural Keyphrase Generation - TANKG(2019)[60]. Dựa trên mơ hình sinh cụm từ khóa trên khn khổ chuỗi thần kinh nối tiếp chuỗi (seq2seq)(Meng và cộng sự, 2017)[48]. Giúp mơ hình hóa chung cho việc thể hiện các chủ đề tìm ẩn ở cấp độ ngữ liệu và giảm bớt tình trạng dữ liệu thưa thớt trong ngơn ngữ truyền thơng.
• JoSH(Hierarchical Topic Mining via Joint Spherical Tree and Text Embedding) (2020) [59]. JosH sử dụng cây danh mục miêu tả chỉ bởi tên danh mục, mục đích khai thác một tập hợp các thuật ngữ đại diện cho từng danh mục trong kho ngữ liệu. Phát triển một cây liên kết mới và phương pháp nhúng văn bản (text embedding method) cùng với quy trình tối ưu hóa ngun tắc cho phép mơ hình hóa đồng thời cấu trúc cây danh mục và quá trình sinh ngữ liệu trong khơng gian hình cầu nhằm khám phá thuật ngữ đại diện cho danh mục hiệu quả nhất.
2.4 Mơ hình LDA
Latent Dirichlet Allocation(LDA) là một mơ hình sinh xác suất cho tập dữ liệu rời rạc dựa trên phân phối Dirichlet, được công bố bởi David Blei, Andrew Ng, và Michael I. Jordan năm 2013[9]. Về cơ bản LDA được xây dựng dựa trên ý tưởng: mỗi tài liệu là một tập hợp của nhiều chủ đề khác nhau, mỗi chủ đề được biểu diễn bởi một tập hợp nhiều từ.
Từ khi xuất hiện đến nay, LDA đã trở thành nền tảng cho rất nhiều thuật tốn trong các mơ hình khai phá những nhân tố tìm ẩn với mơ hình chủ đề xác suất. LDA được coi là một thuật tốn mơ hình chủ đề phổ biến nhất trong các ứng dụng thực tế về trích xuất chủ đề từ tập văn bản bởi kết quả đạt độ chính xác và khả năng học trực tuyến (learning online - Mơ hình có thể tiếp tục học những văn bản mới thêm vào). Bộ ngữ liệu được tổ chức như một bộ trộn ngẫu nhiên của những chủ đề ẩn, còn những chủ đề ẩn là một phân phối của những từ.
Hiện mơ hình LDA có rất nhiều ứng dụng như: Khám phá vai trị trong mơ hình Author- Recipient-Topic (ART) ,trong phân tích mạng xã hội(Social network analysis), chủ đề về cảm
xúc(emotion topic), chấm điểm tự động(Automatic essay grading), chống lừa đảo(Anti-Phishing),..[5][38][29][6]
Lý thuyết về mơ hình LDA:
1. Một số định nghĩa
• Từ(word): là đơn vị cơ bản nhất của dữ liệu rời rạc. Một từ được xác định bởi chỉ số index của nó trong bộ từ vựng(vocabulary) có giá trị từ{1,2,3, ..V}. Một từ thứiđược biểu diễn bằng dưới dạng một one-hot vectorwi∈RV, trong đó chỉ có vị trí thứ i có giá trị là 1, các vị trí cịn lại trong vector đó mang giá trị 0
• Văn bản(document): là một tập hợp của N từ được kí hiệu bởiw= (w1,w2, . . . ,wN),
trong đó mỗiwnđại diện cho một từ trong câu
• Bộ ngữ liệu(corpus): là một tập hợp củaMvăn bản, kí hiệuD=w1,w2, . . . ,wM • Chủ đề ẩn(latent topic): là các chủ đề ẩn được xác định dựa trên phân phối của các từ
và làm trung gian biểu diễn các văn bản như tập hợp nhiều chủ đề ẩn khác nhau. Số lượng chủ đề được xác định trước và kí hiệu làK.
2. Tham số của mơ hình
• α là tham số phân phối tiên nghiệm Dirichlet của topic đối với mỗi document
• β là tham số phân phối tiên nghiệm Dirichlet của word đối với mỗi topic
• θilà phân phối của topic đối với document thứ i, ma trận MxK
• ϕklà phân phối của word đối với topic thứ k, ma trận KxV
• zi j là topic của word thứ j đối với document thứ i. Là một số nguyên trong khoảng
[1..K]
• wi j là index của word thứ i thuộc document j trong vocabulary. Là một số nguyên trong khoảng[1..V]
Trong mơ hình LDA biến suy nhất có thể quan sát được làwi j, còn các nhân tố còn lại đều
được sinh bởi phân phối xác suất Dirichlet(Dir) và Multinominal(Mul). 3. Mơ phỏng mơ hình và q trình sinh xác suất