5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
2.3 Hai quá trình sinh của mơ hình PLSA mơ tả theo đồ thị
Nhận xét về ưu, nhược điểm và một số mơ hình dựa trên của pLSA:
• Ưu điểm của pLSA
– Dựa trên mơ hình xác suất nên có thể dễ dàng mở rộng và nhúng vào các mơ hình phức tạp hơn
– Việc sinh từng từ cho từng chủ đề đơn lẻ khiến một văn bản có thể chứa nhiều từ khác nhau được tạo từ nhiều chủ đề khác nhau
– Xử lý được tính đa nghĩa của từ
• Nhược điểm của pLSA
– Mơ hình thống kê chưa khái quát, các văn bản mới hoặc những văn bản chưa từng xuất hiện trong bộ ngữ liệu khơng thể đưa vào trong q trình training dẫn đến việc overfit trên lượng lớn những tham số mà dựa hồn tồn vào kích thước bộ ngữ liệu
– Ở cấp độ văn bản, pLSA khơng thể hình thành mơ hình xác suất
• Các mơ hình dựa trên pLSA
– Bigram PLSA Topic Model(BPTM)[41]
2.3.3 Mơ hình LDA
Latent Dirichlet Allocation(LDA) là một mơ hình sinh xác suất cho tập dữ liệu rời rạc dựa trên phân phối Dirichlet, được công bố bởi David Blei, Andrew Ng, và Michael I. Jordan năm 2013[9]. Về cơ bản LDA được xây dựng dựa trên ý tưởng: mỗi tài liệu là một tập hợp của nhiều chủ đề khác nhau, mỗi chủ đề được biểu diễn bởi một tập hợp nhiều từ.
Giới thiệu chi tiết ở phần 2.4.
2.3.4 Mô hình CTM
Mơ hình CTM - Correlated Topic Model[10] là một loại mơ hình thống kê sử dụng trong xử lý ngơn ngữ tự nhiên và học máy. Mơ hình này nhằm khám phá các chủ đề có trong một tập tài liệu. Dựa trên phân phối chuẩn logistic và các cải tiến rút ra từ mơ hình LDA. Phân phối linh hoạt hơn cho tỷ lệ của các topic mà ở đó cho phép kiến trúc hiệp phương sai giữa các thành phần. Điều này làm cho mơ hình thực tế hơn cho cấu trúc chủ đề tiềm ẩn trong đó sự hiện diện của một chủ đề tiềm ẩn này có thể tương quan đến sự hiện diện của một chủ đề tiềm ẩn khác.
Mơ hình CTM: Thay vì sử dụng phân phối Dirichlet - Dir(α), CTM sử dụng phân phối chuẩn logistic - f(N(η,∑), trong đó f(x) là biến đổi logistic cịn N là phân phối chuẩn đa chiều).
Biến đổi logistic có cơng thức là:
θj= exp(ηj)
∑kp=0exp(ηp)