5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
2.1 Kiến trúc của mơ hình LSA(hashtags là những document)
Trong đó t là tham số số lượng topics được lựa chọn.
• Ma trận U là ma trận document-topic
• Ma trận V là ma trận term-topic
• Mỗi dịng của U sẽ biểu diễn phân phối của văn bản và mỗi dòng của V là phân phối của mỗi từ theo t topic ẩn
• Các cột của U, V đại diện cho các topic ẩn
• Để tìm ra 2 văn bản giống nhau hoặc 2 từ giống nhau chúng ta sẽ tính tương quan của các vector dòng tương ứng với các văn bản của ma trận U hoặc vector dòng tương ứng với từ của ma trận V
Nhận xét về ưu, nhược điểm và một số mơ hình dựa trên của LSA:
• Ưu điểm của LSA
– Giảm được số chiều của tập dữ liệu nhờ sử dụng SVD so sánh với TF-IDF
– Không yêu cầu nền tảng thống kê và lý thuyết xác suất
– Khám phá được các cấu trúc đặc biệt như những nhân tố có ảnh hưởng đến kết quả mơ hình
• Nhược điểm của LSA
– Việc tính tốn hồn tồn dựa trên phân tích ma trận
– Các topic được xác định hồn tồn trên các phép chiếu tuyến tính nên mối quan hệ topic-document và topic-term là tuyến tính
– Làm việc khơng hiệu quả với kích thước dữ liệu lớn, tốn chi phí tính tốn
– Khó gắn nhãn cho các chủ đề và xác định số lượng chủ đề trước. Nên việc xác định các chủ đề có trong tập dữ liệu dựa hồn tồn vào con người
– Khơng bắt được mối tương quan giữa nhiều chủ đề
• Các mơ hình dựa trên LSA
– Hierarchy-Regularized Latent Semantic Indexing(HLSI)[27]
– Sparse LSA[56]
– Feature Latent Semantic Analysis(FLSA)[45]
2.3.2 Mơ hình pLSA
Probabilistic Latent Semantic Analysis(PLSA) là một mơ hình tiếp cận mới cho bài tốn Mơ hình hố chủ đề. Được phát triển sau LSA để khắc phục những nhược điểm vẫn còn tồn tại trong LSA. PLSA được Jan Puttichai và Thomas Hofmann giới thiệu vào năm 1999[25]. Kỹ thuật này lấy ý tưởng bằng giảm chiều của khai phá văn bản dựa trên Túi từ(Bag of words) nhằm phát hiện sự đồng xuất hiện ngữ nghĩa của các từ sử dụng nền tảng xác suất trong bộ ngữ liệu. Theo Kakkonen, Miller, Sutinen và Timonen năm 2008 thì “PLSA dựa trên mơ hình thống kê được gọi là mơ hình khía cạnh(aspect model). Mơ hình khía cạnh là một mơ hình biến tìm ẩn cho sự đồng xuất hiện của dữ liệu, mơ hình này liên kết mỗi lớp biến khơng quan sát với mỗi quan sát tương ứng”[30]. Dựa trên ý tưởng về mỗi từ sinh ra đều thuộc một chủ đề(topics) nào đó và văn bản là một tập hợp những từ khác nhau được lấy từ nhiều topic khác nhau. PLSA suy luận để tìm ra được phân phối văn bản - chủ đề(document - topic) và phân phối chủ đề - từ(topic - word) từ bộ ngữ liệu dựa trên phương pháp Tối đa hóa cực đại kỳ vọng (Expectation Maximization - EM)[18]. Một cách khái quát EM giúp ta tìm ra tham số hợp lý nhất cho mơ hình dựa trên các
nhân tố ẩn (các chủ đề ẩn) dựa trên tối đa hóa hàm hợp lý tối đa.
Mơ hình PLSA: Trong mơ hình xác suất, với các biến tiềm ẩnck∈c1,c2, ..,cK, tương ứng với một lớp ngữ nghĩa tiềm ẩn. Mơ hình bao gồm: p(d) thay mặt cho xác suất của văn bản trong bộ dữ liệu, p(c|d) đại diện cho phân phối topic-document, p(w|c) đại diện cho phân phối từ theo topic. PLSA là mơ hình xác suất đồng xuất hiện của mỗi cặp (w, d) của document-word như một hỗn hợp của phân phối đa thức độc lập có điều kiện:
p(w,d) =∑
c
p(c)p(d|c)p(w|c) =p(d)∑
c
p(c|d)p(w|c)