Phân tích chủ đề cho văn bản nói chung và cho dữ liệu Web nói riêng có vai trò quan trọng trong việc “hiểu” và định hướng thông tin trên Web. Khi ta hiểu một trang
Web có chứa những chủ đề hay thông tin gì thì dễ dàng hơn cho việc xếp loại, sắp xếp, và tóm tắt nội dung của trang Web đó. Trong phân lớp văn bản, mỗi văn bản thường được
xếp vào một lớp cụ thể nào đó. Trong phân tích chủ đề, chúng ta giả sử mỗi văn bản đề
cập đến nhiều hơn một chủ đề (K chủ đề) và mức độ liên quan đến chủ đề được biểu diễn
bằng phân phối xác suất của của tài liệu đó trên các chủ đề.
Hình 7. Tài liệu với K chủ đề ẩn.
Có rất nhiều phương pháp phân tích thông tin chủ đề từ văn bản, điển hình là mô
hình LDA [13]. LDA là một mô hình sinh (generative model) và thực hiện phân tích chủ đề từ các tập dữ liệu văn bản hoàn toàn phi giám sát (fully unsupervised). Về mục tiêu,
tương tự với LSA, LDA đưa ra một kĩ thuật mô tả thu gọn các tập dữ liệu rời rạc (như tập văn bản). Về mặt trực quan, LDA tìm những cấu trúc chủ đề (topics) và khái niệm
(concepts) trong tập văn bản dựa trên thông tin về đồng xuất hiện (co-occurrence) của các
từ khóa trong văn bản, và cho phép mô hình hóa các khái niệm đồng nghĩa (synonymy) và
đa nghĩa (polysemy). Về mặt mô hình hóa, LDA hoạt động tương đối giống với pLSA
(probabilistic LSA) [19]. Tuy vậy, LDA ưu việt hơn pLSA ở một vài điểm như tính đầy đủ và tính khái quát cao hơn [13][17].
26
Hình 8. Biểu diễnđồ họa LDA[13].
Ước lượng giá trị tham số cho mô hình LDA.
Hình 9. Ước lượng tham số tập dữ liệu văn bản.
Ước lượng tham số cho mô hình LDA bằng phương pháp cực đại hóa hàm
likelihood trực tiếp và một cách chính xác có độ phức tạp thời gian rất cao và không khả
thi trong thực tế. Người ta thường sử dụng các phương pháp xấp xỉ như Variational
Methods [13] và Gibbs Sampling [17]. Gibbs Sampling được xem là một thuật toán
27
Sử dụng mô hình LDA để suy diễn chủ đề.
Theo Nguyễn Cẩm Tú [22], với một mô hình chủ đề đã được huấn luyện tốt dựa trên tập dữ liệu toàn thể (Universial Dataset) bao phủ miền ứng dụng, ta có thể thực hiện một
tiến trình quá trình suy diễn chủ đề cho các tài liệu mới tương tự như quá trình ước lượng
tham số (tức là xác định được phân phối trên các chủ đề của tài liệu qua tham số theta).
Tác giả cũng chỉ ra rằng sử dụng dữ liệu từ VnExpress1 huấn luyện được các mô hình có
ưu thế hơn trong các phân tích chủ đề trên dữ liệu tin tức, trong khi các mô hình được
huấn luyện bởi dữ liệu từ Wiki2 tốt hơn trong phân tích chủ đề các tài liệu mang tính học
thuật.
Dựa trên những nghiên cứu đó, chúng tôi lựa chọn mô hình được chủ đề được huấn
luyện bởi tập dữ liệu toàn thể thu thập từ trang Vnexpress cho phân tích chủ đề. Một tiến
trình phân tích chủ đề tổng quát được minh họa như sau:
Hình 10. Suy diễn chủ đề sử dụng tập dữ liệu VnExpress[22].