Đầu vào của mơ hình LDA là tập M tài liệu D = {d1, d2, dM}. Mơ hình LDA được biểu diễn dưới dạng đồ họa như sau:
Nguyễn Thị Thảo 16 Khĩa luận tốt nghiệp Sau đây là các bước xử lí cho LDA:
for tất cả chủ đề k ∈ [1, K] do
Hỗn hợp thành phần mẫu 𝜑⃗ 𝑘~𝐷𝑖𝑟(𝛽)
end for
for tất cả tài liệu m ∈ [1, M] do
Hỗn hợp tỉ lệ mẫu 𝜗 m ~ Dir (𝛼) Chiều dài tài liệu mẫu 𝑁𝑚~𝑃𝑜𝑖𝑠𝑠(𝜉)
for tất cả các từ n ∈ [1, 𝑁𝑚] do
Đánh tên chủ đề mẫu 𝑧𝑚,𝑛 ~ 𝑀𝑢𝑙𝑡(𝜗 m: )
Tần số của từ 𝑤𝑚,𝑛~𝑀𝑢𝑙𝑡(𝜑⃗ 𝑧𝑚,𝑛)
end for end for
Hình 2.4 Mã giả các bước xử lí trong mơ hình LDA
Các tham số đầu vào:
𝛼 và 𝛽: tham số mức tập hợp kho ngữ liệu
𝜗 m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nĩ biểu diễn tham số cho p (z|d = m), thành phần trộ chủ đề cho tài liệu m
Và Θ = {𝜗 m}m=1M: ma trận M x K
𝑧m,n: chỉ số chủ đề của từ thứ n trong tài liệu m (biến mức từ ngữ)
𝜑⃗ zm,n: phân bố thuật ngữ trên chủ đề cụ thể zm,n, nĩ biểu diễn tham số cho p(t|z), thành phần trộn của chủ đề k, một tỷ lệ cho mỗi chủ đề
Và Φ = {𝜑⃗ k}k=1K: ma trận K x V
𝑤m,n: từ thứ n của văn bản n (biến mức từ ngữ)
Nguyễn Thị Thảo 17 Khĩa luận tốt nghiệp
𝑁m: số lượng từ trong tài liệu m (độ dài của văn bản sau khi đã loại bỏ stop word)
𝑉: Độ lớn của tập từ vựng.
𝐾: số lượng các chủ đề ẩn
𝐷𝑖𝑟𝑣à𝑀𝑢𝑙𝑡: phân bố Dirichlet và phân bố đa thức
LDA sinh một tập các từ 𝑤m, n cho các văn bản dm bằng cách:
Với mỗi văn bản dm sinh ra phân phối chủ đề 𝜗 m sinh ra phân phối chủ đề
Sinh ra chỉ số chủ đề zm,n dựa vào phân phối chủ đề
Từ w được sinh ra dựa vào phân phối từ 𝜑⃗ zm,n
Trong mơ hình phân tích chủ đề ẩn LDA cĩ hai quá trình cơ bản:
Ước lượng mơ hình: với một tập dữ liệu D, cho trước số lượng chủ đề ẩn là K, cần sinh ra các phân phối xác suất cho từng chủ đề. (adsbygoogle = window.adsbygoogle || []).push({});
Dự đốn mơ hình: dựa trên mơ hình đã được ước lượng, cho một tài liệu mới, dự đốn phân phối chủ đề tài liệu này.