Đầu vào của mơ hình LDA là tập M tài liệu D = {d1, d2, dM}. Mơ hình LDA được biểu diễn dưới dạng đồ họa như sau:
Nguyễn Thị Thảo 16 Khĩa luận tốt nghiệp Sau đây là các bước xử lí cho LDA:
for tất cả chủ đề k ∈ [1, K] do
Hỗn hợp thành phần mẫu 𝜑⃗ 𝑘~𝐷𝑖𝑟(𝛽)
end for
for tất cả tài liệu m ∈ [1, M] do
Hỗn hợp tỉ lệ mẫu 𝜗 m ~ Dir (𝛼) Chiều dài tài liệu mẫu 𝑁𝑚~𝑃𝑜𝑖𝑠𝑠(𝜉)
for tất cả các từ n ∈ [1, 𝑁𝑚] do
Đánh tên chủ đề mẫu 𝑧𝑚,𝑛 ~ 𝑀𝑢𝑙𝑡(𝜗 m: )
Tần số của từ 𝑤𝑚,𝑛~𝑀𝑢𝑙𝑡(𝜑⃗ 𝑧𝑚,𝑛)
end for end for
Hình 2.4 Mã giả các bước xử lí trong mơ hình LDA
Các tham số đầu vào:
𝛼 và 𝛽: tham số mức tập hợp kho ngữ liệu
𝜗 m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nĩ biểu diễn tham số cho p (z|d = m), thành phần trộ chủ đề cho tài liệu m
Và Θ = {𝜗 m}m=1M: ma trận M x K
𝑧m,n: chỉ số chủ đề của từ thứ n trong tài liệu m (biến mức từ ngữ)
𝜑⃗ zm,n: phân bố thuật ngữ trên chủ đề cụ thể zm,n, nĩ biểu diễn tham số cho p(t|z), thành phần trộn của chủ đề k, một tỷ lệ cho mỗi chủ đề
Và Φ = {𝜑⃗ k}k=1K: ma trận K x V
𝑤m,n: từ thứ n của văn bản n (biến mức từ ngữ)
Nguyễn Thị Thảo 17 Khĩa luận tốt nghiệp
𝑁m: số lượng từ trong tài liệu m (độ dài của văn bản sau khi đã loại bỏ stop word)
𝑉: Độ lớn của tập từ vựng.
𝐾: số lượng các chủ đề ẩn
𝐷𝑖𝑟𝑣à𝑀𝑢𝑙𝑡: phân bố Dirichlet và phân bố đa thức
LDA sinh một tập các từ 𝑤m, n cho các văn bản dm bằng cách:
Với mỗi văn bản dm sinh ra phân phối chủ đề 𝜗 m sinh ra phân phối chủ đề
Sinh ra chỉ số chủ đề zm,n dựa vào phân phối chủ đề
Từ w được sinh ra dựa vào phân phối từ 𝜑⃗ zm,n
Trong mơ hình phân tích chủ đề ẩn LDA cĩ hai quá trình cơ bản:
Ước lượng mơ hình: với một tập dữ liệu D, cho trước số lượng chủ đề ẩn là K, cần sinh ra các phân phối xác suất cho từng chủ đề.
Dự đốn mơ hình: dựa trên mơ hình đã được ước lượng, cho một tài liệu mới, dự đốn phân phối chủ đề tài liệu này.