Mơ hình sinh LDA

Đầu vào của mơ hình LDA là tập M tài liệu D = {d1, d2, dM}. Mơ hình LDA được biểu diễn dưới dạng đồ họa như sau:

Nguyễn Thị Thảo 16 Khĩa luận tốt nghiệp Sau đây là các bước xử lí cho LDA:

for tất cả chủ đề k ∈ [1, K] do

Hỗn hợp thành phần mẫu 𝜑⃗ 𝑘~𝐷𝑖𝑟(𝛽)

end for

for tất cả tài liệu m ∈ [1, M] do

Hỗn hợp tỉ lệ mẫu 𝜗 m ~ Dir (𝛼) Chiều dài tài liệu mẫu 𝑁𝑚~𝑃𝑜𝑖𝑠𝑠(𝜉)

for tất cả các từ n ∈ [1, 𝑁𝑚] do

Đánh tên chủ đề mẫu 𝑧𝑚,𝑛 ~ 𝑀𝑢𝑙𝑡(𝜗 m: )

Tần số của từ 𝑤𝑚,𝑛~𝑀𝑢𝑙𝑡(𝜑⃗ 𝑧𝑚,𝑛)

end for end for

Hình 2.4 Mã giả các bước xử lí trong mơ hình LDA

Các tham số đầu vào:

 𝛼 và 𝛽: tham số mức tập hợp kho ngữ liệu

 𝜗 m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nĩ biểu diễn tham số cho p (z|d = m), thành phần trộ chủ đề cho tài liệu m

 Và Θ = {𝜗 m}m=1M: ma trận M x K

 𝑧m,n: chỉ số chủ đề của từ thứ n trong tài liệu m (biến mức từ ngữ)

 𝜑⃗ zm,n: phân bố thuật ngữ trên chủ đề cụ thể zm,n, nĩ biểu diễn tham số cho p(t|z), thành phần trộn của chủ đề k, một tỷ lệ cho mỗi chủ đề

 Và Φ = {𝜑⃗ k}k=1K: ma trận K x V

 𝑤m,n: từ thứ n của văn bản n (biến mức từ ngữ)

Nguyễn Thị Thảo 17 Khĩa luận tốt nghiệp

 𝑁m: số lượng từ trong tài liệu m (độ dài của văn bản sau khi đã loại bỏ stop word)

 𝑉: Độ lớn của tập từ vựng.

 𝐾: số lượng các chủ đề ẩn

 𝐷𝑖𝑟𝑣à𝑀𝑢𝑙𝑡: phân bố Dirichlet và phân bố đa thức

LDA sinh một tập các từ 𝑤m, n cho các văn bản dm bằng cách:

 Với mỗi văn bản dm sinh ra phân phối chủ đề 𝜗 m sinh ra phân phối chủ đề

 Sinh ra chỉ số chủ đề zm,n dựa vào phân phối chủ đề

 Từ w được sinh ra dựa vào phân phối từ 𝜑⃗ zm,n

Trong mơ hình phân tích chủ đề ẩn LDA cĩ hai quá trình cơ bản:

 Ước lượng mơ hình: với một tập dữ liệu D, cho trước số lượng chủ đề ẩn là K, cần sinh ra các phân phối xác suất cho từng chủ đề.

 Dự đốn mơ hình: dựa trên mơ hình đã được ước lượng, cho một tài liệu mới, dự đốn phân phối chủ đề tài liệu này.

Quá trình tiền xử lý dữ liệu