Mơ hình sinh LDA

Một phần của tài liệu CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY (Trang 27 - 29)

Đầu vào của mơ hình LDA là tập M tài liệu D = {d1, d2, dM}. Mơ hình LDA được biểu diễn dưới dạng đồ họa như sau:

Nguyễn Thị Thảo 16 Khĩa luận tốt nghiệp Sau đây là các bước xử lí cho LDA:

for tất cả chủ đề k ∈ [1, K] do

Hỗn hợp thành phần mẫu 𝜑⃗ 𝑘~𝐷𝑖𝑟(𝛽)

end for

for tất cả tài liệu m ∈ [1, M] do

Hỗn hợp tỉ lệ mẫu 𝜗 m ~ Dir (𝛼) Chiều dài tài liệu mẫu 𝑁𝑚~𝑃𝑜𝑖𝑠𝑠(𝜉)

for tất cả các từ n ∈ [1, 𝑁𝑚] do

Đánh tên chủ đề mẫu 𝑧𝑚,𝑛 ~ 𝑀𝑢𝑙𝑡(𝜗 m: )

Tần số của từ 𝑤𝑚,𝑛~𝑀𝑢𝑙𝑡(𝜑⃗ 𝑧𝑚,𝑛)

end for end for

Hình 2.4 Mã giả các bước xử lí trong mơ hình LDA

Các tham số đầu vào:

 𝛼 và 𝛽: tham số mức tập hợp kho ngữ liệu

 𝜗 m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nĩ biểu diễn tham số cho p (z|d = m), thành phần trộ chủ đề cho tài liệu m

 Và Θ = {𝜗 m}m=1M: ma trận M x K

 𝑧m,n: chỉ số chủ đề của từ thứ n trong tài liệu m (biến mức từ ngữ)

 𝜑⃗ zm,n: phân bố thuật ngữ trên chủ đề cụ thể zm,n, nĩ biểu diễn tham số cho p(t|z), thành phần trộn của chủ đề k, một tỷ lệ cho mỗi chủ đề

 Và Φ = {𝜑⃗ k}k=1K: ma trận K x V

 𝑤m,n: từ thứ n của văn bản n (biến mức từ ngữ)

Nguyễn Thị Thảo 17 Khĩa luận tốt nghiệp

 𝑁m: số lượng từ trong tài liệu m (độ dài của văn bản sau khi đã loại bỏ stop word)

 𝑉: Độ lớn của tập từ vựng.

 𝐾: số lượng các chủ đề ẩn

 𝐷𝑖𝑟𝑣à𝑀𝑢𝑙𝑡: phân bố Dirichlet và phân bố đa thức

LDA sinh một tập các từ 𝑤m, n cho các văn bản dm bằng cách:

 Với mỗi văn bản dm sinh ra phân phối chủ đề 𝜗 m sinh ra phân phối chủ đề

 Sinh ra chỉ số chủ đề zm,n dựa vào phân phối chủ đề

 Từ w được sinh ra dựa vào phân phối từ 𝜑⃗ zm,n

Trong mơ hình phân tích chủ đề ẩn LDA cĩ hai quá trình cơ bản:

 Ước lượng mơ hình: với một tập dữ liệu D, cho trước số lượng chủ đề ẩn là K, cần sinh ra các phân phối xác suất cho từng chủ đề. (adsbygoogle = window.adsbygoogle || []).push({});

 Dự đốn mơ hình: dựa trên mơ hình đã được ước lượng, cho một tài liệu mới, dự đốn phân phối chủ đề tài liệu này.

Một phần của tài liệu CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY (Trang 27 - 29)