Mô hình sinh trong LDA

Cho trước tập M tài liệu D = {d1, d2, …, dM}, trong đó tài liệu thứ m gồm Nm từ, từ wi được rút ra từ tập các thuật ngữ {t1, t2,…, tV), V là số các thuật ngữ. Mô hình LDA được biểu diễn dưới dạng đồ họa trong hình 4.

Quá trình sinh trong mô hình LDA diễn ra như sau: mô hình LDA sinh các từ

wm,n có thể quan sát, các từ này được phân chia về các tài liệu . Với mỗi tài liệu, một tỉ

lệ chủđềEFmđược chọn từ phân bố Dirichlet (Dir(GF)), từđó, xác định các từ thuộc chủ đề cụ thể. Sau đó, với mỗi từ thuộc tài liệu, chủđề của từđó được xác định là một chủ đề cụ thể bằng cách lấy mẫu từ phân bố đa thức (Mult(EFm)). Cuối cùng, từ phân bố đa thức (Mult(HIFzm,n)), một từ cụ thể wm,nđược sinh ra dựa trên chủ đề đã được xác định. Các chủđềHIFzm,n được lấy mẫu một lần trong toàn kho ngữ liệụ

Hình 2.1: Mô hình biểu diễn của LDA

Các khối vuông trong (hình 4) biểu diễn các quá trình lặp. Các tham sốđầu vào :

• G và J: tham số mức tập hợp kho ngữ liệu

• EFm: phân bố chủđề trên tài liệu m (tham số mức tài liệu) • Và Θ = {EFm}m=1M: ma trận M x K

• Km,n: chỉ số chủđề của từ thứ n trong tài liệu m (biến mức từ ngữ) • HIFzm,n: phân bố thuật ngữ trên chủđề cụ thể zm,n

• Và Φ = {HIFk}k=1K: ma trận K x V

15 • 8: số lượng các tài liệu

• "m: số lượng từ trong tài liệu m (độ dài của văn bản sau khi đã loại bỏ stop word)

• N: số lượng các chủđềNn

• OPQà8B1: phân bố Dirichlet và phân bốđa thức

Vì Lm,n phụ thuộc điều kiện vào phân bố HIFk vàKm,n phụ thuộc vào phân bố EFm, xác suất để một chỉ mục chủ đềLm,nlà một từ t nằm trong phân bố chủ đề trên tài liệu

EFm và phân bố từ trên chủđề (Φ) là:

p(Lm,n = t|EFm, Φ) = ∑ Lm,n = t|HIFk) p(Km,n = k|EFm)

Với xác suất của mỗi thuật ngữ, ta có thể xác định được xác suất chung của tất cả

các biến đã biết và biến Nn với các tham số Dirichlet cho trước:

SFm, KFm, EFm, Φ|GF, JF) = (Φ|JF) ∏W=U_, (Lm,n|HIFzm,n) (Km,n|EFm) (EFm|GF) Tính tích phân trên EFm, Φ và tổng trên KFm, ta xác định được xác suất của tài liệu SFm. Khi đã có xác suất của mỗi tài liệu (SFm|GF, JF), xác suất của cả kho ngữ liệu D = {d1, d2, …, dM} là tích của tất cả các xác suất của tất cả các tài liệu nằm trong đó:

(O|GF, JF) = ∏<W= (SFm|GF, JF) (1)

Ước lượng tham số và suy luận

Pha 1 Huấn luyện mô hình