Mô hình sinh trong LDA

Một phần của tài liệu Quảng cáo trực tuyến hướng câu hỏi người dùng (Trang 44 - 45)

Cho một corpus của M tài liệu biểu diễn bởi D={d1,d2, …, dM}, trong đó, mỗi tài liệu m trong corpus bao gồm Nm từ wi rút từ một tập từ vựng của các mục từ {t1, …, tv}, V là số lượng các mục từt trong tập từ vựng. LDA cung cấp một mô hình sinh đầy đủ chỉ ra kết quả tốt hơn các phương pháp trước. Quá trình sinh ra văn bản như sau:

Hình 9. Mô hình biểu diễn của LDA[15]

Các khối vuông trong (Hình 9) biểu diễn các quá trình lặp. Tham sốđầu vào: α và β (corpus-level parameter)

α: Dirichlet prior on ϑrm(theta)

β: Dirichlet prior on ϕrk

r

r m

ϑ (theta): phân phối của topic trong document thứ m (document-level parameter). biểu diễn tham số cho p(z|d=m), thành phần trộn topic cho tài liệu m. Một tỷ lệ cho mỗi tài liệu, m ϑ { }m Mm (M×Kmatrix) = Θ ϑr =1

zm,n: topic index (word n của văn bản m)

wm,n: word n của văn bản m chỉ bởi zm,n (word-level variable, observed word)

k

ϕr : Phân phối của các từđược sinh từ topic zm,n . ϕrk biểu diễn tham số cho p(t|z=k), thành phần trộn của topic k. Một tỷ lệ cho mỗi topic, { }K (K V matrix)

k k × = Φ ϕr =1 M: số lượng các tài liệu. 35

Nm: số lượng các từ trong tài liệu thứ m (hay còn gọi là độ dài của văn bản) K: số lượng các topic ẩn.

LDA sinh một tập các từwm,n cho các văn bản drm

bằng cách:

•Với mỗi văn bản m, sinh ra phân phối topic ϑrmcho văn bản.

•Với mỗi từ, zm,nđược lấy mẫu dựa vào phân phối topic trên.

•Với mỗi topic index zm,n, dựa vào phân phối từ ϕrk , wm,n được sinh ra.

•ϕrk được lấy mẫu một lần cho toàn bộ corpus.

Mô hình sinh đầy đủ (đã chú giải) được biểu diễn trong Hình 10.

Hình 10. Mô hình sinh đầy đủ cho LDA [28].

Ở đây, Dir, Poiss and Mult lần lượt là các phân phối Dirichlet, Poisson, Multinomial. (Lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial).

Một phần của tài liệu Quảng cáo trực tuyến hướng câu hỏi người dùng (Trang 44 - 45)

Tải bản đầy đủ (PDF)

(65 trang)