Mục tiêu chính là làm thế nào để thu được lợi từ các nguồn tài nguyên lớn của dữ liệu trực tuyến nhằm tăng tính ngữ nghĩa trong việc tính độ tương đồng câu.
Phương pháp tiếp cận vấn đề dựa trên cơ sở các nghiên cứu thành công gần đây của mô hình phân tích topic ẩn LDA (Latent Dirichlet Allocation) … Ý tưởng cơ bản của mô hình là với mỗi lần học, ta tập hợp một tập dữ liệu lớn được gọi là “Universal dataset” và xây dựng một mô hình học trên cả dữ liệu học và một tập giàu các topic ẩn được tìm ra từ tập dữ liệu đó. [6]
3.3.2.1. Latent Dirichlet Allocation (LDA)
Latent Dirichlet Allocation (LDA) là một mô hình sinh xác suất cho tập dữ liệu rời rạc như text corpora. David Blei, Andrew Ng và Michael Jordan đã phát triển LDA vào năm 2003. LDA dựa trên ý tưởng: mỗi tài liệu là sự trộn lẫn của nhiều topic, mỗi topic là một phân bố xác suất trên các từ. Về bản chất, LDA là một mô hình Bayesian 3 cấp (three-level hierarchical Bayes model: corpus level, document level, word level) trong đó mỗi phần của một tập hợp được mô hình như một mô hình trộn hữu hạn trên cơ sở tập các xác suất topic. Trong ngữ cảnh của mô hình văn bản, xác suất topic cung cấp một biểu diễn tường minh của một tài liệu. Trong phần tiếp theo sẽ thảo luận nhiều hơn về mô hình sinh, ước lượng tham số cũng như inference trong LDA.
Mô hình sinh trong LDA
Cho một corpus của M tài liệu biểu diễn bởi D={d1,d2, …, dM}, trong đó, mỗi tài liệu m trong corpus bao gồm Nm từ wi rút từ một tập Vocabulary của các term {t1, …, tv}, V là số từ. LDA cung cấp một mô hình sinh đầy đủ chỉ ra kết quả tốt hơn các phương pháp trước. Quá trình sinh ra document như sau:
1
Hình 8. Mô hình biểu diễn của LDA [6]
Các khối vuông trong Hình 8 biểu diễn các quá trình lặp. Tham sốđầu vào: α và β (corpus-level parameter)
α: Dirichlet prior onϑrm(theta)
β: Dirichlet prior on ϕrk
m
ϑr (theta): phân phối của topic trong document thứ m (document-level parameter)
zm,n : topic index (word n của văn bản m)
wm,n: word n của văn bản m chỉ bởi zm,n(word-level variable, observed word)
k
ϕr : phân phối của các từđược sinh từ topic zm,n M: số lượng các tài liệu.
Nm: số lượng các từ trong tài liệu thứ m. K: số lượng các topic ẩn.
LDA sinh một tập các từwm,n cho các văn bản drm
bằng cách:
• Với mỗi văn bản m, sinh ra phân phối topic ϑrmcho văn bản.
• Với mỗi từ, zm,nđược lấy mẫu dựa vào phân phối topic trên.
• ϕrk được lấy mẫu một lần cho tòan bộ corpus.
Mô hình sinh đầy đủ (đã chú giải) được biểu diễn trong Hình 9.
Hình 9. Mô hình sinh cho LDA
Ở đây, Dir, Poiss and Mult lần lượt là các phân phối Dirichlet, Poisson, Multinomial. (Lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial).
Ước lượng tham số và Inference thông qua Gibbs Sampling
Cho trước một tập các văn bản, tìm xem topic model nào đã sinh ra tập các văn bản trên. Bao gồm:
- Tìm phân phối xác suất trên tập từđối với mỗi topic - ϕrk
- Tìm phân phối topic của mỗi tài liệu ϑrm
Gibbs Sampling
- Thuật toán nhằm lấy mẫu từ phân phối xác suất có điều kiện của 2 hoặc nhiều biến ngẫu nhiên.
Khởi tạo: lấy mẫu lần đầu
zero all count variables, ( )z m
n ,nm, ( )t z
n ,nz
for all documents m∈[ ]1,M do
for all words n∈[1,Nm] in document mdo sample topic index zm,n~Mult(1/K) increment document-topic count: ( )s +1
m
n
increment document-topic sum: nm +1
increment topic-term count: ( )t +1
s
n
increment topic-term sum: nz +1
end for end for Hình 10. Quá trình khởi tạo lấy mẫu lần đầu Trong đó: ( )z m n : số topic z trong văn bản m nm: tổng số topic trong văn bản m ( )t z
n : số term t trong topic z nz: tổng số term trong topic z
Mỗi lần lấy mẫu cho một từ, các tham số đối với từng term và topic trên lần lượt được tăng lên.
Burn-in period: quá trình lấy mẫu lại cho đến khi đạt được một độ chính xác nhất định
while not finished do
for all documents m∈[ ]1,M do
for all words n∈[1,Nm] in document mdo
- for the current assignment of zto a term t for word wm,n: decrement counts and sums: ( )z −1
m
n ;nm −1; ( )t −1
z
n ;nz −1
- multinomial sampling acc. To Eq. Error! Reference source
not found. (decrements from previous step):
sample topic index z~~ p(zi |zr i,wr)
−
- use the new assignment of zto the term t for word wm,nto: increment counts and sums: ( )z +1
m n r ; t +1 z nr ;nzr +1 end for end for Hình 11. Quá trình khởi tạo lấy mẫu lại
Trong mỗi lần lấy mẫu lại: các tham số tương ứng với các topic và term cũ giảm đi 1, các tham số tương ứng với các topic và term mới tăng lên 1.
Check convergence and read out parameters: Quá trình kết thúc, đọc các tham số đầu ra Φvà Θ
if converged and L sampling iterations since last read out then - the different parameters read outs are averaged
read out parameter set Φacc. to Eq. ϕrk read out parameter set Θacc. to Eq. ϑrm
end if end while
Hình 12. Quá trình đọc các tham sốđầu ra
2 phân phối ẩn ϕrk và ϑrmđược tính như sau:
Ước lượng tham số
Để phát triển một bộ lấy mẫu Gibbs cho LDA, Heirich et al áp dụng phương pháp biến ẩn. Biến ẩn ởđây là zm,n, ví dụ, các topic xuất hiện với các từ wm,ncủa corpus. Ởđây, không cần gộp các tập tham số Θvà Φ bởi vì chúng chỉ là thống kê sự kết hợp giữa wm,n
và zm,n tương ứng, các biến trạng thái của chuỗi Markov.
3.3.2.2. Sử dụng mô hình chủđềẩn để tính độ tương đồng câu
Với mỗi câu, sau khi inference topic sẽ nhận được các phân phối xác suất của topic trên câu và phân phối xác suất của từ trên topic. Tức là với mỗi câu i, LDA sinh ra phân phối topic ϑri cho câu. Với mỗi từ trong câu, zi,j – topic index (từ j của câu i) - đuợc lấy mẫu dựa theo phân phối topic trên. Sau đó, dựa vào topic index zi,j ta làm giàu các câu bằng cách thêm từ. Vector tương ứng với câu thứ i có dạng như sau:
( ) ( ) v V v v k t t k t k n n β β ϕ + + = ∑ =1 , ( ) ( ) z K z z m k k m k m n n α α ϑ + + = ∑ =1 , {1, 2 ,..., K , 1,..., |V|} i t t t w w s =
Ởđây, 1 1 = ∑ = K i i t và ∑ = = | | 1 1 V i i
w . ti là trọng số của topic thứ i trong K topic đã được phân tích (K là một tham số hằng của LDA); wi là trọng số của từ thứ i trong tập từ vựng V của tất cả các câu. Ở đây, không cần phải tìm phân phối xác suất từ đối với topic vì ở mức P(topic|câu), kết quả tóm tắt mang tính ngữ nghĩa bao quát hơn.
Mỗi câu có thể có nhiều phân phối xác suất topic. Với hai câu thứ i và j, chúng ta sử dụng độ đô cosine để tính độ tương đồng giữa hai câu đã được làm giàu với Hidden Topic.
Chương 4. Đề xuất mô hình tóm tắt và kết
quả thực nghiệm