Phương pháp tính độ tương đồng câu sử dụng Hidden Topic

Một phần của tài liệu ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN (Trang 39 - 46)

Mục tiêu chính là làm thế nào để thu được lợi từ các nguồn tài nguyên lớn của dữ liệu trực tuyến nhằm tăng tính ngữ nghĩa trong việc tính độ tương đồng câu.

Phương pháp tiếp cận vấn đề dựa trên cơ sở các nghiên cứu thành công gần đây của mô hình phân tích topic ẩn LDA (Latent Dirichlet Allocation) … Ý tưởng cơ bản của mô hình là với mỗi lần học, ta tập hợp một tập dữ liệu lớn được gọi là “Universal dataset” và xây dựng một mô hình học trên cả dữ liệu học và một tập giàu các topic ẩn được tìm ra từ tập dữ liệu đó. [6]

3.3.2.1. Latent Dirichlet Allocation (LDA)

Latent Dirichlet Allocation (LDA) là một mô hình sinh xác suất cho tập dữ liệu rời rạc như text corpora. David Blei, Andrew Ng và Michael Jordan đã phát triển LDA vào năm 2003. LDA dựa trên ý tưởng: mỗi tài liệu là sự trộn lẫn của nhiều topic, mỗi topic là một phân bố xác suất trên các từ. Về bản chất, LDA là một mô hình Bayesian 3 cấp (three-level hierarchical Bayes model: corpus level, document level, word level) trong đó mỗi phần của một tập hợp được mô hình như một mô hình trộn hữu hạn trên cơ sở tập các xác suất topic. Trong ngữ cảnh của mô hình văn bản, xác suất topic cung cấp một biểu diễn tường minh của một tài liệu. Trong phần tiếp theo sẽ thảo luận nhiều hơn về mô hình sinh, ước lượng tham số cũng như inference trong LDA.

Mô hình sinh trong LDA

Cho một corpus của M tài liệu biểu diễn bởi D={d1,d2, …, dM}, trong đó, mỗi tài liệu m trong corpus bao gồm Nm từ wi rút từ một tập Vocabulary của các term {t1, …, tv}, V là số từ. LDA cung cấp một mô hình sinh đầy đủ chỉ ra kết quả tốt hơn các phương pháp trước. Quá trình sinh ra document như sau:

1

Hình 8. Mô hình biu din ca LDA [6]

Các khối vuông trong Hình 8 biểu diễn các quá trình lặp. Tham sốđầu vào: α và β (corpus-level parameter)

α: Dirichlet prior onϑrm(theta)

β: Dirichlet prior on ϕrk

m

ϑr (theta): phân phối của topic trong document thứ m (document-level parameter)

zm,n : topic index (word n của văn bản m)

wm,n: word n của văn bản m chỉ bởi zm,n(word-level variable, observed word)

k

ϕr : phân phối của các từđược sinh từ topic zm,n M: số lượng các tài liệu.

Nm: số lượng các từ trong tài liệu thứ m. K: số lượng các topic ẩn.

LDA sinh một tập các từwm,n cho các văn bản drm

bằng cách:

• Với mỗi văn bản m, sinh ra phân phối topic ϑrmcho văn bản.

• Với mỗi từ, zm,nđược lấy mẫu dựa vào phân phối topic trên.

• ϕrk được lấy mẫu một lần cho tòan bộ corpus.

Mô hình sinh đầy đủ (đã chú giải) được biểu diễn trong Hình 9.

Hình 9. Mô hình sinh cho LDA

Ở đây, Dir, Poiss and Mult lần lượt là các phân phối Dirichlet, Poisson, Multinomial. (Lấy mẫu theo phân phối Dirichlet, Poisson, Multinomial).

Ước lượng tham số và Inference thông qua Gibbs Sampling

Cho trước một tập các văn bản, tìm xem topic model nào đã sinh ra tập các văn bản trên. Bao gồm:

- Tìm phân phối xác suất trên tập từđối với mỗi topic - ϕrk

- Tìm phân phối topic của mỗi tài liệu ϑrm

Gibbs Sampling

- Thuật toán nhằm lấy mẫu từ phân phối xác suất có điều kiện của 2 hoặc nhiều biến ngẫu nhiên.

Khởi tạo: lấy mẫu lần đầu

zero all count variables, ( )z m

n ,nm, ( )t z

n ,nz

for all documents m∈[ ]1,M do

for all words n∈[1,Nm] in document mdo sample topic index zm,n~Mult(1/K) increment document-topic count: ( )s +1

m

n

increment document-topic sum: nm +1

increment topic-term count: ( )t +1

s

n

increment topic-term sum: nz +1

end for end for Hình 10. Quá trình khi to ly mu ln đầu Trong đó: ( )z m n : số topic z trong văn bản m nm: tổng số topic trong văn bản m ( )t z

n : số term t trong topic z nz: tổng số term trong topic z

Mỗi lần lấy mẫu cho một từ, các tham số đối với từng term và topic trên lần lượt được tăng lên.

Burn-in period: quá trình lấy mẫu lại cho đến khi đạt được một độ chính xác nhất định

while not finished do

for all documents m∈[ ]1,M do

for all words n∈[1,Nm] in document mdo

- for the current assignment of zto a term t for word wm,n: decrement counts and sums: ( )z −1

m

n ;nm −1; ( )t −1

z

n ;nz −1

- multinomial sampling acc. To Eq. Error! Reference source

not found. (decrements from previous step):

sample topic index z~~ p(zi |zr i,wr)

- use the new assignment of zto the term t for word wm,nto: increment counts and sums: ( )z +1

m n r ; t +1 z nr ;nzr +1 end for end for Hình 11. Quá trình khi to ly mu li

Trong mỗi lần lấy mẫu lại: các tham số tương ứng với các topic và term cũ giảm đi 1, các tham số tương ứng với các topic và term mới tăng lên 1.

Check convergence and read out parameters: Quá trình kết thúc, đọc các tham số đầu ra Φvà Θ

if converged and L sampling iterations since last read out then - the different parameters read outs are averaged

read out parameter set Φacc. to Eq. ϕrk read out parameter set Θacc. to Eq. ϑrm

end if end while

Hình 12. Quá trình đọc các tham sđầu ra

2 phân phối ẩn ϕrk và ϑrmđược tính như sau:

Ước lượng tham số

Để phát triển một bộ lấy mẫu Gibbs cho LDA, Heirich et al áp dụng phương pháp biến ẩn. Biến ẩn ởđây là zm,n, ví dụ, các topic xuất hiện với các từ wm,ncủa corpus. Ởđây, không cần gộp các tập tham số Θvà Φ bởi vì chúng chỉ là thống kê sự kết hợp giữa wm,n

zm,n tương ứng, các biến trạng thái của chuỗi Markov.

3.3.2.2. Sử dụng mô hình chủđềẩn để tính độ tương đồng câu

Với mỗi câu, sau khi inference topic sẽ nhận được các phân phối xác suất của topic trên câu và phân phối xác suất của từ trên topic. Tức là với mỗi câu i, LDA sinh ra phân phối topic ϑri cho câu. Với mỗi từ trong câu, zi,j – topic index (từ j của câu i) - đuợc lấy mẫu dựa theo phân phối topic trên. Sau đó, dựa vào topic index zi,j ta làm giàu các câu bằng cách thêm từ. Vector tương ứng với câu thứ i có dạng như sau:

( ) ( ) v V v v k t t k t k n n β β ϕ + + = ∑ =1 , ( ) ( ) z K z z m k k m k m n n α α ϑ + + = ∑ =1 , {1, 2 ,..., K , 1,..., |V|} i t t t w w s =

Ởđây, 1 1 = ∑ = K i i t và ∑ = = | | 1 1 V i i

w . ti là trọng số của topic thứ i trong K topic đã được phân tích (K là một tham số hằng của LDA); wi là trọng số của từ thứ i trong tập từ vựng V của tất cả các câu. Ở đây, không cần phải tìm phân phối xác suất từ đối với topic vì ở mức P(topic|câu), kết quả tóm tắt mang tính ngữ nghĩa bao quát hơn.

Mỗi câu có thể có nhiều phân phối xác suất topic. Với hai câu thứ i và j, chúng ta sử dụng độ đô cosine để tính độ tương đồng giữa hai câu đã được làm giàu với Hidden Topic.

Chương 4. Đề xut mô hình tóm tt và kết

qu thc nghim

Một phần của tài liệu ĐỘTƯƠNG ĐỒNG NGỮNGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN (Trang 39 - 46)

Tải bản đầy đủ (PDF)

(53 trang)