Mơ hình LDA

Một phần của tài liệu Vu trong hoa EXTRACTING ASPECT IN OPINIO (Trang 27 - 31)

Hình 2 .2 Ví dụ các chủ đề được sinh tự động bởi LDA

Hình 2.3 Mơ hình LDA

2.1.3. Ước lượng LDA và lấy mẫu Gibbs

Ước lượng tham số cho LDA bằng cách trực tiếp tối đa hĩa độ giống nhau của tồn bộ dữ liệu trong phương trình (2.1.3) là khơng khả thi. Một phương án đặt ra là dùng phương pháp ước lượng xấp xỉ như lấy mẫu Gibbs [8]. Lấy mẫu Gibb là trường hợp đặc biệt của chuỗi Markov Monte Carlo (Markov-chain Monte Carlo-MCMC) [12]. Phương pháp này cĩ ưu điểm là thuật tốn triển khai cho việc suy diễn xấp xỉ là khá đơn giản.

Lấy 𝑤⃗⃗ và 𝑧 là hai vector của tất cả các từ và chủ đề của chúng trong tồn bộ tập dữ

liệu W.

Phương pháp lấy mẫu Gibb khơng chỉ dùng Ф và 𝜗 như tham số để ước lượng, mà cịn quan tâm đến phân phối hậu nghiệm 𝑃(𝑧 |𝑤⃗⃗ ). Sau đĩ ta sẽ cĩ ước lượng của Ф và Θ

bằng cách sử dụng phân phối hậu nghiệm đĩ. Mơ hình xác suất hồn chỉnh như sau:

𝑤𝑖|𝑧𝑖, Ф(𝑧)~𝑀𝑢𝑙𝑡(Ф(𝑧)) Ф~ ( ) 𝑧𝑖| ( )~𝑀𝑢𝑙𝑡( )

𝛼 và 𝛽 là những siêu tham số, chỉ ra ảnh hưởng của điều kiện tiền nghiệm lên Ф và

Θ. Phân phối đồng thời của mọi biến với những biến cho trước trên là 𝑝(𝑤⃗⃗ , 𝑧 ,Θ,Ф|α, ). Vì

những điều kiện tiền nghiệm liên hợp với Ф và Θ, ta cĩ thể tính được 𝑝(𝑤⃗⃗ , 𝑧 ) bằng tích

phân Ф và Θ.

Sử dụng mơ hình sinh trên, phân định chủ đề cho một từ nào đĩ cĩ thể được tính tốn dựa trên phân định chủ đề của các từ khác. Hơn nữa, phân định chủ đề của một từ t được lấy mẫu từ phân phối đa thức sau:

𝑝(𝑧𝑖 = 𝑘|𝑧⃗⃗⃗⃗⃗ , 𝑤 ⃗⃗ ) = 𝑛𝑘, 𝑖 ( ) 𝛽 [∑𝑉 𝑛𝑘(𝑣) 𝛽𝑣 𝑣=1 ] 1= 𝑛𝑚, 𝑖(𝑘) 𝛼𝑘 [∑ =1𝑛𝑚( ) 𝛼 ] 1

Trong đĩ, t là số lần từ được phân cho chủ đề k

∑𝑉 𝑛𝑘(𝑣) 1

𝑣=1 là tổng số từ được phân cho chủ đề k trừ phân định hiện thời.

𝑛𝑚, 𝑖(𝑘) là số từ trong tài liệu m được phân cho chủ đề k.

∑ =1𝑛𝑚( ) 1 là tổng số từ trong tài liệu m trừ từ t.

Trong trường hợp thơng thường, biến Dirichlet 𝛼 , 𝛽 là đều, nghĩa là mọi 𝛼𝑘 là giống nhau, tương tự với 𝛽 .

Sau quá trình lấy mẫu Gibbs, hai ma trận Ф và Θ được tính như sau:

𝜑𝑘, = 𝑛𝑘 ( ) 𝛽 ∑𝑉𝑣=1𝑛𝑘(𝑣) 𝛽𝑣 𝜗𝑚,𝑘 = 𝑛𝑚 (𝑘) 𝛼𝑘 ∑ =1𝑛𝑚( ) 𝛼

2.1.4. Phân định chủ đề theo mơ hình LDA với lấy mẫu Gibbs

Cho mơ hình LDA đã ước lượng trước, ta cĩ thể thực hiện phân định chủ đề cho những tài liệu chưa biết [13]. Một tài liệu mới 𝑚̃ là 1 vector của các từ 𝑤⃗⃗⃗⃗⃗⃗ ̃𝑚; mục tiêu của

Khĩa luận tốt nghiệp Vũ Trọng Hĩa

16

chúng ta là ước lượng phân phối hậu nghiệm của tất cả các chủ đề 𝑧 ̃ với vector từ 𝑤⃗⃗⃗⃗⃗⃗ ̃𝑚 và mơ hình LDA:

𝐿( , Ф): 𝑝(𝑧 |𝑤⃗⃗ , 𝐿) = 𝑝(𝑧 ̃, 𝑤⃗⃗ ̃, 𝑤⃗⃗ , 𝑧 ). Tương tự, ta tính mẫu Gibbs cập nhật như sau: 𝑝(𝑧̃𝑖 = 𝑘|𝑧⃗⃗⃗⃗⃗ ̃ , 𝑤⃗⃗ ̃) = 𝑛𝑘( ) 𝑛̃𝑘, 𝑖( ) 𝛽

[∑𝑉 𝑛𝑘(𝑣) 𝑛̃𝑘(𝑣) 𝛽𝑣

𝑣=1 ] 1=

𝑛𝑚, 𝑖(𝑘) 𝛼𝑘 [∑𝑧=1𝑛𝑚(𝑧)̃ 𝛼𝑧] 1

Trong đĩ biến 𝑛̃𝑘( ) đếm số thể hiện của t và chủ đề k trong tài liệu mới. Sau khi thực thi lấy mẫu chủ đề: Phân phối chủ đề của tài liệu mới 𝑚̃ là 𝑣̃ =𝑚̃ {𝑣𝑚̃ ,1, , 𝑣𝑚̃ ,𝑘, , 𝑣𝑚̃ , } với mỗi thành phần được tính như sau:

𝜗𝑚̃ ,𝑘 = 𝑛𝑚̃

(𝑘) 𝛼𝑘 ∑𝑧=1𝑛𝑚(𝑧)̃ 𝛼𝑧

2.2. Học máy CRFs

2.21. Bài tốn gán nhãn chuỗi

Bài tốn gán quyết định chuỗi các nhãn cho một tập chuỗi quan sát cĩ thể tìm thấy ở nhiều lĩnh vực, gồm cĩ y sinh học (bioinformatics), tính tốn ngơn ngữ (computational linguistics) và nhân dạng tiếng nĩi (speech recognition). Ví dụ, một bài tốn điển hình đĩ là xác định nhãn từ loại cho các từ trong một câu, mỗi từ sẽ được gán một nhãn, như ví dụ:

He/PRP reckons/VBZ the/DT curent/JJ account/NN deficit/NN will/MD narrow/VB to/TO only/RB #/# 1.8/CD billion/CD in/IN September/NNP ./.

Một trong những phương pháp phổ biến nhất đề giải quyết bài tốn gán nhãn và phân đoạn đĩ là sử dụng mơ hình Markov ẩn (HMM) [14] hay máy autơmát hữu hạn trạng thái để xác định chuỗi nhãn cĩ khả năng cao nhất cho các từ trong một câu. Mơ hình HMM là một mơ hình sinh, trong đĩ định nghĩa phân bố sác xuất kết hợp p (X, Y) với X và Y là các biến ngẫu nhiên tương ứng xác định các trạng thái quan sát cĩ thể và các nhãn tương ứng của chúng. Để định nghĩa phân bố kết hợp của mối quan hệ đĩ, mơ hình sinh phải liệt kê

tất cả các trạng thái quan sát cĩ thể - một bài tốn mà với hầu hết các trường hợp đem lại khối lượng tính tốn rất lớn, trừ khi các thành phần của chuỗi quan sát được biểu diễn như một đơn vị cơ lập, độc lập so với các thành phần khác trong chuỗi quan sát. Chính xác hơn, trạng thái quan sát được ở một thời điểm bất kì chỉ cĩ thể chỉ phụ thuộc trực tiếp vào trạng thái hay nhãn ở thời điểm đĩ. Giả sử này chỉ thích hợp cho một số dạng dữ liệu đơn giản, tuy nhiên hầu hết các chuỗi quan sát trong thực tế phải được biểu diễn bằng nhiều đặc trưng và phụ thuộc trên phạm vi rộng giữa các thành phần của chuỗi, đây là một trong số các tồn tại của mơ hình Markov ẩn.

Một mơ hình khác cũng dựa theo giả thiết Markov là Maximum entropy Markov models (MEMMs) [15] là mơ hình chuỗi xác suất cĩ điều kiện, nĩ mang các điểm mạnh của mơ hình HMM và đồng thời khắc phục các điểm yếu kể trên của HMM. Mơ hình này chỉ ra xác suất của các cuỗi nhãn cĩ thể, khi cho trước một chuỗi quan sát. Do đĩ, nĩ khơng làm chi phí tính tốn ở chuỗi quan sát về mặt thời gian.

Một vấn đề khác mà mơ hình Markov ẩn hay các mơ hình hữa hạn trạng thái khơng sinh (non-generative finite-state models) dựa trên các bộ phân lớp trạng thái kế tiếp gặp phải đĩ là vấn đề lệch nhãn (label bias problem) [16]: việc chuyển trạng thái từ một trạng thái cho trước hồn tồn dựa vào một chuyển trạng thái khác chứ khơng dựa vào tất cả các chuyển trạng thái khác trong mơ hình. Trong lĩnh vực xác suất, trọng số cho chuyển trạng thái là xác suất cĩ điều kiện của một trạng thái cĩ thể, cho trước trạng thái hiện tại và chuỗi quan sát. Tính trọng số của phép chuyển theo từng trạng thái như vậy ngầm định sự bảo tồn lượng trọng số, đĩ là tất cả lượng trọng số cho một trạng thái sẽ được phân chia giữa các trạng thái cĩ thể đúng. Một quan sát cĩ thể ảnh hưởng đến những trạng thái nhận được trọng số, nhưng khơng ảnh hưởng đến việc phân chia trọng số này. Điều này gây ra vấn đề lệch đến các nhãn mà cĩ ít các trạng thái tiếp theo cĩ thể. Cĩ thể cĩ trường hợp, một trạng thái cĩ thể chỉ cĩ duy nhất một trạng thái tiếp theo sẽ khơng bị ảnh hưởng bởi các chuỗi quan sát. Đối với những trường hợp này, giải mã Viterbi khơng thể mơ hình hĩa với các chuyển trạng thái mà cĩ chuỗi kết nối thưa của các trạng thái. Giả thiết Markov trong MEMMs và mơ hình trạng thái điều kiện tương tự mà cơ lập quyết định ở một trạng thái với các quyết định tiếp theo sẽ khơng phù hợp với sự phụ thuộc trong thực tế giữa các trạng thái liên tục. Xét một ví dụ đơn giản như sau: ở hình 5 mơ tả một mơ hình hữa hạn trạng thái được thiết kết để phân biệt giữa hai chuỗi r i b và r o b.

Khĩa luận tốt nghiệp Vũ Trọng Hĩa

18

Một phần của tài liệu Vu trong hoa EXTRACTING ASPECT IN OPINIO (Trang 27 - 31)

Tải bản đầy đủ (PDF)

(70 trang)