PLSA [20] là một phương phỏp dựa trờn lý thuyết xỏc suất để phõn tớch dữ liệu đồng xuất hiện (co-occurrence data) và được ứng dụng trong cỏc lĩnh vực như thu thập thụng tin, xử lý ngụn ngữ tự nhiờn, học mỏy từ dữ liệu văn bản (machine
learning from text) và cỏc lĩnh vực liờn quan khỏc. Phương phỏp LSA mà ta vừa trỡnh bày ở trờn xuất phỏt từ lý thuyết đại số tuyến tớnh, thực hiện việc phõn tớch giỏ trị riờng (SVD) của cỏc dữ liệu đồng xuất hiện; khỏc với LSA, phương phỏp PLSA
dựa trờn việc phõn tớch sự hũa trộn giữa cỏc mụ hỡnh lớp ẩn (latent class model), phương phỏp này cú nền tảng toỏn học vững chắc đú là lý thuyết xỏc suất thống kờ. Phương phỏp PLSA xỏc định cỏc lớp ẩn thụng qua giải thuật cực đại húa kỳ vọng (EM – Expectation Maximization) và cú thểđược ỏp dụng để giải quyết vấn đềđồng nghĩa.
Hỡnh 4.5: Giới thiệu mụ hỡnh PLSA
Phương phỏp PLSA được bắt đầu bằng cỏch đưa ra một mụ hỡnh thống kờ với tờn gọi “aspect model”, theo mụ hỡnh này:
• Mỗi tài liệu là sự hũa trộn của Kaspectẩn,
• Mỗi aspectđược biểu diễn bởi một phõn bố xỏc suất của cỏc từ - p(w|z). Aspect model là một mụ hỡnh biến ẩn (latent variable model) dựng để sinh ra cỏc dữ liệu đồng xuất hiện, nú liờn kết mỗi phần tử thuật ngữ-tài liệu (w, d) với một biến
1 2 { , ,..., }k
z Z∈ = z z z , trong đú w∈W ={ ,w w1 2,...,wM}, d D∈ ={ , ,...,d d1 2 dN}. Theo quan điểm của một mụ hỡnh sinh thỡ aspect model sinh ra cỏc đối tượng như sau:
• Lựa chọn một tài liệu d với xỏc suất P(d),
• nhặt một lớp ẩn z với xỏc suất P(z|d),
Hỡnh 4.6: Mụ hỡnh trực quan biểu diễn aspect model tham số húa phi đối xứng (a) và đối xứng (b).
Ta thu được xỏc suất kết hợp sau:
Với giả thiết xỏc suất P(d, w) là độc lập, ta cú:
Ta phải tớnh toỏn cỏc xỏc suất P(z), P(z|d) và P(w|z).
Mụ hỡnh xỏc suất dựa trờn cỏc dữ liệu thực tế, do vậy nú phải được làm cho phự hợp (tức là phự hợp giữa dữ liệu thực tế với mụ hỡnh đưa ra) và được gọi là “Model Fitting”. Cỏc tham số tự do của mụ hỡnh cần phải được điều chỉnh đểđưa đến sự tối ưu trong việc phự hợp giữa mụ hỡnh với dữ liệu thực (thụng qua giải thuật EM – cực đại húa kỳ vọng). Với “aspect model”, hàm likelihood cú dạng như sau [20]:
Trong đú n(d, w) là tần số thuật ngữ (số lần xuất hiện thuật ngữw trong tài liệu d) Từ cỏc biểu thức (4.18), (4.19), ỏp dụng luật Bayes ta cú:
Giải thuật EM gồm 2 bước để cực đại húa hàm likelihood như sau:
(4.18)
(4.19)
(4.20)
• Bước E: Hàm likelihoodđược tớnh toỏn với giỏ trị của cỏc tham số hiện tại, ở đõy ta cần tớnh cỏc xỏc suất hậu nghiệm (posterior probabilisties) cho cỏc biến ẩn z:
Đõy là xỏc suất để một từw xuất hiện trong một tài liệu d, được biểu diễn bởi biến ẩn z.
• Bước M: Sử dụng kết quả (4.22) tỡm được ở bước E, tớnh tiếp cỏc xỏc suất sau:
Thực hiện lặp đi lặp lại lũn phiờn cỏc bước E và M ở trờn cho tới khi hàm
likelihood hội tụ.
Phương phỏp PLSA và LSA cú một số điểm giống nhau và khỏc nhau cơ bản như sau:
Giống nhau:
Đều cú sự rỳt gọn khụng gian tớnh toỏn: phương phỏp LSA giữ lại K giỏ trị riờng trong khi PLSA đưa ra K aspects.
Trong phõn tớch SVD của LSA và cỏc xỏc suất của PLSA thỡ:
• Ma trận U tương ứng với xỏc suất P(d|z)
• Ma trận V tương ứng với xỏc suất P(z|w)
• Ma trận E tương ứng với xỏc suất P(z) Khỏc nhau:
PLSA đưa ra mụ hỡnh (aspect model) và cực đại húa kỳ vọng (4.22)
(4.23)
(4.24)
Việc lựa chọn một số K phự hợp là một heuristic trong LSA PLSA dựa trờn xỏc suất cú thểđưa ra một số K tối ưu.