Latent Sematic Analyis (LSA)

LSA [15] Là một kỹ thuật liờn quan đến toỏn học và thống kờ nhằm tựđộng trớch rỳt và tỡm ra sự liờn quan về nội dung bằng việc sử dụng cỏc thuật ngữ trong cỏc tài liệu. Nú khụng phải là một kỹ thuật xử lý ngụn ngữ tự nhiờn truyền thống hay một chương trỡnh trớ tuệ nhõn tạo. LSA khụng sử dụng cỏc từ điển được tạo ra bởi con người cũng như cỏc tri thức nền, mạng ngữ nghĩa, ngữ phỏp, cỳ phỏp cõu…

LSA tớnh toỏn độ tương tự giữa cỏc từ bằng cỏch sử dụng một lượng lớn cỏc tài liệu, sau đú nú xõy dựng một ma trận thuật ngữ- tài liệu trong đú mỗi phần từwij

biểu diễn số lần xuất hiện thuật ngữ i trong tài liệu j. Sau đú LSA ỏp dụng SVD

(Singular Value Decomposition) để tớnh toỏn một xếp hạng thấp hơn (ký hiệu là K) xấp xỉ ma trận ban đầu (ta sẽ núi chi tiết hơn về vấn đề này ngay dưới đõy). Kđược gọi là number of factors (số lượng cỏc hệ số). Sự tương tự giữa 2 từ trong LSAđược tớnh bằng hệ sốcosine của cỏc vector tương ứng trong ma trận khụng gian rỳt gọn.

Một bước bắt buộc trong giải thuật LSA là quỏ trỡnh tớnh toỏn SVD cho ma trận đồng xuất hiện (co-occurrence matrix) đĩ được chuẩn húa. Một SVD tương tự như việc phõn tớch giỏ trị riờng (eigenvalue decomposition) nhưng cú thể được tớnh toỏn cho ma trận chữ nhật. Như trờn hỡnh 4.4, SVD là tớch của ba vector: thứ nhất, U là ma trận mà cỏc cột là cỏc vector trực giao và được gọi là cỏc vector đơn bờn trỏi (left singular vectors); VT là ma trận cú cỏc hàng là cỏc vector trực giao và được gọi là cỏc vector đơn bờn phải (right singular vectors); S là ma trận đường chộo chứa cỏc giỏ trị đơn (singular values), cỏc phần từ nằm trờn đường chộo chớnh thứ nhất của nú khỏc 0. Cỏc vector bờn trỏi và vector bờn phải giống như là cỏc vector riờng (eigenvector) cũn singular values giống như là cỏc trị riờng (eigenvalues) cho biết mức độ quan trọng của cỏc vector. Cỏc vector riờng phản ỏnh cỏc thành phần chớnh, sự khỏc nhau lớn nhất trong dữ liệu.

Nếu cỏc ma trận trong SVD thay đổi thứ tự của cỏc vector sao cho cỏc giỏ trị đơn sắp xếp theo thứ tự giảm dần thỡ chỳng cú thể được thu gọn tới một ngưỡng k

thấp hơn. Cú thể thấy rằng tớch của cỏc ma trận rỳt gọn này là k xấp xỉ xếp hạng tốt nhất đối với ma trận X trờn quan điểm tổng bỡnh phương lỗi (sum squared error). Vector biểu diễn một từa trong khụng gian xếp hạng rỳt gọn (reducedrank space),

ký hiệu U^a, là dũng thứa trong U^ trong khi vector biểu diễn tài liệu b, ký hiệu V^b,

là dũng thứb của ma trận V^ . Nếu một từ mới c hoặc một văn bản mới dđược thờm vào sau quỏ trỡnh tớnh toỏn SVD thỡ cỏc vector trong khụng gian rỳt gọn của chỳng cú thểđược xỏc định như sau:

Độ tương tự của hai từ hoặc hai văn bản trong LSA thường được xỏc định bằng hệ sốcosine của cỏc vector biểu diễn chỳng trong khụng gian rỳt gọn.

Tớnh toỏn SVD bản thõn nú là một bài toỏn khụng tầm thường, với một ma trận dày (dense matrix) kớch thước nìmvới n < m, thỡ thời gian tớnh toỏn SVD tỷ lệ với n2m. Điều này rất khú thực hiện đối với ma trận rất lớn. Tuy nhiờn, cỏc co- occurrence matrix thường là cỏc ma trận thưa (sparse matrix) và tớnh toỏn SVD với cỏc ma trận này thường nhanh hơn đối với cỏc ma trận dày, điều này cho phộp mụ hỡnh LSA cú thể xử lý được hàng trăm nghàn thuật ngữ và tài liệu.

Một số phương phỏp phõn nhúm

Quan hệ bất khả phõn