Phân tích cấu trúc latent semantic bắt đầu với một ma trận các thuật ngữ - tài liệu. Ma trận này sau khi được phân tích bằng việc phân tích các giá trị số ít (Singular value decomposition – SVD) để nhận được mô hình cấu trúc latent semantic đặc biệt. SVD có mối quan hệ mật thiết với một số kỹ thuật toán học và thống kê, bao gồm việc phân tích các vectơ và phân tích các hệ số.
Chi tiết kỹ thuật SVD
Mô hình Singular Value Decomposition (SVD). Với ma trận hình chữ nhật nào đó, ví dụ một ma trận t×d của các thuật ngữ và các tài liệu X, có thể được phân tích với tích số của ba ma trận khác nhau:
X = T0S0D0 T
Trong đó
- T0 và D0 có các cột trực giao
- S0 là ma trận chéo (m×m) của các giá trị số ít được sắp xếp giảm dần, trong đó m = min(t, d), là hạng của X.
- Phân rã như vậy luôn tồn tại và là duy nhất Cấu trúc của SVD:
- T0 là ma trận của các vectơ riêng nhận được từ ma trận X×XT - D0 là ma tận của các vectơ riêng nhận được từ ma trận XT×X
- Các thuật toán xây dụng SVD của một ma trận t×d có độ phức tạp O(d3) nếu dt.
Hình 2.3 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu.
Ma trận gốc thuật ngữ - tài liệu được phân tích trong ba ma trận các thành phần phụ thuộc tuyến tính.
Mô hình được giảm lược, trình bày trong hình 2.4, sử dụng để xấp xỉ với dữ liệu.
Hình 2.4 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu.
Ma trận thuật ngữ tài liệu gốc gần đúng sử dụng k giá trị số ít lớn nhất và các vectơ số ít tương ứng.
Giảm lược SVD của ma trận thuật ngữ- tài liệu X, trong đó: T, D là ma trận trực giao
S là ma trận đường chéo các giá trị số ít t là số hàng của X d là số cột của X m là hạng của X ( Documents term Xˆ = T S DT t × d t × k k × k k × d Documents term X = T0 S0 D0T t × d t × m m × m m × d
k là số chiều được chọn trong mô hình giảm lược (km)
Giảm lược một số lượng chiều, lựa chọn k là tới hạn với thực hiện của chúng ta. Đúng như ý tưởng, chúng ta muốn một giá trị k đủ lớn để phù hợp với mọi đặc tính cấu trúc thực của dữ liệu, nhưng đủ nhỏ để lọc ra các chi tiết không phù hợp hay các chi tiết không quan trọng.
Đánh giá hiệu năng mô hình LSI
Kiểm nghiệm thực tế với tập dữ liệu MED, là tập dữ liệu chuẩn đầu tiên thường được nghiên cứu lý thuyết tập hợp thuộc y học. Nó bao gồm 1033 tài liệu và 30 truy vấn. Việc chỉ mục tự động trên tất cả các thuật ngữ xuất hiện nhiều hơn trong một tài liệu và kết quả là 5823 thuật ngữ được đánh chỉ mục. SVD hệ số 100 của ma trận 5823 thuật ngữ với 1033 tài liệu đã được sử dụng và truy tìm hiệu quả, được đánh giá dựa vào 30 câu truy vấn có thể có với tập dữ liệu. Đánh giá mô hình LSI trên tập dữ liệu MED dựa vào chỉ số recall và precision được biểu diễn trong sơ đồ sau:
Hình 2.5 Đồ thị Recall – Precision của thuật toán LSI
Phương pháp LSI thực hiện tốt ở những mức thấp nhất của recall thể hiện ở hai nhân tố: thứ nhất, độ chính xác (precision) tương đối tốt trong mọi hệ thống ở mức recall thấp, mang lại khả năng cải tiến. Thứ hai, LSI được thiết kế chủ yếu để giải quyết vấn đề về tính đồng nghĩa (vì thế tăng recall); ít thành công hơn trong vấn đề về tính đa nghĩa (precision)
Precison