Giả thuyết cho thuật toán là hành vi cú pháp của một từ đƣợc phản ánh trong các từ đồng xuất hiện và đƣợc thể hiện đối với ngữ cảnh trái và ngữ cảnh phải của từ đó.
Láng giềng trái ↔ TỪ ↔ Láng giềng phải ↓ ↓
Véc tơ ngữ cảnh trái Véc tơ ngữ cảnh phải.
Các véc tơ ngữ cảnh chứa số lần xuất hiện của mỗi từ trong 250 từ xuất hiện nhiều nhất trong kho văn bản.
Bởi vậy, ngƣời ta đo độ tƣơng tự giữa hai từ đối với hành vi cú pháp của chúng. Nếu việc đếm các láng giềng đƣợc tập hợp vào một véc tơ, cosin có thể đƣợc sử dụng để đo sự tƣơng tự. Cosin ≈1 nếu hai từ có nhiều láng giềng chung, và ≈0 nếu hai từ không có chung láng giềng nào.
Tuy nhiên việc đo sự tƣơng tự phân phối những láng giềng chung không hiệu quả khi dữ liệu huấn luyện thƣa thớt. Xem xét hai tính từ không thƣờng xuyên ngẫu nhiên xảy ra để sửa đổi các danh từ khác nhau trong tập văn, sự tƣơng tự bên phải của chúng theo độ đo cosin = 0. Nhƣng thậm chí cả với những từ tần suất cao nhƣ là “a” và “an”, hai mạo từ này không chia sẻ bất kỳ láng giềng bên phải nào, vì vậy sự tƣơng tự theo độ đo cosin cũng = 0. Kết quả thu đƣợc là sai lệch.
Giải pháp cho vấn đề này là ứng dụng phƣơng pháp phân tích giá trị kỳ dị (SVD) cho ma trận C. Với các véc tơ ngữ cảnh của từ là các hàng của ma trận C.
Bảng 3.2.1 Thể hiện các láng giềng gần nhất của 2 từ “onto” và “seemed”
4 thí nghiệm suy luận nhãn khác nhau là:
- Suy luận dựa trên loại từ
- Suy luận dựa trên loại từ và ngữ cảnh.
- Suy luận dựa trên loại từ và ngữ cảnh, hạn chế các ngữ cảnh tự
nhiên.
- Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh
trái và phải tổng quát hoá.