Mơ hình này minh hoạ một cách tiếp cận trực tiếp hơn mối liên quan giữa các tài liệu và các thuật ngữnhư trong truy tìm vector, trong đó tồn tại một lớp giữa trong đó bao gồm cả lượcđồ câu truy vấn và lượcđồ tài liệu. Không gian của khái niệm có thể có kích thước nhỏ hơn. Chẳng hạn, chúng ta có thể xác định rằng câu truy vấn t3 trả lại kết quả là d2, d3,d4 trong tập các câu hỏi, dựa vào sự quan sát cho thấy chúng có liên quan đến khái niệm C2, khơng u cầu tài liệuđó phải chứa term t3. Câu hỏi đặt ra là làm thế nào để thu được khơng gian khái niệm?. Một cách khả quan để có thể tìm thấy những miêu tả chính tắc của ngơn ngữ tự nhiên, nhưng đây là một nhiệm vụ khó đạt được. Để đơn giản hơn, chúng ta có thể sử dụng những thuộc tính tốn học của ma trận term – doc, ví dụ, xác định những khái niệm bằng cách tính tốn ma trận.
3.3.2 Phương pháp luận LSI
Chỉ mục ngữ nghĩa tiềm ẩn (LSI) là một kỹ thuật được thiết kếđể giải quyết vấn đề đồng nghĩa và các vấn đề đa nghĩa của từ ngữ. Kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn giả thiết rằng có một số cấu trúc tiềm ẩn trong các mẫu có các từđồng thời
xuất hiện, thông qua các tập và các phép thử tài liệu để mơ hình hóa những phần phụ thuộc giữa các từ và tài liệu. LSI dùng kỹ thuật tách các giá trị đơn (SVD- Singular Value Decomposition) để giảm bớt kích thước ma trận term - doc, không gian r chiều xuống một không gian s chiều, s<<r, không gian mới này được gọi là không gian khái niệm.
Tất cả các thuật ngữ M và các tài liệu N có thểđược thể hiện dưới dạng các vector trong không gian s chiều. Do vậy, các từ khơng cịn độc lập nhau, và những từ đồng nghĩa sẽ tương ứng cùng kích thước hoặc có cùng độ tương đồng trong khơng gian này. Các tài liệu với những mẫu từ tương tự sẽ gần nhau dù chúng không chia sẻ những từ chung, điều này cho thấy rằng kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn có thể phát hiện ra những mối quan hệ ngữ nghĩa học tiềm ẩn giữa những tài liệu. Ví dụ, chỉ mục ngữ nghĩa tiềm ẩn sẽ thấy được “laptop” và “portable” xuất hiện nhiều trong cùng ngữ cảnh và có vectơ tương tự.
Xét ma trận term – doc
- Gọi A là ma trận term-doc với M cột (Terms) và N hàng (Docs). - Các phần tử của ma trận là trọng số w
i,jđược tính từ lược đồ tf-idf.