Giới thiệu LSI

Một phần của tài liệu Luận văn: Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản pot (Trang 67 - 68)

3.3 Kỹ thuật LSI

3.3.1 Giới thiệu LSI

Trong mơ hình khơng gian vector, mỗi tài liệu được biểu diễn bởi một vector trọng số thuật ngữ N chiều, mỗi thành phần của vector là trọng số của từng thuật ngữ trong số N thuật ngữ của tài liệu. Nếu tập tài liệu có M tài liệu, thì tập tài liệu này được biểu diễn bằng ma trận A kích thước MxN. Trong khi tìm kiếm, câu truy vấn cũng được biểu diễn bằng vector trọng số thuật ngữ N chiều. Tính tương đồng giữa truy vấn và từng tài liệu lưu trữ được tính bằng tích vơ hướng hay hệ số cosin

giữa vector truy vấn và vector tài liệu.

Tiệm cận trực tiếp trên đây có hai yếu điểmsau đây:

Yếu điểm thứ nhất: Tập hợp tài liệu (thí dụ thư viện) có thể chứa đến hàng triệu tài liệu với nhiều ngàn khái niệm (M và N rất lớn). Vậy đòi hỏi tổng số bộ nhớ rất lớn để lưu trữ. Thí dụ, nếu thư viện có 1 triệu tài liệu với 10 000 thuật ngữ thì chúng ta cần đến 10GB bộ nhớ lưu trữ với mỗi phần tử chiếm 1 byte.

Yếu điểm thứ hai: Ít nhất cần M phép nhân vector N chiều khi tìm kiếm nếu sử dụng thước đo tương tự tích vơ hướng và địi hỏi nhiều hơn thế nếu sử dụng thước đo tương tự hệ số cosin. Khi M và N lớn, thời gian địi hỏi để tính tốn sẽ khơng đáp ứng với việc tìm kiếm trực tuyến.

Chỉ mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing) được Falotsos, Foltz, Dumais và Bently phát triển để giải quyết một phần khó khăn trên. Ý tưởng cơ bản của LSI là thực hiện nhóm các thuật ngữ tương đương để hình thành “khái niệm” hay “chủ đề” và tài liệu sẽ được đại diện bởi các khái niệm hay chủ đề này. Vì tổng số khái niệm sẽ nhỏ hơn nhiều so với tổng số thuật ngữ, do vậy địi hỏi ít bộ nhớ lưu trữ hơn và thời gian tính tốn sẽ nhanh hơn.

Mơ hình LSI

Mơ hình khơng gian Term – Doc Mơ hình term – topic - doc

Hình 3.1. Mơ hình LSI

Mơ hình này minh hoạ một cách tiếp cận trực tiếp hơn mối liên quan giữa các tài liệu và các thuật ngữnhư trong truy tìm vector, trong đó tồn tại một lớp giữa trong đó bao gồm cả lượcđồ câu truy vấn và lượcđồ tài liệu. Khơng gian của khái niệm có thể có kích thước nhỏ hơn. Chẳng hạn, chúng ta có thể xác định rằng câu truy vấn t3 trả lại kết quả là d2, d3,d4 trong tập các câu hỏi, dựa vào sự quan sát cho thấy chúng có liên quan đến khái niệm C2, không yêu cầu tài liệuđó phải chứa term t3. Câu hỏi đặt ra là làm thế nào để thu được không gian khái niệm?. Một cách khả quan để có thể tìm thấy những miêu tả chính tắc của ngơn ngữ tự nhiên, nhưng đây là một nhiệm vụ khó đạt được. Để đơn giản hơn, chúng ta có thể sử dụng những thuộc tính tốn học của ma trận term – doc, ví dụ, xác định những khái niệm bằng cách tính tốn ma trận.

Một phần của tài liệu Luận văn: Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản pot (Trang 67 - 68)

Tải bản đầy đủ (PDF)

(87 trang)