2.1 Giới thiệu hệ tìm kiếm thơng tin
2.1.1 Kỹ thuật tìm kiếm thơng tin
Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật tìm kiếm thơng tin (IR – Information Retrieval). Kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính sau đây:
• Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện. Mà văn bản là tài nguyên rất quan trọng đối với các cơ quan tổ chức. Do đó cần có IR đủ tốt để sử dụng có hiệu quả các thơng tin lưu trữ trong các tài liệu.
• Văn bản được sử dụng để mô tả các media khác như video, audio, ảnhđể có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa phương tiện.
Hai nhiệm vụ chính của thiết kế hệ thống IR nhằm giải quyết vấn đề sau:
• Trình diễn và truy vấn tài liệu như thế nào?
• So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao? Các mơ hình truy vấn sẽ xác định hai khía cạnh này. Có bốn mơ hình truy vấn hay được sử dụng, đó là:
• Đối sánh chính xác (exact match),
• Khơng gian vector, • Xác suất
• Trên cơ sở cụm (cluster-based).
Trong kỹ thuật đối sánh chính xác (hồn tồn), mơ hình Boolean hay được sử dụng nhất.
Mặc dù các mơ hình truy vấn khác nhau, sử dụng sự trình diễn và chỉ mục tài liệu khác nhau, nhưng nói chung tiến trình chỉ mục được sử dụng trong chúng là tương tự nhau. Để nâng cao hiệu năng truy vấn, việc xử lý ngôn ngữ tự nhiên và các kỹ thuật trí tuệ nhân tạo được áp dụng.
Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, cho nên hầu như không thể truy vấn mọi tài liệu (items) liên quan hay loại đi mọi tài liệu không liên quan. Do vậy, thước đo hiệu năng IR là rất quan trọng.
Các kỹ thuật IR rất phổ biến vì nó được sử dụng trong các mơtơ tìm kiếm của
WWW.