Việc tìm kiếm thông tin văn bản theo truyền thống thì đƣợc thực hiện nhân công, ví dụ nhƣ, cách nhanh nhất để tìm thông tin trong một quyển sách là đọc và tìm trong bảng mục lục của quyển sách đó.
Đến khi có sự xuất hiện của máy tính thì việc tìm kiếm thông tin nói chung cũng nhƣ văn bản nói riêng đã thay đổi hoàn toàn, thậm chí đã có một cuộc cách mạng lớn. Đó là sự xuất hiện của hệ truy tìm thông tin nói chung và hệ truy tìm thông tin văn bản nói riêng. Ngày nay, hệ truy tìm thông tin có một vai trò tối quan trọng không những đối với cuộc sống, công việc hàng ngày của chúng ta mà còn đối với sự phát triển của khoa học công nghệ. Các hệ truy tìm thông tin điển hình đƣợc ngƣời dùng quan tâm nhiều nhất hiện nay là google, yahoo, …
Định nghĩa
Hệ truy tìm văn bản là một hệ thống giải quyết việc truy tìm những văn bản trong tập văn bản của hệ thống liên quan đến thông tin mà ngƣời sử dụng hệ thống cần. Những thông tin đƣợc ngƣời dùng đƣa vào hệ thống bởi các câu truy vấn. Những văn bản liên quan với câu truy vấn sẽ đƣợc hệ thống trả về.
Nguyên lý hoạt động
Nguyên lý hoạt động cốt lõi của hệ truy tìm văn bản là tự động quy trình kiểm tra tài liệu bằng cách tính độ đo tƣơng quan giữa câu truy vấn và tài liệu.
Quy trình
Quy trình của hệ truy tìm thông tin văn bản nhƣ sau:
- Ngƣời dùng muốn tìm một văn bản liên quan đến một chủ đề nào đó thì ngƣời dùng cung cấp một mô tả chủ đề đó dƣới dạng câu truy vấn.
- Từ câu truy vấn này, hệ truy tìm sẽ lọc ra những từ đặc trƣng.
- Những từ đặc trƣng này sẽ đƣợc so khớp với những từ đặc trƣng của kho văn bản đã đƣợc xử lý.
- Hệ thống sẽ trả về những văn bản có độ liên quan cao nhất với câu truy vấn.
Kiến trúc
Hình 4.1: Kiến trúc của hệ truy tìm văn bản
Thành phần chính của kiến trúc trên là việc tiền xử lý và số hóa văn bản, thành phần này có nhiệm vụ chuyển tập văn bản ở ngôn ngữ tự nhiên thành tập các từ đặc trƣng có cấu trúc.