Hình 2.5: Kiến trúc hệ tìm kiếm thông tin cơ bản
Một hệ thống thông tin tiêu biểu như sau:
Giao diện người sử dụng
NSD yêu cầu
(1)
Các tính toán cho văn bản
Văn bản
NSD phản
hồi Tính toán cho câu truy vấn (2) chỉ mụcLập
Truy vấn Tìm kiếm Chỉ mục Tệp chỉ mục Tài liệu đã sắp xếp Sắp xếp (3) Truy tìm tài liệu Cơ sở dữ liệu văn bản
Hệ thống tìm kiếm thông tin gồm có 3 bộ phận chính: bộ phận phân tích văn bản, bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả về.
(1) Bộ phận phân tích văn bản: bộ phận này có nhiệm vụ phân tích các văn
bản thu thập được thành các từ riêng biệt. Tương tự, khi người dùng nhập câu truy vấn thì câu truy vấn cũng được phân tích thành các từ riêng biệt.
(2) Bộ phận lập chỉ mục: các từ trích được từ các văn bản thu thập được sẽ
được bộ phận này lựa chọn để làm các từ chỉ mục. Các từ chỉ mục phải là các từ thể hiện được nội dung của văn bản. Hai bộ phận phân tích văn bản và lập chỉ mục thường đi liền với nhau và thường chỉ gọi là bộ phận lập chỉ mục.
(3) Bộ phận so khớp và sắp xếp các tài liệu trả về: Các từ trích được từ
câu truy vấn và các từ chỉ mục của văn bản sẽ được so khớp với nhau để tìm ra các tài liệu liên quan đến câu truy vấn. Mỗi tài liệu có một độ tương quan với câu hỏi. Các tài liệu này sẽ được sắp xếp theo độ tương quan giảm dần và trả về cho người sử dụng.