Kiến trúc của hệ tìm kiếm thông tin

Một phần của tài liệu KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG (Trang 28 - 30)

Hình 2.5: Kiến trúc hệ tìm kiếm thông tin cơ bản

Một hệ thống thông tin tiêu biểu như sau:

Giao diện người sử dụng

NSD yêu cầu

(1)

Các tính toán cho văn bản

Văn bản

NSD phản

hồi Tính toán cho câu truy vấn (2) chỉ mụcLập

Truy vấn Tìm kiếm Chỉ mục Tệp chỉ mục Tài liệu đã sắp xếp Sắp xếp (3) Truy tìm tài liệu Cơ sở dữ liệu văn bản

Hệ thống tìm kiếm thông tin gồm có 3 bộ phận chính: bộ phận phân tích văn bản, bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả về.

(1) Bộ phận phân tích văn bản: bộ phận này có nhiệm vụ phân tích các văn

bản thu thập được thành các từ riêng biệt. Tương tự, khi người dùng nhập câu truy vấn thì câu truy vấn cũng được phân tích thành các từ riêng biệt.

(2) Bộ phận lập chỉ mục: các từ trích được từ các văn bản thu thập được sẽ

được bộ phận này lựa chọn để làm các từ chỉ mục. Các từ chỉ mục phải là các từ thể hiện được nội dung của văn bản. Hai bộ phận phân tích văn bản và lập chỉ mục thường đi liền với nhau và thường chỉ gọi là bộ phận lập chỉ mục.

(3) Bộ phận so khớp và sắp xếp các tài liệu trả về: Các từ trích được từ

câu truy vấn và các từ chỉ mục của văn bản sẽ được so khớp với nhau để tìm ra các tài liệu liên quan đến câu truy vấn. Mỗi tài liệu có một độ tương quan với câu hỏi. Các tài liệu này sẽ được sắp xếp theo độ tương quan giảm dần và trả về cho người sử dụng.

Một phần của tài liệu KỸ THUẬT PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG (Trang 28 - 30)

Tải bản đầy đủ (DOC)

(92 trang)
w