Hình 3. 7 Mô hình lưu trữ hệ thống files index tại mỗi trạm
Tại mỗi trạm hệ thống files index ñược lưu trữ theo mô hình như ñã trình bày tại mục 1.6, ñồng thời hệ thống file index ñược phân loại theo nhiều loại dữ liệu khác nhau như webs, videos, files, picture… Và tại các loại dữ liệu ta tiếp tục phân loại theo các chủñề khác nhau ñể tiện cho việc truy xuất và tìm kiếm thông tin theo từng loại dữ liệu.
Mục ñích của việc chia nhỏ thông tin thành từng loại dữ liệu và từng chủ ñề cụ
thể giúp việc truy vấn dữ liệu ñược chính xác và nhanh chóng hơn.
Ví dụ, tại kho dữ liệu webs ta có thể chia ra thành các chủ ñể như giáo dục, văn hóa, xã hội, kinh tế, chính trị…Tại các chủñề này ta có thể tiếp tục chia nhỏ thành các chủñề con như bộ giáo dục, mầm non, tiểu học, trung học, ñại học, cao ñẳng … và cứ thế chia nhỏ theo mô hình cây quan hệ.
Các nút lá của cây quan hệ là các segments chứa thông tin tinh lọc của bộ
indexer trích lọc ñược từ thông tin thô của bộ crawler tải về. Mỗi segments là một hệ thống các từ vựng và các mã của url chứa từ vựng ñó. URL gồm có hai loại url trên web và url trên máy local. Url trên máy local là ñịa chỉ các file chứa các từ
vựng ñó. Mục ñích của url trên máy local giúp cho người dùng truy xuất ñược thông tin của các url trên web ñã bị ngưng kết nối vì lý do gì ñó.
Webs
Server i
files video pic
58
Hình 3. 8 Hệ thống index file theo mô hình cây
Dựa vào cách lưu trữ này, bộ query parser sẽ phân tích thông tin người dùng và thực hiện truy vấn trực tiếp và các segment có liên quan. Do vậy, kết quả tìm kiếm chính xác và nhanh chóng hơn.