Phương thức lưu trữ file index của hệ thống

Một phần của tài liệu Luận văn thạc sĩ Nghiên cứu kiến trúc hệ phân tán và ứng dụng xây dựng hệ thống quản lý thông tin đăng kiểm (Trang 66)

Hình 3. 7 Mô hình lưu tr h thng files index ti mi trm

Tại mỗi trạm hệ thống files index ñược lưu trữ theo mô hình như ñã trình bày tại mục 1.6, ñồng thời hệ thống file index ñược phân loại theo nhiều loại dữ liệu khác nhau như webs, videos, files, picture… Và tại các loại dữ liệu ta tiếp tục phân loại theo các chủñề khác nhau ñể tiện cho việc truy xuất và tìm kiếm thông tin theo từng loại dữ liệu.

Mục ñích của việc chia nhỏ thông tin thành từng loại dữ liệu và từng chủ ñề cụ

thể giúp việc truy vấn dữ liệu ñược chính xác và nhanh chóng hơn.

Ví dụ, tại kho dữ liệu webs ta có thể chia ra thành các chủ ñể như giáo dục, văn hóa, xã hội, kinh tế, chính trị…Tại các chủñề này ta có thể tiếp tục chia nhỏ thành các chủñề con như bộ giáo dục, mầm non, tiểu học, trung học, ñại học, cao ñẳng … và cứ thế chia nhỏ theo mô hình cây quan hệ.

Các nút lá của cây quan hệ là các segments chứa thông tin tinh lọc của bộ

indexer trích lọc ñược từ thông tin thô của bộ crawler tải về. Mỗi segments là một hệ thống các từ vựng và các mã của url chứa từ vựng ñó. URL gồm có hai loại url trên web và url trên máy local. Url trên máy local là ñịa chỉ các file chứa các từ

vựng ñó. Mục ñích của url trên máy local giúp cho người dùng truy xuất ñược thông tin của các url trên web ñã bị ngưng kết nối vì lý do gì ñó.

Webs

Server i

files video pic

58

Hình 3. 8 H thng index file theo mô hình cây

Dựa vào cách lưu trữ này, bộ query parser sẽ phân tích thông tin người dùng và thực hiện truy vấn trực tiếp và các segment có liên quan. Do vậy, kết quả tìm kiếm chính xác và nhanh chóng hơn.

Một phần của tài liệu Luận văn thạc sĩ Nghiên cứu kiến trúc hệ phân tán và ứng dụng xây dựng hệ thống quản lý thông tin đăng kiểm (Trang 66)