Cấu trúc từ điển chỉ mục

Một phần của tài liệu Báo cáo đề tài "Tìm hiểu WAP và công cụ tìm kiếm hỗ trợ thiết bị di động" (Trang 94 - 95)

Từđiển chỉ mục chứa danh sách các mục từ, hệ thống thực hiện yêu cầu tìm kiếm dựa trên các mục từ này. Số lượng từ trong tựđiển rất lớn và tự điển thường xuyên được truy xuất nên cần phải có một cấu trúc hợp lý sao cho việc tìm kiếm một mục từ là nhanh nhất.

Tựđiển có thể tổ chức theo danh sách tuyến tính được sắp xếp của các mục từ và thực hiện tìm kiếm nhị phân. Tuy nhiên, khi muốn thêm một mục từ vào cần phải sắp xếp lại tự điển, điều này rất khó cho việc quản lý tự điển và chi phí tốn kém. Giải pháp là xây dựng tựđiển thành cây n phân biến thể thành cây nhị phân để dễ dàng cho cài đặt và xử lý.

Mỗi mục từ trong tự điển có một cấu trúc dữ liệu Info kèm theo, được gắn vào ký tự cuối cùng của mục từ. Cấu trúc Info gồm các trườngsau:

struct Info { int n; int nDoc; int signal; int startPage; int endPage; } Trong đó:

- n: số lần xuất hiện của mục từ này trong danh sách các trang web mà hệ thống đã lập chỉ mục

- nDoc: số tài liệu có chứa mục từ này

- signal: xác định thuộc tính của mục từ này, có giá trị 0: mục từ là từ tiếng Anh hoặc từ tiếng Việt; giá trị 2: mục từ là từ stopword

- startPage: trang bắt đầu trong chuỗi các trang trong file chỉ mục nghịch đảo thuộc về mục từ này

- endPage: trang cuối cùng trong danh sách các trang trong file chỉ mục nghịch đảo của mục từ này. Giá trị này sử dụng nhằm tăng tốc độ lập chỉ mục vì từ nó ta có thể truy xuất được đến trang cuối cùng nhanh nhất khi cần thêm tài liệu vào file nghịch đảo, chứ không cần phải duyệt tuần tự danh sách các trang từ trang bắt đầu.

Các thao tác chính trên tựđiển gồm có - Thêm một mục từ

- Xóa một mục từ - Tìm kiếm một mục từ

- Cập nhật thông tin một mục từ Tựđiển được nạp hoàn toàn vào hệ thống.

Một phần của tài liệu Báo cáo đề tài "Tìm hiểu WAP và công cụ tìm kiếm hỗ trợ thiết bị di động" (Trang 94 - 95)