Phương pháp 3 lập chỉ mục kết hợp không gian – nội dung (T):

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 26)

Đây cũng là một phương pháp kết hợp khác của hai cách lập chỉ mục cơ bản theo nội dung và theo thuộc tính không gian. Tuy nhiên với phương pháp này, 2 loại chỉ mục theo nội dung và không gian được tách biệt nhau hoàn toàn chứ không lồng ghép vào nhau như các phương pháp trước. Theo đó, chỉ mục PT sẽ được áp dụng để tìm ra tập tài liệu D1 có chứa m từ truy vấn phi không gian. Song song đó, chỉ mục không gian của các tài liệu cũng được xây dựng dựa trên vùng không gian liên quan trong nội dung tài liệu để tìm ra tập tài liệu D2 sao cho các tài liệu trong đó có vùng không gian liên quan giao với vùng không gian giới hạn trong truy vấn. Sau đó, hai tập D1 và D2 sẽ được giao nhau để chọn ra tập tài liệu kết quả thỏa mãn yêu cầu tìm kiếm. Tất nhiên là với phương pháp này thì độ lớn lưu trữ sẽ là độ lớn của cả 2 cấu trúc index trên, nghĩa là O(N) cho cấu trúc PT và O(p*Kd) cho cấu trúc chỉ mục không gian với Kd là số lượng lớn nhất các tài liệu có liên quan đến một vùng không gian cụ thể. Chú ý là độ lớn lưu trữ cho phương pháp ST cũng được tính toán theo cùng một cách với phương pháp này, tuy nhiên trong thực tế thì độ lớn lưu trữ cho ST luôn lớn hơn rất nhiều so với T bởi vì với ST, ta lưu một cấu trúc chỉ mục của từ/cụm trong một ô lưới không

gian còn với T thì ta lưu một danh sách đơn các tài liệu liên quan đến vùng không gian của ô lưới không gian.

Thời gian truy vấn chỉ mục nội dung được giảm xuống theo phương pháp PT trong đó không bao gồm các từ/cụm từ chỉ không gian là O(m(logL + Ka ). Trong khi đó, thời gian truy vấn chỉ mục không gian sẽ là O(r(log(p) + Kd )), với r một lần nữa là số các ô lưới không gian giao nhau với vùng không gian giới hạn của truy vấn. Như vậy, mỗi lần truy xuất vào một ô lưới không gian sẽ bao gồm luôn việc rút trích một danh sách các tài liệu liên quan đến ô lưới không gian đó. Sau khi đã có được hai danh sách tài liệu, chúng sẽ được so khớp để tìm ra những tài liệu sau cùng. Hiệu suất của qui trình sẽ được cải thiện cao nếu các tài liệu lưu trữ trong cả hai danh sách đều theo thứ tự các chỉ số của chúng. Trong trường hợp này, thời gian so khớp sẽ tỷ lệ thuận với tổng số tài liệu [15].

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 26)

Tải bản đầy đủ (PDF)

(76 trang)