Phương pháp 2 lập chỉ mục kết hợp nội dung-không gian (TS):

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 25)

Đây là phương pháp kết hợp hai phương pháp cơ bản bên trên lại với nhau nhằm tận dụng thế mạnh của cả hai phương pháp trên. Trong phương pháp này, cấu trúc chỉ mục PT sẽ được áp dụng nhưng có một sự thay đổi nho nhỏ. Cụ thể là danh sách các tài liệu có chứa từ/cụm từ sẽ được gom lại thành từng nhóm tùy theo vùng không gian liên quan đến nó chứ không tổ chức như PT. Tổ chức không gian của danh sách các tài liệu sẽ có dạng [Cell1[DocumentList1];Cell2[DocumentList2];….; Cellp[DocumentListp]], trong đó Celli là ô thứ i trong p ô lưới không gian được chia ra từ vùng bao phủ của tập tài liệu và DocumentListi là danh sách các tài liệu có chứa từ/cụm từ đang xét và có vùng không gian liên quan giao với ô Celli. Với ví dụ trong hình 2-2, giả sử từ ta đang xét là từ “Caravelle” và có các tài liệu D1, D2, D3, D7, D8, D9, D11, D13 chứa từ “Caravelle”. Khi đó theo phương pháp trong 2.1.1ta có:

Caravelle D1, D2, D3, D7, D8, D9, D11, D13

Tuy nhiên, theo phương pháp này thì ta sẽ có cấu trúc như sau:

Với phương pháp này, trong trường hợp xấu nhất là vùng liên quan của tất cả các tài liệu đều giao với tất cả các ô lưới thì cũng giống như phương pháp ST khi đó độ lớn lưu trữ sẽ là O(p*N). Tuy nhiên, trong thực tế thì mỗi tài liệu đều chỉ liên quan đến một tập con trong tập các ô lưới cho nên độ lớn lưu trữ thực tế cho phương pháp này chắc chắn sẽ nhỏ hơn O(p*N).

Để tính toán xem có những ô lưới r nào giao với vùng giới hạn của câu truy vấn, m truy vấn phi không gian sẽ được thực hiện. Với mỗi kết quả truy vấn, r ô lưới của chỉ mục không gian tương ứng với từ khóa được index tìm thấy sẽ được truy xuất. Nếu KClà số lượng lớn nhất các tài liệu liên quan trên mỗi ô lưới thì thời gian truy xuất sẽ là O(m (log(L) + r(log(p) + KC))).

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 25)