So sánh, đánh giá các phương pháp:

Nhằm so sánh, đánh giá các phương pháp lập chỉ mục trên, Subodh Vaid [15] đã sử dụng 4 tập câu truy vấn với mỗi tập là 100 câu truy vấn. 4 tập câu truy vấn đó gồm có:

 Từ/cụm từ ngẫu nhiên và tên địa danh ngẫu nhiên (Random): các từ/cụm từ chỉ chủ đề tìm kiếm, không mang ý nghĩa không gian được lựa chọn ngẫu nghiên từ bộ từ vựng và kết hợp với các tên địa danh được lựa chọn ngẫu nhiên từ danh sách các tên địa danh thuộc Vương quốc Anh. Số lượng các từ truy vấn cũng được lựa chọn ngẫu nhiên trong khoảng từ 1-10 từ.

 Từ/cụm từ chỉ chủ đề được chọn và tên địa danh ngẫu nhiên, với 500 vùng có diện tích lớn nhất (Top500FP): các từ/cụm từ cho biết chủ đề truy vấn được chọn ngẫu nhiên từ 241 chủ đề thu được từ trang web UpMyStreet.com, một trang web cung cấp danh mục các thông tin liên quan đến các vùng địa lý cụ thể. Các tên địa danh được chọn ngẫu nhiên từ 500 địa danh ở Vương quốc Anh có

vùng diện tích lớn nhất. Những câu truy vấn này hướng đến các vùng không gian rộng lớn hơn, sử dụng các chủ đề truy vấn thực tế hơn.

 Từ/cụm từ chỉ chủ đề được chọn và tên địa danh ngẫu nhiên, với 500 vùng có diện tích nhỏ nhất (Bottom500FP): giống với Top500FP nhưng các địa danh được chọn sẽ là 500 vùng có diện tích nhỏ nhất. Với các câu truy vấn trong tập hợp này thì việc tìm kiếm không gian sẽ tập trung chủ yếu vào một ô lưới trong chỉ mục không gian.

 Từ/cụm từ chỉ chủ đề được chọn và tên địa danh ngẫu nhiên, với 5 vùng có diện tích lớn nhất (Top5FP): giống với Top500FP nhưng vùng giới hạn của câu truy vấn được xác định ngẫu nhiên từ 5 vùng trong danh sách các địa danh thuộc Vương quốc Anh có diện tích lớn nhất. Điều này làm cho số lượng các ô lưới không gian cần được truy xuất để rút ra được các tài liệu kết quả đạt đến tối đa.

Các kết quả thực nghiệm sẽ được sử dụng để so sánh hiệu quả của các phương pháp lập chỉ mục về độ lớn của chỉ mục, thời gian lập chỉ mục và thời gian truy vấn trên chỉ mục đó

Kích thước của chỉ mục trong từng phương pháp được so sánh trong hình 2-3. Nhìn vào biểu đồ kết quả ta có thể thấy đối với phương pháp ST và TS, nếu giảm kích thước các ô lưới và theo đó tăng số lượng các ô lên sẽ làm cho kích thước lưu trữ gia tăng đáng kể. Đối với trường hợp chỉ mục không gian với p = 64 ô lưới, các phương pháp khác PT đều sinh ra chỉ mục có kích thước nhiều gấp khoảng 20 lần so với phương pháp PT.

Hình 2-3: Biểu đồ so sánh kích thước chỉ mục của các phương pháp.

Thời gian lập chỉ mục của từng phương pháp được thể hiện trong hình 2-4. Theo đó, phương pháp ST cho kết quả kém nhất trong mọi trường hợp với thời gian lập chỉ mục tỉ lệ thuận với kích thước ô lưới không gian. Phương pháp PT vẫn có kết quả tốt nhất do không quna tâm đến yếu tố không gian trong nội dung tài liệu.

Về thời gian truy vấn, các so sánh được thể hiện trong các hình 2-5 đến 2-8 tương ứng với từng bộ câu truy vấn đã đề cập ở phần đầu. Theo đó, ta có thể thấy trong 3 bộ truy vấn đầu tiên phương pháp ST và TS cho kết quả tương tự hoặc tốt hơn so với PT trong tất cả các trường hợp, trong khi phương pháp T lại có những kết quả quá kém so với các phương pháp còn lại. Tuy nhiên, đối với bộ truy vấn sau cùng (Top5FP) thì kết quả có phần khác đi so với hình ảnh chung của 3 bộ truy vấn trước. Trong trường hợp này, các kết quả từ phương pháp ST và T là kém nhất và phương pháp TS vẫn là phương pháp có hiệu năng tốt nhất trong 4 phương pháp.

Hình 2-5: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Random.

Hình 2-6: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Top500FP.

Hình 2-7: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Bottom500FP.

Hình 2-8: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Top5FP.

Các khái niệm và công việc liên quan:

Xác định ý nghĩa thành phần where: