Xếp hạng:

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 67)

Đây là một phần việc sau cùng trước khi hoàn tất 1 qui trình tìm kiếm của hệ thống GIR/IR. Trong hệ IR truyền thống, việc xếp hạng chủ yếu chỉ dựa vào mức độ liên quan giữa nội dung tài liệu và nội dung truy vấn, có thể là liên quan thuần về mặt từ ngữ hoặc liên quan về mặt ý nghĩa, khái niệm, v.v… Trong khi đó với hệ GIR, mối quan hệ giữa kết quả tìm được và nội dung truy vấn ngoài yếu tố nội dung thì còn thể hiện thêm ở một yếu tố khác chính là yếu không gian giới hạn của câu truy vấn và không gian giới hạn trong tài liệu. Chính sự khác biệt này đã làm thay đổi mọi tiêu chí xếp hạng của hệ GIR so với hệ IR truyền thống. Từ đây, ta có thể mô hình công thức xếp hạng tài liệu trong hệ GIR như sau:

Similarity(q, d) = b * TextualSim(q, d) + (1-b) * GeographicalSim(q, d)

Trong đó: TextualSim(q, d) thể hiện độ liên quan về mặt từ ngữ giữa tài liệu d và truy vấn q. TextualSim(q, d) có thể được tính theo bất kỳ một công thức nào được cho là hiệu quả trong hệ IR truyền thống. Ở đây, trong luận văn này, công thức Okapi BM25[11, 25] đã được áp dụng để tính TextualSim(q, d). Còn GeographicalSim(q, d)

thể hiện độ liên quan về giới hạn không gian giữa tài liệu d và truy vấn q. Tham số b sẽ có giá trị trong khoảng [0,1] nhằm mục đích đưa kết quả sau cùng về miền giá trị [0,1]. Theo [1] thì tại GeoCLEF2005 với b = 0.6 người ta đạt được những độ đo chính xác nhất.

Đến đây thì vấn đề đặt ra cần giải quyết là cách thức để đánh giá GeographicalSim(q, d) sao cho hiệu quả, hợp lý. Như đã nói qua ở 4.2, các câu truy vấn trong hệ GIR luôn thể hiện ở 1 trong 3 dạng: truy vấn theo vùng, theo điểm và theo đường. Do vậy, một cách lý tưởng là tìm ra 1 phương thức chung để đánh giá GeographicalSim trong cả 3 hình thức truy vấn trên. Tuy nhiên, điều đó dường như là không thể hoặc sẽ làm cho việc đánh giá kết quả trở nên kém hiệu quả bởi mỗi dạng truy vấn đều có những đặc trưng riêng biệt của nó kèm theo là những yêu cầu về xếp hạng kết quả cũng khác nhau.

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 67)