Lựa chọn mô hình lập chỉ mục cho hệ GIR Việt Nam:

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 32)

Dựa trên cơ sở 4 mô hình lập chỉ mục là PT, ST, TS và T giới thiệu ở trên và những kết quả thực nghiệm đánh giá các mô hình ở phần 2.1.5 của Subodh Vaid [15], ta có thể nhận thấy mô hình phù hợp cho một hệ GIR chính là những mô hình lập chỉ mục kết hợp thông tin nội dung và thuộc tính không gian liên quan trong tài liệu, cụ thể ở đây là mô hình TS. Đối với hệ GIR Việt Nam thì cơ bản về mặt tài liệu cũng không có gì khác biệt so với một hệ GIR tổng quát. Do đó, trong luận văn này, mô hình lập chỉ mục nội dung-không gian TS sẽ được áp dụng để thực hiện công việc lập chỉ mục cho các tài liệu trong hệ thống nhằm đạt được hiệu suất truy vấn tốt nhất.

Chương 3: Phân tích câu truy vấn

3.1 Giới thiệu:

Trong hệ GIR, các câu truy vấn thường xuất hiện với những thông tin về chủ đề cần tìm và kèm theo là các thông tin chỉ không gian một cách tường minh hoặc không tường minh nhằm mô tả vùng không gian mà người dùng mong muốn tìm thấy các chủ đề ấy liên quan đến nơi đó (ví dụ: khách sạn ở Hà Nội, café ở quận 1, TP.HCM, v.v…). Vì vậy vấn đề trong tiền xử lý câu truy vấn trong hệ GIR sẽ là làm sao xác định được các chủ đề tìm kiếm và vùng không gian mà câu truy vấn đề cập đến và mối quan hệ giữa hai thành phần ấy nhằm giúp cho quá trình tìm kiếm sau đó có “mục tiêu” rõ ràng hơn và các kết quả “chính xác” hơn.

Trong vấn đề này, từ lâu, phương pháp khai khoáng văn bản (text mining) đã từng được áp dụng thành công với hệ GIR để phát hiện các từ/cụm từ chỉ nơi chốn trong nội dung văn bản, hoặc xác định các vùng không gian trong tài liệu. Tuy nhiên, phần chính của các nghiên cứu đó là tập trung vào các tài liệu web hoặc các tài liệu văn bản thông thường. Trong khi đó, đối với một câu truy vấn, thì vấn đề phát hiện và xử lý các thông tin về nơi chốn trở nên khó khăn hơn do nó quá ngắn gọn và thường phụ thuộc vào chủ quan của người dùng bên cạnh các vấn đề về cách phát âm sai, dùng từ nước ngoài, hay từ viết tắt trong truy vấn, v.v… Vì vậy, làm cách nào để có thể tự động biết được người dùng đề cập đến chủ đề gì, giới hạn ở những nơi chốn nào chỉ qua một câu truy vấn đơn giản là công việc cần phải được giải quyết tốt, để từ đó có thể tìm ra được những tài liệu thích hợp nhất với yêu cầu tìm kiếm từ phía người sử dụng.

Trong chương 3, luận văn xin giới thiệu và đề xuất cải tiến một phương pháp đơn giản và hiệu quả dùng để phân tích câu truy vấn, đặc biệt là những câu truy vấn cho hệ GIR Việt Nam.

Một phần của tài liệu Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam (Trang 32)