Giới thiệu Với sự bùng nổ của thông tin ngày nay thì yêu cầu đặt ra là làm thế nào để tiếp cận được với thông tin một cách hiệu quả, nhanh chóng và tiện lợi nhất. Theo một nghiên cứu cho thấy, đa phần các thông tin tồn tại trên thế giới này đều ít nhiều có liên quan đến một nơi nào đó. Do đó, giới hạn địa lý trong tìm kiếm là một tiêu chuẩn giúp các máy tìm kiếm có thể trả ra những kết quả chính xác hơn, phù hợp hơn với yêu cầu tìm kiếm. Ví dụ một người muốn tìm các tài liệu về tình hình giáo dục ở Việt Nam, họ sẽ cảm thấy không hài lòng chút nào nếu trong các kết quả trả ra có những kết quả nói về tình hình giáo dục của Singapore hay bất kỳ một nơi nào khác. Nhằm giúp giải quyết tốt các dạng tìm kiếm liên quan đến vị trí địa lý như trên, các nhà khoa học trên thế giới nghĩ đến việc xây dựng một hệ thống truy vấn thông tin địa lý (Geographic Information Retrieval System – GIR System). Hệ thống truy vấn thông tin địa lý cũng chính là một hệ truy vấn thông tin (Information Retrieval - IR) thông thường, nó sẽ thực hiện các nhiệm vụ lập chỉ mục trên tài liệu, phân tích các câu truy vấn và tìm kiếm, xếp hạng kết quả sao cho phù hợp với yêu cầu từ phía người dùng nhưng sẽ dựa trên những đặc trưng của loại thông tin địa lý, của yếu tố không gian trong nội dung tài liệu, trong câu truy vấn, v.v… Không nằm ngoài tầm ảnh hưởng chung của việc bùng nổ thông tin. Các thông tin liên quan đến Việt Nam, mang tính cục bộ ở từng vùng, miền của Việt Nam cũng tăng lên từng ngày. Tuy nhiên, theo khảo sát thì hiện ở Việt Nam chưa có một hệ thống GIR nào được xây dựng để phục vụ nhu cầu tìm kiếm thông tin liên quan đến vị trí địa lý như cách mà thế giới tiếp cận, hầu hết các dịch vụ cung cấp khả năng tìm kiếm thông tin ở Việt Nam đều chưa quan tâm đến yếu tố không gian trong truy vấn từ phía người dùng cũng như là yếu tố không gian trong nội dung thông tin. Trong khi đó, các hệ thống tìm kiếm thông tin địa lý đang làm việc rất hiệu quả như Google Maps (Google Local) hay Live Maps thì lại không thể phục vụ được người dùng Việt Nam do trở ngại về dữ liệu và sự khác biệt trong văn hóa ngôn ngữ. Với tình hình thực tế đó, luận văn này xin giới thiệu một số các giai đoạn quan trọng trong quá trính xây dựng một hệ thống GIR dùng cho Việt Nam, đồng thời tiến hành xây dựng hệ thống dựa trên những đặc trưng, kinh nghiệm, thói quen, nhận thức của người Việt Nam về thông tin địa lý và cách thức tìm kiếm thông tin liên quan đến vị trí, địa điểm thể hiện trong câu truy vấn. Phần tiếp theo của luận văn được trình bày theo cấu trúc như sau: Chương 1, luận văn sẽ trình bày sơ nét về hệ thống GIR cùng với những vấn đề sẽ gặp phải khi đi sâu vào nghiên cứu. Từ chương 2 đến chương 4 luận văn sẽ trình bày các giai đoạn chính, các vấn đề cũng như là các hướng tiếp cận để giải quyết vấn đề trong việc xây dựng hệ thống GIR cho Việt Nam, đó là các giai đoạn lập chỉ mục, xử lý câu truy vấn, tìm kiếm và xếp hạng kết quả, v.v… Chương 5 sẽ tổng kết lại những gì luận văn đã làm được và định hướng nghiên cứu, phát triển tiếp theo trong tương lai.
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TRẮC NGỌC ĐĂNG XÂY DỰNG HỆ THỐNG GIR PHỤC VỤ TÌM KIẾM THÔNG TIN ĐỊA LÝ, VỊ TRÍ Ở VIỆT NAM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 LUẬN VĂN THẠC SĨ Người hướng dẫn: PGS. TS. DƯƠNG ANH ĐỨC Thành Phố Hồ Chí Minh – 2008 1 Mục lục Mục lục 1 Danh mục hình ảnh 4 Danh sách bảng biểu 6 Giới thiệu 7 Chương 1: Tổng quan về hệ thống truy vấn thông tin địa lý 9 1.1 Giới thiệu: 9 1.2 Các đặc điểm của thông tin địa lý: 10 1.3 Ảnh hưởng của các phương pháp nhận thức không gian: 12 1.4 Vai trò của từ điển địa lý và Ontology: 14 1.5 Tìm kiếm thông tin địa lý: 18 1.6 Hệ thống truy vấn thông tin địa lý Việt Nam: 19 Chương 2: Lập chỉ mục cho nội dung tài liệu 20 2.1 Các phương pháp lập chỉ mục: 20 2.1.1 Phương pháp lập chỉ mục thuần theo nội dung (PT): 20 2.1.2 Phương pháp 1 lập chỉ mục kết hợp nội dung - không gian (ST): 22 2.1.3 Phương pháp 2 lập chỉ mục kết hợp nội dung - không gian (TS): 24 2 2.1.4 Phương pháp 3 lập chỉ mục kết hợp không gian – nội dung (T): 25 2.1.5 So sánh, đánh giá các phương pháp: 26 2.2 Lựa chọn mô hình lập chỉ mục cho hệ GIR Việt Nam: 31 Chương 3: Phân tích câu truy vấn 32 3.1 Giới thiệu: 32 3.2 Các khái niệm và công việc liên quan: 33 3.3 Phân tích các thành phần trong câu truy vấn: 34 3.4 Giải thuật phân tích các thành phần trong câu truy vấn: 36 3.4.1 Xác định bộ ba <what, relation, where>: 36 3.4.2 Xác định ý nghĩa thành phần where: 42 3.4.3 Xác định ý nghĩa thành phần what: 46 3.5 Đánh giá các giải thuật: 50 Chương 4: Tìm kiếm và xếp hạng kết quả 55 4.1 Giới thiệu: 55 4.2 Tìm kiếm: 55 4.2.1 Tìm kiếm theo vùng (Region-based Range Query): 57 4.2.2 Tìm kiếm xung quanh điểm (Point-based Range Query): 58 4.2.3 Tìm kiếm theo đường (Path-based Range Query): 59 4.2.4 Đánh giá phương pháp tìm kiếm theo đường: 64 3 4.3 Xếp hạng: 66 4.3.1 Xếp hạng trong tìm kiếm theo vùng: 67 4.3.2 Xếp hạng trong tìm kiếm xung quanh điểm: 68 4.3.3 Xếp hạng trong tìm kiếm theo đường: 69 Chương 5: Tổng kết và hướng phát triển 71 5.1 Tổng kết: 71 5.2 Hướng phát triển: 71 Tài liệu tham khảo 73 Phụ lục 76 4 Danh mục hình ảnh Hình 1-1: Các thành phần chính của từ điển địa lý. 15 Hình 1-2: TP. Hồ Chí Minh được thể hiện bằng một điểm tâm của vùng. 16 Hình 1-3: TP. Hồ Chí Minh được thể hiện bằng một khung bao chữ nhật. 16 Hình 1-4: TP. Hồ Chí Minh được thể hiện bởi một đa giác – ranh giới của vùng. 17 Hình 2-1: Cấu trúc bảng nghịch đảo. 21 Hình 2-2: Chỉ mục không gian của các tài liệu với cùng không gian thể hiện là các khung bao chữ nhật. 23 Hình 2-3: Biểu đồ so sánh kích thước chỉ mục của các phương pháp. 28 Hình 2-4: Biểu đồ so sánh thời gian lập chỉ mục của các phương pháp. 28 Hình 2-5: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Random. 29 Hình 2-6: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Top500FP. 30 Hình 2-7: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Bottom500FP. 30 Hình 2-8: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ truy vấn Top5FP. 31 Hình 3-1: Qui trình phân tích câu truy vấn từ người dùng. 35 Hình 3-2: Biểu đồ thể hiện các độ đo Precision-Recall của kết quả tìm kiếm. 53 5 Hình 3-3: Biểu đồ thể hiện các độ đo Precision-Recall của kết quả tìm kiếm theo điều kiện. 54 Hình 4-1: Hình minh họa tìm kiếm theo vùng. 57 Hình 4-2: Hình minh họa tìm kiếm xung quanh điểm. 58 Hình 4-3: Minh họa 1 đoạn đường và khung bao chữ nhật của nó. 59 Hình 4-4: Minh họa 1 đoạn đường và vùng đệm của nó. 59 Hình 4-5: Minh họa ý tưởng tìm kiếm theo đường. 61 Hình 4-6: Các trường hợp tương quan giữa đoạn thẳng và đường tròn. 62 Hình 4-7: Biểu đồ so sánh 2 phương pháp tìm theo đường về thời gian. 65 Hình 4-8: Biểu đồ so sánh 2 phương pháp tìm theo đường về số lượng kết quả. 66 Hình 0-1: Cấu trúc R-Tree. 78 Hình 0-2: Hình minh họa các quan hệ giữa các hình chữ nhật. 78 6 Danh sách bảng biểu Bảng 3-1: Bảng khảo sát một số câu truy vấn trên các local search nổi tiếng. 39 Bảng 3-2: Bảng thống kê độ đo Precision - Recall của kết quả tìm kiếm. 53 Bảng 3-3: Bảng thống kê độ đo Precision - Recall của kết quả tìm kiếm theo điều kiện. 54 Bảng 4-1: Bảng kết quả thuật toán tạo vùng đệm của M. Zadravec. 60 Bảng 4-2: Số liệu so sánh giữa 2 phương pháp tìm theo đường về thời gian. 64 Bảng 4-3: Số liệu so sánh giữa 2 phương pháp tìm theo đường về số lượng kết quả. 65 7 Giới thiệu Với sự bùng nổ của thông tin ngày nay thì yêu cầu đặt ra là làm thế nào để tiếp cận được với thông tin một cách hiệu quả, nhanh chóng và tiện lợi nhất. Theo một nghiên cứu cho thấy, đa phần các thông tin tồn tại trên thế giới này đều ít nhiều có liên quan đến một nơi nào đó. Do đó, giới hạn địa lý trong tìm kiếm là một tiêu chuẩn giúp các máy tìm kiếm có thể trả ra những kết quả chính xác hơn, phù hợp hơn với yêu cầu tìm kiếm. Ví dụ một người muốn tìm các tài liệu về tình hình giáo dục ở Việt Nam, họ sẽ cảm thấy không hài lòng chút nào nếu trong các kết quả trả ra có những kết quả nói về tình hình giáo dục của Singapore hay bất kỳ một nơi nào khác. Nhằm giúp giải quyết tốt các dạng tìm kiếm liên quan đến vị trí địa lý như trên, các nhà khoa học trên thế giới nghĩ đến việc xây dựng một hệ thống truy vấn thông tin địa lý (Geographic Information Retrieval System – GIR System). Hệ thống truy vấn thông tin địa lý cũng chính là một hệ truy vấn thông tin (Information Retrieval - IR) thông thường, nó sẽ thực hiện các nhiệm vụ lập chỉ mục trên tài liệu, phân tích các câu truy vấn và tìm kiếm, xếp hạng kết quả sao cho phù hợp với yêu cầu từ phía người dùng nhưng sẽ dựa trên những đặc trưng của loại thông tin địa lý, của yếu tố không gian trong nội dung tài liệu, trong câu truy vấn, v.v… Không nằm ngoài tầm ảnh hưởng chung của việc bùng nổ thông tin. Các thông tin liên quan đến Việt Nam, mang tính cục bộ ở từng vùng, miền của Việt Nam cũng tăng lên từng ngày. Tuy nhiên, theo khảo sát thì hiện ở Việt Nam chưa có một hệ thống GIR nào được xây dựng để phục vụ nhu cầu tìm kiếm thông tin liên quan đến vị trí địa lý như cách mà thế giới tiếp cận, hầu hết các dịch vụ cung cấp khả năng tìm kiếm thông tin ở Việt Nam đều chưa quan tâm đến yếu tố không gian trong truy vấn từ phía người dùng cũng như là yếu tố không gian trong nội dung thông tin. Trong khi đó, các hệ thống tìm kiếm thông tin địa lý đang làm việc rất hiệu quả như Google Maps (Google Local) hay Live Maps thì lại không thể phục vụ được người dùng Việt Nam do trở ngại 8 về dữ liệu và sự khác biệt trong văn hóa ngôn ngữ. Với tình hình thực tế đó, luận văn này xin giới thiệu một số các giai đoạn quan trọng trong quá trính xây dựng một hệ thống GIR dùng cho Việt Nam, đồng thời tiến hành xây dựng hệ thống dựa trên những đặc trưng, kinh nghiệm, thói quen, nhận thức của người Việt Nam về thông tin địa lý và cách thức tìm kiếm thông tin liên quan đến vị trí, địa điểm thể hiện trong câu truy vấn. Phần tiếp theo của luận văn được trình bày theo cấu trúc như sau: Chương 1, luận văn sẽ trình bày sơ nét về hệ thống GIR cùng với những vấn đề sẽ gặp phải khi đi sâu vào nghiên cứu. Từ chương 2 đến chương 4 luận văn sẽ trình bày các giai đoạn chính, các vấn đề cũng như là các hướng tiếp cận để giải quyết vấn đề trong việc xây dựng hệ thống GIR cho Việt Nam, đó là các giai đoạn lập chỉ mục, xử lý câu truy vấn, tìm kiếm và xếp hạng kết quả, v.v… Chương 5 sẽ tổng kết lại những gì luận văn đã làm được và định hướng nghiên cứu, phát triển tiếp theo trong tương lai. 9 Chương 1: Tổng quan về hệ thống truy vấn thông tin địa lý 1.1 Giới thiệu: Truy vấn thông tin địa lý (Geographic Information Retrieval - GIR) được xem như là một phân nhánh của lĩnh vực truy vấn thông tin truyền thống (Information Retrieval - IR). GIR bao gồm tất cả các vấn đề liên quan đến truy vấn thông tin nhưng đặc biệt quan tâm nhiều hơn đến các đặc trưng của thông tin địa lý trong việc lập chỉ mục, cũng như là tìm kiếm và xếp hạng kết quả. GIR không giới hạn ở các đối tượng địa lý tự nhiên như sông hồ, tỉnh thành hoặc quốc gia, v.v… mà nó bao gồm tất cả những thông tin nào mà ẩn chứa trong đó là các mối quan hệ với những địa danh, những vùng không gian có thật. Những thông tin chứa đựng mối quan hệ với một không gian địa lý thường được gọi là thông tin địa lý. Thông tin địa lý tồn tại dưới nhiều hình thức bao gồm các dữ liệu bản đồ có cấu trúc, dữ liệu khảo sát đất đai, ảnh viễn thám, ảnh vệ tinh, v.v… hoặc bất kỳ một nguồn dữ liệu phi cấu trúc nào. Tìm kiếm thông tin dựa trên vị trí địa lý có một ý nghĩa vô cùng quan trọng và cần thiết trong cuộc sống. Ví dụ như các nhà khoa học tìm kiếm các thông tin về sự biến đổi môi trường theo thời gian của một khu vực nào đó, thông tin về đời sống hoang dã trong một vùng nào đó hoặc tình hình phát triển dân số của một thành phố nào đó họ sẽ giới hạn phạm vi tìm kiếm chỉ trong vùng mà họ quan tâm. Hoặc như khách du lịch trước khi đi tham quan một đất nước, một thành phố, họ sẽ muốn biết các thông tin liên quan đến nơi mà họ sắp đến, ở nơi đó có những danh lam thắng cảnh, những địa điểm vui chơi, khách sạn, nhà hàng nào, giá cả như thế nào, có những gì hấp dẫn họ hay không, v.v cũng muốn giới hạn phạm vi tìm kiếm chỉ là những thành phố/quốc gia mà họ sắp đến chứ không phải là một thành phố/quốc gia nào khác. Việc giới hạn phạm vi tìm kiếm ấy sẽ làm cho việc tìm kiếm trở nên nhanh hơn, và các kết quả sẽ phù hợp hơn với nhu cầu tìm kiếm của người dùng. Bên cạnh đó, sự phổ biến của hệ thống định vị [...]... cũng sẽ được chấm lên bản đồ nếu cần thiết 19 1.6 Hệ thống truy vấn thông tin địa lý Việt Nam: Hệ thống GIR Việt Nam như tên gọi của nó sẽ là một hệ thống GIR phục vụ riêng cho đối tượng người dùng chủ yếu là người Việt Nam, với những câu truy vấn bằng tiếng Việt, và thông tin sẽ mang tính cục bộ Việt Nam hơn Cũng như mọi hệ IR hay GIR, một hệ GIR Việt Nam cũng được cấu thành từ những thành phần chính... Tìm kiếm thông tin địa lý: Có 2 cách để người dùng đặc tả các ràng buộc về mặt địa lý trong yêu cầu tìm kiếm của họ Thứ nhất là để cho người dùng chỉ ra một hay nhiều tên địa danh như là những từ khóa trong câu truy vấn cùng với những từ khóa khác của câu truy vấn Khi phân tích câu truy vấn, hệ thống truy vấn thông tin địa lý hoặc hệ thống truy vấn thông tin (GIR/ IR) sẽ xem các tên địa danh mà hệ thống. .. ngầm định Hiệu suất của một máy tìm kiếm phụ thuộc vào khả năng nắm bắt được ý nghĩa của câu truy vấn càng gần với mục đích của người dùng càng tốt [13] Do đó, các cải tiến gần đây của máy tìm kiếm là thêm vào các chức năng xử lý, khả năng phân tích địa lý, thực hiện kết hợp giữa hệ thống thông tin địa lý (GIS) và rút trích thông tin (IR) nhằm xây dựng các máy tìm kiếm thông minh Khả năng nhận biết và... truy vấn liên quan đến địa danh hoặc các đối tượng thông tin bất kỳ trong mối quan hệ không gian với một nơi chốn, vị trí địa lý nào đó 1.2 Các đặc điểm của thông tin địa lý: Hầu hết các thông tin mà ta hay gặp ở bất cứ nơi đâu từ một kho lưu trữ dữ liệu cho đến Internet đều là những thông tin ít nhiều có liên quan đến địa lý mặc dù phần lớn chúng không ở dạng tọa độ để có thể định vị được trên bản đồ... gian địa lý nào đó (ví dụ: Hà Nội), vị trí địa lý là tọa độ của một điểm, đường hay vùng được gọi bởi tên địa danh, và sau cùng, loại đối tượng chính là loại hình tự nhiên của một vị trí địa lý được gọi bởi tên địa danh (ví dụ: sông hồ, rừng, khu dân cư, v.v…) Vị trí địa lý mà tên địa danh nhắc đến có thể ở dưới dạng một điểm hay một hình chữ nhật bao hay một đa giác, và tất cả đều được thể hiện bởi... tên địa danh thành tọa độ địa lý, theo phương pháp truyền thống, người ta sử dụng đến một hay nhiều các từ điển địa lý Từ điển địa lý chính là một danh sách các tên địa danh cùng với vị rí địa lý của chúng cũng như là những thông tin mô tả về địa danh đó [14] xác định 3 thành phần chính của một từ điển địa lý gồm: tên, vị trí và kiểu đối tượng Hình 1-1: Các thành phần chính của từ điển địa lý Tên địa. .. vấn: Với đặc trưng của hệ thống là các thông tin liên quan đến các khái niệm, các chủ đề và thông tin về vị trí đi kèm theo chúng, do đó ta có thể thấy rằng đặc trưng trong truy vấn của hệ thống cũng tương tự, nghĩa là các câu truy vấn sẽ thường xuyên có dạng tìm kiếm cái gì và muốn tìm cái đó ở chỗ nào (“object in place name” [12]) Vì vậy, hầu hết mọi câu truy vấn trong hệ GIR đều có thể được phân... yêu cầu về việc tìm kiếm các thông tin liên quan đến những đối tượng nằm xung quanh thiết bị Trong trường hợp đó, các thông tin sẽ được truyền tải đến các thiết bị dựa trên vị trí của thiết bị Ví dụ như một người cầm trên tay một máy di động có GPS thực hiện câu lệnh tìm kiếm những điểm đặt ATM nằm cách người đó trong vòng 1km trở lại, v.v… Như vậy, nhiệm vụ của một hệ truy vấn thông tin địa lý là làm... mục cho hệ GIR Việt Nam: Dựa trên cơ sở 4 mô hình lập chỉ mục là PT, ST, TS và T giới thiệu ở trên và những kết quả thực nghiệm đánh giá các mô hình ở phần 2.1.5 của Subodh Vaid [15], ta có thể nhận thấy mô hình phù hợp cho một hệ GIR chính là những mô hình lập chỉ mục kết hợp thông tin nội dung và thuộc tính không gian liên quan trong tài liệu, cụ thể ở đây là mô hình TS Đối với hệ GIR Việt Nam thì... dụng đến các mối quan hệ topo như quan hệ bao gồm (cái gì chứa cái gì), quan hệ trùng hợp (cái gì có vị trí giống như cái gì), quan hệ lân cận (cái gì ở kế cái gì), và các quan hệ bên trái/bên phải (bên phải cái này là cái gì), v.v… Các quan hệ topo có thể được xem như là thông tin cấp cao nhất trong khi đó quan hệ về các độ đo khoảng cách giữa các đối tượng là những thông tin ở cấp thứ hai trong cơ . TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TRẮC NGỌC ĐĂNG XÂY DỰNG HỆ THỐNG GIR PHỤC VỤ TÌM KIẾM THÔNG TIN ĐỊA LÝ, VỊ TRÍ Ở VIỆT NAM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 . Việt Nam chưa có một hệ thống GIR nào được xây dựng để phục vụ nhu cầu tìm kiếm thông tin liên quan đến vị trí địa lý như cách mà thế giới tiếp cận, hầu hết các dịch vụ cung cấp khả năng tìm kiếm. quá trính xây dựng một hệ thống GIR dùng cho Việt Nam, đồng thời tiến hành xây dựng hệ thống dựa trên những đặc trưng, kinh nghiệm, thói quen, nhận thức của người Việt Nam về thông tin địa