Tiềm năng của thông tin địa lý như là một công cụ để hỗ trợ quá trình ra quyết định và quản lý tài nguyên trong các lĩnh vực khác nhau như là,tài nguyên thiên nhiên, cơ sở vật chất, địa
Trang 1PHẦN MỞ ĐẦU
Trong những năm gần đây cùng với sự phát triển nhanh chóng củakhoa học kỹ thuật là sự bùng nổ về xử lý tri thức Kho dữ liệu, nguồn trithức của nhân loại càng trở nên đồ sộ, vô tận làm cho vấn đề khai thác cácnguồn tri thức đó ngày càng trở nên nóng bỏng và đặt ra thách thức lớn chonền công nghệ thông tin thế giới
Nhu cầu về tìm kiếm, xử lý thông tin và nâng cao khả năng xử lý củamáy tính trong việc giải quyết các vấn đề thực tế của con người, cùng vớiyêu cầu về khả năng kịp thời khai thác chúng để nâng cao năng suất và chấtlượng cho công tác quản lý, điều hành, ra quyết định, dự báo trong các hoạtđộng sản xuất, kinh doanh,… đã trở nên cấp thiết trong xã hội hiện đại.Nhưng vấn đề tìm kiếm và sử dụng nguồn tri thức đó như thế nào để phục
vụ cho công việc của mình lại là một vấn đề khó khăn đối với người sửdụng trong việc biểu diễn những tri thức đó vào máy tính Để đáp ứng phầnnào yêu cầu này, người ta đã xây dựng các công cụ biểu diễn tri thức và xử
lý thông tin nhằm giúp cho người dùng tìm kiếm, giải quyết được các bàitoán cần thiết cho mình, nhưng với sự rộng lớn, đồ sộ của các bài toántrong thực tế đã làm cho người sử dụng cảm thấy khó khăn trong việc thuthập và biểu diễn chúng để máy tính có thể hiểu và xử lý như con người.Trong Trí tuệ nhân tạo và Biểu diễn tri thức, người ta thường xâydựng các ontology hỗ trợ bên dưới các công cụ tìm kiếm, phân tích, tínhtoán nhằm mục đích làm cho máy tính hiểu được ngữ nghĩa của các đốitượng trong lĩnh vực mà nó xử lý sao cho giống với cách mà con người suynghĩ nhất Ontology là một giải pháp biểu diễn tri thức và chia sẻ thông tin
mà cả máy tính và con người có thể hiểu được Ontology chứa những đặc
tả rõ ràng của các khái niệm về một lĩnh vực và quan hệ giữa các khái niệm
đó Nó được sử dụng trong lĩnh vực Trí tuệ nhân tạo, công nghệ Web ngữnghĩa, kỹ thuật phần mềm, sinh tin học và kiến trúc thông tin như là mộthình thức biểu diễn tri thức về thế giới thực trong một số lĩnh vực cụ thể
Trang 2Trong bài tiểu luận này, tôi xin trình bày lại bài báo khoa học
“Ontologies in the Geographic Information Sector” của các tác giả: Roland
Billen; Javier Nogueras-Iso; F Javier López-Pellicer và Luis M Blázquez.
Vilches-Thông tin cụ thể của bài báo được liệt kê bên dưới
Ontologies in the Geographic Information Sector
Authors: Billen, Roland; Nogueras-Iso, Javier; López-Pellicer, F Javier;
Vilches-Blázquez, Luis M.
In: Ontologies in Urban Development Projects
Editors: Falquet, Gilles; Métral, Claudine;Teller, Jacques; Tweed, Christopher Book Series Title: Advanced Information and Knowledge Processing
viên môn học “Biểu diễn tri thức và ứng dụng”, đã truyền đạt những kiến
thức quý báu về các hướng nghiên cứu trong lĩnh vực trí truệ nhân tạo vàbiểu diễn tri thức tiên tiến hiện nay; đã hướng dẫn và chỉ bảo để hoàn thànhchuyên đề nghiên cứu rất bổ ích và lý thú này
Nội dung của bài tiểu luận ngoài phần mở đầu và kết luận, có bachương như sau:
Chương 1: Tổng quan về ontology và lĩnh vực thông tin địa lý.
Chương 2: Các ontology trong lĩnh vực thông tin địa lý.
Chương 3: Mô hình cơ sở dữ liệu đất đai đa mục tiêu tại Việt nam.
Trang 3CHƯƠNG 1 TỔNG QUAN VỀ ONTOLOGY VÀ LĨNH VỰC
THÔNG TIN ĐỊA LÝ
Nội dung Chương 1 trình bày sơ lược khái niệm ontology cũng như nhu cầu cần thiết phải có ontology Đồng thời cũng tóm lược về các khái niệm và một số vấn đề trong lĩnh vực thông tin địa lý
1 Định nghĩa về ontology
Bỏ qua ngữ nghĩa Triết học, trong lĩnh vực Công nghệ thông tinontology cũng có rất nhiều định nghĩa khác nhau Trong tiểu luận này, chỉxin nêu một định nghĩa - được đánh giá là diễn tả đúng nhất về ontology -
của A Maedche & B Motik & L Sjanovic (2003) như sau: “Ontology là
mô hình khái niệm trong phạm vi ứng dụng nhất định, có thể thực thi và chia xẻ trên máy tính”.
Theo đó, một ontology phải có những tính chất sau:
- Được sử dụng để mô tả một phạm vi ứng dụng cụ thể
- Các khái niệm và quan hệ được định nghĩa rõ ràng trong phạm viứng dụng
- Có cơ chế tổ chức các khái niệm (phân cấp)
- Có sự đồng thuận về mặt ý nghĩa các khái niệm của những ngườicùng sử dụng
2 Các thành phần của ontology
- Khái niệm (concept):
Các khái niệm được phân loại để định nghĩa tập hợp các thuộc tínhhoặc tập hợp các thao tác là đặc trưng của các thành phần của khái niệm
Ví dụ trong ontology về giao thông đô thị, Ga xe lửa và Trạm xe buýt
là hai khái niệm
- Quan hệ (relation):
Là kiểu tương tác giữa các khái niệm
Ví dụ, khái niệm Đường một chiều, Đường hai chiều là khái niệm concủa khái niệm Đường Trong đó, “là khái niệm con” là một quan hệ
Trang 4Đặc biệt hóa của quan hệ là quan hệ phân cấp Người ta thường dùng
đồ thị để biểu diễn cho các quan hệ phân cấp Mỗi nút đại diện cho mộtkhái niệm Cung có hướng dùng để chỉ cha của nút đó Nút không có cha lànút khái niệm cơ bản
Ví dụ, trong ontology giao thông đô thị, Làn đường là khái niệm
cơ bản
- Hàm (function):
Là các thao tác thực hiện trên ontology
Ví dụ, hệ thống có thể tính thời gian đi từ điểm khởi hành A đến điểmđích B dựa vào thuộc tính vận tốc trung bình của phương tiện giao thông
- Tiên đề (axiom):
Tiên đề có thể phân tích thành luật, các luật thể hiện các tri thức phổquát trên các khái niệm và các loại sự kiện khác nhau Mỗi luật cho ta mộtquy tắc suy luận để đi đến một sự kiện mới từ sự kiện đã có Về mặt cấutrúc nó gồm 2 thành phần chính là: phần giả thiết và phần kết luận của luật.Hai thành phần này đều là các tập hợp sự kiện trên các đối tượng nhất định.Như vậy, một luật r có thể được mô hình dưới dạng:
r: {sk1, sk2, …, skn} {ska, skb, …, skm}
Ví dụ, Ngã tư phải có nhiều hơn một đường hoặc Nếu là ngã tư thìphải có hai đường giao nhau
- Thể hiện (instance):
Là đại diện cho những phần tử riêng biệt của khái niệm hay quan hệ
Ví dụ, Đường được đặt tên là đường Nguyễn Chí Thanh là thể hiệncủa khái niệm Đường
3 Lĩnh vực thông tin địa lý và các tồn tại
Lĩnh vực thông tin địa lý (Geographical information hoặcGeoinformation - GI) mô tả các đối tượng, hiện tượng liên quan trực tiếphoặc gián tiếp với một vị trí (hệ tọa độ, hệ thống địa chỉ ) đối với bề mặttrái đất Các đối tượng, hiện tượng đó có thể rời rạc hóa về mặt không gian(đại diện bởi các đối tượng hình học như điểm, đường, vùng,…) như một
Trang 5khu đô thị, một trục đường,… hoặc liên tục hóa về mặt không gian (ví dụ,đại diện bằng cách nội suy trên một lưới ảnh) như độ cao địa hình haykhuếch tán ô nhiễm môi trường,… Thông tin địa lý được tạo ra bằng cáchthao tác trên các dữ liệu địa lý (hoặc dữ liệu không gian địa lý) trong một
hệ thống máy tính Dữ liệu không gian địa lý có thể thu thập bởi cácphương tiện khác nhau như: khảo sát địa hình, ảnh viễn thám, ảnh hàngkhông, GPS, công nghệ bay quét (LiDAR) và tất cả các loại khảo sát khácdựa vào kỹ thuật cảm biến Theo truyền thống, những dữ liệu này là thànhphần cốt lõi của các hệ thống thông tin địa lý (Geographic InformationSystem - GIS) GIS cũng chính là thuật ngữ thường được sử dụng để thamchiếu đến các gói phần mềm cho phép chụp, lưu trữ, kiểm tra, tích hợp,thao tác, phân tích và hiển thị dữ liệu không gian địa lý
Do vậy, thông tin địa lý được ứng dụng rộng rãi trong rất nhiều lĩnhvực có liên quan đến xử lý hoặc tham chiếu dữ liệu không gian Các ứngdụng điển hình là: Đăng ký nhà đất, quản lý địa chính, đánh giá tài nguyênđất, thủy văn, quy hoạch và quan trắc môi trường Mối liên quan giữa cácứng dụng đô thị và lĩnh vực thông tin địa lý là rõ ràng khi hầu hết các thôngtin được xử lý trong các ứng dụng đô thị thực sự là thông tin địa lý (bản đồhoặc cơ sở dữ liệu không gian bao gồm nhà cửa; mạng điện, nước, viễnthông, giao thông, công trình ngầm; địa hình, địa chính…) Vì vậy, thật hợp
lý để mô tả và sử dụng các ontology trong lĩnh vực thông tin địa lý cho các
dự án liên quan đến đô thị
Tiềm năng của thông tin địa lý như là một công cụ để hỗ trợ quá trình
ra quyết định và quản lý tài nguyên trong các lĩnh vực khác nhau (như là,tài nguyên thiên nhiên, cơ sở vật chất, địa chính hoặc quy hoạch nôngnghiệp, đô thị) của các cơ quan quản lý nhà nước hoặc doanh nghiệp đã dẫn
đến sự phát triển GIS thành một khái niệm rộng hơn là Cơ sở hạ tầng dữ
liệu không gian (Spatial Data Infrastructure - SDI) Theo Global Spatial Data Infrastructure Association Cookbook (Nebert 2004) thì “thuật ngữ
SDI thường được dùng để biểu thị các tập hợp cơ bản có liên quan với nhau
Trang 6về công nghệ, chính sách và thể chế tạo thuận lợi cho sự sẳn có và truy xuất
được của dữ liệu không gian” Ủy ban Châu Âu về chuẩn hóa (European
Committee for Standardization - CEN) định nghĩa khái niệm SDI như làmột nền tảng trung lập và triển khai cơ sở hạ tầng kỹ thuật cho dữ liệukhông gian và các dịch vụ đi kèm, dựa trên các tiêu chuẩn và thông số kỹthuật không độc quyền (CEN 2006)
Từ định nghĩa trên của SDI có thể rút ra được rằng một trong nhữngmục tiêu chính của SDI là làm cho việc thao tác với dữ liệu không gianhiệu quả hơn (McKee 2000; Nebert 2001), tránh được các vấn đề đã xảy ravới công nghệ GIS truyền thống và các tập dữ liệu không gian Bernard vàcác cộng sự (2004) nhận xét có hai vấn đề lớn đối với các ứng dụng độc lậpcủa GIS truyền thống: (1) Các tập dữ liệu tồn tại trong rất nhiều định dạngkhác nhau (các tập dữ liệu trong định dạng này thường phải được chuyểnđổi mới sử dụng được trên một hệ thống khác) và (2) Những dữ liệu nàythường không được lập tài liệu đầy đủ (người sử dụng rất khó hoặc thậmchí không thể khám phá, đánh giá xem liệu một tập dữ liệu đã cho có hữudụng đối với các tác vụ của mình hay không) Nói cách khác, các tác giảmuốn nói lên sự bất lực của các công cụ GIS tách biệt trong việc giải quyếtvấn đề tương thích dữ liệu trong bối cảnh hiện nay, khi mà thông tin địa lýphải được chia xẻ giữa các hệ thống trực tuyến Khi đề cập đến khả năng
tương thích của thông tin địa lý, người ta mong muốn “mục tiêu của các hệ
thống GIS liên tác vụ là để đạt được một tiến trình tự động cho phép sử dụng dữ liệu và các dịch vụ phần mềm vượt qua ranh giới mà các nhà thu thập và thiết kế chúng đặt ra” (Egenhofer 1999).
Cần nói thêm một chút về vấn đề tương thích trong thông tin địa lý,trở ngại chính của các hệ thống liên tác là sự không đồng nhất trong dữ liệu
và các dịch vụ được quản lý bởi những hệ thống đó Để xác định xem hai
hệ thống không đồng nhất ở những nơi nào, người ta phải phân tích cáctính năng khác nhau của chúng cũng như sự khác nhau của từng mức độtương thích Một khác biệt thường thấy là sự tương thích giữa cú pháp (giải
Trang 7quyết sự không đồng nhất cú pháp) và ngữ nghĩa (giải quyết sự không đồngnhất ngữ nghĩa) (Kolodziej 2003) Tương thích cú pháp có liên quan đếncác cấp độ kỹ thuật, tức là nó đề cập đến khả năng của một hệ thống hoặccác thành phần của một hệ thống cung cấp khả năng chuyển đổi thông tin
và liên ứng dụng cũng như khả năng điều khiển quá trình đồng xử lý Nóbao gồm sự giao tiếp ở mức giao thức truyền thông, phần cứng, phần mềm
và các lớp dữ liệu tương thích Tương thích ngữ nghĩa, ngược lại, giảiquyết các miền tri thức cần thiết cho các dịch vụ thông tin “hiểu được” các
ý định và khả năng của nhau
Để khắc phục các vấn đề về tương thích, các tiêu chuẩn thông tin địa
lý được phát triển bởi các tổ chức tiêu chuẩn hóa như Open GeospatialConsortium (OGC) hay ISO/TC211 (ISO technical committee forgeographic information and geomatics) Việc sử dụng các tiêu chuẩn thôngtin địa lý đã dần loại bỏ rất nhiều khó khăn do sự không tương thích củacấu trúc dữ liệu và cú pháp, nhưng nó không đủ để giải quyết hoàn toàn cácvấn đề bắt nguồn từ sự không đồng nhất ngữ nghĩa Theo Bishr (1998), sựkhông đồng nhất ngữ nghĩa được định nghĩa như là hậu quả của các kháiniệm khác nhau đối với một thực tế trong thế giới thực Bởi vì có các quanđiểm khác nhau trên cùng một sự kiện trong thế giới thực, có thể không cómột cơ sở chung cho các định nghĩa của các sự kiện cơ bản giữa hai ngành(miền tri thức) Xuất phát từ những quan điểm khác nhau đó, Bishr phânbiệt hai phân nhóm chính của sự không đồng nhất ngữ nghĩa: nhận thứckhông đồng nhất và đặt tên không đồng nhất Nhận thức không đồng nhấtxảy ra khi cùng một thuật ngữ được sử dụng trong các lĩnh vực khác nhauđại diện cho các khái niệm khác nhau Mặt khác, đặt tên không đồng nhấtxảy ra khi cùng một sự kiện trong thế giới thực được hiểu theo cùng mộtcách, nhưng được đặt tên khác nhau
Vấn đề tương thích ngữ nghĩa phát sinh trong những tình huống khácnhau trong thông tin địa lý từ việc khai phá và rút trích thông tin đến việctích hợp dữ liệu từ các nguồn khác nhau Ví dụ, trong trường hợp khai phá
Trang 8thông tin địa lý, mặc dù đã có các giao diện chuẩn hóa cho dịch vụ danhmục (như là các đặc tả dịch vụ danh mục OGC), việc phù hợp với các đặc
tả vẫn không tránh khỏi có các danh mục thông tin địa lý không đồng nhất
về ngữ nghĩa
Do đó việc nghiên cứu ontology trong lĩnh vực thông tin địa lý là mộthướng tiếp cận khả dĩ tạo thuận lợi cho khả năng tương tác ngữ nghĩa vàkhắc phục được các vấn đề không đồng nhất ngữ nghĩa Việc định nghĩa rõràng về tri thức của ontology thường được sử dụng như một cơ chế để hiểu
và giải quyết sự không đồng nhất ngữ nghĩa phát sinh khi có sự thực hiệnliên tác vụ giữa hai hệ thống khác nhau (Wache et al 2001) Xác định, xâydựng và sử dụng ontology đã trở thành một chủ đề nghiên cứu quan trọngtrong Khoa học thông tin địa lý (Geographical Information Sciences -GISc)
Trang 9CHƯƠNG 2 CÁC ONTOLOGY TRONG LĨNH VỰC THÔNG TIN ĐỊA LÝ
Nội dung Chương 2 trình bày các tính năng, đặc điểm của các ontology liên quan đến thông tin địa lý, trong đó tập trung vào vai trò của ontology trong việc tạo thuận lợi cho khả năng tương thích thông tin Phần cuối sẽ trình bày 3 nghiên cứu về các phương pháp thiết kế ontology và việc sử dụng ontology trong ngữ cảnh thông tin địa lý.
1 Một số vấn đề cơ bản
Trong lĩnh vực thông tin địa lý, đặc biệt hơn là trong cộng đồng cơ sở
dữ liệu không gian, thuật ngữ ontology thường được gắn với (Yeung vàHall 2007):
- Một khái niệm sử dụng chính thức và xác định rõ ràng các thuật
ngữ và từ vựng để mô tả các đối tượng của thế giới thực hoặc hiệntượng liên quan đến một ngành, một lĩnh vực, một ứng dụng cụ thể
- Một tập hợp đặc tả có hệ thống của các thực thể không gian, cùng
với các thuộc tính và quan hệ của chúng, thường được lưu trữ trongmột cấu trúc phân cấp và được chia xẻ bởi những người sử dụngtrong một ngành, lĩnh vực cụ thể
- Một cách tiếp cận mới để thiết kế hệ thống cơ sở dữ liệu không
gian có nhiều thuận lợi hơn các phương pháp thông thường trongviệc phát triển hệ thống, bao gồm:
• Cho phép thiết lập sự tương quan và tương hợp giữa các lĩnhvực khác nhau của các thực thể và quan hệ không gian
• Góp phần tạo ra các hệ thống thông tin tốt hơn bằng cách cảithiện sự giao tiếp giữa những người phát triển hệ thống, ngườiquản lý và người sử dụng
• Cho phép một hướng tiếp cận lấy người sử dụng làm trung tâm
để phát triển hệ thống
• Cung cấp các khái niệm và công nghệ cơ bản cho các hệ cơ sở
dữ liệu tương thích
Trang 10• Thiết kế cơ sở dữ liệu không gian từ một góc độ bên ngoài bản
đồ, xem thế giới thực như là các lớp thông tin độc lập có thểđược kết hợp hoặc chồng lớp
Hãy chú ý vào hai khía cạnh đầu tiên Như ta đã biết, các ontology cóthể được thực hiện bằng cách sử dụng nhiều ngôn ngữ khác nhau (nhưResource Description Framework – RDF hoặc Web Ontology Language -OWL) và có thể được quản lý bằng các công cụ đặc thù như Protégé Cácontology cũng có thể được tạo ra một cách trực quan bằng cách sử dụngcác mô hình Thực thể - Quan hệ hoặc dưới dạng UML Được trình bày bởi(Yeung et al 2007) và được nghiên cứu sâu hơn bởi (Fonseca et al 2002,2003), quá trình xây dựng và lập tài liệu ontology có thể so sánh với quátrình mô hình hóa cơ sở dữ liệu khái niệm, bởi vì cả hai quá trình đều nhằmmục đính xác định và định nghĩa các đối tượng của thế giới thực và các mốiquan hệ của chúng Tuy nhiên, mặc dù quy trình là giống nhau nhưng sảnphẩm cuối cùng là khác nhau Trong khi mục đích của một lược đồ kháiniệm là để mô tả cấu trúc của một cơ sở dữ liệu đang xây dựng ở mức độtrừu tượng cao thì một ontology đại diện cho một đồng thuận về ý nghĩa vàquan hệ giữa các từ vựng của các thuật ngữ được sử dụng để đại diện cho
dữ liệu Không nhất thiết phải có sự tương ứng trực tiếp giữa cấu trúc củamột ontology và cấu trúc của cơ sở dữ liệu khi nó được đại diện bằng một
mô hình cơ sở dữ liệu khái niệm Điều này sẽ được minh họa trong mục3.2
Các ontology có thể được xây dựng theo hướng tiếp cận từ trên xuống,
từ dưới lên hay trung hòa của hai tiếp cận đó Ta chỉ cần ghi nhớ rằng tiếpcận từ trên xuống xây dựng ontology từ các ontology ở mức cao hơn, tiếpcận từ dưới lên trích xuất ontology từ các hệ thống đã triển khai và tiếp cậntrung hòa là kết hợp của cả hai cách trên Mục 3.1 mô tả một tiếp cận từtrên xuống, Mục 3.2 mô tả một tiếp cận từ dưới lên
Nói chung, các ontology được tạo ra bởi sự đồng thuận của cácchuyên gia về dữ liệu trong một lĩnh vực cụ thể Tập hợp các chuyên gia
Trang 11này, đôi khi còn gọi là một cộng đồng thông tin, bằng các hoạt động xâydựng một loạt các ontology chuyên ngành (Auxilio và Nieto 2003) Nhữnghoạt động này bao gồm việc chiết xuất từ các lược đồ cơ sở dữ liệu có sẳn(trong trường hợp tiếp cận từ dưới lên) và thông qua một quá trình mô hìnhhóa dữ liệu, được gọi là mô hình ngữ nghĩa, tập trung vào việc xác định vàđịnh nghĩa các thuật ngữ liên quan Trong quá trình xây dựng ontology,thường cần phải thu hút sự trợ giúp từ các chuyên gia đầu ngành để bảođảm độ chính xác và rõ ràng của các định nghĩa.
Ontology là một cách tiếp cận để thiết kế cơ sở dữ liệu và phục vụnhiều mục đích hữu ích khác Khả năng của ontology là cung cấp ý nghĩa
rõ ràng và các mối quan hệ có cấu trúc giữa các thuật ngữ dùng để mô tảthế giới thực, làm cho chúng trở thành một công cụ hữu ích trong việc giảiquyết bài toán không đồng nhất ngữ nghĩa trong thiết kế cơ sở dữ liệu vàứng dụng Nó cũng là một phương tiện quan trọng của truyền thông bằngcách cung cấp những khái niệm chính xác có thể sử dụng để mô tả một lĩnhvực ứng dụng Nó cũng cung cấp các phương tiện để giúp xác định ngữnghĩa của các trường dữ liệu một cách trong sáng và rõ ràng
Khi tập trung vào tính không đồng nhất và khả năng tương tác ngữnghĩa, giá trị lớn nhất của ontology là vai trò của nó trong chiến lược hỗ trợliên tác vụ trên các cơ sở dữ liệu bằng các phương tiện chuyển đổi truy vấn
và tích hợp lược đồ Chuyển đổi truy vấn là quá trình chuyển đổi và ánh xạcác tên trường không đồng nhất được sử dụng trong các tập dữ liệu khácnhau đến một ontology để có thể truy vấn chúng đồng thời chỉ bằng mộtcâu lệnh đơn lẻ, ví dụ chỉ bằng một câu truy vấn SQL Mặt khác, tích hợplược đồ là sử dụng các khái niệm của ontology để kết nối các lược đồ củacác nguồn dữ liệu riêng rẽ thành một lược đồ toàn cục
2 Sử dụng ontology như một cách để giải quyết bài toán tương thích
2.1 Khai phá và rút trích thông tin địa lý dựa trên ontology
Trang 12Khai phá và rút trích thông tin địa lý rõ ràng là một trong những mụctiêu chính của việc phát triển các hệ thống tương thích và là phần mở rộngcủa SDI Nó cũng rất quan trọng trong việc phát hiện các dịch vụ xử lý dữliệu địa lý phù hợp Thông thường, khai phá và rút trích thông tin địa lý vàcác dịch vụ xử lý dữ liệu được thực hiện dựa trên các từ khóa Tuy nhiên,
từ khóa không phải lúc nào cũng đủ để tìm chính xác thông tin địa lý phùhợp bởi vì chúng thiếu ngữ nghĩa, có sự mơ hồ trong ngôn ngữ tự nhiên vàkhông thể áp dụng cơ chế suy luận Sự xuất hiện của ontology cung cấpkhả năng để tăng cường cho khai phá và rút trích thông tin, nó giải quyếtđược bài toán không đồng nhất ngữ nghĩa giữa tìm kiếm của người dùng và
mô tả của thông tin địa lý trong SDI
SDI cung cấp các dịch vụ danh mục để khai phá các dữ liệu và dịch vụphù hợp cho một tác vụ cụ thể Việc tìm kiếm trên các danh mục này hiệnnay chủ yếu vẫn dựa trên kỹ thuật so khớp chuỗi của các từ khóa với các
mục trong mô tả dữ liệu (metadata) (Lutz 2005) Tìm kiếm dựa trên từ
khóa đem lại kết quả thấp nếu khác với các thuật ngữ được sử dụng và /hoặc đem lại độ chính xác thấp nếu thuật ngữ này là đồng âm hoặc vì khảnăng hạn chế của chúng trong việc thể hiện các truy vấn phức tạp(Bernstein và Klein 2002, trích dẫn bởi Lutz 2005) Một cách để khắc phụcnhững hạn chế này là sử dụng các ontology để cải thiện các quá trình
so khớp
Ví dụ, (Bernard et al 2004) mô tả kiến trúc của một ontology dựa trên
hệ thống khai phá và rút trích thông tin địa lý Trong hệ thống này, các dịch
vụ đặc tính Web (Web Feature Services - WFS) khác nhau được mô tảcùng với metadata bao gồm một tham chiếu đến một ứng dụng ontology.Ứng dụng ontology này mô tả các kiểu đặc tính dưới dạng một ontologychuyên ngành được chia xẻ Các truy vấn của người dùng được xử lý nhưsau: người dùng phát biểu các truy vấn của họ dưới dạng ontology chuyênngành được chia xẻ; sau đó, hệ thống mở rộng các giới hạn truy vấn củangười dùng bằng tên của các tính năng đã được lưu trữ trước đó (Lutz và
Trang 13Klien 2006) đã cải tiến hệ thống này Phiên bản thứ hai định nghĩa mộtngôn ngữ truy vấn và cung cấp một giao diện giúp người dùng xây dựngcác truy vấn từ các từ vựng chuyên ngành đã biết Trong hệ thống này, têncác phần tử của Ngôn ngữ đánh dấu địa lý (Geography Markup Language –GML) (sẽ nói rõ hơn trong Mục 2.2) trả về bởi WFS được ánh xạ đến một
từ vựng được chia xẻ và được dùng để mở rộng các truy vấn của ngườidùng bằng cách sử dụng một bộ suy diễn logic mô tả (Description Logic -DL)
Các công trình nghiên cứu các dưới dạng này được đề xuất bởi(Hübner et al 2004) và (Navarrete 2006) Công trình thứ nhất mô tả một hệthống suy luận dựa trên ontology cho phép tích hợp thông tin địa lý khôngđồng nhất bằng cách giải quyết sự không đồng nhất về cấu trúc, cú pháp vàngữ nghĩa Hệ thống truy vấn này hỗ trợ các đặc tả của truy vấn theo kiểu
concept@location theo thời gian Người dùng lựa chọn một tập ứng dụng
ontology chuyên ngành đã được đăng ký (theo chuyên đề, không gian, thờigian) dựa trên tập từ vựng phổ biến và dùng chúng để chọn các thuật ngữtìm kiếm và được mở rộng bằng cách chọn tất cả các khái niệm tươngđương và khái niệm con (đối với các thuật ngữ tìm kiếm theo chủ đề),không gian có liên quan đến vị trí (đối với các thuật ngữ tìm kiếm khônggian) và khoảng thời gian có liên quan (đối với các thuật ngữ tìm kiếm thời
gian) Công trình thứ hai cung cấp một khung làm việc (framework) đại
diện cho các quan hệ ngữ nghĩa giữa các khái niệm từ các bộ dữ liệu khácnhau của một kho dữ liệu Hệ thống này dựa trên một ontology cao cấpđược xây dựng bằng cách kết hợp tri thức được cung cấp bởi các tập dữliệu của kho dữ liệu, mô tả một cách chính xác nội dung của kho dữ liệu.Ontology này sau đó được dùng để xác định các dịch vụ ngữ nghĩa hoặccác truy vấn cho phép các tác nhân tìm kiếm và tích hợp thông tin chuyên
đề Hệ thống tập trung chủ yếu vào việc tìm kiếm các bộ dữ liệu chứathông tin về một chủ đề cụ thể (bao gồm cả các lớp con của chủ đề nếuchúng được quan tâm); chuyển đổi nội dung của tập dữ liệu đến một từ
Trang 14vựng thích hợp và tích hợp nội dung không đồng nhất từ các tập dữ liệukhác nhau.
Liên quan đến các dịch vụ khai phá và rút trích thông tin địa lý, cáctiếp cận tương tự dựa trên mô tả theo hướng ontology của các truy vấn vàdịch vụ đã được đề xuất Bằng cách sử dụng ontology để làm giàu các mô
tả dịch vụ, các ngữ nghĩa của chúng đã trở thành máy thông dịch và ngườidùng được phép đặt ra các truy vấn xúc tích và biểu cảm Hơn nữa, suyluận logic được sử dụng để khám phá các mối quan hệ tiềm ẩn giữa cácthuật ngữ tìm kiếm và các mô tả dịch vụ
2.2 Tích hợp dữ liệu trong các cơ sở dữ liệu không gian không đồng nhất
Các ứng dụng địa lý là một ví dụ cho sự cần thiết để đưa việc tích hợp
dữ liệu lên quy mô lớn Điển hình là các nghiên cứu trong các lĩnh vực thờitiết, môi trường, phát triển bền vững, quy hoạch sử dụng đất, quản lý đấtđai, các ứng dụng di động kèm theo… Thông hiểu ngữ nghĩa là yêu cầu bắtbuộc để khai phá và trích xuất thông tin cần thiết vào một cấu trúc phù hợpcho việc tích hợp từ các nguồn dữ liệu Các nhà nghiên cứu đã chỉ ra sự cầnthiết phải tập trung vào một lĩnh vực chuyên ngành mới có thể đạt đượcmục tiêu chính của sự hiểu biết ngữ nghĩa
Ontology xác định ngữ nghĩa độc lập với dữ liệu mà chúng đại diện vàphản ảnh được sự liên quan của dữ liệu mà không cần truy cập đến chúng.Như vậy, một mô tả ngữ nghĩa cấp cao của thông tin địa lý cung cấp thêmphương tiện mới để so sánh và tích hợp dữ liệu không gian Ngoài ra, cácontology còn cho phép tái sử dụng tri thức bằng dữ liệu mô tả ngữ nghĩađược phát sinh từ sự đồng thuận của các cộng đồng GIS khác nhau
(Kashyap and Sheth 1996) trình bày một phân loại ngữ nghĩa để minhhọa sự tương đồng ngữ nghĩa giữa hai đối tượng liên quan dựa trên mộtnguyên tắc phân loại có cấu trúc Ngày nay, tích hợp thông minh đã được
áp dụng để tích hợp cơ sở dữ liệu không đồng nhất
Trang 15Trong khuôn khổ SDI, một số ontology đã được xây dựng trongnhững năm qua với mục đích tạo thuận lợi cho việc tích hợp dữ liệu Điểnhình như sau:
• Ontology for Geography Markup Language 1 cung cấp một biểudiễn hướng ontology của GML version 3.0 sử dụng OWL như ngônngữ ontology GML là một đặc tả OGC dùng cho việc mã hóa vàtrao đổi thông tin địa lý
• Geospatial Resource Description Framework (GRDF) (Alam et al.
2008) là một dạng ontology OWL khác, các khái niệm và thuộc tínhcủa nó mở rộng những định nghĩa trước đó của GML Mục đích củaontology này là định nghĩa một ngôn ngữ diễn đạt trong lĩnh vựckhông gian địa lý làm gia tăng những ưu điểm được cung cấp bởicác ngôn ngữ Web ngữ nghĩa (Web semantic language)
• OntoSensor (Russomanno et al 2005) là một ontology dựa trên
IEEE Suggested Upper Merged Ontology (SUMO)2, là mộtontology cấp cao định nghĩa các khái niệm chung Mục đích củaOntoSensor là cung cấp một ontology quan niệm của SensorML,một ngôn ngữ được quy định bởi OGC đại diện cho những dữ liệucảm biến thu thập được từ các vệ tinh viễn thám SensorML cũng làmột ngôn ngữ có nguồn gốc từ GML
2.3 Các hệ thống thông tin địa lý hướng ontology
Ontology đã được đề xuất để đóng vai trò trung tâm trong vòng đờicủa các hệ thống thông tin, dẫn đến một hệ thống thông tin hướng ontology(Ontology-driven information system - ODIS) (Guarino 1998) Trongtrường hợp này, ontology định hướng tất cả các khía cạnh và thành phầncủa hệ thống thông tin Trong ODIS, ontology được gọi là ontology ứngdụng và nó là một đặc tả của một ontology chuyên ngành và ontology tác
vụ (Guarino 1998) Sự khác biệt giữa hệ thống thông tin hướng ontologyvới các hệ thống thông tin khác là ontology này thậm chí còn được thực
1 http://efe.ege.edu.tr/~unalir/MK/gml30.owl
2 http://www.ontologyportal.org/
Trang 16hiện một cách tường minh trước khi hệ thống thông tin được thiết kế Theogiải thích của (Fonseca 2007), bằng cách sử dụng ontology trong giai đoạnphát triển hệ thống cho phép các nhà thiết kế thực hành ở mức độ cao hơnviệc sử dụng lại tri thức so với việc sử dụng các công nghệ phần mềmthường dùng Việc sử dụng một vốn từ vựng phổ biến trên các nền tảng cácphần mềm không đồng nhất cung cấp việc tái sử dụng và chia xẻ các trithức chuyên ngành của ứng dụng Vì vậy, các nhà thiết kế có thể tập trungvào cấu trúc của lĩnh vực thay vì quá quan tâm đến các chi tiết thực thi.Phát triển và sử dụng các ontology nên là một điều kiện tiên quyết để môhình hóa khái niệm Các ontology có các ý nghĩa rộng hơn so với các lược
đồ khái niệm Tại thời gian chạy, một ontology có thể tạo ra các giao tiếpgiữa các phần mềm hoặc được dùng để hỗ trợ việc tích hợp thông tin
Cách tiếp cận của Fonseca cũng được liên kết với một tiếp cận gầnđây của công nghệ phần mềm được gọi là Model Driven Engineering(MDE) hay Model Driven Development (MDD) MDD tập trung vào các
mô hình như là sản phẩm chính trong quá trình phát triển với các biến đổinhư là hoạt động chính của các mô hình Hướng tiếp cận mới này cho phéptập trung các nỗ lực vào việc mô hình hóa các chức năng hệ thống thay vìcác chi tiết cụ thể Ứng dụng nối tiếp của biến đổi mô hình tạo thuận lợicho việc chuyển hóa mô hình ban đầu vào một ứng dụng nền cụ thể.(Grangel et al 2007) mô tả các nội dung chính cho việc áp dụng hướng tiếpcận MDD này trong lĩnh vực đô thị
3 Các nghiên cứu điển hình
Phần này trình bày 3 nghiên cứu cụ thể về các phương pháp thiết kếontology và cách sử dụng ontology trong lĩnh vực thông tin địa lý Hainghiên cứu đầu tiên quan tâm đến hướng tiếp cận thiết kế ontology từ trênxuống áp dụng trong lĩnh vực thủy văn và hướng tiếp cận thiết kế ontology
từ dưới lên áp dụng trong các dự án tái cấu trúc cơ sở dữ liệu không gian đôthị Trường hợp thứ ba quan tâm đến việc sử dụng các ontology cho các
Trang 17chú thích ngữ nghĩa của dịch vụ mã hóa địa lý trong các hệ thống quản lý
đô thị
3.1 Phát triển một ontology chuyên ngành tạo thuận lợi cho khả năng
tương thích trong lĩnh vực thủy văn
Dự án này được Viện Địa lý Quốc gia Tây ban nha (IGN-E) phát triển
để tạo thuận lợi cho việc hài hòa hóa ngữ nghĩa thông tin thủy văn cho cácnhà xuất bản dữ liệu ở các cấp độ khác nhau (quốc gia, vùng, địa phương).IGN-E đã phát triển một mô hình tham chiếu chung thông qua một
ontology tham chiếu lõi gọi là hydrOntology.
hydrOntology là một ontology theo phương pháp tiếp cận phát triển
từ trên xuống Mục tiêu chính của nó là để hài hòa các nguồn thông tinkhông đồng nhất đến từ các cơ quan lập bản đồ khác nhau và các nguồnquốc tế khác
Ban đầu, ontology này được tạo ra như một ontology địa phương đểthiết lập ánh xạ giữa các nguồn dữ liệu khác nhau trong IGN-E (như làdanh mục đặc tính, các gazetteer3, …) Mục đích của nó là để phục vụ như
là một khung làm việc chung hài hòa giữa các nhà sản xuất bản đồ ở Tâyban nha Sau đó, ontology này được phát triển thành một ontology chuyênngành toàn cầu và hiện nay nó đang cố gắng để bao gồm hết các đặc tínhthủy văn được thể hiện trên bản đồ Phiên bản cuối cùng của ontology nàyđược hoàn thành vào giữa năm 2008
hydrOntology có 150 lớp, 34 thuộc tính đối tượng, 66 thuộc tính dữ
liệu và 256 tiên đề Một số mẫu ví dụ của bốn quan hệ phân loại được định
nghĩa trong Frame Ontology (Farquahr et al 1997) và OKBC Ontology (Chaudhri et al 1998) tên là Subclasses, Disjoint-Decomposition,
Exhaustive-Decomposition và Partitions đã được thể hiện trong ontology
3 Từ điển địa dư (gazetteer) là một từ điển địa lý hoặc thư mục địa lý, là một tài liệu tham khảo quan
trọng đối với thông tin về địa điểm và tên địa danh, được sử dụng kết hợp với một bản đồ hoặc một atlas.
Nó thường chứa thông tin liên quan đến các điều kiện địa lý của một quốc gia, khu vực hay lục địa cùng với các số liệu thống kê về kinh tế, xã hội và các đặc điểm vật lý chẳng hạn như núi, sông, đường Ví dụ, các thông tin được cung cấp bởi từ điển địa dư thường bao gồm vị trí địa điểm, kích thước các đặc điểm vật lý, dân số, GDP, tỷ lệ biết chữ… Những thông tin này thường được chia thành các chủ đề phía trên và các mục được liệt kê phía dưới theo thứ tự bảng chữ cái.
Trang 18này Nội dung chi tiết được trình bày trong (Vilches-Blázquez et al 2007).Các tài liệu của ontology này rất đầy đủ, vì vậy, các định nghĩa và nguồngốc các định nghĩa đều được tìm thấy trong mỗi khái niệm (mỗi lớp).Ontology này có một lượng lớn các nhãn với những tên thay thế (từ đồngnghĩa) cũng như khái niệm và xuất xứ của từ đồng nghĩa.
Để phát triển ontology này theo hướng tiếp cận từ trên xuống, hơn 20
mô hình tri thức khác nhau như: các danh mục chức năng của IGN-E, theWater Framework European Directive, the Alexandria Digital Library, theUNESCO Thesaurus, Getty Thesaurus, GeoNames, FACC codes,EuroGlobalMap, EuroRegionalMap, EuroGeonames, các từ điển địa dưTây ban nha và nhiều nguồn khác, đã được tham khảo Ngoài ra, một sốvấn đề tích hợp thông tin địa lý và tiêu chí cấu trúc cũng đã được xem xét(Vilches-Blázquez et al 2007) Mục đích là tổng hợp hầu hết các nguồnthông tin địa lý hiện có để xây dựng một ontology lõi được tham chiếu đầy
đủ Vì vậy, ontology này chứa hơn 150 khái niệm liên quan đến thủy vănnhư: sông suối, ao hồ, kênh rạch, đập, hồ chứa và nhiều thứ liên quan khác
Về vấn đề phương pháp, hydrOntology được xây dựng dựa trên
METHONTOLOGY, một phương pháp xây dựng ontology được sử dụngrộng rãi Phương pháp này nhấn mạnh việc tái sử dụng các ontology hiệnhành và các cấp cao hơn và đề xuất sử dụng, cho mục đích hình thức hóa,một tập các đại diện trung gian mà sau đó có thể được chuyển đổi tự độngsang các ngôn ngữ hình thức khác Mô tả chi tiết phương pháp này đượctrình bày bởi (Gómez-Pérez et al 2003)
hydrOntology được phát triển theo các nguyên tắc thiết kế ontology
được đề xuất bởi (Gruber 1995) và (Arpírez et al 1998) Một số đặc điểmquan trọng nhất của nó là tên các khái niệm (các lớp) được giải thích đầy
đủ và được viết chuẩn xác Mỗi lớp chỉ có một khái niệm và do đó các lớpvới các liên kết “and / or” đều được tránh sử dụng Theo một số quy ướcđặt tên, thì tên của lớp được viết hoa chữ đầu trong khi tên của các đốitượng thuộc tính và đối tượng dữ liệu được viết bằng chữ thường
Trang 19Về mặt cơ sở dữ liệu cần phải nói thêm rằng dự án này xử lý rất nhiềucác cơ sở dữ liệu thông tin khác nhau, cả Tây ban nha và Châu Âu Các cơ
sở dữ liệu này được tạo ra ở các tỷ lệ khác nhau (từ 1/1.000.000 đến1/5.000) đến từ các tổ chức hoặc các nhà sản xuất khác nhau
Dự án này thao tác trên hai cơ sở dữ liệu Châu Âu (EuroGlobalMap
và EuroRegionalMap) và bốn cơ sở dữ liệu Tây ban nha do IGN-E quản lý.Các cơ sở dữ liệu Tây ban nha có thông tin ở các quy mô khác nhau Trongbốn cơ sở dữ liệu Tây ban nha, hai là Cơ sở dữ liệu bản đồ số (NumericalTopographic Database - BTN25 và Numerical Cartographic Database -BCN200) và hai là từ điển địa dư (Conciso Gazetteer và NationalGeographic Gazetteer) Cuối cùng, đối với các cơ sở dữ liệu địa phương,
dự án sử dụng hai cơ sở dữ liệu, một được phát triển bởi các nhà sản xuấtbản đồ địa phương (Viện bản đồ Andalusia - Cartographic Institute of Andalusia) và một được phát triển bởi các nhà sản xuất bản đồ chuyên đề(Liên đoàn thủy văn sông Ebro - Hydrographical Confederation of Ebro River)
Hình 1: Tổng quan về các bao hàm giữa hydrOntology và các cơ sở dữ liệu
Trong bối cảnh các cơ sở dữ liệu này, sự hiểu biết ngữ nghĩa đạt được
bằng cách thiết lập các bao hàm giữa hydrOntology và các cơ sở dữ liệu
Trang 20khác nhau thông qua ngôn ngữ R2O (Barrasa et al 2004) Các bao hàm vẫncòn trong tiến trình xây dựng và cải thiện mối quan hệ giữa các đặc tính (từontology) và các thể hiện (từ cơ sở dữ liệu) Hình 1 cho thấy tổng quan vềcông việc này.
Một khi hydrOntology được hợp nhất như là một khuôn khổ hài hòa
cho cộng đồng các nhà sản xuất thông tin địa lý, giai đoạn thứ hai sẽ baogồm một khuôn khổ tích hợp phức tạp của các cơ sở dữ liệu và cácontology Hình 2 mô tả tổng quan về cách tiếp cận tích hợp này Tiếp cậnnày liên quan đến các phương pháp tiếp cận lai được đề xuất bởi (Wache et
al 2001) Trong phương pháp tiếp cận lai, hydrOntology sẽ cung cấp vốn
từ vựng chia xẻ toàn cầu và mỗi nhà sản xuất (châu Âu, khu vực và địaphương) sẽ có một ontology địa phương được thiết lập ánh xạ với ontologytoàn cầu và cơ sở dữ liệu của nó Việc áp dụng phương pháp này làm chocác dịch vụ web từ điển địa dư SDI của Tây ban nha cung cấp câu trả lờitốt hơn và phong phú hơn
Hình 2: Phương pháp tiếp cận lai của hydrOntology
3.2 Một ontology tiếp cận từ dưới lên trong dự án tái cấu trúc dữ liệu
không gian