3.3. Hệ đa tác tử và tích hợp thông tin
3.3.3.5. Các ngôn ngữ Ontology
Các ngôn ngữ Ontology bao gồm: LOOM, LISP, Ontolingua, XML, SHOE, OIL, DAML+OIL và OWL [3]. Ngôn ngữ ontology cần phải tƣơng thích với những công cụ khác, tự nhiên và dễ học, tƣơng thích với các chuẩn hiện tại của web nhƣ XML, XML Schema, RDF và UML. Dƣới đây là một số các ngôn ngữ dựa trên nền web [2].
XML (eXtensible Markup Language) là ngôn ngữ đánh dấu mở rộng, do tổ chức
W3C phát triển và chuẩn hóa cho mục đích biểu diễn và trao đổi dữ liệu trên nền tảng Web. XML là ngôn ngữ đánh dấu giống HTML nhƣng HTML chỉ định dạng cách thể hiện của dữ liệu còn dữ liệu phải đƣợc hiểu bằng con ngƣời. Trong khi đó, dữ liệu XML có thể đƣợc hiểu bằng máy tính, nhờ đó các máy tính có thể dễ dàng trao đổi và xử lý dữ liệu. Bên cạnh đó, XML biểu diễn dữ liệu không theo khuôn dạng định trƣớc và các thẻ định nghĩa có thể do con ngƣời tự đặt ra. Do vậy, XML cho phép lƣu trữ dữ liệu theo mô hình bất kỳ và ta có thể dễ dàng chuyển đổi dữ liệu từ các định dạng khác nhau về định dạng XML. Tài liệu XML sẽ nhóm dữ liệu trong các phần tử giới hạn bởi các thẻ đóng mở <tag> phần dữ liệu </tag>. Các thẻ đóng mở có thể lồng nhau, nhờ vậy ta có thể biểu diễn cấu trúc bất kỳ của một đối tƣợng. Có hai kiểu tài liệu của XML là: (1) Tài liệu XML hợp khuôn dạng (well-formed document): tài liệu phải đƣợc thể hiện theo chuẩn cấu trúc cú pháp nhất định; (2) tài liệu XML hợp lệ (valid document): tài liệu phải có định nghĩa kiểu tài liệu liệu (document type definition - DTD) để khai báo tài liệu và cấu trúc của tài liệu.
RDF(Resource Description Framework) đƣợc phát triển nhƣ một framework
giúp mô tả và trao đổi các siêu dữ liệu. RDF cung cấp cách thức định nghĩa và mô tả tài nguyên một cách chuẩn hóa. RDF dựa trên mô hình đồ thị và sử dụng định dạng XML để xử lý siêu dữ liệu. Mô hình dữ liệu của RDF gồm ba thành phần chính: (1) Tài nguyên (resource): thể hiện mọi đối tƣợng thông tin trong thế giới thực qua định danh tài nguyên thống nhất (Uniform Resource Identifier - URI); (2) Thuộc tính (property): mô tả thuộc tính, tính chất hoặc quan hệ của tài nguyên; (3) Statement: một tài nguyên cụ thể cùng với thuộc tính và giá trị của nó đƣợc gọi là RDF statement. Có ba thành phần độc lập của statement đƣợc gọi là: subject, predicate và object. Ngôn ngữ đặc tả lƣợc đồ RDF (RDF schema) là ngôn ngữ kiểu khai báo đƣợc sử dụng để
định nghĩa các RDF schema. Ngôn ngữ này đƣợc kết hợp từ mô hình biểu diễn ngữ nghĩa, ngôn ngữ định nghĩa lƣợc đồ cơ sở dữ liệu và mô hình đồ thị. Một lƣợc đồ RDF định nghĩa các lớp và thuộc tính mà chúng có thể đƣợc thể hiện trong RDF. Hệ thống tích hợp thông tin trong luận văn sẽ sử dụng RDF schema để biểu diễn ontology.
SHOE (Simple HTML Ontology Extensions) đƣợc xây dựng vào năm 1996 tại
trƣờng ĐH Maryland, nhƣ một mở rộng của HTML để có thể hợp nhất các tri thức ngữ nghĩa trên các văn bản web hiện tại thông qua việc chú thích các trang HTML.
OIL (Ontology Inference Layer) là mở rộng của RDF, đƣợc phát triển bởi dự án
ON-To_Knowledge, là ngôn ngữ mô tả và trao đổi cho ontology.
DAML+OIL đƣợc phát triển dựa trên dự án DARPA năm 2000. Cả OIL
và DAML+OIL đều cho phép mô tả các khái niệm, các taxonomy, các quan hệ nhị phân, chức năng và thực thể.
OWL là một ngôn ngữ ontology đƣợc sử dụng nhiều hiện nay, đƣợc tối ƣu hoá cho việc trao đổi dữ liệu và chia sẻ tri thức. Ngôn ngữ này đƣợc sử dụng khi thông tin chứa trong văn bản cần đƣợc xử lý bởi các ứng dụng. OWL là một ngôn ngữ DL based, có thể đƣợc xử dụng để biểu diễn ngữ nghĩa các thuật ngữ trong tập từ vựng và mối quan hệ giữa những thuật ngữ này. OWL bao gồm OWL Lite, OWL DL (RDF) và OWL FULL.