I just go ta new pet dog.
2.6 Các ngôn ngữ Semantic Web
Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của Semantic Web. Có nhiều ngôn ngữ cho Semantic Web, hầu hết những ngôn ngữ này dựa trên XML hay sử dụng XML làm cú pháp. Một số ngôn ngữ sử dụng RDF và RDFschema.
Hình 2-5 Các tầng ngôn ngữ trên Web
XML (eXtensible Markup Language) – Ngôn ngữ đánh dấu mở rộng
XML là một đặc tả cho các tài liệu (document) mà máy tính đọc được. Đánh dấu (Markup) có nghĩa là các chuỗi ký tự nào đó trong tài liệu có chứa thông tin chỉ ra vai trò nội dung của tài liệu. Markup mô tả sơ đồ (layout) dữ liệu của tài liệu (document) và cấu trúc logic. Markup làm thông tin tự mô tả tùy vào cảm nhận.
Markup được mô tả dưới dạng các từ trong dấu ngoặc nhọn hay còn gọi là tag. Ví dụ <name> hay <h1>, về khía cạnh này, XML giống như HTML. Tuy nhiên, tính mở rộng của ngôn ngữ chỉ ra sự khác biệt quan trọng và cũng là đặc điểm chính của XML. XML thực sự là một siêu ngôn ngữ mô tả dữ liệu (metalanguage), là một cơ cấu cho phép biểu diễn các ngôn ngữ khác một cách chuẩn hóa. Nói cách khác XML chỉ cung cấp định dạng dữ liệu cho tài liệu (document) được cấu trúc, không có đặc tả từ vựng (vocabulary) thực sự. Vì vậy XML phổ biến toàn cầu, chúng ta có thể tạo những ngôn ngữ đánh dấu (markup) mà chúng tùy ý sử dụng cho các kiểu tài liệu không giới hạn - đây là chuẩn đang phổ biến. Bên cạnh nhiều ngôn ngữ riêng biệt, một số ngôn ngữ chuẩn được định nghĩa trong XML (còn gọi là các ứng dụng XML). Ví dụ XHTML là một định nghĩa lại của HTML 4.0 trong XML. Các thực thể (entity) markup chính trong XML là các đơn vị (element). Chúng thông thường bao gồm một tag mở và một tag đóng. Ví dụ <person> và </person>.
Các element có chứa các element khác hay text. Nếu 1 element không có nội dung, nó có thể được viết ngắn gọn như <person/>. Các element nên được xếp lồng nhau, tag mở và tag đóng của element con phải nằm trong tag mở và tag đóng của element cha.
Mỗi XML document phải có chính xác một root element. Các element có thể chứa thuộc tính với giá trị nào đó, có định dạng là: "từ =giá trị" bên trong tag của một element. Ví dụ <person name="John">. Dưới đây là một đoạn XML:
Trang 44/56 <?xml version=“1.0”?>
<employees>
List of persons in company: <person name=“John”> <phone>47782</phone> On leave for 2001.
</person> </employees>
XML không ngụ ý giải thích rõ ràng về dữ liệu. Thông qua tên của tag mà ý nghĩa của đoạn XML trên trở nên rõ ràng đối với cảm nhận của chúng ta, nhưng nó không được mô tả một cách hình thức. Chỉ có giải thích hợp lý là mã XML chứa các thực thể (entity), các thực thể con và giá trị được đặt tên. Mỗi XML document thiết lập một cây có nhãn và thứ tự. Tóm lại chúng vừa là điểm mạnh vừa là điểm yếu của XML. Chúng ta có thể mã hóa bất kỳ kiểu cấu trúc dữ liệu nào theo một cú pháp không rõ ràng, nhưng XML không đặc tả sử dụng dữ liệu và ngữ nghĩa (semantic) của chúng. Các nhà phát triển sử dụng XML để trao đổi dữ liệu phải thỏa thuận trước về từ vựng, cách sử dụng và ý nghĩa.