Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 32 - 36)

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.4. Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm

Khi sử dụng các máy tìm kiếm thơng thường thì việc tìm kiếm thơng tin sẽ khơng tận dụng được những ưu điểm vượt trội của web ngữ nghĩa (semantic web). Một hệ thống tìm kiếm ngữ nghĩa thực hiện tìm kiếm trên web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa cĩ kết quả trả về là thơng tin cĩ cấu trúc hồn chỉnh mà máy tính cĩ thể “hiểu” được, nhờ đĩ việc sử dụng hay xử lý thơng tin trở nên dễ dàng hơn (Cohen

et al., 2003; Gunter, 2009). Máy tìm kiếm ngữ nghĩa được xây dựng dựa trên những kỹ

thuật, cơng nghệ khác nhau của những nền tảng nhất định. Để mơ tả chi tiết cấu trúc của một máy tìm kiếm ngữ nghĩa, trước hết cần cĩ các nền tảng cho tìm kiếm ngữ nghĩa. Web ngữ nghĩa và mơ hình dữ liệu biểu diễn về lĩnh vực (ontology) là hai nền tảng chính cho việc thực hiện cơng việc này.

2.4.1. Khái quát về web ngữ nghĩa

Web ngữ nghĩa (semantic web) là sự mở rộng của web hiện tại theo cách thơng tin được xác định ý nghĩa tốt hơn, cho phép máy tính và người cộng tác với nhau tốt hơn (Berners-Lee, 1998). Khơng giống như cơng nghệ web thơng thường, nội dung chỉ bao định: T = T1 ∪ T2. Véc-tơ đặc trưng thứ tự từ của hai văn bản lần lượt là R1 = (r11, r12,

|��1 − ��2 | �∑ (��1�� − ��2�� )2��

���� = 1 − =

|��1 + ��2 | �∑ ��1�� + ��2�� )2��=1(��

hàm các siêu văn bản, liên kết, hình ảnh hay video, semantic web cĩ thể bao gồm những tài nguyên thơng tin trừu tượng như con người, tổ chức, địa điểm, thậm chí là một sự kiện trong đời sống. Ngồi ra, liên kết trong semantic web khơng chỉ đơn thuần là các siêu liên kết (hyperlink) giữa các tài nguyên mà cịn chứa nhiều loại liên kết, quan hệ khác, vì vậy đặc điểm này khiến nội dung của semantic web đa dạng hơn, chi tiết và đầy đủ hơn (Gunter, 2009).

Kiến trúc của semantic web bao gồm các tầng được mơ tả như Hình 2.4. Cụ thể, tầng Unicode và URI bảo đảm việc sử dụng tập ký tự quốc tế và cung cấp phương tiện nhằm định danh các đối tượng trong semantic web. Tầng XML cùng với các định nghĩa về namespace và schema bảo đảm rằng chúng ta cĩ thể tích hợp các định nghĩa semantic web với các chuẩn dựa trên XML khác. Trong khi đĩ, tầng RDF và RDF Schema

(RDFS) cĩ thể tạo các phát biểu (statement) để mơ tả các đối tượng với những từ vựng và định nghĩa của URI; các đối tượng này cĩ thể được tham chiếu đến bởi những từ vựng và định nghĩa của URI ở trên. Đây cũng là tầng cĩ thể gán các kiểu (type) cho các tài nguyên và liên kết, cũng là tầng quan trọng nhất trong kiến trúc semantic web.

Hình 2.4: Kiến trúc phân tầng của semantic web (Berners-Lee et al., 2001)

Bên cạnh đĩ, tầng Ontology hỗ trợ sự tiến hĩa của từ vựng vì nĩ cĩ thể định nghĩa mối liên hệ giữa các khái niệm khác nhau, tầng Digital Signature được dùng để xác định chủ thể của tài liệu (ví dụ như tác giả của một tài nguyên học tập hay một lời tuyên bố). Các Tầng Logic, Proof, Trust đang trong giai đoạn nghiên cứu và các thể hiện của các ứng dụng giản đơn đang được xây dựng. Tầng Logic cho phép viết ra các luật (rule) trong khi tầng Proof thi hành các luật và cùng với tầng Trust đánh giá nhằm quyết định ứng dụng nên hay khơng nên tin tưởng/chấp nhận (trust) chứng cứ (proof).

Để xây dựng hệ thống semantic web thay thế cho web hiện tại, các nhà nghiên cứu tập trung nghiên cứu theo ba hướng chính gồm: chuẩn hố ngơn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên web; chuẩn hố các ngơn ngữ biểu diễn ontology cho web cĩ ngữ nghĩa; và phát triển nâng cao web cĩ ngữ nghĩa (SWAD).

2.4.2. Mơ hình dữ liệu biểu diễn về lĩnh vực (ontology)2.4.2.1. Khái niệm ontology 2.4.2.1. Khái niệm ontology

Một trong những ý tưởng chính của semantic web là dữ liệu cĩ nghĩa cĩ thể được chia sẻ giữa các máy tính ở dạng mơ hình dữ liệu biểu diễn về miền hay cịn gọi là ontology, cho phép tạo ra những dạng dữ liệu tồn cầu (Berners-Lee et al., 2001).

Hiện nay, cĩ nhiều khái niệm về ontology. Theo (Brewster and O'Hara, 2004), ontology là biểu hiện một tập các khái niệm hay đối tượng (concepts), trong một miền cụ thể và những mối quan hệ (relationships) giữa các khái niệm này. Trong khi đĩ, Studer et al. (1998) cho rằng ontology là sự đặc tả chính quy, tường minh của các khái niệm được chia sẻ. Một phát biểu khác cho rằng, các ontology mơ hình hĩa lĩnh vực sử dụng khái niệm (concepts), thuộc tính (attributes) và quan hệ (relations) (Gruber, 1993).

2.4.2.2. Thành phần của Ontology

Hầu hết ontology mơ tả các cá thể/thể hiện (individuals/instances), các lớp hay khái niệm (classes/concepts), thuộc tính (attributes) và quan hệ (relations). Các thành phần chính của ontology được mơ tả như Hình 2.5 (Kaushal, 2011).

Các cá thể hay thể hiện (individuals/instances) là các thành phần cơ bản và quan trọng của một ontology. Các cá thể trong một ontology cĩ thể bao gồm các đối tượng cụ thể như con người, động vật, vật thể hoặc các cá thể trừu tượng như các từ ngữ. Trong khi đĩ, các lớp hay khái niệm (classes/concepts) là các nhĩm, tập hợp các đối tượng trừu tượng. Lớp cĩ thể chứa các cá thể, các lớp khác hay bao gồm cả hai. Một lớp cĩ thể chứa các lớp con, cĩ thể là một lớp tổng quan (chứa tất cả mọi thứ), cĩ thể là lớp chỉ chứa những cá thể riêng biệt. Các thuộc tính (attributes) trong ontology mơ tả các đối tượng trong ontology. Mỗi thuộc tính cĩ tên và giá trị của thuộc tính; thuộc tính được sử dụng lưu trữ các thơng tin mà đối tượng cĩ thể cĩ. Các mối quan hệ (relations) mơ tả mối quan hệ giữa các đối tượng trong ontology. Một mối quan hệ là một thuộc tính cĩ giá trị là một đối tượng nào đĩ trong ontology.

2.4.2.3. Ngơn ngữ ontology

Một ngơn ngữ ontology là ngơn ngữ chính quy (formal) được sử dụng để mã hĩa ontology. Lợi ích của ngơn ngữ chính quy này là khả năng suy luận (reasoning

mechanism) xuất hiện trong mọi giai đoạn khái niệm, sử dụng và duy trì ontology (Kaushal, 2011). Vì vậy, một ontology cần được mơ tả bằng một cấu trúc chặt chẽ và theo những chuẩn chung nhất để người sử dụng cĩ thể chia sẻ với người sử dụng khác hoặc sử dụng lại những ontology đã cĩ sẵn. Các ngơn ngữ ontology quan trọng nhất bao gồm XML/XML Namespace/XML Schema, RDF, RDF Schema và OWL.

Ngơn ngữ XML, XML Namespace và XML Schema: XML là một ngơn ngữ đơn giản cho phép người dùng tạo các thẻ riêng để chú thích các tài liệu web, cho phép máy tính cĩ thể trao đổi tài liệu với nhau thơng qua web mà khơng làm mất đi ý nghĩa của dữ liệu. Trong khi XML Namespace là một đặc tính quan trọng của XML, cho phép giải quyết các vấn đề liên quan đến việc xung đột tên các phần tử thì lược đồ XML (XML Schema) là một ngơn ngữ được dùng để định nghĩa cấu trúc của một tài liệu XML như là phần tử nào xuất hiện trong tài liệu, quan hệ cha con giữa các phần tử, kiểu dữ liệu của các phần tử… XML Schema sử dụng cú pháp của ngơn ngữ XML và được xem như một sự thay thế cho DTD đã lỗi thời và khĩ sử dụng. XML Schema mở đầu bằng khai báo theo chuẩn XML, tiếp theo dùng tiếp đầu ngữ xsd: để khai báo khơng gian tên XML Schema.

Ngơn ngữ biểu diễn ontology RDF/RDFS: Ngơn ngữ RDF (Resource Description Framework) là nền tảng quan trọng của semantic web, là một ngơn ngữ được dùng để mơ tả thơng tin về những tài nguyên trên web và mơ tả ngữ nghĩa của những thơng tin đĩ theo cách mà máy tính cĩ thể hiểu được. RDF mơ tả tài nguyên trên web thơng qua URI. Trong RDF, định dạng dữ liệu cho phép mơ tả thực thể, tài nguyên và quan hệ nội tại giữa chúng bằng bộ ba (tripple) gồm chủ đề (subject), thuộc tính (predicate), đối tượng (object) như mơ tả của Hình 2.6. Trong đĩ, chủ đề là tài nguyên được mơ tả bằng

thuộc tính và đối tượng; thuộc tính thể hiện mối quan hệ giữa chủ đề và đối tượng; đối

tượng cĩ thể là một tài nguyên hoặc một giá trị. Chẳng hạn, phát biểu “Trường ĐHCT

cĩ website là www.ctu.edu.vn” sẽ được biểu diễn dưới dạng bộ ba như sau (“Trường

ĐHCT”, “cĩ website”, “www.ctu.edu.vn”).

Trong khi đĩ, ngơn ngữ RDFS (RDF Schema) là sự mở rộng của RDF, cho phép mơ tả sự phân loại của các lớp (classes) và các thuộc tính (properties) (Stefan, 2000). RDFS cũng cĩ thể xem là một sự mở rộng ngữ nghĩa của RDF để cung cấp những cơ chế cho phép mơ tả các nhĩm tài nguyên liên quan và mối quan hệ giữa các tài nguyên này. Trong RDFS, classes là một nhĩm các tài nguyên liên quan với nhau; properties trong RDFS là quan hệ giữa các Subjects và Objects trong RDF.

Ngơn ngữ OWL là một nhĩm các ngơn ngữ biểu diễn tri thức để soạn thảo các ontologies, là sự mở rộng từ RDF và RDFS (Kaushal, 2011), được kế thừa từ ngơn ngữ DAML + OIL Web ontology. Mục đích chính của OWL là đưa khả năng suy luận vào semantic web. OWL được viết dưới dạng XML, dùng để xử lý thơng tin trên web và là một ngơn ngữ được thơng dịch bởi máy tính. Về cơ bản OWL và RDF cĩ nhiều đặc điểm giống nhau, tuy nhiên OWL cĩ tập từ vựng (từ khĩa) lớn hơn RDF và là một ngơn ngữ được máy tính thơng dịch tốt hơn RDF. Cĩ ba loại OWL gồm OWL Lite, OWL DL và OWL Full; mỗi loại cĩ những đặc tính riêng, do đĩ phù hợp trong ngữ cảnh của một ứng dụng cụ thể (W3C, 2009).

2.4.2.4. Trình soạn thảo thiết kế ontology

Trình soạn thảo ontology (ontology editors) là các ứng dụng được thiết kế để hỗ trợ việc tạo hoặc thao tác các ontologies (Kaushal, 2011). Hiện nay cĩ nhiều ontology editors. DOME (DERI Ontology Management Environment) được phát triển bởi OMWG (Ontology Management Working Group), dùng để quản lý các ontologies (W3C, 2006). Knoodl được phát triển theo định hướng cộng đồng của các ontologies dựa trên OWL và các cơ sở tri thức RDF, làm nhiệm vụ như một nền tảng cơng nghệ ngữ nghĩa, cung cấp giao diện dựa trên dịch vụ Java hoặc giao diện dựa trên ngơn ngữ SPARQL (Simple Protocol and RDF Query Language) để cộng đồng cĩ thể xây dựng các ứng dụng ngữ nghĩa bằng cách sử dụng các ontologies và cơ sở tri thức (W3C, 2012). Protégé là một trình soạn thảo ontology mã nguồn mở được phát triển bởi Đại học

Stanford hợp tác bởi Đại học Manchester. Protégé được viết bằng Java và sử dụng rất nhiều Swing để tạo giao diện người dùng khá phức tạp (Grosso et al., 1999; Gennari et

al., 2003), cho phép tạo ra khái niệm, thuộc tính của khái niệm, quan hệ và phân cấp

giữa các khái niệm, cĩ giao diện đồ họa và tuân theo chuẩn của ứng dụng web, vì vậy nĩ trở thành cơng cụ được sử dụng phổ biến nhất hiện nay.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 32 - 36)

Tải bản đầy đủ (DOCX)

(148 trang)
w