Nghiên cứu Web ngữ nghĩa và ứng dụng tìm kiếm thông tin trên Web

1.1.3 Web ngữ nghĩa là gì Tổ chức W3C: “Semantic Web là một sự nhìn nhận, đó là ý tưởng về việc dit liệu trên Web được định nghĩa và sử dụng theo cách mà nó có thé được sử dung bởi máy t

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

Khamla SIHALATH

NGHIEN CUU WEB NGU NGHIA VA UNG DUNG TIM

KIEM THONG TIN TREN WEB

CHUYEN NGANH : Hệ thống thông tin

MÃ SỐ : 60.48.01.04

TÓM TAT LUẬN VĂN THẠC SY KỸ THUAT

Trang 2

Luận văn này được hoàn thành tại:

Người hướng dẫn: TS Phạm Thế Quế

Phản biện Ï: 2 ĂĂ c1 1112111111129 101 1111190 111g ng và

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sỹ tại Học viện Công

nghệ Bưu chính Viễn thông

Vào lúc: giờ

Có thê tim hiéu luận văn tại:

- Thu viện của Học viện Công nghệ Bưu chính viễn thông

Trang 3

MO DAU

Sự phô biến và bùng né thông tin trên Web đã đặt ra những thách thức mới, làm thé nào

dé khai thác được thông tin trên Web một cách hiệu quả, cụ thê là làm thế nào hỗ trợ tốt hơn

việc khám phá thông tin và tìm kiêm thông tin nhanh chóng và chính xác.

Máy tìm kiếm (Search Engine) SE là công cụ được xây dựng trên nền tảng web truyền thống Tìm thông tin bằng cách gõ các từ (Key word) truy vấn Máy tìm kiếm sẽ trả về một danh sách kết quả các trang web có liên quan đến cụm từ truy van

Các máy tìm kiếm hiện nay được coi là hiệu quả, cũng mới chỉ tìm kiếm trên bề nổi của

Web Trong khi ở tầng sâu của Web chứa một khối lượng thông tin không 16 và thường rất có

giá trị thì việc tìm kiếm rất khó khăn Thông tin tìm kiếm không theo chủ đề mà tìm kiếm theo

từ khoá đơn thuần Vì vậy, độ chính xác và xác thực của thông tin chưa được đảm bảo Kết quả tìm kiếm lại phải do con người chọn lại theo chủ đề mong muốn

Những vấn đề này đã thúc đây sự ra đời của ý tưởng Web ngữ nghĩa (Semantic Web) trong máy tìm kiếm Tìm kiếm chính xác và thông minh Trong các ứng dụng của Semantic Web, ứng dụng tìm kiếm là ứng dụng điển hình nhất cho sự khác biệt của Semantic Web và Web hiện tại Máy tính có thê hiểu và xử lý thông tin trên Web, sẽ trả về những kết quả cho người dùng một cách chính xác, mang tính ngữ nghĩa nhiều hơn Semantic Web hứa hẹn sẽ

khắc phục được những hạn chế của Web hiện tại và mang lại những lợi ích tốt hơn nữa cho

người sử dụng.

Vì những ưu điểm, nên em chọn đề tài “Nghién cứu Web ngữ nghĩa và ứng dụng tim kiếm thông tin trên Web” dé làm luận án tốt nghiệp Luận văn gồm 3 chương

Chương 1: Tổng quan về Web ngữ nghĩa.

Chương 2: Bài toán tìm kiếm dựa trên Semantic web

Chương 3: Ứng dụng tìm kiếm thông tin trên Web.

Trang 4

CHƯƠNG 1: TONG QUAN VE WEB NGỮ NGHĨA

11 Khai niệm Web nghữ nghĩa và siêu dữ liệu

1.1.1 Đặt vấn đề

“Semantic” có nghĩa là dữ liệu trên Web có thể được khám phá không chỉ bởi con người

mà cả máy tính Con người cũng như máy tinh có thé đọc, hiểu và sử dụng dit liệu trên Web

dé thực hiện những mục đích hữu ích cho người dùng

Khác với Web truyền thống, Web ngữ nghĩa có khái niệm siêu dữ liệu (metadata) Siêu

dữ liệu giúp cho máy tính có thê xử lý thông tin trên Web một cách thông minh Dữ liệu được tô chức “thông minh” thì càng thê hiện được sự tính hiệu quả của nó.

Sự phát triển cao hơn của dữ liệu là Ontology và các luật suy diễn, nhờ đó mà đữ liệu có

thé được suy diễn ra từ dữ liệu.

1.1.2 Nhược điểm World Wide Web

Độ chính xác và chứng thực của thông tin trong quá trình lướt Web không được dam bao.

Khi lượng thông tin trên Internet tăng, đồng nghĩa với việc tìm kiếm, khai thác, truy nhập và duy trì thông tin ngày càng trở nên khó khăn hơn đối với người sử dụng

1.1.3 Web ngữ nghĩa là gì

Tổ chức W3C: “Semantic Web là một sự nhìn nhận, đó là ý tưởng về việc dit liệu trên

Web được định nghĩa và sử dụng theo cách mà nó có thé được sử dung bởi máy tính không

chỉ với mục đích hiển thị mà còn nhằm mục đích tự động phân tích, sử dụng lại dữ liệu qua

các ứng dụng khác”.

Tim Berners-Lee: “Bước đầu tiên là đặt dữ liệu trên Web theo một định dạng mà máy

tính có thé hiểu được, hoặc chuyển thành định dạng mà máy tính có thé hiểu được Điều này tạo ra một loại Web gọi là Semantic Web - là một Web dữ liệu mà có thé được xử lý được trực tiếp hoặc gián tiếp bằng máy tính.”

Web ngữ nghĩa là một sự mở rộng của Web hiện tại Thông tin nhiều ngữ nghĩa hơn, máy tính và con người có thê phối hợp làm việc tốt hơn

1.1.4 Đặc điểm của Web ngữ nghĩa

— Máy tính có thể hiểu dữ liệu

— Có các chú thích (annotation) tốt hơn

— Cải thiện khả năng tìm kiếm

— H6 trợ web services va các tác tử phần mềm

1.1.5 Siêu dữ liệu (Metadata)

Siêu dữ liệu dùng dé mô tả tài nguyên thông tin, còn gọi là dit liệu về dit liệu Có 3 kiểu

Metadata:

— Desciptive Metadata

— Structural Metadata

— Administrative Metadata

1.2 Một số ứng dụng cơ ban dựa trên Semantic Web

1.2.1 Quan ly tri thức

Quản lý tri thức có thé được hiểu như những quy trình hoặc các công cụ mà một tô chức

sử dung dé thu thập, phân tích, lưu trữ và phô biến tri thức của họ.

Trang 5

1.2.2 Ứng dụng tim kiếm

Có thé xem việc tìm kiếm thông tin là một ứng dụng nhỏ của quản lý tri thức Tuy nhiên, với vai trò quan trọng của tìm kiếm thông tin, đặc biệt là tìm kiếm thông tin trên Web thì người ta luôn coi đây là một bài toán lớn cần đầu tư nhiều thời gian, công sức cũng như tiền bạc để cải thiện các ứng dụng hiện tại

1.3 Kiến trúc Web ngữ nghĩa

1.3.1 Mô hình kiến trúc tống quát

Trust

selfdesciptive

rules Proof

data Š

data `

- ma.

Digital Signature

1.3.2 Vai trò các lớp trong kiến trúc Semantic Web

Unicode và định danh tài nguyên thống nhất: Tài nguyên (một đối tượng, một thực thé

hay một khái niệm, v.v ), được mô tả bằng các định danh tài nguyên thống nhất, Xác định

tính duy nhất của mỗi tài nguyên bằng một URI

Ngôn ngữ đánh dấu mở rộng: Extensible Markup Language (XML) biêu diễn đữ liệu ma máy tính có thê hiểu và xử lí dữ liệu

RDF(Resource Description Framework) — khung biéu diễn đữ liệu, hay khung mô tả tài

nguyên, là nền tảng cho việc biểu diễn dữ liệu trong lĩnh vực Web có ngữ nghĩa Thông tin biểu diễn theo mô hình RDF là một phát biểu (statement) có dạng: [chủ dé], [thuộc tính], [đốitượng] Ba thành phan trên trong RDF đều là các URL

Lược đồ RDF: Dé xác định cau trúc và ngữ nghĩa của RDF RDF Scheme (hay RDFS) là

một ngôn ngữ Ontology đơn giản của web ngữ nghĩa, là một ngôn ngữ cơ sở của web ngữ

nghĩa Cung cấp một phương tiện dé đặc tả các từ vựng mô tả tính chất và quan hệ giữa các tài

nguyên RDF, bao gồm:

— Dinh nghĩa các lớp tài nguyên

— Định nghĩa các quan hệ giữa các lóp

— Dinh nghĩa các loại thuộc tính mà các lớp trên có

— Định nghĩa các mối quan hệ giữa các thuộc tính

Ontology: Một tập các khái niệm và các mối quan hệ, ràng buộc giữa chúng tạo thành

một Ontology Một khái niệm có thé là một lớp, một thuộc tính của một lớp hay bộ từ vựng sử dụng trong miền ứng dụng đó Ontology được xây dựng trên RDF và RDFS, cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận Xây dựng Ontology bằng: RDES, OIL, DAML, DAML+OIL, hay ngôn ngữ Ontology cho web (OWL),

Truy vấn dữ liệu RDF: SPARQL (Simple Protocol and RDF Query Language) là ngôn ngữ truy vấn

Tang Logic: Các tài nguyên dưới dang các bộ từ vựng Ontology được máy có thé lập luận, dựa vào logic Vì logic mô tả biểu diễn ngữ nghĩa hình thức và cung cấp các dịch vụ lập

luận, là cơ sở dé hỗ trợ máy tính có thé lập luận và hiểu tài nguyên

Trang 6

Tang chứng minh: Tầng này đưa ra các luật dé suy luận Cụ thé từ các thông tin đã có có

thê suy ra các thông tin mới.

Tang xác nhận: Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa

Giao điện người dùng và ứng dung: Là tang giao tiếp với người dùng và ứng dụng, cung cấp giao diện cho người dùng và các dịch vụ khác truy cập

1.4 Ngôn ngữ mô tả tài nguyên

1.4.1 Ngôn ngữ mô tả tài nguyên RDE

RDF là từ viết tắt của Resource Description Framework RDF là một bộ khung cho việc

mô tả các tài nguyên trên web RDF cung cấp mô hình dữ liệu và cú pháp dé các phần độc lập nhau có thê chuyên đổi cho nhau và sử dụng được RDF

RDF là dùng dé mã hóa các siêu dữ liệu của các tài nguyên vào một bộ ba (RDF Triple): [chủ ngữ], [vị ngữ] và [đối tượng] Mỗi một thực thể hay khái nệm đều có các thuộc tính, mỗi

thuộc tính đều có các giá trị, vì vậy moi tài nguyên cũng đều có thé được biểu diễn qua ngôn

ngữ RDF.

1.4.2 Mô hình dữ liệu RDE

RDF là framework xử lý metadata, và mô tả các mỗi quan hệ giữa các tài nguyên Sự kết

hợp của một nguôn tài nguyên ([chủ ngữ]), một thuộc tính ([vi ngữ]) và một giá tri của thuộc

tính được ([đối tượng]) được đặt trong một phát_ biểu

Mô hình cơ bản của RDE gồm ba bộ phận sau:

— Resource (Tài nguyên)

— Property (Thuộc tính)

— Statements (phát biéu)

1.4.3 RDF và co sở dữ liệu quan hệ

Trong các cơ sở dữ liệu quan hệ truyền thống, đữ liệu được lưu đưới dạng các bảng Trong

mỗi bảng, mỗi hàng là một bản ghi không giới hạn các trường

So với CSDI quan hệ, lưu trữ dưới dạng RDE có những ưu điểm sau:

— _ Tổ chức dữ liệu đơn giản, đồng nhất, dé dàng chỉnh sửa.

— Cấu trúc bộ ba dé truy xuất, suy luận, tìm kiếm ngữ nghĩa Vì vậy bộ xử lý RDF có thé

suy ra những tri thức mới.

— Chia sẻ dữ liệu trên mạng nhờ sự đồng nhất

1.4.4 Đồ thị RDF

Tập các bộ ba tạo thành đồ thi RDF có hướng Các nút là [chủ ngữ] và [đối tượng], các cung trong đồ thị là [vị ngữ] luôn có hướng từ [chủ ngỡ] tới [đối tượng]

VỊ ngữ

me liêu aChủ ngữ Đôi tượng

Hình 1.2: Đồ thi RDF

Cu pháp RDF: Định nghĩa siêu dữ liệu tạo va trao đổi siêu dữ liệu, vì thé RDF dựa trên

XML.

Trang 7

1.4.5 Bộ chứa RDF

Dé mô tả tập hợp của nhiều đối tượng RDF cung cấp nhiều kiểu và nhiều thuộc tính tích hop sẵn giúp mô tả được những tập, trong đó có kiểu khai báo “bộ chứa” (container), dùng dé lưu danh sách các tài nguyên hoặc các kiểu giá trị

1.4.6 Tập hợp RDF

Tập hop RDF (Collection RDF) được sử dụng dé mô tả các nhóm chỉ chứa những thành viên đã được đặc tả Một bộ chứa RDF các thành viên là các nguồn tài nguyên,

1.5 Lược đồ RDF và truy van RDF

1.5.1 Lược đồ RDF

Lược đồ RDF (RDF Scheme - RDFS) là ngôn ngữ Ontology cung cấp một khung mô ta các lóp, thuộc tính của ứng dụng cụ thể Các lớp trong RDFS như các lớp trong lập trình hướng đối tượng, RDFS sử dụng các phan tử như: rdfs:Class và rdfs:subClassOf

1.5.2 Định nghĩa lớp

Các tài nguyên Web chia thành các lớp Thông qua các định danh URI, các tài nguyên

được truy xuất và có thể được mô tả bằng các thuộc tinh RDF Thuộc tinh rdf: type được sử dụng đề chỉ ra một tài nguyên là một thể hiện của một lớp

1.5.4 Các luật suy diễn trong lược đồ RDF

1) Suy diễn về loại của lớp IF (c2, subClassOf, cl)

AND (x, type, c2) THEN (x, type, cl)

2) Suy diễn về thuộc tính của lóp IF (p2, subPropertyOf, pl)

AND (X, p2, y) THEN (x, pl, y)

3) Suy diễn về lớp con của lóp IF (c2, subClassOf, cl)

AND (c3, subClassOf, c2) THEN (c3, subClassOf, cl)

4) Suy diễn thuộc tính con của thuộc tinh IF (p2, subPropertyOf, pl)

AND (p3, subPropertyOf, p2) THEN (p3, subPropertyOf, pl)

5) Suy dién trong mien (domain)

IF (pi, domain, cl) AND (x, pi, y)

THEN (x, type, cl)

6) Suy diễn trong day giới han (range)

IF (pi, range, cl) AND (x, pi, y) THEN (y, type, cl)

Trang 8

1.5.5 Ngôn ngữ truy vấn RDF

SPARQL là ngôn ngữ truy cập thông tin từ các lược đồ RDF Nó cung cấp các tinh năng

Sau:

- Trích thông tin từ các dạng của URI và từ các lược con

- _ Xây dựng đồ thị RDE dựa trên thông tin đồ thị truy vấn Một câu truy vẫn bao gồm 2 mệnh đề, mệnh đề SELECT và mệnh đề WHERE Mệnh đề SELECT định danh các biến mà ứng dụng quan tâm và mệnh đề WHERE bao gồm các mẫu điều kiện cho các bộ ba

1.6 Ontology

1.6.1 Giới thiệu

Ontology được sử dụng suy luận về các đối tượng và mối quan hệ giữa chúng Ontology

cung cấp một bộ từ vựng chung bao gồm các khái niệm, các thuộc tính quan trọng và các định nghĩa về các khái niệm và các thuộc tính này Ngoài bộ từ vựng, Ontology còn cung cấp các

ràng buộc Ontology là xương sống” của Semantic Web.

Ontology là: “Một Ontology là một sự chỉ định tường minh, hình thức và chia sẻ về một

khái niệm dùng chung”.

Bộ từ vựng Ontologyđược xây dựng trên cơ sở của cơ cầu mô tả tài nguyên (RDF) và lược

đồ RDF, nó cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên Web và có khả năng hỗ trợ lập luận.

1.6.2 Các lớp - Khái niệm

Lớp là nhóm, tập hợp các đối tượng trừu tượng có thé chứa các cá thé, lớp khác hoặc cả

hai Các Ontology biến đổi tuỳ thuộc vào cấu trúc và nội dung của nó Lớp có thé có các ràng

buộc (restrictions) các cá thể thuộc lớp đó

1.6.3 Các cá thé - thé hiện và thuộc tính

Là những đối tượng đại diện một lớp cụ thể trong domain Mãi cá thể có thể có các thuộc tính của lớp mà nó thể hiện và quan hệ với các cá thể khác theo ràng buộc của lớp Những cá

thể còn có thé được coi như là những trường hợp của lớp.

1.6.4 Các mối quan hệ

Là thuộc tính dé mô tả mối liên hệ giữa các đối tượng trong Ontology Một mối quan hệ là một thuộc tính có giá trị là một đối tượng nào đó trong Ontology Một đối tượng có thé có

một hoặc nhiều quan hệ trong Ontology bat ké lớp của nó có quan hệ đó hay không, quan hệ của đối tượng phải tuân theo ràng buộc của lớp chứa đối tượng đó nếu có

Trang 9

CHƯƠNG II: BÀI TOÁN TÌM KIEM DỰA TREN SEMANTIC WEB

2.1 Một sô van dé trong việc xử lí văn bản

Trong xử lý ngôn ngữ tự nhiên, có rat nhiêu mô hình với nhiêu hướng tiép cân khác nhau,

chủ yêu gôm các hướng:

Dựa trên trí tuệ nhân tao (AI — based)

Dựa trên cơ sở tri thức (Knowledge — Based)

2.2 Chiến lược tim kiếm thông tin trong các máy tìm kiếm

2.2.1 Lịch sử phát triển máy tìm kiếm

Năm 2000, máy tìm kiếm Google đã nổi lên và chiếm ưu thé trên thị trường Năm 2000,

Yahoo cũng cung cấp các dịch vụ tìm kiếm dựa trên máy tìm kiếm của Inktomi Đến năm

2004, họ đã đưa ra máy tìm kiếm của riêng mình nhờ tông hợp các công nghệ đã thu được

Microsoft có công cụ MSN Search (còn được gọi là Live Search) từ năm 1998 bằng việc sử dụng các kết quả tìm kiếm của Inktomi

Đến cuối năm 2007, Google đã trở thành máy tìm kiếm được sử dụng phô biến nhất trên toàn thế giới

2.2.2 Vai trò của việc tìm kiếm trên Web

Với sự xuất hiện của World Wide Web, lượng thông tin trên Internet ngày càng tăng lên một cách nhanh chóng, khiến việc tìm kiếm thông tin trên Web gặp nhiều khó khăn

Hiện nay, máy tìm kiếm thành công nhất đang là máy tìm kiếm của Google với 46.47% thị phần vượt xa máy tìm kiếm đứng thứ hai là Yahoo! (chiếm 17.16% thị phần) Google được thiết kế để có thé crawling và đánh chỉ mục một cách hiệu quả và trả về những kết quả tìm kiếm tốt hơn các máy tìm kiếm khác

2.2.3 Các chiến lược tìm kiếm trên Web

“Search Engine" dé chỉ 2 hệ thống tìm kiếm: Một do các chương trình máy tính tự động

tạo ra (Crawler-Based Search Engines) và dạng thư mục Internet do con người quản lý

(Human-Powered Directories).

Chiến lược tìm kiếm theo từ khóa: các search engine sẽ tự chọn và đánh chỉ mục So site

lập chỉ mục với tât cả các từ có trong một trang web, một sô khác chỉ chọn một sô đoạn văn bản.

Search engine không thê trả về các tài liệu chứa những từ đồng nghĩa với các từ trong câu

truy vân.

Chiến lược tìm kiếm theo ngữ nghĩa: hoạt động dựa trên hình thức gom tài liệu, đếm số lần xuất hiện của các từ quan trọng Khi nhiều từ hoặc nhũng cụm từ có nghĩa đặt gần nhau trong

tài liệu thì cho rang chúng đang 4m chi một chủ đê nào đó.

2.2.4 Đặc điểm của việc tìm kiếm trên Web

Đa số các máy tìm kiếm dựa trên Web truyền thống đều tìm kiếm dựa trên việc đối chiếu

từ khóa Dưới đây là kiến trúc máy tìm kiếm của Google (năm 2000) Ba chức năng chính trong kiến trúc máy tìm kiếm của Google như sau:

— Web crawling: tự động tải các tài liệu, các trang Web

— Indexing: đánh chỉ mục cho các tài liệu

— Searching: tìm kiêm các tài liệu đã đánh chỉ mục.

Trang 10

Hình 2.1 Kiến trúc máy tìm kiếm của Google

Các máy tìm kiếm sẽ lưu trữ tất cả thông tin về các trang web được thu thập bởi web

crawler Khi người dùng nhập một từ khóa vào máy tìm kiêm, máy sẽ kiêm tra bảng chỉ mục của nó

2.2.5 Nguyên tắc hoạt động

Kho chứa trang web

= la

v

õi ` kết quả

Bộ trình duyệt Câu hỏi

web (crawler)

—

an)

+

=

—a— 7

v

Điều khiển trình duyệt :\ Các |

(Crawl Conttrol) gate

m ae

nội dung cấu tric tiện ích

(Text) (Structure) (utility)

Bộ đánh Tính hạng trang

chỉ mục (ranking)

(Indexer)

Hình 2.2: Kiến trúc tổng quát của máy tìm kiếm

Máy tìm kiếm sử dụng các phương pháp khác nhau nhưng đều có một kiến trúc như nhau

Nguyên tắc chung của các máy tìm kiếm là lưu trữ tất cả thông tin về các trang Web được thu thập bởi Web Crawler Nội dung của mỗi một trang Web sẽ được phân tích và quyết định

đánh chỉ mục hay không.

Khi người dùng nhập vào các từ khóa truy vấn, thành phần xử lý truy vấn nhận yêu cầu và thực hiện các xử lý cần thiết, sau đó chuyển cho bộ phận crawler Bộ tìm duyệt trang web (spider, hay còn có nhiều tên gọi khác: crawler, web robot ) thực hiện duyệt các trang thuộc

các website trên Internet tìm ra các địa chỉ URL có chứa các tài liệu liên quan Số lượng các URL thu được là rất lớn được lưu trữ trong kho, thành phần đánh chỉ mục trang (indexer) sẽ

đánh chỉ số trên các trang web, sau đó bộ phận ranking thực hiện tính hạng trang và hiển thị

cho người dùng theo

Tiêu đề	Nghiên Cứu Web Ngữ Nghĩa Và Ứng Dụng Tìm Kiếm Thông Tin Trên Web
Tác giả	Khamla Sihalath
Người hướng dẫn	TS. Phạm Thế Quế
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn thạc sĩ kỹ thuật

Định dạng
Số trang	20
Dung lượng	5,39 MB