1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Khoa học máy tính: Nghiên cứu phương pháp xây dựng hệ thống quản lý tài liệu văn bản dựa trên ngữ nghĩa

144 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương pháp xây dựng hệ thống quản lý tài liệu văn bản dựa trên ngữ nghĩa
Tác giả Huỳnh Thị Thanh Thường
Người hướng dẫn PGS. TS. Bùi Văn Nhơn
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học Máy tính
Thể loại Luận án tiến sĩ
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 144
Dung lượng 45,76 MB

Nội dung

Một địnhnghĩa khác mang tính tổng hợp và đúng theo định hướng xây dựng hệ thống ứng dụng của đề tài như sau: "Ontology là bản mô tả tường minh các khái niệm trong một miền ứng dụng nao đ

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

HUYNH THI THANH THUONG

PHU LUC CHUYEN MON LUẬN AN TIEN SĨ KHOA HQC MAY TÍNH

NGHIEN CUU PHUONG PHAP XAY DUNG HE THONG QUAN LY TAI LIEU VAN BAN DUA TREN

NGỮ NGHĨA

TP HÒ CHÍ MINH, 2024

Trang 2

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

HUYNH THI THANH THUONG

NGHIEN CUU PHUONG PHAP XAY DUNG HE THONG QUAN LÝ TAI LIEU VAN BẢN DỰA TREN

NGU NGHIA

Chuyên ngành: Khoa học Máy tính

Mã số: 62480101 (9480101)

LUẬN ÁN TIEN SĨ KHOA HỌC MAY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS TS BO VĂN NHƠN

TP HO CHÍ MINH - NĂM 2024

Trang 3

Mục lục

PHU LUC 1 ONTOLOGY VÀ CÁC MÔ HINH NGƯ NGHĨA 1

1.2 Các thành phần của ontology -cSẶŸŸẶS 2

1.4 Các phương pháp xây dựng ontology 5

1.5 Nền tảng công nghệ ontology Ốc ee 7 1.6 Một số hệ thống tìm kiếm tài liệu theo ngữ nghĩa dựa trên ontology 10

1.7 Một số công trình nghiên cứu trong nước có liên quan 12

PHU LUC 2 CÁC PHƯƠNG PHAP BIÊU DIEN TÀI LIEU VAN BAN VÀ KỸ THUAT TÌM KIỀM 16 2.1 Các phương pháp tìm kiếm tài 16 2.1.1 Tìm kiếm tài liệu theo tiếp cận thống kê 16

2.1.2 Tìm kiếm tài liệu theo hướng ngữ nghĩa 23

2.2 Van đề biểu diễn tài liệu văn ban 2 ee 24 2.2.1 Biểu diễn văn bản dựa trên vector ee 24 2.2.2 Biểu diễn văn bản dựa trên đồ thị 29

2.3 Vấn đề rút trích tự động các đơn vị thông tin từ tài liệu 35

2.4 Vấn dé đo lường mức độ tương đồng ngữ nghĩa giữa các từ/khái nệm 37

2.5 Vấn đề đánh giá một hệ thống tìm kiếm tàilệu 43

2.6 Những khó khăn và thách thức - - 45

PHU LUC 3 XÂY DUNG ONTOLOGY MIEN THEO MÔ HÌNH CK-ONTO 49 3.1 Các bước chính trong quy trình xây dung ontology 49 3.1.1 Thu thập dữ liệu và tích hợp ontology a 49 3.1.2 Làm giàu ontology 2 2 2 ee 50 3.1.3 Anh xa tới các nguồn tài nguyên hiện có 53

3.1.4 Chuẩn hóa ontology ẶẶ eee 54 3.2 Quản lý ontology và thiết kế các xử lý cơ bản trên ontology 57

PHU LUC 4 XÂY DỰNG ĐỒ THỊ KEYPHRASE BIEU DIEN TÀI LIEU 61

4.1 Rút trích keyphrase ee 61

Trang 4

4.2 Sự khác biệt trong kỹ thuật xây dựng đồ thị giữa dữ liệu Việt ngữ và Anh ngữ 64

PHU LUC 5 HE QUAN LÝ CƠ SỞ TÀI LIEU VAN BAN THEO NGỮ NGHĨA: QUY

TRINH THIẾT KẾ CÁC HỆ THONG UNG DỤNG 67

5.1 Quy trình thiết kế Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa

học máy tinh 2 eee 67 5.1.1 Mô tả kho tài nguyên hoc tap 2 eee 67

5.1.2 Xây dung ontology cho lĩnh vực học tập Khoa học máy tinh 68

5.1.3 Xây dựng đồ thi keyphrase biểu diễn tài liệu họctập 69

5.1.4 Xử lý câu truy vấn ee 72 5.1.5 Mô hình cơ sé tài liệu có ngữ nghĩa cho Kho tài nguyên học tập 74

5.1.6 Tổ chức cơ sở về các tài liệu trên máy tính 77

5.2 Quy trình thiết kế Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ L 2 8e - 84

5.2.1.Mục tiêu và chức năng của hệ thống 84

5.2.2 Xây dựng ontology cho lĩnh vực việc làm Công nghệ Thông tin 91

5.2.3 Xây dung đồ thi keyphrase biểu diễn tin bài tuyển dung 9

5.2.4 Tổ chức cơ sở về các tin bài tuyển dụng theo mô hình SDB trên máy tính 96 5.3 Quy trình thiết kế Hệ thống tìm kiếm và chọn lọc tin bài trên các báo điện tử 98 5.3.1 Thực trạng và nhu cầu xây dựng hệ thống hỗ trợ chọn lọc tin bài về một tỉnh thành trên báo mạng c co 98 5.3.2 Mục tiêu và chức năng của hệ thống 99 5.3.3 Xây dung ontology cho lĩnh vực Lao động - Việc làm và Dau tu công — Đầu tư nước ngoài Ặ Q2 QC 103 5.3.4 Xây dung đồ thi keyphrase biểu diễn tin bài trên báo điện tử 107

5.3.5 Mô hình hóa cấu trúc thông tin của một trang báo điện tử 110

5.3.6 Mô hình cơ sở tài liệu có ngữ nghĩa cho Kho tin bài trên các báo điện tử 115 5.3.7 Tổ chức cơ sở về các tin bài trên máy tính 117

PHU LUC 6 DO LƯỜNG MỨC ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI TÀI LIEU: MOT SO THỰC NGHIỆM VÀ KỸ THUAT CÓ LIEN QUAN 120 6.1 Đánh giá sự ảnh hưởng của các tham số đến hiệu suất của hệ thong 120

6.1.1 Thực nghiệm rút trích keyphrase 120

6.1.2 Ảnh hưởng của các chiến lược lựa chọn tham số khác 122

6.2 Rút trích thực thé dùng Lookup Entity kết hợp với TagMe_ 126

TÀI LIỆU THAM KHẢO 132

Trang 5

PHỤ LỤC 1 ONTOLOGY VÀ CÁC MÔ HÌNH NGƯ NGHĨA

1.1 Định nghĩa ontology

Công nghệ ontology là một công nghệ được nghiên cứu phát triển mạnh mẽ trong thời

gian gần day Ontology trở thành một lĩnh vực nghiên cứu phổ biến có mặt trong nhiều lĩnh vực

từ xử lý ngôn ngữ tự nhiên, các hệ cơ sở tri thức, các hệ thống hỏi-đáp, tích hợp thông tin cho

đến biểu diễn và quản lý tri thức

Ontology là một thuật ngữ có nguồn gốc từ Triết học diễn tả các thực thể tồn tại trong

tự nhiên và các mối quan hệ giữa chúng Theo cách nhìn của triết học, ontology - bản thể học

là “một môn khoa học về nhận thức, cụ thể hơn là một nhánh của siêu hình học về tự nhiên vàbản chất của thế giới, nhằm xem xét các vấn đề về sự tồn tại hay không tồn tại của các sự vật”

{

Theo đó người ta đưa ra khái niệm bộ ba ngữ nghĩa bao gồm biểu tượng - khái niệm - sự

đây là mô hình dùng để mô tả hay biểu diễn thế giới thực, biểu tượng sẽ gợi lên khái niệm vàbiểu diễn sự vật còn khái niệm sẽ đề cập tới sự vật

Trong Trí tuệ nhân tạo, có rất nhiều định nghĩa về ontology, một số định nghĩa được xem

là kinh điển và được thừa nhận rộng rãi như sau [97, 72, 4] :

(Gruber, 1993) định nghĩa ontology như ”một đặc tả tường minh của sự khái niệm hóa

trong một lĩnh vực” (Borst, 1997) sửa đổi một chút định nghĩa của Gruber, rang ontology là "su

đặc tả hình thức của sự khái niệm hóa được chia sẻ” Sự khái niệm hóa có nghĩa là mô hình trừu tượng của các sự vật, hiện tượng trên thế giới được xác định qua các khái niệm liên quan của sự

vật, hiện tượng đó Tường mình có nghĩa là các kiểu khái niệm và các ràng buộc giữa chúng làđược xác định rõ ràng Hình thức có nghĩa là ontology phải được hiểu bởi máy tính Chia sẻ có

nghĩa là tri thức trong ontology được kết hợp xây dựng và được chấp nhận bởi một nhóm hoặc một cộng đồng chứ không theo tri thức chủ quan của cá nhân.

(Motta, 1999) định nghĩa “ontology là đặc tả một phần của tập hợp các khái niệm được sử

dụng hình thức hóa các tri thức của một lĩnh vực cần quan tâm Vai trò cơ bản của một ontology

là nhằm chia sẻ và sử dụng lại tri thức” (Uschold, 1998) phát biểu rằng ”ontology chứa các định

nghĩa và quan hệ giữa các khái niệm, hình thành một cấu trúc lĩnh vực và giới hạn ngữ nghĩa của thuật ngữ trong từ vựng” (Weiss, 1999) định nghĩa "ontology là một đặc tả của các khái niệm

và quan hệ trong lĩnh vực quan tâm Ontology không chỉ là phân cấp các lớp mà còn mô tả các

quan hệ” Theo định nghĩa của Hendler năm 2001, “ontology là một tập hợp các thuật ngữ tri

thức (knowledge term), bao gồm từ vựng, các quan hệ ngữ nghĩa, một số luật suy diễn và logic

trong một lĩnh vực đặc thù”.

Nhìn chung, có rất nhiều định nghĩa về ontology, mỗi định nghĩa thể hiện một cách nhìn

Trang 6

khác nhau và đi kèm với nó là một phương pháp luận và kỹ thuật xây dựng ontology Một định

nghĩa khác mang tính tổng hợp và đúng theo định hướng xây dựng hệ thống ứng dụng của đề

tài như sau: "Ontology là bản mô tả tường minh các khái niệm trong một miền ứng dụng nao

đó, xác định một bảng từ vựng chung cho những người cần chia sẻ thông tin trong một lĩnh vực,

bao gồm định nghĩa của các khái niệm cơ bản mà máy tính có thể hiểu được, các quan hệ ngữ

nghĩa giữa chúng, cùng một số luật logic và suy diễn, cho phép suy luận khái niệm mới, quan

hệ mới từ các khái niệm hay quan hệ đã có” (Lê Tấn Hùng, 2006) [4]

1.2 Các thành phần của ontology

Ontology được xây dựng thường có các thành phần cơ bản sau:

+ Các lớp (class) (tưởng ứng với các concept - khái niệm): là trung tâm của hầu hết cácontology, mô tả các khái niệm trong miền lĩnh vực Các lớp thường được tổ chức phân cấp

và áp dụng kỹ thuật thừa kế Một lớp có thể có các lớp con biểu diễn khái niệm cụ thể hơn

so với lớp cha.

+ Thuộc tinh (property hay role, slot): mô tả các đặc tính, đặc trưng, tính chất khác nhaucủa khái niệm và mỗi thuộc tính đều có giá trị Thuộc tính được phân biệt với quan hệ

(relation) dựa trên giá trị là một kiểu dữ liệu (string, number, boolean, ) Một thuộc tính

bản thân nó cũng có các thuộc tính con và cũng có các ràng buộc trên nó.

+ Quan hệ (relation): biểu diễn các kiểu quan hệ giữa các khái niệm Các quan hệ nhị phân

được sử dụng để biểu diễn thuộc tính Tuy nhiên, giá trị của quan hệ khác với giá trị củathuộc tính ở chỗ giá trị của quan hệ là một khái niệm

+ Thực thể hay thể hiện (instance): biểu dién các phần tử riêng biệt của khái niệm, là các thé

hiện của lớp Mỗi thể hiện của lớp biểu diễn một sự cụ thể hóa của khái niệm đó.

+ Ham (function): là một loại thuộc tính hay quan hệ đặc biệt, trong đó, phần tử thứ n làduy nhất đối với n-1 phần tử còn lại

+ Tiền đề (Axioms): biểu diễn các phát biểu luôn đúng mà không cần phải chứng minh haygiải thích Axioms được sử dụng để kiểm chứng sự nhất quán của ontology hoặc cơ sở tri

thức Cả hai thành phần hàm và tiên đề góp phần tạo nên khả năng suy diễn trên ontology

1.3 Một số ontology hiện có

Cùng với sự ra đời và phát triển của Web có ngữ nghĩa, ontology được sử dụng rộng rãi

trong việc nghiên cứu và phát triển các mô hình tìm kiếm tài liệu theo ngữ nghĩa Trong đó,

nhiều công trình với mục đích nâng cao hiệu quả truy hồi tài liệu đã nghiên cứu khai thác cácontology về thực thể có tên như KIM, YAGO; khai thác ontology về từ vựng như WordNet; hoặc

mở rộng câu truy vấn dựa trên các ontology về sự kiện Các tác giả David Sanchez [37], Miriam

Fernandez [70] , Soner Kara [88] đã áp dung ontology cho việc biểu diễn ngữ nghĩa và truy tìm

Trang 7

thông tin, qua đó chuyển việc đánh giá truy vấn dựa trên các từ khoá sang sự đánh giá truy vấn

dựa trên khái niệm và dùng tri thức trong Ontology để đo lường mức độ tương đồng về ngữ

nghĩa giữa các cấu trúc khái niệm được so khớp Các công trình nước ngoài tập trung chính vào

các xử lý cho Web tiếng Anh.

Một số ontology có sẵn thường được sử dụng trong nghiên cứu về các hệ thống tìm kiếm

tài liệu có thể kế đến:

+ WordNet

WordNet là một cơ sở dit liệu về từ trong đó các từ được nhóm lại thành các tap từ đồng nghĩa

gọi là synsets, các synset được gắn kết với nhau nhờ các quan hệ ngữ nghĩa WordNet là một

loại từ điển có tính trực quan cao, là một mạng ngữ nghĩa đồ sộ, được phát triển từ năm 1985,

đến nay phiên bản mới nhất là 3.0 chứa hơn 155.287 từ và tổ chức thành 117.659 synset tiếng,

Anh, kích cỡ khoảng 12MB Các nhà ngôn ngữ học, tâm lý học và tin học đã bỏ ra gần 20 năm

để xây dựng hệ thống này và ngày nay chúng vẫn còn được nâng cấp về số lượng và chất lượng.WordNet đầu tiên trên thế giới được phát triển cho tiếng Anh tại Dai hoc Princeton, Mỹ Cho

đến nay đã có nhiều WordNet cho các ngôn ngữ khác như: các ngôn ngữ Châu Âu, tiếng Nhật,tiếng Thái và cả tiếng Việt.

điển Mỗi khái niệm trong SENSUS được đại diện bởi một node và các khái niệm được liên kết

với nhau theo một hệ thống phân cấp IS-A

Library of Congress Classification (LCC) là một hệ thống phân loại dùng cho thư viện bao.gồm nhiều lĩnh vực khoa học, được phát triển bởi Thư viện Quốc Hội Mỹ (Library of Congress).LCC được sử dụng để phân loại sách trong các thư viện học thuật lớn ở Hoa Kỳ và một số quốcgia khác Tuy nhiên, cây phân cấp của LCC phát triển theo chiều ngang hơn là chiều trên xuống,chưa đặc tả được tri thức miền ở mức độ chỉ tiết cần thiết Ví dụ, lĩnh vực Khoa học Máy tínhchỉ bao gồm ba chủ đề là Electronic computers, Computer science, va Computer software

+ Các ontology về thực thê có tên KIM và YAGO

KIM ontology chứa khoảng 300 lớp thực thể, 100 thuộc tính và kiểu quan hệ, và 77.500 thực thể

có tên với hơn 110.000 bí danh Thực thể có tên là con người, tổ chức, nơi chốn, và

tượng khác Mỗi thực thể có tên có ba đặc trưng cơ bản là tên, lớp và định danh Mỗi thực thể

có thể có nhiều tên khác nhau, được gọi là các bí danh của thực thể đó Mặt khác, cũng có nhiều

số đối

thực thể khác nhau nhưng có cùng tên Mỗi thực thể thuộc về một lớp trực tiếp của nó và đồng,

thời thuộc về các lớp cha của lớp trực tiếp này Mỗi thực thể có tên có một định danh xác định

Trang 8

duy nhất nó YAGO chứa khoảng 1,95 triệu thực thể, 93 kiểu quan hệ và 19 triệu sự kiện mô tả

quan hệ giữa các thực thể Cũng như KIM, các kiểu thuộc tính và quan hệ giữa các thực thể có

tên trong YAGO là nhị phân

+ Các ontology miền - lĩnh vực (Domain Ontology)

Ontology miền hay còn được gọi là ontology lĩnh vực (Domain Ontology) là những ontology có

thể tái sử dụng trong một lĩnh vực nào đó, nó cung cấp từ vựng về các khái niệm và các mối

quan hệ trong một lĩnh vực UMLS là nguồn tri thức chứa các khái niệm trong lĩnh vực y khoa

và mối quan hệ giữa các khái niệm đó UMLS là một cơ sở dit liệu từ vựng rất lớn, đa mục dich

và đa ngôn ngữ, được thư viện quốc gia về y khoa của Hoa Kỳ thiết kế, tạo ra, duy trì và được

cập nhật hàng quý Nó được xây dựng từ một số lượng lớn các nguồn từ vựng, các từ điển, danh

sách các từ quan trong trong thống kê sức khỏe, chăm sóc sức khỏe, nghiên cứu y khoa Phiên bản UMLS 2006 tập hợp gồm 139 nguồn từ vựng thuộc tri thức y học ở 17 ngôn ngữ khác nhau,

gần 1.3 tỉ khái niệm (concept), 135 “loại ngữ nghĩa” (semantic type) và 54 mối quan hệ (semantic

relation) giữa các loại ngữ nghĩa Mỗi khái niệm trong UMLS Metathesaurus được gán cho ítnhất một loại ngữ nghĩa, và một quan hệ ngữ nghĩa được xác định trên các loại ngữ nghĩa này.

Tri thức UMLS được phép sử dụng miễn phí nhằm phục vụ cho các mục tiêu nghiên cứu hay

ứng dụng thực tế

Một số ontology tiếng Anh thuộc lĩnh vực y tế khác được đề cập nhiều trong thời giangần đây là MeSH, GENIA, SNOMED, Disease Ontology, Ontology BioCaster Medical Subject

Heading (MeSH) là một ontology tiêu chuẩn trong lĩnh vực Y khoa, được phát triển và duy trì

bởi Thư viện Y khoa Quốc gia Hoa Kỳ (ational Library of Medicine of the United States) Các ontology này cũng được sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên, tìm kiếm thông

tin, trích chọn thông tin, phân lớp và tóm tắt văn bản Trong đó, tồn tại một ontology đề cậpđến các thuật ngữ y tế trong tiếng Việt, đó là Ontology Biocaster Đây là ontology được nghiêncứu theo dự án Biocaster được phát triển tại Viện Tin học Quốc gia Nhật Bản với sự cộng tác

của các trường đại học tại Nhật Bản, Thái Lan, Việt Nam Đây là ontology viết cho nhiều ngôn ngữ như Nhật, Anh, Thái, Vi

đó có 371 thuật ngữ tiếng Việt liên quan đến bệnh, virus, các triệu chứng của Việt Nam

Ontology BioCaster có các thuật ngữ của nhiều thứ tiếng trong

ệm (taxonomy) nổi tiếng là

Trong lĩnh vực Khoa học Máy tính, một cây phân cấp khái

ACM Computing Classification System, được phát triển và duy trì bởi một hiệp hội quốc tế về

nghiên cứu, giáo dục ngành Khoa học máy tính và Tin học uy tín nhất thế giới là ACM, viết tắt

từ Association for Computing Machinery ACM cung cấp một cách phân loại các ngành, chuyênngành liên quan đến Tính toán và Khoa học máy tính với khoảng 10 chuyên ngành rộng và

hàng trăm chuyên ngành hẹp Tuy nhiên, sự phân loại này gặp phải một số hạn chế: đặc biệt là

hệ thống chỉ chứa khoảng 2000 chủ đề nghiên cứu (research topic) và được xây dựng theo cách

thức thủ công Điều đó dẫn đến quá trình phát triển của taxonomy cực kỳ chậm và tốn nhiều chỉ

còn

phí Phiên bản cuối cùng được cập nhật đến năm 2012 Do đó, mặc dù ACM taxonomy vã

đang được nhiều nhà xuất bản sử dụng, nhưng trên thực tế, sự phân loại này hạn chế cả chiều

sâu lẫn bề rộng và các bản phát hành nhanh chóng lỗi thời

Trang 9

Trong lĩnh vực Vật lý và Thiên văn học, một ontology phổ biến từng được sử dung rộngrãi là Physics and Astronomy Classification Scheme (PACS), nhưng sau đó được thay thế bởiPhysics Subject Headings (PhySH) vào năm 2016 Hiệp hội Vật lý Hoa Kỳ (American PhysicalSociety - APS) đã phát triển PhySH, một sơ đồ phân loại mới có lợi thế là được tạo ra và phát

triển bởi cộng đồng, với sự hỗ trợ của các tác giả, phản biện, biên tập và ban tổ chức hội thao

khoa học, vì vậy các thuật ngữ mới trong lĩnh vực được cập nhật liên tục cho ontology.

Mathematics Subject Classification (MSC) là một taxonomy được sử dụng rộng rãi trong

lĩnh vực Toán học Lược đồ này được duy trì bởi Mathematical Reviews and zbMATH và được

nhiều tạp chí toán học sử dụng Phiên bản cuối cùng có từ năm 2010 và thường thì một phiên bản chính thức mới được phát hành cứ sau 10 năm 1 lần.

JEL classification scheme là một bộ phân loại được sử dụng nhiều nhất trong lĩnh vực

Kinh tế Lược đồ JEL được tạo ra bởi Journal of Economic Literature of the American Economic

Association và lần sửa đổi lớn của ontology là vào năm 1990 Trong những năm gần day cũng

đã có nhiều thay đổi cho ontology để phản ánh những tiến bộ trong lĩnh vực này

1.4 Các phương pháp xây dung ontology

Do nhu cầu ontology ngày càng phát triển, nên nhiều phương pháp khác nhau để xây

dựng ontology một cách tự động hoặc bán tự động được các tác giả nghiên cứu và phát triển

Các phương pháp này giúp giảm bớt chỉ phí về thời gian và công sức so với việc xây dựng các

ontology một cách thủ công Nhưng mặt khác chất lượng của các ontology thu được từ nhữngphương pháp này phụ thuộc khá nhiều tùy vào thuật giải được sử dụng, nguồn dữ liệu mà thuật

giải sử dụng, cũng như từng lĩnh vực mà phương pháp được áp dụng vào.

Một trong những hướng tiếp cận xây dựng ontology chính là rút trích ontology từ các nguồn đữ liệu khác nhau Các phương pháp rút trích ontology sử dụng nhiều cách thức khác

nhau từ các phương pháp máy học, xử lý ngôn ngữ tự nhiên cho đến thống kê Các phương pháp

xử lý ngôn ngữ tự nhiên dựa trên việc phân tích từ vựng, phân tích cú pháp của câu trên mộttập hợp các văn bản thuộc về một domain nào đó, từ đó rút trích ra các khái niệm và xây dựng

mỗi quan hệ về mặt ngữ nghĩa giữa các khái niệm Phương pháp thống kê sẽ tiến hành thống

kê trên các nguồn dữ liệu để rút trích ontology Các phương pháp sử dụng việc học máy sẽ khai

thác các nguồn dữ nhằm rút ra các đặc trưng của dữ liệu, các khuôn mẫu cũng như các tập

luật phục vụ cho việc rút trích ontology Một trong những hướng tiếp cận đáng quan tâm là rút

trích ontology từ đữ liệu web Các nguồn đữ liệu được dùng trong việc rút trích ontology khá đa dang, từ đữ liệu dang văn bản, dữ liệu quan hệ trong các cơ sở dit liệu quan hệ, cho đến đữ liệu

từ web Trong đó nguồn dữ liệu từ web có lợi thé là nguồn thông tin phong phú, da dang và có

sẵn trên internet.

Các hệ thống xây dung ontology có thể sử dung dữ liệu từ nhiều nguồn khác nhau để

xây dựng nên ontology, có thể được phân chia thành các loại sau đây:

+ Dữ liệu có cấu trúc: Hệ thống xây dựng lên các ontology dựa vào các dữ liệu có cấu trúc

Trang 10

như từ database schema, từ những ontology đã có sẵn, từ những co sở tri thức va từ các

mạng từ vựng như WordNet.

+ Dữ liệu bán cấu trúc: đây cũng là một nguồn khác mà các hệ thống thường sử dụng, bao

gồm các từ điển, các văn bản HTML và XML

+ Dữ liệu không có cấu trúc: đây là nguồn dữ liệu khó rút trích tri thức nhất Các hệ thống

xây dựng ontology phải thực hiện các công đoạn xử lý ngôn ngữ tự nhiên trên các văn

bản này để khám phá ra các khái niệm và các quan hệ Dữ liệu dang này bao gồm các vănbản viết trên ngôn ngữ tự nhiên hoặc các văn bản lấy từ web

Một hạn chế chung của hầu hết các ontology kể trên là đều được tạo ra và duy trì bởi

các chuyên gia trong lĩnh vực theo một cách thức thủ công Việc thiết kế và xây dựng ontology

miền chuyên biệt đòi hỏi nhiều công sức và thời gian Do đó, các ontology miền có xu hướng

phát triển tương đối chậm và nhanh chóng trở nên lỗi thời Để khắc phục vấn đề này, một số

tổ chức (ví dụ như Hiệp hội Vật lý Hoa Kỳ) kêu gọi sự nỗ lực lớn từ cộng đồng để phát triển

ontology của họ Tuy nhiên, chiến lược Crowdsourcing (thu thập thông tin hoặc ý kiến từ một

nhóm người đông đảo) cũng gặp phải những hạn chế, đặc biệt là về độ tin cậy của các kết quả thu thập được Kashyap đề xuất một phương pháp tạo ontology với sự tham gia của các chuyên

gia ở mức độ tối thiểu bằng việc tái sử dụng các thông tin sẵn có như các từ điển dữ liệu, từ điển

chuyên đề

Như đã biết, một trong những thành phần quan trọng nhất của ontology là các khái niệm

và các mối quan hệ Các thành phần này được xây dựng càng chính xác và đầy đủ thì tri thức

của ontology càng được đánh giá tốt Việc định nghĩa ra các các khái niệm và các mối quan hệ

có thể dựa trên các kinh nghiệm và sự tổng hợp tri thức của con người Tuy nhiên, sẽ là tốt

hơn rất nhiều nếu như có một công cụ mà có khả năng hỗ trợ tự động tìm ra được các thành

phần này nhằm hỗ trợ xây dựng ontology Một hướng tiếp cận khác là tự động hoặc bán tự động

tạo các ontology bằng cách sử dụng các phương pháp luận theo hướng dữ liệu Trong lịch sửnghiên cứu, chúng ta có thể tìm thấy nhiều cách tiếp cận để học các taxonomy hoặc ontology

dựa trên xử lý ngôn ngữ tự nhiên, kỹ thuật phân cụm, phương pháp thống kê Ví dụ, Text2Onto.

[75] là một framework để học các ontology từ một tập các tài liệu Cách tiếp cận này xác định

các từ đồng nghĩa, phân cấp lớp cha/lớp con thông qua việc áp dụng các kỹ thuật xử lý ngôn

ngữ tự nhiên trên cấu trúc câu, trong đó các cụm từ như ”such as”và ”and other”ngụ ý là có một

mối quan hệ phân cấp giữa các thuật ngữ Phương pháp này có một số điểm tương đồng vớithuật toán Klink-2 [45], nhưng yêu cầu xử lý toàn bộ nội dung của tài liệu TaxGen là một cách

tiếp cận khác để tạo tự động taxonomy từ một kho ngữ liệu bằng một thuật toán ”hierarchical

agglomeration clustering”và các kỹ thuật khai thác văn bản Thuật toán gom cụm trước tiên xác

định các cụm dưới cùng bằng cách quan sát các đặc trưng ngôn ngữ trong tài liệu, chẳng hạn

như đồng xuất hiện của các từ, tên người, tên tổ chức, thuật ngữ miền và các từ quan trongkhác từ văn bản Sau đó, các cụm được tổng hợp lại tạo ra các cụm cấp cao hơn, tạo thành hệ

thống phân cấp Một cách tiếp cận khác để tự động tạo hệ thống phân loại là phương pháp gọi

là "subsumption method”[20], phương pháp này tính xác suất có điều kiện để một từ khóa được

Trang 11

kết hợp với một từ khóa khác dựa trên sự đồng xuất hiện của chúng Với một cặp từ khóa, hệ

thống này cố gắng tìm hiểu liệu có mối quan hệ Subclass of (cũng còn được gọi là subsumption

relationship) giữa chúng hay không, sử dụng một số heuristic cho trước Tuy nhiên, cách tiếp

„ trong khi Klink-2

còn đi xa hơn bằng cách tận dụng các nguồn bên ngoài Cũng có thể kết hợp học ontology và

cận này chỉ giới hạn trong phân tích thống kê về các từ khóa đồng xuất

chiến lược nguồn cung ứng cộng đồng (crowdsourcing ) bằng cách phát triển các phương pháp

có xem xét cả độ đo thống kê và ý kiến của người dùng [62] Phương pháp này kết hợp nỗ lực

của con người và sự tính toán của máy móc bằng cách thuê nguồn lực cộng đồng để đánh giámột ontology được tạo tự động, với mục đích kiểm tra tính đúng đắn và chọn lọc các quan hệđược trích xuất

1.5 Nền tảng công nghệ ontology

Các tiếp cận dựa trên ontology cho vấn đề tìm kiếm tài liệu đòi hỏi sự mô tả một cách hệthống miền tri thức của ứng dụng, xem nó như là một mô hình ngữ nghĩa được thống nhất vàdùng chung cho những người cần chia sẻ thông tin tri thức trong một lĩnh vực Ngày nay, chúng

ta phải thừa nhận rằng việc xây dựng một mô hình miền hay ontology là một trong những bướcquan trọng trong phát triển những hệ tìm kiếm tài liệu theo ngữ nghĩa Trong những năm gần

đây, các nhà khoa học trên thế giới đã xây dựng một số môi trường để phát triển và sử dụng các

ontology bao gồm các ngôn ngữ, các mô hình, các công cụ hỗ trợ phát triển, tích hợp, đánh giá,

lưu trữ và truy vấn ontology cùng với những cơ sở hạ tầng có thể làm tiêu chuẩn cho việc biểu

diễn tri thức, chia sẻ, trao đổi, và suy diễn tự động Đặc biệt, ta cần quan tâm đến mô hình biểudiễn tri thức của các ngôn ngữ và công cụ, việc tri thức gồm những thành phần gì và biểu diễn

tri thức như thế nào là hết sức quan trọng

Các ngôn ngữ ontology điển hình bao gồm: LOOM, LISP, Ontolingua, XML, SHOE, RDF,

RDF Schema, OIL, DAML+OIL va OWL Từ những năm 90, nhiều ngôn ngữ ontology đã ra đời,

những ngôn ngữ này xuất phát từ lĩnh vực Trí tuệ nhân tạo Chúng được gọi là những ngôn

ngữ truyền thống (Traditional Ontology Language) để phân biệt với những ngôn ngữ mới hơn

ra đời sau thuộc về nhóm ngôn ngữ đánh dấu ontology (Ontology Markup Language) CycL là

một trong những ngôn ngữ ra đời đầu tiên phục vụ cho việc xây dựng ontology Cyc Với sự

phát triển nhanh chóng của Internet, những ngôn ngữ ontology với nền tảng là ngôn ngũ web

ra đời Cú pháp của chúng dựa vào các ngôn ngữ đánh dấu (markup language) đã tồn tại sẵn đó

là HTML, hay XML (những ngôn ngữ đánh dấu này vốn ra đời với mục đích không phải là thểhiện ontology mà được dùng để thể hiện dữ liệu và trao đổi dữ liệu) Một số ngôn ngữ được sử

dụng phổ biến hiện nay:

+ SHOE

SHOE do nhóm tác giả Luke va Hefin đề xuất vào năm 1996, có thể xem như là ngôn ngữ đánh

dau ontology đầu tiên Ngôn ngữ này được xây dựng dựa trên HTML, nhưng sử dụng các thẻ

khác nhờ đó cho phép thêm ontology vào các tài liệu HTML (các thẻ này không được định nghĩa

Trang 12

trong ngôn ngữ HTML nên những gì thêm vào sẽ không hiện lên trên trình duyệt ) Sau này

SHOE được chuyển qua sử dụng trên nền XML

+ RDF (Resource Description Framework)

RDF (Resource Description Framework) được đề xuất bởi Lassila va Swick, và được phát

triển tại W3C (World Wide Web Consortium) Có thể nói rằng RDF chính là nền tảng và là linh

hồn của Web có ngữ nghĩa RDF là một ngôn ngữ được dùng để mô tả thông tin về những tàinguyên trên Web và mô tả ngữ nghĩa của những thông tin ấy theo cách mà máy có thể hiểu

được Như vậy, RDF biểu bién metadata về những tài nguyên trên Web như tiêu đề, tác giả, va

u Web, Bằng cách kháiquát hóa khái niệm "tai nguyên Web”, RDF cũng có thể được sử dụng để biểu diễn thông tin về

”những thứ”có thể được nhận diện trên Web, ngay cả khi chúng không thể được truy hồi một

cách trực tiếp trên Web RDF cung cấp một framework chung cho việc biểu diễn thông tin này vìngày sửa đổi của một trang web, thông tin bản quyền về một t

thế nó có thể được trao đổi giữa các ứng dụng mà không làm mất đi ý nghĩa của thông tin RDF

mô tả tài nguyên trên Web thông qua URI (Uniform Resource Identifier) và trong RDF, thông

tin được thể hiện bởi bộ ba Subject - Predicate - Object Các bộ ba này có thé được biểu diễn

dưới dang đồ thị, gọi là đồ thi RDF (RDF Graph) Tất cả các phần tử trong bộ ba là các tài nguyên

được xác định duy nhất bởi các URI, riêng thành phan object, nó có thể là URI, là hằng chuỗi

hoặc là một con số Cú pháp chính qui cho RDF là RDF/XML Nó là sự kết hợp giữa cú pháp của

ngôn ngữ XML và khả năng mô tả tài nguyên thông qua các URI của RDE.

RDF Schema (RDFS) là sự mở rộng của RDF để cho phép mô tả các lớp (classes) và các

thuộc tinh (properties) Trong RDFS, lóp là một nhóm các tài nguyên có liên quan với nhau, và

thuộc tính chính là quan hệ giữa các Subjects và Objects trong RDF RDFS được mỏ rộng tử RDF

và bổ sung thêm các tập tử vựng dé hỗ trợ cho việc xây dung các ontology được dé dàng, từ đó

hình thành nên ngử nghĩa cho thông tin, là co sở để xây dựng các công cụ tìm kiếm ngử nghĩa.

+ OWL ( Web Ontology Language)

OWL ( Web Ontology Language) là kết quả của một nỗ lực nghiên cứu chung giữa hai

ngôn ngữ biểu diễn tri thức khác nhau (nhằm hỗ trợ xây dựng và quản lý ontology trên Web) đó

là: DARPA Agent Markup Language Ontology (DAML-OIL) và Ontology Interface Layer (OIL).

Day là kết quả của nhóm nghiên cứu Web-Ontology (WebOnt) do World Wide Web Consortium

(W3C) thành lập vào năm 2001, mục tiêu của nhóm là nghiên cứu và phát triển một ngôn ngữ

đánh dấu mới dành cho Web ngữ nghĩa OWL là một sự mở rộng từ RDF và RDFS Mục đích

chính của OWL là đưa khả năng suy luận vào Web có ngữ nghĩa OWL là một ngôn ngử mô tả

tử vựng phong phú, trong đó có sự mở rộng từ các lớp (Class), lớp con (SubClass), thuộc tính

(Property), thuộc tính con (Subproperty) nguyên thủy của RDF và bổ sung thêm nhiều thành

phần mới như mối quan hệ giữa các lớp, các giới han (Restrictions) trên tập giá trị (Range), tậpxác định (Domain), điều kiện về số lượng phần tử trong tập hợp, hay các phép toán hội, giao, lấy

phần bù trên tập hợp, tính chất đối xứng, bắc cầu của quan hệ, tính chất tương đương, nghịch

đảo của hàm số OLW có ba loại: OWL Lite, OWL DL và OWL Full Mỗi loại OWL sẽ có những,đặc tính riêng và do đó sẽ phù hợp trong ngữ cảnh của một ứng dụng cụ thể nào đó

Trang 13

Hiện nay trên thế giới có rất nhiều loại công cụ khác nhau hỗ trợ xây dựng và phát triểnontology, có thể chia làm 4 nhóm:

+ Nhóm các công cụ phát trién ontology

Bao gồm các môi trường và công cụ hỗ trợ cho việc xây dựng từ đầu một ontology mới hoặc tái sử dụng các ontology có sẵn, cho phép thực hiện các tính năng cơ bản như soạn thảo, xem

xét, hiển thị, nhập xuất ontology dưới dạng các ngôn ngữ khác nhau, đưa ra hình ảnh đồ họa

của ontology, xây dựng các thư viện ontology và có thể tra cứu, suy diễn trên ontology Một số

môi trường phát triển được xây dựng từ trước như Ontosaurus, Ontolingua và WebOnto Các bộcông cụ này hiện nay không còn đáp ứng đủ nhu cầu của người sử dụng Thế hệ mới các bộ công

cụ xây dựng ontology có nhiều ưu việt cũng như tính năng hơn hẳn được sử dụng nhiều gần đây

bao gồm OntoEdit, OiIED,WebODE, Chimera , Apollo, DAG-Edit và Protégé Trong đó, Protégé

được xem là một trong những bộ công cụ được sử dụng rộng rãi nhất hiện nay, được phát triển

bởi Trường Đại học Stanford dựa trên hai mục tiêu: có thể tương thích với các hệ thống khác,

dễ dàng sử dụng và hỗ trợ các công cụ trích chọn thông tin Phần chính của môi trường này làmột biên tập ontology, bên cạnh đó, Protégé còn bao gồm rất nhiều các plugin nhằm hỗ trợ chứcnăng như quản lý nhiều ontology, dịch vụ suy luận (inference service), hỗ trợ về vấn đề ngôn

ngữ ontology.

- Nhóm công cụ lắp ghép, tích hợp ontology

Các công cụ hỗ trợ cho việc tổng hợp, tính hợp các ontology đã có trong cùng một miền ting

dụng thành một ontology mới Nhờ có những công cụ này, việc tái sử dụng ontology được đẩymạnh và giúp cho công nghệ ontology ngày càng phát triển

+ Nhóm công cụ đánh giá ontology

Các công cụ đưa ra các tiêu chuẩn để đánh giá và chứng nhận chất lượng của ontology,nhằm đảm bảo các ontology và các công nghệ liên quan sẽ có một mức chất lượng nhất định

Ngày nay, ontology là một công nghệ đang phát triển rất nhanh, một số lượng lớn các phươngpháp và ứng dụng dựa trên ontology đang được nhiều tổ chức khác nhau trên thế giới phát triển

Điều này dẫn đến việc tồn tại nhiều ontology khác nhau về kích thước, độ phức tạp, mô hình,

cơ sở hình thức hóa, hay về khả năng chia sẻ nên yêu cầu đặt ra là cần có các tiêu chuẩn đánhgiá hay một cơ sở để chuẩn hóa các mức chất lượng của ontology trước khi sử dụng

+ Nhóm lưu trũ và truy vấn ontology

Nhóm này giúp cho việc sử dụng và truy van ontology một cách tối wu Khi đã có những ontology

vô cùng lớn, ta cần phải quan tâm đến vấn đề lưu trữ và truy cập ontology Dé lưu trữ ontology

có thể sử dụng các loại cơ sở đữ liệu như ORDBMS (Postgre SQL), Berherley DB, RDBMS, BRA Nhiều ngôn ngữ truy vấn mới được xây dựng để phục vụ cho việc tìm kiếm thông tin trên

CO-ontology chẳng hạn như các ngôn ngữ tựa SQL, ngôn ngũ F-Logic hay các ngôn ngữ RDF Tuy

nhiên, phần lớn các ngôn ngữ truy vấn này chỉ hỗ trợ cho một ngôn ngữ ontology duy nhất.

Trang 14

1.6 Một số hệ thống tìm kiếm tài liệu theo ngũ nghĩa dựa trên ontology

Phần này sẽ giới thiệu một số hệ thống tìm kiếm tài liệu, tập trung vào chức năng tìmkiếm theo ngữ nghĩa va phần lớn là các nghiên cứu trong ngữ cảnh của Semantic Web Mỗi hệ

thống được xây dựng dựa trên: (a) Một số ontology có mục đích sử dụng và độ phức tap trong

biểu diễn khác nhau và (b) một phương pháp tìm kiếm cổ điển áp dụng trên tập văn bản thôđược làm giàu với các metadata được cung cấp bởi ontology.

Một ví dụ điển hình của mô hình tìm kiếm thông tin trên Semantic Web là OWLIR tology Web Language and Information Retrieval) Hệ thống này tìm kiếm các tài liệu có chứa

(On-cả free text lẫn những chú thích ngữ nghĩa Cả tài liệu và câu truy vấn sẽ được “đánh dấu” vớinhững câu lệnh trong ngôn ngữ DAML + OIL Hệ thống có 3 chức năng chính được xem xét (xét cho cả trang web được đánh dấu ngữ nghĩa và các tài liệu văn bản): 1) Tìm kiếm và xếp hạng

các trang web hoặc các tài liệu có liên quan đến truy vấn của người dùng (miền tri thức về cácnhà lãnh đạo của Hoa Kỳ và Afghanistan),2) Trả lời những câu hỏi đơn giản như “who is thepresident of the USA?” ,3) Trả lồi những câu hỏi phức tạp hơn như “what is the current situation

in Afghanistan?”

Dé giải quyết 3 vấn đề nêu trên, OWLIR sử dung 2 thành phần chính là: a) Một tập hợp

các ontology được mã hóa trong ngôn ngữ DAML + OIL, cho phép người sử dụng đặc tả những

yếu tố mà họ quan tâm trong các sự kiện thuộc miền ứng dụng Ví dụ, người dùng có thể chú

thích cho các sự kiện bao gồm một số thông tin như người phát ngôn, phát thanh viên, các loại

phương tiện truyền thông và kênh phát sóng, b) Một cơ chế truy xuất thông tin hỗn hợp dựa

trên WONDIR framework Đây là một hệ thống thực hiện trích xuất các thông tin ngữ nghĩa từ

tài liệu, chú thích ngữ nghĩa tự động, thực hiện suy diễn trên tri thức đã được mã hóa trong cácontology Để tính toán độ tương đồng ngữ nghĩa giữa các tài liệu, một cách tiếp cận theo mô

hình ngôn ngữ (language model) được sử dụng thay cho mô hình Boolean hay mô hình không gian vector truyền thống.

Một điểm đặc biệt của OWLIR là ontology trở thành một phương tiện giao tiếp giữa người

dùng và hệ thống, hỗ trợ truy tìm thông tin dựa trên nội dung của trang web và không gian các

khái niệm, do đó khắc phục được một số hạn chế của tìm kiếm theo từ khóa OWLIR sử dung

metadata đã được thêm vào trong quá trình rút trích thông tin để suy ra các mối quan hệ ngữ

nghĩa Những mối quan hệ này được sử dụng để xác định phạm vi tìm kiếm và cung cấp nhữngphản hồi chính xác hơn cho người dùng Khi tiến hành thực nghiệm trên ba loại tài liệu khác

nhau: free text, text có kèm theo chú thích ngữ nghĩa và text với các chú thích ngữ nghĩa đượctăng cường nhờ vào phép suy diễn, kết quả cho thấy độ chính xác (Precision) trung bình của hệthống là 25.86% cho dữ liệu phi cấu trúc, 66,15% cho dữ liệu có cấu trúc cộng với free text và

Độ bao

phủ (Recall) tương ứng là 20%, 85% và 90% Các giá trị thực nghiệm cho thấy hiệu quả tìm kiếm

được cải thiện đánh kể bởi các mô hình đã được đề xuất

85.48% đối với trường hợp đữ liệu có cấu trúc cộng với free text và dữ liệu được suy dié

Một ví dụ khác của hệ thống tìm kiếm tài liệu trên Semantic Web sử dụng ontology và đo

Trang 15

lường tương đồng ngữ nghĩa giữa các tài liệu là hệ thống Swoogle Các tài liệu web được mô tả

theo chuẩn RDF hoặc OWL Swoogle rút trích metadata cho mỗi tài liệu và tính toán mối quan

hệ giữa các tài liệu Metadata có thể bao gồm những đặc trưng về cú pháp và ngữ nghĩa của

những tà

được thực hiện bằng cách sử dụng một phép chuyển đổi nhằm chuyển tài liệu cùng với thông

u web cũng như quan hệ ngữ nghĩa tìm ẩn giữa các tài liệu này Quá trình tìm kiếm

tin ngữ nghĩa (metadata) tương ứng vào trong một biểu diễn dạng text nào đó khác và tiến hành

so khớp dựa trên các biểu diễn này Trên thực tế, hệ thống Swoogle là online và ở thời điểm 2006

hệ thống đã phát hiện, phân tích hơn 11.000 tài liệu web, tuy nhiên các tác giả không báo cáo

phần thực nghiệm hoặc có bất kỳ số liệu nào để đánh giá về chất lượng tìm kiếm của hệ thống

Có thể nói, thị trường các công cụ tìm kiếm hiện nay đã trở nên đông đảo và gia tăngkhông ngừng Nếu chỉ bàn về tìm kiếm theo từ khóa, Google đã không có đối thủ Tuy nhiên,nếu người dùng không biết rõ về từ khóa họ cần cung cấp cho máy tìm kiếm, họ cần máytìm kiếm “hiểu” ý của họ thông qua ngữ nghĩa hàm ý trong câu truy vấn Đây là điểm mà các

đối thủ của Google như Hakia (hakia.com), Kosmix (kosmix.com), Exalead (exalead.com), Lexxe (lexxe.com), Factbites (factbites.com), Swoogle (swoogle.umbc.edu), Kngine (kngine.com), Duck- DuckGo (duckduckgo.com), Evri (evri.com), Truevert (truevert.com), SenseBot (sensebot.net),

Powerset (powerset.com), DeepDyve (deepdyve.com), Cognition (cognition.com), Wolfram pha (wolframalpha.com) nhắm vào Gần đây, tập đoàn khổng lồ Google cũng vừa cải tiến công

Al-cụ tìm kiếm phổ biến của mình qua việc kết hợp với lĩnh vực ngữ nghĩa học nhằm đáp ứng tốthơn nhu cầu của người sử dụng Amit Singhai của Google cho biết công ty đang làm việc trên

một cơ sở dữ liệu khổng lồ về thông tin của các “thực thể” và Google đang nghiên cứu sử dụng

công nghệ tìm kiếm ngữ nghĩa để “xác định thông tin về các thực thể cụ thể” trong trang webnhằm xếp hạng kết quả tìm kiếm, đây sẽ là sự thay đổi đáng kể, bởi công thức xếp hạng trang

web cổ điển phụ thuộc nhiều vào các liên kết đến trang chứ không phải nội dung bên trong nó

Động thái này của Google được cho là bắt kịp chức năng mà Microsoft đã đưa vào công cụ tìmkiếm Bing của hãng này, Bing có thể đưa ra những câu trả lời trực tiếp cho những câu hỏi về

chuyến bay, du lịch và một số mẫu hỏi khác Wolfram Alpha cũng đã cung cấp chức năng tương

tự, sau khi người dùng đưa ra yêu cầu tìm kiếm, Wolfram Alpha sẽ truy vấn đến một bộ dữ liệu

lớn và trả lời người dùng bằng một báo cáo chỉ tiết

Một số đặc biệt nổi bật của các động cơ tìm kiếm theo ngữ nghĩa hiện nay:

+ Hakia: là sản phẩm của TS Riza C Berkan, Hakia biểu diễn tnội dung tài liệu bằng cáchnội suy các câu hỏi có thể liên quan đến tài liêu đó Các kết quả truy vấn sẽ được xếp hạng dựa

trên quá trình phân tích câu (sentence) và mức độ liên quan giữa chúng với các khái niệm có

trong câu truy vấn Kỹ thuật tìm kiếm ngữ nghĩa của Hakia dựa trên ba thành phần chính: 1)

OntoSem là cơ sở dữ liệu ngữ nghĩa trong đó mỗi từ sẽ được phân lớp dựa trên các khái niệm mà

chúng biểu thi; 2) QDEX (query indexing technique), thay cho kỹ thuật đánh chỉ mục đảo phổ

biến ở các động cơ tìm kiếm thông thường, Hakia i suy tất cả các truy van có thể có liên quan

đến nội dung tài liệu (dựa trên đữ liệu từ OntoSem) và đánh chỉ mục các truy vấn này Quá trình

này sẽ làm giảm đi đáng kể khối lượng dữ liệu cần phải đánh chỉ mục, tao ra một lợi thế lớn so

với phương pháp đánh chỉ mục đảo thông dụng khi tìm kiếm; 3) Thành phần cuối cùng là Thuật

Trang 16

toán xếp hạng ngữ nghĩa (SemanticRank algorithm), xếp hạng các nội dung tìm kiếm dựa trênkết quả phân tích câu, mức độ tin cậy và thời gian phát hành của tài liệu Thuật toán này hoạtđộng dựa trên kết quả phân tích nội dung và không phụ thuộc vào các liên kết giữa những nộidung này như trong các mô hình xếp hạng phổ biến khác.

+ Kosmix: dựa trên kỹ thuật phân lớp khái niệm, động cơ tìm kiếm này trình bày kết quảdưới dạng một bảng biểu các nội dung liên quan Hướng tiếp cận này nhắm đến nhu cầu tìm

kiếm thông tin nói chung về một chủ đề cụ thể nào đó hơn là nhu cầu tìm một câu trả lời vắntắt hay một tài liệu cụ thể

+ Exalead: động cơ tìm kiếm hình ảnh này tạo nên sự khác biệt nhờ hệ thống các tùy choncho phép thu nhỏ tập kết quả dựa trên kích thước ảnh, màu sắc và đặc biệt là nội dung Nhiều

tính năng trong số này sau đó mới dần xuất hiện trong các động cơ tìm kiếm khác.

+ SenseBot: động cơ tìm kiếm này trả về một đoạn văn bản tóm tắt các kết quả tìm kiếm

Sử dụng kỹ thuật khai phá văn bản, tóm tắt đa văn bản để rút trích ngữ nghĩa từ các trang web

và trình bày lại chúng cho người dùng một cách thống nhất Một hệ thống các khái niệm sẽ đượchiển thị phía trên kết qủa tìm kiếm, cho phép người dùng định hướng rõ hơn yêu cầu tìm kiếmcủa mình Bằng cách trình bày tóm tắt nội dung của các kết quả tìm kiếm, trong nhiều trườnghợp sẽ giúp người dùng không cần phải đọc hết các trang web có liên quan để tìm kiếm thông

hợp Powerset có thể cho ra câu trả lời trực tiếp bên cạnh danh sách các tài liệu liên quan

1.7 Một số công trình nghiên cứu trong nước có liên quan

Một số công trình nghiên cứu trong nước có liên quan đến đề tài gần đây có thể kể đến

như:

Một trong những nhóm nghiên cứu lớn về lĩnh vực truy tìm thông tin là nhóm của GS Cao.Hoàng Trụ - Trường ĐH Bách Khoa HCM, nghiên cứu chủ yếu về Web có Ngữ nghĩa (Secmantic

web), Cấu trúc Khái niệm (Conceptual Structure) và Tính toán mềm (Soft Computing) Những

công trình nghiên cứu nổi bật của nhóm bao gồm:

+ Dự án lớn cấp Nhà nước “Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác

thông tin Web có ngữ nghĩa” (2004- 2006) [2], trong đó có phát triển một hệ thống quản lý trithức và thông tin cho các thực thể có tên ở Việt Nam VN-KIM (dựa theo KIM - Knowledge and

Information Management của Ontotext Lab, Bulgaria) Ontology được xây dựng có khoảng 373

lớp, 114 thuộc tính và khoảng 85000 thực thể về các nhân vật, thành phố, công ty và tổ chức quantrọng và phổ biến có tên ở Việt Nam; hệ thống sử dụng Sesame để lưu trữ, quản lý Ontology và

Trang 17

tri thức, sử dụng công nghệ Lucene để đánh chỉ mục và truy hồi các tài liệu XML đã được chú

thích ngữ nghĩa, nhưng theo các thực thể có tên thay vì theo các từ khoá, sử dụng GATE để rúttrích thông tin về các thực thể có tên, ứng dụng tìm kiếm thông tin cho phép trả lồi gần đúng

và truy vấn bằng đồ thị khái niệm

+ Dé tài cấp ĐHQG trọng điểm “Khai thác và tích hợp thông tin trên Web có ngữ nghĩa”

(2007 - 2009) [1] kế thừa và phát triển tiếp hệ thống VN-KIM Các đóng góp chính của đề tài

bao gồm: mở rộng cơ sở tri thức của VN-KIM với số thực thể tăng thêm; cải thiện động cơ nhậndiện thực thể để tăng độ chính xác và độ đầy đủ của nó; nghiên cứu các mô hình tìm kiếm và

phân cụm tài liệu theo các đặc trưng khác nhau của các thực thể có tên xuất hiện trong tài liệu;nghiên cứu các phương pháp xử lý truy vấn bằng ngôn ngữ tự nhiên dựa trên ontology; cuối

cùng đề tài phát triển các phần mềm ứng dụng để chứng minh tính hữu ích và khả thi của các

ý tưởng nghiên cứu đề xuất

+ Đề tai cấp ĐHQG trọng điểm “Phan giải nhập nhằng thực thể sử dung Wikipedia”

(2012-2014) Nội dung thực hiện là nghiên cứu mở rộng phương pháp luận lặp cải thiện dần để phân

giải nhập nhằng các thực thể; khai thác một ontology về từ vựng là WordNet để biểu diễn sự

tương tự về ngữ nghĩa của các cụm từ trong văn bản nhằm nâng cao hiệu quả phân giải nhậpnhằng; đề xuất phương pháp phân giải nhập nhằng mới kết hợp heuristic với thống kê và học

máy và cuối cùng là nghiên cứu cụ thể bài toán phân giải nhập nhằng các thực thể cho tiếng

Việt, khai thác WordNet tiếng Việt và Wikipedia tiếng Việt, trên cơ sở đó phát triển một phầnmềm ứng dụng giúp cho người đọc tin tức trên Web biết duce định nghĩa trong Wikipedia của

các thực thể có tên và khái niệm chung trong một văn bản

Nhiều chỉ tiết trong các báo cáo khoa học khác của GS Cao Hoàng Trụ được đánh giá

cao và hiện được sử dụng trong nghiên cứu lý thuyết cũng như xây dựng ứng dụng thực tiễn[59, 56] Tuy nhiên, các nghiên cứu của GS Cao Hoàng Tru và các đồng sự chủ yếu về Web ngữ nghĩa hay tìm kiếm trên diện rộng là Internet, bao quát tất cả các lĩnh vực chứ không tập trung

khai thác, xử lý các nguồn tài nguyên chuyên biệt trong một hoặc vài lĩnh vực nào đó Phương

pháp thực hiện tập trung khai thác các nguồn tri thức sẵn có như WordNet, Wikipedia tổng quátcho mọi lĩnh vực, sử dụng và tích hợp nhiều loại công cụ lập chỉ mục và tìm kiếm dựa trên từ

khoá Các nghiên cứu của nhóm cũng đã chuyển hướng dần sang cách tiếp cận xử lý truy vấnbằng ngôn ngữ tự nhiên dựa trên ontology nhưng các ontology được xây dựng bao gồm phần

lớn là tri thức về các thực thể có tên (nhân vật, thành phố, công ty và tổ chức)

Một hướng nghiên cứu khác về lĩnh vực này là của GS.TS Phan Thị Tươi - Trường ĐH

Bách Khoa HCM với hai đề tài nghiên cứu khoa học cấp ĐHQG trọng điểm Một là “Xây dựng

chương trình trợ giúp truy xuất thông tin bằng tiếng Việt” (2005 - 2007) nghiên cứu về IR/CLIR

(Information Retrieval/Cross-Language Information Retrieval) và xây dựng một cơ chế truy xuấtthông tin hỗ trợ tiếng Việt có kết hợp xử lý ngữ nghĩa của yêu cầu truy vấn [12] Giải pháp thực

hiện là từ một truy vấn chứa các từ khóa tiếng Việt dạng danh từ đơn do người sử dụng nhập

vào, hệ thống sẽ phân tích thành tập các từ khóa và tiến hành phân loại các từ khóa theo chủ

đề, kế đến là chuyển ngữ các từ khóa tiếng Việt sang tiếng Anh và truy xuất thông tin bởi công

Trang 18

cụ tìm kiếm có sẵn.

Đề tài [12] đã có những đóng góp tích cực trong việc khảo sát, phân tích đánh giá một

số phương pháp kỹ thuật chuyên biệt trong lĩnh vực truy xuất thông tin như: các phương pháp

mở rộng truy vấn, chuyển ngữ truy vấn, truy xuất thông tin bài báo khoa học, phân tích câuhỏi, suy diễn tìm nội dung trả lời, làm giàu nội dung cơ sở tri thức, và tổ chức cơ sở tri thức Các

kết quả này là cơ sở và nền tảng cho những bước nghiên cứu tiếp theo như trong [6, 95, 104]

Từ kết quả đạt được của đề tài trước đó, nhóm tác giả đã đề xuất đề tài nghiên cứu cấp ĐHQG

trọng điểm thứ hai về “Nghiên cứu và phát triển hệ thống hỏi đáp, truy xuất thông tin có hỗ trợ

tiếng Việt cho thư viện số” (2012-2014) với mong muốn phát triển các nghiên cứu sâu hơn và

ứng dụng nhiều hơn vào lĩnh vực thư viện số, nhằm cung cấp những hỗ trợ tốt hơn cho người

sử dụng trong việc tìm kiếm, phân tích, tổng hợp thông tin trong lĩnh vực thư viện số Nhóm đãtập trung vào các nội dung nghiên cứu sau: Xây dựng và phát triển hệ thống tìm kiếm thông tin

văn bản chuyên biệt phục vụ cho lĩnh vực thư viện số dựa trên cơ sở lý thuyết văn phạm phụ

thuộc để phân tích các câu truy vấn tiếng Việt, lý thuyết về truy xuất thông tin, mở rộng truy

vấn hướng đến ngữ nghĩa và suy diễn tự động để tối ưu tìm kiếm thông tin kết hợp với các giảipháp công nghệ thích hợp; xây dựng và phát triển hệ thống khai thác dữ liệu dạng văn bản từ

những nguồn phù hợp trong lĩnh vực thư viện số trên cơ sở lý thuyết rút trích thông tin cing

với các công nghệ thích hợp; nâng cấp cơ sở tri thức tiếng Việt (VKB) nhằm hỗ phục vụ cho lĩnh

vực thư viện số.

Một số đề tài nghiên cứu có liên quan khác như:

Trong luận án tiến sĩ “Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng

và mở” (Đại học Quốc gia TPHCM, 2010) [11] và trong bài báo khoa học [59], tác giả NguyễnThanh Hiên đã có một số đóng góp kỹ thuật như: đề xuất phương pháp phân giải nhập nhằng

lặp cải thiện dan; đề xuất phương pháp phân hạng các thực thể ứng viên dựa trên một ontology,

và dựa trên thống kê; đề xuất một mô hình lai, kết hợp các heuristic và một mô hình thống kê,

để phân giải nhập nhằng sử dụng Wikipedia

Các đề tài NCKH của PGS/TS Vũ Thanh Nguyên nhằm nghiên cứu một số thuật toántìm kiếm thông tin trên Internet và các phương pháp cải tiến, thử nghiệm xây dựng công cụ tìmkiếm hiệu quả trên mạng cục bộ từ khai thác dữ liệu weblog; nghiên cứu các phương pháp rút

trích thông tin trên Web, xây dựng và thử nghiệm bộ công cụ rút trích tài liệu tham khảo trên

'Web cho các môn Cấu trúc rời rạc, Các phương pháp mô hình hoá và nhập môn mã nguồn mở[1]

Trong [10], tác giả Nguyễn Tuấn Đăng đã xây dựng một công cụ tìm kiếm cục bộ cho các

website song ngữ Anh-Việt có kích thước trung bình và nhỏ (có dưới 500 trang web) Công cụ này tập trung vào việc tim kiếm trên văn bản, theo phương pháp từ khóa, dùng thư viện Lucene cho việc đánh chỉ mục và tìm kiếm theo mô hình Extended Boolean.

Trong [9], nhóm tác giả Đồng Thị Bích Thủy, Nguyễn Phạm Bảo Trâm cũng đã đề xuất

một mô hình tìm kiếm dựa trên khái niệm, hướng tới việc xây dựng một hệ thống các dịch vụ

hỗ trợ việc tìm kiếm thông tin trong thư viện Mô hình này được xây dựng dựa trên các mô hình

Trang 19

lý thuyết cổ điển trong lĩnh vực tìm kiếm thông tin đặc biệt là mô hình không gian vector, trong

đó có sự cải tiến là biểu diễn tài liệu và câu truy vấn theo các khái niệm dưới dạng vector rồi

thực hiện so trùng các vector trong tìm kiếm Các khái niệm được giả định là hoàn toàn độc lập

nhau, mối quan hệ giữa các khái niệm không được xem xét đến.

Trang 20

PHU LUC 2 CÁC PHƯƠNG PHAP BIÊU DIEN TÀI LIEU VĂN BAN VÀ KỸ THUAT TÌM KIỀM

2.1 Các phương pháp tìm kiếm tài liệu

Nhìn chung, có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống tìm kiếm tài liệu (Document Retrieval Systems): hướng thống kê (statistical) và hướng ngữ nghĩa (semantic).

Đối với tiếp cận thống kê, các tài liệu kết quả được truy tìm về hoặc xếp hạng cao là những tàiliệu được xem là thích hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê, trongkhi các phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm lại cố gắng thực hiện việc phântích cú pháp và ngữ nghĩa, nói cách khác là cố gắng mô phỏng lại các cấp độ hiểu của máy tinh

về các văn bản theo ngôn ngữ tự nhiên của con người

Indexing (LSULSA)

Probabilistic Models

‘Vector Space

Model

Embedding-Hình PL2.1 Các phương pháp tìm kiếm tài liệu

2.1.1 Tìm kiếm tài liệu theo tiếp cận thống kê

Một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê thuần túy cóthể kể đến là mô hình Boolean (Standard Boolean model, Extended Boolean model), Không gian

vector (Vector Space model, Generalized vector space model, Topic-based Vector Space Model),

Trang 21

các mô hình xác xuất (Probabilistic models) như Binary Independence Model, Probabilistic evance model based the okapi (BM25) relevance function, Uncertain inference, Language mod-

rel-els, Divergence-from-randomness model, Latent Dirichlet Allocation (LDA) Ý tưởng chính theohướng tiếp cận nay là dùng một danh sách các term xuất hiện trong tài liệu hay câu truy vấn là

dạng biểu diễn của nội dung tài liệu và câu truy vấn đó Term - viết tắt của terminology ( gọi là

thuật ngũ) là một từ hay cum từ biểu thị một khái niệm khoa học

Kỹ thuật: đánh trong số, xử lý NNTN, mở rộng câu truy vấn, nhận diện

thực thể có tên, fuzzy, máy học, khai thác thông tin phản hồi của người

Hình PL2.2 Quá trình phát triển của các phương pháp tìm kiếm tài liệu

Mô hình Boolean

Boolean là một mô hình cổ điển và đơn giản nhất được sử dụng trong các hệ thống cũ

trước đây Năm 1952, Taube và những cộng sự của ông đã đề xuất ý tưởng lập chỉ mục cho các

tài liệu bởi một danh sách các từ khóa (keyword) Ý tưởng đơn giản này vẫn được tiếp tục sử

dụng cho đến ngày nay và đây là một bước tiến vượt bậc trong thời kỳ những năm 1950 Với

mô hình nay, mỗi tài liệu được biểu diễn bởi một vector nhị phân, term thứ i xuất hiện trong tài

liệu dj thi trọng số wịj = 1, ngược lại w¡¡ = 0 Cac câu truy vấn được đặc tả như một biểu thức

Boolean có ngữ nghĩa chính xác, sử dụng ba phép toán cơ bản: not, and, or Ví dụ, với câu truy

vấn “t1 AND t2” thì một tài liệu thỏa nhu cầu tìm kiếm nếu và chỉ nếu tài liệu đó chứa cả hai

term t1 và t2.

Mô hình Boolean được xây dựng dựa trên lý thuyết tập hợp và đại số Boolean nên đơn

giản, dé hiểu, dé cài đặt và sử dụng, mô hình lý thuyết chặt chẽ, rõ ràng, trả về những kết quả

chứa chính xác các từ khóa tìm kiếm Nhược điểm là đặc tính all - or - nothing, hệ thống chỉ xácđịnh hai trạng thái là tài liệu có liên quan hoặc không liên quan với câu truy vấn nên kết quảtrả về hoặc là quá nhiều hoặc không có gì cả, mối quan hệ giữa các term hay thứ tự giữa chúng

Trang 22

không được xét đến Mô hình Boolean kiểm tra sự xuất hiện của một từ khóa biểu diễn trong

một tài liệu hoặc là có hoặc là không Một truy vấn boolean hoặc là đúng hoặc là sai, tương ứngmột tài liệu thỏa hoặc không thỏa hay có liên quan hoặc không liên quan đến nội dung truy van

Đây là một hạn chế đáng kể dẫn đến việc không thể sắp hạng kết quả trả về, không xác định

được mức độ liên quan giữa tài liệu và câu truy vấn và không thể tìm các tài liệu chỉ liên quancục bộ hay còn gọi là liên quan một phần với câu truy vẫn (ví dụ tài liệu d chỉ có chứa term kB,được xem là không liên quan tới câu truy vấn q = kA AND (kB or kC) bởi vì d không có termkA) Hơn nữa, việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean khôngđơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn boolean

Một số tỉnh chỉnh trong việc áp dụng mô hình Boolean cổ điển vào các hệ thống IR: Thứ

nhất, truy vấn có thể được áp dụng cho một thành phần cú pháp đặc biệt của mỗi

điều kiện boolean có thể được áp dụng cho tiêu đề hoặc phần tóm tắt (abstract) hơn là cho toàn

bộ tài liệu Thứ hai, bổ sung thêm một toán tử boolean vào tập hợp ban đầu Ví dụ như toán tử

“proximity” dùng để xác định độ gần nhau giữa hai term trong đoạn văn bản Toán tử này có thểchỉ ra rằng hai term không chỉ cùng xuất hiện trong tài liệu đang xét mà còn cách nhau trong

phạm vi n từ (n = 0 nghĩa là hai từ đứng liền kề nhau) Thứ ba, mô hình boolean cổ điển có thể

được xem như là một cách thức thô sơ để biểu diễn những cụm từ và những mối quan hệ đồng

nghĩa (gần nghĩa) Ví dụ, t1 AND t2 có thể biểu diễn cho một cụm từ gồm 2 term t1 và t2 liênkết với nhau hay t1 OR t2 có thể biểu diễn cho quan hệ đồng nghĩa giữa 2 term Thực tế, đã có

nhiều hệ thống sử dụng ý tưởng này để xây dựng những điều kiện boolean mở rộng một cách

tự động, ví dụ, cho một tập hợp các term truy vấn được cung cấp bởi người dùng, một biểu thứcboolean được tạo lập bằng cách dùng các toán tử AND, OR liên kết các term truy vấn với những

từ đồng nghĩa tương ứng đã được lưu trữ trước.

Mô hình Boolean cải tiến (Advanced Boolean Model )

Tham chí nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là đúng hoặc

t cả hoặc không có gì” dẫn tới trường hợp là tìm thấy một số lượng lớn tài liệu liên quan

hoặc là không có tài liệu nào Hơn nữa, trong trường hợp câu truy vấn bao gồm nhiều term liên

kết với nhau bởi toán tử OR, một tài liệu có chứa tất cả (hay nhiều) term truy vấn cũng khôngđược xem là tốt hơn so với một tài liệu chỉ chứa một term Tương tự, trong trường hợp với toán

tử AND, một tà

tài liệu không chứa term nào Từ những hạn chế nêu trên, nhiều mô hình boolean mở rộng đã

éu chứa được gần hết các term vẫn được xem là không phù hợp giống như một

được nghiên cứu phát triển nhằm sắp hạng kết quả trả về Những mô hình này sử dụng nhiều

toán tử boolean mở rộng khác Ví dụ, một toán tử boolean mở rộng có thể trả về một giá trị chođối số nằm trong khoảng từ 0 đến 1 (thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù

hợp khi so khớp giữa biểu thức logic và tài liệu đang xét (mô hình p - norm là một điển hình)

Ưu điểm của mô hình Boolean: Don giản, dễ hiểu, dễ cài đặt và sử dụng; Mô hình lý

thuyết chặt chẽ, rõ ràng; Trả về những kết quả chứa chính xác các từ khóa tìm kiếm Nhược

điểm: Đặc tính all - or - nothing, hệ thống chỉ xác định hai trạng thái là tài liệu có liên quan

Trang 23

hoặc không liên quan với câu truy vấn nên kết quả trả về hoặc là quá nhiều hoặc không có gì cả.

Do đó, hiệu quả truy tìm không cao; Mối quan hệ giữa các term hay thứ tự giữa chúng khôngđược xét đến; Không xếp hạng, không xác định được mức độ liên quan giữa tài liệu và câu truyvấn; Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean không đơngiản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn boolean

Mô Hình Không Gian Vector(Vector Space Model)

Nhằm khắc phục những hạn chế trong mô hình Boolean, một số mô hình mới đã được đề

xuất với ý tưởng chính là xét đến độ tương đồng giữa tài liệu và câu truy vấn thay thế cho việc

so khớp chính xác theo cách tiếp cận Boolean Năm 1958, Maron, Kuhns, Ray, Luhn thử nghiệm

một phương pháp khác, trong đó họ sẽ đánh trọng số cho các từ khoá và tập tài liệu sẽ được sắphạng theo mức độ liên quan đối với câu truy vấn, những tài liệu xếp trên cùng sẽ được trả lại

cho người dùng Phương pháp này về sau được những nhà nghiên cứu về tìm kiếm thông tin

sử dụng và đã có những cải tiến đáng kể Một trong những kỹ thuật đáng chú ý (những năm

1960, 1970) là thuật toán xếp hạng cho những văn bản có liên quan đến truy vấn của người dùng.

Điểm đặc biệt là cách tiếp cận xem câu truy vấn và văn bản như là những vector trong khônggian n chiều Phương pháp này được P Switzer đề xuất, sau đó, được Salton phát triển Năm

1975, Salton đã tổng hợp kết quả nghiên cứu trong nhóm của ông và cho ra đời lý thuyết về môhình không gian vector [50] Phương pháp tìm kiếm này đóng vai trò rất quan trọng, làm cơ sở

cho những nghiên cứu phát triển trong những năm tiếp theo Ngày nay, các công thức xếp hang

được Salton đề xuất ít được sử dụng, tuy nhiên, việc xem tài liệu và câu truy van như là những,

vectd trong một không gian có số chiều lớn vẫn còn phổ biến

Mô hình không gian vectơ sẽ biểu diễn mỗi tài liệu văn bản như một tập hợp các termxuất hiện trong toàn bộ tập văn bản và hình thành một không gian mà trong đó mỗi term riêng

biệt đóng vai trò là một chiều trong không gian đó, gọi là không gian tài liệu (document space)

Người ta gán thêm cho mỗi term một trọng số cục bộ, chỉ có ý nghĩa trong phạm vi tài liệu đang

xét Cùng một term nhưng có thể có trọng số khác nhau trong mỗi tài liệu khác nhau mà nóxuất hiện Giá trị của mỗi term trong mỗi tài liệu phản ánh mức độ hữu ích, tầm quan trọng của

term đó trong việc mô tả nội dung hay chủ đề mà tài liệu đang đề cập tới Một term có thể mang

ý nghĩa lớn trong việc thể hiện nội dung của một tài liệu này nhưng lại kém hiệu quả so với một

tài liệu khác và sẽ có giá trị là 0 nếu như không xuất hiện trong tài liệu đang được xét đến Các

trọng số được gan cho các term trong một tài liệu d có thể được hiểu là tọa độ của d trong không

gian tài liệu, nói cách khác, d có thể được biểu diễn như là một điểm (hay vector đi từ gốc tọa độđến một điểm được định nghĩa là tọa độ của d) trong không gian tài liệu Câu truy vấn cũng cóthể được cung cấp bởi người sử dụng như là một tập hợp các term đi kèm với các trọng số tương

ứng hay được đặc tả dưới dạng ngôn ngữ tự nhiên Trong trường hợp thứ hai, câu truy vấn sẽ

được xử lý như đối với một tài liệu và được chuyển đổi thành tập các term có gán trọng số Khi

đó, câu truy vấn có thể được xem như một tài liệu trong không gian tài liệu

Một cách hình thức, những tài liệu được biểu diễn trong một không gian tài liệu D có

Trang 24

d yd

ñ Wf

với wf là trọng số của đặc trưng fj trong tài liệu d va n = |F| Tương tự, câu truy vấn cũng được

i

chiều la các đặc trưng f, € F Mot tài liệu d được biểu diễn như một vector d = (w wh)

biểu diễn trong cùng một không gian tài liệu như một vector ¢ = (Wo, Wises We) € D

Có nhiều cách tinh trọng số được sử dụng, trong đó, phương pháp tinh idf x tf (Jones,

1972) được xem là phổ biến và sử dụng rộng rãi nhất “Term frequency” (tf) là tần số xuất hiện

của term trong tài liệu, phản ánh mức độ quan trọng của term trong tài liệu đang xét, ngược

lại, “inverse doccument frequency” (idf) đánh giá mức độ quan trọng của term hay mật độ phân

phối của term trong toàn bộ kho tài liệu bằng các xét số tài liệu chứa term đó trên tổng số tàiliệu trong kho Như vậy, với việc áp dụng idf x tf, trọng số được gan tương ứng cho mỗi đặc

trưng f của vector được tính bởi công thức sau:

wi = (logy) x «rd

trong đó, «fd là tan số xuất hiện của đặc trưng f trong tài liệu d, N là số tài liệu có trong

bộ sưu tập và Nr là số tài liệu mà f xuất hiện.

Sau khi đã biểu diễn tập tài liệu và câu truy vấn thành các vector trong không gian tài

liệu, bước tiếp theo là tính toán độ tương quan (giống nhau) giữa chúng bằng cách sử dụng các

độ đo sau:

+ Inner-product (hoặc dot-product): Sag = ri xq= » wf x vì

f

+ Cosin similarity (Salton et al 1975): Sạ„ = cos(d, ) = = y aq = 008d) = aa = “Papa

Distance metrics: Sạa — đ x @ = là x wap

f

Hệ số Jaccard Index (Jaccard, 1901): Jaccard = yh;

2n

ny np

Hệ số Dice (Dicem 1945): Dice =

Trong đó: đ là vector document, q là vector truy vấn, n là số term chung của 2 vector

dj và dạ, nq là số term khác 0 trong dj, ng là số term khác 0 trong da, N là tổng số term trong

không gian vector, z là số term không xuất hiện trong cả dj và da, (N - 2) là số term có xuất hiện trong dị hoặc da hoặc cả hai).

Ưu điêm của mô hình không gian vector: Đơn giản, dễ hiểu, dé cài đặt; Hệ thống đánh

trọng số các từ khóa biểu diễn làm tăng hiệu suất tìm kiếm; Khắc phục các hạn chế trên mô hình Boolean là tính được mức độ tưởng đồng giữa một truy vấn và mỗi tài liệu, đại lượng này có thể

được dùng để xếp hạng các tài liệu trả về; Chiến lược so trùng một phần cho phép trả về các tàiliệu phù hợp nhất, thỏa mãn với thông tin truy vấn của người dùng Nhược diém: Các từ khóa

biểu diễn được xem là độc lập với nhau; Số chiều biểu diễn cho tập văn bản có thể rất lớn nêntốn không gian lưu trữ Vấn đề ở đây là khi tăng kích thước của bộ từ vựng, số chiều của vector

Trang 25

sẽ rất lớn: đòi hỏi nhiều không gian lưu trữ hơn, không những thế ma trận term-document lưutrữ còn là ma trận thưa, rất kém hiệu quả.

Mô Hình Xác Suất (Probability Model)

Một hướng nghiên cứu khác tìm cách mô hình hóa hệ thống tìm kiếm thông tin sử dụng

lý thuyết về xác suất Phương pháp này được xem là sự mỏ rộng từ ý tưởng của Maron, Kuhns vàRay Năm 1977, S E Robertson đã định nghĩa một nguyên lý xếp hạng các tài liệu dựa vào xácsuất tài liệu liên quan đến câu truy vấn Bài báo tiếp theo của Robertson và Spärck Jones (1978)cùng với phần tìm hiểu tổng quan về nguồn gốc của mô hình xác suất trong quyển sách củaVan Rijsbergen (1979) đã khơi dậy phong trào nghiên cứu về dang mô hình này Van Rijsbergenchỉ ra rằng mô hình xác suất co bản giả định những từ trong cùng một tài liệu xuất hiện một

cách độc lập với nhau, tìm kiếm thông tin đã được kiểm nghiệm sát sao, tạo điều kiện cho những

nghiên cứu mỏ rộng hơn trong những năm sau đó.

âu truy vấn q và tài liệu d; trong tập hợp các tài liệu D, mô hình xác suất cố gắng dựđoán xác suất mà người sử dụng sẽ tìm thấy tài liệu dj liên quan đến cấu truy vấn Giả định rangtập tài liệu được chia làm hai phần: ứng với một câu truy vấn q, một tài liệu sẽ có liên quan haykhông Một tài liệu có liên quan đến câu truy vấn hay không khi mà người dùng thích nó (sự

liện L) và ngược lại một tài liệu không liên quan khi không được sự yêu thích của người dùng

(sự kiện ~ L) Một nguyên tắc xếp hạng được đặt ra như sau:

trong đó P(L|dj) là xác suất tài liệu dj thích hợp hay liên quan với câu truy vấn q vàP(~ L{d;) xác suất d; không thích hợp với q

Áp dụng chuyển đổi Bayes, ta có thể viết lại các xác suất có điều kiện như sau:

P(d¡|L)P(L)

seore(di) = qqXT)PCST)

trong đó, dị có thé được biểu diễn bởi các thuộc tính hay đặc trưng fj của nó Giả định các

đặc trưng này là các sự kiện độc lập để đơn giản hóa các tính toán Dat Aj là một sự kiện ràng

buộc thuộc tính fj ta có:

seore(d¡) = „| (AIL)PA)

© HiPAj-UPGL)

Hàm xếp hang này được chuyển đổi logarit và khi đó các hằng số P(L), P(~ L) sẽ được

loại bỏ, ta được công thức sau:

Pịq-Pi ;

scorejgg (dj) = » Bà = » weight(A¡)

Aiedj 1 2 Aiedi

Trang 26

với P; là xác suất mà thuộc tính Aj xuất hiện trong tài liệu khi nó thích hợp với truy

vấn của người dùng và Pj là xác xuất cho thuộc tính xuất hiện khi tài liệu không thích hợp ( P(Ai|L = Pị(1=P¡) ).

Ưu điểm của mô hình xác suất: Các mô hình xác suất sẽ cố gắng dự đoán xác suất mà

người sử dụng sẽ tìm thấy tài liệu d liên quan đến câu truy vấn và sắp hạng các tài liệu dựa vàoxác suất liên quan này; Mô hình xác suất đạt được nhiều chất lượng về hiệu năng truy tìm hơn

so với các mô hình không áp dụng phương pháp xác suất Nhược diém: Không thể biểu diễn

thông tin ngữ nghĩa về một tài liệu theo công thức xác suất; Phương pháp này không lưu ý đến

tần suất xuất hiện của các từ khóa biểu diễn trong tài liệu; Giả định các từ khóa biểu diễn độc

lập nhau; Phải chia tập tài liệu được chia thành 2 loại: thích hợp hay không thích hợp; Việc tính

toán xác suất khá phức tạp và tốn nhiều chỉ phí

Latent Semantic Indexing - LSI

Những năm 1980 đến giữa những năm 1990 là sự phát triển của lý thuyết không gianvector mà mô hình phổ biến nhất là Latent Semantic Indexing- LSI (Deerwester et al., 1990),trong đó số chiều của không gian vector sẽ được giảm xuống Những truy vấn sẽ được gán vàonhững không gian thu nhỏ Kết quả chạy thử trong bài báo cáo về LSI được đánh giá là có ”kết

quả khá khiêm tốn “nhưng nó lại có ảnh hưởng lớn trong giới học thuật Một trong những hạn chế lớn của mô hình không gian vector và mô hình xác xuất là giả định các term độc lập với

nhau, nghĩa là các mối tương quan ngữ nghĩa giữa các term này không được xét đến và do đó

không thể so trùng giữa những từ có hình thức thể hiện bên ngoài khác nhau nhưng có nghĩatương tự Một nhược điểm khác của mô hình không gian vector là số chiều của không gian tài

liệu có thể rất lớn nếu như số lượng các term xuất hiện trong bộ sưu tập các tài liệu là rất lớn.Phương pháp thống kê LSI cố gắng khắc phục những vấn đề nêu trên bằng cách xem xét đến

những mối quan hệ giữa các term, theo đó các term cùng biểu diễn một thông tin ngữ nghĩa sẽ

được phân nhóm, gom cụm lại với nhau Ngoài ra, Latent Semantic Indexing là phương pháp tạochỉ mục tự động dựa trên khái niệm để khắc phục hai hạn chế tồn tại trong mô hình không gianvector chuẩn (VSM) cũng như các mô hình Boolean và xác suất: synoymy và polysemy

Mô hình LSI dựa trên giả thiết là có các ngữ nghĩa tiềm ẩn (latent semantic) trong việc

sử dụng từ: có nhiều từ biểu diễn cho một khái niệm, một khái niệm có thể được biểu diễn bởi

nhiều từ và những từ có ngữ nghĩa gần nhau thường xuất hiện trong cùng ngữ cảnh Mô hìnhLSI sử dụng chỉ mục khái niệm (conceptual index) được tạo ra bởi phương pháp thống kê thay

cho vi sử dụng các từ chỉ mục đơn Trong LSI, không gian tài liệu được thay thế bởi một không

gian tài liệu có chiều thấp hơn gọi là không gian k (k - space) hay không gian LSI, trong đó mỗi

chiều là một khái niệm độc lập đại diện cho một nhóm các term cùng biểu diễn cho một thông tin ngữ nghĩa Như vậy, LSI giảm số chiều của vector ban đầu xuống một số cố định mà vẫnđảm bảo lưu trữ được hầu hết các thông tin quan trọng Vector thu được là một dense vector.

Số chiều thường lấy trong khoảng từ 300-1000 chiều Mô hình này sử dụng phân tích Singular

Value Decomposition -SVD ma trận term - document để phát hiện ra các quan hệ ngữ nghĩa

Trang 27

tiềm ẩn (mối tương quan ngữ nghĩa giữa các từ trong tập văn bản) Ý tưởng cốt lõi của phương

pháp Singular Value Decomposition là phân tích ma trận ban đầu thành tích của 3 ma trận đặcbiệt, sử dụng chéo hóa ma trận Mô hình LSI, mở rộng của mô hình không gian vector, sử dụng

phép chiếu trực giao ma trận biểu diễn tập văn bản có hạng r vào không gian k chiều, trong

đó k < r Việc chọn hệ số k tối uu cho mô hình LSI vẫn còn là bài toán chưa có lời giải tổng,

quát Cho tới hiện tại việc chọn k cho mô hình LSI chỉ thực hiện dựa trên các phương pháp thử nghiệm.

2.1.2 Tìm kiếm tài liệu theo hướng ngũ nghĩa

Từ giữa những năm 1990 đến nay, xuất hiện những tiếp cận theo hướng ngôn ngữ hoc

máy tính, trong đó có quan tâm đến nghĩa của từ (cụm từ), cú pháp và ngữ nghĩa của câu, sự

nhập nhang về nghĩa giữa chúng [87, 96, 78, 73], bên cạnh những tiếp cận theo công nghệ tri

thức dựa trên các ontology và Semantic Metadata Các hướng tiếp cận này được gọi chung là

hướng ngữ nghĩa hay tìm kiếm theo ngữ nghĩa (semantic search).

Lý do cơ bản khiến cho các giải pháp tìm kiếm truyền thống không đạt được tính hiệu

quả cao là ở chỗ không có phân tích ngôn ngữ trong tìm kiếm Hiểu được ngôn ngữ là một yêucầu rất khó đối với máy tính Việc làm chủ ngôn ngữ tự nhiên là dé dàng đối với con người,nhưng nó là một cái gì đó mà máy tính vẫn chưa thể đạt được Làm sao dạy máy tính có thể hiểu

được ngôn ngữ của con người là một công việc rất khó khăn, nhưng không phải là không thểthực hiện được Nói một cách nôm na, có thể xem khả năng tìm kiếm ngữ nghĩa như là một cách

tốt hơn để cung cấp cho người dùng thông tin họ cần, đảm bảo kết quả thu được có liên quan

đến thông tin cần tìm hơn dựa trên khả năng hiểu được nghĩa của từ hoặc cụm từ đang được

tìm kiểm Nếu người dùng không biết rõ về từ khóa họ cần cung cấp cho máy tìm kiếm, họ cần

máy “hiểu” ý của họ thông qua ngữ nghĩa hàm ý trong câu truy vấn Các động cơ tìm kiếm ngữ

nghĩa hiện nay hướng tới việc cố gắng đoán ý, hiểu nghĩa của từ hay cụm từ để cho ra kết quảgần nhất với ý định tìm kiếm của người dùng Với công nghệ ngữ nghĩa, máy tính sẽ hiểu rõ

hơn những mối quan hệ giữa nhiều thông tin khác nhau, hơn là chỉ chuyển tiếp các liên kết dựatrên từ khóa tìm kiếm Một ví dụ cụ thể để minh họa cho vấn đề này đó là thử nghiệm với một

từ khóa “đọc báo” cho sẵn Nếu tìm kiếm theo từ khóa, các kết quả trả về sẽ chứa các từ khóa

như từ “đọc” hoặc “báo” hoặc kết hợp cả hai từ “đọc báo” Còn đối với kết quả từ tìm kiếm ngữ

nghĩa trả về, người đọc sẽ không thấy những website có tích hợp hai từ khóa đó mà thay vào đó

là sẽ có hàng loạt các danh sách các website báo chí hiển thị nhằm đáp ứng cho nhu cầu “đọcbáo” của người dùng Hay nếu tìm kiếm với từ khóa “cuộc bầu cử” thì một công cụ tìm kiếm ngữ

nghĩa có thể lấy ra các tài liệu có chứa các từ “bỏ phiếu”, “van dong’ và “lá phiếu”, ngay cả khi

từ “bầu cử không tìm thấy trong các tài liệu nguồn

Hệ thống tìm kiếm theo ngử nghĩa cũng có chức năng, nguyên lý hoạt động và các bộphận cấu thành giống như một hệ thống tìm kiếm tổng quát Tuy nhiên, điểm khác biệt lớn làviệc sử dụng khái niệm để lập chỉ mục Trong bộ lập chỉ mục sẽ có hai nhiệm vụ chính là rút

trích toàn bộ các khái niệm có trong cơ sở đữ liệu các tài liệu và lập chỉ mục cho các tài liệu dựa

Trang 28

trên các khái niệm này Cũng giống như bộ truy vấn của hệ tìm kiếm dựa trên từ khóa, bộ truy

vấn của hệ thống dựa trên khái niệm có chức năng lấy nội dung câu truy vấn do người dùngnhập vào, sau đó rút trích khái niệm từ câu truy vấn và so trùng với tập chỉ mục đã được lậpcủa các tài liệu để tìm ra các tài liệu có liên quan Tùy thuộc vào cách lập chỉ mục cho tập tàiliệu như thế nào mà sẽ có những cách so trùng câu truy vấn với tập chỉ mục khác nhau Chẳnghạn như, nếu bộ lập chỉ mục sử dụng các mô hình truyền thống thì cách bộ truy vấn so trùngcác khái niệm cũng giống như trong hệ thống tìm kiếm dựa trên từ khóa, còn nếu một cấu trúc

khái niệm phức tạp hơn biểu diễn cho các tài liệu và câu truy vấn được xây dựng, việc tìm kiếm

có thể được thực hiện dựa trên việc so trùng giữa các cấu trúc khái niệm này

Hiện nay, nghiên cứu các mô hình biểu diễn tài liệu đóng vai trò trọng yếu trong việc

giải quyết hầu hết những vấn đề liên quan đến văn bản Hầu hết tri thức, tài liệu của con người

đều được diễn đạt dưới dạng ngôn ngữ tự nhiên, tuy nhiên, rất khó sử dụng thứ ngôn ngữ nàynhư là một ngôn ngữ biểu diễn tri thức, biểu diễn tài liệu cho các hệ thống máy tính Các hệ

thống xử lý dựa trên văn bản hiện nay đang phải cố gắng thực hiện việc phân tích cú pháp và

ngữ nghĩa Nhằm giảm kích thước lưu trữ của văn bản và dé dang sử dung, các văn bản ở dangthô cần phải được chuyển sang một dạng thức biểu diễn nào đó, trở thành những cấu trúc dữliệu trực quan, đơn giản, phù hợp với chương trình máy tính để máy có thể hiểu và xử lý được,

nhưng hơn hết là có thể mô tả nội dung của văn bản Nhìn chung, có hai hướng tiếp cận chính

cho việc nguyên cứu các mô hình biểu diễn tài liệu: hướng thống kê (statistical) và hướng ngữ

nghĩa (semantic) Đối với tiếp cận thống kê, tài liệu được mô tả bởi các cặp (feature, weight) Mô

hình này dựa trên giả định rằng: các tài liệu có thể được biểu diễn bằng tập hợp các đặc trưng

của chúng dưới dạng các term - thuật ngữ (là một từ đơn hoặc cụm từ) Ngoài ra, trọng số hoặcxác suất được gán cho các thuật ngữ này nhằm tạo ra một danh sách tài liệu trả về được xếphạng theo mức độ phù hợp với truy vấn của người dùng

2.2 Van dé biêu diễn tài liệu văn bản

2.2.1 Biểu dién văn bản dựa trên vector

Mô hình biểu diễn văn bản truyền thống như mô hình túi từ (Bag of words), mô hình

không gian vector (Vector Space Model) là các mô hình đơn giản và được sử dụng phổ biến nhất

trong phần lớn các bài toán xử lý dữ liệu văn bản Tuy nhiên, những mô hình truyền thống này

lại tồn tại trong nó những hạn chế lớn mà chủ yếu là do sự yếu kém trong vấn đề biểu diễn thongtin Với mô hình không gian vector, nội dung của tài liệu hay thông tin truy vấn được biểu diễnthành vector của các thuật ngữ (có thể là một từ đơn hay cụm từ) trong không gian n chiều Tất

cả các thuật ngữ xuất hiện trong toàn bộ tập văn bản tạo thành một không gian với mỗi chiều

của không gian tưởng ứng mới một thuật ngữ Với mục đích phân biệt các văn bản với nhau,

trọng số được gán cho từng thuật ngữ nhằm xác định độ quan trọng của chúng trong văn bản

Giá trị của mỗi thành phần trong vector là trọng số của thuật ngữ tương ứng.

Mô hình không gian vector đơn giản và được sử dụng phổ biến trong lĩnh vực truy xuất

Trang 29

thông tin Tuy nhiên, hạn chế của mô hình là: số chiều không gian rất lớn (phụ thuộc vào sốlượng thuật ngữ trong tập văn bản) và phải giả thiết các từ độc lập với nhau Ngoài ra, mô hìnhchỉ tập trung vào tần suất xuất hiện của từ và bỏ qua các thông tin cấu trúc quan trọng như thứ

tự sắp xếp các từ trong câu, vùng lân cận của từ, vị trí xuất hiện của từ trong văn bản, cấu trúc

của một câu/đoạn văn, tính đồng xuất hiện của các từ trong một câu và đặc biệt nghĩa của từ

cũng như mối quan hệ về ngữ nghĩa giữa các từ không được xét đến Cách biểu điễn này mang,

mức độ thông tin thấp và nếu nhìn dưới góc nhìn của ngôn ngữ học thì đã không xử lý các biếnthể về mặt ngôn ngữ học của các từ như biến thể về hình thái học (là các dạng khác nhau vềmặt cấu trúc, hình dang, thể hiện bên ngoài của một từ), biến thể về từ vựng học (là các từ khácnhau mang cùng một nghĩa), biến thể về ngũ nghĩa học (là vấn đề một từ đa nghĩa tùy vào ngitcảnh) và biến thể về cú pháp học (là các kết hợp khác nhau về mặt cú pháp của cùng một nhóm

từ sẽ mang các ý nghĩa khác nhau) [110]

Một số mô hình mới đã được đề xuất nhằm khắc phục hai hạn chế lớn tồn tại trong các

mô hình truyền thống: synoymy và polysemy Với synoymy, nhiều từ có thể được sử dụng để

biểu diễn một khái niệm, vì vậy hệ thống không thể trả về những tài liệu liên quan đến câu truy

vấn của người dùng khi họ sử dụng những từ trong câu truy vấn đồng nghĩa với những từ trong

tài liệu Với polysemy, một từ có thể có nhiều nghĩa, vì vậy hệ thống có thể trả về những tài liệu

không liên quan với những gì mà người dùng mong muốn có được Điều này thực tế rất thường

xảy ra bởi vì các tài liệu được viết bởi rất nhiều tác giả, với cách dùng từ rất khác nhau Một số

mô hình nổi tiếng có thể kể đến là Latent Semantic Analysis (còn được gọi là Latent SemanticIndexing), Probabilistic Topic Models hoặc Latent Topic Models, Neural probabilistic Language

Models.

Trong các mô hình chủ đề như Probabilistic Latent Semantic Indexing [99], Latent

Dirich-let Allocation [34], tài liệu được biểu diễn như là một vector của các chủ đề tiềm ẩn (vectors of

latent topics) Một chủ đề tiềm ẩn là một phân phối xác suất trên các term hoặc một nhóm cácterm có trong số Độ dai của vector chủ đề nhỏ hơn nhiều so với vector truyền thống Các môhình này giả định rằng: các từ gần nghĩa với nhau có xu hướng xuất hiện trong các đoạn văn

bản (ngữ cảnh) tương tự nhau.

Cùng với sự xuất hiện của các kiến trúc deep learning, việc biểu diễn và tính toán trên

văn bản cũng được xử lý 6 mức cao hơn Khi đưa vào mô hình tính toán deep learning, văn bản

được xử lý qua một tầng nhúng (embedding) trong đó các từ sẽ được đổi thành các vector tương,

ứng Việc xử lý này gọi là Word Embedding, khi đó các thông tin ngữ nghĩa (dựa trên thống kê)

của các từ sẽ được nhúng vào các vector Mỗi từ khác nhau sẽ được biểu diễn thành một vectorkhác nhau Những từ có ngữ nghĩa gần nhau sẽ được biểu diễn thành các vector có khoảng cáchgần nhau trên không gian vector Bằng cách tính trung bình cộng của các vector từ (biểu diễn

cho các từ xuất hiện trong tài liệu) có thể cho ta một phép biểu diễn tài liệu theo vector.

Word Embedding là một kỹ thuật Vector hóa văn bản, được sử dụng để ánh xa từ ngữsang vector số thực, tức là biểu diễn một từ (word) hoặc cụm từ (phrase) thành dạng vector số và

giả định rằng các từ có nghĩa tương tự nhau sẽ có giá trị vector gần giống nhau Thông thường,

Trang 30

Word Embedding được chia thành hai loại chính là Frequency-based embedding va

Prediction-based embedding Frequency-Prediction-based embedding là phương pháp vector hóa dựa trên tần số đồngxuất hiện của một từ so với các từ khác trong Corpus Prediction-based embedding là phươngpháp vector hóa dựa trên kết quả của một mô hình dự đoán Mô hình dự đoán học các biểu diễn

vectơ cho mỗi từ thông qua những từ ngữ cảnh xung quanh (tức là các từ thường hay xuất hiện

quanh nó trong các văn bản) nhằm cải thiện khả năng dự đoán ý nghĩa các từ Tiêu biểu nhất

của phương pháp này chính là Word2vec [101] Word2vec biểu diễn mỗi từ bằng một vector có

độ dài cố định và dựa trên một mạng neuron để học các trọng số thành phần Công cụ Word2vec

gồm hai mô hình: skip-gam va Continuous bag of words - CBOW.

Phan cấp mức độ phát triển của các phương pháp nhúng từ trong xử lý ngôn ngữ tu nhiên

có thể bao gồm các nhóm:

+ Không ngữ cảnh (Non-context): Là các thuật toán không tồn tại ngữ cảnh trong biểu diễn

từ Dé là các thuật toán xử lý ngôn ngữ tự nhiên đời đầu như word2vec, GLoVe, fasttext

Chúng ta chỉ có duy nhất một biểu diễn vector cho mỗi một từ mà không thay đổi theo

ngữ cảnh.

+ Một chiều (Uni-directional): Là các thuật toán đã bắt đầu xuất hiện ngữ cảnh của từ Các

phương pháp nhúng từ dựa trên RNN là những phương pháp nhúng từ một chiều Các kết

quả biểu diễn từ đã có ngữ cảnh nhưng chỉ được giải thích bởi một chiều từ trái qua phải

hoặc từ phải qua trái ELMo là một ví dụ cho phương pháp một chiều Mặc dù ELMo có

kiến trúc dựa trên một mạng BiLSTM xem xét ngữ cảnh theo hai chiều từ trái sang phải

và từ phải sang trái nhưng những chiều này là độc lập nhau nên coi như đó là biểu diễn

một chiều Thuật toán ELMo đã cải tiến hơn so với word2vec và fasttext đó là tạo ra nghĩacủa từ theo ngữ cảnh

+ Hai chiều (Bi-directional): Ngữ nghĩa của một từ không chỉ được biểu diễn bởi những từliền trước mà còn được giải thích bởi toàn bộ các từ xung quanh Luồng giải thích tuân

theo đồng thời từ trái qua phải và từ phải qua trái cùng một lúc Đại điện cho các phép biểu

diễn từ này là những mô hình sử dụng kỹ thuật transformer như BERT, ULMFit, OpenAI

GPT.

Các phương pháp kể trên được sử dụng rộng rãi vì tính đơn giản và sự hữu ích của ching

trong việc mô tả các đặc trưng của tài liệu Ngoài ra, dạng biểu diễn văn bản bằng vector có tốc

độ tính toán nhanh, đặc biệt là có sẵn các thư viện tính toán được hỗ trợ từ các ngôn ngữ lap

trình cấp cao Tuy nhiên, nhược điểm của nhóm phương pháp này là:

+ Hầu hết các kỹ thuật chủ yếu dựa trên thông tin về tần số xuất hiện của term trong tàiliệu, thiếu sự phản ánh về ngữ nghĩa của văn bản, ví dụ như bỏ qua sự kết nối giữa cácterm, thông tin cấu trúc và ngữ nghĩa không được xem xét

+ Các mô hình chủ đề không xem xét cấu trúc thông tin của các chủ đề (topic), mối quan hệ

giữa những chủ đề và gặp hạn chế khi biểu diễn cho các chủ đề phức tạp

+ Bên cạnh đó, các phép biểu diễn có thể khó diễn nghĩa, tức là khó điễn dịch, giải thích hay

Trang 31

thuyết minh bởi người đọc Các kết quả có thể được chứng minh ở cấp độ toán học, nhưng

khó có thể hiểu được trong ngôn ngữ tự nhiên Một hình thức biểu diễn được xem là tốt khi mà người đọc có thể dễ dàng nắm bắt ý nghĩa của chúng và hiểu được kết quả trả vềcủa hệ thống cũng như cách thức hệ thống trả về được những kết quả này.

Những cách tiếp cận theo hướng ngữ nghĩa sẽ cố gắng thực hiện một vài cấp độ trong

phân tích cú pháp và phân tích ngữ nghĩa, từ cấp độ nghĩa của từ, cụm từ đến nghĩa của câu hay

văn bản Nhiều nghiên cứu chỉ ra rằng thông tin ngữ nghĩa và cách tiếp cận giàu tri thức có thểmang lại hiệu quả tốt hơn khi giải quyết các nhiệm vụ cốt lõi trong truy hồi thông tin Để khắcphục những hạn chế trong việc biểu diễn tài liệu từ những mô hình truyền thống, nhiều nghiêncứu khác nhau đã nỗ lực thay đổi cách biểu diễn cho tài liệu nhằm làm tăng hiệu quả trong biểudiễn và tìm kiếm Theo đó, một tài liệu vẫn được mô tả bởi các cặp <feature, weight>, tuy nhiên

những thành phần đặc trưng (feature) của tài liệu không đơn thuần chỉ là những từ hay cụm từchính xác xuất hiện trong tài liệu mà đã được thiết kế lại, được chuẩn hóa theo một dạng thức

biểu diễn phức tạp và hiệu quả hơn bằng cách sử dụng các kỹ thuật trong xử lý ngôn ngữ tự

nhiê

khái niệm hơn là các từ đơn lẻ cũng như cố gắng loại bỏ các vấn đề nhập nhằng trong ngôn ngữ

Những nghiên cứu này hướng tới mục tiêu là xây dựng một phép biểu diễn dựa trên các

Một số mô hình feature nổi tiếng có thể kể đến như :

+ Lemmas: các đặc trưng của tài liệu được chọn là các hình thái cơ bản của từ như danh từhay động từ Như vậy, hệ thống sẽ chuẩn hóa các biến thể về hình thái học của từ về mộtchuẩn chung và thay thế những từ có trong tài liệu bởi hình thái cơ bản của chúng Điềunày sẽ làm tăng khả năng so khớp giữa những từ có hình thái thể hiện khác nhau nhưngphản ánh cho cùng một khái niệm

+ Simple n-grams: một day các từ được lựa chọn bằng cách áp dung kỹ thuật thống kê Hệ

thống tiến hành khảo sát và thống kê các dãy bao gồm n từ liên tiếp tùy ý (n - gram) có

trong kho ngữ liệu Như vậy, mỗi tài liệu sẽ được chia thành những cấu trúc n - gram

tương ứng Những bộ lọc thống kê dựa trên tần số xuất hiện của các n-gram trong kho

ngữ liệu được áp dụng để lựa chọn những ứng viên phù hợp nhất làm đặc trưng cho tài

liệu.

+ Nouns Phrases: Những biểu thức chính qui (ví dụ như N+ là một day các danh từ liên kết

với nhau theo một qui tắc cú pháp nhất định) dựa trên các từ loại (danh từ, động từ vàtính từ) có thể được sử dụng để chọn ra các cụm từ dùng làm đặc trưng cho tài liệu và loại

bỏ những kết hợp không khả thi Cụm từ được chọn bao gồm một từ chính (head) và các

phụ ngữ hay từ bổ nghĩa (modifier) đứng trước và sau nó

+ Các bộ <head, modifier1, , modifiern>: Những Bộ phân tích cú pháp (parser) được sử

dụng để phát hiện và rút trích ra các quan hệ cú pháp phức tạp như subject-verb-object

từ trong văn bản Một đặc tính thú vị là những bộ này có thể bao gồm những từ không

liền kề nhau, tức là các thành phần có thể là những từ vốn nằm cách nhau trong đoạn vănvăn Việc xây dựng những cụm từ phức hợp này là nhằm cải thiện độ chính xác trong việc

so khớp giữa các khái niệm.

Trang 32

+ Semantic concepts: mỗi từ được thay thé bằng một đại diện cho nghĩa của từ đó Việc gannghĩa cho một từ phụ thuộc vào định nghĩa của từ đó có trong từ điển Có hai cách xácđịnh nghĩa của một từ Thứ nhất, nghĩa của từ có thể được trình bày, giải thích như trong

một mục từ của từ điển giải nghĩa thông thường Thứ hai, nghĩa của từ có thể được suy rathông qua những từ khác có cùng nghĩa trong từ điển đồng nghĩa

Tuy nhiên, cho đến nay thì những kết quả đạt được theo cách tiếp cận này vẫn chưa có sự

cải thiện đáng kể so với các phương pháp thống kê kể trên Nguyên nhân chính là do những mô

hình biểu diễn mới cũng chỉ nắm bắt được một phần nhỏ thông tin hơn so với mô hình truyền

thống Hơn nữa, những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trongquá trình xây dựng các cấu trúc biểu diễn có thể gây nhiễu và làm ảnh hưởng đến tiến trình tìm

kiếm

Sự phát triển ngày càng nhanh của các kỹ thuật rút trích thông tin cũng như sự gia tăng

về quy mô của các bộ từ điển đồng nghĩa, các cơ sở tri thức đa ngành cùng các cơ sở tri thứcmiền đưa đến nhiều lựa chọn hơn cho các vector biểu diễn Thành phần thứ i trong một vector có

thể là trọng số thể hiện độ liên quan giữa thành phần thứ i trong nguồn tri thức đối với tài liệu

được vector đó biểu diễn Ví dụ như trong phương pháp Explicit Semantic Analysis (ESA) của

công trình [39] đã sử dụng các thông tin từ bách khoa toàn thư Wikipedia như: bài viết (articles),

chuyên mục (categories) và quan hệ giữa các bài viết để nắm bắt thông tin ngữ nghĩa xét về mặtkhái niệm ESA biểu dién nghĩa của một đoạn văn bản dưới dang một vector của các khái niệm

trên Wikipedia N

trùng với tên của khái niệm Độ dài của vector biểu diễn này sẽ bằng với số lượng khái niệm có

khái niệm trên Wikipedia được cho tương ứng với một bài viết có tiêu đề

trên Wikipedia (vài triệu chiều) Độ liên quan ngữ nghĩa giữa hai tài liệu được tính bằng cosin

của góc giữa hai vector.

Mô hình biểu diễn tài

thể được gán nhãn vào mô hình không gian vector như trong các công trình [30, 58] Trong

éu cũng có thể được làm giàu bằng cách bổ sung thêm các thực

công trình [43], một tài liệu sẽ được biểu diễn như một túi các khái niệm được rút trích bởi các

hệ thống liên kết thực thể (entity linking system) Theo đó, mỗi khái niệm sẽ tương ứng với một

thực thé trong cơ sở tri thức DBpedia hoặc một bài viết có liên quan trên Wikipedia Công trình[31] lai đi theo một hướng khác, không quá chú trọng vào các thực thể/khái niệm được chú thíchbởi nguồn tri thức ngoài Thay vào đó thực thể và từ đều được xem xét đồng thời, với cùng mức

độ quan trọng như nhau trong việc mô tả nội dung tài liệu Như vậy, mỗi tài liệu sẽ được biểu diễn thành một túi từ cùng với một túi thực thể.

Việc biểu diễn tài liệu thông qua các khái niệm trong cơ sở tri thức sẽ thân thiện, tự nhiên,

gần gũi với cách diễn đạt của con người hơn, so với những dạng biểu diễn thông qua các topic

trong mô hình chủ đề tiềm ẩn (Latent topic model) Tuy nhiên, chiều dai của vector bằng sốlượng khái niệm trong cơ sở tri thức, điều đó sẽ là trở ngại khi sử dụng các cơ sở tri thức có kích

thước đồ sộ Một hạn chế khác của cách tiếp cận này là thường chỉ dừng lại ở dạng biểu diễn

”phẳng”như mô hình không gian vector mà chưa chú trọng vào khai thác tri thức về quan hệcùng các thông tin cấu trúc khác còn ẩn chứa trong cơ sở tri thức

Trang 33

Biêu điễn văn bản dựa trên đồ thị

Trong những năm gần đây, các phương pháp mô hình hóa văn bản thành đồ thị đang

ngày càng được chú ý, phát triển mạnh và áp dụng vào nhiều lĩnh vực như truy xuất thông tin,

khai thác dữ liệu văn bản (phân loại, gom cụm, tóm tắt văn bản), rút trích thông tin, khám phá

chủ đề Đồ thị là một cấu trúc toán học có khả năng mô hình hóa mối quan hệ cùng với các

thông tin quan trọng về cấu trúc một cách hiệu quả Đây là cấu trúc rời rạc có tính trực quan

cao, rất tiện ích để biểu diễn các quan hệ Từ ý tưởng này, nhiều mô hình đồ thị đã được đề xuấtnhư mạng ngữ nghĩa, đồ thị khái niệm, đồ thị khái niệm cải tiến, đồ thị hình sao, đồ thị tần số,

đồ thị khoảng cách, đồ thị đỉnh là câu Các mô hình này được đánh giá là có nhiều tiềm năng sử

dung vì nắm bắt được các thông tin quan trọng về cấu trúc và các mối quan hệ ngữ nghĩa vốnkhông được xét đến trong các mô hình truyền thống Phương pháp tiếp cận dựa trên đồ thị đãđược nghiên cứu và áp dụng rộng rãi cho nhiều tác vụ khác nhau do có nền tảng lý thuyết chặt

chẽ, rõ ràng và hiệu suất thực nghiệm tốt Các mô hình đồ thị được sử dụng hiện nay tương đối

đa dạng và mỗi mô hình mang nét đặc trưng riêng Các mô hình và kỹ thuật biểu diễn có thể

khác nhau về: loại đỉnh, loại cạnh quan hệ, nguồn tài nguyên ngữ nghĩa được sử dụng (semantic

resource), cách thức để tạo ra các biểu diễn có cấu trúc của văn bản, lược đồ đánh trọng số cho

các đỉnh và cạnh của đồ thị, cũng như cách giải quyết các bài toán con từ việc trích chọn các đặc trưng làm đỉnh, xác định mối quan hệ giữa các đặc trưng, so khớp đồ thị và xếp hạng kết quả [94].

Trong các phương pháp biểu diễn tài liệu thành đồ thi, các đỉnh của đồ thị có thể là một

từ, một cụm từ hay một câu Cạnh của đồ thị thể hiện mối quan hệ giữa các đỉnh với nhau, quan

hệ này có thể là quan hệ cùng xuất hiện trong một câu (hoặc một cửa sổ), quan hệ về ngữ nghĩa

trong miền tri thức (đồng nghĩa, trái nghĩa), quan hệ theo cú pháp trong câu (các đỉnh trong

đồ thị có cú pháp chặt chẽ trong câu) Trọng số của đỉnh thường là tần suất xuất hiện của đỉnhtrong văn bản hay mức độ trung tâm của đỉnh so với các đình khác trong đồ thị Nhãn cạnh là

tên mối liên kết giữa hai đỉnh Cạnh cũng có thể được đánh trọng số cho biết tần suất xuất hiệ

cùng nhau của hai đỉnh trong một phạm vi nào đó (trong văn bản hay trong cả bộ sưu tập) Khi

ứng dụng vào từng loại bài toán khác nhau, các thành phần thích hợp nhất trong văn bản đượcchọn để trở thành đỉnh của đồ thị Ví dụ, trong bài toán tóm tắt văn bản, đỉnh thường là câu,

cạnh thể hiện sự tương đồng giữa các câu Hay trong các bài toán phân lớp văn bản, tìm kiếm

văn bản, đỉnh là từ đơn, cạnh thể hiện quan hệ đồng xuất hiện của các từ trong cùng một câu

Do thông tin cấu trúc quan trọng của văn bản bao gồm danh sách các từ, vị trí xuất hiện của

các từ, thứ tự xuất hiện giữa các từ trong văn bản cũng như cách thức các từ được liên kết với

nhau theo một quy tắc nào đó để tạo thành các câu nên mô hình đồ thị sử dụng đỉnh là từ được

nghiên cứu sâu hơn và có nhiều biến thể nhất

Tay vào mục đích sử dung cũng như nguồn tri thức bổ trợ của bài toán mà đỉnh sẽ có nhiều

loại khác nhau Một đỉnh có thể biểu diễn cho: Một từ đơn (word); Một từ ghép (phrase/feature

term); Một câu (sentence); Một keyphrase của một miền tri thức; Một tên gọi gì đó có ý nghĩakhi xử lý; Một cấu trúc dữ liệu phức tạp, ví dụ như đỉnh là một vector word2vec hay một table;

Trang 34

Một thực thể - entity trong một cơ sở tri thức có trước, entity có thể là một bài viết (artical) trên

'Wikipedia hoặc một entiy trên Dbpedia/Yago; Một khái niệm (concept) trừu tượng, khái niệm

này có thể xuất phát từ vocabulary/taxonomy/thesaurus/ontology; Đỉnh là tổ hợp của nhiều loại

đặc trưng đi kèm với nhau Đỉnh có dang term và concept, Word-Sentence-Topic,

Bởi vì có nhiều loại đỉnh khiến cho việc chọn cạnh để biểu diễn mối quan hệ giữa cácđỉnh cũng trở nên đa dạng Cạnh của đồ thị có thể biểu diễn cho những mối quan hệ sau: 1) Mối

quan hệ đồng xuất hiện (occurrence) giữa các từ/cụm từ trong một đơn vị, một câu, một đoạn

hoặc một cửa sổ có kích thước xác định; 2) Mối quan hệ giữa các sense trong hệ thống từ vựng

(sense relation, lexical relation) Một sense là một nghĩa của từ Các từ ngữ trong từ vựng của một ngôn ngữ không tồn tại riêng lẻ, biệt lập với nhau, giữa chúng có những quan hệ nhất định,

ví dụ quan hệ đồng nghĩa (synonymy), quan hệ trái nghĩa (antonymy), quan hệ thượng hạ vị

(hyponymy), quan hệ chỉnh thể - bộ phận (meronymy), làm cho từ vựng của ngôn ngữ khôngphải là tập hợp các từ ngữ ngẫu nhiên mà là một hệ thống; 3) Mối quan hệ giữa các khái niệm

(conceptual relation), cho biết cách mà các khái niệm được liên kết với nhau, ví dụ như Agent, Experiencer, Recipient, Attribute, Object, Theme, Destination, Duration, Instrument, Location;

4) Quan hệ có liên quan giữa hai thực thé trong cơ sở tri thức có sẵn, ví dụ như hai thực thể được

xem là có liên quan khi chúng có liên kết link với nhau trong Wikipedia, hoặc DBpedia

Tùy vào ngữ cảnh sử dụng trong các bài toán mà có sự đa dạng trong cách kết hợp giữa

đỉnh và cạnh Điều đó dẫn đến có nhiều loại đồ thị được tạo ra Mỗi loại đồ thị lại có đặc trưng

riêng, cách đánh trọng số và công thức tính toán riêng biệt Một số mô hình đồ thị phổ biến

ngày nay có thể kể đến như:

+ Mô hình đồ thị khái niệm (Conceptual Graph - CG)

Đồ thị khái niệm được John F Sowa giới thiệu lần đầu tiên vào năm 1976 và xuất bản quyển sách

uđầu tiên về CG năm 1984 Dự án của Sowa nhằm mục đích tạo ra “một hệ thống logic để

diễn ngữ nghĩa ngôn ngữ tự nhiên” Đồ thị khái niệm được sử dụng để biểu diễn tri thức và ngữnghĩa trên máy tính Mô hình này có những tính năng đặc biệt, phù hợp cho việc phát triển các

hệ thống truy tìm tài liệu Một đồ thị khái niệm là một đa đồ thị hữu hạn, liên thông, có hướng

và lưỡng phân với các đỉnh được chia làm hai loại đỉnh: đỉnh khái niệm và đỉnh quan hệ Đỉnh

khái niệm biểu diễn các khái niệm cụ thể (máy tính, điện thoại, ), hay trừu tượng (tình yêu,đẹp, văn hóa) Trong đó, khái niệm có thể chỉ đến một thực thé (entity), tính chat (attribute),

trạng thái (state), sự kiện (event) và hành động (act) Đỉnh quan hệ chỉ ra quan hệ giữa các khái

niệm có nối đến nó, cho biết cách mà các khái niệm được liên kết với nhau Các đỉnh khái niệm

được nối xen kẽ với các đỉnh quan hệ thông qua các cung Cung chỉ có thể nối giữa một đỉnh

khái niệm và một đỉnh quan hệ.

Mô hình đồ thị khái niệm xem xét mỗi từ trong văn bản là một khái niệm và có dạng biểu

diễn trực quan là đỉnh hình vuông Dinh quan hệ hình oval thể hiện mối quan hệ giữa các khái

niệm.

Một "Basic Conceptual Graph”(đồ thị khái niệm cơ sở/cơ bản) phải được định nghĩa trên

một bộ từ vựng có san (vocabulary) Một vocabulary là một bộ gồm có 3 thành phần (Tc, Tạ, 1)

Trang 35

Hình PL2.3 Vi du một đồ thị khái niệm đơn giản

trong đó: Tc va Tp là những tập hợp hữu hạn, rời nhau từng đôi một, Tc là tập hợp các loại khái niệm (concept types), Tp là tập hợp các ký hiệu quan hệ (relation symbols) và I là một tập các

cá thé (individual markers), ký hiệu + biểu thị cho một cá thể tổng quát/chung chung (generic

marker).

Một "Basic Conceptual Graph (BG)"được định nghĩa trên vocabulary V = (Tc, Tạ, 1), làmột bộ bốn G = (C,R,E, 1) trong đó: C là tập các đỉnh khái niệm (concept node), R là tập các

đỉnh quan hệ (relation node), E là họ các cạnh ( family of edges) và cuối cùng 1 là một hàm gan

nhãn (labeling function) cho các đỉnh và cạnh của đồ thị sao cho: 1)Một đỉnh khái niệm c đượcgan nhãn bởi 1 cặp (type(c), marker(c)), với type(c) € Tc và marker(c) € IU {+}; 2) Một đỉnhquan hệ r được gan nhãn bởi type(r) € Tạ; 3) Những cạnh có liên kết với đỉnh quan hệ r đượcgán nhãn bởi các con số, đánh thứ tự từ 1 đến số đối của quan hệ r

Mỗi đỉnh khái niệm biểu diễn cho một cá thể đơn lẻ thuộc môt loại khái niệm nào đóhoặc là một khái niệm tổng quát Để nói lên mối quan hệ giữa loại và cá thể, đỉnh khái niệmđược quy định cách gan nhãn: ”Loại khái niệm: tên cá thể”với tên cá thể có thể là tên, khoá, *, *x

(x là biến) hay đỉnh khái niệm chỉ bao gồm loại khái niệm Loại khái niệm phải được định nghĩa trước trong bộ từ vựng và giữa các loại khái niệm có quan hệ phân cấp với nhau Đỉnh quan

hệ cũng được gán nhãn bởi ký hiệu quan hệ có trong vocabulary Có thể chứa cả một mệnh đề

trong một đỉnh khái niệm Từ đó, ta có đỉnh mệnh đề là một đỉnh khái niệm có chứa một đồ thị

khái niệm khác Ví du, ta có câu ”Tom believes that Jane likes pizza” Đồ thị khái niệm biểu diễn

cho câu trên như trong Hình PL2.3 , trong đó các khái niệm là [person: ”Tom”], [person: ”Jane”],

[believe], [likes], [pizza] và các mối quan hệ là (experiencer), (object)

Tinh năng vượt trội của đồ thị khái niệm là chúng cho phép biểu diễn các liên kết ngũnghĩa giữa những khái niệm trong khi các mô hình truyền thống khác lại không thể thực hiện

được Đồ thị này mô hình hóa văn bản một cách trực quan, logic và chính xác

Ngay từ đầu những năm 90, đồ thị khái niệm đã được biết đến với hàng loạt các công trình nghiên cứu như là một hướng nghiên cứu mới, ví dụ một số hệ thống cũ trước đây đã sử dung

đồ thị khái niệm trong giải pháp của mình như CoDHIR (COntent-Driven Hypertext

Trang 36

Informa-tion Retrieval), DR-LINK (Document Retrieval using LINguistic Knowledge), RELIEF (RelaInforma-tional Logical Approaches based on Inverted Files), ITELS (Intelligent TErminology Learning System),

CGKAT, WebKB CGKAT và WebKB sử dung đồ thị khái niệm để lập chỉ mục cho các thành

éu như chương mục, đoạn văn, trong khi đồ thị khái niệm được sử phần nội dung của tài

dụng trong hệ thống CoDHIR nhằm mục đích biểu diễn cho những thông tin ngữ nghĩa đượctrích xuất từ văn bản DR-LINK cũng là một trong những nghiên cứu nỗ lực cải thiện hiệu quả

của việc tìm kiếm dựa trên tiếp cận đồ thị cho việc biểu diễn nội dung của tài liệu Hệ thống cho phép xử lý và biểu diễn văn bản ở cấp độ từ vựng, cú pháp, ngữ nghĩa và được đánh giá là

đạt kết quả vượt trội hon han so với các tiếp cận truyền thống khác Tương tự, RELIEF va ITELScũng dùng đồ thị khái niệm như một ngôn ngữ chỉ mục có thể biểu diễn mối quan hệ giữa các

khái niệm một cách hiệu quả Nhiều thuật toán so khớp đồ thị khái niệm cũng đã được đề xuất

trong cộng đồng nghiên cứu về truy hồi thông tin (Jonathan Pool, 1995), (Genest D.,1997), (M Montes-y-Gómez, 2000), (Jiwei Zhong, 2002), (Kamsu-Foguem, 2012) và được đánh giá một cách

hệ thống trong các bài báo của Michael Chein (1995) và (Tanveer J.Siddiqui, 2005).

Một trong những khó khăn lớn nhất đối với các giải pháp tìm kiếm theo ngữ nghĩa dựatrên đồ thị khái niệm là việc tự động hóa công đoạn lập chỉ mục cho các tài liệu bằng đồ thị khái

niệm Như vậy, điểm hạn chế lớn nhất của CG là độ phức tạp Việc xác định các mối quan hệ ngữ

nghĩa có thể có giữa các đỉnh trong CG đòi hỏi phải thông qua một quy trình xử lý ngôn ngữ tựnhiên phức tạp, phân tích ngữ nghĩa sâu, phụ thuộc vào lĩnh vực và các nguồn tài nguyên bênngoài Ngoài ra, việc đánh trọng số cho các thành phần trong đồ thị ít được quan tâm Một số

công trình đi theo hướng này có thể kể đến gồm [93, 48, 47] Theo đó, các từ vựng được xác định

vai trò ngữ nghĩa, sau đó, bằng sự hỗ trợ của các nguồn tài nguyên như WordNet, VerbNet đểxác định được khái niệm mà từ vựng đó đang đề cập tới Quan hệ giữa các đỉnh là quan hệ giữa các khái niệm thay vì quan hệ giữa các từ vựng.

+ Nhóm Đồ thi đồng hiện (Co-occurrence Graph)

Đồ thị được xây dựng từ đặc trưng đồng xuất hiện của các từ, keyphrase trong tài liệu Các đặc trưng đồng xuất hiện bao gồm: đồng xuất hiện trong một câu, đoạn; đồng xuất hiện trong một

cửa sổ với kích thức n từ; đồng xuất hiện dựa trên quan hệ cú pháp giữa các từ Trong công trình[64], [67], tất cả các từ xuất hiện trong tài liệu (trừ stopword) được rút trích và các từ được xácđịnh là có quan hệ với nhau khi chúng đồng xuất hiện trong cùng một câu hoặc trong cùng một

cửa số có kích thước xác định Đối với [64], hướng của cạnh được xem xét dựa trên thông tin về

thứ tự xuất hiện của hai đỉnh trong câu (hay trong cửa số) Trong các đồ thị đồng hiện, đỉnh vàcạnh đều có thể được gán trọng số, trọng số của đỉnh và cạnh là tần suất xuất hiện của từ và cặp

từ tương ứng Trọng số cạnh được xác định dựa trên thông tin về số lần đồng xuất hiện của hai

từ trong văn bản Một số cách thức khác nhằm xác định cạnh nối giữa các đỉnh như sau: Cạnh

nối từ đỉnh a đến đỉnh b khi từ tương ứng với đỉnh a đứng ngay trước từ tương ứng với đỉnh b

trong phạm vi quy ước, hay cạnh nối giữa hai từ khi giữa chúng có số từ xuất hiện nhiều nhất làn-1 từ (ngoại trừ trường hợp các từ được phân cách bởi các dấu câu), n là tham số cho người dùng

cung cấp Đồ thị đồng hiện dựa trên lexical category (Co-occurrence based on lexical category)

được sử dụng trong nghiên cứu của [16] Lexical category thể hiện vai nghĩa (semantic role) của

Trang 37

User 1:

Looking forward to another great year of NETINF! #NETINF17 #SDM #Houston

User 2:

Looking forward to listening to these great speaker at #NETINF, and present

my work during the workshop! #/SDM.

từ vựng trong câu Sau khi xác định được vai trò ngữ nghĩa của từ vựng trong câu sẽ hình thành

được quan hệ dựa theo cú pháp đơn giản của câu Trong đồ thị này, các từ đồng xuất hiện ràngbuộc nhau về mặt ngữ pháp

Ưu điểm của mô hình là tận dụng được mối quan hệ giữa các từ, tần suất xuất hiện của

từ, vùng lân cận của từ trong câu, thứ tự xuất hiện giữa các từ Dạng biểu diễn này tuy thể hiệnđược nhiều thông tin về cấu trúc của tài liệu hơn so với dạng biểu diễn vector truyền thống

nhưng vẫn chưa nắm bắt được nghĩa của từ cũng như các thông tin về quan hệ ngữ nghĩa giữachúng Phần lớn các nghiên cứu xử lý trên các từ đơn thay vì là cụm từ.

+ Nhóm Đồ thị ngũ nghĩa (Semantic Graph)

Công trình [110, 71] tận dụng nguồn tri thức DBpedia để làm giàu thêm mô hình biểu

diễn tài liệu Các đồ thị biểu diễn cho tài liệu được xem là các đồ thị con của DBpedia Trong

cách biểu diễn đó, mỗi đỉnh là một khái niệm có liên quan đến nội dung của tài liệu và được tham

chiếu đến các thực thể trong DBpedia Tập đỉnh được xây dựng nhờ vào việc sử dụng các công

cụ liên kết thực thể như SpotLight hay TagME Các đỉnh sẽ được kết nối với nhau khi có một mốiquan hệ ngữ nghĩa giữa chúng được tìm thấy trong DBpedia Các cạnh của đồ thị cũng được đánhtrọng số nhằm thể hiện sức mạnh của quan hệ Điểm khác biệt giữa hai công trình trên là [71]

xây dựng mô hình cho cả bài toán ’entity ranking’ thay vì chỉ tập trung vào một mình bài toán

"document semmantic similarity evaluation’ như [110] Trong khi đó [110] đề xuất thêm việcđánh trọng số cho đỉnh dựa trên ’closeness centrality’ thay vi chỉ đánh trọng số cạnh như [71].Hình PL2.5 cho ta một ví dụ về semantic graph, được thiết lập từ tập các thực thể: db:Bob_Dylan,db:Monterey_ Country_Fairgrounds, db:Mozambique_(Song), db:Johnny_Cash Những thực thé

này được tìm thay trong câu "Dylan played Mozambique at Monterey right before Cash”.

Đối với bài toán do lường mức độ tương đồng ngữ nghĩa giữa hai tài liệu, trong [110], vai

Trang 38

dbo:associatedBand db:Johnny Cash

lea = dbp:genre

rdftype |—*[ dbo:Musicalartist rdf:type

dbo:artist (_— foafPerson db:American folk music

trò của cạnh và trọng số cạnh chỉ dùng cho mục đính đánh trọng số cho các đỉnh, cụ thể là dùng

để tính độ trung tâm của một đỉnh dựa trên thông tin về đường đi ngắn nhất từ đỉnh đó đến các

đỉnh còn lại trong đồ thị Việc đánh giá độ tưởng đồng giữa hai tài liệu được thực hiện theo cách

thức so sánh hai tập đỉnh của hai đồ thị biểu dién chúng Trong khi, các tác giả của [71] sử dung

một kỹ thuật so khớp tài liệu (graph matching) có tên là Graph Edit Distance để giải quyết bài

toán đặc biệt này Graph Edit Distance là một phương pháp tổng quát nhằm so khớp hai đồ thị,bằng cách xác định khoảng cách giữa hai đồ thị dựa trên chỉ phí tối thiểu của các thao tác chỉnh

sửa cần thiết để biến đổi từ đồ thị này thành đồ thị kia

Tuy cả hai đều cho kết quả khá khả quan trong bài toán của mình, các công trình này đều chỉ sử dụng thuần túy các thông tin trong cơ sở tri thức mà chưa bàn đến việc khai thác kết

hợp thêm thông tin cấu trúc có trong tài liệu Một khi tập thực thể/khái niệm đã được rút trích,

việc xây dựng đồ thị biểu diễn sẽ độc lập hoàn toàn với tài liệu Hơn nữa, chất lượng biểu diễncủa những mô hình này hoàn toàn phụ thuộc vào chất lượng của DBPedia và kết quả chú thích

từ các công cụ hỗ trợ là TagMe và SpotLight Nên lưu ý rằng, DBPedia là một cơ sở tri thức tổng

quát, có một mức độ chồng chéo và nhập nhằng khái niệm cao, trong khi các công cụ kể trêncũng chưa mang lại hiệu quả trích xuất như mong đợi Và do đó, những tài nguyên này khôngthực sự phù hợp cho nhu cầu xử lý tri thức đặc biệt miền cũng như giải nghĩa cho các tài liệu

thuộc về một miền tri thức nhất định nào đó.

Ngoài ra, trong các hướng nghiên cứu về computational linguistics, một hướng biểu diễn

phổ biến là xây dựng các cây phân tích câu/đoạn dựa trên các văn phạm đặc thù và kết hợp các

cây đó thành một dạng biểu diễn dạng đồ thị Hướng biểu diễn này có thể nắm bắt được nhiều

thông tin ngữ nghĩa nhưng chỉ phí tính toán là rất cao, dẫn đến nhiều khó khăn khi xử lý dữ liệuthực tế.

Một trong những khó khăn lớn nhất đối với các giải pháp dựa trên đồ thị là việc tự động

hóa công đoạn lập chỉ mục cho các tài liệu bằng đồ thị đòi hỏi phải thông qua một quy trình

xử lý phức tạp trong phân tích ngữ nghĩa văn bản và có độ phức tạp cao Hướng giải quyết chovấn đề này thường là đề xuất các mô hình đồ thị mới đơn giản hơn - là dạng cải biến hay đơn

giản hóa từ đồ thị khái niệm ( cố gắng giữ lại những mặt mạnh của công cụ này), đồng thời sử

Trang 39

dụng chúng kết hợp với các mô hình truy hồi (hướng thống kê) truyền thống (nghĩa là bổ sungthêm tầng xử lý ngữ nghĩa bên trên những kỹ thuật truyền thống đã có thay vì thay thế hoàn

toàn chúng) Hiện nay, nhiều mô hình đồ thị không ngừng được nghiên cứu phát triển dua trên ý tưởng của đồ thị khái niệm và được ting dụng vào day rộng các bài toán liên quan đến xử lý văn ban va đây cũng là cách tiếp cận được lựa chọn trong đề tài này Một

thách thức lớn khác hiện nay theo hướng tiếp cận đồ thị là với việc xử lý trên tập văn bản số

lượng lớn, số đồ thị biểu diễn văn bản được tạo ra cũng rất lớn, dẫn đến chỉ phí lưu trữ và thờigian tính toán gây rất nhiều khó khăn cho các nhà nghiên cứu Tuy nhiên, hiện nay cũng đã có

nhiều nghiên cứu về cơ sở dữ liệu đồ thi (Graph Database) nhằm mục đích hỗ trợ cho việc mô tả

và lưu trữ dữ liệu dưới dang đồ thị cũng như xử lý tính toán, truy vấn trên đồ thị hiệu quả, trong

đó nổi bật là các hệ quản trị CSDL đồ thị như ArangoDB, Oracle Spatial and Graph, OrientDB,

Neo4j, sử dụng da dạng các ngôn ngữ truy vấn như SPARQL, Gremlin, TQL, Cypher, Năm

2010, Google công bố mô hình tính toán Pregel chuyên dùng trong việc xử lý dữ liệu đồ thị cực

lớn Sau đó đã có rất nhiều thư viện cũng như nền tảng hiện thực mô hình này hỗ trợ việc tính

toán trên đồ thị quy mô lớn như Apache Gigraph, GraphX, Apache Hama,

2.3 Vấn đề rút trích tự động các đơn vị thông tin từ tài liệu

Van đề rút trích thông tin tự động cũng được xem xét ở nhiều cấp độ: từ, cụm từ, term,keyphrase đặc trưng ngữ nghĩa và rút trích khái niệm

Rút trích tự động các keyphrase đặc trưng ngữ nghĩa (KĐTNN) của tài liệu là quá trình tự

động chọn lọc các từ hay cụm từ có khả năng mô tả ngắn gọn và chính xác các chủ đề được thảo

luận trong tài liệu, mang thông tin về nội dung nồng cốt của một tài liệu Rút trích KĐTNN là

nhiệm vụ khó khăn và cốt lõi của một hệ thống tìm kiếm hướng ngữ nghĩa Mặc dù các KĐTNNđược dùng rộng rãi trong các hệ thống ứng dụng khác nhau, nhưng việc rút trích các KĐTNN

tương ứng cho từng tài liệu bằng phương pháp thủ công tốn rất nhiều thời gian và công sức

Nhu cầu này là động lực thúc đẩy các nghiên cứu rút trích tự động các KĐTNN

Hiện nay đã có nhiều nghiên cứu xây dựng các công cụ hỗ trợ rút trích keyphrase tự động

từ các tài liệu theo nhiều hướng tiếp cận khác nhau như: Bibclassify!, Extractor2, TerMine?, Topia term extractor’, Orchestr8 Keyword Extraction®, Wikifier®, Wikipedia Miner’, SEO key-

Trang 40

word extraction’, Scorpion’, Tagthe.net!®, Yahoo term extraction! Carrot2!2, KEA/KEA++13,

Maui!*, Stanford topic Modeling toolŠ, Mallet!®.

Dua trên kết quả đã thử nghiệm thì các công cụ hỗ trợ rút trích keyphrase tự động kể trên

lại chưa mang lại hiệu quả trích xuất cao, kết quả thu được không chính xác Hệ thống không

rút trích được hết những keyphrase trọng yếu, đặc trưng cho tài liệu, những keyphrase cần thiết

thì bị bỏ qua, số keyphrase dư thừa, không phù hợp thì vẫn còn nhiều

Có thể phân các nghiên cứu về rút trích tự động các KDNN thành 3 hướng chính như

sau [8]: Đầu tiên là hướng tiếp cận sử dụng từ điển bằng cách so trùng các từ mục trong từ điển

với các cụm từ trong tài liệu Thuận lợi của hướng tiếp cận này là nhanh và đơn giản, tuy nhiênhiệu suất lại phụ thuộc vào độ lớn của từ điển và không hiệu quả khi giải quyết bài toán nhận

đạng danh từ riêng hay các thuật ngữ mới trong những phạm vi chuyên biệt Thứ hai là hướng

tiếp cận bằng cách học các giá trị đã được thống kê từ một kho ngữ liệu lớn để rút trích các cụm

từ Mặc dù có gia tăng về mặt tính toán, kỹ thuật này không đòi hỏi nhiều công sức để tạo ra

từ điển hay cơ sở tri thức mà còn có khả năng lấy được các thuật ngữ có trọng số cao trong kho.ngữ liệu Tuy nhiên, hạn chế của phương pháp này là có thể không rút trích được các keyphraseđặc trưng có tần số thấp Cuối cùng là hướng tiếp cận dùng cơ sở tri thức, các phương pháp đánh

giá theo kinh nghiệm, các phương pháp luật dẫn để rút trích các keyphrase Đây cũng là hướngtiếp cận được lựa chọn trong đề tài vì có thể đạt được độ chính xác cao, tuy nhiên còn phụ thuộc

vào việc thiết kế từng hệ thống cụ thể Khó khăn chính là việc xây dựng một cơ sở tri thức cho

những miền chuyên biệt có phạm vi lớn, việc này đòi hỏi rất nhiều thời gian và công sức.

Một cách thức phân loại khác được giới thiệu trong (Lê Thúy Ngọc, 2008) [5], tập trung

vào vấn đề rút trích các khái niệm có trong tài liệu, theo đó tác giả nhận định rằng: Rút tríchcác khái niệm thường bao gồm hai giai đoạn chính: rút trích cụm từ và so khớp các cụm từ với

nguồn tri thức có sẵn Có 3 phương pháp rút trích cum từ, đó là: phương pháp ngôn ngữ học,

phương pháp thống kê và phương pháp lai Đối với phương pháp ngôn ngữ học, cụm từ được xác

định bởi các mẫu (pattern) cho trước hoặc bằng cấu trúc ngôn ngữ học của chúng (về cú pháp

hay hình thái) Ý tưởng chính là nội dung văn bản sẽ được gán nhãn từ loại, sau đó các cụm từ

sẽ được loc ra bằng cách dò tìm và rút trích các chuỗi mà cấu trúc (được gan nhãn) của nó khớp.với cấu trúc của các mẫu cho trước Tính hiệu quả của phương pháp này phụ thuộc nhiều vàoviệc xây dựng các mẫu so khớp Đối với phương pháp thống kệ, rút trích cụm từ chủ yếu dựa

trên việc tính toán các thông số thống kê như tần suất xuất hiện của cụm từ trong kho ngữ liệu,

độ đo mức ết dính của hai từ, hay tần suất đồng xuất hiệ Đối với phương phápcủa hai

lai, đầu tiên cụm từ được rút trích từ tài liệu theo phương pháp ngôn ngữ học, sau đó được lọc

Ngày đăng: 24/11/2024, 15:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN