Một địnhnghĩa khác mang tính tổng hợp và đúng theo định hướng xây dựng hệ thống ứng dụng của đề tài như sau: "Ontology là bản mô tả tường minh các khái niệm trong một miền ứng dụng nao đ
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
HUYNH THI THANH THUONG
PHU LUC CHUYEN MON LUẬN AN TIEN SĨ KHOA HQC MAY TÍNH
NGHIEN CUU PHUONG PHAP XAY DUNG HE THONG QUAN LY TAI LIEU VAN BAN DUA TREN
NGỮ NGHĨA
TP HÒ CHÍ MINH, 2024
Trang 2ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
HUYNH THI THANH THUONG
NGHIEN CUU PHUONG PHAP XAY DUNG HE THONG QUAN LÝ TAI LIEU VAN BẢN DỰA TREN
NGU NGHIA
Chuyên ngành: Khoa học Máy tính
Mã số: 62480101 (9480101)
LUẬN ÁN TIEN SĨ KHOA HỌC MAY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS TS BO VĂN NHƠN
TP HO CHÍ MINH - NĂM 2024
Trang 3Mục lục
PHU LUC 1 ONTOLOGY VÀ CÁC MÔ HINH NGƯ NGHĨA 1
1.2 Các thành phần của ontology -cSẶŸŸẶS 2
1.4 Các phương pháp xây dựng ontology 5
1.5 Nền tảng công nghệ ontology Ốc ee 7 1.6 Một số hệ thống tìm kiếm tài liệu theo ngữ nghĩa dựa trên ontology 10
1.7 Một số công trình nghiên cứu trong nước có liên quan 12
PHU LUC 2 CÁC PHƯƠNG PHAP BIÊU DIEN TÀI LIEU VAN BAN VÀ KỸ THUAT TÌM KIỀM 16 2.1 Các phương pháp tìm kiếm tài 16 2.1.1 Tìm kiếm tài liệu theo tiếp cận thống kê 16
2.1.2 Tìm kiếm tài liệu theo hướng ngữ nghĩa 23
2.2 Van đề biểu diễn tài liệu văn ban 2 ee 24 2.2.1 Biểu diễn văn bản dựa trên vector ee 24 2.2.2 Biểu diễn văn bản dựa trên đồ thị 29
2.3 Vấn đề rút trích tự động các đơn vị thông tin từ tài liệu 35
2.4 Vấn dé đo lường mức độ tương đồng ngữ nghĩa giữa các từ/khái nệm 37
2.5 Vấn đề đánh giá một hệ thống tìm kiếm tàilệu 43
2.6 Những khó khăn và thách thức - - 45
PHU LUC 3 XÂY DUNG ONTOLOGY MIEN THEO MÔ HÌNH CK-ONTO 49 3.1 Các bước chính trong quy trình xây dung ontology 49 3.1.1 Thu thập dữ liệu và tích hợp ontology a 49 3.1.2 Làm giàu ontology 2 2 2 ee 50 3.1.3 Anh xa tới các nguồn tài nguyên hiện có 53
3.1.4 Chuẩn hóa ontology ẶẶ eee 54 3.2 Quản lý ontology và thiết kế các xử lý cơ bản trên ontology 57
PHU LUC 4 XÂY DỰNG ĐỒ THỊ KEYPHRASE BIEU DIEN TÀI LIEU 61
4.1 Rút trích keyphrase ee 61
Trang 44.2 Sự khác biệt trong kỹ thuật xây dựng đồ thị giữa dữ liệu Việt ngữ và Anh ngữ 64
PHU LUC 5 HE QUAN LÝ CƠ SỞ TÀI LIEU VAN BAN THEO NGỮ NGHĨA: QUY
TRINH THIẾT KẾ CÁC HỆ THONG UNG DỤNG 67
5.1 Quy trình thiết kế Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa
học máy tinh 2 eee 67 5.1.1 Mô tả kho tài nguyên hoc tap 2 eee 67
5.1.2 Xây dung ontology cho lĩnh vực học tập Khoa học máy tinh 68
5.1.3 Xây dựng đồ thi keyphrase biểu diễn tài liệu họctập 69
5.1.4 Xử lý câu truy vấn ee 72 5.1.5 Mô hình cơ sé tài liệu có ngữ nghĩa cho Kho tài nguyên học tập 74
5.1.6 Tổ chức cơ sở về các tài liệu trên máy tính 77
5.2 Quy trình thiết kế Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ L 2 8e - 84
5.2.1.Mục tiêu và chức năng của hệ thống 84
5.2.2 Xây dựng ontology cho lĩnh vực việc làm Công nghệ Thông tin 91
5.2.3 Xây dung đồ thi keyphrase biểu diễn tin bài tuyển dung 9
5.2.4 Tổ chức cơ sở về các tin bài tuyển dụng theo mô hình SDB trên máy tính 96 5.3 Quy trình thiết kế Hệ thống tìm kiếm và chọn lọc tin bài trên các báo điện tử 98 5.3.1 Thực trạng và nhu cầu xây dựng hệ thống hỗ trợ chọn lọc tin bài về một tỉnh thành trên báo mạng c co 98 5.3.2 Mục tiêu và chức năng của hệ thống 99 5.3.3 Xây dung ontology cho lĩnh vực Lao động - Việc làm và Dau tu công — Đầu tư nước ngoài Ặ Q2 QC 103 5.3.4 Xây dung đồ thi keyphrase biểu diễn tin bài trên báo điện tử 107
5.3.5 Mô hình hóa cấu trúc thông tin của một trang báo điện tử 110
5.3.6 Mô hình cơ sở tài liệu có ngữ nghĩa cho Kho tin bài trên các báo điện tử 115 5.3.7 Tổ chức cơ sở về các tin bài trên máy tính 117
PHU LUC 6 DO LƯỜNG MỨC ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI TÀI LIEU: MOT SO THỰC NGHIỆM VÀ KỸ THUAT CÓ LIEN QUAN 120 6.1 Đánh giá sự ảnh hưởng của các tham số đến hiệu suất của hệ thong 120
6.1.1 Thực nghiệm rút trích keyphrase 120
6.1.2 Ảnh hưởng của các chiến lược lựa chọn tham số khác 122
6.2 Rút trích thực thé dùng Lookup Entity kết hợp với TagMe_ 126
TÀI LIỆU THAM KHẢO 132
Trang 5PHỤ LỤC 1 ONTOLOGY VÀ CÁC MÔ HÌNH NGƯ NGHĨA
1.1 Định nghĩa ontology
Công nghệ ontology là một công nghệ được nghiên cứu phát triển mạnh mẽ trong thời
gian gần day Ontology trở thành một lĩnh vực nghiên cứu phổ biến có mặt trong nhiều lĩnh vực
từ xử lý ngôn ngữ tự nhiên, các hệ cơ sở tri thức, các hệ thống hỏi-đáp, tích hợp thông tin cho
đến biểu diễn và quản lý tri thức
Ontology là một thuật ngữ có nguồn gốc từ Triết học diễn tả các thực thể tồn tại trong
tự nhiên và các mối quan hệ giữa chúng Theo cách nhìn của triết học, ontology - bản thể học
là “một môn khoa học về nhận thức, cụ thể hơn là một nhánh của siêu hình học về tự nhiên vàbản chất của thế giới, nhằm xem xét các vấn đề về sự tồn tại hay không tồn tại của các sự vật”
{
Theo đó người ta đưa ra khái niệm bộ ba ngữ nghĩa bao gồm biểu tượng - khái niệm - sự
đây là mô hình dùng để mô tả hay biểu diễn thế giới thực, biểu tượng sẽ gợi lên khái niệm vàbiểu diễn sự vật còn khái niệm sẽ đề cập tới sự vật
Trong Trí tuệ nhân tạo, có rất nhiều định nghĩa về ontology, một số định nghĩa được xem
là kinh điển và được thừa nhận rộng rãi như sau [97, 72, 4] :
(Gruber, 1993) định nghĩa ontology như ”một đặc tả tường minh của sự khái niệm hóa
trong một lĩnh vực” (Borst, 1997) sửa đổi một chút định nghĩa của Gruber, rang ontology là "su
đặc tả hình thức của sự khái niệm hóa được chia sẻ” Sự khái niệm hóa có nghĩa là mô hình trừu tượng của các sự vật, hiện tượng trên thế giới được xác định qua các khái niệm liên quan của sự
vật, hiện tượng đó Tường mình có nghĩa là các kiểu khái niệm và các ràng buộc giữa chúng làđược xác định rõ ràng Hình thức có nghĩa là ontology phải được hiểu bởi máy tính Chia sẻ có
nghĩa là tri thức trong ontology được kết hợp xây dựng và được chấp nhận bởi một nhóm hoặc một cộng đồng chứ không theo tri thức chủ quan của cá nhân.
(Motta, 1999) định nghĩa “ontology là đặc tả một phần của tập hợp các khái niệm được sử
dụng hình thức hóa các tri thức của một lĩnh vực cần quan tâm Vai trò cơ bản của một ontology
là nhằm chia sẻ và sử dụng lại tri thức” (Uschold, 1998) phát biểu rằng ”ontology chứa các định
nghĩa và quan hệ giữa các khái niệm, hình thành một cấu trúc lĩnh vực và giới hạn ngữ nghĩa của thuật ngữ trong từ vựng” (Weiss, 1999) định nghĩa "ontology là một đặc tả của các khái niệm
và quan hệ trong lĩnh vực quan tâm Ontology không chỉ là phân cấp các lớp mà còn mô tả các
quan hệ” Theo định nghĩa của Hendler năm 2001, “ontology là một tập hợp các thuật ngữ tri
thức (knowledge term), bao gồm từ vựng, các quan hệ ngữ nghĩa, một số luật suy diễn và logic
trong một lĩnh vực đặc thù”.
Nhìn chung, có rất nhiều định nghĩa về ontology, mỗi định nghĩa thể hiện một cách nhìn
Trang 6khác nhau và đi kèm với nó là một phương pháp luận và kỹ thuật xây dựng ontology Một định
nghĩa khác mang tính tổng hợp và đúng theo định hướng xây dựng hệ thống ứng dụng của đề
tài như sau: "Ontology là bản mô tả tường minh các khái niệm trong một miền ứng dụng nao
đó, xác định một bảng từ vựng chung cho những người cần chia sẻ thông tin trong một lĩnh vực,
bao gồm định nghĩa của các khái niệm cơ bản mà máy tính có thể hiểu được, các quan hệ ngữ
nghĩa giữa chúng, cùng một số luật logic và suy diễn, cho phép suy luận khái niệm mới, quan
hệ mới từ các khái niệm hay quan hệ đã có” (Lê Tấn Hùng, 2006) [4]
1.2 Các thành phần của ontology
Ontology được xây dựng thường có các thành phần cơ bản sau:
+ Các lớp (class) (tưởng ứng với các concept - khái niệm): là trung tâm của hầu hết cácontology, mô tả các khái niệm trong miền lĩnh vực Các lớp thường được tổ chức phân cấp
và áp dụng kỹ thuật thừa kế Một lớp có thể có các lớp con biểu diễn khái niệm cụ thể hơn
so với lớp cha.
+ Thuộc tinh (property hay role, slot): mô tả các đặc tính, đặc trưng, tính chất khác nhaucủa khái niệm và mỗi thuộc tính đều có giá trị Thuộc tính được phân biệt với quan hệ
(relation) dựa trên giá trị là một kiểu dữ liệu (string, number, boolean, ) Một thuộc tính
bản thân nó cũng có các thuộc tính con và cũng có các ràng buộc trên nó.
+ Quan hệ (relation): biểu diễn các kiểu quan hệ giữa các khái niệm Các quan hệ nhị phân
được sử dụng để biểu diễn thuộc tính Tuy nhiên, giá trị của quan hệ khác với giá trị củathuộc tính ở chỗ giá trị của quan hệ là một khái niệm
+ Thực thể hay thể hiện (instance): biểu dién các phần tử riêng biệt của khái niệm, là các thé
hiện của lớp Mỗi thể hiện của lớp biểu diễn một sự cụ thể hóa của khái niệm đó.
+ Ham (function): là một loại thuộc tính hay quan hệ đặc biệt, trong đó, phần tử thứ n làduy nhất đối với n-1 phần tử còn lại
+ Tiền đề (Axioms): biểu diễn các phát biểu luôn đúng mà không cần phải chứng minh haygiải thích Axioms được sử dụng để kiểm chứng sự nhất quán của ontology hoặc cơ sở tri
thức Cả hai thành phần hàm và tiên đề góp phần tạo nên khả năng suy diễn trên ontology
1.3 Một số ontology hiện có
Cùng với sự ra đời và phát triển của Web có ngữ nghĩa, ontology được sử dụng rộng rãi
trong việc nghiên cứu và phát triển các mô hình tìm kiếm tài liệu theo ngữ nghĩa Trong đó,
nhiều công trình với mục đích nâng cao hiệu quả truy hồi tài liệu đã nghiên cứu khai thác cácontology về thực thể có tên như KIM, YAGO; khai thác ontology về từ vựng như WordNet; hoặc
mở rộng câu truy vấn dựa trên các ontology về sự kiện Các tác giả David Sanchez [37], Miriam
Fernandez [70] , Soner Kara [88] đã áp dung ontology cho việc biểu diễn ngữ nghĩa và truy tìm
Trang 7thông tin, qua đó chuyển việc đánh giá truy vấn dựa trên các từ khoá sang sự đánh giá truy vấn
dựa trên khái niệm và dùng tri thức trong Ontology để đo lường mức độ tương đồng về ngữ
nghĩa giữa các cấu trúc khái niệm được so khớp Các công trình nước ngoài tập trung chính vào
các xử lý cho Web tiếng Anh.
Một số ontology có sẵn thường được sử dụng trong nghiên cứu về các hệ thống tìm kiếm
tài liệu có thể kế đến:
+ WordNet
WordNet là một cơ sở dit liệu về từ trong đó các từ được nhóm lại thành các tap từ đồng nghĩa
gọi là synsets, các synset được gắn kết với nhau nhờ các quan hệ ngữ nghĩa WordNet là một
loại từ điển có tính trực quan cao, là một mạng ngữ nghĩa đồ sộ, được phát triển từ năm 1985,
đến nay phiên bản mới nhất là 3.0 chứa hơn 155.287 từ và tổ chức thành 117.659 synset tiếng,
Anh, kích cỡ khoảng 12MB Các nhà ngôn ngữ học, tâm lý học và tin học đã bỏ ra gần 20 năm
để xây dựng hệ thống này và ngày nay chúng vẫn còn được nâng cấp về số lượng và chất lượng.WordNet đầu tiên trên thế giới được phát triển cho tiếng Anh tại Dai hoc Princeton, Mỹ Cho
đến nay đã có nhiều WordNet cho các ngôn ngữ khác như: các ngôn ngữ Châu Âu, tiếng Nhật,tiếng Thái và cả tiếng Việt.
điển Mỗi khái niệm trong SENSUS được đại diện bởi một node và các khái niệm được liên kết
với nhau theo một hệ thống phân cấp IS-A
Library of Congress Classification (LCC) là một hệ thống phân loại dùng cho thư viện bao.gồm nhiều lĩnh vực khoa học, được phát triển bởi Thư viện Quốc Hội Mỹ (Library of Congress).LCC được sử dụng để phân loại sách trong các thư viện học thuật lớn ở Hoa Kỳ và một số quốcgia khác Tuy nhiên, cây phân cấp của LCC phát triển theo chiều ngang hơn là chiều trên xuống,chưa đặc tả được tri thức miền ở mức độ chỉ tiết cần thiết Ví dụ, lĩnh vực Khoa học Máy tínhchỉ bao gồm ba chủ đề là Electronic computers, Computer science, va Computer software
+ Các ontology về thực thê có tên KIM và YAGO
KIM ontology chứa khoảng 300 lớp thực thể, 100 thuộc tính và kiểu quan hệ, và 77.500 thực thể
có tên với hơn 110.000 bí danh Thực thể có tên là con người, tổ chức, nơi chốn, và
tượng khác Mỗi thực thể có tên có ba đặc trưng cơ bản là tên, lớp và định danh Mỗi thực thể
có thể có nhiều tên khác nhau, được gọi là các bí danh của thực thể đó Mặt khác, cũng có nhiều
số đối
thực thể khác nhau nhưng có cùng tên Mỗi thực thể thuộc về một lớp trực tiếp của nó và đồng,
thời thuộc về các lớp cha của lớp trực tiếp này Mỗi thực thể có tên có một định danh xác định
Trang 8duy nhất nó YAGO chứa khoảng 1,95 triệu thực thể, 93 kiểu quan hệ và 19 triệu sự kiện mô tả
quan hệ giữa các thực thể Cũng như KIM, các kiểu thuộc tính và quan hệ giữa các thực thể có
tên trong YAGO là nhị phân
+ Các ontology miền - lĩnh vực (Domain Ontology)
Ontology miền hay còn được gọi là ontology lĩnh vực (Domain Ontology) là những ontology có
thể tái sử dụng trong một lĩnh vực nào đó, nó cung cấp từ vựng về các khái niệm và các mối
quan hệ trong một lĩnh vực UMLS là nguồn tri thức chứa các khái niệm trong lĩnh vực y khoa
và mối quan hệ giữa các khái niệm đó UMLS là một cơ sở dit liệu từ vựng rất lớn, đa mục dich
và đa ngôn ngữ, được thư viện quốc gia về y khoa của Hoa Kỳ thiết kế, tạo ra, duy trì và được
cập nhật hàng quý Nó được xây dựng từ một số lượng lớn các nguồn từ vựng, các từ điển, danh
sách các từ quan trong trong thống kê sức khỏe, chăm sóc sức khỏe, nghiên cứu y khoa Phiên bản UMLS 2006 tập hợp gồm 139 nguồn từ vựng thuộc tri thức y học ở 17 ngôn ngữ khác nhau,
gần 1.3 tỉ khái niệm (concept), 135 “loại ngữ nghĩa” (semantic type) và 54 mối quan hệ (semantic
relation) giữa các loại ngữ nghĩa Mỗi khái niệm trong UMLS Metathesaurus được gán cho ítnhất một loại ngữ nghĩa, và một quan hệ ngữ nghĩa được xác định trên các loại ngữ nghĩa này.
Tri thức UMLS được phép sử dụng miễn phí nhằm phục vụ cho các mục tiêu nghiên cứu hay
ứng dụng thực tế
Một số ontology tiếng Anh thuộc lĩnh vực y tế khác được đề cập nhiều trong thời giangần đây là MeSH, GENIA, SNOMED, Disease Ontology, Ontology BioCaster Medical Subject
Heading (MeSH) là một ontology tiêu chuẩn trong lĩnh vực Y khoa, được phát triển và duy trì
bởi Thư viện Y khoa Quốc gia Hoa Kỳ (ational Library of Medicine of the United States) Các ontology này cũng được sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên, tìm kiếm thông
tin, trích chọn thông tin, phân lớp và tóm tắt văn bản Trong đó, tồn tại một ontology đề cậpđến các thuật ngữ y tế trong tiếng Việt, đó là Ontology Biocaster Đây là ontology được nghiêncứu theo dự án Biocaster được phát triển tại Viện Tin học Quốc gia Nhật Bản với sự cộng tác
của các trường đại học tại Nhật Bản, Thái Lan, Việt Nam Đây là ontology viết cho nhiều ngôn ngữ như Nhật, Anh, Thái, Vi
đó có 371 thuật ngữ tiếng Việt liên quan đến bệnh, virus, các triệu chứng của Việt Nam
Ontology BioCaster có các thuật ngữ của nhiều thứ tiếng trong
ệm (taxonomy) nổi tiếng là
Trong lĩnh vực Khoa học Máy tính, một cây phân cấp khái
ACM Computing Classification System, được phát triển và duy trì bởi một hiệp hội quốc tế về
nghiên cứu, giáo dục ngành Khoa học máy tính và Tin học uy tín nhất thế giới là ACM, viết tắt
từ Association for Computing Machinery ACM cung cấp một cách phân loại các ngành, chuyênngành liên quan đến Tính toán và Khoa học máy tính với khoảng 10 chuyên ngành rộng và
hàng trăm chuyên ngành hẹp Tuy nhiên, sự phân loại này gặp phải một số hạn chế: đặc biệt là
hệ thống chỉ chứa khoảng 2000 chủ đề nghiên cứu (research topic) và được xây dựng theo cách
thức thủ công Điều đó dẫn đến quá trình phát triển của taxonomy cực kỳ chậm và tốn nhiều chỉ
còn
phí Phiên bản cuối cùng được cập nhật đến năm 2012 Do đó, mặc dù ACM taxonomy vã
đang được nhiều nhà xuất bản sử dụng, nhưng trên thực tế, sự phân loại này hạn chế cả chiều
sâu lẫn bề rộng và các bản phát hành nhanh chóng lỗi thời
Trang 9Trong lĩnh vực Vật lý và Thiên văn học, một ontology phổ biến từng được sử dung rộngrãi là Physics and Astronomy Classification Scheme (PACS), nhưng sau đó được thay thế bởiPhysics Subject Headings (PhySH) vào năm 2016 Hiệp hội Vật lý Hoa Kỳ (American PhysicalSociety - APS) đã phát triển PhySH, một sơ đồ phân loại mới có lợi thế là được tạo ra và phát
triển bởi cộng đồng, với sự hỗ trợ của các tác giả, phản biện, biên tập và ban tổ chức hội thao
khoa học, vì vậy các thuật ngữ mới trong lĩnh vực được cập nhật liên tục cho ontology.
Mathematics Subject Classification (MSC) là một taxonomy được sử dụng rộng rãi trong
lĩnh vực Toán học Lược đồ này được duy trì bởi Mathematical Reviews and zbMATH và được
nhiều tạp chí toán học sử dụng Phiên bản cuối cùng có từ năm 2010 và thường thì một phiên bản chính thức mới được phát hành cứ sau 10 năm 1 lần.
JEL classification scheme là một bộ phân loại được sử dụng nhiều nhất trong lĩnh vực
Kinh tế Lược đồ JEL được tạo ra bởi Journal of Economic Literature of the American Economic
Association và lần sửa đổi lớn của ontology là vào năm 1990 Trong những năm gần day cũng
đã có nhiều thay đổi cho ontology để phản ánh những tiến bộ trong lĩnh vực này
1.4 Các phương pháp xây dung ontology
Do nhu cầu ontology ngày càng phát triển, nên nhiều phương pháp khác nhau để xây
dựng ontology một cách tự động hoặc bán tự động được các tác giả nghiên cứu và phát triển
Các phương pháp này giúp giảm bớt chỉ phí về thời gian và công sức so với việc xây dựng các
ontology một cách thủ công Nhưng mặt khác chất lượng của các ontology thu được từ nhữngphương pháp này phụ thuộc khá nhiều tùy vào thuật giải được sử dụng, nguồn dữ liệu mà thuật
giải sử dụng, cũng như từng lĩnh vực mà phương pháp được áp dụng vào.
Một trong những hướng tiếp cận xây dựng ontology chính là rút trích ontology từ các nguồn đữ liệu khác nhau Các phương pháp rút trích ontology sử dụng nhiều cách thức khác
nhau từ các phương pháp máy học, xử lý ngôn ngữ tự nhiên cho đến thống kê Các phương pháp
xử lý ngôn ngữ tự nhiên dựa trên việc phân tích từ vựng, phân tích cú pháp của câu trên mộttập hợp các văn bản thuộc về một domain nào đó, từ đó rút trích ra các khái niệm và xây dựng
mỗi quan hệ về mặt ngữ nghĩa giữa các khái niệm Phương pháp thống kê sẽ tiến hành thống
kê trên các nguồn dữ liệu để rút trích ontology Các phương pháp sử dụng việc học máy sẽ khai
thác các nguồn dữ nhằm rút ra các đặc trưng của dữ liệu, các khuôn mẫu cũng như các tập
luật phục vụ cho việc rút trích ontology Một trong những hướng tiếp cận đáng quan tâm là rút
trích ontology từ đữ liệu web Các nguồn đữ liệu được dùng trong việc rút trích ontology khá đa dang, từ đữ liệu dang văn bản, dữ liệu quan hệ trong các cơ sở dit liệu quan hệ, cho đến đữ liệu
từ web Trong đó nguồn dữ liệu từ web có lợi thé là nguồn thông tin phong phú, da dang và có
sẵn trên internet.
Các hệ thống xây dung ontology có thể sử dung dữ liệu từ nhiều nguồn khác nhau để
xây dựng nên ontology, có thể được phân chia thành các loại sau đây:
+ Dữ liệu có cấu trúc: Hệ thống xây dựng lên các ontology dựa vào các dữ liệu có cấu trúc
Trang 10như từ database schema, từ những ontology đã có sẵn, từ những co sở tri thức va từ các
mạng từ vựng như WordNet.
+ Dữ liệu bán cấu trúc: đây cũng là một nguồn khác mà các hệ thống thường sử dụng, bao
gồm các từ điển, các văn bản HTML và XML
+ Dữ liệu không có cấu trúc: đây là nguồn dữ liệu khó rút trích tri thức nhất Các hệ thống
xây dựng ontology phải thực hiện các công đoạn xử lý ngôn ngữ tự nhiên trên các văn
bản này để khám phá ra các khái niệm và các quan hệ Dữ liệu dang này bao gồm các vănbản viết trên ngôn ngữ tự nhiên hoặc các văn bản lấy từ web
Một hạn chế chung của hầu hết các ontology kể trên là đều được tạo ra và duy trì bởi
các chuyên gia trong lĩnh vực theo một cách thức thủ công Việc thiết kế và xây dựng ontology
miền chuyên biệt đòi hỏi nhiều công sức và thời gian Do đó, các ontology miền có xu hướng
phát triển tương đối chậm và nhanh chóng trở nên lỗi thời Để khắc phục vấn đề này, một số
tổ chức (ví dụ như Hiệp hội Vật lý Hoa Kỳ) kêu gọi sự nỗ lực lớn từ cộng đồng để phát triển
ontology của họ Tuy nhiên, chiến lược Crowdsourcing (thu thập thông tin hoặc ý kiến từ một
nhóm người đông đảo) cũng gặp phải những hạn chế, đặc biệt là về độ tin cậy của các kết quả thu thập được Kashyap đề xuất một phương pháp tạo ontology với sự tham gia của các chuyên
gia ở mức độ tối thiểu bằng việc tái sử dụng các thông tin sẵn có như các từ điển dữ liệu, từ điển
chuyên đề
Như đã biết, một trong những thành phần quan trọng nhất của ontology là các khái niệm
và các mối quan hệ Các thành phần này được xây dựng càng chính xác và đầy đủ thì tri thức
của ontology càng được đánh giá tốt Việc định nghĩa ra các các khái niệm và các mối quan hệ
có thể dựa trên các kinh nghiệm và sự tổng hợp tri thức của con người Tuy nhiên, sẽ là tốt
hơn rất nhiều nếu như có một công cụ mà có khả năng hỗ trợ tự động tìm ra được các thành
phần này nhằm hỗ trợ xây dựng ontology Một hướng tiếp cận khác là tự động hoặc bán tự động
tạo các ontology bằng cách sử dụng các phương pháp luận theo hướng dữ liệu Trong lịch sửnghiên cứu, chúng ta có thể tìm thấy nhiều cách tiếp cận để học các taxonomy hoặc ontology
dựa trên xử lý ngôn ngữ tự nhiên, kỹ thuật phân cụm, phương pháp thống kê Ví dụ, Text2Onto.
[75] là một framework để học các ontology từ một tập các tài liệu Cách tiếp cận này xác định
các từ đồng nghĩa, phân cấp lớp cha/lớp con thông qua việc áp dụng các kỹ thuật xử lý ngôn
ngữ tự nhiên trên cấu trúc câu, trong đó các cụm từ như ”such as”và ”and other”ngụ ý là có một
mối quan hệ phân cấp giữa các thuật ngữ Phương pháp này có một số điểm tương đồng vớithuật toán Klink-2 [45], nhưng yêu cầu xử lý toàn bộ nội dung của tài liệu TaxGen là một cách
tiếp cận khác để tạo tự động taxonomy từ một kho ngữ liệu bằng một thuật toán ”hierarchical
agglomeration clustering”và các kỹ thuật khai thác văn bản Thuật toán gom cụm trước tiên xác
định các cụm dưới cùng bằng cách quan sát các đặc trưng ngôn ngữ trong tài liệu, chẳng hạn
như đồng xuất hiện của các từ, tên người, tên tổ chức, thuật ngữ miền và các từ quan trongkhác từ văn bản Sau đó, các cụm được tổng hợp lại tạo ra các cụm cấp cao hơn, tạo thành hệ
thống phân cấp Một cách tiếp cận khác để tự động tạo hệ thống phân loại là phương pháp gọi
là "subsumption method”[20], phương pháp này tính xác suất có điều kiện để một từ khóa được
Trang 11kết hợp với một từ khóa khác dựa trên sự đồng xuất hiện của chúng Với một cặp từ khóa, hệ
thống này cố gắng tìm hiểu liệu có mối quan hệ Subclass of (cũng còn được gọi là subsumption
relationship) giữa chúng hay không, sử dụng một số heuristic cho trước Tuy nhiên, cách tiếp
„ trong khi Klink-2
còn đi xa hơn bằng cách tận dụng các nguồn bên ngoài Cũng có thể kết hợp học ontology và
cận này chỉ giới hạn trong phân tích thống kê về các từ khóa đồng xuất
chiến lược nguồn cung ứng cộng đồng (crowdsourcing ) bằng cách phát triển các phương pháp
có xem xét cả độ đo thống kê và ý kiến của người dùng [62] Phương pháp này kết hợp nỗ lực
của con người và sự tính toán của máy móc bằng cách thuê nguồn lực cộng đồng để đánh giámột ontology được tạo tự động, với mục đích kiểm tra tính đúng đắn và chọn lọc các quan hệđược trích xuất
1.5 Nền tảng công nghệ ontology
Các tiếp cận dựa trên ontology cho vấn đề tìm kiếm tài liệu đòi hỏi sự mô tả một cách hệthống miền tri thức của ứng dụng, xem nó như là một mô hình ngữ nghĩa được thống nhất vàdùng chung cho những người cần chia sẻ thông tin tri thức trong một lĩnh vực Ngày nay, chúng
ta phải thừa nhận rằng việc xây dựng một mô hình miền hay ontology là một trong những bướcquan trọng trong phát triển những hệ tìm kiếm tài liệu theo ngữ nghĩa Trong những năm gần
đây, các nhà khoa học trên thế giới đã xây dựng một số môi trường để phát triển và sử dụng các
ontology bao gồm các ngôn ngữ, các mô hình, các công cụ hỗ trợ phát triển, tích hợp, đánh giá,
lưu trữ và truy vấn ontology cùng với những cơ sở hạ tầng có thể làm tiêu chuẩn cho việc biểu
diễn tri thức, chia sẻ, trao đổi, và suy diễn tự động Đặc biệt, ta cần quan tâm đến mô hình biểudiễn tri thức của các ngôn ngữ và công cụ, việc tri thức gồm những thành phần gì và biểu diễn
tri thức như thế nào là hết sức quan trọng
Các ngôn ngữ ontology điển hình bao gồm: LOOM, LISP, Ontolingua, XML, SHOE, RDF,
RDF Schema, OIL, DAML+OIL va OWL Từ những năm 90, nhiều ngôn ngữ ontology đã ra đời,
những ngôn ngữ này xuất phát từ lĩnh vực Trí tuệ nhân tạo Chúng được gọi là những ngôn
ngữ truyền thống (Traditional Ontology Language) để phân biệt với những ngôn ngữ mới hơn
ra đời sau thuộc về nhóm ngôn ngữ đánh dấu ontology (Ontology Markup Language) CycL là
một trong những ngôn ngữ ra đời đầu tiên phục vụ cho việc xây dựng ontology Cyc Với sự
phát triển nhanh chóng của Internet, những ngôn ngữ ontology với nền tảng là ngôn ngũ web
ra đời Cú pháp của chúng dựa vào các ngôn ngữ đánh dấu (markup language) đã tồn tại sẵn đó
là HTML, hay XML (những ngôn ngữ đánh dấu này vốn ra đời với mục đích không phải là thểhiện ontology mà được dùng để thể hiện dữ liệu và trao đổi dữ liệu) Một số ngôn ngữ được sử
dụng phổ biến hiện nay:
+ SHOE
SHOE do nhóm tác giả Luke va Hefin đề xuất vào năm 1996, có thể xem như là ngôn ngữ đánh
dau ontology đầu tiên Ngôn ngữ này được xây dựng dựa trên HTML, nhưng sử dụng các thẻ
khác nhờ đó cho phép thêm ontology vào các tài liệu HTML (các thẻ này không được định nghĩa
Trang 12trong ngôn ngữ HTML nên những gì thêm vào sẽ không hiện lên trên trình duyệt ) Sau này
SHOE được chuyển qua sử dụng trên nền XML
+ RDF (Resource Description Framework)
RDF (Resource Description Framework) được đề xuất bởi Lassila va Swick, và được phát
triển tại W3C (World Wide Web Consortium) Có thể nói rằng RDF chính là nền tảng và là linh
hồn của Web có ngữ nghĩa RDF là một ngôn ngữ được dùng để mô tả thông tin về những tàinguyên trên Web và mô tả ngữ nghĩa của những thông tin ấy theo cách mà máy có thể hiểu
được Như vậy, RDF biểu bién metadata về những tài nguyên trên Web như tiêu đề, tác giả, va
u Web, Bằng cách kháiquát hóa khái niệm "tai nguyên Web”, RDF cũng có thể được sử dụng để biểu diễn thông tin về
”những thứ”có thể được nhận diện trên Web, ngay cả khi chúng không thể được truy hồi một
cách trực tiếp trên Web RDF cung cấp một framework chung cho việc biểu diễn thông tin này vìngày sửa đổi của một trang web, thông tin bản quyền về một t
thế nó có thể được trao đổi giữa các ứng dụng mà không làm mất đi ý nghĩa của thông tin RDF
mô tả tài nguyên trên Web thông qua URI (Uniform Resource Identifier) và trong RDF, thông
tin được thể hiện bởi bộ ba Subject - Predicate - Object Các bộ ba này có thé được biểu diễn
dưới dang đồ thị, gọi là đồ thi RDF (RDF Graph) Tất cả các phần tử trong bộ ba là các tài nguyên
được xác định duy nhất bởi các URI, riêng thành phan object, nó có thể là URI, là hằng chuỗi
hoặc là một con số Cú pháp chính qui cho RDF là RDF/XML Nó là sự kết hợp giữa cú pháp của
ngôn ngữ XML và khả năng mô tả tài nguyên thông qua các URI của RDE.
RDF Schema (RDFS) là sự mở rộng của RDF để cho phép mô tả các lớp (classes) và các
thuộc tinh (properties) Trong RDFS, lóp là một nhóm các tài nguyên có liên quan với nhau, và
thuộc tính chính là quan hệ giữa các Subjects và Objects trong RDF RDFS được mỏ rộng tử RDF
và bổ sung thêm các tập tử vựng dé hỗ trợ cho việc xây dung các ontology được dé dàng, từ đó
hình thành nên ngử nghĩa cho thông tin, là co sở để xây dựng các công cụ tìm kiếm ngử nghĩa.
+ OWL ( Web Ontology Language)
OWL ( Web Ontology Language) là kết quả của một nỗ lực nghiên cứu chung giữa hai
ngôn ngữ biểu diễn tri thức khác nhau (nhằm hỗ trợ xây dựng và quản lý ontology trên Web) đó
là: DARPA Agent Markup Language Ontology (DAML-OIL) và Ontology Interface Layer (OIL).
Day là kết quả của nhóm nghiên cứu Web-Ontology (WebOnt) do World Wide Web Consortium
(W3C) thành lập vào năm 2001, mục tiêu của nhóm là nghiên cứu và phát triển một ngôn ngữ
đánh dấu mới dành cho Web ngữ nghĩa OWL là một sự mở rộng từ RDF và RDFS Mục đích
chính của OWL là đưa khả năng suy luận vào Web có ngữ nghĩa OWL là một ngôn ngử mô tả
tử vựng phong phú, trong đó có sự mở rộng từ các lớp (Class), lớp con (SubClass), thuộc tính
(Property), thuộc tính con (Subproperty) nguyên thủy của RDF và bổ sung thêm nhiều thành
phần mới như mối quan hệ giữa các lớp, các giới han (Restrictions) trên tập giá trị (Range), tậpxác định (Domain), điều kiện về số lượng phần tử trong tập hợp, hay các phép toán hội, giao, lấy
phần bù trên tập hợp, tính chất đối xứng, bắc cầu của quan hệ, tính chất tương đương, nghịch
đảo của hàm số OLW có ba loại: OWL Lite, OWL DL và OWL Full Mỗi loại OWL sẽ có những,đặc tính riêng và do đó sẽ phù hợp trong ngữ cảnh của một ứng dụng cụ thể nào đó
Trang 13Hiện nay trên thế giới có rất nhiều loại công cụ khác nhau hỗ trợ xây dựng và phát triểnontology, có thể chia làm 4 nhóm:
+ Nhóm các công cụ phát trién ontology
Bao gồm các môi trường và công cụ hỗ trợ cho việc xây dựng từ đầu một ontology mới hoặc tái sử dụng các ontology có sẵn, cho phép thực hiện các tính năng cơ bản như soạn thảo, xem
xét, hiển thị, nhập xuất ontology dưới dạng các ngôn ngữ khác nhau, đưa ra hình ảnh đồ họa
của ontology, xây dựng các thư viện ontology và có thể tra cứu, suy diễn trên ontology Một số
môi trường phát triển được xây dựng từ trước như Ontosaurus, Ontolingua và WebOnto Các bộcông cụ này hiện nay không còn đáp ứng đủ nhu cầu của người sử dụng Thế hệ mới các bộ công
cụ xây dựng ontology có nhiều ưu việt cũng như tính năng hơn hẳn được sử dụng nhiều gần đây
bao gồm OntoEdit, OiIED,WebODE, Chimera , Apollo, DAG-Edit và Protégé Trong đó, Protégé
được xem là một trong những bộ công cụ được sử dụng rộng rãi nhất hiện nay, được phát triển
bởi Trường Đại học Stanford dựa trên hai mục tiêu: có thể tương thích với các hệ thống khác,
dễ dàng sử dụng và hỗ trợ các công cụ trích chọn thông tin Phần chính của môi trường này làmột biên tập ontology, bên cạnh đó, Protégé còn bao gồm rất nhiều các plugin nhằm hỗ trợ chứcnăng như quản lý nhiều ontology, dịch vụ suy luận (inference service), hỗ trợ về vấn đề ngôn
ngữ ontology.
- Nhóm công cụ lắp ghép, tích hợp ontology
Các công cụ hỗ trợ cho việc tổng hợp, tính hợp các ontology đã có trong cùng một miền ting
dụng thành một ontology mới Nhờ có những công cụ này, việc tái sử dụng ontology được đẩymạnh và giúp cho công nghệ ontology ngày càng phát triển
+ Nhóm công cụ đánh giá ontology
Các công cụ đưa ra các tiêu chuẩn để đánh giá và chứng nhận chất lượng của ontology,nhằm đảm bảo các ontology và các công nghệ liên quan sẽ có một mức chất lượng nhất định
Ngày nay, ontology là một công nghệ đang phát triển rất nhanh, một số lượng lớn các phươngpháp và ứng dụng dựa trên ontology đang được nhiều tổ chức khác nhau trên thế giới phát triển
Điều này dẫn đến việc tồn tại nhiều ontology khác nhau về kích thước, độ phức tạp, mô hình,
cơ sở hình thức hóa, hay về khả năng chia sẻ nên yêu cầu đặt ra là cần có các tiêu chuẩn đánhgiá hay một cơ sở để chuẩn hóa các mức chất lượng của ontology trước khi sử dụng
+ Nhóm lưu trũ và truy vấn ontology
Nhóm này giúp cho việc sử dụng và truy van ontology một cách tối wu Khi đã có những ontology
vô cùng lớn, ta cần phải quan tâm đến vấn đề lưu trữ và truy cập ontology Dé lưu trữ ontology
có thể sử dụng các loại cơ sở đữ liệu như ORDBMS (Postgre SQL), Berherley DB, RDBMS, BRA Nhiều ngôn ngữ truy vấn mới được xây dựng để phục vụ cho việc tìm kiếm thông tin trên
CO-ontology chẳng hạn như các ngôn ngữ tựa SQL, ngôn ngũ F-Logic hay các ngôn ngữ RDF Tuy
nhiên, phần lớn các ngôn ngữ truy vấn này chỉ hỗ trợ cho một ngôn ngữ ontology duy nhất.
Trang 141.6 Một số hệ thống tìm kiếm tài liệu theo ngũ nghĩa dựa trên ontology
Phần này sẽ giới thiệu một số hệ thống tìm kiếm tài liệu, tập trung vào chức năng tìmkiếm theo ngữ nghĩa va phần lớn là các nghiên cứu trong ngữ cảnh của Semantic Web Mỗi hệ
thống được xây dựng dựa trên: (a) Một số ontology có mục đích sử dụng và độ phức tap trong
biểu diễn khác nhau và (b) một phương pháp tìm kiếm cổ điển áp dụng trên tập văn bản thôđược làm giàu với các metadata được cung cấp bởi ontology.
Một ví dụ điển hình của mô hình tìm kiếm thông tin trên Semantic Web là OWLIR tology Web Language and Information Retrieval) Hệ thống này tìm kiếm các tài liệu có chứa
(On-cả free text lẫn những chú thích ngữ nghĩa Cả tài liệu và câu truy vấn sẽ được “đánh dấu” vớinhững câu lệnh trong ngôn ngữ DAML + OIL Hệ thống có 3 chức năng chính được xem xét (xét cho cả trang web được đánh dấu ngữ nghĩa và các tài liệu văn bản): 1) Tìm kiếm và xếp hạng
các trang web hoặc các tài liệu có liên quan đến truy vấn của người dùng (miền tri thức về cácnhà lãnh đạo của Hoa Kỳ và Afghanistan),2) Trả lời những câu hỏi đơn giản như “who is thepresident of the USA?” ,3) Trả lồi những câu hỏi phức tạp hơn như “what is the current situation
in Afghanistan?”
Dé giải quyết 3 vấn đề nêu trên, OWLIR sử dung 2 thành phần chính là: a) Một tập hợp
các ontology được mã hóa trong ngôn ngữ DAML + OIL, cho phép người sử dụng đặc tả những
yếu tố mà họ quan tâm trong các sự kiện thuộc miền ứng dụng Ví dụ, người dùng có thể chú
thích cho các sự kiện bao gồm một số thông tin như người phát ngôn, phát thanh viên, các loại
phương tiện truyền thông và kênh phát sóng, b) Một cơ chế truy xuất thông tin hỗn hợp dựa
trên WONDIR framework Đây là một hệ thống thực hiện trích xuất các thông tin ngữ nghĩa từ
tài liệu, chú thích ngữ nghĩa tự động, thực hiện suy diễn trên tri thức đã được mã hóa trong cácontology Để tính toán độ tương đồng ngữ nghĩa giữa các tài liệu, một cách tiếp cận theo mô
hình ngôn ngữ (language model) được sử dụng thay cho mô hình Boolean hay mô hình không gian vector truyền thống.
Một điểm đặc biệt của OWLIR là ontology trở thành một phương tiện giao tiếp giữa người
dùng và hệ thống, hỗ trợ truy tìm thông tin dựa trên nội dung của trang web và không gian các
khái niệm, do đó khắc phục được một số hạn chế của tìm kiếm theo từ khóa OWLIR sử dung
metadata đã được thêm vào trong quá trình rút trích thông tin để suy ra các mối quan hệ ngữ
nghĩa Những mối quan hệ này được sử dụng để xác định phạm vi tìm kiếm và cung cấp nhữngphản hồi chính xác hơn cho người dùng Khi tiến hành thực nghiệm trên ba loại tài liệu khác
nhau: free text, text có kèm theo chú thích ngữ nghĩa và text với các chú thích ngữ nghĩa đượctăng cường nhờ vào phép suy diễn, kết quả cho thấy độ chính xác (Precision) trung bình của hệthống là 25.86% cho dữ liệu phi cấu trúc, 66,15% cho dữ liệu có cấu trúc cộng với free text và
Độ bao
phủ (Recall) tương ứng là 20%, 85% và 90% Các giá trị thực nghiệm cho thấy hiệu quả tìm kiếm
được cải thiện đánh kể bởi các mô hình đã được đề xuất
85.48% đối với trường hợp đữ liệu có cấu trúc cộng với free text và dữ liệu được suy dié
Một ví dụ khác của hệ thống tìm kiếm tài liệu trên Semantic Web sử dụng ontology và đo
Trang 15lường tương đồng ngữ nghĩa giữa các tài liệu là hệ thống Swoogle Các tài liệu web được mô tả
theo chuẩn RDF hoặc OWL Swoogle rút trích metadata cho mỗi tài liệu và tính toán mối quan
hệ giữa các tài liệu Metadata có thể bao gồm những đặc trưng về cú pháp và ngữ nghĩa của
những tà
được thực hiện bằng cách sử dụng một phép chuyển đổi nhằm chuyển tài liệu cùng với thông
u web cũng như quan hệ ngữ nghĩa tìm ẩn giữa các tài liệu này Quá trình tìm kiếm
tin ngữ nghĩa (metadata) tương ứng vào trong một biểu diễn dạng text nào đó khác và tiến hành
so khớp dựa trên các biểu diễn này Trên thực tế, hệ thống Swoogle là online và ở thời điểm 2006
hệ thống đã phát hiện, phân tích hơn 11.000 tài liệu web, tuy nhiên các tác giả không báo cáo
phần thực nghiệm hoặc có bất kỳ số liệu nào để đánh giá về chất lượng tìm kiếm của hệ thống
Có thể nói, thị trường các công cụ tìm kiếm hiện nay đã trở nên đông đảo và gia tăngkhông ngừng Nếu chỉ bàn về tìm kiếm theo từ khóa, Google đã không có đối thủ Tuy nhiên,nếu người dùng không biết rõ về từ khóa họ cần cung cấp cho máy tìm kiếm, họ cần máytìm kiếm “hiểu” ý của họ thông qua ngữ nghĩa hàm ý trong câu truy vấn Đây là điểm mà các
đối thủ của Google như Hakia (hakia.com), Kosmix (kosmix.com), Exalead (exalead.com), Lexxe (lexxe.com), Factbites (factbites.com), Swoogle (swoogle.umbc.edu), Kngine (kngine.com), Duck- DuckGo (duckduckgo.com), Evri (evri.com), Truevert (truevert.com), SenseBot (sensebot.net),
Powerset (powerset.com), DeepDyve (deepdyve.com), Cognition (cognition.com), Wolfram pha (wolframalpha.com) nhắm vào Gần đây, tập đoàn khổng lồ Google cũng vừa cải tiến công
Al-cụ tìm kiếm phổ biến của mình qua việc kết hợp với lĩnh vực ngữ nghĩa học nhằm đáp ứng tốthơn nhu cầu của người sử dụng Amit Singhai của Google cho biết công ty đang làm việc trên
một cơ sở dữ liệu khổng lồ về thông tin của các “thực thể” và Google đang nghiên cứu sử dụng
công nghệ tìm kiếm ngữ nghĩa để “xác định thông tin về các thực thể cụ thể” trong trang webnhằm xếp hạng kết quả tìm kiếm, đây sẽ là sự thay đổi đáng kể, bởi công thức xếp hạng trang
web cổ điển phụ thuộc nhiều vào các liên kết đến trang chứ không phải nội dung bên trong nó
Động thái này của Google được cho là bắt kịp chức năng mà Microsoft đã đưa vào công cụ tìmkiếm Bing của hãng này, Bing có thể đưa ra những câu trả lời trực tiếp cho những câu hỏi về
chuyến bay, du lịch và một số mẫu hỏi khác Wolfram Alpha cũng đã cung cấp chức năng tương
tự, sau khi người dùng đưa ra yêu cầu tìm kiếm, Wolfram Alpha sẽ truy vấn đến một bộ dữ liệu
lớn và trả lời người dùng bằng một báo cáo chỉ tiết
Một số đặc biệt nổi bật của các động cơ tìm kiếm theo ngữ nghĩa hiện nay:
+ Hakia: là sản phẩm của TS Riza C Berkan, Hakia biểu diễn tnội dung tài liệu bằng cáchnội suy các câu hỏi có thể liên quan đến tài liêu đó Các kết quả truy vấn sẽ được xếp hạng dựa
trên quá trình phân tích câu (sentence) và mức độ liên quan giữa chúng với các khái niệm có
trong câu truy vấn Kỹ thuật tìm kiếm ngữ nghĩa của Hakia dựa trên ba thành phần chính: 1)
OntoSem là cơ sở dữ liệu ngữ nghĩa trong đó mỗi từ sẽ được phân lớp dựa trên các khái niệm mà
chúng biểu thi; 2) QDEX (query indexing technique), thay cho kỹ thuật đánh chỉ mục đảo phổ
biến ở các động cơ tìm kiếm thông thường, Hakia i suy tất cả các truy van có thể có liên quan
đến nội dung tài liệu (dựa trên đữ liệu từ OntoSem) và đánh chỉ mục các truy vấn này Quá trình
này sẽ làm giảm đi đáng kể khối lượng dữ liệu cần phải đánh chỉ mục, tao ra một lợi thế lớn so
với phương pháp đánh chỉ mục đảo thông dụng khi tìm kiếm; 3) Thành phần cuối cùng là Thuật
Trang 16toán xếp hạng ngữ nghĩa (SemanticRank algorithm), xếp hạng các nội dung tìm kiếm dựa trênkết quả phân tích câu, mức độ tin cậy và thời gian phát hành của tài liệu Thuật toán này hoạtđộng dựa trên kết quả phân tích nội dung và không phụ thuộc vào các liên kết giữa những nộidung này như trong các mô hình xếp hạng phổ biến khác.
+ Kosmix: dựa trên kỹ thuật phân lớp khái niệm, động cơ tìm kiếm này trình bày kết quảdưới dạng một bảng biểu các nội dung liên quan Hướng tiếp cận này nhắm đến nhu cầu tìm
kiếm thông tin nói chung về một chủ đề cụ thể nào đó hơn là nhu cầu tìm một câu trả lời vắntắt hay một tài liệu cụ thể
+ Exalead: động cơ tìm kiếm hình ảnh này tạo nên sự khác biệt nhờ hệ thống các tùy choncho phép thu nhỏ tập kết quả dựa trên kích thước ảnh, màu sắc và đặc biệt là nội dung Nhiều
tính năng trong số này sau đó mới dần xuất hiện trong các động cơ tìm kiếm khác.
+ SenseBot: động cơ tìm kiếm này trả về một đoạn văn bản tóm tắt các kết quả tìm kiếm
Sử dụng kỹ thuật khai phá văn bản, tóm tắt đa văn bản để rút trích ngữ nghĩa từ các trang web
và trình bày lại chúng cho người dùng một cách thống nhất Một hệ thống các khái niệm sẽ đượchiển thị phía trên kết qủa tìm kiếm, cho phép người dùng định hướng rõ hơn yêu cầu tìm kiếmcủa mình Bằng cách trình bày tóm tắt nội dung của các kết quả tìm kiếm, trong nhiều trườnghợp sẽ giúp người dùng không cần phải đọc hết các trang web có liên quan để tìm kiếm thông
hợp Powerset có thể cho ra câu trả lời trực tiếp bên cạnh danh sách các tài liệu liên quan
1.7 Một số công trình nghiên cứu trong nước có liên quan
Một số công trình nghiên cứu trong nước có liên quan đến đề tài gần đây có thể kể đến
như:
Một trong những nhóm nghiên cứu lớn về lĩnh vực truy tìm thông tin là nhóm của GS Cao.Hoàng Trụ - Trường ĐH Bách Khoa HCM, nghiên cứu chủ yếu về Web có Ngữ nghĩa (Secmantic
web), Cấu trúc Khái niệm (Conceptual Structure) và Tính toán mềm (Soft Computing) Những
công trình nghiên cứu nổi bật của nhóm bao gồm:
+ Dự án lớn cấp Nhà nước “Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác
thông tin Web có ngữ nghĩa” (2004- 2006) [2], trong đó có phát triển một hệ thống quản lý trithức và thông tin cho các thực thể có tên ở Việt Nam VN-KIM (dựa theo KIM - Knowledge and
Information Management của Ontotext Lab, Bulgaria) Ontology được xây dựng có khoảng 373
lớp, 114 thuộc tính và khoảng 85000 thực thể về các nhân vật, thành phố, công ty và tổ chức quantrọng và phổ biến có tên ở Việt Nam; hệ thống sử dụng Sesame để lưu trữ, quản lý Ontology và
Trang 17tri thức, sử dụng công nghệ Lucene để đánh chỉ mục và truy hồi các tài liệu XML đã được chú
thích ngữ nghĩa, nhưng theo các thực thể có tên thay vì theo các từ khoá, sử dụng GATE để rúttrích thông tin về các thực thể có tên, ứng dụng tìm kiếm thông tin cho phép trả lồi gần đúng
và truy vấn bằng đồ thị khái niệm
+ Dé tài cấp ĐHQG trọng điểm “Khai thác và tích hợp thông tin trên Web có ngữ nghĩa”
(2007 - 2009) [1] kế thừa và phát triển tiếp hệ thống VN-KIM Các đóng góp chính của đề tài
bao gồm: mở rộng cơ sở tri thức của VN-KIM với số thực thể tăng thêm; cải thiện động cơ nhậndiện thực thể để tăng độ chính xác và độ đầy đủ của nó; nghiên cứu các mô hình tìm kiếm và
phân cụm tài liệu theo các đặc trưng khác nhau của các thực thể có tên xuất hiện trong tài liệu;nghiên cứu các phương pháp xử lý truy vấn bằng ngôn ngữ tự nhiên dựa trên ontology; cuối
cùng đề tài phát triển các phần mềm ứng dụng để chứng minh tính hữu ích và khả thi của các
ý tưởng nghiên cứu đề xuất
+ Đề tai cấp ĐHQG trọng điểm “Phan giải nhập nhằng thực thể sử dung Wikipedia”
(2012-2014) Nội dung thực hiện là nghiên cứu mở rộng phương pháp luận lặp cải thiện dần để phân
giải nhập nhằng các thực thể; khai thác một ontology về từ vựng là WordNet để biểu diễn sự
tương tự về ngữ nghĩa của các cụm từ trong văn bản nhằm nâng cao hiệu quả phân giải nhậpnhằng; đề xuất phương pháp phân giải nhập nhằng mới kết hợp heuristic với thống kê và học
máy và cuối cùng là nghiên cứu cụ thể bài toán phân giải nhập nhằng các thực thể cho tiếng
Việt, khai thác WordNet tiếng Việt và Wikipedia tiếng Việt, trên cơ sở đó phát triển một phầnmềm ứng dụng giúp cho người đọc tin tức trên Web biết duce định nghĩa trong Wikipedia của
các thực thể có tên và khái niệm chung trong một văn bản
Nhiều chỉ tiết trong các báo cáo khoa học khác của GS Cao Hoàng Trụ được đánh giá
cao và hiện được sử dụng trong nghiên cứu lý thuyết cũng như xây dựng ứng dụng thực tiễn[59, 56] Tuy nhiên, các nghiên cứu của GS Cao Hoàng Tru và các đồng sự chủ yếu về Web ngữ nghĩa hay tìm kiếm trên diện rộng là Internet, bao quát tất cả các lĩnh vực chứ không tập trung
khai thác, xử lý các nguồn tài nguyên chuyên biệt trong một hoặc vài lĩnh vực nào đó Phương
pháp thực hiện tập trung khai thác các nguồn tri thức sẵn có như WordNet, Wikipedia tổng quátcho mọi lĩnh vực, sử dụng và tích hợp nhiều loại công cụ lập chỉ mục và tìm kiếm dựa trên từ
khoá Các nghiên cứu của nhóm cũng đã chuyển hướng dần sang cách tiếp cận xử lý truy vấnbằng ngôn ngữ tự nhiên dựa trên ontology nhưng các ontology được xây dựng bao gồm phần
lớn là tri thức về các thực thể có tên (nhân vật, thành phố, công ty và tổ chức)
Một hướng nghiên cứu khác về lĩnh vực này là của GS.TS Phan Thị Tươi - Trường ĐH
Bách Khoa HCM với hai đề tài nghiên cứu khoa học cấp ĐHQG trọng điểm Một là “Xây dựng
chương trình trợ giúp truy xuất thông tin bằng tiếng Việt” (2005 - 2007) nghiên cứu về IR/CLIR
(Information Retrieval/Cross-Language Information Retrieval) và xây dựng một cơ chế truy xuấtthông tin hỗ trợ tiếng Việt có kết hợp xử lý ngữ nghĩa của yêu cầu truy vấn [12] Giải pháp thực
hiện là từ một truy vấn chứa các từ khóa tiếng Việt dạng danh từ đơn do người sử dụng nhập
vào, hệ thống sẽ phân tích thành tập các từ khóa và tiến hành phân loại các từ khóa theo chủ
đề, kế đến là chuyển ngữ các từ khóa tiếng Việt sang tiếng Anh và truy xuất thông tin bởi công
Trang 18cụ tìm kiếm có sẵn.
Đề tài [12] đã có những đóng góp tích cực trong việc khảo sát, phân tích đánh giá một
số phương pháp kỹ thuật chuyên biệt trong lĩnh vực truy xuất thông tin như: các phương pháp
mở rộng truy vấn, chuyển ngữ truy vấn, truy xuất thông tin bài báo khoa học, phân tích câuhỏi, suy diễn tìm nội dung trả lời, làm giàu nội dung cơ sở tri thức, và tổ chức cơ sở tri thức Các
kết quả này là cơ sở và nền tảng cho những bước nghiên cứu tiếp theo như trong [6, 95, 104]
Từ kết quả đạt được của đề tài trước đó, nhóm tác giả đã đề xuất đề tài nghiên cứu cấp ĐHQG
trọng điểm thứ hai về “Nghiên cứu và phát triển hệ thống hỏi đáp, truy xuất thông tin có hỗ trợ
tiếng Việt cho thư viện số” (2012-2014) với mong muốn phát triển các nghiên cứu sâu hơn và
ứng dụng nhiều hơn vào lĩnh vực thư viện số, nhằm cung cấp những hỗ trợ tốt hơn cho người
sử dụng trong việc tìm kiếm, phân tích, tổng hợp thông tin trong lĩnh vực thư viện số Nhóm đãtập trung vào các nội dung nghiên cứu sau: Xây dựng và phát triển hệ thống tìm kiếm thông tin
văn bản chuyên biệt phục vụ cho lĩnh vực thư viện số dựa trên cơ sở lý thuyết văn phạm phụ
thuộc để phân tích các câu truy vấn tiếng Việt, lý thuyết về truy xuất thông tin, mở rộng truy
vấn hướng đến ngữ nghĩa và suy diễn tự động để tối ưu tìm kiếm thông tin kết hợp với các giảipháp công nghệ thích hợp; xây dựng và phát triển hệ thống khai thác dữ liệu dạng văn bản từ
những nguồn phù hợp trong lĩnh vực thư viện số trên cơ sở lý thuyết rút trích thông tin cing
với các công nghệ thích hợp; nâng cấp cơ sở tri thức tiếng Việt (VKB) nhằm hỗ phục vụ cho lĩnh
vực thư viện số.
Một số đề tài nghiên cứu có liên quan khác như:
Trong luận án tiến sĩ “Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng
và mở” (Đại học Quốc gia TPHCM, 2010) [11] và trong bài báo khoa học [59], tác giả NguyễnThanh Hiên đã có một số đóng góp kỹ thuật như: đề xuất phương pháp phân giải nhập nhằng
lặp cải thiện dan; đề xuất phương pháp phân hạng các thực thể ứng viên dựa trên một ontology,
và dựa trên thống kê; đề xuất một mô hình lai, kết hợp các heuristic và một mô hình thống kê,
để phân giải nhập nhằng sử dụng Wikipedia
Các đề tài NCKH của PGS/TS Vũ Thanh Nguyên nhằm nghiên cứu một số thuật toántìm kiếm thông tin trên Internet và các phương pháp cải tiến, thử nghiệm xây dựng công cụ tìmkiếm hiệu quả trên mạng cục bộ từ khai thác dữ liệu weblog; nghiên cứu các phương pháp rút
trích thông tin trên Web, xây dựng và thử nghiệm bộ công cụ rút trích tài liệu tham khảo trên
'Web cho các môn Cấu trúc rời rạc, Các phương pháp mô hình hoá và nhập môn mã nguồn mở[1]
Trong [10], tác giả Nguyễn Tuấn Đăng đã xây dựng một công cụ tìm kiếm cục bộ cho các
website song ngữ Anh-Việt có kích thước trung bình và nhỏ (có dưới 500 trang web) Công cụ này tập trung vào việc tim kiếm trên văn bản, theo phương pháp từ khóa, dùng thư viện Lucene cho việc đánh chỉ mục và tìm kiếm theo mô hình Extended Boolean.
Trong [9], nhóm tác giả Đồng Thị Bích Thủy, Nguyễn Phạm Bảo Trâm cũng đã đề xuất
một mô hình tìm kiếm dựa trên khái niệm, hướng tới việc xây dựng một hệ thống các dịch vụ
hỗ trợ việc tìm kiếm thông tin trong thư viện Mô hình này được xây dựng dựa trên các mô hình
Trang 19lý thuyết cổ điển trong lĩnh vực tìm kiếm thông tin đặc biệt là mô hình không gian vector, trong
đó có sự cải tiến là biểu diễn tài liệu và câu truy vấn theo các khái niệm dưới dạng vector rồi
thực hiện so trùng các vector trong tìm kiếm Các khái niệm được giả định là hoàn toàn độc lập
nhau, mối quan hệ giữa các khái niệm không được xem xét đến.
Trang 20PHU LUC 2 CÁC PHƯƠNG PHAP BIÊU DIEN TÀI LIEU VĂN BAN VÀ KỸ THUAT TÌM KIỀM
2.1 Các phương pháp tìm kiếm tài liệu
Nhìn chung, có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống tìm kiếm tài liệu (Document Retrieval Systems): hướng thống kê (statistical) và hướng ngữ nghĩa (semantic).
Đối với tiếp cận thống kê, các tài liệu kết quả được truy tìm về hoặc xếp hạng cao là những tàiliệu được xem là thích hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê, trongkhi các phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm lại cố gắng thực hiện việc phântích cú pháp và ngữ nghĩa, nói cách khác là cố gắng mô phỏng lại các cấp độ hiểu của máy tinh
về các văn bản theo ngôn ngữ tự nhiên của con người
Indexing (LSULSA)
Probabilistic Models
‘Vector Space
Model
Embedding-Hình PL2.1 Các phương pháp tìm kiếm tài liệu
2.1.1 Tìm kiếm tài liệu theo tiếp cận thống kê
Một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê thuần túy cóthể kể đến là mô hình Boolean (Standard Boolean model, Extended Boolean model), Không gian
vector (Vector Space model, Generalized vector space model, Topic-based Vector Space Model),
Trang 21các mô hình xác xuất (Probabilistic models) như Binary Independence Model, Probabilistic evance model based the okapi (BM25) relevance function, Uncertain inference, Language mod-
rel-els, Divergence-from-randomness model, Latent Dirichlet Allocation (LDA) Ý tưởng chính theohướng tiếp cận nay là dùng một danh sách các term xuất hiện trong tài liệu hay câu truy vấn là
dạng biểu diễn của nội dung tài liệu và câu truy vấn đó Term - viết tắt của terminology ( gọi là
thuật ngũ) là một từ hay cum từ biểu thị một khái niệm khoa học
Kỹ thuật: đánh trong số, xử lý NNTN, mở rộng câu truy vấn, nhận diện
thực thể có tên, fuzzy, máy học, khai thác thông tin phản hồi của người
Hình PL2.2 Quá trình phát triển của các phương pháp tìm kiếm tài liệu
Mô hình Boolean
Boolean là một mô hình cổ điển và đơn giản nhất được sử dụng trong các hệ thống cũ
trước đây Năm 1952, Taube và những cộng sự của ông đã đề xuất ý tưởng lập chỉ mục cho các
tài liệu bởi một danh sách các từ khóa (keyword) Ý tưởng đơn giản này vẫn được tiếp tục sử
dụng cho đến ngày nay và đây là một bước tiến vượt bậc trong thời kỳ những năm 1950 Với
mô hình nay, mỗi tài liệu được biểu diễn bởi một vector nhị phân, term thứ i xuất hiện trong tài
liệu dj thi trọng số wịj = 1, ngược lại w¡¡ = 0 Cac câu truy vấn được đặc tả như một biểu thức
Boolean có ngữ nghĩa chính xác, sử dụng ba phép toán cơ bản: not, and, or Ví dụ, với câu truy
vấn “t1 AND t2” thì một tài liệu thỏa nhu cầu tìm kiếm nếu và chỉ nếu tài liệu đó chứa cả hai
term t1 và t2.
Mô hình Boolean được xây dựng dựa trên lý thuyết tập hợp và đại số Boolean nên đơn
giản, dé hiểu, dé cài đặt và sử dụng, mô hình lý thuyết chặt chẽ, rõ ràng, trả về những kết quả
chứa chính xác các từ khóa tìm kiếm Nhược điểm là đặc tính all - or - nothing, hệ thống chỉ xácđịnh hai trạng thái là tài liệu có liên quan hoặc không liên quan với câu truy vấn nên kết quảtrả về hoặc là quá nhiều hoặc không có gì cả, mối quan hệ giữa các term hay thứ tự giữa chúng
Trang 22không được xét đến Mô hình Boolean kiểm tra sự xuất hiện của một từ khóa biểu diễn trong
một tài liệu hoặc là có hoặc là không Một truy vấn boolean hoặc là đúng hoặc là sai, tương ứngmột tài liệu thỏa hoặc không thỏa hay có liên quan hoặc không liên quan đến nội dung truy van
Đây là một hạn chế đáng kể dẫn đến việc không thể sắp hạng kết quả trả về, không xác định
được mức độ liên quan giữa tài liệu và câu truy vấn và không thể tìm các tài liệu chỉ liên quancục bộ hay còn gọi là liên quan một phần với câu truy vẫn (ví dụ tài liệu d chỉ có chứa term kB,được xem là không liên quan tới câu truy vấn q = kA AND (kB or kC) bởi vì d không có termkA) Hơn nữa, việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean khôngđơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn boolean
Một số tỉnh chỉnh trong việc áp dụng mô hình Boolean cổ điển vào các hệ thống IR: Thứ
nhất, truy vấn có thể được áp dụng cho một thành phần cú pháp đặc biệt của mỗi
điều kiện boolean có thể được áp dụng cho tiêu đề hoặc phần tóm tắt (abstract) hơn là cho toàn
bộ tài liệu Thứ hai, bổ sung thêm một toán tử boolean vào tập hợp ban đầu Ví dụ như toán tử
“proximity” dùng để xác định độ gần nhau giữa hai term trong đoạn văn bản Toán tử này có thểchỉ ra rằng hai term không chỉ cùng xuất hiện trong tài liệu đang xét mà còn cách nhau trong
phạm vi n từ (n = 0 nghĩa là hai từ đứng liền kề nhau) Thứ ba, mô hình boolean cổ điển có thể
được xem như là một cách thức thô sơ để biểu diễn những cụm từ và những mối quan hệ đồng
nghĩa (gần nghĩa) Ví dụ, t1 AND t2 có thể biểu diễn cho một cụm từ gồm 2 term t1 và t2 liênkết với nhau hay t1 OR t2 có thể biểu diễn cho quan hệ đồng nghĩa giữa 2 term Thực tế, đã có
nhiều hệ thống sử dụng ý tưởng này để xây dựng những điều kiện boolean mở rộng một cách
tự động, ví dụ, cho một tập hợp các term truy vấn được cung cấp bởi người dùng, một biểu thứcboolean được tạo lập bằng cách dùng các toán tử AND, OR liên kết các term truy vấn với những
từ đồng nghĩa tương ứng đã được lưu trữ trước.
Mô hình Boolean cải tiến (Advanced Boolean Model )
Tham chí nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là đúng hoặc
t cả hoặc không có gì” dẫn tới trường hợp là tìm thấy một số lượng lớn tài liệu liên quan
hoặc là không có tài liệu nào Hơn nữa, trong trường hợp câu truy vấn bao gồm nhiều term liên
kết với nhau bởi toán tử OR, một tài liệu có chứa tất cả (hay nhiều) term truy vấn cũng khôngđược xem là tốt hơn so với một tài liệu chỉ chứa một term Tương tự, trong trường hợp với toán
tử AND, một tà
tài liệu không chứa term nào Từ những hạn chế nêu trên, nhiều mô hình boolean mở rộng đã
éu chứa được gần hết các term vẫn được xem là không phù hợp giống như một
được nghiên cứu phát triển nhằm sắp hạng kết quả trả về Những mô hình này sử dụng nhiều
toán tử boolean mở rộng khác Ví dụ, một toán tử boolean mở rộng có thể trả về một giá trị chođối số nằm trong khoảng từ 0 đến 1 (thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù
hợp khi so khớp giữa biểu thức logic và tài liệu đang xét (mô hình p - norm là một điển hình)
Ưu điểm của mô hình Boolean: Don giản, dễ hiểu, dễ cài đặt và sử dụng; Mô hình lý
thuyết chặt chẽ, rõ ràng; Trả về những kết quả chứa chính xác các từ khóa tìm kiếm Nhược
điểm: Đặc tính all - or - nothing, hệ thống chỉ xác định hai trạng thái là tài liệu có liên quan
Trang 23hoặc không liên quan với câu truy vấn nên kết quả trả về hoặc là quá nhiều hoặc không có gì cả.
Do đó, hiệu quả truy tìm không cao; Mối quan hệ giữa các term hay thứ tự giữa chúng khôngđược xét đến; Không xếp hạng, không xác định được mức độ liên quan giữa tài liệu và câu truyvấn; Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean không đơngiản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy vấn boolean
Mô Hình Không Gian Vector(Vector Space Model)
Nhằm khắc phục những hạn chế trong mô hình Boolean, một số mô hình mới đã được đề
xuất với ý tưởng chính là xét đến độ tương đồng giữa tài liệu và câu truy vấn thay thế cho việc
so khớp chính xác theo cách tiếp cận Boolean Năm 1958, Maron, Kuhns, Ray, Luhn thử nghiệm
một phương pháp khác, trong đó họ sẽ đánh trọng số cho các từ khoá và tập tài liệu sẽ được sắphạng theo mức độ liên quan đối với câu truy vấn, những tài liệu xếp trên cùng sẽ được trả lại
cho người dùng Phương pháp này về sau được những nhà nghiên cứu về tìm kiếm thông tin
sử dụng và đã có những cải tiến đáng kể Một trong những kỹ thuật đáng chú ý (những năm
1960, 1970) là thuật toán xếp hạng cho những văn bản có liên quan đến truy vấn của người dùng.
Điểm đặc biệt là cách tiếp cận xem câu truy vấn và văn bản như là những vector trong khônggian n chiều Phương pháp này được P Switzer đề xuất, sau đó, được Salton phát triển Năm
1975, Salton đã tổng hợp kết quả nghiên cứu trong nhóm của ông và cho ra đời lý thuyết về môhình không gian vector [50] Phương pháp tìm kiếm này đóng vai trò rất quan trọng, làm cơ sở
cho những nghiên cứu phát triển trong những năm tiếp theo Ngày nay, các công thức xếp hang
được Salton đề xuất ít được sử dụng, tuy nhiên, việc xem tài liệu và câu truy van như là những,
vectd trong một không gian có số chiều lớn vẫn còn phổ biến
Mô hình không gian vectơ sẽ biểu diễn mỗi tài liệu văn bản như một tập hợp các termxuất hiện trong toàn bộ tập văn bản và hình thành một không gian mà trong đó mỗi term riêng
biệt đóng vai trò là một chiều trong không gian đó, gọi là không gian tài liệu (document space)
Người ta gán thêm cho mỗi term một trọng số cục bộ, chỉ có ý nghĩa trong phạm vi tài liệu đang
xét Cùng một term nhưng có thể có trọng số khác nhau trong mỗi tài liệu khác nhau mà nóxuất hiện Giá trị của mỗi term trong mỗi tài liệu phản ánh mức độ hữu ích, tầm quan trọng của
term đó trong việc mô tả nội dung hay chủ đề mà tài liệu đang đề cập tới Một term có thể mang
ý nghĩa lớn trong việc thể hiện nội dung của một tài liệu này nhưng lại kém hiệu quả so với một
tài liệu khác và sẽ có giá trị là 0 nếu như không xuất hiện trong tài liệu đang được xét đến Các
trọng số được gan cho các term trong một tài liệu d có thể được hiểu là tọa độ của d trong không
gian tài liệu, nói cách khác, d có thể được biểu diễn như là một điểm (hay vector đi từ gốc tọa độđến một điểm được định nghĩa là tọa độ của d) trong không gian tài liệu Câu truy vấn cũng cóthể được cung cấp bởi người sử dụng như là một tập hợp các term đi kèm với các trọng số tương
ứng hay được đặc tả dưới dạng ngôn ngữ tự nhiên Trong trường hợp thứ hai, câu truy vấn sẽ
được xử lý như đối với một tài liệu và được chuyển đổi thành tập các term có gán trọng số Khi
đó, câu truy vấn có thể được xem như một tài liệu trong không gian tài liệu
Một cách hình thức, những tài liệu được biểu diễn trong một không gian tài liệu D có
Trang 24d yd
ñ Wf
với wf là trọng số của đặc trưng fj trong tài liệu d va n = |F| Tương tự, câu truy vấn cũng được
i
chiều la các đặc trưng f, € F Mot tài liệu d được biểu diễn như một vector d = (w wh)
biểu diễn trong cùng một không gian tài liệu như một vector ¢ = (Wo, Wises We) € D
Có nhiều cách tinh trọng số được sử dụng, trong đó, phương pháp tinh idf x tf (Jones,
1972) được xem là phổ biến và sử dụng rộng rãi nhất “Term frequency” (tf) là tần số xuất hiện
của term trong tài liệu, phản ánh mức độ quan trọng của term trong tài liệu đang xét, ngược
lại, “inverse doccument frequency” (idf) đánh giá mức độ quan trọng của term hay mật độ phân
phối của term trong toàn bộ kho tài liệu bằng các xét số tài liệu chứa term đó trên tổng số tàiliệu trong kho Như vậy, với việc áp dụng idf x tf, trọng số được gan tương ứng cho mỗi đặc
trưng f của vector được tính bởi công thức sau:
wi = (logy) x «rd
trong đó, «fd là tan số xuất hiện của đặc trưng f trong tài liệu d, N là số tài liệu có trong
bộ sưu tập và Nr là số tài liệu mà f xuất hiện.
Sau khi đã biểu diễn tập tài liệu và câu truy vấn thành các vector trong không gian tài
liệu, bước tiếp theo là tính toán độ tương quan (giống nhau) giữa chúng bằng cách sử dụng các
độ đo sau:
+ Inner-product (hoặc dot-product): Sag = ri xq= » wf x vì
f
+ Cosin similarity (Salton et al 1975): Sạ„ = cos(d, ) = = y aq = 008d) = aa = “Papa
Distance metrics: Sạa — đ x @ = là x wap
f
Hệ số Jaccard Index (Jaccard, 1901): Jaccard = yh;
2n
ny np
Hệ số Dice (Dicem 1945): Dice =
Trong đó: đ là vector document, q là vector truy vấn, n là số term chung của 2 vector
dj và dạ, nq là số term khác 0 trong dj, ng là số term khác 0 trong da, N là tổng số term trong
không gian vector, z là số term không xuất hiện trong cả dj và da, (N - 2) là số term có xuất hiện trong dị hoặc da hoặc cả hai).
Ưu điêm của mô hình không gian vector: Đơn giản, dễ hiểu, dé cài đặt; Hệ thống đánh
trọng số các từ khóa biểu diễn làm tăng hiệu suất tìm kiếm; Khắc phục các hạn chế trên mô hình Boolean là tính được mức độ tưởng đồng giữa một truy vấn và mỗi tài liệu, đại lượng này có thể
được dùng để xếp hạng các tài liệu trả về; Chiến lược so trùng một phần cho phép trả về các tàiliệu phù hợp nhất, thỏa mãn với thông tin truy vấn của người dùng Nhược diém: Các từ khóa
biểu diễn được xem là độc lập với nhau; Số chiều biểu diễn cho tập văn bản có thể rất lớn nêntốn không gian lưu trữ Vấn đề ở đây là khi tăng kích thước của bộ từ vựng, số chiều của vector
Trang 25sẽ rất lớn: đòi hỏi nhiều không gian lưu trữ hơn, không những thế ma trận term-document lưutrữ còn là ma trận thưa, rất kém hiệu quả.
Mô Hình Xác Suất (Probability Model)
Một hướng nghiên cứu khác tìm cách mô hình hóa hệ thống tìm kiếm thông tin sử dụng
lý thuyết về xác suất Phương pháp này được xem là sự mỏ rộng từ ý tưởng của Maron, Kuhns vàRay Năm 1977, S E Robertson đã định nghĩa một nguyên lý xếp hạng các tài liệu dựa vào xácsuất tài liệu liên quan đến câu truy vấn Bài báo tiếp theo của Robertson và Spärck Jones (1978)cùng với phần tìm hiểu tổng quan về nguồn gốc của mô hình xác suất trong quyển sách củaVan Rijsbergen (1979) đã khơi dậy phong trào nghiên cứu về dang mô hình này Van Rijsbergenchỉ ra rằng mô hình xác suất co bản giả định những từ trong cùng một tài liệu xuất hiện một
cách độc lập với nhau, tìm kiếm thông tin đã được kiểm nghiệm sát sao, tạo điều kiện cho những
nghiên cứu mỏ rộng hơn trong những năm sau đó.
âu truy vấn q và tài liệu d; trong tập hợp các tài liệu D, mô hình xác suất cố gắng dựđoán xác suất mà người sử dụng sẽ tìm thấy tài liệu dj liên quan đến cấu truy vấn Giả định rangtập tài liệu được chia làm hai phần: ứng với một câu truy vấn q, một tài liệu sẽ có liên quan haykhông Một tài liệu có liên quan đến câu truy vấn hay không khi mà người dùng thích nó (sự
liện L) và ngược lại một tài liệu không liên quan khi không được sự yêu thích của người dùng
(sự kiện ~ L) Một nguyên tắc xếp hạng được đặt ra như sau:
trong đó P(L|dj) là xác suất tài liệu dj thích hợp hay liên quan với câu truy vấn q vàP(~ L{d;) xác suất d; không thích hợp với q
Áp dụng chuyển đổi Bayes, ta có thể viết lại các xác suất có điều kiện như sau:
P(d¡|L)P(L)
seore(di) = qqXT)PCST)
trong đó, dị có thé được biểu diễn bởi các thuộc tính hay đặc trưng fj của nó Giả định các
đặc trưng này là các sự kiện độc lập để đơn giản hóa các tính toán Dat Aj là một sự kiện ràng
buộc thuộc tính fj ta có:
seore(d¡) = „| (AIL)PA)
© HiPAj-UPGL)
Hàm xếp hang này được chuyển đổi logarit và khi đó các hằng số P(L), P(~ L) sẽ được
loại bỏ, ta được công thức sau:
Pịq-Pi ;
scorejgg (dj) = » Bà = » weight(A¡)
Aiedj 1 2 Aiedi
Trang 26với P; là xác suất mà thuộc tính Aj xuất hiện trong tài liệu khi nó thích hợp với truy
vấn của người dùng và Pj là xác xuất cho thuộc tính xuất hiện khi tài liệu không thích hợp ( P(Ai|L = Pị(1=P¡) ).
Ưu điểm của mô hình xác suất: Các mô hình xác suất sẽ cố gắng dự đoán xác suất mà
người sử dụng sẽ tìm thấy tài liệu d liên quan đến câu truy vấn và sắp hạng các tài liệu dựa vàoxác suất liên quan này; Mô hình xác suất đạt được nhiều chất lượng về hiệu năng truy tìm hơn
so với các mô hình không áp dụng phương pháp xác suất Nhược diém: Không thể biểu diễn
thông tin ngữ nghĩa về một tài liệu theo công thức xác suất; Phương pháp này không lưu ý đến
tần suất xuất hiện của các từ khóa biểu diễn trong tài liệu; Giả định các từ khóa biểu diễn độc
lập nhau; Phải chia tập tài liệu được chia thành 2 loại: thích hợp hay không thích hợp; Việc tính
toán xác suất khá phức tạp và tốn nhiều chỉ phí
Latent Semantic Indexing - LSI
Những năm 1980 đến giữa những năm 1990 là sự phát triển của lý thuyết không gianvector mà mô hình phổ biến nhất là Latent Semantic Indexing- LSI (Deerwester et al., 1990),trong đó số chiều của không gian vector sẽ được giảm xuống Những truy vấn sẽ được gán vàonhững không gian thu nhỏ Kết quả chạy thử trong bài báo cáo về LSI được đánh giá là có ”kết
quả khá khiêm tốn “nhưng nó lại có ảnh hưởng lớn trong giới học thuật Một trong những hạn chế lớn của mô hình không gian vector và mô hình xác xuất là giả định các term độc lập với
nhau, nghĩa là các mối tương quan ngữ nghĩa giữa các term này không được xét đến và do đó
không thể so trùng giữa những từ có hình thức thể hiện bên ngoài khác nhau nhưng có nghĩatương tự Một nhược điểm khác của mô hình không gian vector là số chiều của không gian tài
liệu có thể rất lớn nếu như số lượng các term xuất hiện trong bộ sưu tập các tài liệu là rất lớn.Phương pháp thống kê LSI cố gắng khắc phục những vấn đề nêu trên bằng cách xem xét đến
những mối quan hệ giữa các term, theo đó các term cùng biểu diễn một thông tin ngữ nghĩa sẽ
được phân nhóm, gom cụm lại với nhau Ngoài ra, Latent Semantic Indexing là phương pháp tạochỉ mục tự động dựa trên khái niệm để khắc phục hai hạn chế tồn tại trong mô hình không gianvector chuẩn (VSM) cũng như các mô hình Boolean và xác suất: synoymy và polysemy
Mô hình LSI dựa trên giả thiết là có các ngữ nghĩa tiềm ẩn (latent semantic) trong việc
sử dụng từ: có nhiều từ biểu diễn cho một khái niệm, một khái niệm có thể được biểu diễn bởi
nhiều từ và những từ có ngữ nghĩa gần nhau thường xuất hiện trong cùng ngữ cảnh Mô hìnhLSI sử dụng chỉ mục khái niệm (conceptual index) được tạo ra bởi phương pháp thống kê thay
cho vi sử dụng các từ chỉ mục đơn Trong LSI, không gian tài liệu được thay thế bởi một không
gian tài liệu có chiều thấp hơn gọi là không gian k (k - space) hay không gian LSI, trong đó mỗi
chiều là một khái niệm độc lập đại diện cho một nhóm các term cùng biểu diễn cho một thông tin ngữ nghĩa Như vậy, LSI giảm số chiều của vector ban đầu xuống một số cố định mà vẫnđảm bảo lưu trữ được hầu hết các thông tin quan trọng Vector thu được là một dense vector.
Số chiều thường lấy trong khoảng từ 300-1000 chiều Mô hình này sử dụng phân tích Singular
Value Decomposition -SVD ma trận term - document để phát hiện ra các quan hệ ngữ nghĩa
Trang 27tiềm ẩn (mối tương quan ngữ nghĩa giữa các từ trong tập văn bản) Ý tưởng cốt lõi của phương
pháp Singular Value Decomposition là phân tích ma trận ban đầu thành tích của 3 ma trận đặcbiệt, sử dụng chéo hóa ma trận Mô hình LSI, mở rộng của mô hình không gian vector, sử dụng
phép chiếu trực giao ma trận biểu diễn tập văn bản có hạng r vào không gian k chiều, trong
đó k < r Việc chọn hệ số k tối uu cho mô hình LSI vẫn còn là bài toán chưa có lời giải tổng,
quát Cho tới hiện tại việc chọn k cho mô hình LSI chỉ thực hiện dựa trên các phương pháp thử nghiệm.
2.1.2 Tìm kiếm tài liệu theo hướng ngũ nghĩa
Từ giữa những năm 1990 đến nay, xuất hiện những tiếp cận theo hướng ngôn ngữ hoc
máy tính, trong đó có quan tâm đến nghĩa của từ (cụm từ), cú pháp và ngữ nghĩa của câu, sự
nhập nhang về nghĩa giữa chúng [87, 96, 78, 73], bên cạnh những tiếp cận theo công nghệ tri
thức dựa trên các ontology và Semantic Metadata Các hướng tiếp cận này được gọi chung là
hướng ngữ nghĩa hay tìm kiếm theo ngữ nghĩa (semantic search).
Lý do cơ bản khiến cho các giải pháp tìm kiếm truyền thống không đạt được tính hiệu
quả cao là ở chỗ không có phân tích ngôn ngữ trong tìm kiếm Hiểu được ngôn ngữ là một yêucầu rất khó đối với máy tính Việc làm chủ ngôn ngữ tự nhiên là dé dàng đối với con người,nhưng nó là một cái gì đó mà máy tính vẫn chưa thể đạt được Làm sao dạy máy tính có thể hiểu
được ngôn ngữ của con người là một công việc rất khó khăn, nhưng không phải là không thểthực hiện được Nói một cách nôm na, có thể xem khả năng tìm kiếm ngữ nghĩa như là một cách
tốt hơn để cung cấp cho người dùng thông tin họ cần, đảm bảo kết quả thu được có liên quan
đến thông tin cần tìm hơn dựa trên khả năng hiểu được nghĩa của từ hoặc cụm từ đang được
tìm kiểm Nếu người dùng không biết rõ về từ khóa họ cần cung cấp cho máy tìm kiếm, họ cần
máy “hiểu” ý của họ thông qua ngữ nghĩa hàm ý trong câu truy vấn Các động cơ tìm kiếm ngữ
nghĩa hiện nay hướng tới việc cố gắng đoán ý, hiểu nghĩa của từ hay cụm từ để cho ra kết quảgần nhất với ý định tìm kiếm của người dùng Với công nghệ ngữ nghĩa, máy tính sẽ hiểu rõ
hơn những mối quan hệ giữa nhiều thông tin khác nhau, hơn là chỉ chuyển tiếp các liên kết dựatrên từ khóa tìm kiếm Một ví dụ cụ thể để minh họa cho vấn đề này đó là thử nghiệm với một
từ khóa “đọc báo” cho sẵn Nếu tìm kiếm theo từ khóa, các kết quả trả về sẽ chứa các từ khóa
như từ “đọc” hoặc “báo” hoặc kết hợp cả hai từ “đọc báo” Còn đối với kết quả từ tìm kiếm ngữ
nghĩa trả về, người đọc sẽ không thấy những website có tích hợp hai từ khóa đó mà thay vào đó
là sẽ có hàng loạt các danh sách các website báo chí hiển thị nhằm đáp ứng cho nhu cầu “đọcbáo” của người dùng Hay nếu tìm kiếm với từ khóa “cuộc bầu cử” thì một công cụ tìm kiếm ngữ
nghĩa có thể lấy ra các tài liệu có chứa các từ “bỏ phiếu”, “van dong’ và “lá phiếu”, ngay cả khi
từ “bầu cử không tìm thấy trong các tài liệu nguồn
Hệ thống tìm kiếm theo ngử nghĩa cũng có chức năng, nguyên lý hoạt động và các bộphận cấu thành giống như một hệ thống tìm kiếm tổng quát Tuy nhiên, điểm khác biệt lớn làviệc sử dụng khái niệm để lập chỉ mục Trong bộ lập chỉ mục sẽ có hai nhiệm vụ chính là rút
trích toàn bộ các khái niệm có trong cơ sở đữ liệu các tài liệu và lập chỉ mục cho các tài liệu dựa
Trang 28trên các khái niệm này Cũng giống như bộ truy vấn của hệ tìm kiếm dựa trên từ khóa, bộ truy
vấn của hệ thống dựa trên khái niệm có chức năng lấy nội dung câu truy vấn do người dùngnhập vào, sau đó rút trích khái niệm từ câu truy vấn và so trùng với tập chỉ mục đã được lậpcủa các tài liệu để tìm ra các tài liệu có liên quan Tùy thuộc vào cách lập chỉ mục cho tập tàiliệu như thế nào mà sẽ có những cách so trùng câu truy vấn với tập chỉ mục khác nhau Chẳnghạn như, nếu bộ lập chỉ mục sử dụng các mô hình truyền thống thì cách bộ truy vấn so trùngcác khái niệm cũng giống như trong hệ thống tìm kiếm dựa trên từ khóa, còn nếu một cấu trúc
khái niệm phức tạp hơn biểu diễn cho các tài liệu và câu truy vấn được xây dựng, việc tìm kiếm
có thể được thực hiện dựa trên việc so trùng giữa các cấu trúc khái niệm này
Hiện nay, nghiên cứu các mô hình biểu diễn tài liệu đóng vai trò trọng yếu trong việc
giải quyết hầu hết những vấn đề liên quan đến văn bản Hầu hết tri thức, tài liệu của con người
đều được diễn đạt dưới dạng ngôn ngữ tự nhiên, tuy nhiên, rất khó sử dụng thứ ngôn ngữ nàynhư là một ngôn ngữ biểu diễn tri thức, biểu diễn tài liệu cho các hệ thống máy tính Các hệ
thống xử lý dựa trên văn bản hiện nay đang phải cố gắng thực hiện việc phân tích cú pháp và
ngữ nghĩa Nhằm giảm kích thước lưu trữ của văn bản và dé dang sử dung, các văn bản ở dangthô cần phải được chuyển sang một dạng thức biểu diễn nào đó, trở thành những cấu trúc dữliệu trực quan, đơn giản, phù hợp với chương trình máy tính để máy có thể hiểu và xử lý được,
nhưng hơn hết là có thể mô tả nội dung của văn bản Nhìn chung, có hai hướng tiếp cận chính
cho việc nguyên cứu các mô hình biểu diễn tài liệu: hướng thống kê (statistical) và hướng ngữ
nghĩa (semantic) Đối với tiếp cận thống kê, tài liệu được mô tả bởi các cặp (feature, weight) Mô
hình này dựa trên giả định rằng: các tài liệu có thể được biểu diễn bằng tập hợp các đặc trưng
của chúng dưới dạng các term - thuật ngữ (là một từ đơn hoặc cụm từ) Ngoài ra, trọng số hoặcxác suất được gán cho các thuật ngữ này nhằm tạo ra một danh sách tài liệu trả về được xếphạng theo mức độ phù hợp với truy vấn của người dùng
2.2 Van dé biêu diễn tài liệu văn bản
2.2.1 Biểu dién văn bản dựa trên vector
Mô hình biểu diễn văn bản truyền thống như mô hình túi từ (Bag of words), mô hình
không gian vector (Vector Space Model) là các mô hình đơn giản và được sử dụng phổ biến nhất
trong phần lớn các bài toán xử lý dữ liệu văn bản Tuy nhiên, những mô hình truyền thống này
lại tồn tại trong nó những hạn chế lớn mà chủ yếu là do sự yếu kém trong vấn đề biểu diễn thongtin Với mô hình không gian vector, nội dung của tài liệu hay thông tin truy vấn được biểu diễnthành vector của các thuật ngữ (có thể là một từ đơn hay cụm từ) trong không gian n chiều Tất
cả các thuật ngữ xuất hiện trong toàn bộ tập văn bản tạo thành một không gian với mỗi chiều
của không gian tưởng ứng mới một thuật ngữ Với mục đích phân biệt các văn bản với nhau,
trọng số được gán cho từng thuật ngữ nhằm xác định độ quan trọng của chúng trong văn bản
Giá trị của mỗi thành phần trong vector là trọng số của thuật ngữ tương ứng.
Mô hình không gian vector đơn giản và được sử dụng phổ biến trong lĩnh vực truy xuất
Trang 29thông tin Tuy nhiên, hạn chế của mô hình là: số chiều không gian rất lớn (phụ thuộc vào sốlượng thuật ngữ trong tập văn bản) và phải giả thiết các từ độc lập với nhau Ngoài ra, mô hìnhchỉ tập trung vào tần suất xuất hiện của từ và bỏ qua các thông tin cấu trúc quan trọng như thứ
tự sắp xếp các từ trong câu, vùng lân cận của từ, vị trí xuất hiện của từ trong văn bản, cấu trúc
của một câu/đoạn văn, tính đồng xuất hiện của các từ trong một câu và đặc biệt nghĩa của từ
cũng như mối quan hệ về ngữ nghĩa giữa các từ không được xét đến Cách biểu điễn này mang,
mức độ thông tin thấp và nếu nhìn dưới góc nhìn của ngôn ngữ học thì đã không xử lý các biếnthể về mặt ngôn ngữ học của các từ như biến thể về hình thái học (là các dạng khác nhau vềmặt cấu trúc, hình dang, thể hiện bên ngoài của một từ), biến thể về từ vựng học (là các từ khácnhau mang cùng một nghĩa), biến thể về ngũ nghĩa học (là vấn đề một từ đa nghĩa tùy vào ngitcảnh) và biến thể về cú pháp học (là các kết hợp khác nhau về mặt cú pháp của cùng một nhóm
từ sẽ mang các ý nghĩa khác nhau) [110]
Một số mô hình mới đã được đề xuất nhằm khắc phục hai hạn chế lớn tồn tại trong các
mô hình truyền thống: synoymy và polysemy Với synoymy, nhiều từ có thể được sử dụng để
biểu diễn một khái niệm, vì vậy hệ thống không thể trả về những tài liệu liên quan đến câu truy
vấn của người dùng khi họ sử dụng những từ trong câu truy vấn đồng nghĩa với những từ trong
tài liệu Với polysemy, một từ có thể có nhiều nghĩa, vì vậy hệ thống có thể trả về những tài liệu
không liên quan với những gì mà người dùng mong muốn có được Điều này thực tế rất thường
xảy ra bởi vì các tài liệu được viết bởi rất nhiều tác giả, với cách dùng từ rất khác nhau Một số
mô hình nổi tiếng có thể kể đến là Latent Semantic Analysis (còn được gọi là Latent SemanticIndexing), Probabilistic Topic Models hoặc Latent Topic Models, Neural probabilistic Language
Models.
Trong các mô hình chủ đề như Probabilistic Latent Semantic Indexing [99], Latent
Dirich-let Allocation [34], tài liệu được biểu diễn như là một vector của các chủ đề tiềm ẩn (vectors of
latent topics) Một chủ đề tiềm ẩn là một phân phối xác suất trên các term hoặc một nhóm cácterm có trong số Độ dai của vector chủ đề nhỏ hơn nhiều so với vector truyền thống Các môhình này giả định rằng: các từ gần nghĩa với nhau có xu hướng xuất hiện trong các đoạn văn
bản (ngữ cảnh) tương tự nhau.
Cùng với sự xuất hiện của các kiến trúc deep learning, việc biểu diễn và tính toán trên
văn bản cũng được xử lý 6 mức cao hơn Khi đưa vào mô hình tính toán deep learning, văn bản
được xử lý qua một tầng nhúng (embedding) trong đó các từ sẽ được đổi thành các vector tương,
ứng Việc xử lý này gọi là Word Embedding, khi đó các thông tin ngữ nghĩa (dựa trên thống kê)
của các từ sẽ được nhúng vào các vector Mỗi từ khác nhau sẽ được biểu diễn thành một vectorkhác nhau Những từ có ngữ nghĩa gần nhau sẽ được biểu diễn thành các vector có khoảng cáchgần nhau trên không gian vector Bằng cách tính trung bình cộng của các vector từ (biểu diễn
cho các từ xuất hiện trong tài liệu) có thể cho ta một phép biểu diễn tài liệu theo vector.
Word Embedding là một kỹ thuật Vector hóa văn bản, được sử dụng để ánh xa từ ngữsang vector số thực, tức là biểu diễn một từ (word) hoặc cụm từ (phrase) thành dạng vector số và
giả định rằng các từ có nghĩa tương tự nhau sẽ có giá trị vector gần giống nhau Thông thường,
Trang 30Word Embedding được chia thành hai loại chính là Frequency-based embedding va
Prediction-based embedding Frequency-Prediction-based embedding là phương pháp vector hóa dựa trên tần số đồngxuất hiện của một từ so với các từ khác trong Corpus Prediction-based embedding là phươngpháp vector hóa dựa trên kết quả của một mô hình dự đoán Mô hình dự đoán học các biểu diễn
vectơ cho mỗi từ thông qua những từ ngữ cảnh xung quanh (tức là các từ thường hay xuất hiện
quanh nó trong các văn bản) nhằm cải thiện khả năng dự đoán ý nghĩa các từ Tiêu biểu nhất
của phương pháp này chính là Word2vec [101] Word2vec biểu diễn mỗi từ bằng một vector có
độ dài cố định và dựa trên một mạng neuron để học các trọng số thành phần Công cụ Word2vec
gồm hai mô hình: skip-gam va Continuous bag of words - CBOW.
Phan cấp mức độ phát triển của các phương pháp nhúng từ trong xử lý ngôn ngữ tu nhiên
có thể bao gồm các nhóm:
+ Không ngữ cảnh (Non-context): Là các thuật toán không tồn tại ngữ cảnh trong biểu diễn
từ Dé là các thuật toán xử lý ngôn ngữ tự nhiên đời đầu như word2vec, GLoVe, fasttext
Chúng ta chỉ có duy nhất một biểu diễn vector cho mỗi một từ mà không thay đổi theo
ngữ cảnh.
+ Một chiều (Uni-directional): Là các thuật toán đã bắt đầu xuất hiện ngữ cảnh của từ Các
phương pháp nhúng từ dựa trên RNN là những phương pháp nhúng từ một chiều Các kết
quả biểu diễn từ đã có ngữ cảnh nhưng chỉ được giải thích bởi một chiều từ trái qua phải
hoặc từ phải qua trái ELMo là một ví dụ cho phương pháp một chiều Mặc dù ELMo có
kiến trúc dựa trên một mạng BiLSTM xem xét ngữ cảnh theo hai chiều từ trái sang phải
và từ phải sang trái nhưng những chiều này là độc lập nhau nên coi như đó là biểu diễn
một chiều Thuật toán ELMo đã cải tiến hơn so với word2vec và fasttext đó là tạo ra nghĩacủa từ theo ngữ cảnh
+ Hai chiều (Bi-directional): Ngữ nghĩa của một từ không chỉ được biểu diễn bởi những từliền trước mà còn được giải thích bởi toàn bộ các từ xung quanh Luồng giải thích tuân
theo đồng thời từ trái qua phải và từ phải qua trái cùng một lúc Đại điện cho các phép biểu
diễn từ này là những mô hình sử dụng kỹ thuật transformer như BERT, ULMFit, OpenAI
GPT.
Các phương pháp kể trên được sử dụng rộng rãi vì tính đơn giản và sự hữu ích của ching
trong việc mô tả các đặc trưng của tài liệu Ngoài ra, dạng biểu diễn văn bản bằng vector có tốc
độ tính toán nhanh, đặc biệt là có sẵn các thư viện tính toán được hỗ trợ từ các ngôn ngữ lap
trình cấp cao Tuy nhiên, nhược điểm của nhóm phương pháp này là:
+ Hầu hết các kỹ thuật chủ yếu dựa trên thông tin về tần số xuất hiện của term trong tàiliệu, thiếu sự phản ánh về ngữ nghĩa của văn bản, ví dụ như bỏ qua sự kết nối giữa cácterm, thông tin cấu trúc và ngữ nghĩa không được xem xét
+ Các mô hình chủ đề không xem xét cấu trúc thông tin của các chủ đề (topic), mối quan hệ
giữa những chủ đề và gặp hạn chế khi biểu diễn cho các chủ đề phức tạp
+ Bên cạnh đó, các phép biểu diễn có thể khó diễn nghĩa, tức là khó điễn dịch, giải thích hay
Trang 31thuyết minh bởi người đọc Các kết quả có thể được chứng minh ở cấp độ toán học, nhưng
khó có thể hiểu được trong ngôn ngữ tự nhiên Một hình thức biểu diễn được xem là tốt khi mà người đọc có thể dễ dàng nắm bắt ý nghĩa của chúng và hiểu được kết quả trả vềcủa hệ thống cũng như cách thức hệ thống trả về được những kết quả này.
Những cách tiếp cận theo hướng ngữ nghĩa sẽ cố gắng thực hiện một vài cấp độ trong
phân tích cú pháp và phân tích ngữ nghĩa, từ cấp độ nghĩa của từ, cụm từ đến nghĩa của câu hay
văn bản Nhiều nghiên cứu chỉ ra rằng thông tin ngữ nghĩa và cách tiếp cận giàu tri thức có thểmang lại hiệu quả tốt hơn khi giải quyết các nhiệm vụ cốt lõi trong truy hồi thông tin Để khắcphục những hạn chế trong việc biểu diễn tài liệu từ những mô hình truyền thống, nhiều nghiêncứu khác nhau đã nỗ lực thay đổi cách biểu diễn cho tài liệu nhằm làm tăng hiệu quả trong biểudiễn và tìm kiếm Theo đó, một tài liệu vẫn được mô tả bởi các cặp <feature, weight>, tuy nhiên
những thành phần đặc trưng (feature) của tài liệu không đơn thuần chỉ là những từ hay cụm từchính xác xuất hiện trong tài liệu mà đã được thiết kế lại, được chuẩn hóa theo một dạng thức
biểu diễn phức tạp và hiệu quả hơn bằng cách sử dụng các kỹ thuật trong xử lý ngôn ngữ tự
nhiê
khái niệm hơn là các từ đơn lẻ cũng như cố gắng loại bỏ các vấn đề nhập nhằng trong ngôn ngữ
Những nghiên cứu này hướng tới mục tiêu là xây dựng một phép biểu diễn dựa trên các
Một số mô hình feature nổi tiếng có thể kể đến như :
+ Lemmas: các đặc trưng của tài liệu được chọn là các hình thái cơ bản của từ như danh từhay động từ Như vậy, hệ thống sẽ chuẩn hóa các biến thể về hình thái học của từ về mộtchuẩn chung và thay thế những từ có trong tài liệu bởi hình thái cơ bản của chúng Điềunày sẽ làm tăng khả năng so khớp giữa những từ có hình thái thể hiện khác nhau nhưngphản ánh cho cùng một khái niệm
+ Simple n-grams: một day các từ được lựa chọn bằng cách áp dung kỹ thuật thống kê Hệ
thống tiến hành khảo sát và thống kê các dãy bao gồm n từ liên tiếp tùy ý (n - gram) có
trong kho ngữ liệu Như vậy, mỗi tài liệu sẽ được chia thành những cấu trúc n - gram
tương ứng Những bộ lọc thống kê dựa trên tần số xuất hiện của các n-gram trong kho
ngữ liệu được áp dụng để lựa chọn những ứng viên phù hợp nhất làm đặc trưng cho tài
liệu.
+ Nouns Phrases: Những biểu thức chính qui (ví dụ như N+ là một day các danh từ liên kết
với nhau theo một qui tắc cú pháp nhất định) dựa trên các từ loại (danh từ, động từ vàtính từ) có thể được sử dụng để chọn ra các cụm từ dùng làm đặc trưng cho tài liệu và loại
bỏ những kết hợp không khả thi Cụm từ được chọn bao gồm một từ chính (head) và các
phụ ngữ hay từ bổ nghĩa (modifier) đứng trước và sau nó
+ Các bộ <head, modifier1, , modifiern>: Những Bộ phân tích cú pháp (parser) được sử
dụng để phát hiện và rút trích ra các quan hệ cú pháp phức tạp như subject-verb-object
từ trong văn bản Một đặc tính thú vị là những bộ này có thể bao gồm những từ không
liền kề nhau, tức là các thành phần có thể là những từ vốn nằm cách nhau trong đoạn vănvăn Việc xây dựng những cụm từ phức hợp này là nhằm cải thiện độ chính xác trong việc
so khớp giữa các khái niệm.
Trang 32+ Semantic concepts: mỗi từ được thay thé bằng một đại diện cho nghĩa của từ đó Việc gannghĩa cho một từ phụ thuộc vào định nghĩa của từ đó có trong từ điển Có hai cách xácđịnh nghĩa của một từ Thứ nhất, nghĩa của từ có thể được trình bày, giải thích như trong
một mục từ của từ điển giải nghĩa thông thường Thứ hai, nghĩa của từ có thể được suy rathông qua những từ khác có cùng nghĩa trong từ điển đồng nghĩa
Tuy nhiên, cho đến nay thì những kết quả đạt được theo cách tiếp cận này vẫn chưa có sự
cải thiện đáng kể so với các phương pháp thống kê kể trên Nguyên nhân chính là do những mô
hình biểu diễn mới cũng chỉ nắm bắt được một phần nhỏ thông tin hơn so với mô hình truyền
thống Hơn nữa, những lỗi xuất hiện trong quá trình rút trích tự động các khái niệm hay trongquá trình xây dựng các cấu trúc biểu diễn có thể gây nhiễu và làm ảnh hưởng đến tiến trình tìm
kiếm
Sự phát triển ngày càng nhanh của các kỹ thuật rút trích thông tin cũng như sự gia tăng
về quy mô của các bộ từ điển đồng nghĩa, các cơ sở tri thức đa ngành cùng các cơ sở tri thứcmiền đưa đến nhiều lựa chọn hơn cho các vector biểu diễn Thành phần thứ i trong một vector có
thể là trọng số thể hiện độ liên quan giữa thành phần thứ i trong nguồn tri thức đối với tài liệu
được vector đó biểu diễn Ví dụ như trong phương pháp Explicit Semantic Analysis (ESA) của
công trình [39] đã sử dụng các thông tin từ bách khoa toàn thư Wikipedia như: bài viết (articles),
chuyên mục (categories) và quan hệ giữa các bài viết để nắm bắt thông tin ngữ nghĩa xét về mặtkhái niệm ESA biểu dién nghĩa của một đoạn văn bản dưới dang một vector của các khái niệm
trên Wikipedia N
trùng với tên của khái niệm Độ dài của vector biểu diễn này sẽ bằng với số lượng khái niệm có
khái niệm trên Wikipedia được cho tương ứng với một bài viết có tiêu đề
trên Wikipedia (vài triệu chiều) Độ liên quan ngữ nghĩa giữa hai tài liệu được tính bằng cosin
của góc giữa hai vector.
Mô hình biểu diễn tài
thể được gán nhãn vào mô hình không gian vector như trong các công trình [30, 58] Trong
éu cũng có thể được làm giàu bằng cách bổ sung thêm các thực
công trình [43], một tài liệu sẽ được biểu diễn như một túi các khái niệm được rút trích bởi các
hệ thống liên kết thực thể (entity linking system) Theo đó, mỗi khái niệm sẽ tương ứng với một
thực thé trong cơ sở tri thức DBpedia hoặc một bài viết có liên quan trên Wikipedia Công trình[31] lai đi theo một hướng khác, không quá chú trọng vào các thực thể/khái niệm được chú thíchbởi nguồn tri thức ngoài Thay vào đó thực thể và từ đều được xem xét đồng thời, với cùng mức
độ quan trọng như nhau trong việc mô tả nội dung tài liệu Như vậy, mỗi tài liệu sẽ được biểu diễn thành một túi từ cùng với một túi thực thể.
Việc biểu diễn tài liệu thông qua các khái niệm trong cơ sở tri thức sẽ thân thiện, tự nhiên,
gần gũi với cách diễn đạt của con người hơn, so với những dạng biểu diễn thông qua các topic
trong mô hình chủ đề tiềm ẩn (Latent topic model) Tuy nhiên, chiều dai của vector bằng sốlượng khái niệm trong cơ sở tri thức, điều đó sẽ là trở ngại khi sử dụng các cơ sở tri thức có kích
thước đồ sộ Một hạn chế khác của cách tiếp cận này là thường chỉ dừng lại ở dạng biểu diễn
”phẳng”như mô hình không gian vector mà chưa chú trọng vào khai thác tri thức về quan hệcùng các thông tin cấu trúc khác còn ẩn chứa trong cơ sở tri thức
Trang 33Biêu điễn văn bản dựa trên đồ thị
Trong những năm gần đây, các phương pháp mô hình hóa văn bản thành đồ thị đang
ngày càng được chú ý, phát triển mạnh và áp dụng vào nhiều lĩnh vực như truy xuất thông tin,
khai thác dữ liệu văn bản (phân loại, gom cụm, tóm tắt văn bản), rút trích thông tin, khám phá
chủ đề Đồ thị là một cấu trúc toán học có khả năng mô hình hóa mối quan hệ cùng với các
thông tin quan trọng về cấu trúc một cách hiệu quả Đây là cấu trúc rời rạc có tính trực quan
cao, rất tiện ích để biểu diễn các quan hệ Từ ý tưởng này, nhiều mô hình đồ thị đã được đề xuấtnhư mạng ngữ nghĩa, đồ thị khái niệm, đồ thị khái niệm cải tiến, đồ thị hình sao, đồ thị tần số,
đồ thị khoảng cách, đồ thị đỉnh là câu Các mô hình này được đánh giá là có nhiều tiềm năng sử
dung vì nắm bắt được các thông tin quan trọng về cấu trúc và các mối quan hệ ngữ nghĩa vốnkhông được xét đến trong các mô hình truyền thống Phương pháp tiếp cận dựa trên đồ thị đãđược nghiên cứu và áp dụng rộng rãi cho nhiều tác vụ khác nhau do có nền tảng lý thuyết chặt
chẽ, rõ ràng và hiệu suất thực nghiệm tốt Các mô hình đồ thị được sử dụng hiện nay tương đối
đa dạng và mỗi mô hình mang nét đặc trưng riêng Các mô hình và kỹ thuật biểu diễn có thể
khác nhau về: loại đỉnh, loại cạnh quan hệ, nguồn tài nguyên ngữ nghĩa được sử dụng (semantic
resource), cách thức để tạo ra các biểu diễn có cấu trúc của văn bản, lược đồ đánh trọng số cho
các đỉnh và cạnh của đồ thị, cũng như cách giải quyết các bài toán con từ việc trích chọn các đặc trưng làm đỉnh, xác định mối quan hệ giữa các đặc trưng, so khớp đồ thị và xếp hạng kết quả [94].
Trong các phương pháp biểu diễn tài liệu thành đồ thi, các đỉnh của đồ thị có thể là một
từ, một cụm từ hay một câu Cạnh của đồ thị thể hiện mối quan hệ giữa các đỉnh với nhau, quan
hệ này có thể là quan hệ cùng xuất hiện trong một câu (hoặc một cửa sổ), quan hệ về ngữ nghĩa
trong miền tri thức (đồng nghĩa, trái nghĩa), quan hệ theo cú pháp trong câu (các đỉnh trong
đồ thị có cú pháp chặt chẽ trong câu) Trọng số của đỉnh thường là tần suất xuất hiện của đỉnhtrong văn bản hay mức độ trung tâm của đỉnh so với các đình khác trong đồ thị Nhãn cạnh là
tên mối liên kết giữa hai đỉnh Cạnh cũng có thể được đánh trọng số cho biết tần suất xuất hiệ
cùng nhau của hai đỉnh trong một phạm vi nào đó (trong văn bản hay trong cả bộ sưu tập) Khi
ứng dụng vào từng loại bài toán khác nhau, các thành phần thích hợp nhất trong văn bản đượcchọn để trở thành đỉnh của đồ thị Ví dụ, trong bài toán tóm tắt văn bản, đỉnh thường là câu,
cạnh thể hiện sự tương đồng giữa các câu Hay trong các bài toán phân lớp văn bản, tìm kiếm
văn bản, đỉnh là từ đơn, cạnh thể hiện quan hệ đồng xuất hiện của các từ trong cùng một câu
Do thông tin cấu trúc quan trọng của văn bản bao gồm danh sách các từ, vị trí xuất hiện của
các từ, thứ tự xuất hiện giữa các từ trong văn bản cũng như cách thức các từ được liên kết với
nhau theo một quy tắc nào đó để tạo thành các câu nên mô hình đồ thị sử dụng đỉnh là từ được
nghiên cứu sâu hơn và có nhiều biến thể nhất
Tay vào mục đích sử dung cũng như nguồn tri thức bổ trợ của bài toán mà đỉnh sẽ có nhiều
loại khác nhau Một đỉnh có thể biểu diễn cho: Một từ đơn (word); Một từ ghép (phrase/feature
term); Một câu (sentence); Một keyphrase của một miền tri thức; Một tên gọi gì đó có ý nghĩakhi xử lý; Một cấu trúc dữ liệu phức tạp, ví dụ như đỉnh là một vector word2vec hay một table;
Trang 34Một thực thể - entity trong một cơ sở tri thức có trước, entity có thể là một bài viết (artical) trên
'Wikipedia hoặc một entiy trên Dbpedia/Yago; Một khái niệm (concept) trừu tượng, khái niệm
này có thể xuất phát từ vocabulary/taxonomy/thesaurus/ontology; Đỉnh là tổ hợp của nhiều loại
đặc trưng đi kèm với nhau Đỉnh có dang term và concept, Word-Sentence-Topic,
Bởi vì có nhiều loại đỉnh khiến cho việc chọn cạnh để biểu diễn mối quan hệ giữa cácđỉnh cũng trở nên đa dạng Cạnh của đồ thị có thể biểu diễn cho những mối quan hệ sau: 1) Mối
quan hệ đồng xuất hiện (occurrence) giữa các từ/cụm từ trong một đơn vị, một câu, một đoạn
hoặc một cửa sổ có kích thước xác định; 2) Mối quan hệ giữa các sense trong hệ thống từ vựng
(sense relation, lexical relation) Một sense là một nghĩa của từ Các từ ngữ trong từ vựng của một ngôn ngữ không tồn tại riêng lẻ, biệt lập với nhau, giữa chúng có những quan hệ nhất định,
ví dụ quan hệ đồng nghĩa (synonymy), quan hệ trái nghĩa (antonymy), quan hệ thượng hạ vị
(hyponymy), quan hệ chỉnh thể - bộ phận (meronymy), làm cho từ vựng của ngôn ngữ khôngphải là tập hợp các từ ngữ ngẫu nhiên mà là một hệ thống; 3) Mối quan hệ giữa các khái niệm
(conceptual relation), cho biết cách mà các khái niệm được liên kết với nhau, ví dụ như Agent, Experiencer, Recipient, Attribute, Object, Theme, Destination, Duration, Instrument, Location;
4) Quan hệ có liên quan giữa hai thực thé trong cơ sở tri thức có sẵn, ví dụ như hai thực thể được
xem là có liên quan khi chúng có liên kết link với nhau trong Wikipedia, hoặc DBpedia
Tùy vào ngữ cảnh sử dụng trong các bài toán mà có sự đa dạng trong cách kết hợp giữa
đỉnh và cạnh Điều đó dẫn đến có nhiều loại đồ thị được tạo ra Mỗi loại đồ thị lại có đặc trưng
riêng, cách đánh trọng số và công thức tính toán riêng biệt Một số mô hình đồ thị phổ biến
ngày nay có thể kể đến như:
+ Mô hình đồ thị khái niệm (Conceptual Graph - CG)
Đồ thị khái niệm được John F Sowa giới thiệu lần đầu tiên vào năm 1976 và xuất bản quyển sách
uđầu tiên về CG năm 1984 Dự án của Sowa nhằm mục đích tạo ra “một hệ thống logic để
diễn ngữ nghĩa ngôn ngữ tự nhiên” Đồ thị khái niệm được sử dụng để biểu diễn tri thức và ngữnghĩa trên máy tính Mô hình này có những tính năng đặc biệt, phù hợp cho việc phát triển các
hệ thống truy tìm tài liệu Một đồ thị khái niệm là một đa đồ thị hữu hạn, liên thông, có hướng
và lưỡng phân với các đỉnh được chia làm hai loại đỉnh: đỉnh khái niệm và đỉnh quan hệ Đỉnh
khái niệm biểu diễn các khái niệm cụ thể (máy tính, điện thoại, ), hay trừu tượng (tình yêu,đẹp, văn hóa) Trong đó, khái niệm có thể chỉ đến một thực thé (entity), tính chat (attribute),
trạng thái (state), sự kiện (event) và hành động (act) Đỉnh quan hệ chỉ ra quan hệ giữa các khái
niệm có nối đến nó, cho biết cách mà các khái niệm được liên kết với nhau Các đỉnh khái niệm
được nối xen kẽ với các đỉnh quan hệ thông qua các cung Cung chỉ có thể nối giữa một đỉnh
khái niệm và một đỉnh quan hệ.
Mô hình đồ thị khái niệm xem xét mỗi từ trong văn bản là một khái niệm và có dạng biểu
diễn trực quan là đỉnh hình vuông Dinh quan hệ hình oval thể hiện mối quan hệ giữa các khái
niệm.
Một "Basic Conceptual Graph”(đồ thị khái niệm cơ sở/cơ bản) phải được định nghĩa trên
một bộ từ vựng có san (vocabulary) Một vocabulary là một bộ gồm có 3 thành phần (Tc, Tạ, 1)
Trang 35Hình PL2.3 Vi du một đồ thị khái niệm đơn giản
trong đó: Tc va Tp là những tập hợp hữu hạn, rời nhau từng đôi một, Tc là tập hợp các loại khái niệm (concept types), Tp là tập hợp các ký hiệu quan hệ (relation symbols) và I là một tập các
cá thé (individual markers), ký hiệu + biểu thị cho một cá thể tổng quát/chung chung (generic
marker).
Một "Basic Conceptual Graph (BG)"được định nghĩa trên vocabulary V = (Tc, Tạ, 1), làmột bộ bốn G = (C,R,E, 1) trong đó: C là tập các đỉnh khái niệm (concept node), R là tập các
đỉnh quan hệ (relation node), E là họ các cạnh ( family of edges) và cuối cùng 1 là một hàm gan
nhãn (labeling function) cho các đỉnh và cạnh của đồ thị sao cho: 1)Một đỉnh khái niệm c đượcgan nhãn bởi 1 cặp (type(c), marker(c)), với type(c) € Tc và marker(c) € IU {+}; 2) Một đỉnhquan hệ r được gan nhãn bởi type(r) € Tạ; 3) Những cạnh có liên kết với đỉnh quan hệ r đượcgán nhãn bởi các con số, đánh thứ tự từ 1 đến số đối của quan hệ r
Mỗi đỉnh khái niệm biểu diễn cho một cá thể đơn lẻ thuộc môt loại khái niệm nào đóhoặc là một khái niệm tổng quát Để nói lên mối quan hệ giữa loại và cá thể, đỉnh khái niệmđược quy định cách gan nhãn: ”Loại khái niệm: tên cá thể”với tên cá thể có thể là tên, khoá, *, *x
(x là biến) hay đỉnh khái niệm chỉ bao gồm loại khái niệm Loại khái niệm phải được định nghĩa trước trong bộ từ vựng và giữa các loại khái niệm có quan hệ phân cấp với nhau Đỉnh quan
hệ cũng được gán nhãn bởi ký hiệu quan hệ có trong vocabulary Có thể chứa cả một mệnh đề
trong một đỉnh khái niệm Từ đó, ta có đỉnh mệnh đề là một đỉnh khái niệm có chứa một đồ thị
khái niệm khác Ví du, ta có câu ”Tom believes that Jane likes pizza” Đồ thị khái niệm biểu diễn
cho câu trên như trong Hình PL2.3 , trong đó các khái niệm là [person: ”Tom”], [person: ”Jane”],
[believe], [likes], [pizza] và các mối quan hệ là (experiencer), (object)
Tinh năng vượt trội của đồ thị khái niệm là chúng cho phép biểu diễn các liên kết ngũnghĩa giữa những khái niệm trong khi các mô hình truyền thống khác lại không thể thực hiện
được Đồ thị này mô hình hóa văn bản một cách trực quan, logic và chính xác
Ngay từ đầu những năm 90, đồ thị khái niệm đã được biết đến với hàng loạt các công trình nghiên cứu như là một hướng nghiên cứu mới, ví dụ một số hệ thống cũ trước đây đã sử dung
đồ thị khái niệm trong giải pháp của mình như CoDHIR (COntent-Driven Hypertext
Trang 36Informa-tion Retrieval), DR-LINK (Document Retrieval using LINguistic Knowledge), RELIEF (RelaInforma-tional Logical Approaches based on Inverted Files), ITELS (Intelligent TErminology Learning System),
CGKAT, WebKB CGKAT và WebKB sử dung đồ thị khái niệm để lập chỉ mục cho các thành
éu như chương mục, đoạn văn, trong khi đồ thị khái niệm được sử phần nội dung của tài
dụng trong hệ thống CoDHIR nhằm mục đích biểu diễn cho những thông tin ngữ nghĩa đượctrích xuất từ văn bản DR-LINK cũng là một trong những nghiên cứu nỗ lực cải thiện hiệu quả
của việc tìm kiếm dựa trên tiếp cận đồ thị cho việc biểu diễn nội dung của tài liệu Hệ thống cho phép xử lý và biểu diễn văn bản ở cấp độ từ vựng, cú pháp, ngữ nghĩa và được đánh giá là
đạt kết quả vượt trội hon han so với các tiếp cận truyền thống khác Tương tự, RELIEF va ITELScũng dùng đồ thị khái niệm như một ngôn ngữ chỉ mục có thể biểu diễn mối quan hệ giữa các
khái niệm một cách hiệu quả Nhiều thuật toán so khớp đồ thị khái niệm cũng đã được đề xuất
trong cộng đồng nghiên cứu về truy hồi thông tin (Jonathan Pool, 1995), (Genest D.,1997), (M Montes-y-Gómez, 2000), (Jiwei Zhong, 2002), (Kamsu-Foguem, 2012) và được đánh giá một cách
hệ thống trong các bài báo của Michael Chein (1995) và (Tanveer J.Siddiqui, 2005).
Một trong những khó khăn lớn nhất đối với các giải pháp tìm kiếm theo ngữ nghĩa dựatrên đồ thị khái niệm là việc tự động hóa công đoạn lập chỉ mục cho các tài liệu bằng đồ thị khái
niệm Như vậy, điểm hạn chế lớn nhất của CG là độ phức tạp Việc xác định các mối quan hệ ngữ
nghĩa có thể có giữa các đỉnh trong CG đòi hỏi phải thông qua một quy trình xử lý ngôn ngữ tựnhiên phức tạp, phân tích ngữ nghĩa sâu, phụ thuộc vào lĩnh vực và các nguồn tài nguyên bênngoài Ngoài ra, việc đánh trọng số cho các thành phần trong đồ thị ít được quan tâm Một số
công trình đi theo hướng này có thể kể đến gồm [93, 48, 47] Theo đó, các từ vựng được xác định
vai trò ngữ nghĩa, sau đó, bằng sự hỗ trợ của các nguồn tài nguyên như WordNet, VerbNet đểxác định được khái niệm mà từ vựng đó đang đề cập tới Quan hệ giữa các đỉnh là quan hệ giữa các khái niệm thay vì quan hệ giữa các từ vựng.
+ Nhóm Đồ thi đồng hiện (Co-occurrence Graph)
Đồ thị được xây dựng từ đặc trưng đồng xuất hiện của các từ, keyphrase trong tài liệu Các đặc trưng đồng xuất hiện bao gồm: đồng xuất hiện trong một câu, đoạn; đồng xuất hiện trong một
cửa sổ với kích thức n từ; đồng xuất hiện dựa trên quan hệ cú pháp giữa các từ Trong công trình[64], [67], tất cả các từ xuất hiện trong tài liệu (trừ stopword) được rút trích và các từ được xácđịnh là có quan hệ với nhau khi chúng đồng xuất hiện trong cùng một câu hoặc trong cùng một
cửa số có kích thước xác định Đối với [64], hướng của cạnh được xem xét dựa trên thông tin về
thứ tự xuất hiện của hai đỉnh trong câu (hay trong cửa số) Trong các đồ thị đồng hiện, đỉnh vàcạnh đều có thể được gán trọng số, trọng số của đỉnh và cạnh là tần suất xuất hiện của từ và cặp
từ tương ứng Trọng số cạnh được xác định dựa trên thông tin về số lần đồng xuất hiện của hai
từ trong văn bản Một số cách thức khác nhằm xác định cạnh nối giữa các đỉnh như sau: Cạnh
nối từ đỉnh a đến đỉnh b khi từ tương ứng với đỉnh a đứng ngay trước từ tương ứng với đỉnh b
trong phạm vi quy ước, hay cạnh nối giữa hai từ khi giữa chúng có số từ xuất hiện nhiều nhất làn-1 từ (ngoại trừ trường hợp các từ được phân cách bởi các dấu câu), n là tham số cho người dùng
cung cấp Đồ thị đồng hiện dựa trên lexical category (Co-occurrence based on lexical category)
được sử dụng trong nghiên cứu của [16] Lexical category thể hiện vai nghĩa (semantic role) của
Trang 37User 1:
Looking forward to another great year of NETINF! #NETINF17 #SDM #Houston
User 2:
Looking forward to listening to these great speaker at #NETINF, and present
my work during the workshop! #/SDM.
từ vựng trong câu Sau khi xác định được vai trò ngữ nghĩa của từ vựng trong câu sẽ hình thành
được quan hệ dựa theo cú pháp đơn giản của câu Trong đồ thị này, các từ đồng xuất hiện ràngbuộc nhau về mặt ngữ pháp
Ưu điểm của mô hình là tận dụng được mối quan hệ giữa các từ, tần suất xuất hiện của
từ, vùng lân cận của từ trong câu, thứ tự xuất hiện giữa các từ Dạng biểu diễn này tuy thể hiệnđược nhiều thông tin về cấu trúc của tài liệu hơn so với dạng biểu diễn vector truyền thống
nhưng vẫn chưa nắm bắt được nghĩa của từ cũng như các thông tin về quan hệ ngữ nghĩa giữachúng Phần lớn các nghiên cứu xử lý trên các từ đơn thay vì là cụm từ.
+ Nhóm Đồ thị ngũ nghĩa (Semantic Graph)
Công trình [110, 71] tận dụng nguồn tri thức DBpedia để làm giàu thêm mô hình biểu
diễn tài liệu Các đồ thị biểu diễn cho tài liệu được xem là các đồ thị con của DBpedia Trong
cách biểu diễn đó, mỗi đỉnh là một khái niệm có liên quan đến nội dung của tài liệu và được tham
chiếu đến các thực thể trong DBpedia Tập đỉnh được xây dựng nhờ vào việc sử dụng các công
cụ liên kết thực thể như SpotLight hay TagME Các đỉnh sẽ được kết nối với nhau khi có một mốiquan hệ ngữ nghĩa giữa chúng được tìm thấy trong DBpedia Các cạnh của đồ thị cũng được đánhtrọng số nhằm thể hiện sức mạnh của quan hệ Điểm khác biệt giữa hai công trình trên là [71]
xây dựng mô hình cho cả bài toán ’entity ranking’ thay vì chỉ tập trung vào một mình bài toán
"document semmantic similarity evaluation’ như [110] Trong khi đó [110] đề xuất thêm việcđánh trọng số cho đỉnh dựa trên ’closeness centrality’ thay vi chỉ đánh trọng số cạnh như [71].Hình PL2.5 cho ta một ví dụ về semantic graph, được thiết lập từ tập các thực thể: db:Bob_Dylan,db:Monterey_ Country_Fairgrounds, db:Mozambique_(Song), db:Johnny_Cash Những thực thé
này được tìm thay trong câu "Dylan played Mozambique at Monterey right before Cash”.
Đối với bài toán do lường mức độ tương đồng ngữ nghĩa giữa hai tài liệu, trong [110], vai
Trang 38dbo:associatedBand db:Johnny Cash
lea = dbp:genre
rdftype |—*[ dbo:Musicalartist rdf:type
dbo:artist (_— foafPerson db:American folk music
trò của cạnh và trọng số cạnh chỉ dùng cho mục đính đánh trọng số cho các đỉnh, cụ thể là dùng
để tính độ trung tâm của một đỉnh dựa trên thông tin về đường đi ngắn nhất từ đỉnh đó đến các
đỉnh còn lại trong đồ thị Việc đánh giá độ tưởng đồng giữa hai tài liệu được thực hiện theo cách
thức so sánh hai tập đỉnh của hai đồ thị biểu dién chúng Trong khi, các tác giả của [71] sử dung
một kỹ thuật so khớp tài liệu (graph matching) có tên là Graph Edit Distance để giải quyết bài
toán đặc biệt này Graph Edit Distance là một phương pháp tổng quát nhằm so khớp hai đồ thị,bằng cách xác định khoảng cách giữa hai đồ thị dựa trên chỉ phí tối thiểu của các thao tác chỉnh
sửa cần thiết để biến đổi từ đồ thị này thành đồ thị kia
Tuy cả hai đều cho kết quả khá khả quan trong bài toán của mình, các công trình này đều chỉ sử dụng thuần túy các thông tin trong cơ sở tri thức mà chưa bàn đến việc khai thác kết
hợp thêm thông tin cấu trúc có trong tài liệu Một khi tập thực thể/khái niệm đã được rút trích,
việc xây dựng đồ thị biểu diễn sẽ độc lập hoàn toàn với tài liệu Hơn nữa, chất lượng biểu diễncủa những mô hình này hoàn toàn phụ thuộc vào chất lượng của DBPedia và kết quả chú thích
từ các công cụ hỗ trợ là TagMe và SpotLight Nên lưu ý rằng, DBPedia là một cơ sở tri thức tổng
quát, có một mức độ chồng chéo và nhập nhằng khái niệm cao, trong khi các công cụ kể trêncũng chưa mang lại hiệu quả trích xuất như mong đợi Và do đó, những tài nguyên này khôngthực sự phù hợp cho nhu cầu xử lý tri thức đặc biệt miền cũng như giải nghĩa cho các tài liệu
thuộc về một miền tri thức nhất định nào đó.
Ngoài ra, trong các hướng nghiên cứu về computational linguistics, một hướng biểu diễn
phổ biến là xây dựng các cây phân tích câu/đoạn dựa trên các văn phạm đặc thù và kết hợp các
cây đó thành một dạng biểu diễn dạng đồ thị Hướng biểu diễn này có thể nắm bắt được nhiều
thông tin ngữ nghĩa nhưng chỉ phí tính toán là rất cao, dẫn đến nhiều khó khăn khi xử lý dữ liệuthực tế.
Một trong những khó khăn lớn nhất đối với các giải pháp dựa trên đồ thị là việc tự động
hóa công đoạn lập chỉ mục cho các tài liệu bằng đồ thị đòi hỏi phải thông qua một quy trình
xử lý phức tạp trong phân tích ngữ nghĩa văn bản và có độ phức tạp cao Hướng giải quyết chovấn đề này thường là đề xuất các mô hình đồ thị mới đơn giản hơn - là dạng cải biến hay đơn
giản hóa từ đồ thị khái niệm ( cố gắng giữ lại những mặt mạnh của công cụ này), đồng thời sử
Trang 39dụng chúng kết hợp với các mô hình truy hồi (hướng thống kê) truyền thống (nghĩa là bổ sungthêm tầng xử lý ngữ nghĩa bên trên những kỹ thuật truyền thống đã có thay vì thay thế hoàn
toàn chúng) Hiện nay, nhiều mô hình đồ thị không ngừng được nghiên cứu phát triển dua trên ý tưởng của đồ thị khái niệm và được ting dụng vào day rộng các bài toán liên quan đến xử lý văn ban va đây cũng là cách tiếp cận được lựa chọn trong đề tài này Một
thách thức lớn khác hiện nay theo hướng tiếp cận đồ thị là với việc xử lý trên tập văn bản số
lượng lớn, số đồ thị biểu diễn văn bản được tạo ra cũng rất lớn, dẫn đến chỉ phí lưu trữ và thờigian tính toán gây rất nhiều khó khăn cho các nhà nghiên cứu Tuy nhiên, hiện nay cũng đã có
nhiều nghiên cứu về cơ sở dữ liệu đồ thi (Graph Database) nhằm mục đích hỗ trợ cho việc mô tả
và lưu trữ dữ liệu dưới dang đồ thị cũng như xử lý tính toán, truy vấn trên đồ thị hiệu quả, trong
đó nổi bật là các hệ quản trị CSDL đồ thị như ArangoDB, Oracle Spatial and Graph, OrientDB,
Neo4j, sử dụng da dạng các ngôn ngữ truy vấn như SPARQL, Gremlin, TQL, Cypher, Năm
2010, Google công bố mô hình tính toán Pregel chuyên dùng trong việc xử lý dữ liệu đồ thị cực
lớn Sau đó đã có rất nhiều thư viện cũng như nền tảng hiện thực mô hình này hỗ trợ việc tính
toán trên đồ thị quy mô lớn như Apache Gigraph, GraphX, Apache Hama,
2.3 Vấn đề rút trích tự động các đơn vị thông tin từ tài liệu
Van đề rút trích thông tin tự động cũng được xem xét ở nhiều cấp độ: từ, cụm từ, term,keyphrase đặc trưng ngữ nghĩa và rút trích khái niệm
Rút trích tự động các keyphrase đặc trưng ngữ nghĩa (KĐTNN) của tài liệu là quá trình tự
động chọn lọc các từ hay cụm từ có khả năng mô tả ngắn gọn và chính xác các chủ đề được thảo
luận trong tài liệu, mang thông tin về nội dung nồng cốt của một tài liệu Rút trích KĐTNN là
nhiệm vụ khó khăn và cốt lõi của một hệ thống tìm kiếm hướng ngữ nghĩa Mặc dù các KĐTNNđược dùng rộng rãi trong các hệ thống ứng dụng khác nhau, nhưng việc rút trích các KĐTNN
tương ứng cho từng tài liệu bằng phương pháp thủ công tốn rất nhiều thời gian và công sức
Nhu cầu này là động lực thúc đẩy các nghiên cứu rút trích tự động các KĐTNN
Hiện nay đã có nhiều nghiên cứu xây dựng các công cụ hỗ trợ rút trích keyphrase tự động
từ các tài liệu theo nhiều hướng tiếp cận khác nhau như: Bibclassify!, Extractor2, TerMine?, Topia term extractor’, Orchestr8 Keyword Extraction®, Wikifier®, Wikipedia Miner’, SEO key-
Trang 40word extraction’, Scorpion’, Tagthe.net!®, Yahoo term extraction! Carrot2!2, KEA/KEA++13,
Maui!*, Stanford topic Modeling toolŠ, Mallet!®.
Dua trên kết quả đã thử nghiệm thì các công cụ hỗ trợ rút trích keyphrase tự động kể trên
lại chưa mang lại hiệu quả trích xuất cao, kết quả thu được không chính xác Hệ thống không
rút trích được hết những keyphrase trọng yếu, đặc trưng cho tài liệu, những keyphrase cần thiết
thì bị bỏ qua, số keyphrase dư thừa, không phù hợp thì vẫn còn nhiều
Có thể phân các nghiên cứu về rút trích tự động các KDNN thành 3 hướng chính như
sau [8]: Đầu tiên là hướng tiếp cận sử dụng từ điển bằng cách so trùng các từ mục trong từ điển
với các cụm từ trong tài liệu Thuận lợi của hướng tiếp cận này là nhanh và đơn giản, tuy nhiênhiệu suất lại phụ thuộc vào độ lớn của từ điển và không hiệu quả khi giải quyết bài toán nhận
đạng danh từ riêng hay các thuật ngữ mới trong những phạm vi chuyên biệt Thứ hai là hướng
tiếp cận bằng cách học các giá trị đã được thống kê từ một kho ngữ liệu lớn để rút trích các cụm
từ Mặc dù có gia tăng về mặt tính toán, kỹ thuật này không đòi hỏi nhiều công sức để tạo ra
từ điển hay cơ sở tri thức mà còn có khả năng lấy được các thuật ngữ có trọng số cao trong kho.ngữ liệu Tuy nhiên, hạn chế của phương pháp này là có thể không rút trích được các keyphraseđặc trưng có tần số thấp Cuối cùng là hướng tiếp cận dùng cơ sở tri thức, các phương pháp đánh
giá theo kinh nghiệm, các phương pháp luật dẫn để rút trích các keyphrase Đây cũng là hướngtiếp cận được lựa chọn trong đề tài vì có thể đạt được độ chính xác cao, tuy nhiên còn phụ thuộc
vào việc thiết kế từng hệ thống cụ thể Khó khăn chính là việc xây dựng một cơ sở tri thức cho
những miền chuyên biệt có phạm vi lớn, việc này đòi hỏi rất nhiều thời gian và công sức.
Một cách thức phân loại khác được giới thiệu trong (Lê Thúy Ngọc, 2008) [5], tập trung
vào vấn đề rút trích các khái niệm có trong tài liệu, theo đó tác giả nhận định rằng: Rút tríchcác khái niệm thường bao gồm hai giai đoạn chính: rút trích cụm từ và so khớp các cụm từ với
nguồn tri thức có sẵn Có 3 phương pháp rút trích cum từ, đó là: phương pháp ngôn ngữ học,
phương pháp thống kê và phương pháp lai Đối với phương pháp ngôn ngữ học, cụm từ được xác
định bởi các mẫu (pattern) cho trước hoặc bằng cấu trúc ngôn ngữ học của chúng (về cú pháp
hay hình thái) Ý tưởng chính là nội dung văn bản sẽ được gán nhãn từ loại, sau đó các cụm từ
sẽ được loc ra bằng cách dò tìm và rút trích các chuỗi mà cấu trúc (được gan nhãn) của nó khớp.với cấu trúc của các mẫu cho trước Tính hiệu quả của phương pháp này phụ thuộc nhiều vàoviệc xây dựng các mẫu so khớp Đối với phương pháp thống kệ, rút trích cụm từ chủ yếu dựa
trên việc tính toán các thông số thống kê như tần suất xuất hiện của cụm từ trong kho ngữ liệu,
độ đo mức ết dính của hai từ, hay tần suất đồng xuất hiệ Đối với phương phápcủa hai
lai, đầu tiên cụm từ được rút trích từ tài liệu theo phương pháp ngôn ngữ học, sau đó được lọc