Luận án tiến sĩ Khoa học máy tính: Nghiên cứu phương pháp xây dựng hệ thống quản lý tài liệu văn bản dựa trên ngữ nghĩa

Chương 4 - Biểu diễn tài liệu dựa trên đồ thi keyphrase và đánh giá độ tương quan ngữ nghĩa trong tìm kiếm: Đề xuất một phương pháp biểu diễn ngữ nghĩa cho tài liệu văn bản cùng với kỹ t

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

HUYNH THI THANH THUONG

NGHIEN CUU PHUONG PHAP XAY DUNG HE

THONG QUAN LY TAI LIEU VAN BAN DUA TREN

NGU NGHIA

LUẬN AN TIEN SĨ KHOA HỌC MAY TÍNH

TP HO CHÍ MINH - NĂM 2024

Trang 2

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

Vg

HUYNH THI THANH THUONG

NGHIEN CUU PHUONG PHAP XAY DUNG HE

THONG QUAN LY TÀI LIỆU VAN BAN DUA TREN

NGU NGHIA

Chuyén nganh: Khoa hoc May tinh

Mã số: 62480101 (9480101)

LUẬN AN TIEN SĨ KHOA HỌC MAY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS TS DO VĂN NHƠN

TP HÒ CHÍ MINH - NĂM 2024

Trang 3

LƠI CẢM ƠN

Xin chân thành cảm ơn Quý Thầy Cô trong Trường Dai học Công nghệ Thông tin đã

tận tình dạy bảo cho em nhiều kiến thức bổ ích trong suốt thời gian học tập tại Trường, cũng

như tạo điều kiện cho em thực hiện đề tài này Kính chúc Quý Thầy Cô luôn dồi dào sức khoẻ

và thành công trong cuộc sống

Đặc biệt, em xin bày tỏ lòng biết on chân thành đến Phó giáo sư Tiến sĩ Đỗ Văn Nhơn,

người thầy đã tận tâm, nhiệt tình hướng dẫn và chỉ bảo cho em trong suốt quá trình thực hiện

đề tài Luận án này sẽ rất khó hoàn thành nếu không có sự truyền đạt kiến thức quí báu và

sự hướng dẫn nhiệt tình của Thầy.

Con cảm ơn Ba, Mẹ, các anh chị đã luôn bên cạnh động viên, khích lệ và ủng hộ contrên con đường mà con đã yêu thích và lựa chọn, đã cho con niềm tin và nghị lực vượt qua

mọi khó khăn Mặc dù điều kiện còn khó khăn nhưng gia đình luôn tạo điều kiện tốt nhất để

con học tập và nghiên cứu

Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và đóng góp cho tôi nhiều ý kiến quýbáu, qua đó, giúp tôi hoàn thiện hơn cho đề tài này

Và cuối cùng, tôi cũng không quên gửi lời cảm ơn đến tác giả của các báo cáo nghiên

cứu khoa học mà tôi đã tham khảo và tìm hiểu cho đề tài.

Luận án đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không tránh khỏi

thiếu sót Kính mong sự cảm thông và đóng góp ý kiến từ Quý Thầy Cô và các bạn

Một lần nữa tôi xin chân thành cảm on!

TP Hồ Chí Minh, ngày 17 tháng 01 năm 2024

Tác giả luận án

Huỳnh Thị Thanh Thương

Trang 4

LƠI CAM ĐOAN

Tôi xin cam đoan rằng nội dung luận án này là kết quả nghiên cứu của chính bản thân.

Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã công bố trong các côngtrình khoa học nêu trong phần danh mục các công trình nghiên cứu, chưa từng được ai công

bố trong bất kỳ công trình nào khác Các công trình nghiên cứu có nhiều tác giả được đưavào nội dung luận án đều nhận được sự đồng ý trước đó của các đồng tác giả

Tôi xin cam đoan rang mọi sự giúp đỡ cho việc thực hiện luận án này đã được cảm on

và các thông tin trích dẫn cũng như tham khảo từ các nghiên cứu có liên quan đều được nêu

rõ nguồn gốc trong danh mục tài liệu tham khảo trong luận án

TP Hồ Chí Minh, ngày 17 tháng 01 năm 2024

Tác giả luận án

Huỳnh Thị Thanh Thương

Trang 5

Mục lục

Danh sách bảng

Danh sách hình vẽ

MỞ ĐẦU

Chương1 GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI 1

1.1 Thực trạng và nhu cầu xây dựng các hệ thống quan lý và tìm kiếm tài liệu

1.2 Tóm tắt tình hình nghiên cứu liên quan đến lĩnh vực của đề tài 3

1.3 Định hướng nghiên cứu và mục tiêu của luậnán 7

1.3.1 Định hướng nghiêncứu ẶẶ.ẶẶẶẶ So 7 13.2 Mục tiêu nghiên cứỨU Ặ Q Q Q Q Q Q Q ee 8 1.3.3 PhạmvinghiêncỨu 0.0.0 00000000 10 14 Đóng góp của luậnán HQ Q ee 11 15 Kếtchương HQ HQ HQ HQ ng ng kg ee 14 Chương 2 CƠ SỞ LÝ THUYET 15 2.1 Vấn đề tìm kiếm tài liệu theo ngứ nghĩa và các hướng tiếp cận 15

2.11 Khái niệm Tìm kiếm theongửnghĩa - 15

2.1.2 Phan loại các cách tiếp cận tìm kiếm theo ngữnghĩa 16

2.1.3 Tiếp cận công nghệ tri thức với ontology và semantic data 17

2.2 Vấn dé biêu diễn tri thức và các mô hình ngử nghĩa 20

2.3 Vấn đề biểu diễn tài liệu văn bản ẶẶ ee 25 2.4_ Những bài toán con trong nghiên cứu ẶẶẶ 28 25 Kếtchươdng HQ HQ ng ng kg kg kg va 29 Chương 3_ CK-ONTO: MOT MÔ HÌNHONTOLOGY MIEN CHO CÁC HE THỐNG 3.1 3.2 TÌM KIẾM TÀI LIỆU THEO NGỮ NGHĨA 30 Giới thiệu Q HQ HQ HQ HH HQ ng ng g kg ko 30 Mô hình CK-ONTO (Classed Keyphrase based Ontology) 32 3.21 Một tập hợp cáckeyphrase 0000 33

Trang 6

3.4

3.2.2 Một tập hợp các lớp tương ứng với các khái niệm trong lĩnh vực

3.2.3 Một tập hợp các quan hệ nhị phân trênC

3.2.4 Một tập hợp các quan hệ nhị phân trênK_

3.2.5 Tập các luật suy diễn CS eee Xây dung ontology miền theo mô hình CK-ONTO

Kết chương Q Q Q Q ee Chương 4_ BIỂU DIEN TÀI LIEU DUA TREN ĐỒ THỊ KEYPHRASE VÀ ĐÁNH 4.1 4.2 4.3 4.4 GIÁ ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA TRONG TÌM KIẾM Gidithidu, ŸẼĂ

Biểu diễn tài liệu văn bản ẶẶ.ẶẶ ee 4.2.1 Cac yêu cầu cho một mô hình biểu diễn tàiliệu

4.2.2 Các mô hình đồ thi keyphrase biểu diễn tài liệu

4.2.3 Xây dựng đồ thi keyphrase biểu diễn tài liệu

Đánh giá độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn

4.3.1 Độ tương đồng ngữ nghĩa gitiahai keyphrase

4.3.2 Độ tương đồng ngữ nghĩa giữa haiquanhệ

4.3.3 Độ tương đồng ngữ nghĩa giữa hai đồ thịkeyphrase

4.3.4 Tìm kiếm theo ngữ nghĩa trên kho tài liệu văn bản thuộc miền 58940011 1n & (.Ặ.Ặ Ha Chương 5 HỆ QUAN LÝ CƠ SỞ TÀI LIEU VAN BẢN THEO NGỮ NGHĨA: MOT 5.1 5.2 5.3 5.4 5.5 GIAI PHAP THIET KE HE THONG VA CAC UNG DUNG Hệ quản lý cơ sở tài liệu văn ban theo ngữ nghĩa

5.11 Yêu cầu và chức năng của hệ thống

5.1.2 Kiến trúchệthống 0.2.0.0 000000

Hệ thống quản ly kho tài nguyên hoc tập về lĩnh vực Khoa học máy tính

5.21 Mục tiêu và chức năng của hệ thống

5.2.2 Thiết kế thựcnghiệm Ặ.ẶẶẶ Q Q So 5.2.3 Kết quả thực nghiệm và thảo luận

Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ Thông tin

5.3.1 Thiết kếthựcnghiệm Ặ.Ặ Ặ QẶ Q So 5.3.2 Két quả thực nghiệm và thảo luận

Hệ thống tìm kiếm và chọn lọc tin bài trên các báo điệntử

5.4.1 Thiétkéthucnghiém 0-00000 5.42 Két quả thực nghiệm và thảo luận

Kết chudng 2 Q Q Q Q Q Q Q Q H Q Q n Q à v kg kg vo

34

37 40

42 46 49

52 52 55

55

59 65 71 71 77

78

82 83

Trang 7

Chương 6 ĐO LƯỜNG MỨC ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI TÀI

LIEU VỚI TRI THỨC TONG QUÁT DUA TREN ĐỒ THỊ KEYPHRASE122

6.2 Mô hình hóa nội dung tài liệu bằng đồ thi dựa trên trithức 123

6.2.1 Rút trích keyphrase Q Q Q HQ HH eee 127 6.2.2 Xây dựng đồ thị keyphrase biểu diễn tài liệu 133

6.3 Đánh gia độ tương đồng giữa hai tài liệu dựa trên đồ thị 136

6.3.1 Độ tương đồng ngữ nghĩa giữa hai keyphrase 136

6.3.2 Độ tương đồng ngữ nghĩa giữa hai tàilệu 141 6.4 Thực nghiệm đánh giá kỹ thuật đo lường độ tương đồng ngữ nghĩa giữa hai

65 Kếtchươdng ng gà gà và va 148

KẾT LUẬN 149

Về mặt khoahọc ee 149

Hạn chế của Luậnán ee 155

NHỮNG KẾT QUÁ CÓ LIÊN QUAN CỦA NGHIÊN CỨU SINH 159

Công trình khoa học của tác gia» Ặ Q Q Q QQ Q HH Ko 159

Đề tài nghiên cứu khoahọc 0000 0 eee ee 160

TÀI LIỆU THAM KHẢO 161

Trang 8

Danh sách bảng

3.1

3.2

3.3

3.4

3.5

4.1

4.2

5.1

5.2

5.3

5.4

5.5

6.1

6.2

6.3

6.4

Một số thuộc tính của khái nệm ALGORITHM

Một số thực thể của khái nệm ALGORITHM_

Các thuộc tính của một số quan hệ trong Rcc

-Quan hệ giữa các keyphrase trong CK-ONTO

Thống kê số lượng keyphrase, khái niệm (lớp) và mối quan hệ trong các cơ sở tri thức được xây dung ee vi Các cấp độ diễn đạt đối với thông tin cấu trúc [CTI]

Các cấp độ diễn đạt đối với thông tin ngữ nghĩa [CTI]

Một số thông tin thống kê về kho tài liệu

Hiệu quả tìm kiếm của Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa học máy tính trên kho thử nghiệm gồm 1000 tài liệu và 100 câu truy vấn (theo phần trăm) [CT1] - ẶẶẶẶ SỰ Hiệu quả tìm kiếm của Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa học máy tính trên kho thử nghiệm gồm 10.000 tài liệu và 100 câu truy vấn (theo phần tram)[CT1] 0.2.00 00.0022 eee eee Ví dụ về cấu trúc thông tin của câu truy van trong Bộ dữ liệu thử nghiệm Hiệu quả tìm kiếm của Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ Thông tin (theo phần tram)[CT1]

-Những khái niệm được chú thích và trọng số của chúng tương ứng với Hình i Ẽ HT Danh sách keyphrase của tài liệu #20 kèm theo các khái niệm/thực thể được tham chiếu ee Các tham số và giá trị tối uu của chúng [CT4]

Kết quả thực nghiệm trên Bộ dữ liệu LP50 [CT4]

Trang 9

Danh sách hình vẽ

1.1

2.1

2.2

2.3

2.4

2.5

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

Vi dụ một vai câu truy van mẫu mà dé tài quan tâm giải quyét 9

WordNet - Một cơ sở dữ liệu vềtừ 23

DBPedia - Một cơ sở tri thức đa lĩnh vực đồsộ 24

Một số ontology miễn nổi tiếng hiện nay 25

CSO - một ontology miễn về lĩnh vực Khoa học máy tinh 25

Các mô hình biểu diễn tài liệu dựa trên đồ thị đã có 27

Một ví dụ về lớp PROGRAMMING LANGUAGE trong miền tri thức Công nghệ thôngtin On ee 37 Một phần sơ đồ phân cấp của lớp ALGORITHM 38

Một số quan hệ tương đồng giữa các keyphrase trong lĩnh vực Việc làm ngành Công nghệ thông tin Ặ.ẶẶ Q Q Q Q Q Q o 40 Qui trình xây dựng ontology lĩnh vực 47

Biểu đồ phân rã chức năng quan lý ontology CK-ONTO 48

Ảnh chụp màn hình công cụ quản lý CK-ONTO: danh mục các lớp 48

Ảnh chụp màn hình công cụ quản lý CK-ONTO: tạo mới một lớp 49

Ảnh chụp màn hình công cụ quản lý CK-ONTO: danh mục các quan hệ giữa keyphrase Ặ Q Q Q Q Q Q Q H kg kg k vo 50 Lấy phản hồi về cấu trúc thông tin của một khái niệm trong ontology 51

Quy trình tính toán độ tương đồng giữa tài liệu và câu truy vấn [CT1] 54

Ví dụ một đồ thị keyphrase đởngiản 59

So sánh về cấu trúc của các mô hình dé thị biểu diễn tàilệu 64

So sánh các mô hình dé thị biểu diễn tài liệu theo các tiêu chuẩn 64

Quy trình xây dựng đồ thikeyphrase [CT1] 65

Ví du một số luật hỗ trợ rút trích quan hệ theo cú pháp 66

Ví dụ kết quả trích xuất quan hệ cho câu “Smaato is seeking a Cloud Software Engineer to contribute to our sofWare” Q Q Q Q e 67 Ví dụ về Cấu trúc tập tin “FileSemanticstxt” 68

Ví dụ về Cấu trúc tập tin lưu các đồ thị keyphrase theo định dạng RDF/RDFS 69 4.10 Ví dụ về quan hệ phân cấp của Information Technology 73

Trang 10

4.11 Ví dụ về Bộ trọng số được gan cho mỗi quan hệ trong Rgg - 74

4.12 Ví dụ một đoạn văn ban được trích từ một tin bài tuyển dụng (tài liéu) 80

4.13 Ví dụ một phần của đồ thi keyphrase có trọng số đầy đủ biểu diễn cho đoạn văn bản trên và một phép chiếu giữa hai đồ thị 80

51 Thành phần cốt lõi trong một hệthốngSDBS - 86

5.2 Kiến trúc của một hệ thống SDBS[CTI] - 87

5.3 Mô hình nghiên cứu tổng thể của Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ thông tin[CTI] ẶẶẶẶẶẶẶ So 91 5.4 Giao diện trang tìm kiếm tài liệu theo hệ thống thư mục quy chuẩn 94

5.5 Giao diện trang tìm kiếm tài liệu cơ bản theo từ khóa 95

5.6 Thong tin hiển thị của mỗi tài liệu kếtquả 96

5.7 _ Giao diện trang tìm kiếm theo ngữ nghĩa và hiển thị kếtquả 96

5.8 Đồ thị thể hiện mối liên hệ giữa các từ khóa 97

5.9 Ví dụ về câu truy vấn mẫu “python programming language” trong bộ thử nghiệm của Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa học máytnh be ứt ` “e 100

5.10 Một số câu truy vấn mẫu trong bộ thử nghiệm của Hệ thống quan lý kho tài nguyên học tập về lĩnh vực Khoa học máy tính 101

5.11 Giao diện thống kê hiệu quả tìm kiếm của từng câu truy vấn 104

5.12 Tìm kiếm theo ngữ nghĩa từ khóa “programming language” 105

5.13 Tìm kiếm theo ngữ nghĩa từ khóa “game programming” 106

5.14 Tim kiếm theo ngữ nghĩa với bộ lọc kết quả khi tìm kiếm 107

5.15 Ví dụ một vài câu truy vấn mau trong bộ dữ liệu thử nghiệm của Hệ thống tìm kiếm tin bài tuyển dụng 0 20000002 eee 114 5.16 Theo dõi chi tiết thử nghiệm của Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ Thông tin với từng chủ đề 117

5.17 Vi dụ một vài câu truy vấn mau trong bộ dữ liệu thử nghiệm của Hệ thống tìm kiếm và chon lọc tin bài trên các báo điện tử 119

6.1 Quy trình tính toán độ tương đồng giữa hai tài liệu [CT4] 123

6.2 _ Ví dụ về một lớp trong DBpedia ontology 125

6.3 Ví dụ về một thực thé trong DBpedia 125

6.4 Ví dụ về một đồ thị keyphrase có gán nhãn 126

6.5 _ Ví dụ về một phần của đồ thi keyphrase có chú thích khái niệm tương ứng với tài liệu mẫu TQ ee 131 6.6 Một phan của đồ thị keyphrase biểu diễn cho tài liệu #20 137

Trang 11

DANH MỤC CÁC CHỮ VIẾT TẮT

STT | Chũ viết tat Tiéng Anh Tiéng Viét

1 CG Conceptual Graph D6 thi khai niém

2 CK-ONTO Classified Keyphrase based | Ontology cho cac keyphrase

Ontology được phân lớp

3 CS/KHMT Computer Science Khoa hoc may tinh

4 DB/CSDL Database Co sở dữ liệu

5 DO Domain Ontology Ontology miền

6 DR Document Retrieval Truy xuất tài liệu

7 DRS Document Retrieval System | Hệ thống truy xuất tài liệu

8 EL Entity linking Liên kết thực thể

9 IR Information Retrieval Truy xuất thông tin

10 IT/CNTT Information Technology Công nghệ thông tin

11 KB Knowledge Base Cơ sở tri thức

12 KE Keyphrase Extraction Rút trích keyphrase

13 KG Keyphrase Graph Đồ thị keyphrase

14 NLP Natural Language Process- | Xử lý ngôn ngữ tự nhiên

ing

15 SDB Semantic Document Base Cơ sở tài liệu theo ngữ nghĩa

16 SDBS Semantic Document Base | Hệ quản lý cơ sở tài liệu văn bản

Trang 12

MỞ ĐẦU

Với lượng thông tin khổng lồ như hiện nay, nhu cầu tìm kiếm thông tin trong vô vàn

các thông tin được lưu trữ là một yêu cầu hết sức cần thiết Nguồn tài nguyên được lưu trữdưới dạng đữ liệu văn bản là rất rộng lớn và giàu thông tin nhưng việc khai thác nguồn dữ

liệu này vẫn chưa đạt hiệu quả cao Sự gia tăng và bùng nổ của các cơ sở dữ liệu lớn làm cho

việc tìm kiếm văn bản càng trở nên quan trọng hơn bao giờ hết Chính vì vậy, việc nghiên cứu phương pháp quản lý và tìm kiếm tài liệu văn bản giúp cho người sử dụng có thể tìm

kiếm được những thông tin cần thiết một cách chính xác, hiệu quả, phục vụ cho các mục đíchtrong công việc cũng như trong đời sống là thiết yếu trong giai đoạn hiện nay

Luận án đề xuất một phương pháp mới cho bài toán Tìm kiếm tài liệu theo ngữ nghĩathuộc một miền tri thức xác định, làm cơ sở khoa học cho việc thiết kế, xây dựng các hệ thống

ứng dụng trong thực tiễn Luận án nỗ lực nâng cao hiệu quả tìm kiếm thông qua việc nghiên cứu các phương pháp biểu diễn tài liệu cùng với kỹ thuật tính toán độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn Cách tiếp cận là biểu diễn văn bản dựa trên đồ thị keyphrase

và tận dụng một ontology miền với độ mịn cao, được kiểm soát tốt để làm cơ sở cải thiện kết

2

qua.

Ngoài ra, luận an cũng tập trung vào việc nghiên cứu một giải pháp toàn diện cho

việc thiết kế một loại hệ thống mới gọi là “Hệ quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”, thực hiện xây dựng một số hệ thống cụ thể để chứng minh tính hiệu quả và khả thi của các

ý tưởng được đề xuất Bên cạnh vấn đề tìm kiếm theo ngữ nghĩa, lợi ích của mô hình biểu

diễn tài liệu dựa trên đồ thị và các kỹ thuật có liên quan còn được minh chứng thông qua bài

toán Do lường độ tương đồng ngữ nghĩa giữa hai tài liệu Phương pháp mdi tạo ra các biểu

diễn có cấu trúc của văn bản bằng cách sử dụng những cơ sở tri thức có kích thức lớn và phổ

biến như DBpedia, Wikipedia để thu thập thông tin chỉ tiết về các khái niệm, thực thể và các

mối quan hệ ngữ nghĩa của chúng, do đó dẫn đến cách diễn giải “giàu tri thức” hơn cho tài

liệu Các kết quả nghiên cứu được công bố trên các tạp chí và kỷ yếu hội nghị quốc tế chuyên

ngành, được lập chỉ mục bởi các tổ chức có uy tín như Web of Science, Scopus, EI Compendex,

Inspec, DBPL, ACM Digital Library, v.v

Nội dung của luận án được trình bày trong 06 chương, bao gồm:

Mở đầu: Giới thiệu khái quát về hướng nghiên cứu của luận án và cấu trúc luận án

Chương 1 - Giới thiệu tổng quan về đề tài: Khảo sát về thực trạng và nhu cầu xây dựng các hệ thống quản lý và tìm kiếm tài liệu theo ngữ nghĩa; Tóm tắt tình hình nghiên cứu liên

Trang 13

quan đến lĩnh vực của đề tài; Từ đó, nêu lên mục tiêu, phạm vi nội dung nghiên cứu với nhữngđóng góp chính của luận án.

Chương 2 - Cơ sở lý thuyết : Trình bày co sở lý thuyết cho các phương pháp sử dụng

trong đề tài

Chương 3 - CK-ONTO: Một domain ontology cho các hệ thống tìm kiếm tài liệu theo ngữ nghĩa: Đề xuất một mô hình ontology mô tả tri thức về một lĩnh vực đặc biệt, qua đó làm căn

cứ để biểu diễn ngữ nghĩa cho tài liệu; Qui trình xây dung ontology cho các lĩnh vực.

Chương 4 - Biểu diễn tài liệu dựa trên đồ thi keyphrase và đánh giá độ tương quan ngữ nghĩa trong tìm kiếm: Đề xuất một phương pháp biểu diễn ngữ nghĩa cho tài liệu văn bản

cùng với kỹ thuật tính toán độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn, làm cơ sở

khoa học cho việc thiết kế, xây dựng các hệ thống tìm kiếm tài liệu ứng dụng trong thực tiễn.

Chương 5 - Hệ cơ sở tài liệu văn bản theo ngũ nghĩa: Một giải pháp thiết kế hệ thống và các ứng dụng: Đề xuất một giải pháp tổng thể cho việc thiết kế và xây dựng một lớp hệ thống ứng dụng mới gọi là “Hệ quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”, bằng cách đưa ra những đặc trưng cơ bản của hệ thống để phân biệt với những loại hệ thống khác, Kiến trúc

hệ thống, Quy trình xây dựng và đặt ra một số vấn đề kỹ thuật cần phải giải quyết Giải pháp

được áp dụng để xây dựng thử nghiệm 03 hệ thống: Hệ thống quản lý kho tài nguyên học tập, Hệ thống tìm kiếm tin bài tuyển dụng việc làm, Hệ thống tìm kiếm và chọn lọc tin bài trên các báo mạng, để chứng minh tính hữu ích và khả thi của các ý tưởng nghiên cứu Trình

bày kinh nghiệm xây dựng 03 hệ thống thử nghiệm với yêu cầu sử dụng bao gồm các tác vụ

chính là tổ chức lưu trữ, quản lý và tìm kiếm Hệ thống cho phép truy tìm tài liệu trong kho

lưu trữ theo nhiều chức năng, đặc biệt là chức năng tìm kiếm dựa trên tri thức của lĩnh vựchay theo ngữ nghĩa liên quan đến nội dung của tài liệu Tiến hành thực nghiệm trên các Bộ

dữ liệu mẫu để so sánh và đánh giá hiệu quả tìm kiếm trong giải pháp.

Chương 6 - Do lường mức độ tương đồng ngũ nghĩa giữa hai tài liệu với tri thức tổng quát được trên đồ thị keyphrase: Đề xuất một phương pháp tính toán độ tương đồng ngữ nghĩa giữa hai tài liệu thuộc về một miền tri thức đặc biệt hoặc thuộc tri thức tổng quát nói chung Đánh giá mức độ liên quan giữa hai tài liệu được thực hiện bằng cách tính toán mức độ giống

nhau về ngữ nghĩa giữa hai đồ thị keyphrase đại diện cho chúng Tiến hành thực nghiệm trên

các dữ liệu mẫu để so sánh và đánh giá hệ thống trước khi đi vào phần kết luận của báo cáo.

Kết luận: Trình bày tóm tắt các vấn đề đã đặt ra trong luận án và cách giải quyết, những đóng góp mới và những đề xuất mới về một số hướng phát triển của đề tài trong tương

lai

Phần cuối của luận án là các công trình khoa học chính, công trình có đóng góp củatác giả, danh mục các tài liệu tham khảo và phần phụ lục

Trang 14

Chương 1 GIỚI THIEU TONG QUAN VỀ DE TÀI

Chương 1 giới thiệu tổng quan về đề tài bao gồm các khảo sát về thực trạng ứng dụng công nghệ thông tin trong công tác tổ chức lưu trữ, khai thác, tìm kiếm tài liệu theo ngữ nghĩa,

những phân tích đánh giá về thực trạng, nhu cầu và khả năng nghiên cứu phát triển giải pháp

cũng như ứng dụng Nội dung tiếp theo là giới thiệu về bài toán trọng tâm trong nghiên cứu, đó

là Biểu diễn tài liệu văn bản và Tìm kiếm tài liệu trong kho lưu trữ thuộc một miền tri thức nhất

định, tóm tắt tình hình nghiên cứu có liên quan, nêu lên những vấn đề còn tồn tại Định hướng

nghiên cứu, mục tiêu chung, nội dung phạm vi nghiên cứu và các đóng góp của luận án sẽ đượctrình bày ở phần cuối chương

1.1 Thực trạng và nhu cầu xây dựng các hệ thống quản lý và tìm kiếm tài liệu theo

ngũ nghĩa

Từ vài thập niên gần đây, với những tác động mạnh mẽ của tiến bộ khoa học và công

nghệ, đặc biệt của công nghệ thông tin (CNTT) và truyền thông, thế giới đang dần biến chuyển

tới một nền kinh tế xã hội mới mà thông tin, tri thức được xem là nguồn lực chủ yếu Với lượng

thông tin khổng lồ như hiện nay, nhu cầu tìm kiếm thông tin trong vô vàn các thông tin được

lưu trữ là một yêu cầu hết sức cần thiết, đặc biệt nhu cầu quản lý tài liệu điện tử và thông tinkhoa học công nghệ phục vụ chia sẻ tri thức ngày càng trở nên quan trọng

Đối với việc học tập và nghiên cứu khoa học

Đối với việc học tập và nghiên cứu khoa học không thể phủ nhận vai trò quan trọng của

công tác nghiên cứu tài liệu Việc quản lý kho tài nguyên học tập chuyên ngành, hỗ trợ tìm

kiếm các tài liệu theo một chủ đề người học quan tâm đang trở thành một nhu cầu khách quan,

tất yếu và thiết thực của mọi người Có thể nói, các thư viện điện tử, các hệ quản lý tài nguyên học tập là một trong những hệ thống không thể thiếu trong việc ứng dụng công nghệ thông tin

trong giáo dục và đào tạo, đòi hỏi phải ngày càng hiệu quả hơn, phục vụ tốt hơn cho người học,

người dạy và kể cả những người quản lý Đây là một trong những nhu cầu thực tiễn và cập bách

Trang 15

lý thư viện, ít nghiên cứu tập trung chủ lực vào việc xây dựng giải pháp tổ chức lưu trữ kho tài

liệu trên máy tính hỗ trợ quản lý, tìm kiếm và khai thác liên quan đến thông tin tri thức hay nội

dung tài liệu

Đối với lĩnh vực thông tin và truyền thông

Đối với lĩnh vực thông tin và truyền thông, đặc biệt là trong báo chí xuất bản, có thể nói Báo điện tử đã trở thành món ăn tỉnh thần không thể thiếu của rất nhiều người Với sự phong phú, cập nhật thông tin trong mọi lĩnh vực, từ chính trị, xã hội, kinh tế, văn hóa, giải trí, thể

thao, công nghệ các báo điện tử đã thu hút hàng triệu lượt truy cập mỗi ngày Sự phát triển

mạnh mẽ trên đã góp phần tạo nên một thị trường báo chí đa dạng và mới mẻ Tuy nhiên, cùng

với sự phát triển mạnh mẽ của công nghệ kết nối, số lượng các trang báo điện tử trên khắp thế giới nói chung và ở nước ta nói riêng đã tăng lên đáng kể, kéo theo đó là một khối lượng lớn

các tin bài với nhiều nội dung khác nhau được đăng tải hàng ngày liên quan đến nhiều lĩnh vực

hoạt động Điều đó đã ảnh hưởng không nhỏ đến một số cá nhân và tổ chức trong việc quản lí nội dung tin bài, thống kê, tìm kiếm, tổng hợp nhanh chóng các thông tin, tin bài có liên quan

đến một lĩnh vực, một chủ đề mà họ quan tâm Những công việc này vốn dĩ vẫn còn phụ thuộc

rất nhiều vào sức người, tốn nhiều chi phi và thời gian thực hiện.

Để giải quyết nhu cầu trên, nhiều hệ thống tổng hợp tin tức đã ra đời dưới nhiều hình thức, với khả năng tổng hợp tin tức từ nhiều nguồn khác nhau, tổng hợp một cách tự động hoặc bán tự động, chẳng hạn như Google News, Yahoo! News, Việt Báo, Báo Mới, Một trong những

hạn chế chung của các hệ thống này là ở chức năng tìm kiếm các tin bài chủ yếu dừng lại ở mức

xử lí dữ liệu, do đó chưa đáp ứng được nhu cầu thông tin của người dùng, đặc biệt là những nhucầu liên quan đến xử lý nội dung, ngữ nghĩa của tin bài

Đối với lĩnh vực quản lý hành chính Nhà nước

Đứng trước yêu cầu đổi mới của Nhà nước ta hiện nay, đặc biệt là trong công cuộc cải

cách nền hành chính quốc gia diễn ra sôi động từ trung ương đến địa phương, không thể không

nói đến việc nghiên cứu ứng dụng công nghệ thông tin nhằm hoàn thiện và hợp lý hoá công

tác quản lý tài liệu lưu trữ Thực tế cho thấy, việc quản lý tài liệu trong các cơ quan hành chính

Nhà nước bên cạnh các kết quả đạt được còn nhiều tồn tại cần khắc phục như: tình trạng quá

tải đối với công tác văn thư trong việc xử lý thông tin do lượng thông tin không ngừng tăng lên;

phương tiện xử lý thông tin còn nghèo nàn thủ công, việc tổ chức công tác văn thư vẫn theo nề

nếp cũ, không đáp ứng được nhu cầu mới, nhanh chóng, chính xác Mặc dù văn bản vẫn còn nằm

trong các kho lưu trữ hoặc được đăng trên Công báo, nhưng người ta vẫn không nhớ hết những văn bản, những thông tin cần thiết trước khi ban hành văn bản mới dẫn đến việc xây dựng ban

hành văn bản còn bị trùng lặp, chồng chéo, thậm chí còn mâu thuẫn nhau Có thể thấy rằng,

trải qua bề dầy về thời gian, khối lượng tài liệu lưu trữ tại các cơ quan, đơn vị này ngày một lớn

hơn, mà công cụ quản lý và khai thác sử dụng tài liệu lưu trữ vẫn chủ yếu là các công cụ truyền

thống cho nên gặp rất nhiều khó khăn, nhiều khi không thể thực hiện được Do vậy, việc nghiên cứu phát triển các giải pháp, quản lý thống nhất việc ứng dụng công nghệ thông tin trong công

tác quản lý, tìm kiếm và khai thác tài liệu là một tất yếu trong giai đoạn hiện nay

Trang 16

Đối với lĩnh vực tìm kiếm việc làm

Ngày nay, đi kèm với sự phát triển của kinh tế, xã hội thì nhu cầu tìm việc và tuyển dụng

ở các công ty, doanh nghiệp hay các cá nhân không ngừng tăng trưởng Đi kèm với sự bùng nổ của các dịch vụ internet, tuyển dụng trực tuyến đang trở nên ngày càng phổ biến và phát triển mạnh mẽ Người dùng phổ thông có xu hướng sử dụng máy tìm kiếm chuyên ngành để tìm việc làm thay vì các máy tìm kiếm phổ thông khác như google, bing.

Ở Việt Nam, đã tồn tại nhiều trang tuyển dụng trực tuyến có thể kể đến như:

vietnam-work.com, itviec.com, chotot.com, vieclam24h.vn, timviecnhanh.com, careerlink.vn, với lượng

truy cập cao, ổn định cũng như đạt được độ tin cậy nhất định trong các hệ thống xếp hạng trang website của google Tuy nhiên, hầu hết các trang tuyển dụng này còn khá đơn giản, người dùng phổ trông (nhà tuyển dụng, người tìm việc) đóng vai trò quyết định phần lớn đến hiệu suất của

máy tìm kiếm Hệ thống chưa áp dụng tốt các thành tựu của khoa học máy tính như: quá trình

phân tích câu truy vấn của người dùng và nội dung tin bài còn đơn giản, chưa nắm bắt hết các

nhu cầu thông tin của người tìm việc cũng như thông tin trong các tin bài tuyển dụng, không hỗ trợ tự động phân lớp, gán nhãn tin bài, thông tin phân nhóm ngành chưa rõ ràng, dễ gây nhập

nhằng cho quá trình gán nhãn bài viết của người đăng.

Nhìn chung, nguồn tài nguyên được lưu trữ dưới dạng dữ liệu văn bản là rất rộng lớn

và giàu thông tin nhưng việc khai thác nguồn dữ liệu này vẫn chưa đạt hiệu quả cao Hiện nay,

trên thế giới đã có khá nhiều hệ thống thực hiện công việc này theo những phương pháp khácnhau, tuy chưa đạt được hiệu quả tối ưu nhưng cũng phần nào đáp ứng được các yêu cầu thông

tin của người sử dụng Su gia tăng va bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm

văn bản càng trở nên quan trong hon bao gid hết Chính vi vậy, việc nghiên cứu phương pháp

quản lý và tìm kiếm tài liệu văn bản giúp cho người sử dụng có thể tìm kiếm được những thông

tin cần thiết một cách chính xác, hiệu quả, phục vụ cho các mục đích trong công việc cũng như

trong đời sống là rất cần thiết.

1.2 Tóm tắt tình hình nghiên cứu liên quan đến lĩnh vực của đề tài

Vấn đề Truy xuất thông tin (còn gọi là truy hồi thông tin hay truy tìm thông tin, thuật

ngữ tiếng Anh là Information Retrieval, viết tắt IR), đóng vai trò rất quan trọng trong thiết kế

và xây dựng các hệ thống quản lý và tìm kiếm tài liệu Hiện nay có rất nhiều định nghĩa và cáchgiải thích khác nhau về khái niệm Truy xuất thông tin Một số định nghĩa được xem là kinh

điển và được thừa nhận rộng rãi như sau: Theo (Salton, 1968)[49] thì “Truy xuất thông tin là một nhánh nghiên cứu của Khoa học máy tính liên quan đến việc cấu trúc hoá, phân tích, tổ chức, lưu trữ, tìm kiếm và truy hồi thông tin” Định nghĩa tổng quát này có thể được áp dụng cho

nhiều loại thông tin khác nhau và cho nhiều loại ứng dụng tìm kiếm khác nhau Trong [24], tácgiả C.Bourne và B.Anderson đã định nghĩa “Truy xuất thông tin là tìm kiếm thông tin (thường

là các tài liệu) ở một dạng không có cấu trúc (thông thường là văn bản), nhằm thỏa mãn nhu cầu

thông tin của người dùng từ những nguồn thông tin lớn (được lưu trữ trên các máy tính)” Các

Trang 17

tác giả khác Bruce R Schatz [21], Roberto Basili and Alessandro Moschitti [80] và Christopher D.

Manning [25], cũng trình bày một số quan điểm về truy xuất thông tin trong đó có các phương

pháp truy xuất thông tin được xem xét, phân loại và đánh giá

Hầu hết các hệ thống truy xuất thông tin thực chất chỉ là hệ thống truy xuất tài liệu(Document Retrieval System - DRS), nghĩa là hệ thống sẽ truy tìm những tài liệu từ một kho lưutrữ hoặc cơ sở dữ liệu Sau đó người dùng sẽ tìm kiếm thông tin ho cần trong các tài liệu liên

quan được trả về Truy xuất tài liệu nhắm đến ngữ cảnh tìm kiếm tài liệu từ một kho lưu trữ

lớn, chủ yếu là dữ liệu văn bản trong đó có xem xét đến việc phân tích và biểu diễn nội dung (tiềm ẩn) của tài liệu Có thể nói, các hệ thống truy xuất tài liệu hiện nay phần lớn vẫn dựa trên

từ khóa và mức độ phổ biến của tài liệu Một danh sách các từ khóa (keyword) hay thuật ngữ

(term) độc lập nhau là dạng biểu diễn sơ lược nhất của nội dung Nghĩa là, mỗi tài liệu được biểu

diễn bởi một tập từ hay cụm từ được rút trích từ chính nội dung của tài liệu và do đó, cách biểu

diễn này mang mức độ thông tin còn thấp Mối quan hệ ngữ nghĩa giữa các từ khóa hay nghĩa

của các từ (cụm từ) không được xét đến Vấn đề khó khăn đối với người sử dụng những hệ thống

truy xuất thông tin dựa trên từ khóa là ở khả năng mô tả nhu cầu thông tin bằng một số từ khóa

biểu diễn và chuyển nhu cầu này thành dạng thức truy van phù hợp với hệ thống Đặc biệt đối

với người sử dụng ít kinh nghiệm không thể đặc tả đúng từ khóa cho vấn đề cần tìm kiếm [5].

Đó chính là những lý do cơ bản khiến cho các hệ thống hiện nay có kết quả trả về không phảilúc nào cũng thỏa mãn yêu cầu tìm kiếm của người sử dụng, như là độ chính xác không cao

khi kết quả trả về quá nhiều mà tỷ lệ số tài liệu hữu ích trên tổng số tài liệu trả về thấp, hoặc

có thể không tìm thấy được những tài liệu liên quan khi chúng được mô tả với những từ khóa

khác đồng nghĩa, gần nghĩa hoặc có liên quan với từ khóa mà người dùng tìm kiếm (độ bao phủ

không cao) Nhược điểm cơ bản này đã gây ra không ít khó khăn cho người sử dụng trong việc

tìm kiếm chính xác thông tin mình cần

Từ những mô hình tìm kiếm đơn giản ban đầu như Boolean, nhiều tác giả đã nỗ lực cải

thiện hiệu quả của việc tìm kiếm thông qua các mô hình phức tạp hơn như Mô hình Boolean cảitiến (Advanced Boolean Model), Mô hình Không gian Vector (Vector Space Model)[50], các môhình xác suất (Probabilitic Models) như BM25, BM25*, Divergence From Randomness [86], Mô

hình Ngôn ngữ (Language Model)[57], Chi mục ngữ nghĩa tiềm ẩn (Latent Semantic Indexing

- LSD[85], Probabilistic Latent Semantic Analysis (PLSA)[100], Thừa số hóa ma trận không âm(Non-negative Matrix Factorization - NMF)[32], Latent Dirichlet Allocation - LDA [34], và các

mô hình chủ đề khác (Topic Models)

Nhiều nghiên cứu sử dụng các kỹ thuật khác nhằm hỗ trợ quá trình tìm kiếm như thay đổi

cách đánh trọng số [46, 51], đưa vào xử lý ngôn ngữ tự nhiên [87, 96, 78, 73], nhận diện thực thể có tên (Named-Entity Recognition - NER)[59], khử nhập nhằng (Word Sense Disambiguation)[29],

mở rộng câu truy vấn (Query Expansion)[14], mở rộng tài liệu (Document Expansion) [68], fuzzy

[36, 92], khai thác các nguồn tri thức như WordNet, Cyc, SUMO, UMLS, Sensus, Wikipedia [5],

sử dụng mạng neural và kỹ thuật trong máy học [40, 54], phân tích ngữ nghĩa tiềm ẩn (Explicit

Semantic Analysis) [74], khai thác thông tin phản hồi của người dùng cũng góp phần làm

tăng hiệu quả tìm kiếm Mặc dù có nhiều cải tiến để cải thiện kết quả nhưng hạn chế của việc

4

Trang 18

sử dụng từ khóa vẫn chưa được khắc phục.

Hiện nay, trong lĩnh vực khoa học máy tính cũng có một sự chuyển hướng dần đến những thứ mà có thể gọi là sự hướng tri thức hoặc xử lý ngữ nghĩa Theo đó, những hệ thống tìm kiếm

dựa trên khái niệm (concept search, concept - based search) hay tìm kiếm theo ngũ nghĩa

(semantic search) được nghiên cứu phát triển nhằm thay thế cho những hệ thống truyền thống vốn đã bộc lộ nhiều khuyết điểm lớn Không giống như hệ thống tìm kiếm dựa trên từ khóa vốn

so trùng một cách chính xác những gì người dùng cung cấp, hệ thống tìm kiếm theo ngữ nghĩa tìm kiếm những gì người dùng nghĩ Những cách tiếp cận theo hướng ngữ nghĩa sẽ cố gắng

thực hiện việc phân tích cú pháp và ngữ nghĩa, hướng tới mô phỏng một cách tự nhiên cách con

người giao tiếp, nghĩa là mô phỏng cấp độ hiểu của máy tính về ý nghĩa của từ, cụm từ hay văn

bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ Ý tưởng chính đằng sau

các giải pháp tìm kiếm theo ngữ nghĩa là sử dụng các nguồn tài nguyên giàu ngữ nghĩa để giải nghĩa cho các từ/cụm từ, từ đó có thể giải nghĩa cho cả câu truy vấn và các tài liệu Xử lý ngữ nghĩa cũng được hiểu theo nhiều cấp độ (từ, ngữ, câu, đoạn văn hay toàn bộ văn bản) và ở nhiều

khía cạnh (hình thái, ngữ pháp, ngữ nghĩa) Tuy nhiên, phần lớn các nghiên cứu hiện nay tập

trung vào khai thác nghĩa từ vựng, tức là khai thác và biểu diễn nghĩa của các từ trong câu truy

vấn và tài liệu

Ngày nay, vấn đề tìm kiếm tài liệu theo ngữ nghĩa phải đối mặt với nhiều thách thức lớn

Vấn đề quan trọng đầu tiên cần phải giải quyết là lựa chọn một phương pháp biểu diễn cho tài

liệu, tức là chuyển đổi tài liệu văn bản thành dạng có cấu trúc phù hợp với chương trình máy

tính trong khi vẫn có thể mô tả được nội dung nồng cốt của văn bản đó Để khắc phục những hạn chế trong việc biểu diễn tài liệu từ những mô hình truyền thống, nhiều nghiên cứu khác nhau [30, 39, 43, 58] đã nổ lực thay đổi cách thức biểu diễn cho tài liệu, khi đó, nội dung của tài liệu được biểu diễn bởi những mô hình mang mức độ thông tin cao hơn, giàu ngữ nghĩa hơn, dựa

trên các khái niệm hơn là các từ/cụm từ đơn lẻ Với quan điểm rằng, hiểu nội dung của một tài liệu đòi hỏi phải có sự hiểu biết về các khái niệm, các thực thể chính trong tài liệu đó cũng như cách thức mà chúng liên hệ với nhau và hơn hết, đồ thị lại là một cấu trúc toán học có khả năng

mô hình hóa mối quan hệ cùng với các thông tin quan trọng về cấu trúc một cách hiệu quả Từ

ý tưởng này, nhiều mô hình đồ thị đã được đề xuất như mạng ngữ nghĩa, đồ thị khái niệm CGs,CGs cải tiến, đồ thị hình sao, đồ thị tần số, đồ thị khoảng cách, đồ thị đồng hiện được đánh gia

là có nhiều tiềm năng sử dụng, có nền tảng lý thuyết chặt chẽ, rõ ràng và hiệu suất thực nghiệm

tốt [7], [94] Tiếp cận đồ thị không ngừng được nghiên cứu phát triên và được ứng dụng

vào dãy rộng các bài toán liên quan đến xử lý văn bản nhưng chưa có nghiên cứu nàothực sự tập trung vào bài toán tìm kiếm tài liệu đáp ứng yêu cầu truy vấn thuộc một

miền tri thức nhất định Đây chính là động lực thúc day nghiên cứu bài toán này.

Ngoài ra, để rút trích khái niệm từ tài liệu, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực nhất định nào đó Một số dạng nguồn tri thức có thể kể đến như cây khái niệm phân cấp

(conceptual taxonomy), ontology miền (domain ontology), mạng ngữ nghĩa (semantic linguistic

network of concept), từ điển đồng nghĩa (thesaurus) Như vậy, việc nghiên cứu các mô hình biểu

diễn tri thức cũng như xây dựng và phát triển các nguồn tri thức có ý nghĩa vô cùng quan trọng.

5

Trang 19

Chúng được xem là những công cụ đầy sức mạnh nhằm giảm thiểu sự tối nghĩa, sự nhập nhằng

về nghĩa, cung cấp cơ sở ngữ nghĩa và làm nền tảng nghiên cứu cho các hệ thống truy xuất

thông tin/tai liệu Trong số những mô hình này, có thể nói ngày nay ontology đang được chú ý nhiều nhất Công nghệ ontology là một công nghệ đang phát triển rất nhanh, một số lượng lớn các phương pháp và ứng dụng dựa trên ontology đang được nhiều tổ chức khác nhau trên thế giới phát triển.

Hiện nay, một trong những hướng nghiên cứu về ontology là cố gắng xây dựng các cơ sở

lý thuyết và kỹ thuật tích hợp tri thức từ nhiều nguồn ontology khác nhau, cũng như việc xây

dựng các mô hình ontology hướng đến chia sẻ và kết nối tri thức giữa nhiều hệ thống máy tính[23] Mục tiêu này đưa đến các cơ sở tri thức đa lĩnh vực cực kỳ đồ sé như DBpedia !, YAGO 2đều là những cơ sở tri thức uy tín và được sử dụng trong nhiều ứng dụng khác nhau Tuy nhiên,ngay cả khi có sự trợ giúp của những nguồn tri thức đa lĩnh vực này, bài toán tìm kiếm trên thực

tế vẫn là một thách thức lớn.

Vì thế trong lĩnh vực truy xuất thông tin hiện nay đang có xu hướng chuyển dịch sang

việc tập trung vào các bài toán đặc thù trong một miền tri thức nhất định Sự tập trung này cho

phép ontology có thể được tùy biến phù hợp hơn với từng miền tri thức và từng bài toán cụ thể, qua đó giúp máy tính có thể hiểu chính xác hơn các tài liệu và câu truy vấn cần tìm kiếm Đã có những ontology rất nổi tiếng và uy tín, được sử dụng trong nhiều nghiên cứu khác nhau như:

ontology MeSH và SNOMED CT ¢ trong miền y khoa, PhySH ° miền vật lý, JEL 5 trong miền kinh tế , AGROVOC7 va AgriOntology ® trong miền nông nghiệp, CSO ? trong miền Khoa học

máy tính va MSC !° trong miền toán học Tuy đã có nhiều ontology được xây dựng và chia

sẻ, hầu hết các ontology như vừa kẽ trên đều không được xây dựng dé hướng đến baitoán truy xuất tài liệu nói chung, cũng như bài toán tìm kiếm tài liệu thuộc một miềntri thúc nói riêng

Một vấn đề được quan tâm khác là đặc tả câu truy vấn của người dùng Người sử dụng

thường gặp khó khăn trong việc đặc tả đúng từ khóa cho vấn đề cần tìm kiếm Có thể có nhiều

lý do dẫn đến sự mơ hồ và thiếu chính xác trong các câu truy vấn này, chẳng hạn như thiếu kiến

thức về chủ đề hoặc sự mơ hồ, nhập nhằng vốn có của ngôn ngữ tự nhiên Câu truy vấn không

phù hợp hoặc thiếu chính xác sẽ dẫn đến những kết quả tìm kiếm nghèo nàn Vấn đề này có

thể được giải quyết bang cách hệ thống sẽ thực hiện các sửa đối tự động hoặc mở rộng câu truy

vấn Một kỹ thuật có hiệu quả khác là khai thác thông tin dựa trên sự tương tác và phản hồi

của người dùng Việc cải thiện phép biểu diễn cho tài liệu và/hoặc câu truy vấn có vai trò quan

Trang 20

trọng, góp phân cải thiện hiệu quả tìm kiếm của các hệ thống theo hướng ngữ nghĩa Bên cạnh

đó, để trả về danh sách các tài liệu (được sắp hạng) có liên quan, đáp ứng yêu cầu của người sử

dụng, hệ thống sẽ so khớp biểu diễn của câu truy vấn với biểu diễn của các tài liệu Làm thế nào

để so khớp chúng lại là một vấn đề khác Đã có nhiều độ đo được đề xuất để đánh giá mức độ tương đồng ngữ nghĩa giữa một câu truy vấn và tài liệu, tuy nhiên lựa chọn một độ đo phù hợp

để sử dụng cũng là một vấn đề khó khăn.

Ngoài ra, kích thước lớn của các kho tài liệu văn bản cũng làm phức tạp vấn đề biểu diễn,

lưu trữ và truy tìm tài liệu Hơn nữa, người sử dụng có thể có những nhu cầu tìm kiếm khác

nhau Một số người dùng đòi hỏi các tài liệu trả về phải thuộc một phạm vi lĩnh vực hay mộtchủ đề giới hạn nào đó, trong khi những người khác yêu cầu các tài liệu có phạm vi rộng hơn

Những nhu cầu khác nhau của người dùng dẫn đến các tiếp cận nghiên cứu khác nhau, từ đó

làm phong phú thêm các phương pháp và kỹ thuật có trong lĩnh vực Chương 2 sẽ trình bày và

phân tích chi tiết hơn vấn đề biểu diễn ngữ nghĩa và tìm kiếm theo ngữ nghĩa trong ngữ cảnh

xây dựng các hệ ứng dụng mà đề tài đang hướng đến, phân loại các giải pháp tìm kiếm hiện có,

nhận định ưu nhược điểm của mỗi phương pháp và lựa chọn hướng tiếp cận cho đề tài.

1.3 Định hướng nghiên cứu và mục tiêu của luận án

1.3.1 Định hướng nghiên cứu

Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải pháp cũng như ứng dụng, đề tài tập trung nghiên cứu phát triển một giải pháp tổng thể cho việc thiết kế và xây dựng một lớp hệ thống ứng dụng mới gọi là “Hệ quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”.

Các hệ thống thuộc lớp ứng dụng này sẽ bao gồm 2 nhóm chức năng chính như sau:

1) Tổ chức quản lý và bảo quản: lưu trữ, quản lý quy trình nghiệp vụ xử lý và thao tác với tài liệu như cập nhật, thống kê, kiểm soát, bao hàm các chức năng quản lý có xử lý ở mức độ

ngữ nghĩa

2) Tìm kiếm: hệ thống cho phép truy tìm tài liệu trong kho lưu trữ theo nhiều chứcnăng, đặc biệt là chức năng tìm kiếm dựa trên tri thức của lĩnh vực hay theo ngữ nghĩa liênquan đến nội dung của tài liệu, theo đó hệ thống sẽ không so trùng một cách chính xác những

gì người dùng cung cấp mà sẽ tìm cách hiểu nghĩa dựa trên các khái niệm có liên quan đến từ

khóa tìm kiếm và trả về tập tài liệu kết quả phù hợp với ý định của người dùng

Giải pháp cho việc thiết kế, xây dựng hệ thống ứng dụng sẽ bao gồm các mô hình, vấn

đề kỹ thuật, phương pháp, nguyên lý, thuật giải, qui trình, công cụ để tổ chức các kho tài liệu văn bản, trong đó cố gắng quản lý được các thông tin ngữ nghĩa liên quan đến nội dung của tài

liệu cũng như hỗ trợ biểu diễn và xử lý ngữ nghĩa trong quá trình tìm kiếm tài liệu; bên cạnh đó

đưa ra các định chuẩn cũng như phương pháp đánh giá hiệu quả hoạt động của hệ thống dựa

trên lý luận và thực nghiệm

Áp dụng giải pháp được đề xuất, thực hiện xây dựng một vài hệ thống ứng dụng thử

Trang 21

nghiệm, có thể kể đến như Hệ quản lý kho tài nguyên học tập theo ngữ nghĩa thuộc một chuyên

ngành đặc biệt như Công nghệ Thông tin, Hệ tìm kiếm chọn lọc tin bài trên các báo điện tử trong

một số lĩnh vực đặc thù, Hệ hỗ trợ tìm kiếm việc làm và tuyển dụng trong ngành Công nghệThông tin.

Đầu tiên, đề tài sẽ nghiên cứu giải quyết một số vấn đề kỹ thuật có trong giải pháp, đặc

biệt là vấn đề “Iìm kiếm theo ngũ nghĩa trên một kho tài liệu văn bản có liên quan đến

một lĩnh vực tri thúc chuyên ngành nào đó” Mặc dù đã có nhiều tiến bộ trong nghiên cứu

về tìm kiếm tài liệu văn bản nhưng vẫn còn khoảng cách khá xa giữa nhu cầu ứng dụng và các

kết quả đạt được Luận án tập trung nghiên cứu phát triển các kỹ thuật tìm kiếm tài liệu hiện có, cũng như những kỹ thuật phân tích dữ liệu văn bản dựa trên ngữ nghĩa và tri thức miền, nhằm

tích hợp chúng đề tăng cường hiệu quả giải quyết các bài toán đã đặt ra.

1.3.2 Mục tiêu nghiên cứu

1) Đề tài sẽ tập trung nghiên cứu một phương pháp mới cho bài toán Tìm kiếmtài liệu theo ngii nghĩa thuộc một miền tri thức xác định, làm cơ sở khoa học cho việc thiết

kế, xây dựng các hệ thống tìm kiếm tài liệu ứng dụng trong thực tiễn.

Bài toán tìm kiếm theo ngữ nghĩa trên một kho tài liệu D thuộc về một miền tri thức

cụ thể K được mô tả như sau: từ câu truy vấn người dùng nhập vào, hệ thống tìm kiếm và trả

về danh sách các tài liệu (được sắp hạng) trong D có nội dung liên quan và phù hợp với thông

tin truy vấn Những tài liệu này không nhất thiết phải chứa chính xác từ khóa tìm kiếm Câu

truy vấn thể hiện nhu cầu thông tin hay ý định tìm kiếm của người dùng, là một phát biểu ở thể khẳng định (không phải là dạng câu hỏi đáp) bằng ngôn ngữ tự nhiên, được đặc tả dưới dạng

gồm một hay nhiều từ (cụm từ) được phân cách với nhau bằng khoảng trắng, tối đa 10 cụm tu.

Cụm từ có thể được đặt trong cặp nháy kép Các từ (cụm từ) chỉ đến một khái niệm hoặc một thực thể mà người dùng quan tâm.

Người dùng tự mô tả câu truy vấn theo vốn từ của họ, không nhất thiết là một câu hoàn chỉnh về mặt ngữ pháp Vì là một bài toán thuộc dang tìm kiếm ngẫu nhiên (adhoc search) nên

thay vì tuân theo một cấu trúc tìm kiếm cố định hoặc hệ thống phân loại sẵn có, hệ thống cho

phép người dùng tìm kiếm một cách linh hoạt và không giới hạn theo một quy tắc cụ thể nào.

Nhiệm vụ chính của bài toán này là tìm kiếm và xếp hạng các tài liệu phù hợp với một truy vấn

người dùng đưa ra mà không có bất kỳ thông tin tiền đề hay chuẩn bị trước Người dùng đưa ra

truy vấn mà không yêu cầu hoặc cần có bất kỳ thông tin gì về cấu trúc hay nội dung của các tàiliệu được tìm kiếm

Dựa trên khảo sát từ nhật ký truy vấn của các máy tìm kiếm như Google và Bing, kết quả

cho thấy phần lớn truy vấn từ người dùng thường có độ dài ngắn và chỉ bao gồm một số cụm

từ, với số lượng cụm từ tối đa là 10 Vì vậy, giới hạn tới tối đa 10 cụm từ có thể phù hợp với mức

độ phổ biến và xu hướng truy vấn thường gặp Hơn nữa, các bộ dữ liệu chuẩn phổ biến trong

Trang 22

cộng đồng nghiên cứu về Truy xuất thông tin như TREC !!, NTCIR !“, CLEF l3 đều chứa các

câu truy vấn ngắn với độ dài từ 1 đến 10 từ đơn Những câu truy vấn này tập trung vào một số

từ khoá quan trọng để diễn đạt ý định tìm kiếm cụ thể Điều này cho thấy trong nghiên cứu và

các trường hợp tìm kiếm thông thường, câu truy vấn ngắn thường được ưu tiên để tập trung vào

ý định tìm kiếm cốt lõi và giúp tối ưu hóa hiệu suất tìm kiếm Khi câu truy vấn chứa quá nhiều

cụm từ, quá trình truy vấn có thể trở nên chậm và tốn nhiều tài nguyên tính toán Giới hạn số

lượng cụm từ giúp hạn chế việc xử lý phức tạp và tăng tốc quá trình truy vấn

Ví dụ một số truy vấn như trong Hình 1.1 được xem xét giải quyết trong đề tài này:

quality assurance manager

Cloud Product and Project Manager

Site Reliability Engineer - Big Data Team back end developer nodejs

front end web developer

PHP E-commerce Developer

Embedded Software Engineer Lead Fullstack Software Engineer Python

C# Net Dev

Platform Engineer for Containers

Senior Software Engineer (Java) - using coding to improve

healthcare treatment

Fullstack Software Developer (m-w) Industry Software in Karlsruhe Experienced Semantics Engineer for NLP (Smart Accounting)

Cutting Edge Risk and Compliance software

Hình 1.1 Ví dụ một vài câu truy van mẫu mà dé tài quan tâm giải quyết

Đề tài sẽ nỗ lực cải thiện hiệu quả của việc tìm kiếm thông qua việc nghiên cứu các phương pháp biéu diễn cho tài liệu văn bản cùng với kỹ thuật tính toán độ tương đồng

ngũ nghĩa giữa tài liệu và câu truy vấn Đánh giá hiệu quả tìm kiếm thông qua các độ đonhư độ chính xác (precision), độ bao phủ (recall), và độ F (F-score hoặc còn gọi là F-measure)

Phương pháp tiếp cận là dựa trên ontology và biểu diễn văn bản bằng đồ thị Như vậy, với cách

tiếp cận được nêu trên, các bài toán con cần giải quyết bao gồm:

a Nghiên cứu mô hình ontology biểu diễn tri thức thuộc một miền tri thức nhất định, qua đó làm căn cứ để biểu diễn ngữ nghĩa cho tài liệu

b Nghiên cứu mô hình và kỹ thuật biểu diễn (nội dung) tài liệu (trên cơ sở đã mô hình

hóa được miền tri thức mà tài liệu thuộc về)

c Tính khoảng cách ngữ nghĩa giữa các keyphrase (hay các khái niệm) thông qua việc

khai thác nguồn tri thức ontology miền dựng sẵn

d So khớp và tính toán mức độ tương đồng ngữ nghĩa giữa các cấu trúc biểu diễn cho

1ihttps://trec.nist.gov/

12http://research.nii.ac.jp/ntcir/

13h ttp://clef-initiative.eu/

Trang 23

nội dung của tài liệu và câu truy vấn

Kỹ thuật biểu diễn tài liệu cần phải giải quyết được (phần nào) hai vấn đề nhập nhằng

của ngôn ngữ tự nhiên là từ đồng nghĩa và từ nhiều nghĩa Ngoài ra, phương pháp biểu diễn cần phải tận dụng được tài nguyên tri thức có sẵn nhằm hỗ trợ quá trình tìm kiếm Bên cạnh đó,

các kỹ thuật đánh giá độ tương đồng ngữ nghĩa phải khả thi về mặt tốc độ xử lý và đạt được độ

chính xác cao, dẫn đến hiệu quả tìm kiếm được cải thiện so với các phương pháp hiện có Đề

tài nghiên cứu phương pháp tìm kiếm tài liệu theo hướng cải tiến độ chính xác và độ bao phủ,không đặt vấn đề về hiệu năng (thời gian xử lý truy vấn, kích thước chỉ mục, xử lý phân tán)

của hệ thống khi được triển khai thực tế.

2) Nghiên cứu giải pháp thiết kế, xây dung một lớp hệ thống mới, gọi là “Hệ thống quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”, bằng cách đưa ra những đặc trưng cơ bản của hệ thống để phân biệt với những loại hệ thống khác, Kiến trúc hệ thống, Quy trình xây dựng và đặt ra một số vấn đề kỹ thuật cần phải giải quyết Xây dựng một số hệ thống ứng dụng cụ thể

để chứng minh tính hữu ích và khả thi của các ý tưởng nghiên cứu đã đề xuất; tiến hành thực

nghiệm trên các Bộ dữ liệu mẫu để so sánh, đánh giá hiệu quả tìm kiếm trong giải pháp.

3) Nghiên cứu một phương pháp mới cho bài toán Do lưởng múc độ tương đồng

ngũ nghĩa giữa hai tài liệu thuộc về một miền tri thức đặc biệt hoặc thuộc tri thúc tổng

quát nói chung Cách tiếp cận được lựa chọn trong đề tài này được kỳ vọng là có thể ứng dụng

vào một dãy rộng các bài toán liên quan đến xử lý văn bản Tính khả dụng cao được thể hiện ở

việc không chỉ sử dụng đối với một bài toán tìm kiếm nhất định mà có thể linh động, tùy biến được để ứng dụng trong không chỉ một mà rất nhiều các bài toán có dạng tương tự Trong đề

tài này, bên cạnh vấn đề tìm kiếm theo ngữ nghĩa, lợi ích của mô hình biểu diễn tài liệu dựa

trên đồ thị và các kỹ thuật có liên quan còn được minh chứng thông qua bài toán đo lường độ

tương đồng ngữ nghĩa giữa hai tài liệu Lí do của việc lựa chọn bài toán mở rộng này là: 1) một

số lượng lớn các điểm chuẩn đã được công bố để làm tiêu chuẩn so sánh; 2) có thể tùy chỉnh các

kỹ thuật trong Bài toán tìm kiếm để áp dụng cho Bài toán mới.

1.3.3 Phạm vi nghiên cứu

Kho tài liệu văn ban (thô) D = {dị, da, dạ} thuộc một miễn tri thức K, giới han trong

phạm vi ngôn ngữ là tiếng Anh Các tài liệu được lưu trữ cục bộ trên máy tính dưới các định dang

văn bản tiêu chuẩn Kho tài liệu bao gồm những tập tin văn bản có cùng một “cấu trúc tương đối xác định”(nghĩa là được chia thành nhiều mục nội dung đặc thù) chang hạn như kho bài báo khoa học (papers), kho sách điện tử (ebooks), kho tin bài tuyển dụng việc làm (job postings)

hoặc kho tin bài trên báo điện tử (articles) Có sự giới hạn miền tri thức cho nội dung của các tàiliệu được tìm kiếm

Nhu cầu ban đầu cần có ontology là để cung cấp các nguồn thông tin giàu ngữ nghĩa mà

máy tính có thể xử lý và thao tác được, đồng thời vẫn có thể dùng ontology để chia sẻ tri thức,

chia sẻ hiểu biết chung giữa người với người, giữa con người với hệ thống cũng như giữa các hệ

10

Trang 24

thống với nhau Trong phạm vi nghiên cứu, dé tài chủ yếu quan tâm đến các ontology miễn, còn

gọi là ontology lĩnh vực, tuy nhiên các ontology sẵn có chủ yếu tập trung trong các lĩnh vực y

khoa hoặc một số ít lĩnh vực đặc thù khác như toán học, sinh học, địa lý Hơn nữa, các ontologynày thường là mô tả tri thức ở các mức độ chỉ tiết khác nhau, không có một khuôn dạng chung

để biểu diễn thông tin liên quan giữa các ontology và rất khó để vận dụng trực tiếp cho mục

đích của nghiên cứu này Nếu khảo sát kỹ các ontology, chúng ta sẽ thấy sự khác nhau rõ rệtgiữa chúng, ngay cả khi chúng đã được xây dựng cho những mục dich rất tương tự Hơn nửa,việc xây dựng một cơ sở tri thức cho một lĩnh vực cũng gặp nhiều khó khăn vì tốn nhiều chi phi

xây dựng và duy trì vốn phải có sự can thiệp của con người, đòi hỏi kiến thức của chuyên gia về

lĩnh vực và phụ thuộc nhiều vào ngôn ngữ Trong bối cảnh đó, đề tài chỉ tập trung xây dựng thử

nghiệm trên một số miền tri thức nhất định trong các hệ thống ứng dụng cụ thể Khả năng biểu

diễn tri thức miền của ontology được giới han ở một mức độ hợp ly, đủ để làm căn cứ biểu diễn

ngữ nghĩa cho tài liệu và tính toán khoảng cách ngữ nghĩa giữa các khái niệm Dé tài không disâu vào việc suy luận giải quyết vấn đề trên tri thức, cũng như không đặt ra yêu cầu phải đánhgiá ontology một cách độc lập

Đề tài cần phải xây dựng các bộ dữ liệu thực nghiệm làm chuẩn mực để đánh giá hiệu

quả tìm kiếm Bộ dữ liệu thực nghiệm hoàn chỉnh bao gồm: Tập các tài liệu văn bản D =

{dị, dạ, dn}; Tập các câu truy vấn mẫu Q = {q¡, qạ, qmạ}: Một hàm wp : Q x D — {0,1}

đánh giá sự liên quan về nghĩa giữa chúng, j1(q;,d;) = 1 nếu tài liệu dj có liên quan đến câu truy vấn q¡ và u(q¡, dị) = 0 nếu q; và dj không liên quan Độ đo chuẩn / được thiết lập trước bằng phương pháp chuyên gia Đánh giá hiệu quả tìm kiếm thông qua các độ đo như độ chính

xác, độ bao phủ và độ F Đánh giá hiệu quả hoạt động của hệ thống là một trong những vấn đề

được nhiều sự quan tâm Có nhiều tiêu chuẩn để đánh giá, song quan trọng nhất là tính hiệu quả

của hệ thống Độ bao phủ và độ chính xác là những độ đo cho tính hiệu quả được sử dụng rộng

rãi nhất hiện nay Vì mục tiêu chính của Truy xuất thông tin là để tìm kiếm những tài liệu có

liên quan đến thông tin truy vấn, hiểu những gì tạo nên “sự liên quan” cũng là một vấn đề quan trọng Sự liên quan là mang tính chủ quan và chỉ người dùng mới có thể khẳng định được là có liên quan hay không Tuy nhiên, ta không thể đo lường độ liên quan thực sự này Người ta có thể xác định mức độ liên quan theo cách như sau: sự liên quan được xem như là một khái niệm nhị phân, trong khi nó là một hàm liên tục (một tài liệu có thể được xem là chính xác những gì người sử dụng mong muốn hoặc nó có thể gần đúng hay chấp nhận được) Kỹ thuật đánh giá

hiện tại không hỗ trợ sự liên tục này Hầu hết các đánh giá cho đến nay đều được thực hiện theo kiểu “không trực tuyến”, tức là dựa trên các bộ dữ liệu thử nghiệm đã xây dựng sẵn trước đó,

trong đó sự liên quan đã được xác định trước

Trang 25

trong quá trình tìm kiếm Giải pháp được đề xuất đi theo tiếp cận dựa trên đồ thị và tận dụngmột ontology miền với độ mịn cao để làm cơ sở cải thiện hiệu quả tìm kiếm các tài liệu thuộc

miền Giải pháp được đánh giá chủ yếu theo phương pháp đánh giá tổng thể, theo đó kết quả tìm kiếm sau cùng của toàn bộ hệ thống sẽ được đem ra xem xét và không đặt nặng việc đánh giá chỉ tiết từng khâu xử lý riêng lẻ Các đóng góp chính của đề tài được tóm tắt như sau:

+ (ĐG.1) Đề xuất một phương pháp mới cho việc giải quyết bài toán tìm kiếm tai

liệu theo ngũ nghĩa thuộc một miền tri thức xác định

Nghiên cứu về tìm kiếm theo ngữ nghĩa chủ yếu tập trung cải thiện hiệu quả tìm kiếmtheo hướng chính như sau:

(1.1) Đề xuất một phương pháp biểu diễn tri thức về một lĩnh vực đặc biệt theo tiếp cận ontology, làm căn cứ để biểu diễn ngữ nghĩa cho tài liệu, cùng với việc xây dựng các cơ sở tri

thức của miền ứng dụng được quan tâm

Vai trò quan trọng của ontology trong giải pháp là cung cấp một cơ sở ngữ nghĩa tường

minh nhằm hỗ trợ giải quyết các nhiệm vụ cốt lõi trong tìm kiếm như: sử dụng ngữ nghĩa để

giải nghĩa cho các từ/cụm từ, từ đó có thể giải nghĩa cho cả câu truy vấn và các tài liệu; đo lường

mức độ tương quan ngữ nghĩa giữa các keyphrase; rút trích các keyphrase đặc trưng của tài liệu

và xác định quan hệ ngữ nghĩa giữa chúng Ngoài ra, mục đích áp dụng ontology trong các hệ

thống quản lý cơ sở tài liệu văn bản theo ngữ nghĩa là: biểu diễn và lưu trữ tri thức về các lĩnh

vực cũng như các đối tượng cần thiết trong ứng dụng; xây dựng các mô hình tổ chức lưu trữ,

mô hình biểu diễn ngữ nghĩa, biểu diễn tài liệu; tổ chức lập chỉ mục, hỗ trợ xử lý và tìm kiếm

theo ngữ nghĩa liên quan đến nội dung tài liệu Cấu trúc ontology được thiết kế có tính tổng

quát và dễ dàng mở rộng cho nhiều lĩnh vực khác nhau cũng như các loại hình ứng dụng khác

nhau Một nhóm các chuyên gia hay còn gọi là kỹ sư tri thức sẽ chịu trách nhiệm xây dựng vàcải tiến lược đồ ontology này Kết qua này được công bố trong công trình [CT1][CT2][CT3] vàđóng góp ở Chương 3 của luận án

(1.2) Đề xuất một phương pháp biểu diễn ngữ nghĩa cho tài liệu văn bản theo tiếp cận đồ

thị (trên cơ sở đã mô hình hóa được miền tri thức mà tài liệu thuộc về), cùng với kỹ thuật tínhtoán độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn, làm cơ sở khoa học cho việc thiết

kế, xây dựng các hệ thống tìm kiếm tài liệu theo ngữ nghĩa ứng dụng trong thực tiễn Kết quả

này được công bố trong các công trình [CT1][CT2][CT3], đóng góp ở Chương 4 của luận án.

Luận án đề xuất các mô hình đồ thị keyphrase dé biểu diễn cho nội dung tài liệu cùng

với kỹ thuật xây dựng đồ thị, trong đó tận dụng được các thông tin quan trọng về cấu trúc va

các mối quan hệ ngữ nghĩa vốn không được xét đến trong các mô hình truyền thống Theo cách

thức biểu diễn này, việc đo lưởng mức độ liên quan giữa một câu truy vấn và một tài liệu được thực hiện thông qua đánh giá độ tương đồng giữa hai đồ thị keyphrase biểu diễn chúng Đề tài

chọn cách tiếp cận dựa trên đồ thị bởi vi: (i) đồ thị là một cấu trúc toán học có thể mô hình hóa mối quan hệ cũng như thông tin cấu trúc một cách hiệu quả; (ii) tính phổ biến và có thể được sử dụng với bất kỳ nguồn tri thức dạng đồ thị nào, bất kể bộ từ vựng cụ thể của nguồn tri thức đó

là gì; (iii) đồ thi đã được chứng minh là mang lại hiệu quả đối với các tác vụ cần hiểu về ngôn

12

Trang 26

ngữ Phương pháp tiếp cận dựa trên đồ thị đã được nghiên cứu và áp dụng rộng rãi cho nhiềubài toán khác nhau do có nền tảng lý thuyết chặt chẽ, rõ ràng và hiệu suất thực nghiệm tốt.Vai trò và tầm quan trọng của các độ đo tương đồng là khá rõ ràng khi mà chúng được sử dụngtrong nhiêu bài toán như một công cụ thiết yếu Bởi vì độ tương đồng là một khái niệm cơ bản,

nên không có gì ngạc nhiên khi hiện nay có rất nhiều giải thuật khác nhau để tính toán mức độ

tương đồng giữa các đối tượng, đặc biệt các công trình nghiên cứu về đánh giá độ tương đồng

giữa các tài liệu văn bản, giữa tài liệu và câu truy vấn đã và đang diễn ra sôi nổi Như vậy, những

biến đổi về mô hình sẽ dẫn tới nhiều thay đổi về kỹ thuật so khớp và đo lường mức độ tương

đồng ngữ nghĩa

+ (DG.2) Đề xuất một giải pháp tổng thé, mang tính hệ thống cho việc thiết kế va

xây dựng một lớp hệ thống ứng dụng gọi là “Hệ quản lý cơ sở tài liệu văn bản theo

ngũ nghĩa”

Áp dụng giải pháp được nghiên cứu để xây dựng một vài hệ thống ứng dụng cụ thể thuộc

dạng Hệ thống quản lý kho tài nguyên học tập lĩnh vực Khoa học máy tính, Hệ quản lý chọn lọctin bài trên báo mạng lĩnh vực Lao động việc làm, Đầu tư công và Đầu tư nước ngoài, Hệ quản

lý và tìm kiếm tin bài tuyển dụng việc làm lĩnh vực Công nghệ thông tin Thiết kế thực nghiệm

và xây dựng các Bộ dữ liệu mẫu để so sánh và đánh giá hiệu quả tìm kiếm trong giải pháp đã đề

xuất Kết qua này được công bố trong các công trình [CT1][CT2][CT3], đóng góp ở Chương 5của luận án

Các kết quả thực nghiệm bước đầu cho thấy giải pháp đã đề xuất là khả quan và có khả

năng ứng dụng tốt Giải pháp tìm kiếm khi được triển khai thành sản phẩn ứng dụng, đã đáp

ứng tốt hơn nhu cầu tìm kiếm tài liệu của người dùng Thông qua việc thực nghiệm và đánh giá

với các tiếp cận truyền thống, đề tài góp phần khẳng định được giá trị của việc khai thác thông

tin của ontology miễn và biểu diễn văn bản bằng đồ thị vào việc giải quyết bài toán tìm kiếm Từ

đó, góp thêm động lực cho hướng tiếp cận này trong các đề xuất tương lai Các kết quả nghiêncứu liên quan sẽ là cơ sở và công cụ cho việc xây dựng nhiều hệ thống quản lý tài nguyên khác

nhau như quản lý kho tài nguyên học tập tổng quát cho mọi lĩnh vực, quản lý thư viện tổng hợp,

quản lý văn bản hành chính, văn bản pháp luật và các hệ thống số khác

+ (ĐG.3) Đề xuất một phương pháp mới giải quyết bài toán đo lường độ tương đồng

ngũ nghĩa giữa hai tài liệu Kết quả này được công bố trong các công trình [CT4][CT5],đóng góp ở Chương 6 của luận án

Bên cạnh vấn đề tìm kiếm theo ngữ nghĩa, lợi ích của mô hình biểu diễn tài liệu dựa trên

đồ thị keyphrase còn được minh chứng thông qua bài toán đo lường độ tương đồng ngữ nghĩa

giữa hai tài liệu Phương pháp này tạo ra các biểu diễn có cấu trúc của văn bản bằng cách sử

dụng những cơ sở tri thức có kích thức lớn và rất phổ biến như DBpedia, Wikipedia để thu thập

thông tin chỉ tiết về các khái niệm, thực thể và các mối quan hệ ngữ nghĩa của chúng, do đó dẫn đến cách diễn giải giàu tri thức hơn cho tài liệu.

Bên cạnh các đóng góp về mặt khoa học và ứng dụng, đề tài còn có các đóng góp khác

13

Trang 27

như sau:

+ Cơ sở tri thức của các lĩnh vực Khoa học máy tính, Việc làm lĩnh vực Công nghệ

thông tin, Lao động việc làm - Đầu tư công và Đầu tư nước ngoài

« Các bộ đũ liệu thủ nghiệm tương ứng với 3 hệ thống ứng dung đã được xây dựng,

làm chuẩn mực dé đánh giá hiệu qua tìm kiếm.

1.5 Kết chương

Bài toán tìm kiếm tài liệu là một bài toán được đặt ra từ những ngày đầu của lĩnh vực

truy xuất thông tin Da số các đề xuất giải pháp trong lĩnh vực đều hướng đến giải quyết bài

toán này và mục tiêu của luận án cũng không ngoại lệ Với thách thức đặt ra về việc cải thiện

hiệu quả trong tìm kiếm thông qua cải tiến độ chính xác và độ bao phủ, đề tài nghiên cứu các

phương pháp biểu diễn ngữ nghĩa cho tài liệu cùng với kỹ thuật tính toán độ tương đồng ngữ

nghĩa giữa tài liệu và câu truy vấn Nhận thấy tiêm năng ứng dụng của cách tiếp cận dựa trên

ontology và biểu diễn văn bản bằng đồ thị, đề tài sẽ tập trung phân tích khả năng ứng dụng của

các mô hình, nghiên cứu các phương pháp và kỹ thuật đã có, qua đó tìm cách vận dụng, phối

hợp, cải tiến, phát triển nhằm tăng cường hiệu quả giải quyết các bài toán đã đặt ra Chương 2

( kèm theo Phụ lục 1, 2) sẽ trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề truy xuất

thông tin, vấn đề biểu diễn ngữ nghĩa của tài liệu, các lý thuyết nền tảng về ontology cùng với

các phương pháp, kỹ thuật xây dựng ontology cho lĩnh vực

14

Trang 28

Chương 2 CƠ SỞ LÝ THUYẾT

Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề Biểu diễn tài liệu và

Tìm kiếm tài liệu theo ngữ nghĩa, hệ thống hóa các công trình nghiên cứu trong và ngoài nướcliên quan đến nội dung nghiên cứu của đề tài, tử đó, chỉ ra hướng tiếp cận và phương pháp làmnền tảng cho các đóng góp của luận án ở các chương sau

2.1 Van dé tìm kiếm tài liệu theo ngữ nghĩa và các hương tiếp cận

2.1.1 Khái niệm Tìm kiếm theo ngũ nghĩa

Tìm kiếm theo ngũ nghĩa (semantic search) là một khái niệm được sử dụng rộng rãibởi nhiều cộng đồng nghiên cứu khác nhau Có rất nhiều định nghĩa khác nhau, thậm chí mâu

thuẫn nhau về ngữ nghĩa và tìm kiếm theo ngữ nghĩa Đây từng là đề tài tranh cãi giữa các tác

giả, các nhóm nghiên cứu, thậm chí có nhiều bài báo mà nội dung chính là so sánh và phân tíchcác định nghĩa này Sau đây là một số định nghĩa thường được sử dụng và thừa nhận rộng rãi:

Theo Google và nhiều nhóm nghiên cứu khác [80], “Tìm kiếm theo ngữ nghĩa là tiếp cận

nhằm nổ lực cải thiện hiệu quả của việc tìm kiếm bằng cách cố gắng hiểu được ý định, mong

muốn tìm kiếm của người dùng và ý nghĩa theo ngữ cảnh của các từ hay cụm từ xuất hiện trong

câu truy vấn, để trả về các kết quả có liên quan” Định nghĩa tổng quát trên có thể áp dụng cho nhiều loại ứng dụng tìm kiếm khác nhau từ tìm kiếm trên Web với thông tin nằm rải rác và phân tán hay trong một hệ thống khép kín, giới hạn sự chú ý vào các phạm vi cụ thể Cũng có nhiều tác giả quan niệm rằng “Thuật ngữ Tìm kiếm theo ngữ nghĩa thường được dùng để chi đến những cách tiếp cận có sử dụng nhiều nguồn tài nguyên hay nhiều thông tin khác nhau để

thực hiện tìm kiếm chứ không phải chỉ dựa trên các từ khóa” [63, 90, 107] Các nghiên cứu này

sử dụng các nguồn tài nguyên giàu ngữ nghĩa hơn để giải nghĩa cho các từ hay cụm từ, nhằm hiểu được ý định truy van của người dùng trong một ngữ cảnh cụ thể, thay vì chỉ xét đến các từ khóa hay chỉ sử dụng ý nghĩa từ điển của từng từ (cụm từ) trong câu truy vấn Một định nghĩa

cũng thường được sử dụng “Tìm kiếm theo ngữ nghĩa chỉ đến những cách tiếp cận có sử dụng

ngữ nghĩa hoặc phân tích ngữ nghĩa nhằm nâng cao hiệu quả trong tìm kiếm” [28, 38, 106] Có

nhiều quan niệm về “ngữ nghĩa”, mỗi chuyên ngành hiểu thuật ngữ này theo những cách khác

nhau do sự khác nhau về mục tiêu nghiên cứu và phương tiện sử dụng Người ta cũng định ranhiều cấp độ trong phân tích ngữ nghĩa từ cấp độ nghĩa của từ, cụm từ đến nghĩa của câu hayvăn bản [3, 73, 78, 87, 96]

Nhiều bài viết cho rằng, tìm kiếm theo ngữ nghĩa trở thành một chủ đề gây được sự chú

ý từ loạt công trình nghiên cứu về Web ngữ nghĩa (Semantic Web) Bắt đầu từ bài báo được viết

15

Trang 29

bởi R Guha cùng các đồng nghiệp tại IBM, Stanford, và W3C vào năm 2003 [52], tìm kiếm theongữ nghĩa mới được thừa nhận rộng rãi và thu hút sự quan tâm ngày càng lớn của giới nghiêncứu trong lĩnh vực Web ngữ nghĩa và Truy xuất thông tin Theo R Guha, ngữ nghĩa tường minh

được thêm vào nhằm cải thiện hiệu quả tìm kiếm Động cơ tìm kiếm ngữ nghĩa sẽ nỗ lực làm

giàu và cải thiện kết quả tìm kiếm ban đầu (có được từ những kỹ thuật tìm kiếm truyền thống)

bằng cách bổ sung dữ liệu có liên quan từ Web ngữ nghĩa Bên cạnh đó, với quan điểm rằng, các cụm từ tìm kiếm thường biểu thị cho một (một vài) khái niệm trong thế giới thực, động cơ tìm kiếm sẽ cố gắng hiểu, nắm bắt ngữ nghĩa và quan hệ giữa các khái niệm qua đó có thể hiểu được

ngữ cảnh và ý định tìm kiếm của người dùng Định nghĩa này sau đó được Hai Dong và các đồngnghiệp [55] làm rõ: khác với các công cụ tìm kiếm truyền thống vốn tập trung vào tần suất xuất

hiện của từ, động cơ tìm kiếm ngữ nghĩa cố gắng hiểu nội dung hay ý nghĩa tiền ẩn bên trong các trang web (hay tài liệu nói chung) cũng như câu truy vấn của người dùng, bằng cách thêm các thẻ ngữ nghĩa (semantic tags) vào trong văn bản, qua đó có thể đặc tả các đối tượng có trong tài liệu bằng cách cấu trúc hóa chúng và xác định thông qua các khái niệm liên quan.

Tóm lại, có rất nhiều định nghĩa khác nhau về ngữ nghĩa và tìm kiếm theo ngữ nghĩa,

mỗi định nghĩa thể hiện một cách nhìn khác nhau Một ý niệm mang tính tổng hợp và đúng

theo định hướng nghiên cứu của đề tài như sau: tìm kiếm theo ngũ nghĩa là một hình thứctìm kiếm ma sử dung “ngii nghĩa tường minh” dé giải quyết các nhiệm vụ cốt lõi trongtìm kiếm, nghĩa là sử dụng ngũ nghĩa dé giải nghĩa cho câu truy vấn và tài liệu, so khớpcâu truy vấn với tài liệu, đánh giá mức độ liên quan và xếp hạng kết quả trả về

2.1.2 Phân loại các cách tiếp cận tìm kiếm theo ngii nghĩa

Đã có nhiều nghiên cứu so sánh và phân loại các cách tiếp cận tìm kiếm theo ngữ nghĩa(chủ yếu trong bối cảnh của Semantic Web) như bài báo của Christoph Mangold [28], ThanhTran [106, 105], E Makela [38], W Wei [107], Junaid Rashid [63], HaiDong [55] Nhìn chung, cácnghiên cứu về tìm kiếm theo ngữ nghĩa chủ yếu tập trung cải thiện hiệu quả tìm kiếm theo cáchướng chính như sau:

- Kết hợp giữa phương pháp tìm kiếm theo từ khóa truyền thống với các kỹ thuật xử lý ngữ

nghĩa, đặc biệt là các kỹ thuật dựa trên ontology

Ví dụ như những nghiên cứu mở rộng câu truy vẫn (query expansion) bằng cách khai

thác quan hệ từ vựng, nghĩa của từ trong các ontology như WordNet ! chẳng hạn, để bổ sungmột số từ (cụm từ) gần nghĩa vào truy vấn của người dùng, tạo ra các truy vấn mới tương đồng

ngữ nghĩa, để từ đó giúp hệ thống có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn Một số nhóm khác đã tập trung phát triển ontology để phục vụ nhu cầu mở rộng truy vấn, trong đó có những định hướng đặc biệt về cấu trúc ontology cần xây dựng hoặc phát triển

một mô hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet cùng một

số quan hệ được định nghĩa thêm như chú giải (gloss), chủ đề (topic) và miền (domain).

Thttps://wordnet.princeton.edu/

16

Trang 30

- Nghiên cứu các mô hình biểu diễn ngữ nghĩa hay nội dung của dữ liệu (tài liệu) dựa trên

khái niệm, cách thức xây dựng và so khớp các cấu trúc khái niệm, cách lập chỉ mục kháiniệm cho tài liệu, hoặc là những nghiên cứu hướng vào việc thêm các chú thích ngữ nghĩa

vào trong dit liệu (tài liệu) dựa trên những giả định về khái niệm, thực thể và quan hệ giữa các đối tượng này.

+ Nghiên cứu việc sử dụng các kỹ thuật khác để hỗ trợ quá trình tìm kiếm như xử lý ngôn

ngữ tự nhiên, xử lý mờ (Fuzzy Concepts, Fuzzy Relations, Fuzzy Logics), khử nhập nhang,

phân lớp (clasification), hay các kỹ thuật xếp hạng kết quả tìm kiếm (ranking)

» Nghiên cứu xử lý những câu truy vấn phức tap và giải quyết các bài toán con trong tìm

kiếm

Theo các tác giả [28, 106], các giải pháp tìm kiếm theo ngữ nghĩa có thể khác nhau về:

Khia cạnh của dữ liệu (loại dữ liệu được quan tâm trong nghiên cứu là semantic data, semantic

metadata hay raw data); Nhu cầu thông tin của người dùng; Mô hình biểu diễn tài liệu và câu

truy vấn; Phương pháp tìm kiếm thông tin, tài liệu; Mô hình ngữ nghĩa và nguồn tài nguyênngữ nghĩa được sử dụng; Cấu trúc và cách thức xây dựng ontology, công nghệ ontology; và cuối

cùng, cách giải quyết các bài toán con trong tìm kiếm bao gồm biểu diễn và xử lý nội dung (ngữ

nghĩa) câu truy vấn và tài liệu, bài toán so khớp và xếp hạng, bài toán rút trích các đơn vị thông

tin như từ khóa (keyword), cụm từ khóa (keyphrase), khái niệm (concept), thực thể (entity) và mối quan hệ (relationship) từ tài liệu.

2.1.3 Tiếp cận công nghệ tri thức với ontology và semantic data

Trong khoảng thời gian 10 năm gần đây, nhiều chuyên gia cho rằng những cách tiếp cận

cho vấn đề tìm kiếm tài liệu theo hướng khái niệm dựa trên việc khai thác các thông tin khái

niệm (conceptual information) có sẵn dưới dạng các ontology và siêu đữ liệu ngữ nghĩa (semantic

metadata) là vượt trội hơn hẳn so với các mô hình truyền thống [30, 31, 37, 43, 58, 70, 88] Khi

đó, khả năng biểu diễn ngữ nghĩa được tăng cường bằng một phương pháp được gọi là chú thích

ngữ nghĩa (semantic annotation) cho tài liệu thô và dẫn đến nhiều bài toán con đi kèm như nhận

diện thực thể có tên hay bài toán trích xuất quan hệ Chú thích ngữ nghĩa tức là thêm phần ngữ nghĩa cho các tài liệu (trang Web chẳng hạn) dựa trên việc khai thác các khái niệm, quan hệ

trong ontology cùng với các thông tin lấy được từ tài liệu

Một trong những lý do mang đến sự thành công cho phương pháp tiếp cận này liên quan

đến các giải pháp nhằm khắc phục hạn chế của việc rút trích khái niệm dựa trên các kỹ thuật xử

lý ngôn ngữ tự nhiên truyền thống, cụ thể là: Thứ nhất, các chú thích ngữ nghĩa thường được

thực hiện bằng tay, hay bán tự động do đó nó là đáng tin cậy và chính xác hơn [31] Điều này

có nghĩa rằng các hệ thống tìm kiếm tài liệu không bị ảnh hưởng nhiều bởi các lỗi của rút trích

tự động Thứ hai, các thông tin được chú thích theo một miền ứng dụng nhất định, và như vậy

sẽ thích hợp để mô tả đặc trưng của văn bản theo nhu cầu của người dùng [37, 70] Khi người

sử dụng có thể xây dựng các truy vấn với những khái niệm có liên quan thì việc truy tìm các tài

17

Trang 31

liệu sẽ hiệu quả hơn Một trong những kết quả thú vị nhất là tính chính xác của các thông tin

đánh dấu làm cho nó có thể được áp dụng để thực hiện cơ chế suy diễn, từ đó cho phép người

dùng truy tìm thông tin bằng cách đặc tả câu truy van với các mức độ trừu tượng (về khái niệm)

cao.

Một trong những vấn đề được cộng đồng nghiên cứu quan tâm khi giải quyết bài toán

tìm kiếm tài liệu đó chính là vấn đề nhập nhằng của ngôn ngữ tự nhiên [73, 78, 87, 96] Cụ thể, hiện tượng từ đồng nghĩa và từ nhiều nghĩa trong ngôn ngữ là hai yếu tố chính làm giảm hiệu quả của các hướng tiếp cận truyền thống Việc khai thác các thông tin về thực thể trong các cơ

sở tri thức tổng quát như DBpediaZ, Freebase? và các đề cập thực thể trong các câu khác nhau

của tài liệu để giảm sự nhập nhằng là một hướng giải quyết được nhiều nhà nghiên cứu quan

tâm cũng như hứa hẹn sẽ mang lại hiệu quả tốt hơn so với việc so khớp, xếp hạng tài liệu dựatrên từ vựng [22, 57] Trong một khảo sát được thực hiện bởi Lin và các đồng sự [20], trên 200

truy vấn được thu thập từ nhật ký truy vấn của máy tìm kiếm Bing năm 2012 thì có đến 43% các truy vấn có chứa thực thể Trong một khảo sát khác của Gou [60], có hơn 71% các truy van có chứa các thực thể có tên Điều này cho thấy rằng, một phần không nhỏ các truy vấn được cấu thành từ thực thể Từ đó, nhiều nghiên cứu đã tận dụng sự có mặt của các thực thể có trong truy

vấn (và cả trong tài liệu) để hỗ trợ cho việc giải quyết bài toán tìm kiếm tài liệu một cách hiệu

quả hơn Một vấn đề phát sinh là làm sao để liên kết các thực thể xuất hiện trong tài liệu, trong

câu truy vấn đến một cơ sở tri thức dùng chung, hay nói cách khác, làm sao biểu diễn tài liệu và truy vấn, vốn chỉ bao gồm một chuỗi các từ, thành một hình thức biểu diễn có xem xét đến các

thực thể trên cơ sở tri thức? Vấn đề này được các nhà nghiên cứu chỉ ra và tập trung giải quyết với tên gọi Liên kết thực thể (Entity linking) và những giải pháp được đề xuất đã có nhiều kết

qua đáng chú ý Trong đó, sự ra đời của các công cụ chú thích thực thể như TagMe†, DBpedia

Spotlight? là một trong những sản phẩm của những nổ lực giải quyết bài toán này Các công cụ

được cung cấp miễn phí và hoạt động ổn định với độ chính xác cao Điều này đã phần nào cho

thấy nhận định có thể kết nối thực thể từ tài liệu, truy vấn lên cơ sở tri thức một cách hiệu quả

là có cơ sở

Dựa vào các nhận định trên mà ta nhận thấy rằng việc khai thác thông tin về các thực thể có trong tài liệu và truy vấn là khả dĩ và có thể mang lại lợi ích trong việc giải quyết vấn

đề tìm kiếm Khi so sánh với các hướng tiếp cận truyền thống, cụ thể là các đề xuất tìm kiếm

được thực hiện dựa trên sự xuất hiện của các từ vựng (được thể hiện dưới hình thức biểu diễn

thông dung là bag-of-words), ta thấy rằng việc đưa vào thông tin các thực thể có những lợi ich sau: 1) Các thực thể là các đơn vị thể hiện ngữ nghĩa ít nhập nhằng hơn nhiều so với từ vựng.

Ví dụ, “white house” xuất hiện trong một tài liệu có nhiều cách diễn giải, đó có thể là một từ

vựng chỉ đến một ngôi nhà được sơn màu trắng hoặc một tên riêng chỉ đến một thực thể nào đó Trong khi đó, nếu “white house” được xác định là một thực thé chỉ đến Nhà Trắng của Mi (điều này được hiện thực bằng việc dựa trên một cơ sở tri thức) thì rõ ràng sự nhập nhằng được giải

Trang 32

quyết Và từ đó, độ chính xác khi so khớp giữa tài liệu và truy vấn được cải thiện; 2) Các thực

thể có mối quan hệ tường minh và đa dạng Khi được liên kết lên các cơ sở tri thức, thông tin

về quan hệ của các thực thể được xác định Các quan hệ này rất đa dạng và có thể cung cấp các

dẫn chứng cho sự liên quan giữa truy vấn và tài liệu trong bài toán tìm kiếm tài liệu Đây là một

đặc trưng mà các hình thức biểu diễn bằng từ vựng không có được Các từ vựng có thể có quan

hệ với nhau khi được liên kết đến một từ điển các từ vựng (chẳng hạn, WordNet), tuy thế sự đa dạng của các quan hệ trong từ điển WordNet khá hạn chế khi so sánh với các cơ sở tri thức như

DBPedia hay FreeBase

Qua các phân tích trên ta thấy được việc xem thực thể là trung tâm trong việc biểu diễn

truy vấn và tài liệu hứa hẹn mang lại nhiều lợi ích cho việc giải quyết bài toán tìm kiếm tài liệu

Tuy có những lợi điểm, việc tận dụng các thực thể dựa vào sự liên kết của chúng lên các cơ sở tri

thức để hỗ trợ cho việc giải quyết bài toán tìm kiếm cũng có những hạn chế Một trong những

hạn chế đó là:

‹ Thứ nhất, không phải lúc nào truy vấn cũng có mang thông tin thực thể Trường hợp

người dùng muốn tìm kiếm một chuỗi các từ bất kì có chứa trong tài liệu nhưng mà các

từ này không nhắm đến một thực thể nào Trong trường hợp này, việc chỉ biểu diễn truy

vấn dưới dạng thực thể là không hợp lý.

« Thứ hai, một cơ sở tri thức tổng quát không phải lúc nào cũng có chứa thông tin về mọi

thực thể Độ bao phủ của cơ sở tri thức tổng quát luôn không hoàn hảo và có những trường hợp không thể liên kết được một thực thể cho truy vấn mặc dù thực sự truy vấn có đề cập đến thực thể.

‹« Thú ba, các phương pháp tận dung cơ sở tri thức DBPedia để nắm bắt các thông tin về

thực thể có trong tài liệu, kết hợp với phân tích các quan hệ của các đối tượng được đề cập

trong tài liệu để rồi đưa ra một giải pháp biểu diễn tài liệu phục vụ cho việc so khớp xếp

hạng, khó đạt được hiệu quả truy hồi cao khi đặt vào ngữ cảnh tìm kiếm trên một kho tài

liệu thuộc về một miền tri thức nhất định nào đó Lí do cơ bản là các cơ sở tri thức tổng quát chưa tập trung mô tả các khái niệm và thực thể đặc biệt theo miền (lĩnh vực) cũng

như các mối quan hệ giữa chúng, chiều sâu biểu diễn vẫn chưa cao.

¢ Thứ tư, nếu như các cơ sở tri thức là nguồn tài nguyên để thể hiện ngữ nghĩa giữa các khái

niệm, thực thể trong tài liệu thông qua các mối quan hệ tường minh, có sự thống nhất cao

và thuộc về tri thức của con người thì những đặc trưng khác thuộc về bên trong tài liệu lại

quan trọng không kém, đặc biệt là trong việc giải quyết vấn đề tìm kiếm Chính sự khác

biệt về mặt nội dung từ bên trong các tài liệu sẽ là đặc điểm để phân biệt các tài liệu với

nhau Vì vậy mà có thể giúp các tài liệu thể hiện các mức độ liên quan khác nhau trên mỗi

truy vấn đầu vào

Hạn chế về mức độ bao phủ của cơ sở tri thức được thể hiện rõ ràng nhất khi ta so sánh

số lượng các khái niệm, thực thể có thể có trong các tài liệu được viết bằng ngôn ngữ tự nhiên với số lượng các khái niệm, thực thể trong một cơ sở tri thức tổng quát Trong tài liệu viết bằng ngôn ngữ tự nhiên tồn tại rất nhiều khái niệm thể hiện dưới dạng các danh ngữ phức hợp (tạm

19

Trang 33

dịch từ thuật ngữ nominal compound trong tiếng Anh), các danh ngữ này được ghép lại từ các

danh từ chỉ đến những khái niệm thành phần Danh ngữ phức hợp là một chuỗi gồm hai danh

từ trở lên mà cùng với nhau chúng đóng vai trò như một danh từ riêng lẽ Một ví dụ là cụm từ

“computer system performance evaluation” là một danh ngữ phức hợp và chỉ về một khái niệm duy nhất, cụm từ này có thể xuất hiện liên tục trong một tài liệu thuộc về chủ đề Công nghệ thông tin như một khái niệm riêng biệt và rõ ràng rằng, không thể nào một cơ sở tri thức có thể bao quát được tất cả các khái niệm thể hiện dưới dạng định danh phức hợp như thế này Vì thế,

nếu một tài liệu đơn thuần chỉ được biểu diễn dưới dạng các thực thể được liên kết đến cơ sở

tri thức tổng quát (chẳng hạn như DBPedia) thì sẽ có rất nhiều khái niệm dưới dạng các danh ngữ phức hợp bị bỏ qua, chang hạn với cụm từ computer system performance evaluation, đôi khi chỉ có computer system được liên kết cơ sở tri thức như là một thực thể riêng biệt và cụm từ

performance evaluation bị bỏ qua trong việc biểu diễn vì không có một khái niệm performance

evaluation tưởng ứng trên cơ sở tri thức

Một trong những giải pháp được áp dụng để hạn chế các khó khăn vừa đề cập ở trên là

dựa vào các kĩ thuật xử lý ngôn ngữ tự nhiên (NLP) Stanford CoreNLP 5 là một bộ công cu phân

tích, xử lý ngôn ngữ tự nhiên cho tài liệu rất phổ biến hiện nay Với sự hé trợ của công cụ này, việc trích xuất các khái niệm dưới dạng các định danh phức hợp sẽ trở nên dễ dàng hơn và từ đó

bổ khuyết được cho sự không hoàn chỉnh của các cơ sở tri thức dùng chung Một trong những

khác biệt rõ ràng nhất giữa các khái niệm được trích xuất từ công cụ NLP ( thí dụ, StanfordCoreNLP ) dưới dạng các định danh phức hợp và các khái niệm được liên kết đến cơ sở tri thức

đó chính là sự nhập nhằng của các định danh phức hợp Vì không được liên kết đến một cơ sở tri thức để xác định tính duy nhất của một thực thể, nên không có sự đồng thuận nào cho sự có mặt của các định danh này trong các tài liệu khác nhau (chúng có thể xuất hiện dưới cùng hình

thức từ vựng nhưng không đảm bảo có cùng ý nghĩa) Hơn nữa, như giữa các định danh phứchợp này không có được các mối quan hệ tường minh và trực tiếp như trong trường hợp của các

thực thể của cơ sở tri thức Qua đó ta thấy rằng, việc khai thác các định danh phức hợp vừa có

ích cũng đồng thời đem đến những khó khăn

2.2 Van đề biêu diễn tri thúc và các mô hình ngữ nghĩa

Phần lớn các nghiên cứu hiện nay về tìm kiếm tài liệu theo ngữ nghĩa tập trung vào khai

thác nghĩa từ vựng Khi đó, ta hiểu ngữ nghĩa là nghĩa của từ - là nội dung (sự vật, sự việc, tính chất, hoạt động, quan hệ ) mà từ biểu thị Các từ khi kết hợp với nhau thì đang thể hiện một

ý nghĩa gì đó Có thể giải thích nghĩa của từ bằng những cách chính như: trình bày khái niệm

mà từ biểu thị hoặc đưa ra những từ đồng nghĩa hoặc trái nghĩa với từ cần giải thích Tuy có thể hiểu như thế, nhưng để áp dụng ngữ nghĩa vào việc giải quyết các bài toán cụ thể, đặc biệt là

các bài toán thực hiện trên máy tính thì việc hình thức hóa hay mô hình hóa ngữ nghĩa là điềurất cần thiết

Nhiều đề xuất dựa trên giả thiết là: có các ngữ nghĩa tiềm ẩn trong việc sử dụng từ, ngữ

Shttps://stanfordnlp.github.io/CoreNLP/

20

Trang 34

nghĩa của các từ (semantics of words) được xem như là những khái niệm tiềm ẩn (latent concepts)

hoặc các chủ đề tiềm ẩn (latent topics) được biểu diễn bởi từ đó [99, 34] Bên cạnh đó cũng có

những mô hình tường minh nắm bắt ngữ nghĩa ở mức độ khái niệm hoặc thực thể Khi đó, nội dung của tài liệu và câu truy vấn có thể được mô tả bởi một tập các khái niệm hay một cấu trúc

khái niệm [30, 58, 43, 31] Việc tìm kiếm sẽ dựa trên không gian các khái niệm và các mối quan

hệ ngữ nghĩa giữa chúng Để giải nghĩa cho các từ hay cụm từ và hiểu được nội dung của tài liệu, hệ thống cần sử dụng đến các nguồn tri thức nào đó Các nguồn tri thức có thể tổng quát hoặc cụ thể theo từng lĩnh vực, có thể được tạo thủ công, bán tự động hoặc tự động, chúng có

thể khác nhau ở các dạng biểu diễn hoặc ở cách xây dựng mối liên hệ giữa các khái niệm Ngoài

việc cung cấp hệ thống các khái niệm, các nguồn tri thức còn kết nối các khái niệm bởi một tập

các quan hệ Điều này tạo nên một mạng lưới các khái niệm giúp chúng ta có thể xác định các

khoảng cách ngữ nghĩa giữa chúng với nhau

Một số mô hình ngữ nghĩa tường minh được sử dụng trong các hệ thống tìm kiếm dựa

trên khái niệm có thể kể đến như: từ điển đồng nghĩa, cây phân cấp khái niệm, lược đồ đữ liệu, các ontology tổng quát hay ontology miền Đứng trên quan điểm của ngành Trí tuệ nhân tạo, một ontology nói chung là sự mô tả về những khái niệm và quan hệ của các khái niệm đó nhằm mục đích thể hiện một góc nhìn về thế giới Ontology thường bao gồm các thành phần chính

như: khái niệm, quan hệ và luật có thể hỗ trợ tính toán và suy diễn hình thức Nhiều nghiên cứu

có đề cập đến các thành phần Tbox và Abox của một ontology [37, 70, 88] Tbox là một phần của

ontology mô tả các khái niệm (tương ứng với lớp thực thể) và các quan hệ giữa các lớp (chủ yếu

là quan hệ phân cấp), trong khi Abox đặc tả thông tin chi tiết của các thực thể bao gồm thuộc tính của thực thể và quan hệ giữa các thực thể Tbox biểu thị các khái niệm ở mức trừu tượng cao hơn và thường không thay đổi hay ảnh hưởng bởi dữ liệu cụ thể, trong đó Abox do thể hiện các thực thể cụ thể nên có tính biến động theo thời gian, dữ liệu và ở mức độ mô tả chỉ tiết hơn.

Hệ thống hỏi-đáp ORAKEL sử dụng Tbox của một ontology, trong đó, chính các mối quan hệphân cấp của các lớp (khái niệm) trong Tbox cho ta các thông tin ngữ nghĩa

Một mô hình ngữ nghĩa cũng được dùng trong nhiều nghiên cứu là mô hình của các

Bộ phân tích ngữ nghĩa tường minh (Explicit Semantic Analysis) [39] sử dụng bài viết trên

Wikipedia, danh mục categories và mối liên hệ giữa các bài viết để nắm bắt ngữ nghĩa liên quan tới khái niệm Wikipedia cũng có thể được xem là một kho đữ liệu có ngữ nghĩa mà nếu mô hình

hóa Wikipedia thành mô hình ngữ nghĩa thì mỗi trang đơn lẻ của Wikipedia là một thực thé,

đường dẫn (link) trong mỗi trang đến các trang khác thể hiện một mối quan hệ Một mô hình

ngữ nghĩa khác là Đồ thị khái niệm (Conceptual Graph)[69] Đồ thị khái niệm là một mô hình

có sự kết hợp giữa tính trực quan cao của cấu trúc đồ thị và tính hình thức chặt chẽ của nền tảng

toán học logic Một thể hiện khác của mô hình ngữ nghĩa là mô hình được sử dụng trong hệ thống C-Search [44], trong đó ngữ nghĩa được thể hiện qua các khái niệm dưới dạng biểu thức

logic mô tả (description logic) Mô hình này cho phép biểu diễn các khái niệm phức hợp hơn từ

những khái niệm nguyên thủy thông qua các phép toán cụ thể, chẳng hạn như phép hội hoặc phép tuyển trong Logic mô tả và đặc biệt là không mô hình hóa ngữ nghĩa dưới dạng các quan

hệ

21

Trang 35

Nhìn chung, có thể phân loại các mô hình ngữ nghĩa theo hai nhóm: mô hình từ vựng (lexical model) và mô hình tri thức (knowledge model) Điểm khác biệt rõ ràng nhất giữa hai

nhóm mô hình này là ở chỗ: các mô hình từ vựng thể hiện ngữ nghĩa ở mức độ từ ngữ thông qua

quan hệ giữa các từ, một mức độ thấp hơn nhiều so với mức độ khái niệm và thực thể ngoài đời

thực như các mô hình tri thức Phần lớn các mô hình tri thức được xây dựng trên ba thành phần

cơ bản: lớp (khái niệm) của các thực thể, mối quan hệ giữa các lớp (hay các thực thể) và thuộc tính của các thực thể Sự khác nhau chủ yếu giữa các mô hình này là về mức độ hình thức (định

nghĩa hình thức toán học hay tính trực quan/ trực giác) hoặc về cấu trúc thông tin chỉ tiết của

từng thành phần Sở dĩ cần phải phân nhóm các mô hình vì tính không đồng nhất của chúng: các khái niệm của mô hình từ vựng, do ở dạng từ ngữ nên có thể thể chỉ đến lớp, quan hệ, thuộc

tính Hơn nữa, trong mô hình từ vựng, nghĩa của từ và quan hệ nghĩa ở mức độ từ rất tườngminh - một điêu mà các mô hình tri thức không có được

Từ điển đồng nghĩa chính là một ví dụ của mô hình từ vựng Một trong những nguồn tài nguyên từ vựng được sử dụng phổ biến hiện nay là WordNet( được phát triển bởi Miller từ năm

1995) WordNet là một từ điển điện tử miễn phí, là một kho từ vựng đồ sộ chứa một số lượng

lớn các danh từ, động từ, tính từ và trạng từ tiếng Anh Trong WordNet, các khái niệm tương

ứng với các lớp nghĩa của từ (senses of words) Một khái niệm trong WordNet được biểu diễn bởi

một tập từ đồng nghĩa (synset) Mỗi synset có đi kèm định nghĩa bằng ngôn ngữ tự nhiên, các mẫu câu ví dụ với ngữ cảnh sử dụng cụ thể Nguyên lí tổ chức chung của Wordnet là mạng lưới

quan hệ ngữ nghĩa giữa những synset Đó là quan hệ đồng nghĩa (synonymy), quan hệ trái nghĩa

(antonymy), quan hệ thượng hạ vị (hyponymy), quan hệ chỉnh thể - bộ phận (meronymy), quan

hệ kéo theo (entailment) Như vậy, ngoài việc cung cấp các nhóm từ đồng nghĩa để biểu diễn

khái niệm, WordNet kết nối các khái niệm bởi một tập các quan hệ Nhìn chung, WordNet được

xem là một cơ sở đữ liệu về từ, bộ dữ liệu ngữ nghĩa ở mức từ vựng, thể hiện quan hệ về nghĩa

giữa các từ với nhau Tuy nhiên, số lượng từ của WordNet còn hạn chế, dữ liệu WordNet khôngđược cập nhật thường xuyên và thiếu chiều sâu khi mô tả tri thức miền (thiếu rất nhiều thuật

ngữ mới đặc biệt theo miền) Từ đó, dẫn đến việc các kỹ thuật dựa trên việc khai thác WordNet

không thể đo được độ tương đồng ngữ nghĩa của môt số cặp từ Dữ liệu WordNet không được cập nhật thường xuyên, do đó kết quả đo được là “tĩnh” so với tính “động” của ngôn ngữ (sự thay

đổi ngữ nghĩa của ngôn ngữ theo thời gian) Ví dụ, khi tìm kiếm với thuật ngữ programming language thì kết quả trả về tử WordNet rat ít thông tin, thậm chí khi tim với thuật ngữ domain

ontology thì không có du liệu trong bộ tử vựng này (Hình 2.1)

Một câu hỏi đặt ra là có những mô hình ngữ nghĩa với các thành phần khác ngoài những

thành phần chính đã kể hay không? Thực tế là có tồn tại những mô hình ngữ nghĩa như thế từ

rất lâu trong lĩnh vực truy hồi thông tin, có thể kể đến các chuẩn hình thức biểu diễn tri thức

rất mạnh mẽ được kết hợp lại với nhau để giải quyết các bài toán hệ hỏi-đáp hay truy hồi thông tin và những chuẩn hình thức khác mô hình hóa được cả thông tin về thời gian và các khía cạnh

mờ (fuzzy) của tri thức đời thực Tuy thế, các giải pháp hiện tại vẫn chỉ gắn mô hình ngữ nghĩa

với những thành phần chính: lớp (khái niệm), quan hệ, thực thể Nguyên nhân là do, phần lớn những truy vấn mà tìm kiếm theo ngữ nghĩa đang hướng đến để giải quyết cũng chỉ liên quan

22

Trang 36

WordNet Search - 3.1

7 My rS Word to search for: | programming language [ Search WordNet

WordNe3 ,„

\ i English

ionary and Thesaurus

Lexical database of the Englsh language language designed for programming computers)

containing about 150,000 words organized

in over 115,000 synsets for a total of

ord-sense pairs.

Word to search for: | domain ontology | Search WordNet

Your search did not return any results.

Hình 2.1 WordNet - Một cơ sở dữ liệu về từ

đến càc thành phần chính đã kể trên mà thôi Một nguyên nhân khác là do “nút thắt cổ chai” đến

từ việc thiếu dữ liệu cho việc phân tích và xây dựng những mô hình phức tạp hơn Lấy một ví

dụ, biểu diễn lại nội dung một tài liệu dưới dạng một biểu thức logic phức tạp bao gồm các phép

toán và toán hạng là điều không thể Một nguyên nhân khác liên quan đến nguồn tài nguyên

ngữ nghĩa được sử dụng trong các giải pháp tìm kiếm, đại đa số các dữ liệu ngữ nghĩa hiện nay

cũng chi đang loanh quanh với thực thể và các quan hệ, nói cách khác đều là đữ liệu mô tả các đối tượng ngoài đời thực (thực thể) và quan hệ giữa các đối tượng này (relation) Thuật ngữ “dữ liệu ngữ nghĩa” (semantic data) về cơ bản được dùng để chỉ đến các tài liệu hay các datasets được

phát hành, công bố ở dang RDF (dữ liệu là thông tin ma ta muốn tìm kiếm trên đó) hoặc các

thông tin về thực thể trong một ontology dưới dạng ngôn ngữ của Semantic Web như OWL (ở

đây dữ liệu là thông tin tri thức góp phần vào việc cải thiện hiệu quả của hệ thống tìm kiếm)

Nhiều nghiên cứu về tìm kiếm theo ngữ nghĩa hiện nay tập trung cải thiện hiệu quả tìmkiếm theo hướng khai thác những nguồn tri thức cực kỳ đồ sộ như UMLS (Unified Medical Lan-

guage System)’, Sensus®, Wikipedia’, KIM (Knowledge-based Information Mining)!°, YAGO!!,

DBpedia!” Day được xem là những ontology đa lĩnh vực (tổng quát) có thé cung cấp thông tin

về cấu trúc nội tại của các khái niệm và thực thể (thuộc nhóm mô hình tri thức) Ví dụ như,

mô hình tri thức của Wikipedia sử dụng các bài viết (articles), chuyên mục (categories) và quan

hệ giữa các bài viết để nắm bắt thông tin ngữ nghĩa xét về mặt khái niệm Mỗi khái niệm trên

Wikipedia được cho tương ứng với một bài viết có tiêu đề trùng với tên của khái niệm Các bàiviết được phân loại theo một hệ thống phân cấp của các chuyên mục Mối quan hệ giữa cáckhái niệm chính là những liên kết được tìm thấy trong các bài viết của Wikipedia Tương tựnhư Wikipedia, DBpedia ontology [23] là một ontology đa miền, nông (shallow cross-domain

ontology), được phát triển thành công từ một nỗ lực rất lớn của cộng đồng thông qua các dự

án dự án crowd-sourcing Hiện tại thành phần TBox của ontology này có 768 lớp, được tổ chức

trong một hệ thống phân cấp giữa các lớp, các lớp được định nghĩa bởi 3000 thuộc tính riêng

biệt Tập dữ liệu ABox của DBpedia mô tả 6 triệu thực thể được phân loại chủ yếu trong các lớp

Trang 37

như người, địa điểm, cơ quan, album nhạc, phim, trò chơi điện tử, tổ chức, loài, bệnh tật (Hình

2.2) Mô hình tri thức của KIM, YAGO cũng có cấu trúc tương tự như DBPedia Có một sự thật

cho thấy rằng, ngay cả khi có sự trợ giúp của những nguồn tri thức đa lĩnh vực và uy tín này, bài

toán tìm kiếm adhoc trên thực tế vẫn là một thách thức lớn do vấn đề nhập nhằng trong ngôn

ngữ Các ontology này thường có kích thước rất lớn và đôi khi cần thêm các kỹ thuật xử lý nhập

nhằng để có thể sử dụng trong biểu diễn tài liệu và tìm kiếm.

Class Instances 1 Schema: < DBpedia

Resource (overall) 4,828,418 DBpedia Ontology T-BOX Place 967,491 2 Instance Data:

= khhodiiai DBpedia Ontology A-Box RDF

Work 552,115

Species 190,369 Organisation 317,867

Other 1,207,664

https://www.dbpedia.org/resources/ontology/

Hình 2.2 DBPedia - Một cơ sở tri thức da lĩnh vực đồ sộ

Mục tiêu nghiên cứu được đặt ra trong đề tài là tập trung vào bài toán tìm kiếm trong

một miền tri thức nhất định Sự tập trung này đòi hỏi sử dụng đến các ontology miễn như là

một cơ sở ngữ nghĩa nhằm giảm thiểu sự tối nghĩa, sự nhập nhằng về nghĩa, qua đó giúp máy tính có thể hiểu chính xác hơn các tài liệu và câu truy vấn cần tìm kiếm Đã có những ontology

miễn rất nổi tiếng và uy tín, được sử dụng trong nhiều nghiên cứu khác nhau như: ontology MeSH (Medical Subject Headings)! và SNOMED (Systematized Nomenclature of Medicine)!4

trong miền y khoa, PhySH (Physics Subject Headings)!° miền vat ly, JEL (Journal of Economic

Literature)!° trong miền kinh tế , AGROVOC!” và AgriOnt!® trong miền nông nghiệp, CSO (Computer Science Ontology)!? trong miền Khoa học máy tính và MSC (Mathematics Subject Classification)° trong miền toán học (Hình 2.3) Tuy nhiên, hầu hết các ontology như vừa kể trên

đều không được xây dựng để hướng đến bài toán Truy xuất tài liệu (Adhoc document retrieval) Khi khảo sát kỹ các ontology, chúng ta sẽ thấy sự khác nhau rõ rệt giữa chúng, ngay cả khi

chúng đã được xây dựng cho những mục dich rất tương tự Các ontology mô tả tri thức ở các

mức độ chỉ tiết khác nhau và không có một khuôn dạng chung để biểu diễn thông tin liên quan

giữa các ontology, dẫn tới khó có thể sử dụng lại ontology đã có trong một ứng dụng tìm kiếm

mới mà đề tài đang hướng tới Một trong số những ontology miền đang được chú ý hiện nay là CSO [15] Mô hình tri thức của CSO chỉ bao gồm hai thành phần chính: một tập hợp các tên chủ

đề (topic name) được quan tâm trong lĩnh vực, cùng với một tập hợp các mối quan hệ phân cấp giữa các chủ dé theo nghĩa “chủ dé rộng - chủ dé hẹp hơn”, như Hình 2.4 Cấu trúc thông tin chi

Trang 38

Hình 2.3 Một số ontology miễn nổi tiếng hiện nay

tiết của mỗi chủ dé chưa được mô hình này quan tâm, các chủ dé không có cấu trúc, không có

nội dung, chỉ có tên gọi (name, label) làm định danh dé phân biệt các chủ dé với nhau Ontology này được xây dựng bán thủ công bang cách dùng thuật toán Klink-2 dé rút trích tự động các chủ

dé và quan hệ trong một kho tài liệu và sau đó được chọn lọc lại bởi các chuyên gia.

JEEmsinr Science agi

computer imaging and vision (61875).

CO intetigent tutoring system (22)

computer science (19, 10020] O data mining (28.303).

human computer interaction [14,584] @

Hình 2.4 CSO - một ontology miễn về lĩnh vực Khoa hoc máy tính

Tử những phân tích nêu trên, trong nghiên cứu này, đề tài cố gắng đề xuất một mô hình tri thức mới có thể được ứng dụng hiệu quả hơn trong các tác vụ tìm kiếm theo ngữ nghĩa.

Chương3 sẽ trình bày một mô hình biểu diễn tri thức miền gọi là CK-ONTO cùng những phân

tích và lưu ý cần thiết khi xây dựng cơ sở tri thức theo mô hình CK-ONTO này

2.3 Van đề biêu diễn tài liệu văn ban

Mô hình biểu diễn văn bản truyền thống như mô hình túi từ (Bag of words), mô hình

không gian vector (Vector Space Model) là các mô hình đơn giản và được sử dụng phổ biến nhất

trong phần lớn các bài toán xử lý dữ liệu văn bản Tuy nhiên, những mô hình truyền thống này

lại tồn tại trong nó những hạn chế lớn mà chủ yếu là do sự yếu kém trong vấn đề biểu diễn thông tin Nội dung của tài liệu hay thông tin truy vấn được biểu diễn thành vector của các từ

đơn hay cụm từ, gọi chung là thuật ngữ (term), trong không gian n chiều Tất cả các thuật ngữ

xuất hiện trong toàn bộ tập văn bản tạo thành một không gian với mỗi chiều của không gian

tương ứng mới một thuật ngữ Hạn chế của mô hình là số chiều không gian rất lớn (phụ thuộcvào số lượng thuật ngữ trong tập văn bản) và phải giả thiết các từ độc lập với nhau

Cùng với sự xuất hiện của các kiến trúc Deep Learning, việc biểu diễn và tính toán trên

văn bản cũng được xử lý ở mức cao hơn Khi đưa vào mô hình tính toán deep learning, ví dụnhư Word2vec [101] hay RoBERTa[109] và MPNet[65], văn bản được xử lý qua một tầng nhúngtrong đó các từ sẽ được ánh xạ thành các vector tương ứng, khi đó các thông tin ngữ nghĩa (dựa

trên thống kê) của các từ sẽ được nhúng vào các vector Bằng cách tính trung bình cộng của các

25

Trang 39

vector từ (biểu diễn cho các từ xuất hiện trong tài liệu) có thể cho ta một phép biểu diễn tài liệu

theo vector Trong các mô hình chủ đề như Probabilistic Latent Semantic Indexing [99], Latent

Dirichlet Allocation [34], tài liệu cũng được biểu diễn như là một vector của các chủ đề tiềm ẩn

(vectors of latent topics) Một chủ đề tiềm ẩn là một phân phối xác suất trên các thuật ngữ hoặc

một nhóm các thuật ngữ có trọng số Các mô hình chủ đề không xem xét cấu trúc thông tin của

các chủ đề (topic), mối quan hệ giữa những chủ đề và gặp hạn chế khi biểu diễn cho các chủ đề

phức tạp

Sự phát triển ngày càng nhanh của các kỹ thuật rút trích thông tin cũng như sự gia tăng

về quy mô của các bộ từ điển đồng nghĩa, các cơ sở tri thức đa ngành cùng các co sở tri thức miền

đưa đến nhiều lựa chọn hơn cho các vector biểu diễn Thành phần thứ i trong một vector có thể

là trọng số thể hiện độ liên quan giữa thành phần thứ ¡ trong nguồn tri thức đối với tài liệu được

vector đó biểu diễn Ví dụ phương pháp Explicit Semantic Analysis (ESA)[39] biểu diễn nghĩa của một đoạn văn bản dưới dang một vector của các khái niệm trên Wikipedia Mỗi khái niệm

trên Wikipedia được cho tương ứng với một bài viết có tiêu đề trùng với tên của khái niệm Độ

dài của vector biểu diễn này sẽ bằng với số lượng khái niệm có trên Wikipedia (vài triệu chiều).

Nhìn chung, dạng biểu diễn văn bản bằng vector có tốc độ tính toán nhanh, đặc biệt là có sẵn các thư viện tính toán được hỗ trợ từ các ngôn ngữ lập trình cấp cao Tuy nhiên, hầu hết các

kỹ thuật chủ yếu dựa trên thông tin về tần suất xuất hiện của từ, thiếu sự phản ánh về ngữ nghĩa

của văn bản: bỏ qua các thông tin cấu trúc quan trọng như thứ tự sắp xếp các từ trong câu, vùng

lân cận của từ, vị trí xuất hiện của từ trong văn bản, cấu trúc của một câu/đoạn văn, tính đồng

xuất hiện của các từ trong một câu và đặc biệt nghĩa của từ cũng như mối quan hệ về ngữ nghĩa

giữa các từ không được xét đến, cuối cùng là hạn chế của kỹ thuật rút trích đặc trưng Bên cạnh

đó, các phép biểu diễn có thể khó diễn nghĩa, tức là khó diễn dịch, giải thích hay thuyết minh

bởi người đọc Các kết quả có thể được chứng minh ở cấp độ toán học, nhưng khó có thể hiểu

được trong ngôn ngữ tự nhiên Một hình thức biểu diễn được xem là tốt khi mà người đọc có

thể dễ dàng nắm bắt ý nghĩa của chúng và hiểu được kết quả trả về của hệ thống cũng như cách thức hệ thống trả về được những kết quả này Việc biểu diễn tài liệu thông qua các khái niệm

trong cơ sở tri thức sẽ thân thiện, tự nhiên, gần gũi với cách diễn đạt của con người hơn, so với những dạng biểu diễn thông qua các topic trong mô hình chủ đề tiềm ẩn hay word embedding

vector Tuy nhiên, chiều dài của vector bằng số lượng khái niệm trong cơ sở tri thức sẽ là trở

ngại khi sử dụng các cơ sở tri thức có kích thước đồ sộ Một hạn chế khác của cách tiếp cận này

là thường chỉ dừng lại ở dạng biểu diễn “phẳng” như mô hình không gian vector mà chưa chú

trọng vào khai thác tri thức về quan hệ cùng các thông tin cấu trúc khác còn ẩn chứa trong co

sở tri thức

Trong những năm gần đây, các phương pháp mô hình hóa văn bản thành đồ thị đang

ngày càng được chú ý Đồ thị là một cấu trúc toán học có khả năng mô hình hóa mối quan hệ

cùng với các thông tin quan trọng về cấu trúc một cách hiệu quả Phương pháp tiếp cận dựa trên

đồ thị đã được nghiên cứu và áp dụng rộng rãi cho nhiều tac vụ do có nên tang lý thuyết chặt

chẽ, rõ ràng và hiệu suất thực nghiệm tốt Một số mô hình đồ thị phổ biến ngày nay có thể kể

đến như (Hình 2.5): mô hình đồ thị khái niệm (Conceptual Graph - CG), nhóm Đồ thị đồng hiện

26

Trang 40

(Co-occurrence Graph), nhóm Đồ thị ngữ nghĩa (Semantic Graph).

Crh Models Nhiêu tiêm năng

Độ-Conceptual Graphs Co-occurrence Graphs Knowledge-based Graphs}

— Đồthjkhániệm r— Đồ thị đồng hiện — Đồ thị dựa trên tri thức

_Ñ Faguo Zhou,2010 Li Jianging Wu, 2012 Michael, 2014

Yuan Ni, 2016

Ñ =| Bronselear, 2013 ,Kamsu,2012 Raviv, 2018

Lf sonawane, 2014 | LiLin, 2017 Raviv, 2018

Samual, 2019 David, 2020

Ganggao Zhu,2021

Hình 2.5 Các mô hình biểu diễn tài liệu dựa trên dé thị da có

Ngay từ đầu những năm 90, đồ thị khái niệm đã được biết đến với hàng loạt các công trìnhnghiên cứu như là một hướng nghiên cứu mới Ví dụ một số hệ thống cũ trước đây đã sử dụng

đồ thị khái niệm trong giải pháp của mình như CoDHIR (COntent-Driven Hypertext tion Retrieval), DR-LINK (Document Retrieval using LINguistic Knowledge), RELIEF (RelationalLogical Approaches based on Inverted Files), ITELS (Intelligent TErminology Learning System),CGKAT, WebKB Một trong những khó khăn lớn nhất đối với các giải pháp tìm kiếm theo ngữ

Informa-nghĩa dựa trên đồ thị khái niệm là việc tự động hóa công đoạn lập chỉ mục cho các tài liệu bằng

đồ thị khái niệm có độ phức tạp rất cao Việc xác định các mối quan hệ ngữ nghĩa có thể có

giữa các đỉnh trong CG đòi hỏi phải thông qua một quy trình xử lý ngôn ngữ tự nhiên phức tạp,phân tích ngữ nghĩa sâu, phụ thuộc vào lĩnh vực và các nguồn tài nguyên bên ngoài Ngoài ra,việc đánh trọng số cho các thành phần trong đồ thị ít được quan tâm Một số công trình đi theo

hướng này có thể kể đến gồm [93, 48, 47].

Mô hình đồ thị đồng hiện được dé xuất trong các công trình [64], [67] Theo đó, tất cả

các từ xuất hiện trong tài liệu (trừ stopword) được rút trích và các từ được xác định là có quan

hệ với nhau khi chúng đồng xuất hiện trong cùng một câu hoặc trong cùng một cửa số có kíchthước xác định Hướng của cạnh được xem xét dựa trên thông tin về thứ tự xuất hiện của hai

đỉnh trong câu (hay trong cửa số) Trong các đồ thị đồng hiện, đỉnh và cạnh đều có thể được gán

trọng số, trọng số của đỉnh và cạnh là tần suất xuất hiện của từ và cặp từ tương ứng Ưu điểm

của mô hình là tận dụng được mối quan hệ giữa các từ, tần suất xuất hiện của từ, vùng lân cận

của từ trong câu, thứ tự xuất hiện giữa các từ Dạng biểu diễn này tuy thể hiện được nhiều thông tin về cấu trúc của tài liệu hơn so với dạng biểu diễn vector truyền thống nhưng vẫn chưa nắm

bắt được nghĩa của từ cũng như các thông tin về quan hệ ngữ nghĩa giữa chúng Phần lớn các

nghiên cứu xử lý trên các từ đơn thay vì là cụm từ

Công trình [110, 71] tận dụng nguồn tri thức DBpedia để làm giàu thêm mô hình biểu

diễn tài liệu Các đồ thị biểu diễn cho tài liệu được xem là các đồ thị con của DBpedia Trong

cách biểu diễn đó, mỗi đỉnh là một khái niệm có liên quan đến nội dung của tài liệu và được

tham chiếu đến các thực thể trong DBpedia Tập đỉnh được xây dựng nhờ vào việc sử dụng các

27

Tiêu đề	Nghiên cứu phương pháp xây dựng hệ thống quản lý tài liệu văn bản dựa trên ngữ nghĩa
Tác giả	Huỳnh Thị Thanh Thương
Người hướng dẫn	PGS. TS. Đỗ Văn Nhơn
Trường học	Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận án tiến sĩ
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	182
Dung lượng	84,63 MB