Chương 4 - Biểu diễn tài liệu dựa trên đồ thi keyphrase và đánh giá độ tương quan ngữ nghĩa trong tìm kiếm: Đề xuất một phương pháp biểu diễn ngữ nghĩa cho tài liệu văn bản cùng với kỹ t
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
HUYNH THI THANH THUONG
NGHIEN CUU PHUONG PHAP XAY DUNG HE
THONG QUAN LY TAI LIEU VAN BAN DUA TREN
NGU NGHIA
LUẬN AN TIEN SĨ KHOA HỌC MAY TÍNH
TP HO CHÍ MINH - NĂM 2024
Trang 2ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
Vg
HUYNH THI THANH THUONG
NGHIEN CUU PHUONG PHAP XAY DUNG HE
THONG QUAN LY TÀI LIỆU VAN BAN DUA TREN
NGU NGHIA
Chuyén nganh: Khoa hoc May tinh
Mã số: 62480101 (9480101)
LUẬN AN TIEN SĨ KHOA HỌC MAY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS TS DO VĂN NHƠN
TP HÒ CHÍ MINH - NĂM 2024
Trang 3LƠI CẢM ƠN
Xin chân thành cảm ơn Quý Thầy Cô trong Trường Dai học Công nghệ Thông tin đã
tận tình dạy bảo cho em nhiều kiến thức bổ ích trong suốt thời gian học tập tại Trường, cũng
như tạo điều kiện cho em thực hiện đề tài này Kính chúc Quý Thầy Cô luôn dồi dào sức khoẻ
và thành công trong cuộc sống
Đặc biệt, em xin bày tỏ lòng biết on chân thành đến Phó giáo sư Tiến sĩ Đỗ Văn Nhơn,
người thầy đã tận tâm, nhiệt tình hướng dẫn và chỉ bảo cho em trong suốt quá trình thực hiện
đề tài Luận án này sẽ rất khó hoàn thành nếu không có sự truyền đạt kiến thức quí báu và
sự hướng dẫn nhiệt tình của Thầy.
Con cảm ơn Ba, Mẹ, các anh chị đã luôn bên cạnh động viên, khích lệ và ủng hộ contrên con đường mà con đã yêu thích và lựa chọn, đã cho con niềm tin và nghị lực vượt qua
mọi khó khăn Mặc dù điều kiện còn khó khăn nhưng gia đình luôn tạo điều kiện tốt nhất để
con học tập và nghiên cứu
Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và đóng góp cho tôi nhiều ý kiến quýbáu, qua đó, giúp tôi hoàn thiện hơn cho đề tài này
Và cuối cùng, tôi cũng không quên gửi lời cảm ơn đến tác giả của các báo cáo nghiên
cứu khoa học mà tôi đã tham khảo và tìm hiểu cho đề tài.
Luận án đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không tránh khỏi
thiếu sót Kính mong sự cảm thông và đóng góp ý kiến từ Quý Thầy Cô và các bạn
Một lần nữa tôi xin chân thành cảm on!
TP Hồ Chí Minh, ngày 17 tháng 01 năm 2024
Tác giả luận án
Huỳnh Thị Thanh Thương
Trang 4LƠI CAM ĐOAN
Tôi xin cam đoan rằng nội dung luận án này là kết quả nghiên cứu của chính bản thân.
Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã công bố trong các côngtrình khoa học nêu trong phần danh mục các công trình nghiên cứu, chưa từng được ai công
bố trong bất kỳ công trình nào khác Các công trình nghiên cứu có nhiều tác giả được đưavào nội dung luận án đều nhận được sự đồng ý trước đó của các đồng tác giả
Tôi xin cam đoan rang mọi sự giúp đỡ cho việc thực hiện luận án này đã được cảm on
và các thông tin trích dẫn cũng như tham khảo từ các nghiên cứu có liên quan đều được nêu
rõ nguồn gốc trong danh mục tài liệu tham khảo trong luận án
TP Hồ Chí Minh, ngày 17 tháng 01 năm 2024
Tác giả luận án
Huỳnh Thị Thanh Thương
Trang 5Mục lục
Danh sách bảng
Danh sách hình vẽ
MỞ ĐẦU
Chương1 GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI 1
1.1 Thực trạng và nhu cầu xây dựng các hệ thống quan lý và tìm kiếm tài liệu
1.2 Tóm tắt tình hình nghiên cứu liên quan đến lĩnh vực của đề tài 3
1.3 Định hướng nghiên cứu và mục tiêu của luậnán 7
1.3.1 Định hướng nghiêncứu ẶẶ.ẶẶẶẶ So 7 13.2 Mục tiêu nghiên cứỨU Ặ Q Q Q Q Q Q Q ee 8 1.3.3 PhạmvinghiêncỨu 0.0.0 00000000 10 14 Đóng góp của luậnán HQ Q ee 11 15 Kếtchương HQ HQ HQ HQ ng ng kg ee 14 Chương 2 CƠ SỞ LÝ THUYET 15 2.1 Vấn đề tìm kiếm tài liệu theo ngứ nghĩa và các hướng tiếp cận 15
2.11 Khái niệm Tìm kiếm theongửnghĩa - 15
2.1.2 Phan loại các cách tiếp cận tìm kiếm theo ngữnghĩa 16
2.1.3 Tiếp cận công nghệ tri thức với ontology và semantic data 17
2.2 Vấn dé biêu diễn tri thức và các mô hình ngử nghĩa 20
2.3 Vấn đề biểu diễn tài liệu văn bản ẶẶ ee 25 2.4_ Những bài toán con trong nghiên cứu ẶẶẶ 28 25 Kếtchươdng HQ HQ ng ng kg kg kg va 29 Chương 3_ CK-ONTO: MOT MÔ HÌNHONTOLOGY MIEN CHO CÁC HE THỐNG 3.1 3.2 TÌM KIẾM TÀI LIỆU THEO NGỮ NGHĨA 30 Giới thiệu Q HQ HQ HQ HH HQ ng ng g kg ko 30 Mô hình CK-ONTO (Classed Keyphrase based Ontology) 32 3.21 Một tập hợp cáckeyphrase 0000 33
Trang 63.4
3.2.2 Một tập hợp các lớp tương ứng với các khái niệm trong lĩnh vực
3.2.3 Một tập hợp các quan hệ nhị phân trênC
3.2.4 Một tập hợp các quan hệ nhị phân trênK_
3.2.5 Tập các luật suy diễn CS eee Xây dung ontology miền theo mô hình CK-ONTO
Kết chương Q Q Q Q ee Chương 4_ BIỂU DIEN TÀI LIEU DUA TREN ĐỒ THỊ KEYPHRASE VÀ ĐÁNH 4.1 4.2 4.3 4.4 GIÁ ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA TRONG TÌM KIẾM Gidithidu, ŸẼĂ
Biểu diễn tài liệu văn bản ẶẶ.ẶẶ ee 4.2.1 Cac yêu cầu cho một mô hình biểu diễn tàiliệu
4.2.2 Các mô hình đồ thi keyphrase biểu diễn tài liệu
4.2.3 Xây dựng đồ thi keyphrase biểu diễn tài liệu
Đánh giá độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn
4.3.1 Độ tương đồng ngữ nghĩa gitiahai keyphrase
4.3.2 Độ tương đồng ngữ nghĩa giữa haiquanhệ
4.3.3 Độ tương đồng ngữ nghĩa giữa hai đồ thịkeyphrase
4.3.4 Tìm kiếm theo ngữ nghĩa trên kho tài liệu văn bản thuộc miền 58940011 1n & (.Ặ.Ặ Ha Chương 5 HỆ QUAN LÝ CƠ SỞ TÀI LIEU VAN BẢN THEO NGỮ NGHĨA: MOT 5.1 5.2 5.3 5.4 5.5 GIAI PHAP THIET KE HE THONG VA CAC UNG DUNG Hệ quản lý cơ sở tài liệu văn ban theo ngữ nghĩa
5.11 Yêu cầu và chức năng của hệ thống
5.1.2 Kiến trúchệthống 0.2.0.0 000000
Hệ thống quản ly kho tài nguyên hoc tập về lĩnh vực Khoa học máy tính
5.21 Mục tiêu và chức năng của hệ thống
5.2.2 Thiết kế thựcnghiệm Ặ.ẶẶẶ Q Q So 5.2.3 Kết quả thực nghiệm và thảo luận
Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ Thông tin
5.3.1 Thiết kếthựcnghiệm Ặ.Ặ Ặ QẶ Q So 5.3.2 Két quả thực nghiệm và thảo luận
Hệ thống tìm kiếm và chọn lọc tin bài trên các báo điệntử
5.4.1 Thiétkéthucnghiém 0-00000 5.42 Két quả thực nghiệm và thảo luận
Kết chudng 2 Q Q Q Q Q Q Q Q H Q Q n Q à v kg kg vo
34
37 40
42 46 49
52 52 55
55
59 65 71 71 77
78
82 83
Trang 7Chương 6 ĐO LƯỜNG MỨC ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI TÀI
LIEU VỚI TRI THỨC TONG QUÁT DUA TREN ĐỒ THỊ KEYPHRASE122
6.2 Mô hình hóa nội dung tài liệu bằng đồ thi dựa trên trithức 123
6.2.1 Rút trích keyphrase Q Q Q HQ HH eee 127 6.2.2 Xây dựng đồ thị keyphrase biểu diễn tài liệu 133
6.3 Đánh gia độ tương đồng giữa hai tài liệu dựa trên đồ thị 136
6.3.1 Độ tương đồng ngữ nghĩa giữa hai keyphrase 136
6.3.2 Độ tương đồng ngữ nghĩa giữa hai tàilệu 141 6.4 Thực nghiệm đánh giá kỹ thuật đo lường độ tương đồng ngữ nghĩa giữa hai
65 Kếtchươdng ng gà gà và va 148
KẾT LUẬN 149
Về mặt khoahọc ee 149
Hạn chế của Luậnán ee 155
NHỮNG KẾT QUÁ CÓ LIÊN QUAN CỦA NGHIÊN CỨU SINH 159
Công trình khoa học của tác gia» Ặ Q Q Q QQ Q HH Ko 159
Đề tài nghiên cứu khoahọc 0000 0 eee ee 160
TÀI LIỆU THAM KHẢO 161
Trang 8Danh sách bảng
3.1
3.2
3.3
3.4
3.5
4.1
4.2
5.1
5.2
5.3
5.4
5.5
6.1
6.2
6.3
6.4
Một số thuộc tính của khái nệm ALGORITHM
Một số thực thể của khái nệm ALGORITHM_
Các thuộc tính của một số quan hệ trong Rcc
-Quan hệ giữa các keyphrase trong CK-ONTO
Thống kê số lượng keyphrase, khái niệm (lớp) và mối quan hệ trong các cơ sở tri thức được xây dung ee vi Các cấp độ diễn đạt đối với thông tin cấu trúc [CTI]
Các cấp độ diễn đạt đối với thông tin ngữ nghĩa [CTI]
Một số thông tin thống kê về kho tài liệu
Hiệu quả tìm kiếm của Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa học máy tính trên kho thử nghiệm gồm 1000 tài liệu và 100 câu truy vấn (theo phần trăm) [CT1] - ẶẶẶẶ SỰ Hiệu quả tìm kiếm của Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa học máy tính trên kho thử nghiệm gồm 10.000 tài liệu và 100 câu truy vấn (theo phần tram)[CT1] 0.2.00 00.0022 eee eee Ví dụ về cấu trúc thông tin của câu truy van trong Bộ dữ liệu thử nghiệm Hiệu quả tìm kiếm của Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ Thông tin (theo phần tram)[CT1]
-Những khái niệm được chú thích và trọng số của chúng tương ứng với Hình i Ẽ HT Danh sách keyphrase của tài liệu #20 kèm theo các khái niệm/thực thể được tham chiếu ee Các tham số và giá trị tối uu của chúng [CT4]
Kết quả thực nghiệm trên Bộ dữ liệu LP50 [CT4]
Trang 9Danh sách hình vẽ
1.1
2.1
2.2
2.3
2.4
2.5
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
Vi dụ một vai câu truy van mẫu mà dé tài quan tâm giải quyét 9
WordNet - Một cơ sở dữ liệu vềtừ 23
DBPedia - Một cơ sở tri thức đa lĩnh vực đồsộ 24
Một số ontology miễn nổi tiếng hiện nay 25
CSO - một ontology miễn về lĩnh vực Khoa học máy tinh 25
Các mô hình biểu diễn tài liệu dựa trên đồ thị đã có 27
Một ví dụ về lớp PROGRAMMING LANGUAGE trong miền tri thức Công nghệ thôngtin On ee 37 Một phần sơ đồ phân cấp của lớp ALGORITHM 38
Một số quan hệ tương đồng giữa các keyphrase trong lĩnh vực Việc làm ngành Công nghệ thông tin Ặ.ẶẶ Q Q Q Q Q Q o 40 Qui trình xây dựng ontology lĩnh vực 47
Biểu đồ phân rã chức năng quan lý ontology CK-ONTO 48
Ảnh chụp màn hình công cụ quản lý CK-ONTO: danh mục các lớp 48
Ảnh chụp màn hình công cụ quản lý CK-ONTO: tạo mới một lớp 49
Ảnh chụp màn hình công cụ quản lý CK-ONTO: danh mục các quan hệ giữa keyphrase Ặ Q Q Q Q Q Q Q H kg kg k vo 50 Lấy phản hồi về cấu trúc thông tin của một khái niệm trong ontology 51
Quy trình tính toán độ tương đồng giữa tài liệu và câu truy vấn [CT1] 54
Ví dụ một đồ thị keyphrase đởngiản 59
So sánh về cấu trúc của các mô hình dé thị biểu diễn tàilệu 64
So sánh các mô hình dé thị biểu diễn tài liệu theo các tiêu chuẩn 64
Quy trình xây dựng đồ thikeyphrase [CT1] 65
Ví du một số luật hỗ trợ rút trích quan hệ theo cú pháp 66
Ví dụ kết quả trích xuất quan hệ cho câu “Smaato is seeking a Cloud Software Engineer to contribute to our sofWare” Q Q Q Q e 67 Ví dụ về Cấu trúc tập tin “FileSemanticstxt” 68
Ví dụ về Cấu trúc tập tin lưu các đồ thị keyphrase theo định dạng RDF/RDFS 69 4.10 Ví dụ về quan hệ phân cấp của Information Technology 73
Trang 104.11 Ví dụ về Bộ trọng số được gan cho mỗi quan hệ trong Rgg - 74
4.12 Ví dụ một đoạn văn ban được trích từ một tin bài tuyển dụng (tài liéu) 80
4.13 Ví dụ một phần của đồ thi keyphrase có trọng số đầy đủ biểu diễn cho đoạn văn bản trên và một phép chiếu giữa hai đồ thị 80
51 Thành phần cốt lõi trong một hệthốngSDBS - 86
5.2 Kiến trúc của một hệ thống SDBS[CTI] - 87
5.3 Mô hình nghiên cứu tổng thể của Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ thông tin[CTI] ẶẶẶẶẶẶẶ So 91 5.4 Giao diện trang tìm kiếm tài liệu theo hệ thống thư mục quy chuẩn 94
5.5 Giao diện trang tìm kiếm tài liệu cơ bản theo từ khóa 95
5.6 Thong tin hiển thị của mỗi tài liệu kếtquả 96
5.7 _ Giao diện trang tìm kiếm theo ngữ nghĩa và hiển thị kếtquả 96
5.8 Đồ thị thể hiện mối liên hệ giữa các từ khóa 97
5.9 Ví dụ về câu truy vấn mẫu “python programming language” trong bộ thử nghiệm của Hệ thống quản lý kho tài nguyên học tập về lĩnh vực Khoa học máytnh be ứt ` “e 100
5.10 Một số câu truy vấn mẫu trong bộ thử nghiệm của Hệ thống quan lý kho tài nguyên học tập về lĩnh vực Khoa học máy tính 101
5.11 Giao diện thống kê hiệu quả tìm kiếm của từng câu truy vấn 104
5.12 Tìm kiếm theo ngữ nghĩa từ khóa “programming language” 105
5.13 Tìm kiếm theo ngữ nghĩa từ khóa “game programming” 106
5.14 Tim kiếm theo ngữ nghĩa với bộ lọc kết quả khi tìm kiếm 107
5.15 Ví dụ một vài câu truy vấn mau trong bộ dữ liệu thử nghiệm của Hệ thống tìm kiếm tin bài tuyển dụng 0 20000002 eee 114 5.16 Theo dõi chi tiết thử nghiệm của Hệ thống tìm kiếm tin bài tuyển dụng ngành Công nghệ Thông tin với từng chủ đề 117
5.17 Vi dụ một vài câu truy vấn mau trong bộ dữ liệu thử nghiệm của Hệ thống tìm kiếm và chon lọc tin bài trên các báo điện tử 119
6.1 Quy trình tính toán độ tương đồng giữa hai tài liệu [CT4] 123
6.2 _ Ví dụ về một lớp trong DBpedia ontology 125
6.3 Ví dụ về một thực thé trong DBpedia 125
6.4 Ví dụ về một đồ thị keyphrase có gán nhãn 126
6.5 _ Ví dụ về một phần của đồ thi keyphrase có chú thích khái niệm tương ứng với tài liệu mẫu TQ ee 131 6.6 Một phan của đồ thị keyphrase biểu diễn cho tài liệu #20 137
Trang 11DANH MỤC CÁC CHỮ VIẾT TẮT
STT | Chũ viết tat Tiéng Anh Tiéng Viét
1 CG Conceptual Graph D6 thi khai niém
2 CK-ONTO Classified Keyphrase based | Ontology cho cac keyphrase
Ontology được phân lớp
3 CS/KHMT Computer Science Khoa hoc may tinh
4 DB/CSDL Database Co sở dữ liệu
5 DO Domain Ontology Ontology miền
6 DR Document Retrieval Truy xuất tài liệu
7 DRS Document Retrieval System | Hệ thống truy xuất tài liệu
8 EL Entity linking Liên kết thực thể
9 IR Information Retrieval Truy xuất thông tin
10 IT/CNTT Information Technology Công nghệ thông tin
11 KB Knowledge Base Cơ sở tri thức
12 KE Keyphrase Extraction Rút trích keyphrase
13 KG Keyphrase Graph Đồ thị keyphrase
14 NLP Natural Language Process- | Xử lý ngôn ngữ tự nhiên
ing
15 SDB Semantic Document Base Cơ sở tài liệu theo ngữ nghĩa
16 SDBS Semantic Document Base | Hệ quản lý cơ sở tài liệu văn bản
Trang 12MỞ ĐẦU
Với lượng thông tin khổng lồ như hiện nay, nhu cầu tìm kiếm thông tin trong vô vàn
các thông tin được lưu trữ là một yêu cầu hết sức cần thiết Nguồn tài nguyên được lưu trữdưới dạng đữ liệu văn bản là rất rộng lớn và giàu thông tin nhưng việc khai thác nguồn dữ
liệu này vẫn chưa đạt hiệu quả cao Sự gia tăng và bùng nổ của các cơ sở dữ liệu lớn làm cho
việc tìm kiếm văn bản càng trở nên quan trọng hơn bao giờ hết Chính vì vậy, việc nghiên cứu phương pháp quản lý và tìm kiếm tài liệu văn bản giúp cho người sử dụng có thể tìm
kiếm được những thông tin cần thiết một cách chính xác, hiệu quả, phục vụ cho các mục đíchtrong công việc cũng như trong đời sống là thiết yếu trong giai đoạn hiện nay
Luận án đề xuất một phương pháp mới cho bài toán Tìm kiếm tài liệu theo ngữ nghĩathuộc một miền tri thức xác định, làm cơ sở khoa học cho việc thiết kế, xây dựng các hệ thống
ứng dụng trong thực tiễn Luận án nỗ lực nâng cao hiệu quả tìm kiếm thông qua việc nghiên cứu các phương pháp biểu diễn tài liệu cùng với kỹ thuật tính toán độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn Cách tiếp cận là biểu diễn văn bản dựa trên đồ thị keyphrase
và tận dụng một ontology miền với độ mịn cao, được kiểm soát tốt để làm cơ sở cải thiện kết
2
qua.
Ngoài ra, luận an cũng tập trung vào việc nghiên cứu một giải pháp toàn diện cho
việc thiết kế một loại hệ thống mới gọi là “Hệ quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”, thực hiện xây dựng một số hệ thống cụ thể để chứng minh tính hiệu quả và khả thi của các
ý tưởng được đề xuất Bên cạnh vấn đề tìm kiếm theo ngữ nghĩa, lợi ích của mô hình biểu
diễn tài liệu dựa trên đồ thị và các kỹ thuật có liên quan còn được minh chứng thông qua bài
toán Do lường độ tương đồng ngữ nghĩa giữa hai tài liệu Phương pháp mdi tạo ra các biểu
diễn có cấu trúc của văn bản bằng cách sử dụng những cơ sở tri thức có kích thức lớn và phổ
biến như DBpedia, Wikipedia để thu thập thông tin chỉ tiết về các khái niệm, thực thể và các
mối quan hệ ngữ nghĩa của chúng, do đó dẫn đến cách diễn giải “giàu tri thức” hơn cho tài
liệu Các kết quả nghiên cứu được công bố trên các tạp chí và kỷ yếu hội nghị quốc tế chuyên
ngành, được lập chỉ mục bởi các tổ chức có uy tín như Web of Science, Scopus, EI Compendex,
Inspec, DBPL, ACM Digital Library, v.v
Nội dung của luận án được trình bày trong 06 chương, bao gồm:
Mở đầu: Giới thiệu khái quát về hướng nghiên cứu của luận án và cấu trúc luận án
Chương 1 - Giới thiệu tổng quan về đề tài: Khảo sát về thực trạng và nhu cầu xây dựng các hệ thống quản lý và tìm kiếm tài liệu theo ngữ nghĩa; Tóm tắt tình hình nghiên cứu liên
Trang 13quan đến lĩnh vực của đề tài; Từ đó, nêu lên mục tiêu, phạm vi nội dung nghiên cứu với nhữngđóng góp chính của luận án.
Chương 2 - Cơ sở lý thuyết : Trình bày co sở lý thuyết cho các phương pháp sử dụng
trong đề tài
Chương 3 - CK-ONTO: Một domain ontology cho các hệ thống tìm kiếm tài liệu theo ngữ nghĩa: Đề xuất một mô hình ontology mô tả tri thức về một lĩnh vực đặc biệt, qua đó làm căn
cứ để biểu diễn ngữ nghĩa cho tài liệu; Qui trình xây dung ontology cho các lĩnh vực.
Chương 4 - Biểu diễn tài liệu dựa trên đồ thi keyphrase và đánh giá độ tương quan ngữ nghĩa trong tìm kiếm: Đề xuất một phương pháp biểu diễn ngữ nghĩa cho tài liệu văn bản
cùng với kỹ thuật tính toán độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn, làm cơ sở
khoa học cho việc thiết kế, xây dựng các hệ thống tìm kiếm tài liệu ứng dụng trong thực tiễn.
Chương 5 - Hệ cơ sở tài liệu văn bản theo ngũ nghĩa: Một giải pháp thiết kế hệ thống và các ứng dụng: Đề xuất một giải pháp tổng thể cho việc thiết kế và xây dựng một lớp hệ thống ứng dụng mới gọi là “Hệ quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”, bằng cách đưa ra những đặc trưng cơ bản của hệ thống để phân biệt với những loại hệ thống khác, Kiến trúc
hệ thống, Quy trình xây dựng và đặt ra một số vấn đề kỹ thuật cần phải giải quyết Giải pháp
được áp dụng để xây dựng thử nghiệm 03 hệ thống: Hệ thống quản lý kho tài nguyên học tập, Hệ thống tìm kiếm tin bài tuyển dụng việc làm, Hệ thống tìm kiếm và chọn lọc tin bài trên các báo mạng, để chứng minh tính hữu ích và khả thi của các ý tưởng nghiên cứu Trình
bày kinh nghiệm xây dựng 03 hệ thống thử nghiệm với yêu cầu sử dụng bao gồm các tác vụ
chính là tổ chức lưu trữ, quản lý và tìm kiếm Hệ thống cho phép truy tìm tài liệu trong kho
lưu trữ theo nhiều chức năng, đặc biệt là chức năng tìm kiếm dựa trên tri thức của lĩnh vựchay theo ngữ nghĩa liên quan đến nội dung của tài liệu Tiến hành thực nghiệm trên các Bộ
dữ liệu mẫu để so sánh và đánh giá hiệu quả tìm kiếm trong giải pháp.
Chương 6 - Do lường mức độ tương đồng ngũ nghĩa giữa hai tài liệu với tri thức tổng quát được trên đồ thị keyphrase: Đề xuất một phương pháp tính toán độ tương đồng ngữ nghĩa giữa hai tài liệu thuộc về một miền tri thức đặc biệt hoặc thuộc tri thức tổng quát nói chung Đánh giá mức độ liên quan giữa hai tài liệu được thực hiện bằng cách tính toán mức độ giống
nhau về ngữ nghĩa giữa hai đồ thị keyphrase đại diện cho chúng Tiến hành thực nghiệm trên
các dữ liệu mẫu để so sánh và đánh giá hệ thống trước khi đi vào phần kết luận của báo cáo.
Kết luận: Trình bày tóm tắt các vấn đề đã đặt ra trong luận án và cách giải quyết, những đóng góp mới và những đề xuất mới về một số hướng phát triển của đề tài trong tương
lai
Phần cuối của luận án là các công trình khoa học chính, công trình có đóng góp củatác giả, danh mục các tài liệu tham khảo và phần phụ lục
Trang 14Chương 1 GIỚI THIEU TONG QUAN VỀ DE TÀI
Chương 1 giới thiệu tổng quan về đề tài bao gồm các khảo sát về thực trạng ứng dụng công nghệ thông tin trong công tác tổ chức lưu trữ, khai thác, tìm kiếm tài liệu theo ngữ nghĩa,
những phân tích đánh giá về thực trạng, nhu cầu và khả năng nghiên cứu phát triển giải pháp
cũng như ứng dụng Nội dung tiếp theo là giới thiệu về bài toán trọng tâm trong nghiên cứu, đó
là Biểu diễn tài liệu văn bản và Tìm kiếm tài liệu trong kho lưu trữ thuộc một miền tri thức nhất
định, tóm tắt tình hình nghiên cứu có liên quan, nêu lên những vấn đề còn tồn tại Định hướng
nghiên cứu, mục tiêu chung, nội dung phạm vi nghiên cứu và các đóng góp của luận án sẽ đượctrình bày ở phần cuối chương
1.1 Thực trạng và nhu cầu xây dựng các hệ thống quản lý và tìm kiếm tài liệu theo
ngũ nghĩa
Từ vài thập niên gần đây, với những tác động mạnh mẽ của tiến bộ khoa học và công
nghệ, đặc biệt của công nghệ thông tin (CNTT) và truyền thông, thế giới đang dần biến chuyển
tới một nền kinh tế xã hội mới mà thông tin, tri thức được xem là nguồn lực chủ yếu Với lượng
thông tin khổng lồ như hiện nay, nhu cầu tìm kiếm thông tin trong vô vàn các thông tin được
lưu trữ là một yêu cầu hết sức cần thiết, đặc biệt nhu cầu quản lý tài liệu điện tử và thông tinkhoa học công nghệ phục vụ chia sẻ tri thức ngày càng trở nên quan trọng
Đối với việc học tập và nghiên cứu khoa học
Đối với việc học tập và nghiên cứu khoa học không thể phủ nhận vai trò quan trọng của
công tác nghiên cứu tài liệu Việc quản lý kho tài nguyên học tập chuyên ngành, hỗ trợ tìm
kiếm các tài liệu theo một chủ đề người học quan tâm đang trở thành một nhu cầu khách quan,
tất yếu và thiết thực của mọi người Có thể nói, các thư viện điện tử, các hệ quản lý tài nguyên học tập là một trong những hệ thống không thể thiếu trong việc ứng dụng công nghệ thông tin
trong giáo dục và đào tạo, đòi hỏi phải ngày càng hiệu quả hơn, phục vụ tốt hơn cho người học,
người dạy và kể cả những người quản lý Đây là một trong những nhu cầu thực tiễn và cập bách
Trang 15lý thư viện, ít nghiên cứu tập trung chủ lực vào việc xây dựng giải pháp tổ chức lưu trữ kho tài
liệu trên máy tính hỗ trợ quản lý, tìm kiếm và khai thác liên quan đến thông tin tri thức hay nội
dung tài liệu
Đối với lĩnh vực thông tin và truyền thông
Đối với lĩnh vực thông tin và truyền thông, đặc biệt là trong báo chí xuất bản, có thể nói Báo điện tử đã trở thành món ăn tỉnh thần không thể thiếu của rất nhiều người Với sự phong phú, cập nhật thông tin trong mọi lĩnh vực, từ chính trị, xã hội, kinh tế, văn hóa, giải trí, thể
thao, công nghệ các báo điện tử đã thu hút hàng triệu lượt truy cập mỗi ngày Sự phát triển
mạnh mẽ trên đã góp phần tạo nên một thị trường báo chí đa dạng và mới mẻ Tuy nhiên, cùng
với sự phát triển mạnh mẽ của công nghệ kết nối, số lượng các trang báo điện tử trên khắp thế giới nói chung và ở nước ta nói riêng đã tăng lên đáng kể, kéo theo đó là một khối lượng lớn
các tin bài với nhiều nội dung khác nhau được đăng tải hàng ngày liên quan đến nhiều lĩnh vực
hoạt động Điều đó đã ảnh hưởng không nhỏ đến một số cá nhân và tổ chức trong việc quản lí nội dung tin bài, thống kê, tìm kiếm, tổng hợp nhanh chóng các thông tin, tin bài có liên quan
đến một lĩnh vực, một chủ đề mà họ quan tâm Những công việc này vốn dĩ vẫn còn phụ thuộc
rất nhiều vào sức người, tốn nhiều chi phi và thời gian thực hiện.
Để giải quyết nhu cầu trên, nhiều hệ thống tổng hợp tin tức đã ra đời dưới nhiều hình thức, với khả năng tổng hợp tin tức từ nhiều nguồn khác nhau, tổng hợp một cách tự động hoặc bán tự động, chẳng hạn như Google News, Yahoo! News, Việt Báo, Báo Mới, Một trong những
hạn chế chung của các hệ thống này là ở chức năng tìm kiếm các tin bài chủ yếu dừng lại ở mức
xử lí dữ liệu, do đó chưa đáp ứng được nhu cầu thông tin của người dùng, đặc biệt là những nhucầu liên quan đến xử lý nội dung, ngữ nghĩa của tin bài
Đối với lĩnh vực quản lý hành chính Nhà nước
Đứng trước yêu cầu đổi mới của Nhà nước ta hiện nay, đặc biệt là trong công cuộc cải
cách nền hành chính quốc gia diễn ra sôi động từ trung ương đến địa phương, không thể không
nói đến việc nghiên cứu ứng dụng công nghệ thông tin nhằm hoàn thiện và hợp lý hoá công
tác quản lý tài liệu lưu trữ Thực tế cho thấy, việc quản lý tài liệu trong các cơ quan hành chính
Nhà nước bên cạnh các kết quả đạt được còn nhiều tồn tại cần khắc phục như: tình trạng quá
tải đối với công tác văn thư trong việc xử lý thông tin do lượng thông tin không ngừng tăng lên;
phương tiện xử lý thông tin còn nghèo nàn thủ công, việc tổ chức công tác văn thư vẫn theo nề
nếp cũ, không đáp ứng được nhu cầu mới, nhanh chóng, chính xác Mặc dù văn bản vẫn còn nằm
trong các kho lưu trữ hoặc được đăng trên Công báo, nhưng người ta vẫn không nhớ hết những văn bản, những thông tin cần thiết trước khi ban hành văn bản mới dẫn đến việc xây dựng ban
hành văn bản còn bị trùng lặp, chồng chéo, thậm chí còn mâu thuẫn nhau Có thể thấy rằng,
trải qua bề dầy về thời gian, khối lượng tài liệu lưu trữ tại các cơ quan, đơn vị này ngày một lớn
hơn, mà công cụ quản lý và khai thác sử dụng tài liệu lưu trữ vẫn chủ yếu là các công cụ truyền
thống cho nên gặp rất nhiều khó khăn, nhiều khi không thể thực hiện được Do vậy, việc nghiên cứu phát triển các giải pháp, quản lý thống nhất việc ứng dụng công nghệ thông tin trong công
tác quản lý, tìm kiếm và khai thác tài liệu là một tất yếu trong giai đoạn hiện nay
Trang 16Đối với lĩnh vực tìm kiếm việc làm
Ngày nay, đi kèm với sự phát triển của kinh tế, xã hội thì nhu cầu tìm việc và tuyển dụng
ở các công ty, doanh nghiệp hay các cá nhân không ngừng tăng trưởng Đi kèm với sự bùng nổ của các dịch vụ internet, tuyển dụng trực tuyến đang trở nên ngày càng phổ biến và phát triển mạnh mẽ Người dùng phổ thông có xu hướng sử dụng máy tìm kiếm chuyên ngành để tìm việc làm thay vì các máy tìm kiếm phổ thông khác như google, bing.
Ở Việt Nam, đã tồn tại nhiều trang tuyển dụng trực tuyến có thể kể đến như:
vietnam-work.com, itviec.com, chotot.com, vieclam24h.vn, timviecnhanh.com, careerlink.vn, với lượng
truy cập cao, ổn định cũng như đạt được độ tin cậy nhất định trong các hệ thống xếp hạng trang website của google Tuy nhiên, hầu hết các trang tuyển dụng này còn khá đơn giản, người dùng phổ trông (nhà tuyển dụng, người tìm việc) đóng vai trò quyết định phần lớn đến hiệu suất của
máy tìm kiếm Hệ thống chưa áp dụng tốt các thành tựu của khoa học máy tính như: quá trình
phân tích câu truy vấn của người dùng và nội dung tin bài còn đơn giản, chưa nắm bắt hết các
nhu cầu thông tin của người tìm việc cũng như thông tin trong các tin bài tuyển dụng, không hỗ trợ tự động phân lớp, gán nhãn tin bài, thông tin phân nhóm ngành chưa rõ ràng, dễ gây nhập
nhằng cho quá trình gán nhãn bài viết của người đăng.
Nhìn chung, nguồn tài nguyên được lưu trữ dưới dạng dữ liệu văn bản là rất rộng lớn
và giàu thông tin nhưng việc khai thác nguồn dữ liệu này vẫn chưa đạt hiệu quả cao Hiện nay,
trên thế giới đã có khá nhiều hệ thống thực hiện công việc này theo những phương pháp khácnhau, tuy chưa đạt được hiệu quả tối ưu nhưng cũng phần nào đáp ứng được các yêu cầu thông
tin của người sử dụng Su gia tăng va bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm
văn bản càng trở nên quan trong hon bao gid hết Chính vi vậy, việc nghiên cứu phương pháp
quản lý và tìm kiếm tài liệu văn bản giúp cho người sử dụng có thể tìm kiếm được những thông
tin cần thiết một cách chính xác, hiệu quả, phục vụ cho các mục đích trong công việc cũng như
trong đời sống là rất cần thiết.
1.2 Tóm tắt tình hình nghiên cứu liên quan đến lĩnh vực của đề tài
Vấn đề Truy xuất thông tin (còn gọi là truy hồi thông tin hay truy tìm thông tin, thuật
ngữ tiếng Anh là Information Retrieval, viết tắt IR), đóng vai trò rất quan trọng trong thiết kế
và xây dựng các hệ thống quản lý và tìm kiếm tài liệu Hiện nay có rất nhiều định nghĩa và cáchgiải thích khác nhau về khái niệm Truy xuất thông tin Một số định nghĩa được xem là kinh
điển và được thừa nhận rộng rãi như sau: Theo (Salton, 1968)[49] thì “Truy xuất thông tin là một nhánh nghiên cứu của Khoa học máy tính liên quan đến việc cấu trúc hoá, phân tích, tổ chức, lưu trữ, tìm kiếm và truy hồi thông tin” Định nghĩa tổng quát này có thể được áp dụng cho
nhiều loại thông tin khác nhau và cho nhiều loại ứng dụng tìm kiếm khác nhau Trong [24], tácgiả C.Bourne và B.Anderson đã định nghĩa “Truy xuất thông tin là tìm kiếm thông tin (thường
là các tài liệu) ở một dạng không có cấu trúc (thông thường là văn bản), nhằm thỏa mãn nhu cầu
thông tin của người dùng từ những nguồn thông tin lớn (được lưu trữ trên các máy tính)” Các
Trang 17tác giả khác Bruce R Schatz [21], Roberto Basili and Alessandro Moschitti [80] và Christopher D.
Manning [25], cũng trình bày một số quan điểm về truy xuất thông tin trong đó có các phương
pháp truy xuất thông tin được xem xét, phân loại và đánh giá
Hầu hết các hệ thống truy xuất thông tin thực chất chỉ là hệ thống truy xuất tài liệu(Document Retrieval System - DRS), nghĩa là hệ thống sẽ truy tìm những tài liệu từ một kho lưutrữ hoặc cơ sở dữ liệu Sau đó người dùng sẽ tìm kiếm thông tin ho cần trong các tài liệu liên
quan được trả về Truy xuất tài liệu nhắm đến ngữ cảnh tìm kiếm tài liệu từ một kho lưu trữ
lớn, chủ yếu là dữ liệu văn bản trong đó có xem xét đến việc phân tích và biểu diễn nội dung (tiềm ẩn) của tài liệu Có thể nói, các hệ thống truy xuất tài liệu hiện nay phần lớn vẫn dựa trên
từ khóa và mức độ phổ biến của tài liệu Một danh sách các từ khóa (keyword) hay thuật ngữ
(term) độc lập nhau là dạng biểu diễn sơ lược nhất của nội dung Nghĩa là, mỗi tài liệu được biểu
diễn bởi một tập từ hay cụm từ được rút trích từ chính nội dung của tài liệu và do đó, cách biểu
diễn này mang mức độ thông tin còn thấp Mối quan hệ ngữ nghĩa giữa các từ khóa hay nghĩa
của các từ (cụm từ) không được xét đến Vấn đề khó khăn đối với người sử dụng những hệ thống
truy xuất thông tin dựa trên từ khóa là ở khả năng mô tả nhu cầu thông tin bằng một số từ khóa
biểu diễn và chuyển nhu cầu này thành dạng thức truy van phù hợp với hệ thống Đặc biệt đối
với người sử dụng ít kinh nghiệm không thể đặc tả đúng từ khóa cho vấn đề cần tìm kiếm [5].
Đó chính là những lý do cơ bản khiến cho các hệ thống hiện nay có kết quả trả về không phảilúc nào cũng thỏa mãn yêu cầu tìm kiếm của người sử dụng, như là độ chính xác không cao
khi kết quả trả về quá nhiều mà tỷ lệ số tài liệu hữu ích trên tổng số tài liệu trả về thấp, hoặc
có thể không tìm thấy được những tài liệu liên quan khi chúng được mô tả với những từ khóa
khác đồng nghĩa, gần nghĩa hoặc có liên quan với từ khóa mà người dùng tìm kiếm (độ bao phủ
không cao) Nhược điểm cơ bản này đã gây ra không ít khó khăn cho người sử dụng trong việc
tìm kiếm chính xác thông tin mình cần
Từ những mô hình tìm kiếm đơn giản ban đầu như Boolean, nhiều tác giả đã nỗ lực cải
thiện hiệu quả của việc tìm kiếm thông qua các mô hình phức tạp hơn như Mô hình Boolean cảitiến (Advanced Boolean Model), Mô hình Không gian Vector (Vector Space Model)[50], các môhình xác suất (Probabilitic Models) như BM25, BM25*, Divergence From Randomness [86], Mô
hình Ngôn ngữ (Language Model)[57], Chi mục ngữ nghĩa tiềm ẩn (Latent Semantic Indexing
- LSD[85], Probabilistic Latent Semantic Analysis (PLSA)[100], Thừa số hóa ma trận không âm(Non-negative Matrix Factorization - NMF)[32], Latent Dirichlet Allocation - LDA [34], và các
mô hình chủ đề khác (Topic Models)
Nhiều nghiên cứu sử dụng các kỹ thuật khác nhằm hỗ trợ quá trình tìm kiếm như thay đổi
cách đánh trọng số [46, 51], đưa vào xử lý ngôn ngữ tự nhiên [87, 96, 78, 73], nhận diện thực thể có tên (Named-Entity Recognition - NER)[59], khử nhập nhằng (Word Sense Disambiguation)[29],
mở rộng câu truy vấn (Query Expansion)[14], mở rộng tài liệu (Document Expansion) [68], fuzzy
[36, 92], khai thác các nguồn tri thức như WordNet, Cyc, SUMO, UMLS, Sensus, Wikipedia [5],
sử dụng mạng neural và kỹ thuật trong máy học [40, 54], phân tích ngữ nghĩa tiềm ẩn (Explicit
Semantic Analysis) [74], khai thác thông tin phản hồi của người dùng cũng góp phần làm
tăng hiệu quả tìm kiếm Mặc dù có nhiều cải tiến để cải thiện kết quả nhưng hạn chế của việc
4
Trang 18sử dụng từ khóa vẫn chưa được khắc phục.
Hiện nay, trong lĩnh vực khoa học máy tính cũng có một sự chuyển hướng dần đến những thứ mà có thể gọi là sự hướng tri thức hoặc xử lý ngữ nghĩa Theo đó, những hệ thống tìm kiếm
dựa trên khái niệm (concept search, concept - based search) hay tìm kiếm theo ngũ nghĩa
(semantic search) được nghiên cứu phát triển nhằm thay thế cho những hệ thống truyền thống vốn đã bộc lộ nhiều khuyết điểm lớn Không giống như hệ thống tìm kiếm dựa trên từ khóa vốn
so trùng một cách chính xác những gì người dùng cung cấp, hệ thống tìm kiếm theo ngữ nghĩa tìm kiếm những gì người dùng nghĩ Những cách tiếp cận theo hướng ngữ nghĩa sẽ cố gắng
thực hiện việc phân tích cú pháp và ngữ nghĩa, hướng tới mô phỏng một cách tự nhiên cách con
người giao tiếp, nghĩa là mô phỏng cấp độ hiểu của máy tính về ý nghĩa của từ, cụm từ hay văn
bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ Ý tưởng chính đằng sau
các giải pháp tìm kiếm theo ngữ nghĩa là sử dụng các nguồn tài nguyên giàu ngữ nghĩa để giải nghĩa cho các từ/cụm từ, từ đó có thể giải nghĩa cho cả câu truy vấn và các tài liệu Xử lý ngữ nghĩa cũng được hiểu theo nhiều cấp độ (từ, ngữ, câu, đoạn văn hay toàn bộ văn bản) và ở nhiều
khía cạnh (hình thái, ngữ pháp, ngữ nghĩa) Tuy nhiên, phần lớn các nghiên cứu hiện nay tập
trung vào khai thác nghĩa từ vựng, tức là khai thác và biểu diễn nghĩa của các từ trong câu truy
vấn và tài liệu
Ngày nay, vấn đề tìm kiếm tài liệu theo ngữ nghĩa phải đối mặt với nhiều thách thức lớn
Vấn đề quan trọng đầu tiên cần phải giải quyết là lựa chọn một phương pháp biểu diễn cho tài
liệu, tức là chuyển đổi tài liệu văn bản thành dạng có cấu trúc phù hợp với chương trình máy
tính trong khi vẫn có thể mô tả được nội dung nồng cốt của văn bản đó Để khắc phục những hạn chế trong việc biểu diễn tài liệu từ những mô hình truyền thống, nhiều nghiên cứu khác nhau [30, 39, 43, 58] đã nổ lực thay đổi cách thức biểu diễn cho tài liệu, khi đó, nội dung của tài liệu được biểu diễn bởi những mô hình mang mức độ thông tin cao hơn, giàu ngữ nghĩa hơn, dựa
trên các khái niệm hơn là các từ/cụm từ đơn lẻ Với quan điểm rằng, hiểu nội dung của một tài liệu đòi hỏi phải có sự hiểu biết về các khái niệm, các thực thể chính trong tài liệu đó cũng như cách thức mà chúng liên hệ với nhau và hơn hết, đồ thị lại là một cấu trúc toán học có khả năng
mô hình hóa mối quan hệ cùng với các thông tin quan trọng về cấu trúc một cách hiệu quả Từ
ý tưởng này, nhiều mô hình đồ thị đã được đề xuất như mạng ngữ nghĩa, đồ thị khái niệm CGs,CGs cải tiến, đồ thị hình sao, đồ thị tần số, đồ thị khoảng cách, đồ thị đồng hiện được đánh gia
là có nhiều tiềm năng sử dụng, có nền tảng lý thuyết chặt chẽ, rõ ràng và hiệu suất thực nghiệm
tốt [7], [94] Tiếp cận đồ thị không ngừng được nghiên cứu phát triên và được ứng dụng
vào dãy rộng các bài toán liên quan đến xử lý văn bản nhưng chưa có nghiên cứu nàothực sự tập trung vào bài toán tìm kiếm tài liệu đáp ứng yêu cầu truy vấn thuộc một
miền tri thức nhất định Đây chính là động lực thúc day nghiên cứu bài toán này.
Ngoài ra, để rút trích khái niệm từ tài liệu, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực nhất định nào đó Một số dạng nguồn tri thức có thể kể đến như cây khái niệm phân cấp
(conceptual taxonomy), ontology miền (domain ontology), mạng ngữ nghĩa (semantic linguistic
network of concept), từ điển đồng nghĩa (thesaurus) Như vậy, việc nghiên cứu các mô hình biểu
diễn tri thức cũng như xây dựng và phát triển các nguồn tri thức có ý nghĩa vô cùng quan trọng.
5
Trang 19Chúng được xem là những công cụ đầy sức mạnh nhằm giảm thiểu sự tối nghĩa, sự nhập nhằng
về nghĩa, cung cấp cơ sở ngữ nghĩa và làm nền tảng nghiên cứu cho các hệ thống truy xuất
thông tin/tai liệu Trong số những mô hình này, có thể nói ngày nay ontology đang được chú ý nhiều nhất Công nghệ ontology là một công nghệ đang phát triển rất nhanh, một số lượng lớn các phương pháp và ứng dụng dựa trên ontology đang được nhiều tổ chức khác nhau trên thế giới phát triển.
Hiện nay, một trong những hướng nghiên cứu về ontology là cố gắng xây dựng các cơ sở
lý thuyết và kỹ thuật tích hợp tri thức từ nhiều nguồn ontology khác nhau, cũng như việc xây
dựng các mô hình ontology hướng đến chia sẻ và kết nối tri thức giữa nhiều hệ thống máy tính[23] Mục tiêu này đưa đến các cơ sở tri thức đa lĩnh vực cực kỳ đồ sé như DBpedia !, YAGO 2đều là những cơ sở tri thức uy tín và được sử dụng trong nhiều ứng dụng khác nhau Tuy nhiên,ngay cả khi có sự trợ giúp của những nguồn tri thức đa lĩnh vực này, bài toán tìm kiếm trên thực
tế vẫn là một thách thức lớn.
Vì thế trong lĩnh vực truy xuất thông tin hiện nay đang có xu hướng chuyển dịch sang
việc tập trung vào các bài toán đặc thù trong một miền tri thức nhất định Sự tập trung này cho
phép ontology có thể được tùy biến phù hợp hơn với từng miền tri thức và từng bài toán cụ thể, qua đó giúp máy tính có thể hiểu chính xác hơn các tài liệu và câu truy vấn cần tìm kiếm Đã có những ontology rất nổi tiếng và uy tín, được sử dụng trong nhiều nghiên cứu khác nhau như:
ontology MeSH và SNOMED CT ¢ trong miền y khoa, PhySH ° miền vật lý, JEL 5 trong miền kinh tế , AGROVOC7 va AgriOntology ® trong miền nông nghiệp, CSO ? trong miền Khoa học
máy tính va MSC !° trong miền toán học Tuy đã có nhiều ontology được xây dựng và chia
sẻ, hầu hết các ontology như vừa kẽ trên đều không được xây dựng dé hướng đến baitoán truy xuất tài liệu nói chung, cũng như bài toán tìm kiếm tài liệu thuộc một miềntri thúc nói riêng
Một vấn đề được quan tâm khác là đặc tả câu truy vấn của người dùng Người sử dụng
thường gặp khó khăn trong việc đặc tả đúng từ khóa cho vấn đề cần tìm kiếm Có thể có nhiều
lý do dẫn đến sự mơ hồ và thiếu chính xác trong các câu truy vấn này, chẳng hạn như thiếu kiến
thức về chủ đề hoặc sự mơ hồ, nhập nhằng vốn có của ngôn ngữ tự nhiên Câu truy vấn không
phù hợp hoặc thiếu chính xác sẽ dẫn đến những kết quả tìm kiếm nghèo nàn Vấn đề này có
thể được giải quyết bang cách hệ thống sẽ thực hiện các sửa đối tự động hoặc mở rộng câu truy
vấn Một kỹ thuật có hiệu quả khác là khai thác thông tin dựa trên sự tương tác và phản hồi
của người dùng Việc cải thiện phép biểu diễn cho tài liệu và/hoặc câu truy vấn có vai trò quan
Trang 20trọng, góp phân cải thiện hiệu quả tìm kiếm của các hệ thống theo hướng ngữ nghĩa Bên cạnh
đó, để trả về danh sách các tài liệu (được sắp hạng) có liên quan, đáp ứng yêu cầu của người sử
dụng, hệ thống sẽ so khớp biểu diễn của câu truy vấn với biểu diễn của các tài liệu Làm thế nào
để so khớp chúng lại là một vấn đề khác Đã có nhiều độ đo được đề xuất để đánh giá mức độ tương đồng ngữ nghĩa giữa một câu truy vấn và tài liệu, tuy nhiên lựa chọn một độ đo phù hợp
để sử dụng cũng là một vấn đề khó khăn.
Ngoài ra, kích thước lớn của các kho tài liệu văn bản cũng làm phức tạp vấn đề biểu diễn,
lưu trữ và truy tìm tài liệu Hơn nữa, người sử dụng có thể có những nhu cầu tìm kiếm khác
nhau Một số người dùng đòi hỏi các tài liệu trả về phải thuộc một phạm vi lĩnh vực hay mộtchủ đề giới hạn nào đó, trong khi những người khác yêu cầu các tài liệu có phạm vi rộng hơn
Những nhu cầu khác nhau của người dùng dẫn đến các tiếp cận nghiên cứu khác nhau, từ đó
làm phong phú thêm các phương pháp và kỹ thuật có trong lĩnh vực Chương 2 sẽ trình bày và
phân tích chi tiết hơn vấn đề biểu diễn ngữ nghĩa và tìm kiếm theo ngữ nghĩa trong ngữ cảnh
xây dựng các hệ ứng dụng mà đề tài đang hướng đến, phân loại các giải pháp tìm kiếm hiện có,
nhận định ưu nhược điểm của mỗi phương pháp và lựa chọn hướng tiếp cận cho đề tài.
1.3 Định hướng nghiên cứu và mục tiêu của luận án
1.3.1 Định hướng nghiên cứu
Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải pháp cũng như ứng dụng, đề tài tập trung nghiên cứu phát triển một giải pháp tổng thể cho việc thiết kế và xây dựng một lớp hệ thống ứng dụng mới gọi là “Hệ quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”.
Các hệ thống thuộc lớp ứng dụng này sẽ bao gồm 2 nhóm chức năng chính như sau:
1) Tổ chức quản lý và bảo quản: lưu trữ, quản lý quy trình nghiệp vụ xử lý và thao tác với tài liệu như cập nhật, thống kê, kiểm soát, bao hàm các chức năng quản lý có xử lý ở mức độ
ngữ nghĩa
2) Tìm kiếm: hệ thống cho phép truy tìm tài liệu trong kho lưu trữ theo nhiều chứcnăng, đặc biệt là chức năng tìm kiếm dựa trên tri thức của lĩnh vực hay theo ngữ nghĩa liênquan đến nội dung của tài liệu, theo đó hệ thống sẽ không so trùng một cách chính xác những
gì người dùng cung cấp mà sẽ tìm cách hiểu nghĩa dựa trên các khái niệm có liên quan đến từ
khóa tìm kiếm và trả về tập tài liệu kết quả phù hợp với ý định của người dùng
Giải pháp cho việc thiết kế, xây dựng hệ thống ứng dụng sẽ bao gồm các mô hình, vấn
đề kỹ thuật, phương pháp, nguyên lý, thuật giải, qui trình, công cụ để tổ chức các kho tài liệu văn bản, trong đó cố gắng quản lý được các thông tin ngữ nghĩa liên quan đến nội dung của tài
liệu cũng như hỗ trợ biểu diễn và xử lý ngữ nghĩa trong quá trình tìm kiếm tài liệu; bên cạnh đó
đưa ra các định chuẩn cũng như phương pháp đánh giá hiệu quả hoạt động của hệ thống dựa
trên lý luận và thực nghiệm
Áp dụng giải pháp được đề xuất, thực hiện xây dựng một vài hệ thống ứng dụng thử
Trang 21nghiệm, có thể kể đến như Hệ quản lý kho tài nguyên học tập theo ngữ nghĩa thuộc một chuyên
ngành đặc biệt như Công nghệ Thông tin, Hệ tìm kiếm chọn lọc tin bài trên các báo điện tử trong
một số lĩnh vực đặc thù, Hệ hỗ trợ tìm kiếm việc làm và tuyển dụng trong ngành Công nghệThông tin.
Đầu tiên, đề tài sẽ nghiên cứu giải quyết một số vấn đề kỹ thuật có trong giải pháp, đặc
biệt là vấn đề “Iìm kiếm theo ngũ nghĩa trên một kho tài liệu văn bản có liên quan đến
một lĩnh vực tri thúc chuyên ngành nào đó” Mặc dù đã có nhiều tiến bộ trong nghiên cứu
về tìm kiếm tài liệu văn bản nhưng vẫn còn khoảng cách khá xa giữa nhu cầu ứng dụng và các
kết quả đạt được Luận án tập trung nghiên cứu phát triển các kỹ thuật tìm kiếm tài liệu hiện có, cũng như những kỹ thuật phân tích dữ liệu văn bản dựa trên ngữ nghĩa và tri thức miền, nhằm
tích hợp chúng đề tăng cường hiệu quả giải quyết các bài toán đã đặt ra.
1.3.2 Mục tiêu nghiên cứu
1) Đề tài sẽ tập trung nghiên cứu một phương pháp mới cho bài toán Tìm kiếmtài liệu theo ngii nghĩa thuộc một miền tri thức xác định, làm cơ sở khoa học cho việc thiết
kế, xây dựng các hệ thống tìm kiếm tài liệu ứng dụng trong thực tiễn.
Bài toán tìm kiếm theo ngữ nghĩa trên một kho tài liệu D thuộc về một miền tri thức
cụ thể K được mô tả như sau: từ câu truy vấn người dùng nhập vào, hệ thống tìm kiếm và trả
về danh sách các tài liệu (được sắp hạng) trong D có nội dung liên quan và phù hợp với thông
tin truy vấn Những tài liệu này không nhất thiết phải chứa chính xác từ khóa tìm kiếm Câu
truy vấn thể hiện nhu cầu thông tin hay ý định tìm kiếm của người dùng, là một phát biểu ở thể khẳng định (không phải là dạng câu hỏi đáp) bằng ngôn ngữ tự nhiên, được đặc tả dưới dạng
gồm một hay nhiều từ (cụm từ) được phân cách với nhau bằng khoảng trắng, tối đa 10 cụm tu.
Cụm từ có thể được đặt trong cặp nháy kép Các từ (cụm từ) chỉ đến một khái niệm hoặc một thực thể mà người dùng quan tâm.
Người dùng tự mô tả câu truy vấn theo vốn từ của họ, không nhất thiết là một câu hoàn chỉnh về mặt ngữ pháp Vì là một bài toán thuộc dang tìm kiếm ngẫu nhiên (adhoc search) nên
thay vì tuân theo một cấu trúc tìm kiếm cố định hoặc hệ thống phân loại sẵn có, hệ thống cho
phép người dùng tìm kiếm một cách linh hoạt và không giới hạn theo một quy tắc cụ thể nào.
Nhiệm vụ chính của bài toán này là tìm kiếm và xếp hạng các tài liệu phù hợp với một truy vấn
người dùng đưa ra mà không có bất kỳ thông tin tiền đề hay chuẩn bị trước Người dùng đưa ra
truy vấn mà không yêu cầu hoặc cần có bất kỳ thông tin gì về cấu trúc hay nội dung của các tàiliệu được tìm kiếm
Dựa trên khảo sát từ nhật ký truy vấn của các máy tìm kiếm như Google và Bing, kết quả
cho thấy phần lớn truy vấn từ người dùng thường có độ dài ngắn và chỉ bao gồm một số cụm
từ, với số lượng cụm từ tối đa là 10 Vì vậy, giới hạn tới tối đa 10 cụm từ có thể phù hợp với mức
độ phổ biến và xu hướng truy vấn thường gặp Hơn nữa, các bộ dữ liệu chuẩn phổ biến trong
Trang 22cộng đồng nghiên cứu về Truy xuất thông tin như TREC !!, NTCIR !“, CLEF l3 đều chứa các
câu truy vấn ngắn với độ dài từ 1 đến 10 từ đơn Những câu truy vấn này tập trung vào một số
từ khoá quan trọng để diễn đạt ý định tìm kiếm cụ thể Điều này cho thấy trong nghiên cứu và
các trường hợp tìm kiếm thông thường, câu truy vấn ngắn thường được ưu tiên để tập trung vào
ý định tìm kiếm cốt lõi và giúp tối ưu hóa hiệu suất tìm kiếm Khi câu truy vấn chứa quá nhiều
cụm từ, quá trình truy vấn có thể trở nên chậm và tốn nhiều tài nguyên tính toán Giới hạn số
lượng cụm từ giúp hạn chế việc xử lý phức tạp và tăng tốc quá trình truy vấn
Ví dụ một số truy vấn như trong Hình 1.1 được xem xét giải quyết trong đề tài này:
quality assurance manager
Cloud Product and Project Manager
Site Reliability Engineer - Big Data Team back end developer nodejs
front end web developer
PHP E-commerce Developer
Embedded Software Engineer Lead Fullstack Software Engineer Python
C# Net Dev
Platform Engineer for Containers
Senior Software Engineer (Java) - using coding to improve
healthcare treatment
Fullstack Software Developer (m-w) Industry Software in Karlsruhe Experienced Semantics Engineer for NLP (Smart Accounting)
Cutting Edge Risk and Compliance software
Hình 1.1 Ví dụ một vài câu truy van mẫu mà dé tài quan tâm giải quyết
Đề tài sẽ nỗ lực cải thiện hiệu quả của việc tìm kiếm thông qua việc nghiên cứu các phương pháp biéu diễn cho tài liệu văn bản cùng với kỹ thuật tính toán độ tương đồng
ngũ nghĩa giữa tài liệu và câu truy vấn Đánh giá hiệu quả tìm kiếm thông qua các độ đonhư độ chính xác (precision), độ bao phủ (recall), và độ F (F-score hoặc còn gọi là F-measure)
Phương pháp tiếp cận là dựa trên ontology và biểu diễn văn bản bằng đồ thị Như vậy, với cách
tiếp cận được nêu trên, các bài toán con cần giải quyết bao gồm:
a Nghiên cứu mô hình ontology biểu diễn tri thức thuộc một miền tri thức nhất định, qua đó làm căn cứ để biểu diễn ngữ nghĩa cho tài liệu
b Nghiên cứu mô hình và kỹ thuật biểu diễn (nội dung) tài liệu (trên cơ sở đã mô hình
hóa được miền tri thức mà tài liệu thuộc về)
c Tính khoảng cách ngữ nghĩa giữa các keyphrase (hay các khái niệm) thông qua việc
khai thác nguồn tri thức ontology miền dựng sẵn
d So khớp và tính toán mức độ tương đồng ngữ nghĩa giữa các cấu trúc biểu diễn cho
1ihttps://trec.nist.gov/
12http://research.nii.ac.jp/ntcir/
13h ttp://clef-initiative.eu/
Trang 23nội dung của tài liệu và câu truy vấn
Kỹ thuật biểu diễn tài liệu cần phải giải quyết được (phần nào) hai vấn đề nhập nhằng
của ngôn ngữ tự nhiên là từ đồng nghĩa và từ nhiều nghĩa Ngoài ra, phương pháp biểu diễn cần phải tận dụng được tài nguyên tri thức có sẵn nhằm hỗ trợ quá trình tìm kiếm Bên cạnh đó,
các kỹ thuật đánh giá độ tương đồng ngữ nghĩa phải khả thi về mặt tốc độ xử lý và đạt được độ
chính xác cao, dẫn đến hiệu quả tìm kiếm được cải thiện so với các phương pháp hiện có Đề
tài nghiên cứu phương pháp tìm kiếm tài liệu theo hướng cải tiến độ chính xác và độ bao phủ,không đặt vấn đề về hiệu năng (thời gian xử lý truy vấn, kích thước chỉ mục, xử lý phân tán)
của hệ thống khi được triển khai thực tế.
2) Nghiên cứu giải pháp thiết kế, xây dung một lớp hệ thống mới, gọi là “Hệ thống quản lý cơ sở tài liệu văn bản theo ngữ nghĩa”, bằng cách đưa ra những đặc trưng cơ bản của hệ thống để phân biệt với những loại hệ thống khác, Kiến trúc hệ thống, Quy trình xây dựng và đặt ra một số vấn đề kỹ thuật cần phải giải quyết Xây dựng một số hệ thống ứng dụng cụ thể
để chứng minh tính hữu ích và khả thi của các ý tưởng nghiên cứu đã đề xuất; tiến hành thực
nghiệm trên các Bộ dữ liệu mẫu để so sánh, đánh giá hiệu quả tìm kiếm trong giải pháp.
3) Nghiên cứu một phương pháp mới cho bài toán Do lưởng múc độ tương đồng
ngũ nghĩa giữa hai tài liệu thuộc về một miền tri thức đặc biệt hoặc thuộc tri thúc tổng
quát nói chung Cách tiếp cận được lựa chọn trong đề tài này được kỳ vọng là có thể ứng dụng
vào một dãy rộng các bài toán liên quan đến xử lý văn bản Tính khả dụng cao được thể hiện ở
việc không chỉ sử dụng đối với một bài toán tìm kiếm nhất định mà có thể linh động, tùy biến được để ứng dụng trong không chỉ một mà rất nhiều các bài toán có dạng tương tự Trong đề
tài này, bên cạnh vấn đề tìm kiếm theo ngữ nghĩa, lợi ích của mô hình biểu diễn tài liệu dựa
trên đồ thị và các kỹ thuật có liên quan còn được minh chứng thông qua bài toán đo lường độ
tương đồng ngữ nghĩa giữa hai tài liệu Lí do của việc lựa chọn bài toán mở rộng này là: 1) một
số lượng lớn các điểm chuẩn đã được công bố để làm tiêu chuẩn so sánh; 2) có thể tùy chỉnh các
kỹ thuật trong Bài toán tìm kiếm để áp dụng cho Bài toán mới.
1.3.3 Phạm vi nghiên cứu
Kho tài liệu văn ban (thô) D = {dị, da, dạ} thuộc một miễn tri thức K, giới han trong
phạm vi ngôn ngữ là tiếng Anh Các tài liệu được lưu trữ cục bộ trên máy tính dưới các định dang
văn bản tiêu chuẩn Kho tài liệu bao gồm những tập tin văn bản có cùng một “cấu trúc tương đối xác định”(nghĩa là được chia thành nhiều mục nội dung đặc thù) chang hạn như kho bài báo khoa học (papers), kho sách điện tử (ebooks), kho tin bài tuyển dụng việc làm (job postings)
hoặc kho tin bài trên báo điện tử (articles) Có sự giới hạn miền tri thức cho nội dung của các tàiliệu được tìm kiếm
Nhu cầu ban đầu cần có ontology là để cung cấp các nguồn thông tin giàu ngữ nghĩa mà
máy tính có thể xử lý và thao tác được, đồng thời vẫn có thể dùng ontology để chia sẻ tri thức,
chia sẻ hiểu biết chung giữa người với người, giữa con người với hệ thống cũng như giữa các hệ
10
Trang 24thống với nhau Trong phạm vi nghiên cứu, dé tài chủ yếu quan tâm đến các ontology miễn, còn
gọi là ontology lĩnh vực, tuy nhiên các ontology sẵn có chủ yếu tập trung trong các lĩnh vực y
khoa hoặc một số ít lĩnh vực đặc thù khác như toán học, sinh học, địa lý Hơn nữa, các ontologynày thường là mô tả tri thức ở các mức độ chỉ tiết khác nhau, không có một khuôn dạng chung
để biểu diễn thông tin liên quan giữa các ontology và rất khó để vận dụng trực tiếp cho mục
đích của nghiên cứu này Nếu khảo sát kỹ các ontology, chúng ta sẽ thấy sự khác nhau rõ rệtgiữa chúng, ngay cả khi chúng đã được xây dựng cho những mục dich rất tương tự Hơn nửa,việc xây dựng một cơ sở tri thức cho một lĩnh vực cũng gặp nhiều khó khăn vì tốn nhiều chi phi
xây dựng và duy trì vốn phải có sự can thiệp của con người, đòi hỏi kiến thức của chuyên gia về
lĩnh vực và phụ thuộc nhiều vào ngôn ngữ Trong bối cảnh đó, đề tài chỉ tập trung xây dựng thử
nghiệm trên một số miền tri thức nhất định trong các hệ thống ứng dụng cụ thể Khả năng biểu
diễn tri thức miền của ontology được giới han ở một mức độ hợp ly, đủ để làm căn cứ biểu diễn
ngữ nghĩa cho tài liệu và tính toán khoảng cách ngữ nghĩa giữa các khái niệm Dé tài không disâu vào việc suy luận giải quyết vấn đề trên tri thức, cũng như không đặt ra yêu cầu phải đánhgiá ontology một cách độc lập
Đề tài cần phải xây dựng các bộ dữ liệu thực nghiệm làm chuẩn mực để đánh giá hiệu
quả tìm kiếm Bộ dữ liệu thực nghiệm hoàn chỉnh bao gồm: Tập các tài liệu văn bản D =
{dị, dạ, dn}; Tập các câu truy vấn mẫu Q = {q¡, qạ, qmạ}: Một hàm wp : Q x D — {0,1}
đánh giá sự liên quan về nghĩa giữa chúng, j1(q;,d;) = 1 nếu tài liệu dj có liên quan đến câu truy vấn q¡ và u(q¡, dị) = 0 nếu q; và dj không liên quan Độ đo chuẩn / được thiết lập trước bằng phương pháp chuyên gia Đánh giá hiệu quả tìm kiếm thông qua các độ đo như độ chính
xác, độ bao phủ và độ F Đánh giá hiệu quả hoạt động của hệ thống là một trong những vấn đề
được nhiều sự quan tâm Có nhiều tiêu chuẩn để đánh giá, song quan trọng nhất là tính hiệu quả
của hệ thống Độ bao phủ và độ chính xác là những độ đo cho tính hiệu quả được sử dụng rộng
rãi nhất hiện nay Vì mục tiêu chính của Truy xuất thông tin là để tìm kiếm những tài liệu có
liên quan đến thông tin truy vấn, hiểu những gì tạo nên “sự liên quan” cũng là một vấn đề quan trọng Sự liên quan là mang tính chủ quan và chỉ người dùng mới có thể khẳng định được là có liên quan hay không Tuy nhiên, ta không thể đo lường độ liên quan thực sự này Người ta có thể xác định mức độ liên quan theo cách như sau: sự liên quan được xem như là một khái niệm nhị phân, trong khi nó là một hàm liên tục (một tài liệu có thể được xem là chính xác những gì người sử dụng mong muốn hoặc nó có thể gần đúng hay chấp nhận được) Kỹ thuật đánh giá
hiện tại không hỗ trợ sự liên tục này Hầu hết các đánh giá cho đến nay đều được thực hiện theo kiểu “không trực tuyến”, tức là dựa trên các bộ dữ liệu thử nghiệm đã xây dựng sẵn trước đó,
trong đó sự liên quan đã được xác định trước
Trang 25trong quá trình tìm kiếm Giải pháp được đề xuất đi theo tiếp cận dựa trên đồ thị và tận dụngmột ontology miền với độ mịn cao để làm cơ sở cải thiện hiệu quả tìm kiếm các tài liệu thuộc
miền Giải pháp được đánh giá chủ yếu theo phương pháp đánh giá tổng thể, theo đó kết quả tìm kiếm sau cùng của toàn bộ hệ thống sẽ được đem ra xem xét và không đặt nặng việc đánh giá chỉ tiết từng khâu xử lý riêng lẻ Các đóng góp chính của đề tài được tóm tắt như sau:
+ (ĐG.1) Đề xuất một phương pháp mới cho việc giải quyết bài toán tìm kiếm tai
liệu theo ngũ nghĩa thuộc một miền tri thức xác định
Nghiên cứu về tìm kiếm theo ngữ nghĩa chủ yếu tập trung cải thiện hiệu quả tìm kiếmtheo hướng chính như sau:
(1.1) Đề xuất một phương pháp biểu diễn tri thức về một lĩnh vực đặc biệt theo tiếp cận ontology, làm căn cứ để biểu diễn ngữ nghĩa cho tài liệu, cùng với việc xây dựng các cơ sở tri
thức của miền ứng dụng được quan tâm
Vai trò quan trọng của ontology trong giải pháp là cung cấp một cơ sở ngữ nghĩa tường
minh nhằm hỗ trợ giải quyết các nhiệm vụ cốt lõi trong tìm kiếm như: sử dụng ngữ nghĩa để
giải nghĩa cho các từ/cụm từ, từ đó có thể giải nghĩa cho cả câu truy vấn và các tài liệu; đo lường
mức độ tương quan ngữ nghĩa giữa các keyphrase; rút trích các keyphrase đặc trưng của tài liệu
và xác định quan hệ ngữ nghĩa giữa chúng Ngoài ra, mục đích áp dụng ontology trong các hệ
thống quản lý cơ sở tài liệu văn bản theo ngữ nghĩa là: biểu diễn và lưu trữ tri thức về các lĩnh
vực cũng như các đối tượng cần thiết trong ứng dụng; xây dựng các mô hình tổ chức lưu trữ,
mô hình biểu diễn ngữ nghĩa, biểu diễn tài liệu; tổ chức lập chỉ mục, hỗ trợ xử lý và tìm kiếm
theo ngữ nghĩa liên quan đến nội dung tài liệu Cấu trúc ontology được thiết kế có tính tổng
quát và dễ dàng mở rộng cho nhiều lĩnh vực khác nhau cũng như các loại hình ứng dụng khác
nhau Một nhóm các chuyên gia hay còn gọi là kỹ sư tri thức sẽ chịu trách nhiệm xây dựng vàcải tiến lược đồ ontology này Kết qua này được công bố trong công trình [CT1][CT2][CT3] vàđóng góp ở Chương 3 của luận án
(1.2) Đề xuất một phương pháp biểu diễn ngữ nghĩa cho tài liệu văn bản theo tiếp cận đồ
thị (trên cơ sở đã mô hình hóa được miền tri thức mà tài liệu thuộc về), cùng với kỹ thuật tínhtoán độ tương đồng ngữ nghĩa giữa tài liệu và câu truy vấn, làm cơ sở khoa học cho việc thiết
kế, xây dựng các hệ thống tìm kiếm tài liệu theo ngữ nghĩa ứng dụng trong thực tiễn Kết quả
này được công bố trong các công trình [CT1][CT2][CT3], đóng góp ở Chương 4 của luận án.
Luận án đề xuất các mô hình đồ thị keyphrase dé biểu diễn cho nội dung tài liệu cùng
với kỹ thuật xây dựng đồ thị, trong đó tận dụng được các thông tin quan trọng về cấu trúc va
các mối quan hệ ngữ nghĩa vốn không được xét đến trong các mô hình truyền thống Theo cách
thức biểu diễn này, việc đo lưởng mức độ liên quan giữa một câu truy vấn và một tài liệu được thực hiện thông qua đánh giá độ tương đồng giữa hai đồ thị keyphrase biểu diễn chúng Đề tài
chọn cách tiếp cận dựa trên đồ thị bởi vi: (i) đồ thị là một cấu trúc toán học có thể mô hình hóa mối quan hệ cũng như thông tin cấu trúc một cách hiệu quả; (ii) tính phổ biến và có thể được sử dụng với bất kỳ nguồn tri thức dạng đồ thị nào, bất kể bộ từ vựng cụ thể của nguồn tri thức đó
là gì; (iii) đồ thi đã được chứng minh là mang lại hiệu quả đối với các tác vụ cần hiểu về ngôn
12
Trang 26ngữ Phương pháp tiếp cận dựa trên đồ thị đã được nghiên cứu và áp dụng rộng rãi cho nhiềubài toán khác nhau do có nền tảng lý thuyết chặt chẽ, rõ ràng và hiệu suất thực nghiệm tốt.Vai trò và tầm quan trọng của các độ đo tương đồng là khá rõ ràng khi mà chúng được sử dụngtrong nhiêu bài toán như một công cụ thiết yếu Bởi vì độ tương đồng là một khái niệm cơ bản,
nên không có gì ngạc nhiên khi hiện nay có rất nhiều giải thuật khác nhau để tính toán mức độ
tương đồng giữa các đối tượng, đặc biệt các công trình nghiên cứu về đánh giá độ tương đồng
giữa các tài liệu văn bản, giữa tài liệu và câu truy vấn đã và đang diễn ra sôi nổi Như vậy, những
biến đổi về mô hình sẽ dẫn tới nhiều thay đổi về kỹ thuật so khớp và đo lường mức độ tương
đồng ngữ nghĩa
+ (DG.2) Đề xuất một giải pháp tổng thé, mang tính hệ thống cho việc thiết kế va
xây dựng một lớp hệ thống ứng dụng gọi là “Hệ quản lý cơ sở tài liệu văn bản theo
ngũ nghĩa”
Áp dụng giải pháp được nghiên cứu để xây dựng một vài hệ thống ứng dụng cụ thể thuộc
dạng Hệ thống quản lý kho tài nguyên học tập lĩnh vực Khoa học máy tính, Hệ quản lý chọn lọctin bài trên báo mạng lĩnh vực Lao động việc làm, Đầu tư công và Đầu tư nước ngoài, Hệ quản
lý và tìm kiếm tin bài tuyển dụng việc làm lĩnh vực Công nghệ thông tin Thiết kế thực nghiệm
và xây dựng các Bộ dữ liệu mẫu để so sánh và đánh giá hiệu quả tìm kiếm trong giải pháp đã đề
xuất Kết qua này được công bố trong các công trình [CT1][CT2][CT3], đóng góp ở Chương 5của luận án
Các kết quả thực nghiệm bước đầu cho thấy giải pháp đã đề xuất là khả quan và có khả
năng ứng dụng tốt Giải pháp tìm kiếm khi được triển khai thành sản phẩn ứng dụng, đã đáp
ứng tốt hơn nhu cầu tìm kiếm tài liệu của người dùng Thông qua việc thực nghiệm và đánh giá
với các tiếp cận truyền thống, đề tài góp phần khẳng định được giá trị của việc khai thác thông
tin của ontology miễn và biểu diễn văn bản bằng đồ thị vào việc giải quyết bài toán tìm kiếm Từ
đó, góp thêm động lực cho hướng tiếp cận này trong các đề xuất tương lai Các kết quả nghiêncứu liên quan sẽ là cơ sở và công cụ cho việc xây dựng nhiều hệ thống quản lý tài nguyên khác
nhau như quản lý kho tài nguyên học tập tổng quát cho mọi lĩnh vực, quản lý thư viện tổng hợp,
quản lý văn bản hành chính, văn bản pháp luật và các hệ thống số khác
+ (ĐG.3) Đề xuất một phương pháp mới giải quyết bài toán đo lường độ tương đồng
ngũ nghĩa giữa hai tài liệu Kết quả này được công bố trong các công trình [CT4][CT5],đóng góp ở Chương 6 của luận án
Bên cạnh vấn đề tìm kiếm theo ngữ nghĩa, lợi ích của mô hình biểu diễn tài liệu dựa trên
đồ thị keyphrase còn được minh chứng thông qua bài toán đo lường độ tương đồng ngữ nghĩa
giữa hai tài liệu Phương pháp này tạo ra các biểu diễn có cấu trúc của văn bản bằng cách sử
dụng những cơ sở tri thức có kích thức lớn và rất phổ biến như DBpedia, Wikipedia để thu thập
thông tin chỉ tiết về các khái niệm, thực thể và các mối quan hệ ngữ nghĩa của chúng, do đó dẫn đến cách diễn giải giàu tri thức hơn cho tài liệu.
Bên cạnh các đóng góp về mặt khoa học và ứng dụng, đề tài còn có các đóng góp khác
13
Trang 27như sau:
+ Cơ sở tri thức của các lĩnh vực Khoa học máy tính, Việc làm lĩnh vực Công nghệ
thông tin, Lao động việc làm - Đầu tư công và Đầu tư nước ngoài
« Các bộ đũ liệu thủ nghiệm tương ứng với 3 hệ thống ứng dung đã được xây dựng,
làm chuẩn mực dé đánh giá hiệu qua tìm kiếm.
1.5 Kết chương
Bài toán tìm kiếm tài liệu là một bài toán được đặt ra từ những ngày đầu của lĩnh vực
truy xuất thông tin Da số các đề xuất giải pháp trong lĩnh vực đều hướng đến giải quyết bài
toán này và mục tiêu của luận án cũng không ngoại lệ Với thách thức đặt ra về việc cải thiện
hiệu quả trong tìm kiếm thông qua cải tiến độ chính xác và độ bao phủ, đề tài nghiên cứu các
phương pháp biểu diễn ngữ nghĩa cho tài liệu cùng với kỹ thuật tính toán độ tương đồng ngữ
nghĩa giữa tài liệu và câu truy vấn Nhận thấy tiêm năng ứng dụng của cách tiếp cận dựa trên
ontology và biểu diễn văn bản bằng đồ thị, đề tài sẽ tập trung phân tích khả năng ứng dụng của
các mô hình, nghiên cứu các phương pháp và kỹ thuật đã có, qua đó tìm cách vận dụng, phối
hợp, cải tiến, phát triển nhằm tăng cường hiệu quả giải quyết các bài toán đã đặt ra Chương 2
( kèm theo Phụ lục 1, 2) sẽ trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề truy xuất
thông tin, vấn đề biểu diễn ngữ nghĩa của tài liệu, các lý thuyết nền tảng về ontology cùng với
các phương pháp, kỹ thuật xây dựng ontology cho lĩnh vực
14
Trang 28Chương 2 CƠ SỞ LÝ THUYẾT
Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề Biểu diễn tài liệu và
Tìm kiếm tài liệu theo ngữ nghĩa, hệ thống hóa các công trình nghiên cứu trong và ngoài nướcliên quan đến nội dung nghiên cứu của đề tài, tử đó, chỉ ra hướng tiếp cận và phương pháp làmnền tảng cho các đóng góp của luận án ở các chương sau
2.1 Van dé tìm kiếm tài liệu theo ngữ nghĩa và các hương tiếp cận
2.1.1 Khái niệm Tìm kiếm theo ngũ nghĩa
Tìm kiếm theo ngũ nghĩa (semantic search) là một khái niệm được sử dụng rộng rãibởi nhiều cộng đồng nghiên cứu khác nhau Có rất nhiều định nghĩa khác nhau, thậm chí mâu
thuẫn nhau về ngữ nghĩa và tìm kiếm theo ngữ nghĩa Đây từng là đề tài tranh cãi giữa các tác
giả, các nhóm nghiên cứu, thậm chí có nhiều bài báo mà nội dung chính là so sánh và phân tíchcác định nghĩa này Sau đây là một số định nghĩa thường được sử dụng và thừa nhận rộng rãi:
Theo Google và nhiều nhóm nghiên cứu khác [80], “Tìm kiếm theo ngữ nghĩa là tiếp cận
nhằm nổ lực cải thiện hiệu quả của việc tìm kiếm bằng cách cố gắng hiểu được ý định, mong
muốn tìm kiếm của người dùng và ý nghĩa theo ngữ cảnh của các từ hay cụm từ xuất hiện trong
câu truy vấn, để trả về các kết quả có liên quan” Định nghĩa tổng quát trên có thể áp dụng cho nhiều loại ứng dụng tìm kiếm khác nhau từ tìm kiếm trên Web với thông tin nằm rải rác và phân tán hay trong một hệ thống khép kín, giới hạn sự chú ý vào các phạm vi cụ thể Cũng có nhiều tác giả quan niệm rằng “Thuật ngữ Tìm kiếm theo ngữ nghĩa thường được dùng để chi đến những cách tiếp cận có sử dụng nhiều nguồn tài nguyên hay nhiều thông tin khác nhau để
thực hiện tìm kiếm chứ không phải chỉ dựa trên các từ khóa” [63, 90, 107] Các nghiên cứu này
sử dụng các nguồn tài nguyên giàu ngữ nghĩa hơn để giải nghĩa cho các từ hay cụm từ, nhằm hiểu được ý định truy van của người dùng trong một ngữ cảnh cụ thể, thay vì chỉ xét đến các từ khóa hay chỉ sử dụng ý nghĩa từ điển của từng từ (cụm từ) trong câu truy vấn Một định nghĩa
cũng thường được sử dụng “Tìm kiếm theo ngữ nghĩa chỉ đến những cách tiếp cận có sử dụng
ngữ nghĩa hoặc phân tích ngữ nghĩa nhằm nâng cao hiệu quả trong tìm kiếm” [28, 38, 106] Có
nhiều quan niệm về “ngữ nghĩa”, mỗi chuyên ngành hiểu thuật ngữ này theo những cách khác
nhau do sự khác nhau về mục tiêu nghiên cứu và phương tiện sử dụng Người ta cũng định ranhiều cấp độ trong phân tích ngữ nghĩa từ cấp độ nghĩa của từ, cụm từ đến nghĩa của câu hayvăn bản [3, 73, 78, 87, 96]
Nhiều bài viết cho rằng, tìm kiếm theo ngữ nghĩa trở thành một chủ đề gây được sự chú
ý từ loạt công trình nghiên cứu về Web ngữ nghĩa (Semantic Web) Bắt đầu từ bài báo được viết
15
Trang 29bởi R Guha cùng các đồng nghiệp tại IBM, Stanford, và W3C vào năm 2003 [52], tìm kiếm theongữ nghĩa mới được thừa nhận rộng rãi và thu hút sự quan tâm ngày càng lớn của giới nghiêncứu trong lĩnh vực Web ngữ nghĩa và Truy xuất thông tin Theo R Guha, ngữ nghĩa tường minh
được thêm vào nhằm cải thiện hiệu quả tìm kiếm Động cơ tìm kiếm ngữ nghĩa sẽ nỗ lực làm
giàu và cải thiện kết quả tìm kiếm ban đầu (có được từ những kỹ thuật tìm kiếm truyền thống)
bằng cách bổ sung dữ liệu có liên quan từ Web ngữ nghĩa Bên cạnh đó, với quan điểm rằng, các cụm từ tìm kiếm thường biểu thị cho một (một vài) khái niệm trong thế giới thực, động cơ tìm kiếm sẽ cố gắng hiểu, nắm bắt ngữ nghĩa và quan hệ giữa các khái niệm qua đó có thể hiểu được
ngữ cảnh và ý định tìm kiếm của người dùng Định nghĩa này sau đó được Hai Dong và các đồngnghiệp [55] làm rõ: khác với các công cụ tìm kiếm truyền thống vốn tập trung vào tần suất xuất
hiện của từ, động cơ tìm kiếm ngữ nghĩa cố gắng hiểu nội dung hay ý nghĩa tiền ẩn bên trong các trang web (hay tài liệu nói chung) cũng như câu truy vấn của người dùng, bằng cách thêm các thẻ ngữ nghĩa (semantic tags) vào trong văn bản, qua đó có thể đặc tả các đối tượng có trong tài liệu bằng cách cấu trúc hóa chúng và xác định thông qua các khái niệm liên quan.
Tóm lại, có rất nhiều định nghĩa khác nhau về ngữ nghĩa và tìm kiếm theo ngữ nghĩa,
mỗi định nghĩa thể hiện một cách nhìn khác nhau Một ý niệm mang tính tổng hợp và đúng
theo định hướng nghiên cứu của đề tài như sau: tìm kiếm theo ngũ nghĩa là một hình thứctìm kiếm ma sử dung “ngii nghĩa tường minh” dé giải quyết các nhiệm vụ cốt lõi trongtìm kiếm, nghĩa là sử dụng ngũ nghĩa dé giải nghĩa cho câu truy vấn và tài liệu, so khớpcâu truy vấn với tài liệu, đánh giá mức độ liên quan và xếp hạng kết quả trả về
2.1.2 Phân loại các cách tiếp cận tìm kiếm theo ngii nghĩa
Đã có nhiều nghiên cứu so sánh và phân loại các cách tiếp cận tìm kiếm theo ngữ nghĩa(chủ yếu trong bối cảnh của Semantic Web) như bài báo của Christoph Mangold [28], ThanhTran [106, 105], E Makela [38], W Wei [107], Junaid Rashid [63], HaiDong [55] Nhìn chung, cácnghiên cứu về tìm kiếm theo ngữ nghĩa chủ yếu tập trung cải thiện hiệu quả tìm kiếm theo cáchướng chính như sau:
- Kết hợp giữa phương pháp tìm kiếm theo từ khóa truyền thống với các kỹ thuật xử lý ngữ
nghĩa, đặc biệt là các kỹ thuật dựa trên ontology
Ví dụ như những nghiên cứu mở rộng câu truy vẫn (query expansion) bằng cách khai
thác quan hệ từ vựng, nghĩa của từ trong các ontology như WordNet ! chẳng hạn, để bổ sungmột số từ (cụm từ) gần nghĩa vào truy vấn của người dùng, tạo ra các truy vấn mới tương đồng
ngữ nghĩa, để từ đó giúp hệ thống có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn Một số nhóm khác đã tập trung phát triển ontology để phục vụ nhu cầu mở rộng truy vấn, trong đó có những định hướng đặc biệt về cấu trúc ontology cần xây dựng hoặc phát triển
một mô hình mới về mạng ngữ nghĩa dựa trên những quan hệ trích dẫn từ WordNet cùng một
số quan hệ được định nghĩa thêm như chú giải (gloss), chủ đề (topic) và miền (domain).
Thttps://wordnet.princeton.edu/
16
Trang 30- Nghiên cứu các mô hình biểu diễn ngữ nghĩa hay nội dung của dữ liệu (tài liệu) dựa trên
khái niệm, cách thức xây dựng và so khớp các cấu trúc khái niệm, cách lập chỉ mục kháiniệm cho tài liệu, hoặc là những nghiên cứu hướng vào việc thêm các chú thích ngữ nghĩa
vào trong dit liệu (tài liệu) dựa trên những giả định về khái niệm, thực thể và quan hệ giữa các đối tượng này.
+ Nghiên cứu việc sử dụng các kỹ thuật khác để hỗ trợ quá trình tìm kiếm như xử lý ngôn
ngữ tự nhiên, xử lý mờ (Fuzzy Concepts, Fuzzy Relations, Fuzzy Logics), khử nhập nhang,
phân lớp (clasification), hay các kỹ thuật xếp hạng kết quả tìm kiếm (ranking)
» Nghiên cứu xử lý những câu truy vấn phức tap và giải quyết các bài toán con trong tìm
kiếm
Theo các tác giả [28, 106], các giải pháp tìm kiếm theo ngữ nghĩa có thể khác nhau về:
Khia cạnh của dữ liệu (loại dữ liệu được quan tâm trong nghiên cứu là semantic data, semantic
metadata hay raw data); Nhu cầu thông tin của người dùng; Mô hình biểu diễn tài liệu và câu
truy vấn; Phương pháp tìm kiếm thông tin, tài liệu; Mô hình ngữ nghĩa và nguồn tài nguyênngữ nghĩa được sử dụng; Cấu trúc và cách thức xây dựng ontology, công nghệ ontology; và cuối
cùng, cách giải quyết các bài toán con trong tìm kiếm bao gồm biểu diễn và xử lý nội dung (ngữ
nghĩa) câu truy vấn và tài liệu, bài toán so khớp và xếp hạng, bài toán rút trích các đơn vị thông
tin như từ khóa (keyword), cụm từ khóa (keyphrase), khái niệm (concept), thực thể (entity) và mối quan hệ (relationship) từ tài liệu.
2.1.3 Tiếp cận công nghệ tri thức với ontology và semantic data
Trong khoảng thời gian 10 năm gần đây, nhiều chuyên gia cho rằng những cách tiếp cận
cho vấn đề tìm kiếm tài liệu theo hướng khái niệm dựa trên việc khai thác các thông tin khái
niệm (conceptual information) có sẵn dưới dạng các ontology và siêu đữ liệu ngữ nghĩa (semantic
metadata) là vượt trội hơn hẳn so với các mô hình truyền thống [30, 31, 37, 43, 58, 70, 88] Khi
đó, khả năng biểu diễn ngữ nghĩa được tăng cường bằng một phương pháp được gọi là chú thích
ngữ nghĩa (semantic annotation) cho tài liệu thô và dẫn đến nhiều bài toán con đi kèm như nhận
diện thực thể có tên hay bài toán trích xuất quan hệ Chú thích ngữ nghĩa tức là thêm phần ngữ nghĩa cho các tài liệu (trang Web chẳng hạn) dựa trên việc khai thác các khái niệm, quan hệ
trong ontology cùng với các thông tin lấy được từ tài liệu
Một trong những lý do mang đến sự thành công cho phương pháp tiếp cận này liên quan
đến các giải pháp nhằm khắc phục hạn chế của việc rút trích khái niệm dựa trên các kỹ thuật xử
lý ngôn ngữ tự nhiên truyền thống, cụ thể là: Thứ nhất, các chú thích ngữ nghĩa thường được
thực hiện bằng tay, hay bán tự động do đó nó là đáng tin cậy và chính xác hơn [31] Điều này
có nghĩa rằng các hệ thống tìm kiếm tài liệu không bị ảnh hưởng nhiều bởi các lỗi của rút trích
tự động Thứ hai, các thông tin được chú thích theo một miền ứng dụng nhất định, và như vậy
sẽ thích hợp để mô tả đặc trưng của văn bản theo nhu cầu của người dùng [37, 70] Khi người
sử dụng có thể xây dựng các truy vấn với những khái niệm có liên quan thì việc truy tìm các tài
17
Trang 31liệu sẽ hiệu quả hơn Một trong những kết quả thú vị nhất là tính chính xác của các thông tin
đánh dấu làm cho nó có thể được áp dụng để thực hiện cơ chế suy diễn, từ đó cho phép người
dùng truy tìm thông tin bằng cách đặc tả câu truy van với các mức độ trừu tượng (về khái niệm)
cao.
Một trong những vấn đề được cộng đồng nghiên cứu quan tâm khi giải quyết bài toán
tìm kiếm tài liệu đó chính là vấn đề nhập nhằng của ngôn ngữ tự nhiên [73, 78, 87, 96] Cụ thể, hiện tượng từ đồng nghĩa và từ nhiều nghĩa trong ngôn ngữ là hai yếu tố chính làm giảm hiệu quả của các hướng tiếp cận truyền thống Việc khai thác các thông tin về thực thể trong các cơ
sở tri thức tổng quát như DBpediaZ, Freebase? và các đề cập thực thể trong các câu khác nhau
của tài liệu để giảm sự nhập nhằng là một hướng giải quyết được nhiều nhà nghiên cứu quan
tâm cũng như hứa hẹn sẽ mang lại hiệu quả tốt hơn so với việc so khớp, xếp hạng tài liệu dựatrên từ vựng [22, 57] Trong một khảo sát được thực hiện bởi Lin và các đồng sự [20], trên 200
truy vấn được thu thập từ nhật ký truy vấn của máy tìm kiếm Bing năm 2012 thì có đến 43% các truy vấn có chứa thực thể Trong một khảo sát khác của Gou [60], có hơn 71% các truy van có chứa các thực thể có tên Điều này cho thấy rằng, một phần không nhỏ các truy vấn được cấu thành từ thực thể Từ đó, nhiều nghiên cứu đã tận dụng sự có mặt của các thực thể có trong truy
vấn (và cả trong tài liệu) để hỗ trợ cho việc giải quyết bài toán tìm kiếm tài liệu một cách hiệu
quả hơn Một vấn đề phát sinh là làm sao để liên kết các thực thể xuất hiện trong tài liệu, trong
câu truy vấn đến một cơ sở tri thức dùng chung, hay nói cách khác, làm sao biểu diễn tài liệu và truy vấn, vốn chỉ bao gồm một chuỗi các từ, thành một hình thức biểu diễn có xem xét đến các
thực thể trên cơ sở tri thức? Vấn đề này được các nhà nghiên cứu chỉ ra và tập trung giải quyết với tên gọi Liên kết thực thể (Entity linking) và những giải pháp được đề xuất đã có nhiều kết
qua đáng chú ý Trong đó, sự ra đời của các công cụ chú thích thực thể như TagMe†, DBpedia
Spotlight? là một trong những sản phẩm của những nổ lực giải quyết bài toán này Các công cụ
được cung cấp miễn phí và hoạt động ổn định với độ chính xác cao Điều này đã phần nào cho
thấy nhận định có thể kết nối thực thể từ tài liệu, truy vấn lên cơ sở tri thức một cách hiệu quả
là có cơ sở
Dựa vào các nhận định trên mà ta nhận thấy rằng việc khai thác thông tin về các thực thể có trong tài liệu và truy vấn là khả dĩ và có thể mang lại lợi ích trong việc giải quyết vấn
đề tìm kiếm Khi so sánh với các hướng tiếp cận truyền thống, cụ thể là các đề xuất tìm kiếm
được thực hiện dựa trên sự xuất hiện của các từ vựng (được thể hiện dưới hình thức biểu diễn
thông dung là bag-of-words), ta thấy rằng việc đưa vào thông tin các thực thể có những lợi ich sau: 1) Các thực thể là các đơn vị thể hiện ngữ nghĩa ít nhập nhằng hơn nhiều so với từ vựng.
Ví dụ, “white house” xuất hiện trong một tài liệu có nhiều cách diễn giải, đó có thể là một từ
vựng chỉ đến một ngôi nhà được sơn màu trắng hoặc một tên riêng chỉ đến một thực thể nào đó Trong khi đó, nếu “white house” được xác định là một thực thé chỉ đến Nhà Trắng của Mi (điều này được hiện thực bằng việc dựa trên một cơ sở tri thức) thì rõ ràng sự nhập nhằng được giải
Trang 32quyết Và từ đó, độ chính xác khi so khớp giữa tài liệu và truy vấn được cải thiện; 2) Các thực
thể có mối quan hệ tường minh và đa dạng Khi được liên kết lên các cơ sở tri thức, thông tin
về quan hệ của các thực thể được xác định Các quan hệ này rất đa dạng và có thể cung cấp các
dẫn chứng cho sự liên quan giữa truy vấn và tài liệu trong bài toán tìm kiếm tài liệu Đây là một
đặc trưng mà các hình thức biểu diễn bằng từ vựng không có được Các từ vựng có thể có quan
hệ với nhau khi được liên kết đến một từ điển các từ vựng (chẳng hạn, WordNet), tuy thế sự đa dạng của các quan hệ trong từ điển WordNet khá hạn chế khi so sánh với các cơ sở tri thức như
DBPedia hay FreeBase
Qua các phân tích trên ta thấy được việc xem thực thể là trung tâm trong việc biểu diễn
truy vấn và tài liệu hứa hẹn mang lại nhiều lợi ích cho việc giải quyết bài toán tìm kiếm tài liệu
Tuy có những lợi điểm, việc tận dụng các thực thể dựa vào sự liên kết của chúng lên các cơ sở tri
thức để hỗ trợ cho việc giải quyết bài toán tìm kiếm cũng có những hạn chế Một trong những
hạn chế đó là:
‹ Thứ nhất, không phải lúc nào truy vấn cũng có mang thông tin thực thể Trường hợp
người dùng muốn tìm kiếm một chuỗi các từ bất kì có chứa trong tài liệu nhưng mà các
từ này không nhắm đến một thực thể nào Trong trường hợp này, việc chỉ biểu diễn truy
vấn dưới dạng thực thể là không hợp lý.
« Thứ hai, một cơ sở tri thức tổng quát không phải lúc nào cũng có chứa thông tin về mọi
thực thể Độ bao phủ của cơ sở tri thức tổng quát luôn không hoàn hảo và có những trường hợp không thể liên kết được một thực thể cho truy vấn mặc dù thực sự truy vấn có đề cập đến thực thể.
‹« Thú ba, các phương pháp tận dung cơ sở tri thức DBPedia để nắm bắt các thông tin về
thực thể có trong tài liệu, kết hợp với phân tích các quan hệ của các đối tượng được đề cập
trong tài liệu để rồi đưa ra một giải pháp biểu diễn tài liệu phục vụ cho việc so khớp xếp
hạng, khó đạt được hiệu quả truy hồi cao khi đặt vào ngữ cảnh tìm kiếm trên một kho tài
liệu thuộc về một miền tri thức nhất định nào đó Lí do cơ bản là các cơ sở tri thức tổng quát chưa tập trung mô tả các khái niệm và thực thể đặc biệt theo miền (lĩnh vực) cũng
như các mối quan hệ giữa chúng, chiều sâu biểu diễn vẫn chưa cao.
¢ Thứ tư, nếu như các cơ sở tri thức là nguồn tài nguyên để thể hiện ngữ nghĩa giữa các khái
niệm, thực thể trong tài liệu thông qua các mối quan hệ tường minh, có sự thống nhất cao
và thuộc về tri thức của con người thì những đặc trưng khác thuộc về bên trong tài liệu lại
quan trọng không kém, đặc biệt là trong việc giải quyết vấn đề tìm kiếm Chính sự khác
biệt về mặt nội dung từ bên trong các tài liệu sẽ là đặc điểm để phân biệt các tài liệu với
nhau Vì vậy mà có thể giúp các tài liệu thể hiện các mức độ liên quan khác nhau trên mỗi
truy vấn đầu vào
Hạn chế về mức độ bao phủ của cơ sở tri thức được thể hiện rõ ràng nhất khi ta so sánh
số lượng các khái niệm, thực thể có thể có trong các tài liệu được viết bằng ngôn ngữ tự nhiên với số lượng các khái niệm, thực thể trong một cơ sở tri thức tổng quát Trong tài liệu viết bằng ngôn ngữ tự nhiên tồn tại rất nhiều khái niệm thể hiện dưới dạng các danh ngữ phức hợp (tạm
19
Trang 33dịch từ thuật ngữ nominal compound trong tiếng Anh), các danh ngữ này được ghép lại từ các
danh từ chỉ đến những khái niệm thành phần Danh ngữ phức hợp là một chuỗi gồm hai danh
từ trở lên mà cùng với nhau chúng đóng vai trò như một danh từ riêng lẽ Một ví dụ là cụm từ
“computer system performance evaluation” là một danh ngữ phức hợp và chỉ về một khái niệm duy nhất, cụm từ này có thể xuất hiện liên tục trong một tài liệu thuộc về chủ đề Công nghệ thông tin như một khái niệm riêng biệt và rõ ràng rằng, không thể nào một cơ sở tri thức có thể bao quát được tất cả các khái niệm thể hiện dưới dạng định danh phức hợp như thế này Vì thế,
nếu một tài liệu đơn thuần chỉ được biểu diễn dưới dạng các thực thể được liên kết đến cơ sở
tri thức tổng quát (chẳng hạn như DBPedia) thì sẽ có rất nhiều khái niệm dưới dạng các danh ngữ phức hợp bị bỏ qua, chang hạn với cụm từ computer system performance evaluation, đôi khi chỉ có computer system được liên kết cơ sở tri thức như là một thực thể riêng biệt và cụm từ
performance evaluation bị bỏ qua trong việc biểu diễn vì không có một khái niệm performance
evaluation tưởng ứng trên cơ sở tri thức
Một trong những giải pháp được áp dụng để hạn chế các khó khăn vừa đề cập ở trên là
dựa vào các kĩ thuật xử lý ngôn ngữ tự nhiên (NLP) Stanford CoreNLP 5 là một bộ công cu phân
tích, xử lý ngôn ngữ tự nhiên cho tài liệu rất phổ biến hiện nay Với sự hé trợ của công cụ này, việc trích xuất các khái niệm dưới dạng các định danh phức hợp sẽ trở nên dễ dàng hơn và từ đó
bổ khuyết được cho sự không hoàn chỉnh của các cơ sở tri thức dùng chung Một trong những
khác biệt rõ ràng nhất giữa các khái niệm được trích xuất từ công cụ NLP ( thí dụ, StanfordCoreNLP ) dưới dạng các định danh phức hợp và các khái niệm được liên kết đến cơ sở tri thức
đó chính là sự nhập nhằng của các định danh phức hợp Vì không được liên kết đến một cơ sở tri thức để xác định tính duy nhất của một thực thể, nên không có sự đồng thuận nào cho sự có mặt của các định danh này trong các tài liệu khác nhau (chúng có thể xuất hiện dưới cùng hình
thức từ vựng nhưng không đảm bảo có cùng ý nghĩa) Hơn nữa, như giữa các định danh phứchợp này không có được các mối quan hệ tường minh và trực tiếp như trong trường hợp của các
thực thể của cơ sở tri thức Qua đó ta thấy rằng, việc khai thác các định danh phức hợp vừa có
ích cũng đồng thời đem đến những khó khăn
2.2 Van đề biêu diễn tri thúc và các mô hình ngữ nghĩa
Phần lớn các nghiên cứu hiện nay về tìm kiếm tài liệu theo ngữ nghĩa tập trung vào khai
thác nghĩa từ vựng Khi đó, ta hiểu ngữ nghĩa là nghĩa của từ - là nội dung (sự vật, sự việc, tính chất, hoạt động, quan hệ ) mà từ biểu thị Các từ khi kết hợp với nhau thì đang thể hiện một
ý nghĩa gì đó Có thể giải thích nghĩa của từ bằng những cách chính như: trình bày khái niệm
mà từ biểu thị hoặc đưa ra những từ đồng nghĩa hoặc trái nghĩa với từ cần giải thích Tuy có thể hiểu như thế, nhưng để áp dụng ngữ nghĩa vào việc giải quyết các bài toán cụ thể, đặc biệt là
các bài toán thực hiện trên máy tính thì việc hình thức hóa hay mô hình hóa ngữ nghĩa là điềurất cần thiết
Nhiều đề xuất dựa trên giả thiết là: có các ngữ nghĩa tiềm ẩn trong việc sử dụng từ, ngữ
Shttps://stanfordnlp.github.io/CoreNLP/
20
Trang 34nghĩa của các từ (semantics of words) được xem như là những khái niệm tiềm ẩn (latent concepts)
hoặc các chủ đề tiềm ẩn (latent topics) được biểu diễn bởi từ đó [99, 34] Bên cạnh đó cũng có
những mô hình tường minh nắm bắt ngữ nghĩa ở mức độ khái niệm hoặc thực thể Khi đó, nội dung của tài liệu và câu truy vấn có thể được mô tả bởi một tập các khái niệm hay một cấu trúc
khái niệm [30, 58, 43, 31] Việc tìm kiếm sẽ dựa trên không gian các khái niệm và các mối quan
hệ ngữ nghĩa giữa chúng Để giải nghĩa cho các từ hay cụm từ và hiểu được nội dung của tài liệu, hệ thống cần sử dụng đến các nguồn tri thức nào đó Các nguồn tri thức có thể tổng quát hoặc cụ thể theo từng lĩnh vực, có thể được tạo thủ công, bán tự động hoặc tự động, chúng có
thể khác nhau ở các dạng biểu diễn hoặc ở cách xây dựng mối liên hệ giữa các khái niệm Ngoài
việc cung cấp hệ thống các khái niệm, các nguồn tri thức còn kết nối các khái niệm bởi một tập
các quan hệ Điều này tạo nên một mạng lưới các khái niệm giúp chúng ta có thể xác định các
khoảng cách ngữ nghĩa giữa chúng với nhau
Một số mô hình ngữ nghĩa tường minh được sử dụng trong các hệ thống tìm kiếm dựa
trên khái niệm có thể kể đến như: từ điển đồng nghĩa, cây phân cấp khái niệm, lược đồ đữ liệu, các ontology tổng quát hay ontology miền Đứng trên quan điểm của ngành Trí tuệ nhân tạo, một ontology nói chung là sự mô tả về những khái niệm và quan hệ của các khái niệm đó nhằm mục đích thể hiện một góc nhìn về thế giới Ontology thường bao gồm các thành phần chính
như: khái niệm, quan hệ và luật có thể hỗ trợ tính toán và suy diễn hình thức Nhiều nghiên cứu
có đề cập đến các thành phần Tbox và Abox của một ontology [37, 70, 88] Tbox là một phần của
ontology mô tả các khái niệm (tương ứng với lớp thực thể) và các quan hệ giữa các lớp (chủ yếu
là quan hệ phân cấp), trong khi Abox đặc tả thông tin chi tiết của các thực thể bao gồm thuộc tính của thực thể và quan hệ giữa các thực thể Tbox biểu thị các khái niệm ở mức trừu tượng cao hơn và thường không thay đổi hay ảnh hưởng bởi dữ liệu cụ thể, trong đó Abox do thể hiện các thực thể cụ thể nên có tính biến động theo thời gian, dữ liệu và ở mức độ mô tả chỉ tiết hơn.
Hệ thống hỏi-đáp ORAKEL sử dụng Tbox của một ontology, trong đó, chính các mối quan hệphân cấp của các lớp (khái niệm) trong Tbox cho ta các thông tin ngữ nghĩa
Một mô hình ngữ nghĩa cũng được dùng trong nhiều nghiên cứu là mô hình của các
Bộ phân tích ngữ nghĩa tường minh (Explicit Semantic Analysis) [39] sử dụng bài viết trên
Wikipedia, danh mục categories và mối liên hệ giữa các bài viết để nắm bắt ngữ nghĩa liên quan tới khái niệm Wikipedia cũng có thể được xem là một kho đữ liệu có ngữ nghĩa mà nếu mô hình
hóa Wikipedia thành mô hình ngữ nghĩa thì mỗi trang đơn lẻ của Wikipedia là một thực thé,
đường dẫn (link) trong mỗi trang đến các trang khác thể hiện một mối quan hệ Một mô hình
ngữ nghĩa khác là Đồ thị khái niệm (Conceptual Graph)[69] Đồ thị khái niệm là một mô hình
có sự kết hợp giữa tính trực quan cao của cấu trúc đồ thị và tính hình thức chặt chẽ của nền tảng
toán học logic Một thể hiện khác của mô hình ngữ nghĩa là mô hình được sử dụng trong hệ thống C-Search [44], trong đó ngữ nghĩa được thể hiện qua các khái niệm dưới dạng biểu thức
logic mô tả (description logic) Mô hình này cho phép biểu diễn các khái niệm phức hợp hơn từ
những khái niệm nguyên thủy thông qua các phép toán cụ thể, chẳng hạn như phép hội hoặc phép tuyển trong Logic mô tả và đặc biệt là không mô hình hóa ngữ nghĩa dưới dạng các quan
hệ
21
Trang 35Nhìn chung, có thể phân loại các mô hình ngữ nghĩa theo hai nhóm: mô hình từ vựng (lexical model) và mô hình tri thức (knowledge model) Điểm khác biệt rõ ràng nhất giữa hai
nhóm mô hình này là ở chỗ: các mô hình từ vựng thể hiện ngữ nghĩa ở mức độ từ ngữ thông qua
quan hệ giữa các từ, một mức độ thấp hơn nhiều so với mức độ khái niệm và thực thể ngoài đời
thực như các mô hình tri thức Phần lớn các mô hình tri thức được xây dựng trên ba thành phần
cơ bản: lớp (khái niệm) của các thực thể, mối quan hệ giữa các lớp (hay các thực thể) và thuộc tính của các thực thể Sự khác nhau chủ yếu giữa các mô hình này là về mức độ hình thức (định
nghĩa hình thức toán học hay tính trực quan/ trực giác) hoặc về cấu trúc thông tin chỉ tiết của
từng thành phần Sở dĩ cần phải phân nhóm các mô hình vì tính không đồng nhất của chúng: các khái niệm của mô hình từ vựng, do ở dạng từ ngữ nên có thể thể chỉ đến lớp, quan hệ, thuộc
tính Hơn nữa, trong mô hình từ vựng, nghĩa của từ và quan hệ nghĩa ở mức độ từ rất tườngminh - một điêu mà các mô hình tri thức không có được
Từ điển đồng nghĩa chính là một ví dụ của mô hình từ vựng Một trong những nguồn tài nguyên từ vựng được sử dụng phổ biến hiện nay là WordNet( được phát triển bởi Miller từ năm
1995) WordNet là một từ điển điện tử miễn phí, là một kho từ vựng đồ sộ chứa một số lượng
lớn các danh từ, động từ, tính từ và trạng từ tiếng Anh Trong WordNet, các khái niệm tương
ứng với các lớp nghĩa của từ (senses of words) Một khái niệm trong WordNet được biểu diễn bởi
một tập từ đồng nghĩa (synset) Mỗi synset có đi kèm định nghĩa bằng ngôn ngữ tự nhiên, các mẫu câu ví dụ với ngữ cảnh sử dụng cụ thể Nguyên lí tổ chức chung của Wordnet là mạng lưới
quan hệ ngữ nghĩa giữa những synset Đó là quan hệ đồng nghĩa (synonymy), quan hệ trái nghĩa
(antonymy), quan hệ thượng hạ vị (hyponymy), quan hệ chỉnh thể - bộ phận (meronymy), quan
hệ kéo theo (entailment) Như vậy, ngoài việc cung cấp các nhóm từ đồng nghĩa để biểu diễn
khái niệm, WordNet kết nối các khái niệm bởi một tập các quan hệ Nhìn chung, WordNet được
xem là một cơ sở đữ liệu về từ, bộ dữ liệu ngữ nghĩa ở mức từ vựng, thể hiện quan hệ về nghĩa
giữa các từ với nhau Tuy nhiên, số lượng từ của WordNet còn hạn chế, dữ liệu WordNet khôngđược cập nhật thường xuyên và thiếu chiều sâu khi mô tả tri thức miền (thiếu rất nhiều thuật
ngữ mới đặc biệt theo miền) Từ đó, dẫn đến việc các kỹ thuật dựa trên việc khai thác WordNet
không thể đo được độ tương đồng ngữ nghĩa của môt số cặp từ Dữ liệu WordNet không được cập nhật thường xuyên, do đó kết quả đo được là “tĩnh” so với tính “động” của ngôn ngữ (sự thay
đổi ngữ nghĩa của ngôn ngữ theo thời gian) Ví dụ, khi tìm kiếm với thuật ngữ programming language thì kết quả trả về tử WordNet rat ít thông tin, thậm chí khi tim với thuật ngữ domain
ontology thì không có du liệu trong bộ tử vựng này (Hình 2.1)
Một câu hỏi đặt ra là có những mô hình ngữ nghĩa với các thành phần khác ngoài những
thành phần chính đã kể hay không? Thực tế là có tồn tại những mô hình ngữ nghĩa như thế từ
rất lâu trong lĩnh vực truy hồi thông tin, có thể kể đến các chuẩn hình thức biểu diễn tri thức
rất mạnh mẽ được kết hợp lại với nhau để giải quyết các bài toán hệ hỏi-đáp hay truy hồi thông tin và những chuẩn hình thức khác mô hình hóa được cả thông tin về thời gian và các khía cạnh
mờ (fuzzy) của tri thức đời thực Tuy thế, các giải pháp hiện tại vẫn chỉ gắn mô hình ngữ nghĩa
với những thành phần chính: lớp (khái niệm), quan hệ, thực thể Nguyên nhân là do, phần lớn những truy vấn mà tìm kiếm theo ngữ nghĩa đang hướng đến để giải quyết cũng chỉ liên quan
22
Trang 36WordNet Search - 3.1
7 My rS Word to search for: | programming language [ Search WordNet
WordNe3 ,„
\ i English
ionary and Thesaurus
Lexical database of the Englsh language language designed for programming computers)
containing about 150,000 words organized
in over 115,000 synsets for a total of
ord-sense pairs.
Word to search for: | domain ontology | Search WordNet
Your search did not return any results.
Hình 2.1 WordNet - Một cơ sở dữ liệu về từ
đến càc thành phần chính đã kể trên mà thôi Một nguyên nhân khác là do “nút thắt cổ chai” đến
từ việc thiếu dữ liệu cho việc phân tích và xây dựng những mô hình phức tạp hơn Lấy một ví
dụ, biểu diễn lại nội dung một tài liệu dưới dạng một biểu thức logic phức tạp bao gồm các phép
toán và toán hạng là điều không thể Một nguyên nhân khác liên quan đến nguồn tài nguyên
ngữ nghĩa được sử dụng trong các giải pháp tìm kiếm, đại đa số các dữ liệu ngữ nghĩa hiện nay
cũng chi đang loanh quanh với thực thể và các quan hệ, nói cách khác đều là đữ liệu mô tả các đối tượng ngoài đời thực (thực thể) và quan hệ giữa các đối tượng này (relation) Thuật ngữ “dữ liệu ngữ nghĩa” (semantic data) về cơ bản được dùng để chỉ đến các tài liệu hay các datasets được
phát hành, công bố ở dang RDF (dữ liệu là thông tin ma ta muốn tìm kiếm trên đó) hoặc các
thông tin về thực thể trong một ontology dưới dạng ngôn ngữ của Semantic Web như OWL (ở
đây dữ liệu là thông tin tri thức góp phần vào việc cải thiện hiệu quả của hệ thống tìm kiếm)
Nhiều nghiên cứu về tìm kiếm theo ngữ nghĩa hiện nay tập trung cải thiện hiệu quả tìmkiếm theo hướng khai thác những nguồn tri thức cực kỳ đồ sộ như UMLS (Unified Medical Lan-
guage System)’, Sensus®, Wikipedia’, KIM (Knowledge-based Information Mining)!°, YAGO!!,
DBpedia!” Day được xem là những ontology đa lĩnh vực (tổng quát) có thé cung cấp thông tin
về cấu trúc nội tại của các khái niệm và thực thể (thuộc nhóm mô hình tri thức) Ví dụ như,
mô hình tri thức của Wikipedia sử dụng các bài viết (articles), chuyên mục (categories) và quan
hệ giữa các bài viết để nắm bắt thông tin ngữ nghĩa xét về mặt khái niệm Mỗi khái niệm trên
Wikipedia được cho tương ứng với một bài viết có tiêu đề trùng với tên của khái niệm Các bàiviết được phân loại theo một hệ thống phân cấp của các chuyên mục Mối quan hệ giữa cáckhái niệm chính là những liên kết được tìm thấy trong các bài viết của Wikipedia Tương tựnhư Wikipedia, DBpedia ontology [23] là một ontology đa miền, nông (shallow cross-domain
ontology), được phát triển thành công từ một nỗ lực rất lớn của cộng đồng thông qua các dự
án dự án crowd-sourcing Hiện tại thành phần TBox của ontology này có 768 lớp, được tổ chức
trong một hệ thống phân cấp giữa các lớp, các lớp được định nghĩa bởi 3000 thuộc tính riêng
biệt Tập dữ liệu ABox của DBpedia mô tả 6 triệu thực thể được phân loại chủ yếu trong các lớp
Trang 37như người, địa điểm, cơ quan, album nhạc, phim, trò chơi điện tử, tổ chức, loài, bệnh tật (Hình
2.2) Mô hình tri thức của KIM, YAGO cũng có cấu trúc tương tự như DBPedia Có một sự thật
cho thấy rằng, ngay cả khi có sự trợ giúp của những nguồn tri thức đa lĩnh vực và uy tín này, bài
toán tìm kiếm adhoc trên thực tế vẫn là một thách thức lớn do vấn đề nhập nhằng trong ngôn
ngữ Các ontology này thường có kích thước rất lớn và đôi khi cần thêm các kỹ thuật xử lý nhập
nhằng để có thể sử dụng trong biểu diễn tài liệu và tìm kiếm.
Class Instances 1 Schema: < DBpedia
Resource (overall) 4,828,418 DBpedia Ontology T-BOX Place 967,491 2 Instance Data:
= khhodiiai DBpedia Ontology A-Box RDF
Work 552,115
Species 190,369 Organisation 317,867
Other 1,207,664
https://www.dbpedia.org/resources/ontology/
Hình 2.2 DBPedia - Một cơ sở tri thức da lĩnh vực đồ sộ
Mục tiêu nghiên cứu được đặt ra trong đề tài là tập trung vào bài toán tìm kiếm trong
một miền tri thức nhất định Sự tập trung này đòi hỏi sử dụng đến các ontology miễn như là
một cơ sở ngữ nghĩa nhằm giảm thiểu sự tối nghĩa, sự nhập nhằng về nghĩa, qua đó giúp máy tính có thể hiểu chính xác hơn các tài liệu và câu truy vấn cần tìm kiếm Đã có những ontology
miễn rất nổi tiếng và uy tín, được sử dụng trong nhiều nghiên cứu khác nhau như: ontology MeSH (Medical Subject Headings)! và SNOMED (Systematized Nomenclature of Medicine)!4
trong miền y khoa, PhySH (Physics Subject Headings)!° miền vat ly, JEL (Journal of Economic
Literature)!° trong miền kinh tế , AGROVOC!” và AgriOnt!® trong miền nông nghiệp, CSO (Computer Science Ontology)!? trong miền Khoa học máy tính và MSC (Mathematics Subject Classification)° trong miền toán học (Hình 2.3) Tuy nhiên, hầu hết các ontology như vừa kể trên
đều không được xây dựng để hướng đến bài toán Truy xuất tài liệu (Adhoc document retrieval) Khi khảo sát kỹ các ontology, chúng ta sẽ thấy sự khác nhau rõ rệt giữa chúng, ngay cả khi
chúng đã được xây dựng cho những mục dich rất tương tự Các ontology mô tả tri thức ở các
mức độ chỉ tiết khác nhau và không có một khuôn dạng chung để biểu diễn thông tin liên quan
giữa các ontology, dẫn tới khó có thể sử dụng lại ontology đã có trong một ứng dụng tìm kiếm
mới mà đề tài đang hướng tới Một trong số những ontology miền đang được chú ý hiện nay là CSO [15] Mô hình tri thức của CSO chỉ bao gồm hai thành phần chính: một tập hợp các tên chủ
đề (topic name) được quan tâm trong lĩnh vực, cùng với một tập hợp các mối quan hệ phân cấp giữa các chủ dé theo nghĩa “chủ dé rộng - chủ dé hẹp hơn”, như Hình 2.4 Cấu trúc thông tin chi
Trang 38Hình 2.3 Một số ontology miễn nổi tiếng hiện nay
tiết của mỗi chủ dé chưa được mô hình này quan tâm, các chủ dé không có cấu trúc, không có
nội dung, chỉ có tên gọi (name, label) làm định danh dé phân biệt các chủ dé với nhau Ontology này được xây dựng bán thủ công bang cách dùng thuật toán Klink-2 dé rút trích tự động các chủ
dé và quan hệ trong một kho tài liệu và sau đó được chọn lọc lại bởi các chuyên gia.
I3CSO 6 intros engines (2140artificial intelligence [28,1738] ©
JEEmsinr Science agi
computer imaging and vision (61875).
CO intetigent tutoring system (22)
computer science (19, 10020] O data mining (28.303).
© Natural language processing [41,149]
human computer interaction [14,584] @
Hình 2.4 CSO - một ontology miễn về lĩnh vực Khoa hoc máy tính
Tử những phân tích nêu trên, trong nghiên cứu này, đề tài cố gắng đề xuất một mô hình tri thức mới có thể được ứng dụng hiệu quả hơn trong các tác vụ tìm kiếm theo ngữ nghĩa.
Chương3 sẽ trình bày một mô hình biểu diễn tri thức miền gọi là CK-ONTO cùng những phân
tích và lưu ý cần thiết khi xây dựng cơ sở tri thức theo mô hình CK-ONTO này
2.3 Van đề biêu diễn tài liệu văn ban
Mô hình biểu diễn văn bản truyền thống như mô hình túi từ (Bag of words), mô hình
không gian vector (Vector Space Model) là các mô hình đơn giản và được sử dụng phổ biến nhất
trong phần lớn các bài toán xử lý dữ liệu văn bản Tuy nhiên, những mô hình truyền thống này
lại tồn tại trong nó những hạn chế lớn mà chủ yếu là do sự yếu kém trong vấn đề biểu diễn thông tin Nội dung của tài liệu hay thông tin truy vấn được biểu diễn thành vector của các từ
đơn hay cụm từ, gọi chung là thuật ngữ (term), trong không gian n chiều Tất cả các thuật ngữ
xuất hiện trong toàn bộ tập văn bản tạo thành một không gian với mỗi chiều của không gian
tương ứng mới một thuật ngữ Hạn chế của mô hình là số chiều không gian rất lớn (phụ thuộcvào số lượng thuật ngữ trong tập văn bản) và phải giả thiết các từ độc lập với nhau
Cùng với sự xuất hiện của các kiến trúc Deep Learning, việc biểu diễn và tính toán trên
văn bản cũng được xử lý ở mức cao hơn Khi đưa vào mô hình tính toán deep learning, ví dụnhư Word2vec [101] hay RoBERTa[109] và MPNet[65], văn bản được xử lý qua một tầng nhúngtrong đó các từ sẽ được ánh xạ thành các vector tương ứng, khi đó các thông tin ngữ nghĩa (dựa
trên thống kê) của các từ sẽ được nhúng vào các vector Bằng cách tính trung bình cộng của các
25
Trang 39vector từ (biểu diễn cho các từ xuất hiện trong tài liệu) có thể cho ta một phép biểu diễn tài liệu
theo vector Trong các mô hình chủ đề như Probabilistic Latent Semantic Indexing [99], Latent
Dirichlet Allocation [34], tài liệu cũng được biểu diễn như là một vector của các chủ đề tiềm ẩn
(vectors of latent topics) Một chủ đề tiềm ẩn là một phân phối xác suất trên các thuật ngữ hoặc
một nhóm các thuật ngữ có trọng số Các mô hình chủ đề không xem xét cấu trúc thông tin của
các chủ đề (topic), mối quan hệ giữa những chủ đề và gặp hạn chế khi biểu diễn cho các chủ đề
phức tạp
Sự phát triển ngày càng nhanh của các kỹ thuật rút trích thông tin cũng như sự gia tăng
về quy mô của các bộ từ điển đồng nghĩa, các cơ sở tri thức đa ngành cùng các co sở tri thức miền
đưa đến nhiều lựa chọn hơn cho các vector biểu diễn Thành phần thứ i trong một vector có thể
là trọng số thể hiện độ liên quan giữa thành phần thứ ¡ trong nguồn tri thức đối với tài liệu được
vector đó biểu diễn Ví dụ phương pháp Explicit Semantic Analysis (ESA)[39] biểu diễn nghĩa của một đoạn văn bản dưới dang một vector của các khái niệm trên Wikipedia Mỗi khái niệm
trên Wikipedia được cho tương ứng với một bài viết có tiêu đề trùng với tên của khái niệm Độ
dài của vector biểu diễn này sẽ bằng với số lượng khái niệm có trên Wikipedia (vài triệu chiều).
Nhìn chung, dạng biểu diễn văn bản bằng vector có tốc độ tính toán nhanh, đặc biệt là có sẵn các thư viện tính toán được hỗ trợ từ các ngôn ngữ lập trình cấp cao Tuy nhiên, hầu hết các
kỹ thuật chủ yếu dựa trên thông tin về tần suất xuất hiện của từ, thiếu sự phản ánh về ngữ nghĩa
của văn bản: bỏ qua các thông tin cấu trúc quan trọng như thứ tự sắp xếp các từ trong câu, vùng
lân cận của từ, vị trí xuất hiện của từ trong văn bản, cấu trúc của một câu/đoạn văn, tính đồng
xuất hiện của các từ trong một câu và đặc biệt nghĩa của từ cũng như mối quan hệ về ngữ nghĩa
giữa các từ không được xét đến, cuối cùng là hạn chế của kỹ thuật rút trích đặc trưng Bên cạnh
đó, các phép biểu diễn có thể khó diễn nghĩa, tức là khó diễn dịch, giải thích hay thuyết minh
bởi người đọc Các kết quả có thể được chứng minh ở cấp độ toán học, nhưng khó có thể hiểu
được trong ngôn ngữ tự nhiên Một hình thức biểu diễn được xem là tốt khi mà người đọc có
thể dễ dàng nắm bắt ý nghĩa của chúng và hiểu được kết quả trả về của hệ thống cũng như cách thức hệ thống trả về được những kết quả này Việc biểu diễn tài liệu thông qua các khái niệm
trong cơ sở tri thức sẽ thân thiện, tự nhiên, gần gũi với cách diễn đạt của con người hơn, so với những dạng biểu diễn thông qua các topic trong mô hình chủ đề tiềm ẩn hay word embedding
vector Tuy nhiên, chiều dài của vector bằng số lượng khái niệm trong cơ sở tri thức sẽ là trở
ngại khi sử dụng các cơ sở tri thức có kích thước đồ sộ Một hạn chế khác của cách tiếp cận này
là thường chỉ dừng lại ở dạng biểu diễn “phẳng” như mô hình không gian vector mà chưa chú
trọng vào khai thác tri thức về quan hệ cùng các thông tin cấu trúc khác còn ẩn chứa trong co
sở tri thức
Trong những năm gần đây, các phương pháp mô hình hóa văn bản thành đồ thị đang
ngày càng được chú ý Đồ thị là một cấu trúc toán học có khả năng mô hình hóa mối quan hệ
cùng với các thông tin quan trọng về cấu trúc một cách hiệu quả Phương pháp tiếp cận dựa trên
đồ thị đã được nghiên cứu và áp dụng rộng rãi cho nhiều tac vụ do có nên tang lý thuyết chặt
chẽ, rõ ràng và hiệu suất thực nghiệm tốt Một số mô hình đồ thị phổ biến ngày nay có thể kể
đến như (Hình 2.5): mô hình đồ thị khái niệm (Conceptual Graph - CG), nhóm Đồ thị đồng hiện
26
Trang 40(Co-occurrence Graph), nhóm Đồ thị ngữ nghĩa (Semantic Graph).
Crh Models Nhiêu tiêm năng
Độ-Conceptual Graphs Co-occurrence Graphs Knowledge-based Graphs}
— Đồthjkhániệm r— Đồ thị đồng hiện — Đồ thị dựa trên tri thức
_Ñ Faguo Zhou,2010 Li Jianging Wu, 2012 Michael, 2014
Yuan Ni, 2016
Ñ =| Bronselear, 2013 ,Kamsu,2012 Raviv, 2018
Lf sonawane, 2014 | LiLin, 2017 Raviv, 2018
Samual, 2019 David, 2020
Ganggao Zhu,2021
Hình 2.5 Các mô hình biểu diễn tài liệu dựa trên dé thị da có
Ngay từ đầu những năm 90, đồ thị khái niệm đã được biết đến với hàng loạt các công trìnhnghiên cứu như là một hướng nghiên cứu mới Ví dụ một số hệ thống cũ trước đây đã sử dụng
đồ thị khái niệm trong giải pháp của mình như CoDHIR (COntent-Driven Hypertext tion Retrieval), DR-LINK (Document Retrieval using LINguistic Knowledge), RELIEF (RelationalLogical Approaches based on Inverted Files), ITELS (Intelligent TErminology Learning System),CGKAT, WebKB Một trong những khó khăn lớn nhất đối với các giải pháp tìm kiếm theo ngữ
Informa-nghĩa dựa trên đồ thị khái niệm là việc tự động hóa công đoạn lập chỉ mục cho các tài liệu bằng
đồ thị khái niệm có độ phức tạp rất cao Việc xác định các mối quan hệ ngữ nghĩa có thể có
giữa các đỉnh trong CG đòi hỏi phải thông qua một quy trình xử lý ngôn ngữ tự nhiên phức tạp,phân tích ngữ nghĩa sâu, phụ thuộc vào lĩnh vực và các nguồn tài nguyên bên ngoài Ngoài ra,việc đánh trọng số cho các thành phần trong đồ thị ít được quan tâm Một số công trình đi theo
hướng này có thể kể đến gồm [93, 48, 47].
Mô hình đồ thị đồng hiện được dé xuất trong các công trình [64], [67] Theo đó, tất cả
các từ xuất hiện trong tài liệu (trừ stopword) được rút trích và các từ được xác định là có quan
hệ với nhau khi chúng đồng xuất hiện trong cùng một câu hoặc trong cùng một cửa số có kíchthước xác định Hướng của cạnh được xem xét dựa trên thông tin về thứ tự xuất hiện của hai
đỉnh trong câu (hay trong cửa số) Trong các đồ thị đồng hiện, đỉnh và cạnh đều có thể được gán
trọng số, trọng số của đỉnh và cạnh là tần suất xuất hiện của từ và cặp từ tương ứng Ưu điểm
của mô hình là tận dụng được mối quan hệ giữa các từ, tần suất xuất hiện của từ, vùng lân cận
của từ trong câu, thứ tự xuất hiện giữa các từ Dạng biểu diễn này tuy thể hiện được nhiều thông tin về cấu trúc của tài liệu hơn so với dạng biểu diễn vector truyền thống nhưng vẫn chưa nắm
bắt được nghĩa của từ cũng như các thông tin về quan hệ ngữ nghĩa giữa chúng Phần lớn các
nghiên cứu xử lý trên các từ đơn thay vì là cụm từ
Công trình [110, 71] tận dụng nguồn tri thức DBpedia để làm giàu thêm mô hình biểu
diễn tài liệu Các đồ thị biểu diễn cho tài liệu được xem là các đồ thị con của DBpedia Trong
cách biểu diễn đó, mỗi đỉnh là một khái niệm có liên quan đến nội dung của tài liệu và được
tham chiếu đến các thực thể trong DBpedia Tập đỉnh được xây dựng nhờ vào việc sử dụng các
27