Đồ thị mention-entity thường có mật độ dày, thường có đến hàng trăm hay nghìn node đặc biệt là ở phía candidate entities. Ví dụ, với cùng một tên gọi là “Nhân”, khi chúng ta tìm kiếm tên đó trên kho dữ liệu Wikipedia thì có thể có hàng trăm, hàng nghìn kết quả tên “Nhân” được trả về. Hoặc ví dụ tên quốc gia như “Việt Nam” cũng có thể biểu thị đội bóng quốc gia Việt Nam, hay tên quốc gia Việt Nam, v.v.
3.2.2 Thuật toán đồ thị
Trong đồ thị mention-entity đưa ra, mục tiêu của chúng ta là tính toán
một đồ thị con dày đặc lý tưởng (dense subgraph) mà nó có thể chứa tất cả
các node mention và một cạnh mention-entity cho mỗi mention, từ đó liên kết được thực thể. Có hai thách thức chính ở đây:
Đầu tiên chúng ta đi làm rõ khái niệm thế nào là dày đặc lý tưởng. Cách tiếp cận đơn giản nhất là đo mật độ của từng đồ thị con theo tổng trọng số các cạnh. Đồ thị con dày đặc lý tưởng ở đây chính là đồ thị mà có tổng các trọng số các cạnh là cao nhất.
Thách thức thứ hai là độ phức tạp tính toán. Một trong những vấn đề
khi tính toán về dense subgraph chính là bài toán này được quy về bài toán
Steiner tree14 là một dạng của NP-hard15. Đây là một bài toán có độ phức tạp
lớn, vì vậy để giải quyết vấn đề này, Johannes Hoffar và các cộng sự [9] đã
đưa ra thuật toán greedy algorithm. Dưới đây là mô tả của thuật toán được sử
dụng:
Sau khi áp dụng thuật toán 1, chúng ta thu được đồ thị con với mật độ lớn nhất và đảm bảo luôn có liên kết giữa node mentions và entity.
Kashmir: được liên kết tới “Kashmir song”.
Page: được liên kết đến tới “Jimmy Page”.
Plant: được liên kết đến tới “Gibson les paul”.
14https://vi.wikipedia.org/wiki/C%C3%A2y_Steiner
Những hạn chế của AIDA-light trong bài toán liên kết thực thể cho tiếng Việt
Cũng giống như khó khăn của Stanford NER, vấn đề tài nguyên dữ liệu chuẩn là hạn chế chung của nhiều bài toán nhận dạng, liên kết thực thể. Không chỉ là bài toán về nhận dạng một thực thể ví dụ “Tuấn Hưng” là con người, liên kết thực thể cần làm rõ “Tuấn Hưng” ở đây là “ca sỹ Tuấn Hưng” hay một đối tượng cụ thể nào đó. Ngoài ra, mức độ chính xác trong bài toán liên kết thực thể trên AIDA-light chưa cao (xấp xỉ 80% đối với tiếng Anh). Đây cũng là một trong những điểm cần cải thiện của việc tối ưu hóa thuật toán.
CHƢƠNG 4: TÙY CHỈNH CÔNG CỤ VÀ THỰC NGHIỆM NGHIỆM
Trong chương này, chúng tôi giới thiệu về kiến trúc tổng quan của hệ thống AIDA-light và cách chúng tôi tùy chỉnh công cụ này để có thể liên kiết thực thể trong văn bản tiếng Việt.
4.1 Cài đặt
4.1.1 Kiến trúc hệ thống AIDA-light (system architecture)
AIDA-light là công cụ liên kết thực thể cho tiếng Anh được phát triển bởi viện Max-Planck, Đức [13]. AIDA-light sử dụng Stanford NER tagger
[23] để gán nhãn named mentions (tên riêng) trước khi liên kết các thực thể
này vào hệ tri thức YAGO. Hình 4.1. mô phỏng kiến trúc tổng quan của hệ thống.