CHƢƠNG 3 : CƠ SỞ LÝ THUYẾT
3.2.1 Mô hình đồ thị
Đồ thị Mention-Entity
Xây dựng một đồ thị vô hướng có trọng số, trong đó có các đỉnh (node)
là các thực thể có tên được đề cập trong văn bản (mentions) và các thực thể
trên Wikipedia (candidate entities) [9]. Đồ thị gồm có hai cạnh:
Một cạnh nối các mentions và candidate entities được đánh trọng số
dựa vào độ tương đồng giữa ngữ cảnh của mentions và candidate entities, hoặc kết hợp với độ ưu tiên. Ví dụ độ ưu tiên ở đây khi nói đến “Barack Obama” mà không có ngữ cảnh đi kèm thì người ta thường hiểu nói đến tổng thống Mỹ “Barack Obama”.
Một cạnh nối entity – entity được đánh trọng số dựa trên độ tương
Hình 3.3. Ví dụ về Mention-Entity Graph
Giải thích:
Trong ví dụ: “They performed Kashmir, written by Page and Plant. Page
played unusual chords on his Gibson”.
Mentions: Kashmir, Page, Plant, Gibson.
Candidate entities:
Kashmir: là tên bài hát (song) của ban nhạc rock Led Zeppelin, hoặc tên một khu vực (region) của tiểu lục địa Ấn Độ.
Page: tên người với tên đầy đủ là Larry Page, hoặc Jimmy Page, hay tên một thành phố Page ở bang Arizona.
Plant: tên người với tên đầy đủ là Robert Plant.
Gibson: tên một nhạc cụ có tên đầy đủ là Gibson Les Paul, hoặc tên một hòn đảo ở Misouri.
Hình 3.3 Giải thích minh họa về Mention-Entity Graph
Đồ thị mention-entity thường có mật độ dày, thường có đến hàng trăm hay nghìn node đặc biệt là ở phía candidate entities. Ví dụ, với cùng một tên gọi là “Nhân”, khi chúng ta tìm kiếm tên đó trên kho dữ liệu Wikipedia thì có thể có hàng trăm, hàng nghìn kết quả tên “Nhân” được trả về. Hoặc ví dụ tên quốc gia như “Việt Nam” cũng có thể biểu thị đội bóng quốc gia Việt Nam, hay tên quốc gia Việt Nam, v.v.