Mô hình đồ thị

Một phần của tài liệu (LUẬN văn THẠC sĩ) liên kết thực thể cho tiếng việt, entity linking for vietnamese (Trang 46 - 48)

CHƢƠNG 3 : CƠ SỞ LÝ THUYẾT

3.2.1 Mô hình đồ thị

 Đồ thị Mention-Entity

Xây dựng một đồ thị vô hướng có trọng số, trong đó có các đỉnh (node)

là các thực thể có tên được đề cập trong văn bản (mentions) và các thực thể

trên Wikipedia (candidate entities) [9]. Đồ thị gồm có hai cạnh:

 Một cạnh nối các mentions và candidate entities được đánh trọng số

dựa vào độ tương đồng giữa ngữ cảnh của mentions và candidate entities, hoặc kết hợp với độ ưu tiên. Ví dụ độ ưu tiên ở đây khi nói đến “Barack Obama” mà không có ngữ cảnh đi kèm thì người ta thường hiểu nói đến tổng thống Mỹ “Barack Obama”.

 Một cạnh nối entity – entity được đánh trọng số dựa trên độ tương

Hình 3.3. Ví dụ về Mention-Entity Graph

Giải thích:

Trong ví dụ: “They performed Kashmir, written by Page and Plant. Page

played unusual chords on his Gibson”.

 Mentions: Kashmir, Page, Plant, Gibson.

 Candidate entities:

Kashmir: là tên bài hát (song) của ban nhạc rock Led Zeppelin, hoặc tên một khu vực (region) của tiểu lục địa Ấn Độ.

Page: tên người với tên đầy đủ là Larry Page, hoặc Jimmy Page, hay tên một thành phố Page ở bang Arizona.

Plant: tên người với tên đầy đủ là Robert Plant.

Gibson: tên một nhạc cụ có tên đầy đủ là Gibson Les Paul, hoặc tên một hòn đảo ở Misouri.

Hình 3.3 Giải thích minh họa về Mention-Entity Graph

Đồ thị mention-entity thường có mật độ dày, thường có đến hàng trăm hay nghìn node đặc biệt là ở phía candidate entities. Ví dụ, với cùng một tên gọi là “Nhân”, khi chúng ta tìm kiếm tên đó trên kho dữ liệu Wikipedia thì có thể có hàng trăm, hàng nghìn kết quả tên “Nhân” được trả về. Hoặc ví dụ tên quốc gia như “Việt Nam” cũng có thể biểu thị đội bóng quốc gia Việt Nam, hay tên quốc gia Việt Nam, v.v.

Một phần của tài liệu (LUẬN văn THẠC sĩ) liên kết thực thể cho tiếng việt, entity linking for vietnamese (Trang 46 - 48)

Tải bản đầy đủ (PDF)

(60 trang)