Sau khi nhận dạng được các thực thể có tên trong văn bản việc tiếp theo là xác định mối quan hệ giữa các thực thể này từ đó có thể trích xuất được thông tin về sự kiện như hành động kích hoạt (trigger). Đây chính là quá trình xem xét các thành phần trong văn bản để khám phá quan hệ ngữ nghĩa giữa các thực thể.
Ví dụ :
[ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched
Từ đoạn văn bản trên thông qua quá trình trích xuất mối quan hệ giúp ta thu được kết quả
Chủ đề Quan hệ Đối tượng
American Airlines Subsidiary (công ty con) AMR Tim Wagner Employee (là nhân viên) American Airlines Việc xác định mối quan hệ giữa các thực thể này khiến thông tin có thể biểu diễn ở dạng siêu ngôn ngữ gọi là RDF (Resource Description Framework) tạo độ linh hoạt trong biểu diễn dữ liệu. Một bộ ba RDF là một bộ kết hợp giữa thực thể - quan hệ- thực thể hay còn gọi là biểu thức chủ-vị-tân. Đây là một ví dụ:
Hình 2.7 Ví dụ biểu thức chủ vị tân
Hiện nay có nhiều nhóm nghiên cứu đã công bố các từ điển quan hệ giữa các thực thể như bốn định nghĩa mối quan hệ cơ bản được đề xuất từ ACE 2003 gồm bốn quan hệ chính
- ROLE: quan hệ giữa người với một tổ chức hay thực thể liên quan đến địa lý, chính trị.
- PART: quan hệ thành phần nói chung. - AT: quan hệ về tương quan vị trí.
Hay từ điển của Freebase bao gồm 23 triệu thực thể với hàng ngàn quan hệ
Các thuật toán trích xuất mối quan hệ sử dụng ngữ liệu đầu vào như trên để thực hiện xác định mối quan hệ. Những thuật toán này được chia làm 5 loại chính bao gồm
- Thông qua mẫu viết vay (hand-written)
- Phương pháp có giám sát (Supervised method)
- Phương pháp không giám sát (Unsupervised methods) - Phương pháp bán giám sát (sử dụng bootstrapping) - Giám sát từ xa (distant supervision)
Bảng 2.2: Đánh giá ưu nhược điểm của các phương pháp trích xuất mối quan hệ
Phương pháp Ưu điểm Nhược điểm
Mẫu viết tay - Có độ chính xác cao - Có thể điều chỉnh
theo miền tri thức
- Cần xây dựng bằng tay mẫu cho mỗi quan hệ nên rất khó bảo trì
- Số lượng các mẫu này là vô vùng lớn - Phụ thuộc vào miền
tri thức xác định Phương pháp có giám sát - Có độ chính xác cao - Yêu cầu lượng lớn
dữ liệu được gán nhãn sẵn
- Việc gán nhãn bằng tay tốn kém
- Không có tính tổng quát cho những mối quan hệ hay ngôn ngữ khác nhau Phương pháp không giám
sát - Xử lý lượng dữ liệu khổng lồ mà không cần xác định trước - Cần phải ánh xạ được tập các chuỗi dữ liệu này vào những dạng dữ liệu chuẩn để làm đầu vào cho các kỹ thuật xử lý khác
Phương pháp bán giám sát - Không yêu cầu lượng dữ liệu huấn luyện lớn
- Cần các mẫu cho mỗi loại quan hệ - Dễ gặp vấn đề sai
lệch ngữ nghĩa - Độ chính xác không
cao Phương pháp giám sát từ xa - Có ưu điểm của
phương pháp học giám sát như độ chính xác cao, tận dụng nhiều đặc trưng có giá trị - Không có sự mất mát về ngữ nghĩa