Trích xuất mối quan hệ

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 37 - 41)

Sau khi nhận dạng được các thực thể có tên trong văn bản việc tiếp theo là xác định mối quan hệ giữa các thực thể này từ đó có thể trích xuất được thông tin về sự kiện như hành động kích hoạt (trigger). Đây chính là quá trình xem xét các thành phần trong văn bản để khám phá quan hệ ngữ nghĩa giữa các thực thể.

Ví dụ :

[ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched

Từ đoạn văn bản trên thông qua quá trình trích xuất mối quan hệ giúp ta thu được kết quả

Chủ đề Quan hệ Đối tượng

American Airlines Subsidiary (công ty con) AMR Tim Wagner Employee (là nhân viên) American Airlines Việc xác định mối quan hệ giữa các thực thể này khiến thông tin có thể biểu diễn ở dạng siêu ngôn ngữ gọi là RDF (Resource Description Framework) tạo độ linh hoạt trong biểu diễn dữ liệu. Một bộ ba RDF là một bộ kết hợp giữa thực thể - quan hệ- thực thể hay còn gọi là biểu thức chủ-vị-tân. Đây là một ví dụ:

Hình 2.7 Ví dụ biểu thức chủ vị tân

Hiện nay có nhiều nhóm nghiên cứu đã công bố các từ điển quan hệ giữa các thực thể như bốn định nghĩa mối quan hệ cơ bản được đề xuất từ ACE 2003 gồm bốn quan hệ chính

- ROLE: quan hệ giữa người với một tổ chức hay thực thể liên quan đến địa lý, chính trị.

- PART: quan hệ thành phần nói chung. - AT: quan hệ về tương quan vị trí.

Hay từ điển của Freebase bao gồm 23 triệu thực thể với hàng ngàn quan hệ

Các thuật toán trích xuất mối quan hệ sử dụng ngữ liệu đầu vào như trên để thực hiện xác định mối quan hệ. Những thuật toán này được chia làm 5 loại chính bao gồm

- Thông qua mẫu viết vay (hand-written)

- Phương pháp có giám sát (Supervised method)

- Phương pháp không giám sát (Unsupervised methods) - Phương pháp bán giám sát (sử dụng bootstrapping) - Giám sát từ xa (distant supervision)

Bảng 2.2: Đánh giá ưu nhược điểm của các phương pháp trích xuất mối quan hệ

Phương pháp Ưu điểm Nhược điểm

Mẫu viết tay - Có độ chính xác cao - Có thể điều chỉnh

theo miền tri thức

- Cần xây dựng bằng tay mẫu cho mỗi quan hệ nên rất khó bảo trì

- Số lượng các mẫu này là vô vùng lớn - Phụ thuộc vào miền

tri thức xác định Phương pháp có giám sát - Có độ chính xác cao - Yêu cầu lượng lớn

dữ liệu được gán nhãn sẵn

- Việc gán nhãn bằng tay tốn kém

- Không có tính tổng quát cho những mối quan hệ hay ngôn ngữ khác nhau Phương pháp không giám

sát - Xử lý lượng dữ liệu khổng lồ mà không cần xác định trước - Cần phải ánh xạ được tập các chuỗi dữ liệu này vào những dạng dữ liệu chuẩn để làm đầu vào cho các kỹ thuật xử lý khác

Phương pháp bán giám sát - Không yêu cầu lượng dữ liệu huấn luyện lớn

- Cần các mẫu cho mỗi loại quan hệ - Dễ gặp vấn đề sai

lệch ngữ nghĩa - Độ chính xác không

cao Phương pháp giám sát từ xa - Có ưu điểm của

phương pháp học giám sát như độ chính xác cao, tận dụng nhiều đặc trưng có giá trị - Không có sự mất mát về ngữ nghĩa

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 37 - 41)

Tải bản đầy đủ (PDF)

(65 trang)