Nếu coi các cụm từđồng tham chiếu bao gồm cả thực thể tên, danh từ, đại từ kí hiệu là NPi thì các nhóm cụm từ đồng tham chiếu được kí hiệu là {NPi}. Trong mỗi nhóm, mỗi cặp NPi đều là đồng tham chiếu của nhau. Vì lý do này, bài toán bây giờ
trở thành: Tìm tất cả các cặp cụm từ tiềm năng có quan hệđồng tham chiếu của nhau trong văn bản D. Tuy nhiên, vấn đề quan trọng nhất vẫn là việc xác định tính chất
đồng tham chiếu của một cặp cụm từ tiềm năng. Dựa trên tư tưởng phương pháp máy vector hỗ trợ (SVM) được giới thiệu trong mục 2.2.2 coi mỗi cặp này thể hiện một quan hệ, mỗi quan hệ này được biểu diễn bởi một vector các đặc trưng tương ứng với miền dữ liệu tiếng Việt, ý tưởng giải quyết vấn đề này là sử dụng một bộ phân lớp. Bộ
phân lớp này có vai trò xác định xem vector đặc trưng trên thuộc lớp nào trong 2 lớp: Lớp nhãn 1 là các cặp có quan hệ đồng tham chiếu và lớp nhãn 0 là các cặp không có quan hệ đồng tham chiếu. Sau đó các cặp có quan hệđồng tham chiếu với nhau được nhóm cùng vào một nhóm.
Ngoài ra, trong một văn bản có nhiều câu, trong một câu có thể có một hoặc nhiều các cụm từ tiềm năng như: thực thể tên, danh từ, đại từ. Như vậy, bài toán còn liên quan tới bài toán ghép cặp các cụm từ trong các câu với nhau.
Ý tưởng giải quyết bài toán được mô tả cụ thể như sau:
• Văn bản đầu vào được tiến hành tách câu tạo thành một tập các câu. Trên mỗi câu tiến hành nhận dạng thực thể và gán nhãn từ loại, ta được một tập các cụm từ tiềm năng NPi như đã nói ở trên. Tiến hành ghép cặp các cụm từ trong một câu với nhau và các câu khác ở phía trước nó.
26
• Mỗi một cặp cụm từ thể hiện cho một quan hệ. Mỗi quan hệ này sẽ tương
ứng với một vector đặc trưng
• Tiến hành tạo bộ phân lớp nhị phân các quan hệ vào 2 lớp: lớp 1 tương
ứng với cặp có quan hệđồng tham chiếu, lớp 0 tương ứng với cặp không có quan hệđồng tham chiếu.
• Nhóm các cặp có quan hệđồng tham chiếu với nhau vào cùng một nhóm Mô hình giải quyết bài toán đồng tham chiếu, cụ thể là mô hình trích chọn quan hệđồng tham chiếu trong văn bản tiếng Việt chia làm 2 phần chính: Phần xây dựng bộ
dữ liệu học và phần áp dụng mô hình học máy để xác định các nhóm đồng tham chiếu.