1.4 .Trích chọn thơng tin
4.2. Gán nhãn ngữ nghĩa cho câu
Trong [30], Xuan-Hieu Phan và cộng sự đã đề cập tới giải pháp ”khử nhập
nhằng thực thể đa tài liệu” bằng cách gán nhãn ngữ nghĩa cho các câu trong văn
bản. Khử nhập nhằng thực thể đa tài liệu là phân biệt các thực thể trùng thể hiện
trong một tập tài liệu cho trước. Ví dụ, cho một tập các thực thể cĩ cùng thể hiện là “Bill Clinton, ta phải xác định được tập con tài liệu thực sự nĩi về “Bill Clinton” – cựu tổng thống Mỹ, tập con tài liệu nào nĩi về “Bill Clinton” – cầu thủ golf hay tập nào nĩi về một “Bill Clinton” nào đĩ khác.
Gán nhãn ngữ nghĩa cĩ thể được xem như là bài tốn phân lớp các câu chứa quan hệ ngữ nghĩa. Bài báo đã sử dụng bộ phân lớp dựa trên Maxent lấy các câu từ tĩm tắt cá nhân là các câu đầu vào và đầu ra với các nhãn ngữ nghĩa. Bộ phân lớp
38
dựa trên Maxent cĩ ưu điểm là liên kết chặt chẽ giữa một số lượng rất lớn (lên tới hàng trăm nghìn hoặc triệu) của các đặc trưng chồng chéo, độc lập tại các mức độ khác nhau.
Các tác giả [30] cũng đề xuất một Framework cho việc khử nhập nhằng thực thể đa tài liệu gồm ba phần chính, và một phần khơng thể thiếu đĩ là gán nhãn ngữ nghĩa cho câu trong văn bản:
• Tiền xử lý: Sử dụng xử lý nơng để một thu thập một tĩm tắt bao gồm các
câu liên quan tới thực thể được đề cập.
• Chỉ định các nhãn ngữ nghĩa đối với câu trong tĩm tắt để đặt chúng vào các lớp khác nhau của sự vật. Sự chỉ định này được thực hiện bởi bộ phân lớp dựa trên Maxent cĩ độ chính xác cao, trong đĩ dữ liệu được huấn luyện dựa trên phương pháp học bán giám sát.
• Sử dụng phương pháp phân cụm, độ tương đồng giữa các tĩm tắt cá nhân
của mỗi câu cĩ cùng các nhãn ngữ nghĩa sẽ được đặt bằng nhau để tính tốn độ gần ngữ nghĩa.
Hình 14. Minh họa Framework giải quyết bài tốn xác định tên riêng giữa các tài liệu.
Hình vẽ 14 cho thấy gán nhãn ngữ nghĩa cho câu đĩng một vai trị quan trọng trong bài tốn xác định tên riêng giữa các tài liệu cũng như là cơ sở cho xác định quan hệ ngữ nghĩa.
39
Hình 15. Một số nhãn ngữ nghĩa được gán cho câu [30]
Với các nhãn này, tĩm tắt cá nhân của Bill Clinton sẽ được gán nhãn như
Hình 16 dưới đây.
Hình 16. Gán nhãn ngữ nghĩa cho các câu mơ tả tổng thống Bill Clinton [30].
Khĩa luận đã gán nhãn thử nghiệm cho 1000 câu với các nhãn chứa quan hệ liên quan đến lĩnh vực y tế. Các nhãn và dữ liệu được gán nhãn sẽ được trình bày chih tiết trong Chương 5.
4.3. Phân lớp câu chứa quan hệ