Gán nhãn ngữ nghĩa cho câu

Một phần của tài liệu Trích chọn thông tin y tế tiếng Việt cho bài toán tìm kiếm ngữ nghĩa (Trang 45 - 47)

1.4 .Trích chọn thơng tin

4.2. Gán nhãn ngữ nghĩa cho câu

Trong [30], Xuan-Hieu Phan và cộng sự đã đề cập tới giải pháp ”khử nhập

nhằng thực thể đa tài liệu” bằng cách gán nhãn ngữ nghĩa cho các câu trong văn

bản. Khử nhập nhằng thực thể đa tài liệu là phân biệt các thực thể trùng thể hiện

trong một tập tài liệu cho trước. Ví dụ, cho một tập các thực thể cĩ cùng thể hiện là “Bill Clinton, ta phải xác định được tập con tài liệu thực sự nĩi về “Bill Clinton” – cựu tổng thống Mỹ, tập con tài liệu nào nĩi về “Bill Clinton” – cầu thủ golf hay tập nào nĩi về một “Bill Clinton” nào đĩ khác.

Gán nhãn ngữ nghĩa cĩ thể được xem như là bài tốn phân lớp các câu chứa quan hệ ngữ nghĩa. Bài báo đã sử dụng bộ phân lớp dựa trên Maxent lấy các câu từ tĩm tắt cá nhân là các câu đầu vào và đầu ra với các nhãn ngữ nghĩa. Bộ phân lớp

38

dựa trên Maxent cĩ ưu điểm là liên kết chặt chẽ giữa một số lượng rất lớn (lên tới hàng trăm nghìn hoặc triệu) của các đặc trưng chồng chéo, độc lập tại các mức độ khác nhau.

Các tác giả [30] cũng đề xuất một Framework cho việc khử nhập nhằng thực thể đa tài liệu gồm ba phần chính, và một phần khơng thể thiếu đĩ là gán nhãn ngữ nghĩa cho câu trong văn bản:

• Tiền xử lý: Sử dụng xử lý nơng để một thu thập một tĩm tắt bao gồm các

câu liên quan tới thực thể được đề cập.

• Chỉ định các nhãn ngữ nghĩa đối với câu trong tĩm tắt để đặt chúng vào các lớp khác nhau của sự vật. Sự chỉ định này được thực hiện bởi bộ phân lớp dựa trên Maxent cĩ độ chính xác cao, trong đĩ dữ liệu được huấn luyện dựa trên phương pháp học bán giám sát.

• Sử dụng phương pháp phân cụm, độ tương đồng giữa các tĩm tắt cá nhân

của mỗi câu cĩ cùng các nhãn ngữ nghĩa sẽ được đặt bằng nhau để tính tốn độ gần ngữ nghĩa.

Hình 14. Minh họa Framework giải quyết bài tốn xác định tên riêng giữa các tài liệu.

Hình vẽ 14 cho thấy gán nhãn ngữ nghĩa cho câu đĩng một vai trị quan trọng trong bài tốn xác định tên riêng giữa các tài liệu cũng như là cơ sở cho xác định quan hệ ngữ nghĩa.

39

Hình 15. Một số nhãn ngữ nghĩa được gán cho câu [30]

Với các nhãn này, tĩm tắt cá nhân của Bill Clinton sẽ được gán nhãn như

Hình 16 dưới đây.

Hình 16. Gán nhãn ngữ nghĩa cho các câu mơ tả tổng thống Bill Clinton [30].

Khĩa luận đã gán nhãn thử nghiệm cho 1000 câu với các nhãn chứa quan hệ liên quan đến lĩnh vực y tế. Các nhãn và dữ liệu được gán nhãn sẽ được trình bày chih tiết trong Chương 5.

4.3. Phân lớp câu chứa quan hệ

Một phần của tài liệu Trích chọn thông tin y tế tiếng Việt cho bài toán tìm kiếm ngữ nghĩa (Trang 45 - 47)

Tải bản đầy đủ (PDF)

(67 trang)