Hướng tiếp cận dựa trên từ vựng

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 25 - 26)

Bài toán phát hiện kế thừa văn bản (RTE) đã được đưa ra lần đầu tiên vào năm 2005. Trong các hướng tiếp cận giải quyết bài toán như trên thì hướng tiếp cận dựa trên thuật ngữ (từ vựng) là hướng nghiên cứu phổ biến nhất. Nó có mặt trong hầu hết các hệ thống xuyên suốt từ hội nghị RTE1 tới RTE7. Cơ sở của sự tương đồng về nội dung, ngữ nghĩa là sự tương đồng trong cách diễn đạt, sử dụng từ ngữ mà điển hình là sự trùng lặp từ vựng hoặc các từđồng nghĩa, cấu trúc giống nhau. Chính vì vậy, một hệ thống phát hiện quan hệ kế thừa với dữ liệu thuộc ngôn ngữ nào thì hướng tiếp cận dựa trên từ vựng cũng là hướng tiếp cận được quan tâm xử lý đầu tiên. Động lực của phương pháp này là việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng lặp ngữ nghĩa trong các cách diễn đạt, ví dụ trong tài liệu so sánh hay tóm tắt nhiều tài liệu.

Số lượng các bài báo và công trình nghiên cứu về kế thừa văn bản dựa trên từ vựng là rất lớn, các thuật toán mà các tác giả sử dụng là rất đa dạng. Tiêu biểu trong chuỗi thuật toán từ vựng đó là các thuật toán liên quan tới việc chỉnh sửa xâu [11] [8] [14].

14

Cặp câu văn bản - giả thuyết được coi như là hai xâu đầu vào của các thuật toán. Sau đó các tác giả sử dụng các thuật toán để tìm ra khoảng cách chỉnh sửa. Hệ thống đưa ra phán quyết kế thừa bằng cách so sánh khoảng cách với một ngưỡng kế thừa. Bên cạnh đó, việc sử dụng mô hình xác suất dựa trên từ vựng [18], học máy trường ngẫu nhiên có điều kiện kết hợp với khoảng cách chuyển đổi xâu (Conditional Random Field for Discriminatively-trained Finite-state String Edit Distance – CRF String Edit Distance) [1] trong các hệ thống RTE cũng thu được kết quả tốt khi đưa ra phán quyết kế thừa.

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 25 - 26)