Qua khảo sát dữ liệu, với miền dữ liệu sử dụng dữ liệu tiếng Việt nên bài toán phát hiện kế thừa văn bản có những điểm khác so với bài toán RTE trên miền dữ liệu tiếng Anh. Đặc trưng của tiếng Việt là sự nhập nhằng, đa nghĩa. Bên cạnh đó, tiếng Việt còn có nhiều biến thể như: đồng âm khác nghĩa, từ đồng nghĩa, từ nhiều nghĩa, từ Hán Việt, từđịa phương, từ mượn. Tiếng Việt có sự nhập nhằng ranh giới từ. Do tiếng Việt là ngôn ngữ đơn lập nên từ vựng chủ yếu là các từ ghép vì thế khoảng trắng không phải luôn luôn là ranh giới chính xác. Giải quyết sự nhập nhằng ranh giới từ tiếng Việt là rất quan trọng. Hệ thống RTE tiếng Việt cần tách câu, tách từ thật chính xác.
Đặc trưng lớn nhất của tiếng Việt là vấn đề giải quyết nhập nhằng từđồng nghĩa. Từđồng nghĩa là từ có nghĩa giống nhau, nhưng cấu tạo nên chữđó có thể khác nhau. Đồng nghĩa thực ra là hiện tượng có mức độ khác nhau, về sự sở hữu những nét cơ bản giống nhau về mặt nghĩa. Trong tiếng Việt, chỉ những từ có nghĩa mới có hiện tượng đồng nghĩa từ vựng. Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”, “nghẻo”, .. đều có cùng một nghĩa. Tuy nhiên, rõ ràng xét về mặt từ vựng thì chúng hoàn toàn khác nhau. Chính sự nhập nhằng này mà trong nhiều trường hợp các từ trong câu văn bản và giả thuyết biểu diễn cùng một nghĩa nhưng từ vựng thì hoàn toàn khác nhau. Một hệ thống RTE đơn thuần dựa trên từ vựng sẽ đưa ra phán quyết sai trong những trường hợp này. Vì vậy, trong khóa luận này em tiến hành thực nghiệm dựa trên ngưỡng từ vựng kết hợp thêm việc sử dụng từ điển đồng nghĩa tiếng Việt nhằm đưa ra những phán quyết kế thừa chính xác.
Bên cạnh đó việc tiền xử lý dữ liệu tiếng Việt còn gặp phải một số khó khăn như: nhập nhằng từ đa nghĩa, nhập nhằng từ đồng âm. Bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn toàn trùng khớp nhau nhưng lại có nhiều nét tương đồng. Tuy nhiên trong tiếng Việt, số lượng từ đã nghĩa là rất lớn. Ví dụ, từ “ăn” trong “ăn uống” và “ăn cướp” vừa có những nét nghĩa giống và khác nhau, theo cuốn từđiển tiếng Việt thì từăn có đến 12 nghĩa.
23
Vì những lý do trên mà thông thường trong lĩnh vực xử lý ngôn ngữ tự nhiên, một hệ thống có đầu vào là dữ liệu tiếng Việt thường thu được độ chính xác thấp hơn tiếng Anh và đặc thù trong việc sử dụng phương pháp (có những phương pháp áp dụng hiệu quả trên dữ liệu tiếng Anh nhưng lại không dùng được trong tiếng Việt).