VấN Đề SAI THứ Tự VÀ THIếU CÂU TRONGGIÓNG HÀNG

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 32 - 33)

Một trong những vấn đề của bài toán gióng hàng văn bản là câu bị sai thứ tự hoặc mất tích trong bản dịch. Về nguyên tắc, bài toán gióng hàng câu cũng có nhưng vấn đề tương tự, và có thể sử dụng các phương pháp đóđể giúp xử lý vấn đề của bài toán gióng hàng văn bản. Trong quá trình gióng hàng, những câu tương ứng sẽ được đánh giá mức độ tương tự, nếu chúng càng có điểm tương tự cao thì càng có khả năng hai câu đó là dịch của nhau, khi đócác câu có thể được đổi lại vị trí cho nhau.

Ngôn ngữ 1 Ngôn ngữ 2 aaaaa bbbbb bbbbb AAAAA

Trong ví dụ trên, câu aaaaa / bbbbb thuộc cùng một ngôn ngữ, trong khi bbbbb / AAAAA thuộcngôn ngữ khác. Giả thiết rằng cặp aaaaa và AAAAA có độ tương tự cao hơn cặp aaaaa và bbbbb (tương tự như vậy cho cặp bbbbb và AAAAA), khi đócặp aaaaa/ AAAAA được xác định là dịch của nhau và sẽ đổi lại thứ tự.

Một số cách để đánh giá cặp câu tương tự bao gồm: - Phương pháp ngây thơ đếm ký tự và từ của câu

- Kiểm tra các tín hiệu từ vựng như cùng nguồn gốc, những cụm từ và từ neo trong một câu

- Cách tiếp cận ngữ nghĩa như kiểm tra ý nghĩa của câu sử dụng từ điển để có bản dịch thô, và so sánh ý nghĩa của động từ, danh từ, tính từ và trạng từ trong câu

Hướng tiếp cận cuối cùng đã được triển khai vớihunalign. Nó so sánh từ ở câu

đích và từ trong bản dịch thô để sinh ra các cặp được gán nhãn, tuy nhiên vẫn có thể được thay đổi bởi người sử dụng.

Cách tiếp cận này có thể được cải tiến hơn nữa với tập từ điển WordNet. Pedersen đã sử dụng WordNet để tính toán độ tương tự về ngữ nghĩa và sự liên hệ giữa các từ. Họ sử dụng các quy đinh phân cấp trong WordNet để tìm những từ có điểm

tương đồng về khái niệm. Ví dụ, “car” và “bus” có khả năng tương đồng cao hơn cặp“car” và “dog”, vì “car” và “bus”thuộc loại “vehicle”; trong khi“dog” thuộc loại “mammal”.

Mặc dù sử dụng các phương pháp tương tự để giải quyếtbài toán câu lệch hoặc thiếu khá là hấp dẫn và trực quan,nhưng thực tế không phải là quá dễ dàng. Hai câu rất khác nhau có thể có điểm tương đồng giống nhau; hoàn toàn là do trùng hợp ngẫu nhiên, hoặc hai câu tương tự có thể có điểm rất khác nhau vì lựa chọn của người dịch.

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 32 - 33)