4.
4.1. Phân tích ví dụ
Hãy xem xét một cặp mẫu câu như trong tất cả ba hình: Hình 4.1, Hình 4.2 và Hình 4.3.
Hình 4.1: Gióng từ từ tiếng Anh sang tiếng Việt
Việc gióng hàng cho câu đích tiếng Việt trong hình 4.1 là kết quả của mô hình sinh ra sau khi được huấn luyện trên một tập ngữ liệu đủ lớn. Một ngữ liệu đủ lớn là tập không có các vấn đề về dữ liệu thưa, tuy nhiên một tập ngữ liệu lý tưởng như vậy là rất hiếm. Trong trường hợp chữ “solvable” xuất hiện rất ít lần trong ngữ liệu (hoặc trong một trường hợp tệ hơn nhiều thì chỉ có một hoặc hai lần), trong khi các từ tiếng Anh khác lại khá phổ biến thì mô hình IBM 1 sẽ cư xử rất kỳ lạ khi gióng hầu hết các từ trong câu tiếng Việt với từ “solvable”. Đây là một kết quả không tốt vì tất cả sự gióng từ sai của toàn bộ câu chỉ do một từ hiếm này, và điều này còn không tốt khi thành phần của từ đó là từ “solve” và hậu tố “able” là rất phổ biến trong tiếng Anh, hay nói cách khác thì từ “solvable” không phải là một từ hiếm thực sự vì từ gốc và hình vị của nó phổ biến. Việc phân tích số liệu thống kê trong đó giữ nguyên dạng từ mà không quan tâm đến các hình vị của từ làm tăng thêm vấn đề dữ liệu thưa. Mặt khác, phân tích số liệu thống kê về các thành phần nhỏ hơn của từ có thể dẫn đến mối tương quan cao giữa các từ tiếng Việt và hình vị tiếng Anh. Trong trường hợp này những tương quan giữa là “solve” và “giải”, “able” và “được”, đã làm cho từ “solvable” không còn là một từ hiếm nữa.
The se
problems were proved to be solvable .
Theo hướng ngược lại, khi các ngôn ngữ đích là tiếng Anh, việc gióng từ của mô hình IBM 1 là không đầy đủ, như thể hiện trong Hình 4.2
Hình 4.2: Gióng từ từ tiếng Việt sang tiếng Anh
Việc gióng từ bị thiếu là khá rõ ràng khi so sánh với các gióng từ được thể hiện trong Hình 4.1. Đó là do yêu cầu của mô hình IBM rằng một từ trong câu đích chỉ được gióng đến không nhiều hơn một từ trong câu nguồn. Khi các mô hình này được áp dụng cho trường hợp của chúng tôi, các từ phức tạp như “problems”, “proved”, “solvable”, được dịch thực tế thành 2 từ trong câu tiếng Việt như trong Hình 4.1 làm cho việc gióng từ thiếu rất nhiều gióng đúng. Một điểm quan trọng cần lưu ý ở đây là một số từ tiếng Việt thực sự được gióng với các hình vị của từ tiếng Anh. Trong trường hợp của “problems”, hình vị của nó “problem” và “s” tương ứng kết nối với từ “vấn_đề” và “những”. Các trường hợp cho hai từ khác cũng tương tự, hãy xem chi tiết trong Hình 4.3.
These problems were proved to be solvable .
Hình 4.3. Sự sắp xếp đối xứng của cảhai hướng sau khi táchcác thành phần
Bằng một chiến lược phù hợp để chia nhỏ các từ tiếng Anh ban đầu thành các thành phần như trong Hình 4.3, chúng tôi không chỉ làm phong phú thêm các số liệu thống kê trên ngữ liệu mà còn khắc phục những vấn đề của việc gióng một từ đích tiếng Anh sang nhiều từ nguồn tiếng Việt. Do đó, việc gióng cho cả hai hướng khi áp dụng thủ thuật này có xu hướng trở nên đối xứng hơn và được thể hiện rõ trong ví dụ của chúng tôi.
4.2. Đề xuất
Mỗi từ tiếng Anh có dạng hình thái riêng của mình, nhờ đó chúng ta có thể phá vỡ nó thành các phần nhỏ hơn, trong đó mỗi một phần thực sự có thể dịch tương ứng với một từ tiếng Việt. Nói cách khác một chữ tiếng Anh có đôi khi là bản dịch của nhiều từ tiếng Việt. Bằng cách tách từ tiếng Anh sang các phần nhỏ hơn, chúng ta có thể gán từng phần riêng lẻ với một từ tiếng Việt.
Có rất nhiều cách để phá vỡ một từ tiếng Anh sang các thành phần. Ví dụ, từ “enlargements” có thể được chia thành nhiều phần là “en + large + ment + s”, nhưng một trong những bản dịch phù hợp nhất tương ứng với cụm tiếng Việt “những sự mở_rộng” là “enlarge + ment + s”. Không có chiến lược nào để tìm ra bản dịch nào là tốt nhất, vì vậy trong phương pháp của chúng tôi, chúng tôi đề xuất để phá vỡ trên chỉ là một tập hợp rất hạn chế các lớp hình thái học phổ biến. Đặc biệt, chúng tôi tập trung vào khai thác các lớp bao gồm cả danh từ + S, động từ + ED, động từ + ING.
Trong phương pháp của chúng tôi, chúng tôi sẽ bổ sung thêm một bước tiền xử lý và một bước hậu xử lý so với mô hình ban đầu. Đầu tiên, mỗi từ tiếng Anh mà có một trong ba hình vị trên sẽ được chia thành các phần nhỏ hơn. Các mô hình truyền thống sẽ được huấn luyện trên tập ngữ liệu tiền xử lý này và cho kết quả là các gióng từ Viterbi. Sau đó, các bước hậu xử lý sẽ chuyển đổi những gióng từ này để tương thích với các tập ngữ liệu gốc. Đối với trường hợp các ngôn ngữ gốc là tiếng Anh, phép gióng từ một phần của một từ tiếng Anh cũng có nghĩa là phép gióng từ toàn bộ từ. Đối với trường hợp các ngôn ngữ gốc là tiếng Việt, phép gióng từ tới bất kỳ phần nào của một từ tiếng Anh cũng có nghĩa là phép gióng từ đến toàn bộ từ. Giai đoạn hậu xử lý là chủ yếu để so sánh các phép gióng của các mô hình khác nhau nên cần làm trên một bộ ngữ liệu giống nhau.