GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ

2. 3.

3.1. Giới thiệu mô hình gióng hàng IBM

Gióng hàng từ đóng vai trò quan trọng trong các hệ thống dịch máy thống kê. Hệ thống gióng hàng từ nổi tiếng hiện nay là các mô hình IBM cũng chỉ thực hiện trên các từ mà không quan tâm đếm các tính chất ngôn ngữ. Điều này dẫn đến nhiều vấn đề về dữ liệu thưa. Do đó chúng tôi trình bày phương án mở rộng cho phép tích hợp các tri thức ngôn ngữ cụ thể là phân tích hình thái vào các mô hình IBM truyền thống. Các thực nghiệm trên ngữ liệu tiếng Anh-tiếng Việt chỉ ra rằng mô hình mới không chỉ tốt hơn trong việc gióng hàng từ mà còn đem lại kết quả dịch cuối cùng tốt hơn.

Hầu hết các hệ thống dịch máy ngày này đểu sử dụng gióng hàng từ như là một thành phần căn bản để xây dựng các mô hình cao hơn, điều này làm cho kết quả dịch trở nên phụ thuộc nhiều vào chất lượng của bộ gióng từ. Trong tất cả các mô hình gióng hàng từ thì các mô hình IBM mặc dù đã xuất hiện khá lâu nhưng hiện nay vẫn rất phổ biến và được sử dụng rộng rãi như một hệ thống hình mẫu. Các mô hình IBM được đánh số từ 1 đến 5, mô hình sau là sự mở rộng của mô hình trước đó, trong đó mô hình IBM 1 dựa vào sự cùng xuất hiện của các từ trong cả 2 câu nguồn-đích để tạo ra bảng dịch từ (word translation table), và tham số này không chỉ được sử dụng để gióng các từ giữa các câu mà còn để cung cấp tham số khởi tạo hợp lý cho các mô hình cao hơn bao gồm các tham số khác nhau như thứ tự của từ trong IBM Model 2, số các từ mà từ gốc tạo ra trong IBM Model 3, … do vậy nếu IBM Model 1 tạo ra tham số tốt thì sẽ giúp cải thiện chất lượng của các mô hình sau đó.

IBM Model 1 là mô hình làm việc với đơn vị là từ nên chỉ có các thống kê về từ mà không sử dụng bất kỳ một đặc trưng ngôn ngữ nào khác như từ loại, hình thái, … Việc phát hiện các mối quan hệ giữa các từ có cùng nguồn gốc hay cùng dẫn xuất thông qua phân tích ngôn ngữ không chỉ giảm sự giới hạn về độ thưa của dữ liệu huấn luyện mà còn giúp giải thích tốt hơn cho ánh xạ từ. Tuy nhiên hiện tại không có framework chung nào để xử lý các loại thông tin này do mỗi cặp ngôn ngữ có những đặc tính riêng làm cho kịch bản xử lý cho mỗi cặp ngôn ngữ khác nhau. Mặc dù có một số các bài báo đã được công bố về vấn đề này nhưng các nghiên cứu đó đều tập trung xử lý cho mỗi cặp ngôn ngữ nhất định, và không có bài báo nào nói về vấn đề phân tích hình thái của cặp ngôn ngữ Anh-Việt.

Trong luận văn này, việc phân tích hình thái từ được sử dụng để giúp xây dựng một bộ gióng hàng từ Anh-Việt tốt hơn. Ngôn ngữ tiếng Anh được đánh giá là không giàu về hình thái hơn so với các ngôn ngữ khác như tiếng Đức, tiếng Séc, .. mỗi từ tiếng Anh thường có ít hơn 10 từ phái sinh. Tuy nhiên khi so sánh với tiếng Việt thì tiếng Anh lại được đánh giá là có hình thái phức tạp hơn, các từ tiếng Việt đều là các từ độc lập, hay nói cách khác các từ tiếng Việt không thể chia ra thành các thành phần hoặc kết hợp với nhau để tạo ra từ phái sinh. Trong một cặp câu Anh-Việt thì mỗi từ tiếng Việt có thể được dịch sang từ tiếng Anh hoặc là một thành phần của một từ tiếng Anh, ví dụ: từ

“enlargements”được dịch sang tiếng Việt là “những sự mở rộng”, trong đó từ “những”

+ “sự” + “mở rộng” được dịch từ những thành phần “s” + “ment” + “enlarge”. Ví dụ trên và rất nhiều các ví dụ khác cho thấy rằng trong tiếng Anh để xây dựng một từ có nghĩa phức tạp hơn thì cần kết hợp từ với các hình vị để mở rộng từ, còn trong tiếng Việt thì cần thêm các từ với chức năng ứng với các hình vị tiếng Anh xung quanh từ chính. Nói cách khác là từ tiếng Anh có thể được gióng thành nhiều từ tiếng Việt trong hầu hết các trường hợp, và từ tiếng Việt thường chỉ được gióng với một từ tiếng Anh hoặc gióng với một thành phần của một từ khi phân tích hình thái.

Đặc tính trên của cặp ngôn ngữ Anh-Việt đóng vai trò quan trọng trong việc phát triển mở rộng mô hình, do vậy chúng tôi coi một từ tiếng Anh không chỉ là một từ mà

còn chứa các từ tương ứng với những hình vị khác nữa. Các hình vị bây giờ sẽ được phân tích thống kê để xác định ra mối tương quan với các từ tiếng Việt có cùng chức năng. Để đạt được điều này chúng tôi phải có thêm một bước tiền xử lý, trong đó các hình vị phù hợp sẽ được tách khỏi từ gốc, sau đó sử dụng mô hình IBM với tập từ này, từ đó có thể thấy mối quan hệ giữa các hình vị tiếng Anh và các từ tiếng Việt có sự tương ứng về tham số xác suất của mô hình.

3.2. Định nghĩa mô hình IBM

Đối với một cặp câu, mỗi từ tại vị trí j trong câu đích T được gióng với một và chỉ

một từ ở vị trí i trong câu nguồn, hoặc không phù hợp với bất kỳ từ nào. Trong trường

hợp không phù hợp thì nó được xem xét gióng với một từ đặc biệt là từ NULL tại vị trí số

0 của mỗi câu. Kí hiệu l, m tương ứng là chiều dài của câu nguồn và câu đích, aj là vị trí

trong câu nguồn mà từ đích j được gióng. Mô hình này có một xác suất dịch từ là tr – là

tham số với ý nghĩa đo khả năng dịch của từ đích với một từ nguồn đã biết trước. Vai trò của các tham số trong mô hình được mô tả trong hàm xác suất sau.

Ta có mô hình xác suất của IBM model 1 thể hiện thông qua công thức sau:

𝑃 𝑇, 𝐴 𝑆 =∈ 𝑡𝑟(𝑡𝑗|𝑠𝑎𝑗)

𝑗

Xác suất trên được hiểu là tích các phép dịch của các cặp từ được gióng. Từ mô hình xác suất miêu tả bởi các công thức trên, ta có thể có được xác xuất dịch giữa 2 cặp câu bằng việc lấy tổng trên toàn bộ các phép gióng có thể có như sau:

𝑃 𝑇 𝑆 = 𝑃 𝑇, 𝐴 𝑆 = … ∈ 𝑡𝑟(𝑡𝑗|𝑠𝑎𝑗) 𝑗 𝑎𝑚 𝑎𝑚 −1 𝑎2 𝑎1 𝐴 = … ∈ 𝑡𝑟(𝑡𝑗|𝑠𝑎𝑗) 𝑗 𝑎𝑚 −1 𝑡𝑟(𝑡𝑚|𝑠𝑎𝑚) 𝑎𝑚 𝑎2 𝑎1

Từ việc mô hình hóa phép dịch trên, ta có thể tính được xác suất của một phép gióng khi biết trước cặp câu như sau:

Áp dụng thuật toán tối đa hóa kỳ vọng (EM) với phương trình trên vào một tập lớn của các cặp câu nguồn-đích song song, chúng ta sẽ nhận được tham số tr tốt nhất, tham số

này tối đa hóa khả năng của tập này. Với tham số tr chúng ta có được, sự gióng hàng gần

đúng nhất, được gọi là gióng hàng Viterbi, có đưa ra như sau: 𝐴𝑉𝑖𝑡𝑒𝑟𝑏𝑖 = 𝑎𝑟𝑔𝑚𝑎𝑥𝐴𝑃(𝐴|𝑆, 𝑇)

Một điểm cần lưu ý ở đây là bản dịch của mỗi từ đích là độc lập với nhau. Do đó,

aj gần đúng nhất là vị trí i để đạt được tr cao nhất 𝑡𝑟(𝑡𝑗|𝑠𝑖) (𝐴𝑉𝑖𝑡𝑒𝑟𝑏𝑖)𝑗 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑖𝑡𝑟(𝑡𝑗|𝑠𝑖)

Sau khi chúng ta có mô hình, phép suy diễncủa các phép gióng gần đúng nhất có

thể được thực hiện trên các cặp câu của tập ngữ liệu huấn luyện, hoặc một số tập ngữ liệu thử nghiệm khác.

3.3. Một vài vấn đề khi áp dụng cho ngữ liệu Anh-Việt

Một hạn chế với các mô hình IBM là một từ đích được gióng với một và chỉ một từ trong câu nguồn (hoặc để NULL). Trường hợp này có thể thích hợp khi các ngôn ngữ

đích là tiếng Việt, trong đó mỗi từ đích tiếng Việt hầu hết chỉ tương ứng với không nhiều hơn một từ tiếng Anh. Tuy nhiên, nếu theo hướng ngược lại thì bối cảnh sẽ khác nhiều, các từ phức tạp có hình thái phong phú có thể dịch sang hai, ba, hoặc nhiều từ tiếng Việt. Do vậy hạn chế là việc chỉ có một từ tiếng Việt được chọn để gióng với một từ tiếng Anh phức tạp là không được.

Vấn đề thứ hai đề cập ở đây là các từ hiếm. Giả sử rằng trong tập ngữ liệu có một từ nguồn xuất hiện rất ít lần, xem xét một câu có sự hiện diện của từ hiếm này thì từ này sẽ đóng vai trò của một từ “dọn rác”, điều này làm cho thuật toán EM gán xác suất rất cao cho phân phối của từ hiếm đó cho các từ trong câu đích để tối đa hóa likelihood tổng thể. Kịch bản này làm cho nhiều từ trong câu đích phải được gióng với từ hiếm đó. Moore đưa ra giải thích chi tiết và một cách giải quyết vấn đề này thông qua một kỹ thuật làm mịn trong tài liệu [7]. Tuy nhiên, vấn đề chúng tôi muốn giải quyết trong nghiên cứu này lại là tình huống các từ này hiếm gặp trong ngữ liệu nhưng từ gốc lại không hiếm. Ví dụ trong một tập, từ “enlargments” có thể là một từ hiếm, nhưng hình vị của nó, “en”, “large”, “ment”, “s” lại là những hình vị rất phổ biến. Bằng cách phân tích số liệu thống kê về các phần nhỏ hơn của các từ gốc, chúng tôi rất có thể làm phong phú thêm số liệu thống kê, và giảm các vấn đề của những từ hiếm với hình vị phổ biến.

Ưu điểm của phương pháp dịch thống kê

Dùng thông tin cú pháp