3.3. Mụ hỡnh dịch
3.3.1. Giúng hành từ
3.3.1.1. Giới thiệu về giúng hàng từ
Chỳng ta núi rằng cặp xõu kớ tự mà xõu này đƣợc dịch từ xõu kia từ ngụn ngữ này sang ngụn ngữ khỏc là cặp xõu dịch. Chỳng ta cú thể kớ hiệu cặp xõu dịch (I like a blue book|Tụi thớch quyển sỏch màu xanh) mà nú biểu diễn là xõu “I like a blue book” (tiếng Anh) đƣợc dịch thành “Tụi thớch quyển sỏch màu xanh” (tiếng Việt). Brow và cộng sự[8] đó chỉ ra ý tƣởng về việc giúng hàng giữa cặp xõu kớ tự dịch nhƣ là một sự tƣơng ứng giữa cỏc từ của xõu tiếng Anh với cỏc từ của xõu tiếng Phỏp. Điều này ta cú thể thấy hoàn toàn tƣơng tự nhƣ trong cặp xõu dịch Anh - Việt. Mỗi đƣơng nhƣ vậy ta gọi là 1 kết nối. Giúng hàng đƣợc biểu diễn bằng đồ thị nhƣ hỡnh 1 bằng cỏch vẽ cỏc đƣờng nối giữa một số từ tiếng Anh và một số từ tiếng Việt.
Vớ dụ: Trong hỡnh 1, ta cú 5 kết nối: (I(1) like(2) a(3) blue(4) book(5)|Tụi(1) thớch(2) quyển(3) sỏch(4) màu xanh(5)).
Việc kết nối này cú thể là:
- một từ tiếng Anh tƣơng ứng với 1 từ tiếng Việt (hỡnh 1) - một từ tiếng Anh tƣơng ứng nhiều từ tiếng Việt (hỡnh 2) - nhiều từ tiếng Anh tƣơng ứng với nhiều từ tiếng Việt (hỡnh 3)
Chỳng ta kớ hiệu tập giúng hàng của (v/e) là A(e,v). Nếu e cú độ dài là I và v cú độ dài là J, ta sẽ cú I*J liờn kết khỏc nhau giữa J từ tiếng Việt và từ tiếng Anh. Khi đú, số giúng hàng từ cặp cõu (v,e) là 2IJ. Nghĩa là số tập con của A(e,v) = 2IJ
I like a blue book
Tôi thích quyển sách màu xanh
Hình 1: Gióng hàng với những từ tiếng Anh độc lập
Tiếp theo là hỡnh 2
I take on extra work in order to get money
Tôi làm việc thêm để kiếm tiền
Hình 2: Gióng hàng với những từ tiếng Việt độc lập
I feel under the weather
Tôi cảm thấy không khỏe
Hình 3: Gióng hàng tổng quát
3.3.1.2. Mụ hỡnh giúng hàng thống kờ
Một cỏch tổng quỏt, mụ hỡnh giúng hàng thống kờ phụ thuộc vào tập tham số chƣa biết θ mà đƣợc học từ dữ liệu huấn luyện.Để biểu diễn sự phụ thuộc của mụ hỡnh vào tập cỏc tham số, ta cú cụng thức: ) | , ( ) | , Pr(e a v p e a v
Tớnh sỏng tạo trong mụ hỡnh thống kờ là phải phỏt triển cỏc mụ hỡnh cụ thể mà nắm bắt cỏc thuộc tớnh cú liờn quan của lĩnh vực vấn đề đƣợc xem xột. Trong trƣờng hợp của chỳng ta, mụ hỡnh giúng hàng thống kờ phải mụ tả mối quan hệ giữa xõu ngụn ngữ nguồn và xõu ngụn ngữ đớch tƣơng xứng.
Để huấn luyện tập tham số θ, chỳng ta cú sẵn corpus song ngữ bao gồm S cặp cõu {(es,vs) :s = 1, …, S}. Với mỗi cặp cõu (es,vs), biến giúng hàng đƣợc kớ hiệu là a. Tập tham số θ đƣợc xỏc định dựa vào cỏch tiếp cận hợp lý cực đại trong corpus huấn luyện song ngữ :
S s a v a e p 1 ) | , ( max arg ˆ
Thuật toỏn EM (Dempster, Laird và Rubin 1977) tỏ ra khỏ hiệu quả trong việc giải quyết bài toỏn trờn, Phần 3.5, chỳng tụi mụ tả chi tiết thuật toỏn EM.