Chỳng ta phải giải quyết những vấn đề sau trong việc phỏt triển hệ thống dịch thống kờ:
- Mụ hỡnh: Chỉ ra cấu trỳc trong sự phụ thuộc xỏc suất để mụ hỡnh húa xỏc suất dịch Pr(e1
I
/v1J) hoặc Pr(v1 J
/e1I).
Theo cỏch tiếp cận kờnh - nguồn, chỳng ta phải xõy dựng mụ hỡnh dịch thống kờ: Pr(e1 I /v1 J ) = p(e1 I /v1 J )
Mụ hỡnh này chủ yếu bao gồm tập cỏc tham số tự do . Để giảm bớt việc chỳ thớch chỳng ta sẽ bỏ qua chỉ số của .
- Huấn luyện: huấn luyện cỏc tham số mụ hỡnh của mụ hỡnh dịch thống kờ sử dụng dữ liệu huấn luyện: đơn ngữ, song ngữ.
Tiờu chuẩn huấn luyện chuẩn của mụ hỡnh dịch mỏy theo cỏch tiếp cận kờnh- nguồn là tiờu chuẩn hợp lý cực đại mà ở đõy chỳng ta định nghĩa giỏ trị tham số tối ƣu mà cỏc giỏ trị này làm cực đại hàm hợp lý trong Corpus song ngữ eI,vJ: ) / ( max arg 1 1 ^ I J e v p d
Phụ thuộc vào cấu trỳc của mụ hỡnh, chỳng ta cú thể sử dụng tần suất quan hệ hoặc thuật toỏn tối ƣu nhƣ thuật toỏn EM xỏc định cỏc tham số ẩn của mụ hỡnh.
- Tỡm kiếm: Thực hiện phộp tớnh agrmax theo cụng thức (3.1) một cỏch hiệu quả. Cú rất nhiều thuật toỏn để giải quyết vấn đề tỡm kiếm này. Vớ dụ nhƣ thuật toỏn qui hoạch động[23], A*
[22], giải mó ngăn xếp[30], tỡm kiếm ăn tham[15], ...
- Tiền xử lý: Tỡm cỏc bƣớc biến đổi thớch hợp cho cả ngụn ngữ nguồn và ngụn ngữ đớch để cải tiến quỏ trỡnh dịch.
Mụ hỡnh dịch thống kờ hiện nay p(e1I/v1J) chỉ là xấp xỉ so với phõn phối xỏc suất “đỳng” Pr(e1
I
/v1J). Vỡ vậy, cỏc hiện tƣơng ngụn ngữ tự nhiờn chắc chắn vẫn chƣa đƣợc giải quyết một cỏch triệt để. Trong bƣớc tiền xử lý, chỳng ta giải quyết những vấn đề này bằng cỏch loại bỏ đi những hiện tƣợng này bằng cỏc phộp biến đổi thớch hợp.
Trong những nhiệm vụ trờn, tri thức ngụn ngữ chỉ cần thiết cho vần đề mụ hỡnh và tiền xử lý. Những vấn đề khỏc là cỏc vấn đề chủ yếu dựa vào toỏn học và tớnh toỏn bao gồm việc phỏt triển hiệu quả cỏc thuật toỏn.