Vấn đề “tri thức qua nỳt cổ chai” là một trong những vấn đề khú xử lý nhất của trớ tuệ nhõn tạo núi chung và của dịch mỏy núi riờng. Trong cỏch tiếp cận dịch dựa trờn hệ thống luật (translation by rule-based), cỏc vấn đề thƣờng xuất hiện và rất khú khăn trong việc giải quyết đú là xõy dựng cỏc hệ thống luật phục vụ cho việc dịch nhƣ thế nào? Việc ỏp dụng kỹ thuật học mỏy vào xử lý ngụn ngữ tự nhiờn đó và đang đƣợc tập trung nghiờn cứu rất nhiều. Chỳng ta cú thể liệt kờ đƣợc rất nhiều những thuật toỏn học mỏy mà cú ứng dụng rất hiệu quả trong vấn đề xử lớ ngụn ngữ tự nhiờn.
Thuật toỏn EM (đƣợc đề cập chi tiết trong 3.5.1) ỏp dụng để huấn luyện cỏc mụ hỡnh trong cỏc hệ thống dịch thống kờ, thuật toỏn EM sử dụng để huấn luyện cỏc tham số phục vụ trong năm mức dịch của hệ thống dịch thống kờ (Model 1- Model 5), đõy là kỹ thuật học mỏy đƣợc ỏp dụng rất rộng rói trong mụ hỡnh dịch thống kờ(statistical machine translation). Thuật toỏn TTL[33] trong hệ thống dịch dựa trờn vớ dụ (translation by example - based), cỏc thuật toỏn học quy nạp đƣợc ỏp dụng trong việc xõy dựng cỏc bộ luật cho bộ phõn tớch cỳ phỏp, nhƣ ỏp dụng phƣơng phỏp học quy nạp[29] trong phõn tớch LR nhƣ Hinzofski[13], và hàng loạt cỏc ứng dụng của phƣơng phỏp học mỏy trong vấn đề xử lớ ngụn ngữ tự nhiờn núi chung và dịch mỏy núi riờng đó đem lại những kết quả rất lớn và là tiền đề cho hàng loạt cỏc hƣớng nghiờn cứu tiếp theo.
Việc ỏp dụng cỏc kỹ thuật học mỏy trong vấn đề xử lý ngữ nghĩa cũng đó đƣợc tỡm hiểu và thể hiện nổi bật trong luận ỏn của Lappon R.Tang[21], ở đõy tỏc giả đó sử dụng phƣơng phỏp học mỏy để xõy dựng đƣợc hệ thống cơ sở dữ liệu của cỏc chuyến bay với hệ thống hỏi đỏp bằng ngụn ngữ tự nhiờn.
Nhƣ vậy cú thể núi cỏc kỹ thuật học mỏy đƣợc ỏp dụng rất nhiều trong vấn đề xử lớ ngụn ngữ tự nhiờn và dịch mỏy và đó thu đƣợc những kết quả rất tốt.
Trong khuụn khổ của luận văn này chỳng tụi đƣa ra cỏch tiếp cận thống kờ cho hệ thống dịch Anh - Việt. Với cỏch tiếp cận này, chỳng ta cú thể ứng dụng kĩ thuật học mỏy để huấn luyện tham số.
Chƣơng 2 - CORPUS VÀ GIểNG HÀNG CÂU
Trong xử lý ngụn ngữ tự nhiờn bằng thống kờ, corpus là tài nguyờn khụng thể thiếu. Cú nhiều loại corpus khỏc nhau, tựy thuộc vào bài toỏn và phƣơng phỏp giải quyết mà yờu cầu loại corpus thớch hợp.
Để phỏt triển hệ thống dịch mỏy thống kờ, chỳng ta cần cú dữ liệu để huấn luyện (học). Dữ liệu huấn luyện càng lớn thỡ càng tốt, nờn đƣợc trớch lọc ra từ cựng một lĩnh vực dịch mà hệ thống dịch mỏy đƣợc sử dụng. Dữ liệu sử dụng trong dịch mỏy là dữ liệu thụ và song ngữ.
Bộ dữ liệu huấn luyện nếu thực hiện bằng thủ cụng thỡ mất rất nhiều cụng sức (chi phi đắt). Trong chƣơng này trỡnh bày về corpus và phƣơng phỏp xõy dựng corpus một cỏch tự động.