3.1. Tổng quan về dịch thống kờ
3.1.4. Ƣu điểm của phƣơng phỏp tiếp cận thống kờ
Cỏch tiếp cận thống kờ cú những ƣu điểm sau:
- Dịch mỏy (MT) là vấn đề quyết định: Cho trƣớc những từ trong ngụn ngữ nguồn, chỳng ta phải quyết định chọn những từ trong ngụn ngữ đớch. Vỡ vậy, nú tạo cho chỳng ta một cảm giỏc là cú thể giải quyết nú bằng định lý quyết định thống kờ. Điếu đú dẫn đến cỏch tiếp cận thống kờ đƣợc đề xuất.
- Mối quan hệ giữa đối tƣợng ngụn ngữ nhƣ từ, cụm từ và cấu trỳc ngữ phỏp thƣờng yếu và mơ hồ. Để mụ hỡnh húa những phụ thuộc này, chỳng ta cần một cụng thức húa nhƣ đƣa ra phõn phối xỏc suất mà nú cú thể giải quyết với những vấn đề phụ thuộc lẫn nhau.
- Để thực hiện MT, chỳng ta nhất thiết phải kết hợp nhiều nguồn trớ thức. Trong dịch thống kờ, chỳng ta dựa vào toỏn học để thực hiện kết hợp tối ƣu của cỏc nguồn trớ thức.
- Trong dịch mỏy thống kờ (SMT), trớ thức dịch đƣợc học một cỏch tự động
từ dữ liệu huấn luyện. Với kết quả nhƣ vậy, việc phỏt triển một hệ dịch dựa vào thống kờ sẽ rất nhanh so với hệ dịch dựa vào luật.
- SMT khỏ phự hợp với ứng dụng nhỳng mà ở đõy MT là một phần của ứng dụng lớn hơn. Vớ dụ, trong dịch cỏc bài núi chuyện, mỏy nhận dạng tiếng núi sẽ đƣợc thờm vào. SMT xem nhƣ rất phự hợp với cỏch tiếp cận này bởi vỡ nú tận dụng đƣợc sức mạnh của ngụn ngữ tự nhiện.
- Việc đƣa ra khỏi niệm “chớnh xỏc” của mối quan hệ ngữ phỏp, ngữ nghĩa, văn phong là rất khú khăn nếu khụng núi là khụng thể. Vỡ vậy, việc hỡnh thức húa vấn đề này càng chớnh xỏc càng tốt khụng thể dựa vào sự giằng buộc bởi cỏc luật mụ tả chỳng. Thay vào đú, trong cỏch tiếp cận thống kờ, cỏc giả định mụ hỡnh đƣợc kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện. - SMT đó cho chất lƣợng dịch khỏ tốt. Hệ thống CANDIDE của IBM đƣợc coi
là một trong những hệ dịch tốt nhất hiện nay trờn thế giới. Chất lƣợng đạt trờn 80%.