3.1. Tổng quan về dịch thống kờ
3.1.5. Chu kỡ phỏt triển của hệ thống dịch thống kờ
Hỡnh 3.2 trỡnh bày chu kỡ phỏt triển của hệ thống dịch thống kờ.
Bƣớc đầu tiờn là tập hợp dữ liệu huấn luyện. Ở đõy, chỳng ta cần thu thập cỏc văn bản song ngữ, thực hiện việc giúng hàng cõu và trớch lọc ra cỏc cặp cõu phự hợp. Trong bƣớc thứ hai, chỳng ta thực hiện huấn luyện tự động hệ thống MT. Đầu ra của bƣớc này là hệ thống MT cú hiệu lực. Quan trọng là bƣớc này khỏ nhanh và khụng cần giỏm sỏt của con ngƣời.
Tiếp theo hệ thống dịch mỏy đƣợc kiểm tra và việc phõn tớch lỗi đƣợc thực hiện. Dựa vào kiến trỳc của hệ thống SMT (hỡnh 1), chỳng ta cú thể phõn biệt cỏc kiểu lỗi
khỏc nhau: lỗi tỡm kiếm, lỗi mụ hỡnh, lỗi huấn luyện, lỗi corpus huấn luyện và lỗi tiền xử lý. Phụ thuộc vào kết quả của quỏ trỡnh phõn tớch lỗi này mà chỳng ta cú những sửa đổi tƣơng ứng:
- Mụ hỡnh tốt hơn: Ở đõy, mục tiờu là phải phỏt triển mụ hỡnh mà mụ hỡnh này mụ tả càng nhiều cỏc thuộc tớnh của ngụn ngữ tự nhiờn và cỏc tham số tự do của nú cú thể đƣợc ƣớc lƣợng từ dữ liệu huấn luyện.
- Huấn luyện tốt hơn: Thuật toỏn huấn luyện thƣờng dựa vào cỏch tiếp cận
hợp lý cực đại. Thụng thƣờng, cỏc thuật toỏn huấn luyện thƣờng cho ta kết quả là tốt ƣu địa phƣơng. Do vậy, để làm tốt việc huấn luyện này, cần xõy dựng cỏc thuật toỏn mà kờt quả tối ƣu địa phƣơng thƣờng gần với tối ƣu toàn cục.
- Tỡm kiếm tốt hơn: Lỗi tỡm kiếm xuất hiện nếu thuật toỏn tỡm kiếm ra cõu dịch của cõu nguồn. Vấn đề tỡm kiếm trong SMT là NP-hoàn thành. Vỡ vậy, chỉ cú cỏc cỏch tỡm kiếm gần đỳng để tỡm ra cõu dịch. Thuật toỏn hiệu quả là thuật toỏn mà cõn bằng giữa chất lƣợng và thời gian.
- Nhiều dữ liệu huấn luyện hơn: Chất lƣợng dịch càng tăng khi cỡ của
corpus càng lớn. Quỏ trỡnh học của hệ thống MT sẽ cho biết cỡ của dữ liệu huấn luyện là bao nhiờu để thu đƣợc kết quả khả quan. Một khú khăn cho việc huấn luyện là dữ liệu huấn luyện chứa dữ liệu lỗi (gồm nguồn dữ liệu lỗi và cỏch dịch khụng nhất quỏn). Để trỏnh cỏc lỗi này, chỳng ta phải xõy dựng dữ liệu huấn luyện từ cỏc cặp vớ dụ song ngữ chuẩn, chớnh xỏc.
- Tiền xử lý tốt hơn: Hiện tƣợng ngụn ngữ tự nhiờn khỏc nhau là rất khú xử
lý ngay cả trong cỏch tiếp cận thống kờ tiờn tiến. Do đú để cho việc sử dụng cỏch tiếp cận thống kờ đƣợc tốt thỡ trong bƣớc tiền xử lý, chỳng ta làm tốt một số việc nhƣ: loại bỏ cỏc kớ hiệu khụng phải là văn bản, đƣa cỏc từ về dạng gốc của nú, ... Để làm điều này, chỳng ta cú thể dựa vào kĩ thuật dịch mỏy dựa vào luật.
Tuyển tập dữ liệu Huấn luyện Test Phân tích lỗi Mô hình tốt hơn Huấn luyện tốt hơn Tìm kiếm tốt hơn Dữ liệu nhiều hơn Tiền xử lý tốt hơn
Hỡnh 3.2: Chu kỡ phỏt triển của hệ thống dịch thống kờ
Một đặc tớnh quan trọng của chu kỡ phỏt triển của hệ thống SMT là chỳng ta cú thể thay đổi hoàn toàn trong vài giờ hoặc vài ngày. Vỡ vậy, chu kỡ phỏt triển đƣợc thƣờng xuyờn thực hiện. Điều này cho phộp cải tiến nhanh hệ thống MT. Thờm vào đú, quỏ trỡnh phõn tớch lỗi luụn luụn phụ thuộc vào việc thực hiện cuối cựng của hệ thống MT. Vỡ vậy, việc quyết định sửa đổi hệ thống cú thể trực tiếp dựa vào mục tiờu cuối cựng trong chất lƣợng của MT.