Thử nghiệm với mơ hình chỉ chia nhỏ từ

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 95 - 97)

7. Bố cục của luận án

3.4.3. Thử nghiệm với mơ hình chỉ chia nhỏ từ

Trong phần này luận án tiến hành thử nghiệm chỉ áp dụng kỹ thuật chia nhỏ từ được bảng giĩng hàng A và thực hiện huấn luyện hệ thống dịch máy thống kê cặp ngơn ngữ Việt - Anh với bảng giĩng hàng từ A này. Thử nghiệm này được một hệ thống dịch gọi là hệ thống SMT-BPE-A. Các bước tiến hành thử nghiệm như sau:

- Bước 1: Sử dụng kỹ thuật chia nhỏ từ BPE để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ C(V,E) với kích thước bảng từ vựng mục tiêu 5.000 (5K).Chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh, tập E sau khi thực hiện chia nhỏ từ được tập E’.

- Bước 2: Sử dụng cơng cụ giĩng hàng GIZA++ để tạo bảng giĩng hàng A(V → E’)

- Bước 3: Sử dụng phần mềm MOSES để huấn luyện mơ hình dịch máy thống kê cặp ngơn ngữ Việt- Anh với bảng giĩng hàng từ A(V → E’)

- Bước 4: Sử dụng cơng cụ KenLM để huấn luyện mơ hình ngơn ngữ trên các câu phía tiếng Anh đã được chia nhỏ từ E’

Bước 5: Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013. Vì mơ hình dịchvà mơ hình ngơn ngữ được được huấn luyện trên tập dữ liệu cĩ các câu phía tiếng Anh đã được chia nhỏ từ E’, nên câu thu được từ hệ thống này cũng đã được chia nhỏ từ, để tính điểm BLEU cần kết hợp các từ đã được chia

nhỏ (decode) các câu thu được để so sánh với các câu tham chiếu (reference) trong tập tst2013.

Hình 3.5 minh họa quá trình thử nghiệm của hệ thống SMT-BPE-A,

trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet

they had to be very qui_ et), sau đĩ huấn luyện mơ hình dịch trên các cặp câu vi-enbpe (khán giả phải thực sự yên tĩnh ), mơ hình ngơn ngữ cũng được

huấn luyện trên các câu đã được chia nhỏ (they had to be very qui_ et). Trong quá

trình đánh giá, vì mơ hình dịch huấn luyện trên kho song ngữ cĩ câu tiếng Anh đã được chia nhỏ nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh đã chia nhỏ (anh đã bao giờ tự gửi một tấm thiệp chưa ? have you ever sent yourself a post_ card ?),

cần thực hiện chuẩn hĩa (giải mã) các câu tiếng Anh (have you ever sent yourself a post_ card ? have you ever sent yourself a postcard ?) sau đĩ tính điểm BLEU để đánh giá hệ thống.

Giai đoạn huấn luyện

Vi: khán giả phải thực sự yên tĩnh .

En: they had to be very quiet .

Giai đoạn đánh giá

Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ? Bước 1: chia nhỏ từ 2: giĩng hàng từ 3: Huấn luyện mơ hình dịch 4: Huấn luyện mơ hình ngơn ngữ 5: Đánh giá hệ thống

Vi: khán giả phải thực sự yên tĩnh .

En: they had to be very qui_ et . 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7

En: they had to be very qui_ et .

En: have you ever sent yourself a post_ card ?

En: have you ever sent yourself a

postcard ?

Hình 3.5. Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ.

Bảng 3.2. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ bằng kỹ thuật BPE sử dụng bảng giĩng hàng từ A

Tiêu chí Hệ thống SMT(BPE)-A

BLEU 23,40

BLEU -1,05

Kết quả thử nghiệm đượctrình bày trong Bảng 3.2. Kết quả này cho thấy, việc chỉ áp dụng chia nhỏ từ và thực hiện huấn luyện hệ thống dịch máy thống kê khiến cho hệ thống trở nên kém hơn so với hệ thống gốc, điểm BLEU giảm so với mơ hình baseline BLEU = 1,05. Điều này cĩ thể lý giải là do việc chia

nhỏ từ đã làm thay đổi các câu dùng để huấn luyện mơ hình ngơn ngữ, mơ hình ngơn ngữ khơng cịn hiệu quả trong việc lựa chọn các câu dịch tốt nhất. Việc chia nhỏ từ chỉ giúp ích cho cơng đoạn huấn luyện mơ hình dịch, trực tiếp ở đây là bảng giĩng hàng từ.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 95 - 97)

Tải bản đầy đủ (PDF)

(127 trang)