42 Thử nghiệm với mơ hình baseline

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 94 - 97)

Điểm baseline thu được từ thử nghiệm sử dụng hệ thống dich MOSES với mơ hình cụm từ phân cấp và các tham số mặc định trên bộ dữ liệu huấn luyện bộ dữ liệu huấn luyện “IWLST’15”, bộ dữ liệu tinh chỉnh mơ hình là bộ “tst2012” và bộ dữ liệu đánh giá mơ hình là bộ “tst2013” Kết quả thu được như sau:

- Số lượng cặp câu song ngữ huấn luyện: 133 317 - Điểm BLEU của hệ thống: 24 45

- Điểm BLEU-c của hệ thống là: 24 05

3 4 3 Thử nghiệm với mơ hình chỉ chia nhỏ từ

Trong phần này luận án tiến hành thử nghiệm chỉ áp dụng kỹ thuật chia nhỏ từ được bảng giĩng hàng A và thực hiện huấn luyện hệ thống dịch máy thống kê cặp ngơn ngữ Việt - Anh với bảng giĩng hàng từ A này Thử nghiệm này được một hệ thống dịch gọi là hệ thống SMT-BPE-A Các bước tiến hành thử nghiệm như sau:

- Bước 1: Sử dụng kỹ thuật chia nhỏ từ BPE để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ C(V,E) với kích thước bảng từ vựng mục tiêu 5 000 (5K) Chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh, tập E sau khi thực hiện chia nhỏ từ được tập E’ - Bước 2: Sử dụng cơng cụ giĩng hàng GIZA++ để tạo bảng giĩng hàng

A(V → E’)

- Bước 3: Sử dụng phần mềm MOSES để huấn luyện mơ hình dịch máy thống kê cặp ngơn ngữ Việt- Anh với bảng giĩng hàng từ A(V → E’) - Bước 4: Sử dụng cơng cụ KenLM để huấn luyện mơ hình ngơn ngữ trên

các câu phía tiếng Anh đã được chia nhỏ từ E’

Bước 5: Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013 Vì mơ hình dịch và mơ hình ngơn ngữ được được huấn luyện trên tập dữ liệu cĩ các câu phía tiếng Anh đã được chia nhỏ từ E’, nên câu thu được từ hệ thống này cũng đã được chia nhỏ từ, để tính điểm BLEU cần kết hợp các từ đã được chia nhỏ (decode) các câu thu được để so sánh với các câu tham chiếu (reference) trong tập tst2013

Hình 3 5 minh họa quá trình thử nghiệm của hệ thống SMT-BPE-A, trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet��

they had to be very qui_ et), sau đĩ huấn luyện mơ hình dịch trên các cặp câu vi-enbpe

huấn luyện trên các câu đã được chia nhỏ (they had to be very qui_ et) Trong quá trình đánh giá, vì mơ hình dịch huấn luyện trên kho song ngữ cĩ câu tiếng Anh đã được chia nhỏ nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh đã chia nhỏ (anh đã bao giờ tự gửi một tấm thiệp chưa ?�� have you ever sent yourself a post_ card ?),

cần thực hiện chuẩn hĩa (giải mã) các câu tiếng Anh (have you ever sent yourself a post_ card ?�� have you ever sent yourself a postcard ?) sau đĩ tính điểm BLEU để đánh

giá hệ thống

Giai đoạn huấn luyện Giai đoạn đánh giá

Bước 1: chia nhỏ từ 2: giĩng hàng từ 3: Huấn luyện mơ hình dịch 4: Huấn luyện mơ hình ngơn

Vi: khán giả phải thực sự yên tĩnh En: they had to be very quiet Vi: khán giả phải thực sự yên tĩnh En: they had to be very qui_ et 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7

En: they had to be very qui_ et

Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ?

ngữ

En: have you ever sent yourself a post_

5: Đánh giá hệ card ?

thống

En: have you ever sent yourself a

postcard ?

Hình 3 5 Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ Bảng 3 2 Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ

bằng kỹ thuật BPE sử dụng bảng giĩng hàng từ A

Kết quả thử nghiệm được trình bày trong Bảng 3 2 Kết quả này cho thấy, việc chỉ áp dụng chia nhỏ từ và thực hiện huấn luyện hệ thống dịch máy thống kê khiến cho hệ thống trở nên kém hơn so với hệ thống gốc, điểm BLEU giảm so với mơ hình baselineBLEU = 1,05 Điều này cĩ thể lý giải là do việc chia

Tiêu chí Hệ thống SMT(BPE)-A

BLEU 23,40

nhỏ từ đã làm thay đổi các câu dùng để huấn luyện mơ hình ngơn ngữ, mơ hình ngơn ngữ khơng cịn hiệu quả trong việc lựa chọn các câu dịch tốt nhất Việc chia nhỏ từ chỉ giúp ích cho cơng đoạn huấn luyện mơ hình dịch, trực tiếp ở đây là bảng giĩng hàng từ

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 94 - 97)

Tải bản đầy đủ (DOCX)

(127 trang)
w