7. Bố cục của luận án
3.4.3. Thử nghiệm với mơ hình chỉ chia nhỏ từ
Trong phần này luận án tiến hành thử nghiệm chỉ áp dụng kỹ thuật chia nhỏ từ được bảng giĩng hàng A và thực hiện huấn luyện hệ thống dịch máy thống kê cặp ngơn ngữ Việt - Anh với bảng giĩng hàng từ A này. Thử nghiệm này được một hệ thống dịch gọi là hệ thống SMT-BPE-A. Các bước tiến hành thử nghiệm như sau:
- Bước 1: Sử dụng kỹ thuật chia nhỏ từ BPE để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ C(V,E) với kích thước bảng từ vựng mục tiêu 5.000 (5K). Chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh, tập E sau khi thực hiện chia nhỏ từ được tập E’. - Bước 2: Sử dụng cơng cụ giĩng hàng GIZA++ để tạo bảng giĩng hàng
A(V → E’)
- Bước 3: Sử dụng phần mềm MOSES để huấn luyện mơ hình dịch máy thống kê cặp ngơn ngữ Việt- Anh với bảng giĩng hàng từ A(V → E’) - Bước 4: Sử dụng cơng cụ KenLM để huấn luyện mơ hình ngơn ngữ
trên các câu phía tiếng Anh đã được chia nhỏ từ E’
Bước 5: Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013. Vì mơ hình dịch và mơ hình ngơn ngữ được được huấn luyện trên tập dữ liệu cĩ các câu phía tiếng Anh đã được chia nhỏ từ E’, nên câu thu được từ hệ thống này cũng đã được chia nhỏ từ, để tính điểm BLEU cần kết hợp các từ đã được chia nhỏ (decode) các câu thu được để so sánh với các câu tham chiếu (reference) trong tập tst2013.
Hình 3.5 minh họa quá trình thử nghiệm của hệ thống SMT-BPE-A, trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet they had to be very qui_ et), sau đĩ huấn luyện mơ hình dịch trên các cặp câu vi- enbpe (khán giả phải thực sự yên tĩnh - they had to be very qui_ et), mơ hình ngơn ngữ cũng được
huấn luyện trên các câu đã được chia nhỏ (they had to be very qui_ et). Trong quá trình đánh giá, vì mơ hình dịch huấn luyện trên kho song ngữ cĩ câu tiếng Anh đã được chia nhỏ nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh đã chia nhỏ (anh đã bao giờ tự gửi một tấm thiệp chưa ? have you ever sent yourself a post_ card ?), cần thực hiện chuẩn hĩa (giải mã) các câu tiếng Anh (have you ever sent yourself a post_ card ? have you ever sent yourself a postcard ?) sau đĩ tính điểm BLEU để đánh giá hệ thống.
Bước
Giai đoạn huấn luyện
Vi: khán giả phải thực sự yên tĩnh . En: they had to be very quiet .
Giai đoạn đánh giá
Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ?
1: chia nhỏ từ Vi: khán giả phải thực sự yên tĩnh . En: they had to be very qui_ et .
2: giĩng hàng
từ 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7
3: Huấn luyện mơ hình dịch
4: Huấn luyện mơ
hình ngơn ngữ En: they had to be very qui_ et .
5: Đánh giá hệ thống
En: have you ever sent yourself a post_ card ?
En: have you ever sent yourself a postcard ?
Hình 3.5. Ví dụ huấn luyện hệ thống dịch máy chỉ áp dụng chia nhỏ từ. Bảng 3.2. Kết quả thử nghiệm với dữ liệu huấn luyện đã được chia nhỏ từ
bằng kỹ thuật BPE sử dụng bảng giĩng hàng từ A
Tiêu chí Hệ thống SMT(BPE)-A
BLEU 23,40
BLEU -1,05
Kết quả thử nghiệm được trình bày trong Bảng 3.2. Kết quả này cho thấy, việc chỉ áp dụng chia nhỏ từ và thực hiện huấn luyện hệ thống dịch máy thống kê khiến cho hệ thống trở nên kém hơn so với hệ thống gốc, điểm BLEU giảm so với mơ hình baseline BLEU = 1,05. Điều này cĩ thể lý giải là do việc chia
nhỏ từ đã làm thay đổi các câu dùng để huấn luyện mơ hình ngơn ngữ, mơ hình ngơn ngữ khơng cịn hiệu quả trong việc lựa chọn các câu dịch tốt nhất. Việc chia nhỏ từ chỉ giúp ích cho cơng đoạn huấn luyện mơ hình dịch, trực tiếp ở đây là bảng giĩng hàng từ.