Thuật tốn tạo bảng gióng hàng từ A* từ bảng gióng hàng từ A

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 90 - 96)

xấp xỉ n (vì có thể có những từ khơng được gióng hàng, hoặc có liên kết 1- nhiều, nhiều-1, nhiều-nhiều giữa các từ phía nguồn và phía đích), độ dài câu

trung bình m trong ngữ liệu huấn luyện bằng n/s với s là số lượng cặp câu có

trong ngữ liệu huấn luyện. Thuật tốn cần 2 vịng lặp để giải mã tồn bộ bảng gióng hàng từ, vịng lặp thứ nhất duyệt qua tồn bộ bảng gióng hàng, vóng lặp thứ hai duyệt qua từng câu, do đó độ phức tạp thuật tốn giải mã bảng gióng hàng từ là O(m×n).

Thuật tốn tạo bảng gióng hàng từ mới A*(V → E) từ bảng gióng hàng từ A(V → E’) được trình ở trên là một cải tiến trong phương pháp cải tiến mơ hình gióng hàng từ nâng cao chất lượng hệ thống dịch cặp ngôn ngữ Việt - Anh của luận án. Thay vì sử dụng bảng gióng hàng A (V → E’) được tạo ra từ bước gióng hàng từ, luận án đề xuất một thuật tốn để sinh bảng gióng hàng từ mới A*(V → E) từ bảng gióng hàng A(V → E’). Kết quả thực nghiệm cho thấy so với mơ hình dịch sinh ra từ bảng gióng hàng A(V → E’) giữa các cặp câu tiếng Việt và tiếng Anh đã được chia nhỏ từ, mơ hình dịch sinh ra từ bảng gióng hàng A*(V → E) giữa các cặp câu tiếng Việt và tiếng Anh ban đầu (chưa chia nhỏ từ) kết hợp tốt hơn với mơ hình ngơn ngữ được huấn luyện trên tập các câu tiếng Anh E.

3.4. Thử nghiệm và đánh giá các kết quả

Bảng 3.1 minh họa một số gióng hàng từ các cặp câu trong kho ngữ liệu huấn luyện IWSLT’15 English-Vietnamese được cung cấp từ nhóm Stanford

NLP. Trong bảng có các dịng:

#ID: số thứ tự của câu trong kho song ngữ. Vi: câu tiếng Việt.

En: câu tiếng Anh.

Enbpe: câu tiếng Anh đã được chia nhỏ bằng bpe.

Thành phần subword: số thứ tự của các từ con trong câu tiếng anh đã được chia nhỏ, các từ con thuộc một từ ban đầu được ghép lại thành một nhóm.

Gióng hàng vi-enbpe: gióng hàng câu tiếng Việt với câu tiếng Anh đã được chia nhỏ.

Gióng hàng A*: gióng hàng câu tiếng Việt với câu tiếng Anh ban đầu được chuẩn hóa từ gióng hàng vi-enbpe. từ A.

Bảng 3.1. Minh họa gióng hàng bằng cơng cụ GIZA++ và chuẩn hóa bảng gióng hàng từ A*

#ID 821

vi khán giả phải thực sự yên tĩnh .

[0] [1] [2] [3] [4] [5] [6] [7] en they had to be very quiet .

[0] [1] [2] [3] [4] [5] [6] enbpe they had to be very qui_ et .

[0] [1] [2] [3] [4] [5] [6] [7] Thành phần subword [[0], [1], [2], [3], [4], [5, 6], [7]] Gióng hàng vi- enbpe 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7 Gióng hàng A 0-0 2-1 2-2 2-3 3-3 4-4 5-5 7-6 Gióng hàng A* 0-0 2-1 2-2 2-3 3-3 3-4 4-4 5-5 6-5 7-6

Bảng gióng hàng A* thêm được các gióng hàng từ “thực”[3] – “very”[4] và “tĩnh”[6] – “quiet”[5] để có gióng hồng đầy đủ “thực sự”[3,4]-“very”[4] và “yên tĩnh”[5,6]-“quiet”[5]

#ID 1771

vi anh đã bao giờ tự gửi một tấm thiệp chưa ?

[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] en have you ever sent yourself a postcard ?

[0] [1] [2] [3] [4] [5] [6] [7] enbpe have you ever sent yourself a post_ card ?

[0] [1] [2] [3] [4] [5] [6] [7] [8] Thành phần subword [[0], [1], [2], [3], [4], [5], [6, 7], [8]] Gióng hàng vi- enbpe 1-0 0-1 2-2 3-2 5-3 4-4 6-5 8-6 7-7 8-7 10-8 Gióng hàng A 1-0 0-1 2-2 3-2 5-3 4-4 6-5 7-6 9-6 10-7 Gióng hàng A* 1-0 0-1 2-2 3-2 5-3 4-4 6-5 8-6 7-6 10-7

Bảng gióng hàng A* thêm được gióng hàng từ “thiệp”[8] – “postcard”[4] và bỏ gióng hàng “chưa”[9] – “postcard”[6] để có gióng hàng đầy đủ “tấm thiệp”[7,8]-“postcast”[6]

#ID 5234

vi sau đó , tồ nhà này đã được tái chế .

[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] en after , the building was recycled .

[0] [1] [2] [3] [4] [5] [6] enbpe after , the building was recycle_ d .

[0] [1] [2] [3] [4] [5] [6] [7] Thành phần subword [[0], [1], [2], [3], [4], [5, 6], [7]] Gióng hàng vi- enbpe 0-0 1-0 2-1 3-2 3-3 4-3 6-4 7-4 8-5 9-5 7-6 10-8 Gióng hàng A 0-0 1-0 2-1 3-2 3-3 4-3 6-4 7-4 7-5 8-5 10-6 Gióng hàng A* 0-0 1-0 2-1 3-2 3-3 4-3 6-4 7-4 8-5 9-5 7-5 10-6

Bảng gióng hàng A* thêm được gióng hàng từ “chế”[9] – “recycled”[5] và gióng hàng “được”[9] – “recycled”[7] để có gióng hàng đầy đủ “đã được tái chế”[6,7,8,9]-“was recycled”[5]

3.4.1. Dữ liệu và môi trường thử nghiệm

Do cặp ngôn ngữ Việt - Anh là cặp ngơn ngữ có nguồn dữ liệu rất hạn chế, khơng có nhiều bộ dữ liệu cơng khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước đây cũng khơng có sẵn. Để thử nghiệm và đánh giá, luận án sử dụng kho ngữ liệu song ngữ IWSLT’15 English-Vietnamese được cung cấp từ nhóm Stanford NLP (https://nlp.stanford.edu/projects/nmt/): IWSLT'15

English-Vietnamese data [Small]. Thống kê chi tiết về bộ ngữ liệu được thể hiện ở Bảng 2.1, trong Mục 2.4.1. Trong các thử nghiệm ở phần này bộ dữ liệu

“IWLST’15” gồm 133.317 cặp câu song ngữ Việt - Anh được sử dụng làm bộ

dữ liệu huấn luyện, bộ dữ liệu tinh chỉnh mơ hình là bộ “tst2012” gồm 1.553 cặp câu song ngữ, và bộ dữ liệu đánh giá mơ hình là bộ “tst2013” gồm 1.286 cặp câu song ngữ.

- Phần mềm MOSES (http://www.statmt.org/moses/) với mơ hình dịch máy thống kê dựa trên cụm từ phân cấp MOSES [58] được sử dụng để dịch thuật Việt - Anh;

- Mơ hình ngơn ngữ được huấn luyện bằng cơng cụ KenLM;

- Mơ hình gióng hàng từ là mơ hình IBM-HHM với cơng cụ gióng hàng

được sử dụng là GIZA++ Toolkit [86].

- Các thử nghiệm được thực hiện trên máy trạm HP WorkStation Z420,

cấu hình như sau: CPU Intel Xeon E5-2680 2.70 GHz, bộ nhớ RAM 32 GB, card đồ họa NVIDIA GeForce GTX 1050 Ti, ổ cứng HDD 1TB, hệ điều hành

Ubuntu bionic 18.04.05.

Phần thử nghiệm của luận án được thực hiện với các phương pháp chia nhỏ từ khác nhau, mục đích chính của các thử nghiệm này là kiểm nghiệm, đánh giá sự ảnh hưởng của việc áp dụng chia nhỏ từ phía tiếng Anh đối với hệ thống. Trong phần này, luận án thực hiện thử nghiệm với 04 phương pháp chia nhỏ từ thơng dụng đã trình bày trong phần 3.2. Hiện nay, chưa có cơng bố nào khuyến cáo kích thước bảng từ vựng khi áp dụng chia nhỏ từ cho dịch máy thống kê. Công bố của tác giả T. Gowda [121] qua các thử nghiệm cho thấy: với bộ ngữ liệu huấn luyện từ 30K đến 500K cặp câu, kích thước của bảng từ vựng khoảng từ 4K đến 8K sẽ cho kết quả tốt nhất cho dịch máy nơ-ron, từ đó luận án lựa chọn các giá trị kích thước bảng từ vựng cho các thử nghiệm trong chương này.

3.4.2. Thử nghiệm với mơ hình baseline

Điểm baseline thu được từ thử nghiệm sử dụng hệ thống dich MOSES với mơ hình cụm từ phân cấp và các tham số mặc định trên bộ dữ liệu huấn luyện bộ dữ liệu huấn luyện “IWLST’15”, bộ dữ liệu tinh chỉnh mơ hình là bộ “tst2012” và bộ dữ liệu đánh giá mơ hình là bộ “tst2013”. Kết quả thu được như sau:

- Số lượng cặp câu song ngữ huấn luyện: 133.317

- Điểm BLEU của hệ thống: 24.45

- Điểm BLEU-c của hệ thống là: 24.05

3.4.3. Thử nghiệm với mơ hình chỉ chia nhỏ từ

Trong phần này luận án tiến hành thử nghiệm chỉ áp dụng kỹ thuật chia nhỏ từ được bảng gióng hàng A và thực hiện huấn luyện hệ thống dịch máy thống kê cặp ngơn ngữ Việt - Anh với bảng gióng hàng từ A này. Thử nghiệm này được một hệ thống dịch gọi là hệ thống SMT-BPE-A. Các bước tiến hành thử nghiệm như sau:

- Bước 1: Sử dụng kỹ thuật chia nhỏ từ BPE để chia nhỏ (encode) các từ thuộc phía tiếng Anh của kho ngữ liệu song ngữ C(V,E) với kích thước bảng từ vựng mục tiêu 5.000 (5K). Chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh, tập E sau khi thực hiện chia nhỏ từ được tập E’.

- Bước 2: Sử dụng cơng cụ gióng hàng GIZA++ để tạo bảng gióng hàng A(V → E’)

- Bước 3: Sử dụng phần mềm MOSES để huấn luyện mơ hình dịch máy thống kê cặp ngơn ngữ Việt- Anh với bảng gióng hàng từ A(V → E’)

- Bước 4: Sử dụng cơng cụ KenLM để huấn luyện mơ hình ngơn ngữ trên các câu phía tiếng Anh đã được chia nhỏ từ E’

Bước 5: Đánh giá hệ thống dịch máy bằng tập dữ liệu tst2013. Vì mơ hình dịch và mơ hình ngơn ngữ được được huấn luyện trên tập dữ liệu có các câu phía tiếng Anh đã được chia nhỏ từ E’, nên câu thu được từ hệ thống này cũng đã được chia nhỏ từ, để tính điểm BLEU cần kết hợp các từ đã được chia

nhỏ (decode) các câu thu được để so sánh với các câu tham chiếu (reference)

trong tập tst2013.

Hình 3.5 minh họa quá trình thử nghiệm của hệ thống SMT-BPE-A,

trong quá trình huấn luyện, câu đầu vào được chia nhỏ (they had to be very quiet 

they had to be very qui_ et), sau đó huấn luyện mơ hình dịch trên các cặp câu vi-enbpe

huấn luyện trên các câu đã được chia nhỏ (they had to be very qui_ et). Trong quá

trình đánh giá, vì mơ hình dịch huấn luyện trên kho song ngữ có câu tiếng Anh đã được chia nhỏ nên từ câu tiếng Việt sẽ nhận được các câu tiếng Anh đã chia nhỏ (anh đã bao giờ tự gửi một tấm thiệp chưa ?  have you ever sent yourself a post_ card ?), cần thực hiện chuẩn hóa (giải mã) các câu tiếng Anh (have you ever sent yourself a

post_ card ?  have you ever sent yourself a postcard ?) sau đó tính điểm BLEU để đánh

giá hệ thống.

Giai đoạn huấn luyện

Vi: khán giả phải thực sự yên tĩnh .

En: they had to be very quiet .

Giai đoạn đánh giá

Vi: anh đã bao giờ tự gửi một tấm thiệp chưa ? Bước 1: chia nhỏ từ 2: gióng hàng từ 3: Huấn luyện mơ hình dịch 4: Huấn luyện mơ hình ngơn ngữ 5: Đánh giá hệ thống

Vi: khán giả phải thực sự yên tĩnh .

En: they had to be very qui_ et . 0-0 2-1 2-2 3-3 3-4 4-4 5-5 6-5 6-6 7-7

En: they had to be very qui_ et .

En: have you ever sent yourself a post_ card ?

En: have you ever sent yourself a

postcard ?

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 90 - 96)

Tải bản đầy đủ (PDF)

(127 trang)