Kết luận Chương 2

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

2.5. Kết luận Chương 2

Trong chương này, luận án đã tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu huấn luyện cho mơ hình dịch máy thống kê và nghiên cứu các phương pháp tăng cường dữ liệu độc lập với kiến trúc theo hướng tiếp cận tạo kho ngữ liệu song ngữ giả lập bằng cách sử dụng ngữ liệu đơn ngữ. Sau đó, các ngữ liệu song ngữ giả lập sẽ được kết hợp với ngữ liệu song ngữ thật để huấn luyện mơ hình dịch máy và khơng có sự phân biệt giữa chúng trong q trình huấn luyện.

Tiếp theo, chương này tập trung vào nghiên cứu dịch ngược là một trong những phương pháp tạo ngữ liệu song ngữ giả lập phổ biến với ý tưởng chính là: các câu đơn ngữ của phía đích được dịch sang câu đơn ngữ phía nguồn, các cặp câu nhận được này tạo thành kho ngữ liệu song ngữ giả lập.

Từ các nghiên cứu về dịch ngược và mơ hình dịch máy thống kê sử dụng dịch ngược để tăng cường dữ liệu huấn luyện, luận án đã đề xuất phương pháp tăng cường dữ liệu huấn luyện cho dịch máy thống kê Việt - Anh bằng kỹ thuật dịch ngược và sử dụng độ đo perplexity với mơ hình ngơn ngữ để tính tốn độ thích nghi của câu giả lập so với câu ban đầu. Luận án đã đề xuất hai độ đo thích nghi cho việc lựa chọn câu giả lập ‘tốt’ là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ. Luận án đã tiến hành các thử nghiệm và chỉ ra rằng, đối với cặp ngơn ngữ có tài ngun hạn chế như cặp ngơn ngữ Việt - Anh, việc sử dụng toàn bộ câu giả lập được sinh ra sau khi dịch ngược có thể khơng giúp cho hệ thống dịch tốt hơn, mặc dù dữ liệu huấn luyện được tăng gấp đôi về mặt số lượng. Trong các thử nghiệm, luận án đã sử dụng các độ đo thích nghi đề xuất để lựa chọn các câu giả lập, bổ sung vào dữ liệu huấn luyện song ngữ ban đầu và đánh giá trên hệ thống dịch máy thống kê cặp ngôn ngữ Việt - Anh được huấn luyện với dữ liệu đã tăng cường, kết quả thử nghiệm cho thấy việc sử dụng độ đo thích nghi có thể lựa chọn ra các câu giả lập phù hợp và tăng cường dữ liệu huấn luyện, có hiệu quả trong việc nâng cao chất lượng hệ thống dịch máy thống kê.

CHƯƠNG 3.

CẢI TIẾN MƠ HÌNH GIĨNG HÀNG TỪ

TRONG HỆ THỐNG DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ

Chương này trình bày nội dung nghiên cứu cải tiến mơ hình gióng hàng trong hệ thống dịch máy thống kê cặp ngôn ngữ Anh-Việt sử dụng các kỹ thuật chia nhỏ từ để nâng cao chất lượng của hệ thống dịch máy. Nội dung chính bao gồm: nghiên cứu vai trị của gióng hàng từ trong hệ thống dịch máy thống kê; nghiên cứu về các kỹ thuật chia nhỏ nhằm giải quyết vấn đề từ hiếm và sự khác biệt về hình thái giữa tiếng Anh và tiếng Việt, từ đó nâng cao chất lượng gióng hàng từ; đề xuất phương pháp cải tiến mơ hình gióng hàng cho hệ thống dịch máy thống kê với cặp ngôn ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ; thực nghiệm và đánh giá kết quả đạt được để chứng minh hiệu quả của phương pháp đề xuất.

3.1. Đặt vấn đề

Chất lượng của một hệ dịch máy thống kê phụ thuộc vào hai yếu tố chính

là ngữ liệu huấn luyện và mơ hình dịch. Đối với các cặp ngôn ngữ tài nguyên

hạn chế (như cặp ngôn ngữ Việt – Anh), việc cải tiến mơ hình dịch được ưu tiên vì khó khăn trong bổ sung ngữ liệu huấn luyện. Có nhiều phương pháp tăng chất lượng hệ thống dịch máy thống kê (SMT), trong đó một trong những hướng tiếp cận là cải tiến mơ hình gióng hàng từ để tăng chất lượng hệ thống SMT, bởi vì gióng hàng từ là một bước buộc phải có và ảnh hưởng lớn đến chất lượng hệ dịch đối với các hệ thống dịch máy thống kê [11]. Hình 3.1 dưới đây minh họa các thành phần của một hệ thống dịch máy thống kê, trong đó gióng hàng từ là một bước quan trọng ảnh hưởng lớn đến chất lượng hệ dịch, xây dựng nên mơ hình dịch cho hệ thống. Trong mơ hình dịch máy thống kê, gióng hàng từ (word alignment) có nhiệm vụ xác định sự tương ứng giữa các từ trong một văn bản song ngữ [67]. Đây là bước đầu tiên trong hầu hết các cách tiếp cận hiện tại của dịch máy thống kê và cũng là bước đóng vai trị rất quan trọng cho sự thành công của một hệ thống dịch máy thống kê [3].

Kho song ngữ huấn luyện

Chuẩn hóa dữ liệu

Gióng hàng từ (tạo bảng gióng hàng) Trích rút cụm từ

Huấn luyện mơ hình ngơn ngữ

Sinh mơ hình dịch Tinh chỉnh tham số Kho song ngữ kiểm chứng

Hệ thống dịch máy thống kê

Kho song ngữ đánh giá Đánh giá hệ thống

Hình 3.1. Các thành phần của hệ thống dịch máy thống kê

Hiện nay, các mơ hình gióng hàng từ phổ biến nhất là các mơ hình gióng

hàng IBM [13]. Các mơ hình này được áp dụng rộng rãi trong các hệ thống dịch

máy thống kê. Các mơ hình IBM sử dụng thuật tốn tối đa hóa kỳ vọng

(Expectation maximization- EM) trong quá trình huấn luyện và chỉ sử dụng các

cặp câu song ngữ để xây dựng bảng gióng hàng từ. Các tham số của các mơ hình IBM được ước tính bằng cách sử dụng nguyên lý hợp lý cực đại (Maximum Likelihood), tức là bằng cách đếm sự đồng xuất hiện của các từ

trong văn bản song song. Các mơ hình gióng hàng IBM địi hỏi một lượng lớn

dữ liệu song ngữ được gióng hàng mức câu và thường gặp vấn đề khi gióng hàng với các từ có tần suất xuất hiện ít (từ hiếm - rare words) [78], trong đó

phân bố xác suất gióng hàng của các từ hiếm bị mờ nhạt. Đã có nhiều nghiên cứu tập trung vào vấn đề xử lý từ hiếm nhằm tăng chất lượng gióng hàng từ [63], [95], [100] từ đó tăng chất lượng hệ thống dịch máy cho dịch máy thống

kê cho các cặp ngôn ngữ tài nguyên hạn chế. Hiện tại, hướng tiếp cận chính là sử dụng kỹ thuật word embedding để tính tốn độ tương tự ngữ nghĩa của các từ và cập nhật lại phân bố xác suất của chúng.

Trong dịch máy Việt - Anh, bên cạnh vấn đề từ hiếm, ta gặp các vấn đề về sự không tương đồng về cấu trúc giữa hai ngơn ngữ, trong đó có sự khác

biệt về hình thái. Tiếng Việt là ngơn ngữ đơn hình, trong đó tiếng Anh là ngơn ngữ đa hình (một từ tiếng Anh có nhiều hình thái khác nhau tùy thuộc vào ngữ cảnh sử dụng, các hình thái từ này có chung một từ gốc và được bổ sung thêm các tiền tố, hậu tố tùy theo ngữ cảnh sử dụng). Hiện tượng tương tự đối với các tiếng Anh dạng từ kết hợp (một từ được tạo ra kết hợp bởi hai hoặc nhiều thành phần có nghĩa, khi kết hợp lại được một từ mới có nghĩa mới tương ứng với một hoặc nhiều từ phía tiếng Việt, ví dụ supermarket: siêu thị, wonderland: xứ sở thần tiên, ...).

Trong chương này, luận án đề xuất một phương pháp cải tiến mơ hình gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngôn ngữ Việt - Anh nhằm giải quyết vấn đề từ hiếm và khác biệt về hình thái giữa hai ngơn ngữ. Các kỹ thuật chia nhỏ từ được sử dụng để chia nhỏ từ trong các câu phía tiếng Anh của kho ngữ liệu song ngữ, sau đó thực hiện gióng hàng từ và xây dựng bảng gióng hàng từ Việt – Anh, bảng gióng

hàng từ này được sử dụng để huấn luyện mơ hình dịch máy Việt - Anh. Ngoài

việc áp dụng kỹ thuật chia nhỏ từ như một bước tiền xử lý, luận án còn đề xuất cải tiến mơ hình gióng hàng từ để nâng cao chất lượng hệ thống dịch máy. Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE, Wordpiece, unigram, Morfessor. Các kết quả thử nghiệm

kỹ thuật áp dụng đều giúp tăng điểm BLEU so với kết quả baseline, với kết quả cao nhất sử dụng kỹ thuật BPE giúp tăng 0,81 điểm BLEU.

Bộ mã hóa tự động

Gióng hàng từ trong dịch máy thống kê