2 45 Đánh giá hiệu quả của phương pháp lựa chọn câu giả lập dựa trên các
25 Kết luận Chương 2
Trong chương này, luận án đã tập trung vào nghiên cứu các phương pháp tăng cường dữ liệu huấn luyện cho mơ hình dịch máy thống kê và nghiên cứu các phương pháp tăng cường dữ liệu độc lập với kiến trúc theo hướng tiếp cận tạo kho ngữ liệu song ngữ giả lập bằng cách sử dụng ngữ liệu đơn ngữ Sau đĩ, các ngữ liệu song ngữ giả lập sẽ được kết hợp với ngữ liệu song ngữ thật để huấn luyện mơ hình dịch máy và khơng cĩ sự phân biệt giữa chúng trong quá trình huấn luyện
Tiếp theo, chương này tập trung vào nghiên cứu dịch ngược là một trong những phương pháp tạo ngữ liệu song ngữ giả lập phổ biến với ý tưởng chính là: các câu đơn ngữ của phía đích được dịch sang câu đơn ngữ phía nguồn, các cặp câu nhận được này tạo thành kho ngữ liệu song ngữ giả lập
Từ các nghiên cứu về dịch ngược và mơ hình dịch máy thống kê sử dụng dịch ngược để tăng cường dữ liệu huấn luyện, luận án đã đề xuất phương pháp tăng cường dữ liệu huấn luyện cho dịch máy thống kê Việt - Anh bằng kỹ thuật dịch ngược và sử dụng độ đo perplexity với mơ hình ngơn ngữ để tính tốn độ thích nghi của câu giả lập so với câu ban đầu Luận án đã đề xuất hai độ đo thích nghi cho việc lựa chọn câu giả lập ‘tốt’ là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ Luận án đã tiến hành các thử nghiệm và chỉ ra rằng, đối với cặp ngơn ngữ cĩ tài nguyên hạn chế như cặp ngơn ngữ Việt - Anh, việc sử dụng tồn bộ câu giả lập được sinh ra sau khi dịch ngược cĩ thể khơng giúp cho hệ thống dịch tốt hơn, mặc dù dữ liệu huấn luyện được tăng gấp đơi về mặt số lượng Trong các thử nghiệm, luận án đã sử dụng các độ đo thích nghi đề xuất để lựa chọn các câu giả lập, bổ sung vào dữ liệu huấn luyện song ngữ ban đầu và đánh giá trên hệ thống dịch máy thống kê cặp ngơn ngữ Việt - Anh được huấn luyện với dữ liệu đã tăng cường, kết quả thử nghiệm cho thấy việc sử dụng độ đo thích nghi cĩ thể lựa chọn ra các câu giả lập phù hợp và tăng cường dữ liệu huấn luyện, cĩ hiệu quả trong việc nâng cao chất lượng hệ thống dịch máy thống kê
CHƯƠNG 3
CẢI TIẾN MƠ HÌNH GIĨNG HÀNG TỪ
TRONG HỆ THỐNG DỊCH MÁY THỐNG KÊ CẶP NGƠN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ
Chương này trình bày nội dung nghiên cứu cải tiến mơ hình giĩng hàng trong hệ thống dịch máy thống kê cặp ngơn ngữ Anh-Việt sử dụng các kỹ thuật chia nhỏ từ để nâng cao chất lượng của hệ thống dịch máy Nội dung chính bao gồm: nghiên cứu vai trị của giĩng hàng từ trong hệ thống dịch máy thống kê; nghiên cứu về các kỹ thuật chia nhỏ nhằm giải quyết vấn đề từ hiếm và sự khác biệt về hình thái giữa tiếng Anh và tiếng Việt, từ đĩ nâng cao chất lượng giĩng hàng từ; đề xuất phương pháp cải tiến mơ hình giĩng hàng cho hệ thống dịch máy thống kê với cặp ngơn ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ; thực nghiệm và đánh giá kết quả đạt được để chứng minh hiệu quả của phương pháp đề xuất
3 1 Đặt vấn đề
Chất lượng của một hệ dịch máy thống kê phụ thuộc vào hai yếu tố chính là ngữ liệu huấn luyện và mơ hình dịch Đối với các cặp ngơn ngữ tài nguyên hạn chế (như cặp ngơn ngữ Việt – Anh), việc cải tiến mơ hình dịch được ưu tiên vì khĩ khăn trong bổ sung ngữ liệu huấn luyện Cĩ nhiều phương pháp tăng chất lượng hệ thống dịch máy thống kê (SMT), trong đĩ một trong những
hướng tiếp cận là cải tiến mơ hình giĩng hàng từ để tăng chất lượng hệ thống SMT, bởi vì giĩng hàng từ là một bước buộc phải cĩ và ảnh hưởng lớn đến chất lượng hệ dịch đối với các hệ thống dịch máy thống kê [11] Hình 3 1 dưới đây minh họa các thành phần của một hệ thống dịch máy thống kê, trong đĩ giĩng hàng từ là một bước quan trọng ảnh hưởng lớn đến chất lượng hệ dịch, xây dựng nên mơ hình dịch cho hệ thống Trong mơ hình dịch máy thống kê, giĩng hàng từ (word alignment) cĩ nhiệm vụ xác định sự tương ứng giữa các từ trong một văn bản song ngữ [67] Đây là bước đầu tiên trong hầu hết các cách tiếp cận hiện tại của dịch máy thống kê và cũng là bước đĩng vai trị rất quan trọng cho sự thành cơng của một hệ thống dịch máy thống kê [3]
Kho song ngữ huấn luyện
Chuẩn hĩa dữ liệu
Trích rút cụm từ (tạo bảng giĩng hàng)Giĩng hàng từ
Huấn luyện mơ hình ngơn ngữ
Sinh mơ hình dịch Tinh chỉnh tham số
Hệ thống dịch máy thống kê Đánh giá hệ thống Kho song ngữ kiểm chứng Kho song ngữ đánh giá
Hình 3 1 Các thành phần của hệ thống dịch máy thống kê
Hiện nay, các mơ hình giĩng hàng từ phổ biến nhất là các mơ hình giĩng hàng IBM [13] Các mơ hình này được áp dụng rộng rãi trong các hệ thống dịch máy thống kê Các mơ hình IBM sử dụng thuật tốn tối đa hĩa kỳ vọng
(Expectation maximization- EM) trong quá trình huấn luyện và chỉ sử dụng các cặp câu song ngữ để xây dựng bảng giĩng hàng từ Các tham số của các mơ hình IBM được ước tính bằng cách sử dụng ngun lý hợp lý cực đại
trong văn bản song song Các mơ hình giĩng hàng IBM địi hỏi một lượng lớn dữ liệu song ngữ được giĩng hàng mức câu và thường gặp vấn đề khi giĩng hàng với các từ cĩ tần suất xuất hiện ít (từ hiếm - rare words) [78], trong đĩ phân bố xác suất giĩng hàng của các từ hiếm bị mờ nhạt Đã cĩ nhiều nghiên cứu tập trung vào vấn đề xử lý từ hiếm nhằm tăng chất lượng giĩng hàng từ [63], [95], [100] từ đĩ tăng chất lượng hệ thống dịch máy cho dịch máy thống kê cho các cặp ngơn ngữ tài nguyên hạn chế Hiện tại, hướng tiếp cận chính là sử dụng kỹ thuật word embedding để tính tốn độ tương tự ngữ nghĩa của các từ và cập nhật lại phân bố xác suất của chúng
Trong dịch máy Việt - Anh, bên cạnh vấn đề từ hiếm, ta gặp các vấn đề về sự khơng tương đồng về cấu trúc giữa hai ngơn ngữ, trong đĩ cĩ sự khác biệt về hình thái Tiếng Việt là ngơn ngữ đơn hình, trong đĩ tiếng Anh là ngơn ngữ đa hình (một từ tiếng Anh cĩ nhiều hình thái khác nhau tùy thuộc vào ngữ cảnh sử dụng, các hình thái từ này cĩ chung một từ gốc và được bổ sung thêm các tiền tố, hậu tố tùy theo ngữ cảnh sử dụng) Hiện tượng tương tự đối với các tiếng Anh dạng từ kết hợp (một từ được tạo ra kết hợp bởi hai hoặc nhiều thành phần cĩ nghĩa, khi kết hợp lại được một từ mới cĩ nghĩa mới tương ứng với một hoặc nhiều từ phía tiếng Việt, ví dụ supermarket: siêu thị, wonderland: xứ sở thần tiên, )
Trong chương này, luận án đề xuất một phương pháp cải tiến mơ hình giĩng hàng từ sử dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngơn ngữ Việt - Anh nhằm giải quyết vấn đề từ hiếm và khác biệt về hình thái giữa hai ngơn ngữ Các kỹ thuật chia nhỏ từ được sử dụng để chia nhỏ từ trong các câu phía tiếng Anh của kho ngữ liệu song ngữ, sau đĩ thực hiện giĩng hàng từ và xây dựng bảng giĩng hàng từ Việt – Anh, bảng giĩng hàng từ này được sử dụng để huấn luyện mơ hình dịch máy Việt - Anh Ngồi việc áp dụng kỹ thuật chia nhỏ từ như một bước tiền xử lý, luận án cịn đề xuất cải tiến mơ hình giĩng hàng từ để nâng cao chất lượng hệ thống dịch máy Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE, Wordpiece, unigram, Morfessor Các kết quả thử nghiệm cho thấy việc áp dụng phương pháp đề xuất giúp tăng chất lượng hệ dịch, các
kỹ thuật áp dụng đều giúp tăng điểm BLEU so với kết quả baseline, với kết quả cao nhất sử dụng kỹ thuật BPE giúp tăng 0,81 điểm BLEU