Phương pháp cải tiến mơ hình giĩng hàng cho hệ thống SMT cặp ngơn

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 85 - 87)

7. Bố cục của luận án

3.3.1. Phương pháp cải tiến mơ hình giĩng hàng cho hệ thống SMT cặp ngơn

ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ

Luận án đề xuất một phương pháp cải tiến mơ hình giĩng hàng nhằm nâng cao chất lượng hệ dịch cho dịch máy thống kê cặp ngơn ngữ Việt - Anh

sử dụng các kỹ thuật chia nhỏ từ. Ý tưởng chính của đề xuất là trước khi thực hiện giĩng hàng từ, các câu phía tiếng Anh được tách từ (tokenize) và chia nhỏ từ (subword), bước này được coi là mã hĩa ngữ liệu phía tiếng Anh, sau đĩ thực hiện giĩng hàng từ giữa các cặp song ngữ tiếng Việt và tiếng Anh (đã mã hĩa), thu được bảng giĩng hàng từ A. Ở bước tiếp theo, bảng giĩng hàng từ A được chuẩn hĩa để sinh ra bảng giĩng hàng từ A* giữa các cặp câu tiếng Việt và tiếng Anh ban đầu (bước này được coi là giải mã bảng giĩng hàng từ). Sau đĩ, bảng giĩng hàng từ A* được sử dụng để huấn luyện mơ hình dịch máy. Việc chia nhỏ từ chỉ được thực hiện trong bước tiền xử lý dữ liệu để giĩng hàng từ. Sau khi thực hiện giĩng hàng giữa câu tiếng Việt và câu tiếng Anh đã mã

hĩa, bảng giĩng hàng từ (A) thu được thực chất là các giĩng hàng giữa từ phía tiếng Việt với từ con phía tiếng Anh, bảng giĩng hàng từ này qua bước giải mã được đề xuất sẽ thu được bảng giĩng hàng từ (A*) giữa từ phía tiếng Việt và từ phía tiếng Anh. Sau khi cĩ bảng giĩng hàng từ A*, hệ thống tiếp tục được huấn luyện như thơng thường, Mơ hình dịch máy thống kê sau quá trình huấn luyện là mơ hình dịch từ phía tiếng Việt thành từ phía tiếng Anh, do vậy trong quá trình đánh giá và sử dụng mơ hình dịch này khơng yêu cầu chia nhỏ từ phía tiếng Anh.

Việc áp dụng chia nhỏ từ sẽ giúp giải quyết được hai vấn đề ảnh hưởng đến chất lượng của dịch máy thống kê:

(i) Vấn đề từ hiếm là các từ cĩ tần suất xuất hiện thấp nhưng lại là thành phần quan trọng của câu. Phân bố xác suất giĩng hàng của các từ hiếm này thường bị mờ nhạt

(ii) Sự khác biệt về hình thái từ giữa hai ngơn ngữ tiếng Anh (đa hình) và tiếng Việt (đơn hình).

Phương pháp đề xuất được mơ tả trong Hình 3.3, bao gồm 4 bước như sau:

- Bước 1: Chia nhỏ từ phía tiếng Anh

Bước này thực hiện chia nhỏ từ trên kho ngữ liệu song ngữ, chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh. Kỹ thuật chia nhỏ từ được sử dụng

là BPE, Unigram, wordpiece và Morfessor.

- Bước 2: Giĩng hàng từ (Tạo bảng giĩng hàng từ A)

Được thực hiện trên kho ngữ liệu với tập câu tiếng Anh đã được chia nhỏ từ bằng mơ hình IBM-HMM. Sau bước này thu được bảng giĩng hàng từ A

- Bước 3: Chuấn hĩa bảng giĩng hàng (Tạo bảng giĩng hàng từ mới A*)

Để huấn luyện mơ hình dịch máy thống kê cần cĩ bảng giĩng hàng từ A*, trong đĩ các từ phía tiếng Việt được giĩng với các từ phía tiếng Anh tương ứng. Để xây dựng bảng giĩng hàng từ A* từ bảng A, luận án đã trình bày một thuật tốn tạo bảng giĩng hàng được trình bày chi tiết trong Mục 3.3.3.

- Bước 4: Huấn luyện mơ hình dịch máy thống kê

Việc huấn luyện mơ hình dịch máy thống kê được thực hiện theo các bước tiếp theo của hệ thống dịch máy chuẩn, sử dụng bảng giĩng hàng từ A*

Kho song ngữ huấn luyện

Chuẩn hĩa dữ liệu

Giĩng hàng từ (tạo bảng giĩng hàng A) Trích rút cụm từ

Huấn luyện mơ hình ngơn ngữ Sinh mơ hình dịch Tinh chỉnh tham số Kho song ngữ kiểm chứng Hệ thống dịch máy thống kê Chuẩn hĩa bảng giĩng hàng (Tạo bảng giĩng hàng A*)

Chia nhỏ từ (subword) phía

tiếng Anh Kho song ngữ đánh giá Đánh giá hệ thống 2 2 1 1 3 3

Hình 3.3. Mơ hình đề xuất áp dụng chia nhỏ từ vào dịch máy thống kê.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 85 - 87)

Tải bản đầy đủ (PDF)

(127 trang)