Minh họa chia nhỏ từ

Kỹ thuật chia nhỏ từ được thực hiện dựa trên quan sát rằng một số loại từ có thể dịch thơng qua các đơn vị nhỏ hơn, ví dụ:

- Các thực thể tên: Giữa các ngôn ngữ cùng bảng chữ cái, tên thường có

thể được sao chép từ nguồn sang đích. Nếu bảng chữ cái hoặc âm tiết khác nhau cần phải phiên âm hoặc chuyển ngữ. Ví dụ

Barack Obama (English; German)

Барак Обама (Russian)

バラク・オバマ(ba-ra-ku o-ba-ma) (Japanese)

- Các từ mượn hoặc các từ cùng nguồn gốc: có thể khác nhau do qui tắc

khác nhau giữa các ngơn ngữ, do đó có thể dịch mức ký tự. Ví dụ:

claustrophobia (English) Klaustrophobie (German)

Клаустрофобия (Klaustrofobiâ) (Russian)

- Các từ có hình thái phức tạp: là các từ chứa nhiều hình vị (morphemes)

ví dụ các từ ghép (compound), từ liên kết (affixation, sweetish ‘sweet’ + ‘-ish’ → süßlich ‘süß’ +‘-lich’), các từ biến đổi (inflection). Chúng có thể dịch bằng cách dịch các hình vị tách rời. Ví dụ:

solar system (English)

Sonnensystem (Sonne + System) (German) Naprendszer (Nap + Rendszer) (Hungarian)

Theo thống kê của Sennrich [104] trong 100 từ hiếm tiếng Đức lấy từ kho ngữ liệu được thu thập từ văn bản pháp qui và từ các trang web đa số các từ đều có khả năng dịch thay thế bằng các từ thơng thường là chính các từ con của nó, trong đó có: 56 từ ghép, 21 thực thể tên, 6 từ mượn và 5 từ liên kết, 01 số từ, 01 định danh ngơn ngữ máy tính.

Một số kỹ thuật chia nhỏ từ hiện nay đang được sử dụng phổ biến và đem

lại hiệu quả trong lĩnh vực xử lý ngôn ngữ tự nhiên là BPE [104], Wordpiece

3.2.1. Chia nhỏ từ bằng thuật tốn mã hóa cặp byte (BPE)

Mã hóa cặp byte (BPE) là một kỹ thuật nén dữ liệu đơn giản thay thế lặp đi lặp lại các cặp byte xuất hiện nhiều nhất trong một chuỗi bằng một byte chưa được dùng. Chia nhỏ từ bằng thuật tốn mã hóa cặp byte (BPE) điều chỉnh thuật toán BPE để phân đoạn từ bằng cách hợp nhất các ký tự hoặc chuỗi ký tự xuất hiện nhiều nhất, thay vì hợp nhất các cặp byte xuất hiện nhiều nhất.

Đầu tiên, bảng từ điển ký hiệu (symbol vocabulary) được khởi tạo bằng một bảng từ điển ký tự (character vocabulary) và mỗi từ được biểu diễn dưới dạng một chuỗi các ký tự, cộng với ký hiệu đặc biệt ở cuối từ “</w>”, cho

phép khôi phục việc tách từ ban đầu (tokenization) sau khi dịch. Sau đó đếm lặp đi lặp lại tất cả các cặp ký hiệu và thay thế mỗi lần xuất hiện của cặp xuất hiện nhiều nhất (‘A’, ‘B’) bằng một ký hiệu mới ‘AB’. Mỗi thao tác hợp nhất tạo ra một ký hiệu mới biểu diễn một n-gram ký tự. Các n-gram ký tự (hoặc toàn bộ từ) cuối cùng được hợp nhất thành một ký hiệu duy nhất, do đó BPE khơng u cầu danh sách rút gọn. Thuật toán gồm các bước sau:

1. Chuẩn bị kho dữ liệu huấn luyện

2. Định nghĩa kích thước bảng từ điển các từ con

3. Tách từ thành chuỗi ký tự và thêm hậu tố “</w>” vào cuối từ và tần suất xuất hiện.

4. Tạo ký hiệu mới thay thế cặp ký hiệu có tần suất xuất hiện cao nhất

5. Lặp lại bước 4 cho đến khi đạt đến kích thước bảng từ điển từ con mong muốn được xác định ở bước 2 hoặc tần suất suất hiện cặp ký hiệu lớn nhất là 1.

3.2.2. Wordpiece

WordPiece là một thuật toán chia nhỏ từ tương tự với BPE được Schuster và Nakajima đã giới thiệu vào năm 2012 [102]. Về cơ bản, WordPiece tương tự với BPE và sự khác nhau là hình thành một ký hiệu mới bằng khả năng xuất

hiện (likelihood) thay vì là cặp ký hiệu có tần suất xuất hiện cao nhất. Thuật tốn được mơ tả như sau:

1. Chuẩn bị kho dữ liệu huấn luyện

2. Định nghĩa kích thước bảng từ điển các từ con (subword vocabulary)

3. Tách từ thành chuỗi ký tự, thêm hậu tố “</w>” vào cuối từ cùng với tần suất xuất hiện ký hiệu.

4. Xây dựng mơ hình ngơn ngữ dựa trên dữ liệu bước 3.

5. Chọn đơn vị từ con mới trong số tất cả các đơn vị từ con có thể có để tăng khả năng xuất hiện trên kho ngữ liệu huấn luyện (the likelihood on the training data) nhiều nhất khi được thêm vào mơ hình.

6. Lặp lại bước 5 cho đến khi đạt đến kích thước bảng từ điển từ con mong muốn được xác định ở bước 2 hoặc likelihood giảm xuống một ngưỡng nào đó.

3.2.3. Unigram Language Model

Kudo và cộng sự đã giới thiệu mơ hình ngơn ngữ unigram là một thuật

tốn khác để chia nhỏ từ trong cơng trình [61]. Một trong những giả định được sử dụng trong cơng trình là tất cả các xuất hiện của các từ con (subword) là độc lập và xác suất xuất hiện chuỗi từ con được tạo ra bởi tích xác suất xuất hiện của các từ con. Cả WordPieces và Unigram Language Model đều sử dụng mơ hình ngơn ngữ để xây dựng từ điển các từ con (subword vocabulary). Thuật toán chia nhỏ từ gồm các bước như sau:

1. Chuẩn bị kho dữ liệu huấn luyện

2. Định nghĩa kích thước bảng điển từ điển các từ con (subword

vocabulary)

3. Tối ưu hóa xác suất xuất hiện từ bằng cách đưa ra một chuỗi từ

5. Sắp xếp ký hiệu giá trị mất mát và giữ X% các từ cao nhất. Ký tự được khuyến nghị đưa vào là tập con của các ký hiệu

6. Lặp lại bước 3–5 cho đến khi đạt đến kích thước bảng từ điển từ con mong muốn được xác định ở bước 2 hoặc khơng có thay đổi trong bước 5.

3.2.4. Morfessor

Morfessor là một nhóm các phương pháp học máy dựa vào xác suất để

tìm phân tích hình thái (morphological segmentation) từ dữ liệu văn bản với

mục tiêu là chia nhỏ các từ thành các hình vị tức là các đơn vị có nghĩa nhỏ nhất của ngơn ngữ [106]. Phiên bản đầu tiên của Morfessor được gọi là Morfessor Baseline đã được Creutz and Lagus [26] đề xuất năm 2002 và phần mềm thực hiện nó là Morfessor 1.0. Một số biến thể Morfessor đã được phát triển sau đó, bao gồm Morfessor Category-MAP [25]. Morfessor 2.0 [106] là một triển khai mới của thuật toán Morfessor Baseline. Nó đã được viết theo các

mơ-đun và được phát hành dưới dạng một dự án mã nguồn mở khuyến khích

cộng đồng mở rộng một cách dễ dàng.

Các mơ hình của Morfessor là các mơ hình xác suất dạng sinh (generative probabilistic model) dự đoán các từ và phân đoạn của chúng dựa trên các tham

số của mơ hình. Hàm mục tiêu của Morfessor Basline được tính tốn sử dụng

ước lượng hậu nghiệm cực đại (maximum a posteriori estimation) với mục tiêu

tìm ra tham số 𝜃 dựa vào tập dữ liệu huấn luyện 𝐷𝑊 :

𝜃𝑀𝐴𝑃 = arg⁡max 𝜃

𝑝(𝜃)𝑝(𝐷𝑊 |𝜃) (3. 1)

Hàm mất mát của mơ hình sẽ là:

𝐿(𝜃, 𝐷𝑊 ) = −𝑙𝑜𝑔𝑝(𝜃) − 𝑙𝑜𝑔𝑝(𝐷𝑊 |𝜃) (3. 2)

Trong quá trình huấn luyện mơ hình 𝑝(𝐷𝑊 |𝜃) được tính tốn sử dụng một biến ẩn chứa các phân đoạn (chuỗi con) hiện tại được chọn. Thuật tốn

đó 𝑝(𝐷𝑊 |𝜃) chính bằng tích xác suất của tất các hình vị được chọn. Để tính xác

suất tiền nghiệm 𝑝(𝜃), Morfessor Baseline xác định một phân bố xác suất trên bảng từ vựng của mơ hình, 𝑝(𝜃) sẽ được gán giá trị cao hơn nếu các từ vựng

lưu trữ ít hơn và các hình vị ngắn hơn.

Việc chia nhỏ từ nhằm mục đích giảm kích thước bảng từ vựng, từ đó tăng tần suất xuất hiện của từ trong ngữ liệu huấn luyện, giảm từ các từ có tần suất xuất hiện thấp (các từ hiếm). Do đó, việc áp dụng chia nhỏ từ giúp giảm số lượng từ hiếm trong dữ liệu. Ngồi ra, do tiếng Anh là ngơn ngữ đa hình, trong đó mỗi từ có nhiều hình thái khác nhau bằng cách thêm vào các tiền tố, hậu tố khi có thay đổi về từ loại, thì của động từ, ... Khi dịch một câu tiếng Việt sang tiếng Anh, một từ tiếng Việt có thể chỉ tương ứng với một phần của một từ tiếng Anh. Nếu kỹ thuật chia nhỏ từ tách được từ gốc và các tiền tố, hậu tố thì chất lượng của bảng gióng hàng từ sẽ được nâng lên [123]. Do đó một hướng tiếp cận áp dụng các phương pháp chia nhỏ từ tăng chất lượng gióng hàng được đề xuất trong luận án từ đó tăng chất lượng của hệ thống hệ thống dịch máy thống kê.

3.3. Cải tiến mơ hình gióng hàng trong hệ thống dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ

Phần này trình bày về một phương pháp cải tiến mơ hình gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ, để nâng cao chất lượng gióng hàng từ, qua đó nâng cao chất lượng hệ dịch cho dịch máy thống kê cặp ngôn ngữ Việt - Anh. Các đóng góp mới của nghiên cứu bao gồm:

- Đề xuất phương pháp cải tiến mơ hình gióng hàng từ nhằm nâng cao

chất lượng hệ dịch cho dịch máy thống kê cặp ngôn ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ.

- Đề xuất việc áp dụng các kỹ thuật chia nhỏ từ đối với các câu tiếng Anh

- Đề xuất thuật tốn tạo bảng gióng hàng từ A* từ bảng A trước khi xây

dựng mơ hình dịch, giúp giữ ngun chất lượng mơ hình ngơn ngữ trong hệ thống dịch máy.

3.3.1. Phương pháp cải tiến mơ hình gióng hàng cho hệ thống SMT cặp ngôn

ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ

Luận án đề xuất một phương pháp cải tiến mơ hình gióng hàng nhằm

nâng cao chất lượng hệ dịch cho dịch máy thống kê cặp ngôn ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ. Ý tưởng chính của đề xuất là trước khi thực hiện gióng hàng từ, các câu phía tiếng Anh được tách từ (tokenize) và chia nhỏ từ (subword), bước này được coi là mã hóa ngữ liệu phía tiếng Anh, sau đó thực hiện gióng hàng từ giữa các cặp song ngữ tiếng Việt và tiếng Anh (đã mã

hóa), thu được bảng gióng hàng từ A. Ở bước tiếp theo, bảng gióng hàng từ A

được chuẩn hóa để sinh ra bảng gióng hàng từ A* giữa các cặp câu tiếng Việt và tiếng Anh ban đầu (bước này được coi là giải mã bảng gióng hàng từ). Sau đó, bảng gióng hàng từ A* được sử dụng để huấn luyện mơ hình dịch máy. Việc chia nhỏ từ chỉ được thực hiện trong bước tiền xử lý dữ liệu để gióng hàng từ. Sau khi thực hiện gióng hàng giữa câu tiếng Việt và câu tiếng Anh đã mã

hóa, bảng gióng hàng từ (A) thu được thực chất là các gióng hàng giữa từ phía tiếng Việt với từ con phía tiếng Anh, bảng gióng hàng từ này qua bước giải mã được đề xuất sẽ thu được bảng gióng hàng từ (A*) giữa từ phía tiếng Việt và từ phía tiếng Anh. Sau khi có bảng gióng hàng từ A*, hệ thống tiếp tục được huấn luyện như thơng thường, Mơ hình dịch máy thống kê sau quá trình huấn luyện là mơ hình dịch từ phía tiếng Việt thành từ phía tiếng Anh, do vậy trong quá trình đánh giá và sử dụng mơ hình dịch này khơng u cầu chia nhỏ từ phía tiếng Anh.

Việc áp dụng chia nhỏ từ sẽ giúp giải quyết được hai vấn đề ảnh hưởng đến chất lượng của dịch máy thống kê:

(i) Vấn đề từ hiếm là các từ có tần suất xuất hiện thấp nhưng lại là thành phần quan trọng của câu. Phân bố xác suất gióng hàng của các từ hiếm này thường bị mờ nhạt

(ii) Sự khác biệt về hình thái từ giữa hai ngơn ngữ tiếng Anh (đa hình) và tiếng Việt (đơn hình).

Phương pháp đề xuất được mơ tả trong Hình 3.3, bao gồm 4 bước như sau:

- Bước 1: Chia nhỏ từ phía tiếng Anh

Bước này thực hiện chia nhỏ từ trên kho ngữ liệu song ngữ, chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh. Kỹ thuật chia nhỏ từ được sử dụng

là BPE, Unigram, wordpiece và Morfessor.

- Bước 2: Gióng hàng từ (Tạo bảng gióng hàng từ A)

Được thực hiện trên kho ngữ liệu với tập câu tiếng Anh đã được chia nhỏ

từ bằng mơ hình IBM-HMM. Sau bước này thu được bảng gióng hàng từ A

- Bước 3: Chuấn hóa bảng gióng hàng (Tạo bảng gióng hàng từ mới A*)

Để huấn luyện mơ hình dịch máy thống kê cần có bảng gióng hàng từ A*, trong đó các từ phía tiếng Việt được gióng với các từ phía tiếng Anh tương ứng. Để xây dựng bảng gióng hàng từ A* từ bảng A, luận án đã trình bày một thuật tốn tạo bảng gióng hàng được trình bày chi tiết trong Mục 3.3.3.

- Bước 4: Huấn luyện mơ hình dịch máy thống kê

Việc huấn luyện mơ hình dịch máy thống kê được thực hiện theo các bước tiếp theo của hệ thống dịch máy chuẩn, sử dụng bảng gióng hàng từ A*

Kho song ngữ huấn luyện

Chuẩn hóa dữ liệu

Gióng hàng từ (tạo bảng gióng hàng A) Trích rút cụm từ

Huấn luyện mơ hình ngơn ngữ Sinh mơ hình dịch Tinh chỉnh tham số Kho song ngữ kiểm chứng Hệ thống dịch máy thống kê Chuẩn hóa bảng gióng hàng

(Tạo bảng gióng hàng A*)

Chia nhỏ từ (subword) phía tiếng Anh Kho song ngữ đánh giá Đánh giá hệ thống 2 2 1 1 3 3

Bộ mã hóa tự động

Gióng hàng từ trong dịch máy thống kê