Các kỹ thuật chia nhỏ từ

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 79)

CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN

3.2. Các kỹ thuật chia nhỏ từ

Các hệ thống SMT thường dùng mơ hình gióng hàng IBM, các mơ hình này chỉ sử dụng các cặp câu song ngữ để xây dựng bảng gióng hàng từ. Do đó các mơ hình thường gặp vấn đề khi gióng hàng với các từ hiếm (rare word), tức là các từ có tần suất xuất hiện thấp nhưng lại là thành phần quan trọng của câu. Phân bố xác suất gióng hàng của các từ hiếm này thường bị lệch (bias) [123].

Trong một cặp câu (𝑆, 𝑇), với mỗi từ phía đích 𝑡 ∈ 𝑇 và hai từ phía nguồn 𝑠, 𝑠𝑟𝑎𝑟𝑒 ∈ 𝑆 với 𝑠𝑟𝑎𝑟𝑒 là từ hiếm và 𝑠 là từ bình thường, do từ hiếm 𝑠𝑟𝑎𝑟𝑒 chỉ cùng xuất hiện với một vài từ phía đích nên nó làm tăng xác suất có điều kiện

cho những từ phía đích. Mơ hình dịch có nhiều khả năng sẽ tạo ra 𝑝(𝑡|𝑠𝑟𝑎𝑟𝑒) > 𝑝(𝑡|𝑠) và do đó hầu hết các từ phía đích sẽ được gióng với 𝑠𝑟𝑎𝑟𝑒 tức là phân bố xác suất gióng hàng của từ hiếm 𝑠𝑟𝑎𝑟𝑒 sẽ bị lệch (bias).

Ngoài ra, trong dịch máy trên mạng nơ-ron thường xảy hiện tượng từ

nằm ngoài bảng từ vựng do sự xuất hiện các từ hiếm và từ chưa gặp trong bảng từ vựng. Kỹ thuật chia nhỏ từ thường được sử dụng như một phương pháp biểu diễn từ nhằm mục đích giảm kích thước bảng từ vựng, từ đó hạn chế hiện tượng OOV, trong đó các từ hiếm và từ chưa biết được mã hóa dưới dạng chuỗi các subword (từ con).

Kỹ thuật chia nhỏ từ là kỹ thuật phân đoạn các từ thành các từ con (subword units). Hình 3.2 dưới đây là ví dụ về việc chia nhỏ từ.

Kỹ thuật chia nhỏ từ được thực hiện dựa trên quan sát rằng một số loại từ có thể dịch thơng qua các đơn vị nhỏ hơn, ví dụ:

- Các thực thể tên: Giữa các ngôn ngữ cùng bảng chữ cái, tên thường có

thể được sao chép từ nguồn sang đích. Nếu bảng chữ cái hoặc âm tiết khác nhau cần phải phiên âm hoặc chuyển ngữ. Ví dụ

Barack Obama (English; German)

Барак Обама (Russian)

バラク・オバマ(ba-ra-ku o-ba-ma) (Japanese)

- Các từ mượn hoặc các từ cùng nguồn gốc: có thể khác nhau do qui tắc

khác nhau giữa các ngơn ngữ, do đó có thể dịch mức ký tự. Ví dụ:

claustrophobia (English) Klaustrophobie (German)

Клаустрофобия (Klaustrofobiâ) (Russian)

- Các từ có hình thái phức tạp: là các từ chứa nhiều hình vị (morphemes)

ví dụ các từ ghép (compound), từ liên kết (affixation, sweetish ‘sweet’ + ‘-ish’ → süßlich ‘süß’ +‘-lich’), các từ biến đổi (inflection). Chúng có thể dịch bằng cách dịch các hình vị tách rời. Ví dụ:

solar system (English)

Sonnensystem (Sonne + System) (German) Naprendszer (Nap + Rendszer) (Hungarian)

Theo thống kê của Sennrich [104] trong 100 từ hiếm tiếng Đức lấy từ kho ngữ liệu được thu thập từ văn bản pháp qui và từ các trang web đa số các từ đều có khả năng dịch thay thế bằng các từ thơng thường là chính các từ con của nó, trong đó có: 56 từ ghép, 21 thực thể tên, 6 từ mượn và 5 từ liên kết, 01 số từ, 01 định danh ngơn ngữ máy tính.

Một số kỹ thuật chia nhỏ từ hiện nay đang được sử dụng phổ biến và đem

lại hiệu quả trong lĩnh vực xử lý ngôn ngữ tự nhiên là BPE [104], Wordpiece

3.2.1. Chia nhỏ từ bằng thuật tốn mã hóa cặp byte (BPE)

Mã hóa cặp byte (BPE) là một kỹ thuật nén dữ liệu đơn giản thay thế lặp đi lặp lại các cặp byte xuất hiện nhiều nhất trong một chuỗi bằng một byte chưa được dùng. Chia nhỏ từ bằng thuật tốn mã hóa cặp byte (BPE) điều chỉnh thuật toán BPE để phân đoạn từ bằng cách hợp nhất các ký tự hoặc chuỗi ký tự xuất hiện nhiều nhất, thay vì hợp nhất các cặp byte xuất hiện nhiều nhất.

Đầu tiên, bảng từ điển ký hiệu (symbol vocabulary) được khởi tạo bằng một bảng từ điển ký tự (character vocabulary) và mỗi từ được biểu diễn dưới dạng một chuỗi các ký tự, cộng với ký hiệu đặc biệt ở cuối từ “</w>”, cho

phép khôi phục việc tách từ ban đầu (tokenization) sau khi dịch. Sau đó đếm lặp đi lặp lại tất cả các cặp ký hiệu và thay thế mỗi lần xuất hiện của cặp xuất hiện nhiều nhất (‘A’, ‘B’) bằng một ký hiệu mới ‘AB’. Mỗi thao tác hợp nhất tạo ra một ký hiệu mới biểu diễn một n-gram ký tự. Các n-gram ký tự (hoặc toàn bộ từ) cuối cùng được hợp nhất thành một ký hiệu duy nhất, do đó BPE khơng u cầu danh sách rút gọn. Thuật toán gồm các bước sau:

1. Chuẩn bị kho dữ liệu huấn luyện

2. Định nghĩa kích thước bảng từ điển các từ con

3. Tách từ thành chuỗi ký tự và thêm hậu tố “</w>” vào cuối từ và tần suất xuất hiện.

4. Tạo ký hiệu mới thay thế cặp ký hiệu có tần suất xuất hiện cao nhất

5. Lặp lại bước 4 cho đến khi đạt đến kích thước bảng từ điển từ con mong muốn được xác định ở bước 2 hoặc tần suất suất hiện cặp ký hiệu lớn nhất là 1.

3.2.2. Wordpiece

WordPiece là một thuật toán chia nhỏ từ tương tự với BPE được Schuster và Nakajima đã giới thiệu vào năm 2012 [102]. Về cơ bản, WordPiece tương tự với BPE và sự khác nhau là hình thành một ký hiệu mới bằng khả năng xuất

hiện (likelihood) thay vì là cặp ký hiệu có tần suất xuất hiện cao nhất. Thuật tốn được mơ tả như sau:

1. Chuẩn bị kho dữ liệu huấn luyện

2. Định nghĩa kích thước bảng từ điển các từ con (subword vocabulary)

3. Tách từ thành chuỗi ký tự, thêm hậu tố “</w>” vào cuối từ cùng với tần suất xuất hiện ký hiệu.

4. Xây dựng mơ hình ngơn ngữ dựa trên dữ liệu bước 3.

5. Chọn đơn vị từ con mới trong số tất cả các đơn vị từ con có thể có để tăng khả năng xuất hiện trên kho ngữ liệu huấn luyện (the likelihood on the training data) nhiều nhất khi được thêm vào mơ hình.

6. Lặp lại bước 5 cho đến khi đạt đến kích thước bảng từ điển từ con mong muốn được xác định ở bước 2 hoặc likelihood giảm xuống một ngưỡng nào đó.

3.2.3. Unigram Language Model

Kudo và cộng sự đã giới thiệu mơ hình ngơn ngữ unigram là một thuật

tốn khác để chia nhỏ từ trong cơng trình [61]. Một trong những giả định được sử dụng trong cơng trình là tất cả các xuất hiện của các từ con (subword) là độc lập và xác suất xuất hiện chuỗi từ con được tạo ra bởi tích xác suất xuất hiện của các từ con. Cả WordPieces và Unigram Language Model đều sử dụng mơ hình ngơn ngữ để xây dựng từ điển các từ con (subword vocabulary). Thuật toán chia nhỏ từ gồm các bước như sau:

1. Chuẩn bị kho dữ liệu huấn luyện

2. Định nghĩa kích thước bảng điển từ điển các từ con (subword

vocabulary)

3. Tối ưu hóa xác suất xuất hiện từ bằng cách đưa ra một chuỗi từ

5. Sắp xếp ký hiệu giá trị mất mát và giữ X% các từ cao nhất. Ký tự được khuyến nghị đưa vào là tập con của các ký hiệu

6. Lặp lại bước 3–5 cho đến khi đạt đến kích thước bảng từ điển từ con mong muốn được xác định ở bước 2 hoặc khơng có thay đổi trong bước 5.

3.2.4. Morfessor

Morfessor là một nhóm các phương pháp học máy dựa vào xác suất để

tìm phân tích hình thái (morphological segmentation) từ dữ liệu văn bản với

mục tiêu là chia nhỏ các từ thành các hình vị tức là các đơn vị có nghĩa nhỏ nhất của ngôn ngữ [106]. Phiên bản đầu tiên của Morfessor được gọi là Morfessor Baseline đã được Creutz and Lagus [26] đề xuất năm 2002 và phần mềm thực hiện nó là Morfessor 1.0. Một số biến thể Morfessor đã được phát triển sau đó, bao gồm Morfessor Category-MAP [25]. Morfessor 2.0 [106] là một triển khai mới của thuật tốn Morfessor Baseline. Nó đã được viết theo các

mô-đun và được phát hành dưới dạng một dự án mã nguồn mở khuyến khích

cộng đồng mở rộng một cách dễ dàng.

Các mơ hình của Morfessor là các mơ hình xác suất dạng sinh (generative probabilistic model) dự đoán các từ và phân đoạn của chúng dựa trên các tham

số của mơ hình. Hàm mục tiêu của Morfessor Basline được tính tốn sử dụng

ước lượng hậu nghiệm cực đại (maximum a posteriori estimation) với mục tiêu

tìm ra tham số 𝜃 dựa vào tập dữ liệu huấn luyện 𝐷𝑊 :

𝜃𝑀𝐴𝑃 = arg⁡max 𝜃

𝑝(𝜃)𝑝(𝐷𝑊 |𝜃) (3. 1)

Hàm mất mát của mơ hình sẽ là:

𝐿(𝜃, 𝐷𝑊 ) = −𝑙𝑜𝑔𝑝(𝜃) − 𝑙𝑜𝑔𝑝(𝐷𝑊 |𝜃) (3. 2)

Trong quá trình huấn luyện mơ hình 𝑝(𝐷𝑊 |𝜃) được tính tốn sử dụng một biến ẩn chứa các phân đoạn (chuỗi con) hiện tại được chọn. Thuật tốn

đó 𝑝(𝐷𝑊 |𝜃) chính bằng tích xác suất của tất các hình vị được chọn. Để tính xác

suất tiền nghiệm 𝑝(𝜃), Morfessor Baseline xác định một phân bố xác suất trên bảng từ vựng của mơ hình, 𝑝(𝜃) sẽ được gán giá trị cao hơn nếu các từ vựng

lưu trữ ít hơn và các hình vị ngắn hơn.

Việc chia nhỏ từ nhằm mục đích giảm kích thước bảng từ vựng, từ đó tăng tần suất xuất hiện của từ trong ngữ liệu huấn luyện, giảm từ các từ có tần suất xuất hiện thấp (các từ hiếm). Do đó, việc áp dụng chia nhỏ từ giúp giảm số lượng từ hiếm trong dữ liệu. Ngồi ra, do tiếng Anh là ngơn ngữ đa hình, trong đó mỗi từ có nhiều hình thái khác nhau bằng cách thêm vào các tiền tố, hậu tố khi có thay đổi về từ loại, thì của động từ, ... Khi dịch một câu tiếng Việt sang tiếng Anh, một từ tiếng Việt có thể chỉ tương ứng với một phần của một từ tiếng Anh. Nếu kỹ thuật chia nhỏ từ tách được từ gốc và các tiền tố, hậu tố thì chất lượng của bảng gióng hàng từ sẽ được nâng lên [123]. Do đó một hướng tiếp cận áp dụng các phương pháp chia nhỏ từ tăng chất lượng gióng hàng được đề xuất trong luận án từ đó tăng chất lượng của hệ thống hệ thống dịch máy thống kê.

3.3. Cải tiến mơ hình gióng hàng trong hệ thống dịch máy thống kê cặp ngôn ngữ Việt - Anh với kỹ thuật chia nhỏ từ

Phần này trình bày về một phương pháp cải tiến mơ hình gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ, để nâng cao chất lượng gióng hàng từ, qua đó nâng cao chất lượng hệ dịch cho dịch máy thống kê cặp ngôn ngữ Việt - Anh. Các đóng góp mới của nghiên cứu bao gồm:

- Đề xuất phương pháp cải tiến mơ hình gióng hàng từ nhằm nâng cao

chất lượng hệ dịch cho dịch máy thống kê cặp ngôn ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ.

- Đề xuất việc áp dụng các kỹ thuật chia nhỏ từ đối với các câu tiếng Anh

- Đề xuất thuật tốn tạo bảng gióng hàng từ A* từ bảng A trước khi xây

dựng mơ hình dịch, giúp giữ ngun chất lượng mơ hình ngơn ngữ trong hệ thống dịch máy.

3.3.1. Phương pháp cải tiến mơ hình gióng hàng cho hệ thống SMT cặp ngơn

ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ

Luận án đề xuất một phương pháp cải tiến mơ hình gióng hàng nhằm

nâng cao chất lượng hệ dịch cho dịch máy thống kê cặp ngôn ngữ Việt - Anh sử dụng các kỹ thuật chia nhỏ từ. Ý tưởng chính của đề xuất là trước khi thực hiện gióng hàng từ, các câu phía tiếng Anh được tách từ (tokenize) và chia nhỏ từ (subword), bước này được coi là mã hóa ngữ liệu phía tiếng Anh, sau đó thực hiện gióng hàng từ giữa các cặp song ngữ tiếng Việt và tiếng Anh (đã mã

hóa), thu được bảng gióng hàng từ A. Ở bước tiếp theo, bảng gióng hàng từ A

được chuẩn hóa để sinh ra bảng gióng hàng từ A* giữa các cặp câu tiếng Việt và tiếng Anh ban đầu (bước này được coi là giải mã bảng gióng hàng từ). Sau đó, bảng gióng hàng từ A* được sử dụng để huấn luyện mơ hình dịch máy. Việc chia nhỏ từ chỉ được thực hiện trong bước tiền xử lý dữ liệu để gióng hàng từ. Sau khi thực hiện gióng hàng giữa câu tiếng Việt và câu tiếng Anh đã mã

hóa, bảng gióng hàng từ (A) thu được thực chất là các gióng hàng giữa từ phía tiếng Việt với từ con phía tiếng Anh, bảng gióng hàng từ này qua bước giải mã được đề xuất sẽ thu được bảng gióng hàng từ (A*) giữa từ phía tiếng Việt và từ phía tiếng Anh. Sau khi có bảng gióng hàng từ A*, hệ thống tiếp tục được huấn luyện như thơng thường, Mơ hình dịch máy thống kê sau quá trình huấn luyện là mơ hình dịch từ phía tiếng Việt thành từ phía tiếng Anh, do vậy trong quá trình đánh giá và sử dụng mơ hình dịch này khơng u cầu chia nhỏ từ phía tiếng Anh.

Việc áp dụng chia nhỏ từ sẽ giúp giải quyết được hai vấn đề ảnh hưởng đến chất lượng của dịch máy thống kê:

(i) Vấn đề từ hiếm là các từ có tần suất xuất hiện thấp nhưng lại là thành phần quan trọng của câu. Phân bố xác suất gióng hàng của các từ hiếm này thường bị mờ nhạt

(ii) Sự khác biệt về hình thái từ giữa hai ngơn ngữ tiếng Anh (đa hình) và tiếng Việt (đơn hình).

Phương pháp đề xuất được mơ tả trong Hình 3.3, bao gồm 4 bước như sau:

- Bước 1: Chia nhỏ từ phía tiếng Anh

Bước này thực hiện chia nhỏ từ trên kho ngữ liệu song ngữ, chia nhỏ từ chỉ thực hiện đối với các câu phía tiếng Anh. Kỹ thuật chia nhỏ từ được sử dụng

là BPE, Unigram, wordpiece và Morfessor.

- Bước 2: Gióng hàng từ (Tạo bảng gióng hàng từ A)

Được thực hiện trên kho ngữ liệu với tập câu tiếng Anh đã được chia nhỏ

từ bằng mơ hình IBM-HMM. Sau bước này thu được bảng gióng hàng từ A

- Bước 3: Chuấn hóa bảng gióng hàng (Tạo bảng gióng hàng từ mới A*)

Để huấn luyện mơ hình dịch máy thống kê cần có bảng gióng hàng từ A*, trong đó các từ phía tiếng Việt được gióng với các từ phía tiếng Anh tương ứng. Để xây dựng bảng gióng hàng từ A* từ bảng A, luận án đã trình bày một thuật tốn tạo bảng gióng hàng được trình bày chi tiết trong Mục 3.3.3.

- Bước 4: Huấn luyện mơ hình dịch máy thống kê

Việc huấn luyện mơ hình dịch máy thống kê được thực hiện theo các bước tiếp theo của hệ thống dịch máy chuẩn, sử dụng bảng gióng hàng từ A*

Kho song ngữ huấn luyện

Chuẩn hóa dữ liệu

Gióng hàng từ (tạo bảng gióng hàng A) Trích rút cụm từ

Huấn luyện mơ hình ngơn ngữ Sinh mơ hình dịch Tinh chỉnh tham số Kho song ngữ kiểm chứng Hệ thống dịch máy thống kê Chuẩn hóa bảng gióng hàng

(Tạo bảng gióng hàng A*)

Chia nhỏ từ (subword) phía tiếng Anh Kho song ngữ đánh giá Đánh giá hệ thống 2 2 1 1 3 3

Hình 3.3. Mơ hình đề xuất áp dụng chia nhỏ từ vào dịch máy thống kê.

3.3.2. Đề xuất áp dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa

vào gióng hàng

Việc chia nhỏ từ nhằm mục đích giảm kích thước bảng từ vựng, từ đó tăng tần suất xuất hiện của từ trong ngữ liệu huấn luyện, giảm số lượng các từ có tần suất xuất hiện thấp (các từ hiếm). Áp dụng chia nhỏ từ giúp giảm số lượng từ hiếm trong kho ngữ liệu. Ngồi ra, chia nhỏ từ cũng có thể giải quyết được các vấn đề sự khác biệt về hình thái từ giữa hai ngơn ngữ tiếng Anh và tiếng Việt. Luận án đề xuất sử dụng các kỹ thuật chia nhỏ từ phía tiếng Anh trước khi đưa vào gióng hàng bởi vì: Dữ liệu đơn ngữ phía tiếng Anh nhiều hơn

tiền huấn luyện (pretrained model) tốt. Hơn nữa, do tiếng Anh là ngơn ngữ đa hình, trong đó mỗi từ có nhiều hình thái khác nhau bằng cách thêm vào các tiền tố, hậu tố khi có thay đổi về từ loại, thì của động từ, ... Khi dịch một câu tiếng Việt sang tiếng Anh, một từ tiếng Việt có thể chỉ tương ứng với một phần của một từ tiếng Anh. Nếu kỹ thuật chia nhỏ từ tách được từ gốc và các tiền tố, hậu tố thì chất lượng của bảng gióng hàng từ sẽ được nâng lên [123].

Kỹ thuật chia nhỏ từ được áp dụng trên kho ngữ liệu huấn luyện C(V,E) trong đó V là tập các câu tiếng Việt, E là tập các câu tiếng Anh tương ứng. Chia

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 79)

Tải bản đầy đủ (PDF)

(127 trang)