Chia nhỏ từ bằng thuật tốn mã hĩa cặp byte (BPE)

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 81)

7. Bố cục của luận án

3.2.1. Chia nhỏ từ bằng thuật tốn mã hĩa cặp byte (BPE)

Mã hĩa cặp byte (BPE) là một kỹ thuật nén dữ liệu đơn giản thay thế lặp đi lặp lại các cặp byte xuất hiện nhiều nhất trong một chuỗi bằng một byte chưa được dùng. Chia nhỏ từ bằng thuật tốn mã hĩa cặp byte (BPE) điều chỉnh thuật tốn BPE để phân đoạn từ bằng cách hợp nhất các ký tự hoặc chuỗi ký tự xuất hiện nhiều nhất, thayvì hợp nhất các cặp byte xuất hiện nhiều nhất.

Đầu tiên, bảng từ điển ký hiệu (symbol vocabulary) được khởi tạo bằng một bảng từ điển ký tự (character vocabulary) và mỗi từ được biểu diễn dưới dạng một chuỗi các ký tự, cộng với ký hiệu đặc biệt ở cuối từ “</w>”, cho

phép khơi phục việc tách từ ban đầu (tokenization) sau khi dịch. Sau đĩ đếm lặp đi lặp lại tất cả các cặp ký hiệu và thay thế mỗi lần xuất hiện của cặp xuất hiện nhiều nhất (‘A’, ‘B’) bằng một ký hiệu mới ‘AB’. Mỗi thao tác hợp nhất tạo ra một ký hiệu mới biểu diễn một n-gram ký tự. Các n-gram ký tự (hoặc tồn bộ từ) cuối cùng được hợp nhất thành một ký hiệu duy nhất, do đĩ BPE khơng yêu cầu danh sách rút gọn. Thuật tốn gồm các bước sau:

1. Chuẩn bị kho dữ liệu huấn luyện

2. Định nghĩa kích thước bảng từ điển các từ con

3. Tách từ thành chuỗi ký tự và thêm hậu tố “</w>” vào cuối từ và tần suất xuất hiện.

4. Tạo ký hiệu mới thay thế cặp ký hiệu cĩ tần suất xuất hiện cao nhất

5. Lặp lại bước 4 cho đến khi đạt đến kích thước bảng từ điển từ con mong muốn được xác định ở bước 2 hoặc tần suất suất hiện cặp ký hiệu lớn nhất là 1.

Một phần của tài liệu (Luận án tiến sĩ) phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 81)

Tải bản đầy đủ (PDF)

(127 trang)