21 Chia nhỏ từ bằng thuật tốn mã hĩa cặp byte (BPE)

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 81)

Mã hĩa cặp byte (BPE) là một kỹ thuật nén dữ liệu đơn giản thay thế lặp đi lặp lại các cặp byte xuất hiện nhiều nhất trong một chuỗi bằng một byte chưa được dùng Chia nhỏ từ bằng thuật tốn mã hĩa cặp byte (BPE) điều chỉnh thuật tốn BPE để phân đoạn từ bằng cách hợp nhất các ký tự hoặc chuỗi ký tự xuất hiện nhiều nhất, thay vì hợp nhất các cặp byte xuất hiện nhiều nhất

Đầu tiên, bảng từ điển ký hiệu (symbol vocabulary) được khởi tạo bằng một bảng từ điển ký tự (character vocabulary) và mỗi từ được biểu diễn dưới dạng một chuỗi các ký tự, cộng với ký hiệu đặc biệt ở cuối từ “</w>”, cho phép khơi phục việc tách từ ban đầu (tokenization) sau khi dịch Sau đĩ đếm lặp đi lặp lại tất cả các cặp ký hiệu và thay thế mỗi lần xuất hiện của cặp xuất hiện nhiều nhất (‘A’, ‘B’) bằng một ký hiệu mới ‘AB’ Mỗi thao tác hợp nhất tạo ra một ký hiệu mới biểu diễn một n-gram ký tự Các n-gram ký tự (hoặc tồn bộ từ) cuối cùng được hợp nhất thành một ký hiệu duy nhất, do đĩ BPE khơng yêu cầu danh sách rút gọn Thuật tốn gồm các bước sau:

1 Chuẩn bị kho dữ liệu huấn luyện

2 Định nghĩa kích thước bảng từ điển các từ con

3 Tách từ thành chuỗi ký tự và thêm hậu tố “</w>” vào cuối từ và tần suất xuất hiện

4 Tạo ký hiệu mới thay thế cặp ký hiệu cĩ tần suất xuất hiện cao nhất

5 Lặp lại bước 4 cho đến khi đạt đến kích thước bảng từ điển từ con mong

muốn được xác định ở bước 2 hoặc tần suất suất hiện cặp ký hiệu lớn nhất là 1

Một phần của tài liệu Phát triển một số kỹ thuật trong dịch máy thống kê với tài nguyên song ngữ hạn chế cho cặp ngôn ngữ việt anh (Trang 81)

Tải bản đầy đủ (DOCX)

(127 trang)
w