Sơ đồ trình tự các bước xây dựng hệ thống dịch

Một phần của tài liệu Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 122 - 124)

Tổ chức huấn luyện mơ hình dịch và điều chỉnh tham số mơ hình

Thiết kế mạng nơ ron: Nghiên cứu sử dụng mã nguồn mở OpenNMT [64] đã được thiết kế mạng nơ ron và các thành phần của hệ dịch để huấn luyện mơ hình dịch. Mã nguồn này cho phép điều chỉnh nhiều bộ tham số khác nhau trong quá trình học máy và đang được nhiều nhóm nghiên cứu sử dụng.

Huấn luyện mơ hình dịch: Với cùng một thuật tốn học máy thực hiện trên một bộ dữ liệu đã có, việc chọn lựa các tham số đầu vào có ảnh hưởng lớn đến thời gian thực hiện huấn luyện và chất lượng của mơ hình dịch được tạo ra. Đối với phương pháp dịch tự động sử dụng mạng nơ ron, các tham số quan trọng được sử dụng như sau:

- Số lớp ẩn của của mạng nơ ron và số nút trên mỗi lớp: vì số lượng dữ liệu đầu vào lớn, khi sử dụng một lớp ẩn cho bộ mã hóa và bộ giải mã, chất lượng dịch đạt được rất thấp. Vì vậy thực nghiệm này sử dụng hai lớp ẩn với kích thước mỗi lớp

là 500 nút ẩn. Do giới hạn của cấu hình phần cứng máy tính, luận án khơng triển khai được mạng nơ ron với số lớp ẩn và số nút nhiều hơn.

enc_layers = 2, dec_layers = 2, rnn_size = 500.

- Kích thước bộ từ vựng: q trình tiền xử lý trước khi huấn luyện mơ hình dịch sẽ xây dựng bộ từ vựng thông qua việc thống kê các từ có trong kho ngữ liệu đầu vào. Nếu sử dụng tham số mặc định src_vocab_size = tgt_vocab_size = 50.000 và qua quan sát kết quả các tập tin đầu ra, có thể nhận thấy bộ từ vựng tiếng Việt được tạo ra chứa nhiều từ không phải là tiếng Việt, hoặc các từ sai chính tả, sai bảng mã. Luận án đã điều chỉnh kích thước bộ tự vựng tiếng Việt là 30.000 để loại bỏ bớt các từ sai này, giúp cho mô hình khơng nhận diện và dự đốn sai ở kết quả dịch.

Quá trình huấn luyện mơ hình dịch được thực hiện theo từng vịng lặp gọi là epoch, tham số end_epoch cho phép xác định số lượng vòng lặp cần thực hiện trong cả q trình. Tại mỗi vịng lặp, tập dữ liệu đầu vào được chia nhỏ thành các tập mẫu gọi là batch. Mơ hình sẽ tính tốn và so sánh sai số giữa đầu ra dự đoán với kết quả kỳ vọng để cập nhật lại bộ tham số sau khi lặp qua mỗi tập mẫu batch và mỗi vòng lặp epoch. Số lượng epoch mặc định là 13, tuy nhiên để đạt được mơ hình tối ưu hơn và có sai số ít hơn, thực nghiệm này tăng số lượng vòng lặp lên end_epoch = 21. Khi

đó, tham số biểu diễn chất lượng của mơ hình (perplexity) đạt được là 4,80 đối với dịch từ Anh sang Việt và 4,66 đối với dịch từ Việt sang Anh.

Xây dựng các mô đun của hệ thống dịch

Sau khi nhận được mơ hình dịch, chúng ta tiến hành xây dựng các thành phần của hệ thống dịch và kết nối với bộ máy dịch tự động. Việc xây dựng hệ thống dịch tự động và triển khai cho người dùng sử dụng sẽ thu được các đánh giá thực tế của người dùng bên cạnh các chỉ số đánh giá chất lượng bản dịch khác. Qua đó cho thấy tính khả thi của các giải pháp đề xuất nhằm cải tiến chất lượng dịch tự động Anh – Việt. Hệ thống dịch được đặt tên là VIKI Translator.

Hệ thống dịch VIKI Translator hoạt động trên nền tảng web, kết nối trực tiếp đến máy chủ cài đặt mô đun dịch theo cách thức như sau:

Văn bản nguồn (cần dịch) Giao diện website Máy chủ triển khai mô đun dịch Máy chủ tiếp nhận và xử lý Hiển thị trên giao diện website Văn bản đích (kết quả dịch)

Một phần của tài liệu Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 122 - 124)