Tổ chức huấn luyện mơ hình dịch và điều chỉnh tham số mơ hình
Thiết kế mạng nơ ron: Nghiên cứu sử dụng mã nguồn mở OpenNMT [64] đã được thiết kế mạng nơ ron và các thành phần của hệ dịch để huấn luyện mơ hình dịch. Mã nguồn này cho phép điều chỉnh nhiều bộ tham số khác nhau trong quá trình học máy và đang được nhiều nhóm nghiên cứu sử dụng.
Huấn luyện mơ hình dịch: Với cùng một thuật toán học máy thực hiện trên một bộ dữ liệu đã có, việc chọn lựa các tham số đầu vào có ảnh hưởng lớn đến thời gian thực hiện huấn luyện và chất lượng của mô hình dịch được tạo ra. Đối với phương pháp dịch tự động sử dụng mạng nơ ron, các tham số quan trọng được sử dụng như sau:
- Số lớp ẩn của của mạng nơ ron và số nút trên mỗi lớp: vì số lượng dữ liệu đầu vào lớn, khi sử dụng một lớp ẩn cho bộ mã hóa và bộ giải mã, chất lượng dịch đạt được rất thấp. Vì vậy thực nghiệm này sử dụng hai lớp ẩn với kích thước mỗi lớp
Thiết kế mạng nơ ron
Điều chỉnh bộ tham số mơ hình
Huấn luyện mơ
là 500 nút ẩn. Do giới hạn của cấu hình phần cứng máy tính, luận án khơng triển khai được mạng nơ ron với số lớp ẩn và số nút nhiều hơn.
enc_layers = 2, dec_layers = 2, rnn_size = 500.
- Kích thước bộ từ vựng: q trình tiền xử lý trước khi huấn luyện mơ hình dịch sẽ xây dựng bộ từ vựng thơng qua việc thống kê các từ có trong kho ngữ liệu đầu vào. Nếu sử dụng tham số mặc định src_vocab_size = tgt_vocab_size = 50.000 và qua quan sát kết quả các tập tin đầu ra, có thể nhận thấy bộ từ vựng tiếng Việt được tạo ra chứa nhiều từ không phải là tiếng Việt, hoặc các từ sai chính tả, sai bảng mã. Luận án đã điều chỉnh kích thước bộ tự vựng tiếng Việt là 30.000 để loại bỏ bớt các từ sai này, giúp cho mơ hình khơng nhận diện và dự đốn sai ở kết quả dịch.
Q trình huấn luyện mơ hình dịch được thực hiện theo từng vịng lặp gọi là epoch, tham số end_epoch cho phép xác định số lượng vòng lặp cần thực hiện trong cả q trình. Tại mỗi vịng lặp, tập dữ liệu đầu vào được chia nhỏ thành các tập mẫu gọi là batch. Mơ hình sẽ tính tốn và so sánh sai số giữa đầu ra dự đoán với kết quả kỳ vọng để cập nhật lại bộ tham số sau khi lặp qua mỗi tập mẫu batch và mỗi vòng lặp epoch. Số lượng epoch mặc định là 13, tuy nhiên để đạt được mơ hình tối ưu hơn và có sai số ít hơn, thực nghiệm này tăng số lượng vịng lặp lên end_epoch = 21. Khi
đó, tham số biểu diễn chất lượng của mơ hình (perplexity) đạt được là 4,80 đối với dịch từ Anh sang Việt và 4,66 đối với dịch từ Việt sang Anh.
Xây dựng các mô đun của hệ thống dịch
Sau khi nhận được mơ hình dịch, chúng ta tiến hành xây dựng các thành phần của hệ thống dịch và kết nối với bộ máy dịch tự động. Việc xây dựng hệ thống dịch tự động và triển khai cho người dùng sử dụng sẽ thu được các đánh giá thực tế của người dùng bên cạnh các chỉ số đánh giá chất lượng bản dịch khác. Qua đó cho thấy tính khả thi của các giải pháp đề xuất nhằm cải tiến chất lượng dịch tự động Anh – Việt. Hệ thống dịch được đặt tên là VIKI Translator.
Hệ thống dịch VIKI Translator hoạt động trên nền tảng web, kết nối trực tiếp đến máy chủ cài đặt mô đun dịch theo cách thức như sau: