6 .Đóng góp chính của luận án
3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản
văn bản pháp luật (VIKI Translator)
Quy trình các bước triển khai
Để thực nghiệm xây dựng hệ thống dịch và đánh giá kết quả, nghiên cứu sinh tiến hành xây dựng hệ thống dịch tiếng Anh – tiếng Việt trong lĩnh vực văn bản hành chính, pháp luật sử dụng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn đã thu thập được. Có thể thấy rằng việc ứng dụng mạng nơ ron để xây dựng hệ thống dịch tự động đã được nghiên cứu ở một số ngôn ngữ, tuy nhiên đến thời điểm nghiên cứu này được thực hiện, phương pháp dịch này vẫn chưa được áp dụng thực tế ở các hệ thống dịch và chưa có đánh giá cụ thể đối với tiếng Việt.
Q trình triển khai xây dựng mơ hình dịch thực hiện các bước sau: Thiết kế mạng nơ
ron
Điều chỉnh bộ tham số mơ hình
Huấn luyện mơ
hình dịch Đánh giá
Hình 3.7. Sơ đồ trình tự các bước xây dựng hệ thống dịch
Tổ chức huấn luyện mơ hình dịch và điều chỉnh tham số mơ hình
Thiết kế mạng nơ ron: Nghiên cứu sử dụng mã nguồn mở OpenNMT [64] đã được thiết kế mạng nơ ron và các thành phần của hệ dịch để huấn luyện mơ hình dịch. Mã nguồn này cho phép điều chỉnh nhiều bộ tham số khác nhau trong q trình học máy và đang được nhiều nhóm nghiên cứu sử dụng.
Huấn luyện mơ hình dịch: Với cùng một thuật toán học máy thực hiện trên một bộ dữ liệu đã có, việc chọn lựa các tham số đầu vào có ảnh hưởng lớn đến thời gian thực hiện huấn luyện và chất lượng của mơ hình dịch được tạo ra. Đối với phương pháp dịch tự động sử dụng mạng nơ ron, các tham số quan trọng được sử dụng như sau:
- Số lớp ẩn của của mạng nơ ron và số nút trên mỗi lớp: vì số lượng dữ liệu đầu vào lớn, khi sử dụng một lớp ẩn cho bộ mã hóa và bộ giải mã, chất lượng dịch đạt được rất thấp. Vì vậy thực nghiệm này sử dụng hai lớp ẩn với kích thước mỗi lớp
là 500 nút ẩn. Do giới hạn của cấu hình phần cứng máy tính, luận án không triển khai được mạng nơ ron với số lớp ẩn và số nút nhiều hơn.
enc_layers = 2, dec_layers = 2, rnn_size = 500.
- Kích thước bộ từ vựng: quá trình tiền xử lý trước khi huấn luyện mơ hình dịch sẽ xây dựng bộ từ vựng thơng qua việc thống kê các từ có trong kho ngữ liệu đầu vào. Nếu sử dụng tham số mặc định src_vocab_size = tgt_vocab_size = 50.000 và qua quan sát kết quả các tập tin đầu ra, có thể nhận thấy bộ từ vựng tiếng Việt được tạo ra chứa nhiều từ không phải là tiếng Việt, hoặc các từ sai chính tả, sai bảng mã. Luận án đã điều chỉnh kích thước bộ tự vựng tiếng Việt là 30.000 để loại bỏ bớt các từ sai này, giúp cho mơ hình khơng nhận diện và dự đốn sai ở kết quả dịch.
Quá trình huấn luyện mơ hình dịch được thực hiện theo từng vòng lặp gọi là epoch, tham số end_epoch cho phép xác định số lượng vòng lặp cần thực hiện trong cả quá trình. Tại mỗi vịng lặp, tập dữ liệu đầu vào được chia nhỏ thành các tập mẫu gọi là batch. Mơ hình sẽ tính tốn và so sánh sai số giữa đầu ra dự đoán với kết quả kỳ vọng để cập nhật lại bộ tham số sau khi lặp qua mỗi tập mẫu batch và mỗi vòng lặp epoch. Số lượng epoch mặc định là 13, tuy nhiên để đạt được mơ hình tối ưu hơn và có sai số ít hơn, thực nghiệm này tăng số lượng vịng lặp lên end_epoch = 21. Khi
124
đó, tham số biểu diễn chất lượng của mơ hình (perplexity) đạt được là 4,80 đối với dịch từ Anh sang Việt và 4,66 đối với dịch từ Việt sang Anh.
Xây dựng các mô đun của hệ thống dịch
Sau khi nhận được mơ hình dịch, chúng ta tiến hành xây dựng các thành phần của hệ thống dịch và kết nối với bộ máy dịch tự động. Việc xây dựng hệ thống dịch tự động và triển khai cho người dùng sử dụng sẽ thu được các đánh giá thực tế của người dùng bên cạnh các chỉ số đánh giá chất lượng bản dịch khác. Qua đó cho thấy tính khả thi của các giải pháp đề xuất nhằm cải tiến chất lượng dịch tự động Anh – Việt. Hệ thống dịch được đặt tên là VIKI Translator.
Hệ thống dịch VIKI Translator hoạt động trên nền tảng web, kết nối trực tiếp đến máy chủ cài đặt mô đun dịch theo cách thức như sau:
Văn bản nguồn (cần dịch) Giao diện website Máy chủ triển khai mô đun dịch Máy chủ tiếp nhận và xử lý Hiển thị trên giao diện website Văn bản đích (kết quả dịch)
Hình 3.8. Mơ hình tổ chức của hệ thống website dịch tự động
- Máy chủ triển khai mô đun dịch được cài đặt hệ thống dịch và các mô đun để nhận văn bản cần dịch, phản hồi kết quả là văn bản đã được dịch thông qua các hàm API được nghiên cứu sinh phát triển.
- Máy chủ tiếp nhận và xử lý thông tin cài đặt giao diện người dùng để tiếp nhận dữ liệu từ người dùng và phản hồi kết quả trên nền tảng web, sử dụng ngơn ngữ
lập trình PHP. Sau khi tiếp nhận văn bản dịch, mô đun tiền xử lý sẽ thực hiện các thao tác xử lý dữ liệu thơng qua chương trình Python và gọi các hàm API để nhận kết quả dịch, hiển thị trên trình duyệt.