- Máy chủ triển khai mô đun dịch được cài đặt hệ thống dịch và các mô đun để nhận văn bản cần dịch, phản hồi kết quả là văn bản đã được dịch thông qua các hàm API được nghiên cứu sinh phát triển.
- Máy chủ tiếp nhận và xử lý thông tin cài đặt giao diện người dùng để tiếp nhận dữ liệu từ người dùng và phản hồi kết quả trên nền tảng web, sử dụng ngơn ngữ lập trình PHP. Sau khi tiếp nhận văn bản dịch, mô đun tiền xử lý sẽ thực hiện các thao tác xử lý dữ liệu thơng qua chương trình Python và gọi các hàm API để nhận kết quả dịch, hiển thị trên trình duyệt.
Hiển thị trên giao diện
3.4. Đánh giá kết quả
Kết quả thực nghiệm
Sau khi xây dựng hệ thống dịch văn bản pháp luật tiếng Anh – tiếng Việt bằng mơ hình mạng nơ ron kết hợp kho ngữ liệu lớn, nghiên cứu sử dụng 2 bộ dữ liệu liên quan đến lĩnh vực văn bản pháp luật (tpp-chuong28 và tpp-tomtat) như đã mô tả tại Chương 2 để đánh giá chất lượng của hệ thống. Kết quả dịch được lấy thông qua câu lệnh “th translate.lua” của OpenNMT, sử dụng mơ hình đã huấn
luyện ở bước trên.
Các câu tiếng Anh sau khi được hệ thống dịch sang tiếng Việt sẽ được đối chiếu với các câu dịch chuẩn để đánh giá chỉ số BLEU thông qua hệ thống Asiya. Kết quả nhận được điểm BLEU là 29. Sử dụng tập dữ liệu nói trên, thực nghiệm đối chiếu với hệ thống dịch Anh – Việt tương tự là hệ thống dịch văn bản Cồ Việt (một sản phẩm của Lạc Việt tại địa chỉ http://tratu.coviet.vn), cho kết quả điểm BLEU là 27 và hệ thống Evtran được tích hợp trên Vdict (https://vdict.com/#translation) đạt 11.
Bảng 3.3. Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt
BLEU NIST WER
Hệ thống VIKI Translator 29,1 5,78 0,63
Hệ thống Cồ Việt 27,1 5,62 0,68
Kết quả thu được khi so sánh với các nghiên cứu về xây dựng hệ thống dịch đã được công bố đều cho thấy đạt chất lượng tốt hơn thông qua các chỉ số đánh giá. Cụ thể:
Bảng 3.4. So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch tiếng Việt
Hệ thống dịch Điểm BLEU cao
nhất đạt được
Hệ thống VIKI Translator 29,1
Hệ thống dịch Anh – Việt sử dụng Moses [60] sử dụng bộ dữ liệu huấn luyện IWSLT 2015
23,2
Hệ thống dịch Anh – Việt sử dụng Moses [59] sử dụng kho ngữ liệu 880.000 cặp câu tự xây dựng
11,33 Hệ thống dịch Anh – Việt sử dụng mạng nơ ron và
tập dữ liệu đánh giá của IWSLT 2015 [14]
27,0
Hệ thống dịch thông qua ngôn ngữ trung gian giữa cặp ngôn ngữ Séc – Việt [15]
10,59
Để làm rõ kết quả của hệ thống dịch đã xây dựng, luận án thực hiện một số thực nghiệm cụ thể hơn như sau:
- Dịch từ tiếng Anh sang tiếng Việt mục lục của Hiệp định đối tác thương mại xuyên Thái Bình Dương gồm 30 đề mục chương (bản dịch Anh – Việt đã công bố trên các phương tiện truyền thông).
- Dịch từ tiếng Việt sang tiếng Anh tên của Chính phủ, các Bộ, cơ quan ngang bộ gồm 23 tên gọi được quy định tại Mục 2, Phụ lục của Thông tư số 03/2009/TT- BNG ngày 09/7/2009 của Bộ Ngoại Giao về hướng dẫn dịch quốc hiệu, tên các cơ quan, đơn vị và chức danh lãnh đạo, cán bộ cơng chức trong hệ thống hành chính nhà nước sang tiếng anh để giao dịch đối ngoại (bản dịch Anh – Việt đã quy định trong thông tư).
Kết quả dịch từ hệ thống VIKI Translator và EVTran được so sánh chính xác với bản gốc và bỏ qua việc kiểm tra chữ hoa, chữ thường được thể hiện trong bảng sau:
Bảng 3.5. So sánh số lượng câu dịch đúng
Số lượng câu đúng/Tổng số câu VIKI Translator EVTran Dịch từ tiếng Anh sang tiếng Việt
mục lục của Hiệp định
14/30 10/30
Dịch từ tiếng Việt sang tiếng Anh tên các cơ quan
15/23 11/23
Một số câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng như sau:
Bảng 3.6. Ví dụ về các câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng
Bản gốc tiếng Anh Bản gốc tiếng Việt VIKI Translator EVTran
The State Bank of Viet Nam
Ngân hàng Nhà nước Việt Nam
The State Bank of Vietnam
The Bank of Viet Nam
Ministry of Public Security
Bộ Công an Ministry of Public security
Police Ministry of Justice Bộ Tư pháp The Ministry of
Justice
Judicial Ministry of Labour,
War invalids and Social Affairs
Bộ Lao động - Thương binh và Xã hội
Ministry of Labour, War invalids and Social affairs
Ministry of Labor - Invalids and Social Affairs Chapter 7. Sanitary and
Phytosanitary Measures Chương 7. Biện pháp vệ sinh và kiểm dịch Chương 7. Các biện pháp vệ sinh và kiểm dịch Chương 7. Các biện pháp vệ sinh và kiểm dịch động thực vật Chapter 24. Small and
Medium-sized Enterprises Chương 24. Doanh nghiệp vừa và nhỏ Chương 24. Doanh nghiệp vừa và nhỏ Chương 24. Doanh nghiệp nhỏ và vừa
Chapter 27. Administrative and Institutional Provisions Chương 27. Các điều khoản về hành chính và thể chế Chương 27. Điều khoản hành chính và thể chế Chương 27. Các quy định về thể chế và hành chính
Qua các so sánh trên có thể thấy rằng, bằng cách sử dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa trên mơ hình mạng nơ ron mà nghiên cứu đã xây dựng đã cho kết quả tốt. Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn bản pháp luật mà chúng tơi đã thu thập nên hệ thống dịch có thể dịch được phần lớn thuật ngữ liên quan đến lĩnh vực này, trong khi một số hệ thống khác vẫn có hiện tượng dịch sai các cụm từ quan trọng. Điều này cho thấy mơ hình dịch NMT có thể áp dụng hiệu quả đối với dịch tự động tiếng Việt.
Đánh giá của người dùng
Hệ thống dịch VIKI Translator đã được triển khai từ tháng 11 năm 2017 đến nay, cung cấp cho người sử dụng chức năng dịch trực tuyến từ tiếng Anh sang tiếng Việt và tiếng Việt sang tiếng Anh thông qua môi trường Internet tại địa chỉ: https://vikitranslator.com. Giao diện của hệ thống VIKI Translator ở Hình 3.9.
Ngồi hình thức sử dụng thơng qua website, VIKI Translator cịn cung cấp các cách thức sử dụng như sau:
oMô đun phần mềm chạy trên nền tảng Windows oMô đun phần mềm chạy trên nền tảng Android
oMơ đun tích hợp trên trình duyệt Chrome (Chrome Extensions) Về cơ bản, các phân hệ này hiện thị trực tiếp nội dung từ website chính của VIKI Translator hoặc gọi hàm API từ website này để lấy kết quả dịch.
Tổng hợp một số kết quả đạt được qua quá trình triển khai thực nghiệm hệ thống:
o Tổng số lượt truy cập và sử dụng ứng dụng trên tất cả nền tảng: trên 1.500.0 người dùng
o Tổng số lượt truy cập website hàng tháng: gần 70.000 người o Lượt tải ứng dụng trên Windows: hơn 30.000 lượt
o Số người dùng Chrome Extensions: hơn 5.000 người
o Đánh giá của người dùng Chrome Extensions: 4,6/5 điểm từ 27 đánh giá o Đánh giá của người dùng trên Google Play: 4,5/5 điểm từ 47 đánh giá o Tổng số bài viết giới thiệu, hướng dẫn sử dụng từ các website khác: hơn 30 bài
o Tổng số liên kết từ các website khác trỏ đến VIKI Translator (backlink): 582.561 backlink (kết quả từ ahrefs.com, trang web tổng hợp số liệu backlink hàng đầu hiện nay)
Hình 3.11. Thống kê tổng số người dùng (Nguồn: Google Analytics)
Hình 3.12. Thống kê số lượng liên kết (Nguồn: ahrefs.com)
3.5. Kết luận Chương 3
Nội dung Chương 3 đã trình bày các bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt trên cơ sở tổng hợp các giải pháp cải tiến về mặt kho ngữ liệu và phương pháp dịch đã được đề xuất trong các chương trước. Hệ thống VIKI Translator đã xây dựng cho kết quả vượt trội so với một hệ thống dịch tiếng Việt hiện nay qua các số liệu đánh giá cụ thể về điểm BLEU, NIST và WER. Hệ thống cũng cho kết quả khả quan khi so sánh với một số kết quả xây dựng hệ thống dịch đã được thực hiện trong các nghiên cứu khác.
Hệ thống dịch Anh – Việt đã triển khai thực tế gần 4 năm và có hơn 1,5 triệu lượt sử dụng, nhận được đánh giá tích cực từ phía người dùng. Qua đó cho thấy các giải pháp cải tiến mà nghiên cứu đề xuất đã góp phần xây dựng được hệ thống dịch có chất lượng tốt, phù hợp để triển khai và tiếp tục nghiên cứu phát triển cho bài toán dịch tự động tiếng Việt.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận
Luận án đã triển khai nghiên cứu các yếu tố quan trọng ảnh hưởng đến chất lượng kết quả hệ thống dịch tự động tiếng Việt là kho ngữ liệu và phương pháp dịch, từ đó đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt. Các nội dung nghiên cứu cụ thể như sau:
- Nghiên cứu về các phương pháp đánh giá chất lượng bản dịch máy, triển khai đánh giá tổng quát và chi tiết chất lượng của các hệ thống dịch tiếng Việt đang hoạt động hiện nay, cung cấp các số liệu làm cơ sở để phân tích, so sánh giữa các hệ thống dịch và chất lượng dịch ở các lĩnh vực khác nhau trong cùng một hệ thống cũng như có thể so sánh với chất lượng các hệ thống dịch ở các ngôn ngữ khác. Trên cơ sở đó đưa ra cái nhìn tổng thể về chất lượng của các hệ thống dịch tiếng Việt hiện có. Nghiên cứu cũng đề xuất phương pháp và số đo mới để tính tốn chất lượng các kết quả dịch trong q trình người dùng hiệu đính bản dịch máy. Phương pháp này đảm bảo tính chính xác, đồng thời tiết kiệm được nguồn lực tổ chức đánh giá.
- Nghiên cứu về các kho ngữ liệu phục vụ cho dịch tự động tiếng Việt và đề xuất giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu. Các giải pháp cải tiến này ở cả khía cạnh cải tiến chất lượng và số lượng, bao gồm giải pháp mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật tốn Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mơ hình phân phối từ và cụm từ trong văn bản. Trên cơ sở đó nghiên cứu tiến hành xây dựng các mơ đun phần mềm để mô phỏng các giải pháp đề xuất và thử nghiệm cho kết quả tốt. Từ các giải pháp hợp nhất và mở rộng kho ngữ liệu nêu trên, nghiên cứu cũng triển khai thu thập được kho ngữ liệu có số lượng lớn, chất lượng tốt gồm 1.479.000 cặp câu song ngữ Anh – Việt để phục vụ cho các hệ thống dịch tự động tiếng Việt.
- Nghiên cứu về các phương pháp dịch tự động và đề xuất giải pháp ứng dụng mơ hình học máy mạng nơ ron vào bài toán dịch tự động tiếng Việt nhằm nâng cao chất lượng của hệ thống dịch. Nghiên cứu cũng tổ chức cài đặt và huấn luyện các mơ hình dịch thống kê và dịch sử dụng mạng nơ ron và so sánh kết quả của các mơ hình dịch này, qua đó cho thấy sự phù hợp của mơ hình dịch sử dụng mạng nơ ron trong
bài toán dịch tự động tiếng Việt. Nghiên cứu và đề xuất mơ hình của hệ thống dịch tự động hướng ngữ nghĩa, thơng qua đó các hệ thống dịch có thể cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh của văn bản cần dịch và giúp cho người đọc hiểu toàn vẹn nội dung văn bản.
- Xây dựng và triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI Translator, cung cấp cho người dùng thông qua môi trường Internet. Hệ thống dịch này là sản phẩm ứng dụng các giải pháp đã được đề xuất trong nghiên cứu, được xây dựng có cơ sở đánh giá lại tính hiệu quả của các giải pháp cải tiến chất lượng dịch tiếng Việt. Hệ thống đã có hơn một triệu lượt sử dụng và đã được đánh giá tích cực từ phía người dùng.
2. Hướng phát triển
Để hồn thiện các giải pháp đối với hệ thống dịch tự động tiếng Việt và giúp các hệ thống đạt chất lượng tốt hơn, trong thời gian tới nghiên cứu sinh sẽ tiếp tục tập trung nghiên cứu các nội dung chính sau đây:
- Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm đạt hiệu quả cao hơn.
- Xây dựng kho ngữ liệu phong phú hơn bằng nhiều phương pháp khác nhau, đồng thời mô tả ngữ nghĩa của dữ liệu và kết hợp phân tích ngữ nghĩa trong phương pháp dịch.
- Mở rộng xây dựng kho ngữ liệu ở các lĩnh vực khác nhau và triển khai đánh giá, phân tích và so sánh.
- Đánh giá yếu tố ngữ cảnh của toàn văn bản để làm tham số đầu vào cho hệ thống dịch, từ đó nâng cao chất lượng của kết quả dịch.
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ
1. Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Cải tiến chất lượng dịch tự động bằng giải pháp mở rộng kho ngữ liệu”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII
về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) (ISBN: 978- 604- 913-397-8), pp. 80-87, 07/2015.
2. Phạm Tuấn Anh, Nguyễn Văn Bình, “Nghiên cứu các phương pháp và đề xuất hệ thống đánh giá chất lượng dịch tự động song ngữ Anh - Việt”, Kỷ yếu Hội thảo khoa
học Quốc gia Công nghệ thông tin và ứng dụng trong các lĩnh vực CITA2015, Trang
118-121, 06/2015.
3. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Cải tiến chất lượng dịch Việt-Anh bằng mơ hình học máy mạng nơron kết hợp kho ngữ liệu lớn”, Kỷ yếu Hội thảo Quốc gia
“Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông” (Hội thảo @),
11/2017.
4. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “A System of Exploiting and Building Homogeneous and Large Resources for the Improvement of Vietnamese-Related Machine Translation Quality”, International Journal of Applied Engineering
Research, pp. 10242-10248, 12/2017 (Indexed in Scopus).
5. Nguyễn Văn Bình, Huỳnh Cơng Pháp, Huỳnh Thị Tâm Thương, “Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt”, Kỷ yếu hội thảo quốc gia CITA2017 (ISBN: 978-604-80-2853-4), 11/2017.
6. Huỳnh Cơng Pháp, Nguyễn Văn Bình, “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt”, Tạp chí Khoa học và Cơng nghệ Đại học Đà Nẵng, ISSN: 1859-1531,
số 05(114), trang 46-51, 2017.
7. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “An English-Vietnamese Translation System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent Information and
Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp. 211-220, 03/2018 (Indexed in Scopus).
8. Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình, Đinh Thị Mỹ Hạnh, “Xây dựng mơ hình và thuật tốn hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2018, “Công nghệ thông tin và ứng dụng trong các lĩnh vực”, ISBN: 978-604-84-3470-0, Trang 215-222, 09/2018.
9. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Đánh giá vai trò của kho ngữ liệu đối với chất lượng dịch tự động tiếng Việt”, Tạp chí Khoa học và Công nghệ Đại học Đà
10. Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Giải pháp phát triển kho ngữ liệu dịch tự động theo hướng làm giàu ngữ nghĩa”, Kỷ yếu Hội thảo
khoa học Quốc gia CITA2021, 06/2021.
11. Nguyễn Văn Bình, Huỳnh Cơng Pháp, Đặng Đại Thọ, “Improving the neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”,
Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus).
Ngoài ra, nghiên cứu sinh đã thực hiện 01 đề tài NCKH cấp Bộ: