Giao diện hệ thống dịch tự động VIKITranslator- 123docz.net

Ngồi hình thức sử dụng thơng qua website, VIKI Translator cịn cung cấp các cách thức sử dụng như sau:

o Mơ đun phần mềm chạy trên nền tảng Windows o Mô đun phần mềm chạy trên nền tảng Android

o Mơ đun tích hợp trên trình duyệt Chrome (Chrome Extensions)

Về cơ bản, các phân hệ này hiện thị trực tiếp nội dung từ website chính của VIKI Translator hoặc gọi hàm API từ website này để lấy kết quả dịch.

Tổng hợp một số kết quả đạt được qua quá trình triển khai thực nghiệm hệ thống:

o Tổng số lượt truy cập và sử dụng ứng dụng trên tất cả nền tảng: trên 1.500.000 người dùng 30 bài o o o o o o o

Tổng số lượt truy cập website hàng tháng: gần 70.000 người Lượt tải ứng dụng trên Windows: hơn 30.000 lượt

Số người dùng Chrome Extensions: hơn 5.000 người

Đánh giá của người dùng Chrome Extensions: 4,6/5 điểm từ 27 đánh giá Đánh giá của người dùng trên Google Play: 4,5/5 điểm từ 47 đánh giá Tổng số bài viết giới thiệu, hướng dẫn sử dụng từ các website khác: hơn

Tổng số liên kết từ các website khác trỏ đến VIKI Translator (backlink): 582.561 backlink (kết quả từ ahrefs.com, trang web tổng hợp số liệu backlink hàng đầu hiện nay)

Hình 3.11. Thống kê tổng số người dùng (Nguồn: Google Analytics)

Hình 3.12. Thống kê số lượng liên kết (Nguồn: ahrefs.com)

3.5. Kết luận Chương 3

Nội dung Chương 3 đã trình bày các bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt trên cơ sở tổng hợp các giải pháp cải tiến về mặt kho ngữ liệu và phương pháp dịch đã được đề xuất trong các chương trước. Hệ thống VIKI Translator đã xây dựng cho kết quả vượt trội so với một hệ thống dịch tiếng Việt hiện nay qua các số liệu đánh giá cụ thể về điểm BLEU, NIST và WER. Hệ thống cũng cho kết quả khả quan khi so sánh với một số kết quả xây dựng hệ thống dịch đã được thực hiện trong các nghiên cứu khác.

Hệ thống dịch Anh – Việt đã triển khai thực tế gần 4 năm và có hơn 1,5 triệu lượt sử dụng, nhận được đánh giá tích cực từ phía người dùng. Qua đó cho thấy các giải pháp cải tiến mà nghiên cứu đề xuất đã góp phần xây dựng được hệ thống dịch có chất lượng tốt, phù hợp để triển khai và tiếp tục nghiên cứu phát triển cho bài toán dịch tự động tiếng Việt.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận

Luận án đã triển khai nghiên cứu các yếu tố quan trọng ảnh hưởng đến chất lượng kết quả hệ thống dịch tự động tiếng Việt là kho ngữ liệu và phương pháp dịch, từ đó đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt. Các nội dung nghiên cứu cụ thể như sau:

- Nghiên cứu về các phương pháp đánh giá chất lượng bản dịch máy, triển

khai đánh giá tổng quát và chi tiết chất lượng của các hệ thống dịch tiếng Việt đang hoạt động hiện nay, cung cấp các số liệu làm cơ sở để phân tích, so sánh giữa các hệ thống dịch và chất lượng dịch ở các lĩnh vực khác nhau trong cùng một hệ thống cũng như có thể so sánh với chất lượng các hệ thống dịch ở các ngôn ngữ khác. Trên cơ sở đó đưa ra cái nhìn tổng thể về chất lượng của các hệ thống dịch tiếng Việt hiện có. Nghiên cứu cũng đề xuất phương pháp và số đo mới để tính tốn chất lượng các kết quả dịch trong q trình người dùng hiệu đính bản dịch máy. Phương pháp này đảm bảo tính chính xác, đồng thời tiết kiệm được nguồn lực tổ chức đánh giá.

- Nghiên cứu về các kho ngữ liệu phục vụ cho dịch tự động tiếng Việt và đề

xuất giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu. Các giải pháp cải tiến này ở cả khía cạnh cải tiến chất lượng và số lượng, bao gồm giải pháp mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật tốn Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mơ hình phân phối từ và cụm từ trong văn bản. Trên cơ sở đó nghiên cứu tiến hành xây dựng các mô đun phần mềm để mô phỏng các giải pháp đề xuất và thử nghiệm cho kết quả tốt. Từ các giải pháp hợp nhất và mở rộng kho ngữ liệu nêu trên, nghiên cứu cũng triển khai thu thập được kho ngữ liệu có số lượng lớn, chất lượng tốt gồm 1.479.000 cặp câu song ngữ Anh – Việt để phục vụ cho các hệ thống dịch tự động tiếng Việt.

- Nghiên cứu về các phương pháp dịch tự động và đề xuất giải pháp ứng dụng

mơ hình học máy mạng nơ ron vào bài tốn dịch tự động tiếng Việt nhằm nâng cao chất lượng của hệ thống dịch. Nghiên cứu cũng tổ chức cài đặt và huấn luyện các mơ hình dịch thống kê và dịch sử dụng mạng nơ ron và so sánh kết quả của các mơ hình dịch này, qua đó cho thấy sự phù hợp của mơ hình dịch sử dụng mạng nơ ron trong

bài toán dịch tự động tiếng Việt. Nghiên cứu và đề xuất mơ hình của hệ thống dịch tự động hướng ngữ nghĩa, thơng qua đó các hệ thống dịch có thể cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh của văn bản cần dịch và giúp cho người đọc hiểu toàn vẹn nội dung văn bản.

- Xây dựng và triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI

Translator, cung cấp cho người dùng thông qua môi trường Internet. Hệ thống dịch này là sản phẩm ứng dụng các giải pháp đã được đề xuất trong nghiên cứu, được xây dựng có cơ sở đánh giá lại tính hiệu quả của các giải pháp cải tiến chất lượng dịch tiếng Việt. Hệ thống đã có hơn một triệu lượt sử dụng và đã được đánh giá tích cực từ phía người dùng.

2. Hướng phát triển

Để hoàn thiện các giải pháp đối với hệ thống dịch tự động tiếng Việt và giúp các hệ thống đạt chất lượng tốt hơn, trong thời gian tới nghiên cứu sinh sẽ tiếp tục tập trung nghiên cứu các nội dung chính sau đây:

- Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm

đạt hiệu quả cao hơn.

- Xây dựng kho ngữ liệu phong phú hơn bằng nhiều phương pháp khác nhau,

đồng thời mô tả ngữ nghĩa của dữ liệu và kết hợp phân tích ngữ nghĩa trong phương pháp dịch.

- Mở rộng xây dựng kho ngữ liệu ở các lĩnh vực khác nhau và triển khai đánh

giá, phân tích và so sánh.

- Đánh giá yếu tố ngữ cảnh của toàn văn bản để làm tham số đầu vào cho hệ

DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ

1. Huỳnh Cơng Pháp, Đặng Đại Thọ, , “Cải tiến chất lượng

dịch tự động bằng giải pháp mở rộng kho ngữ liệu”, Kỷ yếu Hội nghị Quốc gia lần

thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) (ISBN: 978- 604-913-397-8), pp. 80-87, 07/2015.

2. Phạm Tuấn Anh, , “Nghiên cứu các phương pháp và đề

xuất hệ thống đánh giá chất lượng dịch tự động song ngữ Anh - Việt”, Kỷ yếu Hội

thảo khoa học Quốc gia Công nghệ thông tin và ứng dụng trong các lĩnh vực CITA2015, Trang 118-121, 06/2015.

3. , Huỳnh Công Pháp, “Cải tiến chất lượng dịch Việt-Anh

bằng mơ hình học máy mạng nơron kết hợp kho ngữ liệu lớn”, Kỷ yếu Hội thảo Quốc

gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông” (Hội thảo @), 11/2017.

4. , Huỳnh Công Pháp, “A System of Exploiting and Building

Homogeneous and Large Resources for the Improvement of Vietnamese-Related Machine Translation Quality”, International Journal of Applied Engineering

Research, pp. 10242-10248, 12/2017 (Indexed in Scopus).

5. , Huỳnh Công Pháp, Huỳnh Thị Tâm Thương, “Giải pháp

tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt”, Kỷ

yếu hội thảo quốc gia CITA2017 (ISBN: 978-604-80-2853-4), 11/2017.

6. Huỳnh Công Pháp, , “Cải tiến chất lượng dịch máy kết hợp

giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt”, Tạp chí Khoa học và Cơng nghệ Đại học Đà Nẵng, ISSN: 1859-1531, số 05(114), trang 46-51, 2017.

7. , Huỳnh Công Pháp, “An English-Vietnamese Translation

System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent

Information and Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp. 211-220, 03/2018 (Indexed in Scopus).

8. Huỳnh Công Pháp, Cao Xuân Tuấn, , Đinh Thị Mỹ Hạnh,

“Xây dựng mơ hình và thuật tốn hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2018, “Công nghệ thông tin và ứng

dụng trong các lĩnh vực”, ISBN: 978-604-84-3470-0, Trang 215-222, 09/2018.

9. , Huỳnh Cơng Pháp, “Đánh giá vai trị của kho ngữ liệu

đối với chất lượng dịch tự động tiếng Việt”, Tạp chí Khoa học và Cơng nghệ Đại học

10. Huỳnh Công Pháp, Đặng Đại Thọ, , “Giải pháp phát triển

kho ngữ liệu dịch tự động theo hướng làm giàu ngữ nghĩa”, Kỷ yếu Hội thảo khoa

học Quốc gia CITA2021, 06/2021.

11. , Huỳnh Công Pháp, Đặng Đại Thọ, “Improving the

neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”,

Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus).

Ngoài ra, nghiên cứu sinh đã thực hiện 01 đề tài NCKH cấp Bộ: 12. , Đề tài NCKH cấp Bộ: “Nghiên cứu giải pháp đánh giá

chất lượng dịch tự động tiếng Việt”, Mã số: B2016-DNA-48-TT, 2017-2018, Báo cáo nghiệm thu 03/2019.

TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9]

W. Hutchins and H. Somers, An Introduction fo Machine Translation. Academic Press, Harcourt Brace Jovanovich, Publishers, 1992.

Đ. T. Hồng, “Xây dựng hệ thống dịch tự động tiếng Việt.” Tạp chí Ngơn ngữ và Đời sống, p. vol. 11(157), 2008.

R. K. Philipp Koehn, “Six Challenges for Neural Machine Translation.” Proceedings of the First Workshop on Neural Machine Translation, Vancouver, Canada, pp. 28–39, 2017.

W. J. Hutchins, “Machine Translation: A Brief History,” Concise History of

the Language Sciences. pp. 431–445, 1995, doi: 10.1016/b978-0-08-042580-

1.50066-0.

M. Nagao, “A Framework of a Mechanical Translation between Japanese and English by Analogy Principle,” in Readings in Machine Translation, 1984, pp. 173–180, doi: 10.7551/mitpress/5779.003.0038.

S. Sato and M. Nagao, “Toward memory-based translation,” in Proceedings of

the 13th conference on Computational linguistics -, 1990, vol. 3, pp. 247–252,

doi: 10.3115/991146.991190.

H. Somers, “Review Article: Example-based Machine Translation.” Kluwer Academic Publishers. Printed in the Netherlands, pp. 113–157, 1999. N. Q. Phuoc, Y. Quan, and C.-Y. Ock, “Building a Bidirectional English- Vietnamese Statistical Machine Translation System by Using MOSES,”

International Journal of Computer and Electrical Engineering, vol. 8, no. 2.

pp. 161–168, 2016, doi: 10.17706/ijcee.2016.8.2.161-168.

P. Koehn, Statistical Machine Translation. Cambridge University Press, 2010. [10] H. N. Franz Josef Och, “A Systematic Comparison of Various,” Association

for Computational Linguistics. 2003.

[11] D. M. Philipp Koehn, Franz Josef Och, “Statistical Phrase-Based Translation,”

DARPA IAO Machine Translation Workshop. Santa Monica, CA, 2002.

[12] H. H. A. B. Philipp Koehn, “Moses: Open Source Toolkit for Statistical Machine Translation,” Proceedings ofthe ACL 2007. Association for

Computational Linguistics, Prague, pp. 177–180, 2007, doi: 10.5539/ijel.v5n3p143.

[13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ thống thơng tin, Học viện cơng nghệ Bưu chính Viễn thơng, 2013.

[14] C. Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de systốme, Revue franỗaise de linguistique appliquée, vol.

XII, no. 1. p. 25, 2007, doi: 10.3917/rfla.121.0025.

[15] L. N. M. Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 2015, pp. 559–567.

[16] P. Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” in Proc. of the 10th Machine Translation Summit, 2005, pp. 79–86, doi: 10.5209/DIDA.19853.

[17] J. B. Carroll, “An Experiment in Evaluating the Quality of Translations,”

Mechanical Translation and Computational Linguistics, vol. 9, no. 3–4. pp.

67–75, 1966.

[18] J. S. Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, “(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second

Workshop on Statistical Machine Translation, 2007, pp. 136–158.

[19] M. Przybocki, K. Peterson, S. Bronsart, and G. Sanders, “The NIST 2008 Metrics for machine translation challenge—overview, methodology, metrics, and results,” Mach. Transl., vol. 23, no. 2–3, pp. 71–103, Sep. 2009, doi: 10.1007/s10590-009-9065-6.

[20] and I. D. M. Joseph P. Turian, Luke Shen, “Evaluation of Machine Translation and its Evaluation,” Proceedings of the International Conference & Workshop

on Emerging Trends in Technology - ICWET ’11. ACM Press, New York, New

York, USA, 2011, doi: 10.1145/1980022.1980409.

[21] M. Snover, B. Dorr, R. Schwartz, L. Micciulla, and J. Makhoul, “A study of translation edit rate with targeted human annotation,” AMTA2006 -

Proceedings of the 7th Conference of the Association for Machine Translation of the Americas: Visions for the Future of MT. pp. 223–231, 2006.

[22] D. Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech

translation system,” in Lecture Notes in Computer Science (including subseries

Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics),

1997, vol. 1236, pp. 195–206, doi: 10.1007/3-540-63175-5_47.

[23] R. Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT

Summit VI, 1997, pp. 232–239.

[24] J. S. White and T. A. O’Connell, “Evaluation in the ARPA machine translation program,” Human Language Technology: Proceedings of a Workshop held at

Plainsboro, New Jersey. 1994, doi: 10.3115/1075812.1075840.

[25] M. Denkowski and A. Lavie, “Choosing the right evaluation for machine

translation: An examination of annotator and automatic metric performance on human judgment tasks,” AMTA 2010 - 9th Conference of the Association for

Machine Translation in the Americas. 2010.

Meeting of the Association for Computational Linguistics. pp. 160–167, 2003.

[27] K.-Y. Su, M.-W. Wu, and J.-S. Chang, “A new quantitative quality measure for machine translation systems.” p. 433, 1992, doi: 10.3115/992133.992137. [28] V. I. Levenshtein, “Binary codes capable of correcting deletions, insertions,

and reversals,” Soviet physics doklady, vol. 10, no. 8. pp. 707–710, 1966. [29] S. Nießen, F. J. Och, G. Leusch, and H. Ney, “An evaluation tool for machine

translation: Fast evaluation for MT research,” 2nd International Conference on

Language Resources and Evaluation, LREC 2000. 2000.

[30] H. S. C. Tillmann, S. Vogel, H. Ney, A. Zubiaga, “Accelerated Dp Based Search For Statistical Translation,” Fifth European Conference on Speech

Communication and Technology. 1997.

[31] W.-J. Z. Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for Automatic Evaluation of Machine Translation,” in Proceedings of the 40th

Annual Meeting of the Association for Computational Linguistics (ACL), 2002,

pp. 311–318, doi: 10.1002/andp.19223712302.

[32] E. Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine Translation,” Proceedings of the EAGLES Workshop on Standards and

Evaluation. pp. 127–133, 1999.

[33] A. Popescu-Belis, “An experiment in comparative evaluation: human vs. computers,” MT Summit IX. pp. 307–314, 2003.

[34] G. N. Ramaswamy, J. Navrátil, U. V. Chaudhari, and R. D. Zilca, “The IBM system for the NIST-2002 cellular speaker verification evaluation,” ICASSP,

IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, vol. 2. pp. 61–64, 2003, doi: 10.1109/icassp.2003.1202294.

[35] V. T. Hùng, “Phương pháp và công cụ đánh giá tự động các hệ thống dịch tự động trên mạng,” Tạp chí Khoa học và Cơng nghệ Đại học Đà Nẵng, vol. 1(18), pp. 37–42, 2007.

[36] H. V. Tran, T. H. Vu, T. T. Le, P. L. Nghia, and V. V. Nguyen, “The English- Vietnamese Machine Translation System for IWSLT 2015,” Proceeding of the

12th International Workshop on Spoken Language Translation. 2015.

[37] M. Luong and C. D. Manning, “Stanford Neural Machine Translation Systems for Spoken Language Domains,” Proceedings of the international workshop on

spoken language translation. pp. 76–79, 2015.

[38] D. T. Hoang and O. Bojar, “Pivoting methods and data for Czech-Vietnamese translation via English,” Proceedings of the 19th Annual Conference of the

European Association for MT, EAMT2016. pp. 190–202, 2016.

[39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS

[40] T.-N.-D. Do, V.-B. Le, B. Bigi, L. Besacier, and E. Castelli, “Mining a comparable text corpus for a Vietnamese - French statistical machine

Giao diện hệ thống dịch tự động VIKITranslator

Mơ hình hóa phương pháp dịch thống kê

Tổng hợp một số kho ngữ liệu