Kết luận Chương 3 - .Đóng góp chính của luận án- 123docz.net

6 .Đóng góp chính của luận án

3.5. Kết luận Chương 3

Nội dung Chương 3 đã trình bày các bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt trên cơ sở tổng hợp các giải pháp cải tiến về mặt kho ngữ liệu và phương pháp dịch đã được đề xuất trong các chương trước. Hệ thống VIKI Translator đã xây dựng cho kết quả vượt trội so với một hệ thống dịch tiếng Việt hiện nay qua các số liệu đánh giá cụ thể về điểm BLEU, NIST và WER. Hệ thống cũng cho kết quả khả quan khi so sánh với một số kết quả xây dựng hệ thống dịch đã được thực hiện trong các nghiên cứu khác.

Hệ thống dịch Anh – Việt đã triển khai thực tế gần 4 năm và có hơn 1,5 triệu lượt sử dụng, nhận được đánh giá tích cực từ phía người dùng. Qua đó cho thấy các giải pháp cải tiến mà nghiên cứu đề xuất đã góp phần xây dựng được hệ thống dịch có chất lượng tốt, phù hợp để triển khai và tiếp tục nghiên cứu phát triển cho bài toán dịch tự động tiếng Việt.

131

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 1. Kết luận

Luận án đã triển khai nghiên cứu các yếu tố quan trọng ảnh hưởng đến chất lượng kết quả hệ thống dịch tự động tiếng Việt là kho ngữ liệu và phương pháp dịch, từ đó đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt. Các nội dung nghiên cứu cụ thể như sau:

- Nghiên cứu về các phương pháp đánh giá chất lượng bản dịch máy, triển

khai đánh giá tổng quát và chi tiết chất lượng của các hệ thống dịch tiếng Việt đang hoạt động hiện nay, cung cấp các số liệu làm cơ sở để phân tích, so sánh giữa các hệ thống dịch và chất lượng dịch ở các lĩnh vực khác nhau trong cùng một hệ thống cũng như có thể so sánh với chất lượng các hệ thống dịch ở các ngơn ngữ khác. Trên cơ sở đó đưa ra cái nhìn tổng thể về chất lượng của các hệ thống dịch tiếng Việt hiện có. Nghiên cứu cũng đề xuất phương pháp và số đo mới để tính tốn chất lượng các kết quả dịch trong quá trình người dùng hiệu đính bản dịch máy. Phương pháp này đảm bảo tính chính xác, đồng thời tiết kiệm được nguồn lực tổ chức đánh giá.

- Nghiên cứu về các kho ngữ liệu phục vụ cho dịch tự động tiếng Việt và đề

xuất giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu. Các giải pháp cải tiến này ở cả khía cạnh cải tiến chất lượng và số lượng, bao gồm giải pháp mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật toán Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mơ hình phân phối từ và cụm từ trong văn bản. Trên cơ sở đó nghiên cứu tiến hành xây dựng các mô đun phần mềm để mô phỏng các giải pháp đề xuất và thử nghiệm cho kết quả tốt. Từ các giải pháp hợp nhất và mở rộng kho ngữ liệu nêu trên, nghiên cứu cũng triển khai thu thập được kho ngữ liệu có số lượng lớn, chất lượng tốt gồm 1.479.000 cặp câu song ngữ Anh – Việt để phục vụ cho các hệ thống dịch tự động tiếng Việt.

- Nghiên cứu về các phương pháp dịch tự động và đề xuất giải pháp ứng dụng mơ hình học máy mạng nơ ron vào bài toán dịch tự động tiếng Việt nhằm nâng cao chất lượng của hệ thống dịch. Nghiên cứu cũng tổ chức cài đặt và huấn luyện các mơ hình

132

bài tốn dịch tự động tiếng Việt. Nghiên cứu và đề xuất mơ hình của hệ thống dịch tự động hướng ngữ nghĩa, thơng qua đó các hệ thống dịch có thể cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh của văn bản cần dịch và giúp cho người đọc hiểu toàn vẹn nội dung văn bản.

- Xây dựng và triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI Translator, cung cấp cho người dùng thông qua môi trường Internet. Hệ thống dịch này là sản phẩm ứng dụng các giải pháp đã được đề xuất trong nghiên cứu, được xây dựng có cơ sở đánh giá lại tính hiệu quả của các giải pháp cải tiến chất lượng dịch tiếng Việt. Hệ thống đã có hơn một triệu lượt sử dụng và đã được đánh giá tích cực từ phía người dùng.

2. Hướng phát triển

Để hoàn thiện các giải pháp đối với hệ thống dịch tự động tiếng Việt và giúp các hệ thống đạt chất lượng tốt hơn, trong thời gian tới nghiên cứu sinh sẽ tiếp tục tập trung nghiên cứu các nội dung chính sau đây:

- Tiếp tục nghiên cứu, cải tiến phương pháp dịch sử dụng mạng nơ ron nhằm

đạt hiệu quả cao hơn.

- Xây dựng kho ngữ liệu phong phú hơn bằng nhiều phương pháp khác nhau,

đồng thời mô tả ngữ nghĩa của dữ liệu và kết hợp phân tích ngữ nghĩa trong phương pháp dịch.

- Mở rộng xây dựng kho ngữ liệu ở các lĩnh vực khác nhau và triển khai đánh

giá, phân tích và so sánh.

- Đánh giá yếu tố ngữ cảnh của toàn văn bản để làm tham số đầu vào cho hệ

DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ

1. Huỳnh Cơng Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Cải tiến chất lượng dịch tự động bằng giải pháp mở rộng kho ngữ liệu”, Kỷ yếu Hội nghị Quốc gia lần

thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) (ISBN: 978-604-913-397-8), pp. 80-87, 07/2015.

2. Phạm Tuấn Anh, Nguyễn Văn Bình, “Nghiên cứu các phương pháp và đề

xuất hệ thống đánh giá chất lượng dịch tự động song ngữ Anh - Việt”, Kỷ yếu Hội

thảo khoa học Quốc gia Công nghệ thông tin và ứng dụng trong các lĩnh vực CITA2015, Trang 118-121, 06/2015.

3. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Cải tiến chất lượng dịch Việt-Anh bằng mơ hình học máy mạng nơron kết hợp kho ngữ liệu lớn”, Kỷ yếu Hội thảo Quốc

gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông” (Hội thảo @), 11/2017.

4. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “A System of Exploiting and Building Homogeneous and Large Resources for the Improvement of Vietnamese- Related Machine Translation Quality”, International Journal of Applied

Engineering Research, pp. 10242-10248, 12/2017 (Indexed in Scopus).

5. Nguyễn Văn Bình, Huỳnh Cơng Pháp, Huỳnh Thị Tâm Thương, “Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt”, Kỷ

yếu hội thảo quốc gia CITA2017 (ISBN: 978-604-80-2853-4), 11/2017.

6. Huỳnh Cơng Pháp, Nguyễn Văn Bình, “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt”, Tạp chí Khoa học và Cơng nghệ Đại học Đà Nẵng, ISSN: 1859-1531, số 05(114), trang 46-51, 2017.

7. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “An English-Vietnamese Translation System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent

Information and Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp. 211-220, 03/2018 (Indexed in Scopus).

8. Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, Đinh Thị Mỹ Hạnh, “Xây dựng mơ hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2018, “Công nghệ thông tin và

ứng dụng trong các lĩnh vực”, ISBN: 978-604-84-3470-0, Trang 215-222, 09/2018.

9. Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Đánh giá vai trị của kho ngữ liệu

đối với chất lượng dịch tự động tiếng Việt”, Tạp chí Khoa học và Cơng nghệ Đại

10. Huỳnh Cơng Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Giải pháp phát triển kho ngữ liệu dịch tự động theo hướng làm giàu ngữ nghĩa”, Kỷ yếu Hội thảo

khoa học Quốc gia CITA2021, 06/2021.

11. Nguyễn Văn Bình, Huỳnh Cơng Pháp, Đặng Đại Thọ, “Improving the neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”,

Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus).

Ngoài ra, nghiên cứu sinh đã thực hiện 01 đề tài NCKH cấp Bộ:

12. Nguyễn Văn Bình, Đề tài NCKH cấp Bộ: “Nghiên cứu giải pháp đánh giá chất lượng dịch tự động tiếng Việt”, Mã số: B2016-DNA-48-TT, 2017-2018, Báo cáo nghiệm thu 03/2019.

135

TÀI LIỆU THAM KHẢO

[1] W. Hutchins and H. Somers, An Introduction fo Machine

Translation. Academic Press, Harcourt Brace Jovanovich, Publishers, 1992.

[2] Đ. T. Hồng, “Xây dựng hệ thống dịch tự động tiếng Việt.” Tạp chí Ngơn ngữ và Đời sống, p. vol. 11(157), 2008.

[3] R. K. Philipp Koehn, “Six Challenges for Neural Machine Translation.” Proceedings of the First Workshop on Neural Machine Translation, Vancouver, Canada, pp. 28–39, 2017.

[4] W. J. Hutchins, “Machine Translation: A Brief History,” Concise

History of

the Language Sciences. pp. 431–445, 1995, doi: 10.1016/b978-0-08-042580-

1.50066-0.

[5] M. Nagao, “A Framework of a Mechanical Translation between Japanese and English by Analogy Principle,” in Readings in Machine

Translation, 1984, pp. 173–180, doi: 10.7551/mitpress/5779.003.0038.

[6] S. Sato and M. Nagao, “Toward memory-based translation,” in

Proceedings of the 13th conference on Computational linguistics -, 1990, vol.

3, pp. 247–252, doi: 10.3115/991146.991190.

[7] H. Somers, “Review Article: Example-based Machine Translation.” Kluwer Academic Publishers. Printed in the Netherlands, pp. 113–157, 1999.

[8] N. Q. Phuoc, Y. Quan, and C.-Y. Ock, “Building a Bidirectional English-Vietnamese Statistical Machine Translation System by Using MOSES,” International Journal of Computer and Electrical Engineering, vol. 8, no. 2. pp. 161–168, 2016, doi: 10.17706/ijcee.2016.8.2.161-168.

[9] P. Koehn, Statistical Machine Translation. Cambridge University Press, 2010.

[10] H. N. Franz Josef Och, “A Systematic Comparison of Various,”

Association for Computational Linguistics. 2003.

[11] D. M. Philipp Koehn, Franz Josef Och, “Statistical Phrase-Based Translation,” DARPA IAO Machine Translation Workshop. Santa Monica, CA, 2002.

[12] H. H. A. B. Philipp Koehn, “Moses: Open Source Toolkit for Statistical Machine Translation,” Proceedings ofthe ACL 2007. Association for Computational Linguistics, Prague, pp. 177–180, 2007, doi: 10.5539/ijel.v5n3p143.

[13] Phan Thị Hà, “Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ thống thông tin, Học viện cơng nghệ Bưu chính Viễn thơng, 2013.

136

XII, no. 1. p. 25, 2007, doi: 10.3917/rfla.121.0025.

[15] L. N. M. Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy

Ngôn ngữ, 2015, pp. 559–567.

[16] P. Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” in Proc. of the 10th Machine Translation Summit, 2005, pp. 79– 86, doi: 10.5209/DIDA.19853.

[17] J. B. Carroll, “An Experiment in Evaluating the Quality of Translations,” Mechanical Translation and Computational Linguistics, vol. 9, no. 3–4. pp. 67–75, 1966.

[18] J. S. Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, “(Meta-) Evaluation of Machine Translation,” in Proceedings

ofthe Second Workshop on Statistical Machine Translation, 2007, pp. 136–

158.

[19] M. Przybocki, K. Peterson, S. Bronsart, and G. Sanders, “The NIST 2008 Metrics for machine translation challenge—overview, methodology, metrics, and results,” Mach. Transl., vol. 23, no. 2–3, pp. 71–103, Sep. 2009, doi: 10.1007/s10590-009-9065-6.

[20] and I. D. M. Joseph P. Turian, Luke Shen, “Evaluation of Machine Translation and its Evaluation,” Proceedings of the International Conference

& Workshop on Emerging Trends in Technology - ICWET ’11. ACM Press,

New York, New York, USA, 2011, doi: 10.1145/1980022.1980409.

[21] M. Snover, B. Dorr, R. Schwartz, L. Micciulla, and J. Makhoul, “A study of translation edit rate with targeted human annotation,” AMTA2006 -

Proceedings of the 7th Conference of the Association for Machine Translation of the Americas: Visions for the Future of MT. pp. 223–231, 2006.

[22] D. Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech translation system,” in Lecture Notes in Computer Science (including subseries

Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics),

1997, vol. 1236, pp. 195–206, doi: 10.1007/3-540-63175-5_47.

[23] R. Nübel, “End-to-End evaluation in VERBMOBIL I,” in

Proceedings of MT Summit VI, 1997, pp. 232–239.

[24] J. S. White and T. A. O’Connell, “Evaluation in the ARPA machine translation program,” Human Language Technology: Proceedings of a Workshop

held at Plainsboro, New Jersey. 1994, doi: 10.3115/1075812.1075840.

[25] M. Denkowski and A. Lavie, “Choosing the right evaluation for machine translation: An examination of annotator and automatic metric performance on human judgment tasks,” AMTA 2010 - 9th Conference of the

137

Meeting of the Association for Computational Linguistics. pp. 160–167, 2003.

[27] K.-Y. Su, M.-W. Wu, and J.-S. Chang, “A new quantitative quality measure for machine translation systems.” p. 433, 1992, doi: 10.3115/992133.992137.

[28] V. I. Levenshtein, “Binary codes capable of correcting deletions, insertions, and reversals,” Soviet physics doklady, vol. 10, no. 8. pp. 707–710, 1966.

[29] S. Nießen, F. J. Och, G. Leusch, and H. Ney, “An evaluation tool for machine translation: Fast evaluation for MT research,” 2nd International

Conference on Language Resources and Evaluation, LREC 2000. 2000.

[30] H. S. C. Tillmann, S. Vogel, H. Ney, A. Zubiaga, “Accelerated Dp Based Search For Statistical Translation,” Fifth European Conference on

Speech Communication and Technology. 1997.

[31] W.-J. Z. Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for Automatic Evaluation of Machine Translation,” in Proceedings of the

40th Annual Meeting of the Association for Computational Linguistics (ACL),

2002,

pp. 311–318, doi: 10.1002/andp.19223712302.

[32] E. Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine Translation,” Proceedings of the EAGLES Workshop on Standards

and Evaluation. pp. 127–133, 1999.

[33] A. Popescu-Belis, “An experiment in comparative evaluation: human vs. computers,” MT Summit IX. pp. 307–314, 2003.

[34] G. N. Ramaswamy, J. Navrátil, U. V. Chaudhari, and R. D. Zilca, “The IBM system for the NIST-2002 cellular speaker verification evaluation,”

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, vol. 2. pp. 61–64, 2003, doi:

10.1109/icassp.2003.1202294.

[35] V. T. Hùng, “Phương pháp và công cụ đánh giá tự động các hệ thống dịch tự

động trên mạng,” Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, vol. 1(18),

pp. 37–42, 2007.

[36] H. V. Tran, T. H. Vu, T. T. Le, P. L. Nghia, and V. V. Nguyen, “The English-Vietnamese Machine Translation System for IWSLT 2015,”

Proceeding of the 12th International Workshop on Spoken Language Translation. 2015.

[37] M. Luong and C. D. Manning, “Stanford Neural Machine Translation Systems for Spoken Language Domains,” Proceedings of the

Conference of the European Association for MT, EAMT2016. pp. 190–202,

2016.

[39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS A J. Southeast Asian Linguist. Lang., vol. 35, pp. 21–36, 2005.

138

[40] T.-N.-D. Do, V.-B. Le, B. Bigi, L. Besacier, and E. Castelli, “Mining a comparable text corpus for a Vietnamese - French statistical machine translation system.” p. 165, 2009, doi: 10.3115/1626431.1626466.

[41] L. T. H. Dương Minh Hùng, Lê Mạnh Thạnh, “Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet,” in Kỷ

yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Oct. 2019, pp. 315–321, doi:

10.15625/vap.2019.00040.

[42] N. T. Hà, N. T. M. Huyền, and N. M. Hải, “Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mức câu cho dịch máy,” Res. Dev. Inf.

Commun. Technol., Jul. 2018, doi: 10.32913/rd-ict.vol1.no39.550.

[43] P. N. Luân, N. V. Vinh, and N. H. Hồng, “Thích ứng miền trong dịch máy nơ ron cho cặp ngôn ngữ Anh-Việt,” Kỷ yếu Hội nghị Quốc gia lần

thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR).

Publishing House for Science and Technology, Huế, Oct. 28, 2019, doi: 10.15625/vap.2019.00056.

[44] T. B. Ho, N. K. Pham, T. L. Ha, and P. T. Nguyen, “Issues and First Phase Development of the English-Vietnamese Translation System EVSMT1.0,” Special Issue in Journal of Science, Natural Sciences and

Technology. pp. 59– 66, 2008.

[45] L. K. Hung, “One method of interlingual translation,” National

Conference on IT Research, Development and Applications CNTT&TT. 2003.

[46] M. Alez, J. Us Giménez, and L. Arquez, “A Graphical Interface for MT Evaluation and Error Analysis,” Jeju, Republic of Korea. Association for Computational Linguistics, pp. 139–144, 2012.

[47] B. Chen and C. Cherry, “A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU,” in Association for Computational

Linguistics (ACL), 2015, pp. 362–367, doi: 10.3115/v1/w14-3346.

[48] C.-P. Huynh, “Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia.” Institut National Polytechnique de Grenoble - INPG, p. 226, 2010.

[49] D. M. Dragos Stefan Munteanu, “Extracting parallel sub-sentential fragments from non-parallel corpora,” in Proceedings of the 21st