NGHIÊN cứu GIẢI PHÁP cải TIẾN CHẤT LƯỢNG DỊCH tự ĐỘNG TIẾNG VIỆT Nhu cầu trao đổi thông tin giữa c0ác quốc gia, các nền văn hóa, giữa mỗi người trong xã hội hiện đại ngày càng tăng làm cho việc dịch thuật trở nên quan trọng và cần thiết. Dịch thuật sfí dụng con người là công việc thủ công, tuy chất lượng cao nhưng tốc độ chậm, năng suất thấp và giá thành cao mà không thể tái sfí dụng. Trong khi đó, một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một lượng thông tin khổng lồ trong nền kinh tế toàn cầu đang phát triển như vũ bão. Vì vậy, sfí dụng hệ thống dịch tự động bằng máy tính để trợ giúp cho quá trình dịch thuật là cần thiết. Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quả với chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vực chuyên môn khác nhau. Khi đó các hệ dịch máy sẽ trở thành công cụ giúp con người tiếp cận kho tri thfíc khổng lồ viết bằng các ngôn ngữ khác nhau. Những chương trình máy tính đầu tiên thực hiện công việc dịch tự động đã được các nhà khoa học trên thế giới nghiên cfíu và phát triển từ giữa thế kỷ 20 [1]. Đối với dịch tự động từ tiếng Việt sang các ngôn ngữ khác, đã có nhiều nghiên cfíu và các sản phẩm fíng dụng được nhiều người dùng quan tâm và sfí dụng, điển hình là hệ thống dịch của Google, Microsoft, EVTran [2]… Các hệ thống này cho phép dịch tự động văn bản với một cặp ngôn ngữ đã chọn trước, ví dụ dịch từ tiếng Anh sang tiếng Việt hoặc ngược lại. Khi sfí dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượng của bản dịch. Tuy nhiên hiện nay chất lượng dịch tự động của giữa các cặp ngôn ngữ ít phổ biến (low-resource) khá thấp [3], kể cả dịch từ tiếng Việt sang tiếng Anh và các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản. Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung một phần hoặc toàn bộ nội dung chính của văn bản. Các hệ thống dịch tự động mặc dù đã được sfí dụng rộng rãi nhưng cũng cần có nhiều cải tiến mới có thể mang lại kết quả dịch có chất lượng hơn, giúp cho người đọc hiểu được văn bản cần dịch. P Chính vì vậy, cần thiết phải có nhữAng đánh giá về mặt khoa học để có những G số liệu cụ thể minh chfíng cho chất lượnEg của các hệ thống dịch tiếng Việt, từ đó phân tích và đề xuất các giải pháp nhằm n1âng cao chất lượng của dịch tự động tiếng 0 Việt, giúp các hệ thống dịch tự động cho các kết quả dịch chính xác hơn, trở thành 0 công cụ hiệu quả giúp cho người dùng hiểu được các văn bản tiếng nước ngoài mà không phải tốn thời gian tra từ điển. Các kết quả dịch cũng có thể trở thành bản dịch tham khảo hỗ trợ có hiệu quả trong công tác dịch thuật. Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cfíu sinh đã chọn đề tài “Nghiên cfíu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung nghiên cfíu luận án Tiến sỹ kỹ thuật của mình. 2. Mục tiêu nghiên cfíu Mục tiêu chung của nghiên cfíu là đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh. Các mục tiêu cụ thể gồm: - Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay; - Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa cặp ngôn ngữ Anh – Việt; - Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn bản quy phạm pháp luật. 3. Đối tượng và phạm vi nghiên cfíu Đối tượng nghiên cfíu của luận án gồm: - Các phương pháp đánh giá chất lượng hệ thống dịch tự động - Kho ngữ liệu sfí dụng để huấn luyện và xây dựng mô hình dịch tự động - Các phương pháp dịch tự động - Các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay P Với các mục tiêu và đối tượng ngAhiên cfíu mô tả trên, phạm vi nghiên cfíu G của luận án giới hạn ở một số nội dung sauE: 1 Tập trung nghiên cfíu, đánh giá các hệ thống dịch tự động phổ biến hiện nay, 0 đề xuất giải pháp cải tiến chất lượn0g dịch tự động đối với cặp ngôn ngữ tiếng Việt – tiếng Anh. - Xây dựng fíng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật. - Triển khai fíng dụng trên nền tảng website nhằm thuận tiện truy cập đối với người dùng. 4. Phương pháp nghiên cfíu - Phương pháp lý thuyết: Nghiên cfíu các tài liệu có liên quan đến các nội dung về đặc trưng của ngôn ngữ tiếng Việt, biểu diễn và lưu trữ văn bản bản, trích rút văn bản, phương pháp đánh giá, phương pháp xây dựng kho ngữ liệu, các phương pháp dịch máy, học máy sfí dụng mạng nơ ron, xfí lý dữ liệu. - Phương pháp thực nghiệm: Trên cơ sở kết quả nghiên cfíu liên quan, triển khai thực nghiệm đánh giá các hệ thống dịch tự động, triển khai xây dựng kho ngữ liệu lớn phục vụ hệ thống dịch, cải tiến chất lượng kho ngữ liệu, xây dựng và huấn luyện mô hình dịch cho cặp ngôn ngữ Anh – Việt. 5. Bố cục của luận án Trên cơ sở các mục tiêu của nghiên cfíu đã đề ra và giới hạn đối tượng, phạm vi nghiên cfíu, nhằm đảm bảo tính hợp lý và trình tự nghiên cfíu đã thực hiện trong thời gian triển khai nghiên cfíu, luận án được tổ chfíc thành ba chương và phần mở đầu, kết luận, cụ thể như sau: Chương 1. Tổng quan về dịch tự động và chất lượng dịch tự động tiếng Việt hiện nay. Chương này trình bày tổng quan các vấn đề được triển khai nghiên cfíu trong luận án, bao gồm các khái niệm cơ bản trong lĩnh vực dịch tự động, các phương pháp dịch, kho ngữ liệu dùng trong dịch tự động, các phương pháp đánh giá chất lượng hệ thống dịch và các nghiên cfíu tổng quan của vấn đề cải tiến chất lượng dịch tự động. Nội dung chương này cũng giới thiệu các hệ thống dịch tiếng Việt hiện nay P và đánh giá khái quát chất lượng của hệ tAhống, phân tích các khía cạnh cần nghiên G cfíu và tổ chfíc thực nghiệm nhằm cải tiếEn chất lượng của hệ thống dịch, tập trung đến vấn đề quan trọng nhất là cải tiến kh1o ngữ liệu và áp dụng phương pháp dịch phù hợp. 0 0 Chương 2. Giải pháp cải tiến chất lượng dịch tự động tiếng Việt. Trên cơ sở các phương pháp đánh giá chất lượng hệ thống dịch tiếng Việt đã được nghiên cfíu, bao gồm phương pháp đánh giá chủ quan và khách quan, Chương 2 trình bày quy trình đánh giá và xây dựng kịch bản đánh giá chất lượng của một số hệ thống dịch tự động Anh - Việt phổ biến nhất hiện nay. Từ thực trạng chất lượng dịch nhận được luận án đề xuất một số giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu tiếng Việt ở khía cạnh số lượng và chất lượng, sau đó triển khai thực nghiệm một số giải pháp cải tiến và tiến hành xây dựng kho ngữ liệu lớn phục vụ việc huấn luyện các mô hình dịch tiếng Việt chất lượng tốt. Về phương pháp dịch, luận án đề xuất áp dụng mô hình dịch mạng nơ ron cho cặp ngôn ngữ Anh – Việt để fíng dụng những ưu điểm nổi bật của phương pháp học máy sfí dụng mạng nơ ron. Đồng thời, đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa trên ngữ cảnh, giúp cho các hệ thống dịch có thể cung cấp thêm nhiều tầng ngữ nghĩa cho người dùng để hiểu được toàn vẹn nội dung văn bản. Chương 3. Thực nghiệm và đánh giá kết quả. Từ các giải pháp đề xuất ở Chương 2, nội dung Chương 3 triển khai các bước thực nghiệm xây dựng kho ngữ liệu lớn và xây dựng mô hình dịch máy mạng nơ ron cho cặp ngôn ngữ Anh – Việt, sau đó xây dựng hệ thống dịch lĩnh vực văn bản quy phạm pháp luật VIKI Translator và triển khai trên môi trường Internet để cung cấp dịch vụ cho người dùng thực tế, qua đó đánh giá hiệu quả của hệ thống dịch và các phương pháp đã đề xuất. 6. Đóng góp chính của luận án Luận án có 05 đóng góp chính sau đây liên quan đến giải pháp cải tiến chất lượng dịch tự động tiếng Việt: (1) Triển khai đánh giá chất lượng của các hệ thống dịch tự động tiếng Việt đang hoạt động một cách đầy đủ và chi tiết, từ đó công bố các số liệu khoa học minh P chfíng chất lượng dịch tự động tiếng Việt.ACác bước thực hiện gồm: xây dựng bộ dữ G liệu đánh giá đầy đủ, tin cậy; lập trình fínEg dụng hỗ trợ đánh giá; tổ chfíc đánh giá theo cả phương pháp chủ quan (đánh g1iá tự động thông qua các chỉ số BLEU, 0 NIST) và khách quan (do con người thực hiện); thu nhận số liệu và phân tích, đánh 0 giá. Từ quá trình triển khai đánh giá này, luận án cũng đề xuất giải pháp đánh giá chất lượng hệ thống dịch thông qua quá trình hậu xfí lý nhằm giúp tiết kiệm thời gian và nguồn lực tổ chfíc đánh giá. Kết quả đóng góp này được thể hiện ở công trình số (2,6) (2) Đề xuất được giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cải tiến kho ngữ liệu. Luận án đã nghiên cfíu và minh chfíng được một trong những tác nhân quan quan trọng ảnh hưởng đến chất lượng dịch tự động của các hệ thống dịch đó là kho ngữ liệu. Do đó, luận án đã tập trung đề xuất và triển khai các giải pháp khác nhau để cải tiến kho ngữ liệu bao gồm cả khía cạnh chất lượng và khối lượng. Các giải pháp cụ thể đó là mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật toán Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định ranh giới từ ghép tiếng Việt từ mô hình phân phối từ và cụm từ trong văn bản. Giải pháp cải tiến chất lượng dịch tiếng Việt bằng cách cải tiến kho ngữ liệu đã được triển khai cài đặt, thfí nghiệm và đánh giá đã cho kết quả chất lượng dịch được cải tiến rõ nét, thể hiện ở các công trình (1,4,5,8,9). (3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt bằng phương pháp dịch trí tuệ nhân tạo, áp dụng mô hình học máy mạng nơ ron. Đây được xem như giải pháp mới, tốt nhất tại thời điểm nghiên cfíu và đề xuất (năm 2017) để cải tiến chất lượng dịch tự động nói chung, nhất là dịch tự động tiếng Việt. Giải pháp áp dụng mạng nơ ron mà luận án đề xuất cho phép dịch toàn bộ câu cùng lúc thay vì dịch theo cụm từ như phương pháp dịch máy thống kê. Phương pháp mạng nơ ron ưu việt hơn tất cả các phương pháp trước đó vì có thể hiểu được cả ngữ nghĩa của câu thay vì dịch dựa trên bộ nhớ dịch các cụm từ. Giải pháp này đã được luận án đề xuất, triển khai, cài đặt thfí nghiệm và đã cho ra kết quả dịch có chất lượng tốt hơn nhiều so với các phương pháp khác và với các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay đối với lĩnh vực hẹp được thfí nghiệm, thể hiện tại công trình (3,7). P (4) Đề xuất giải pháp mới để xâyAdựng hệ thống dịch tự động hướng ngữ G nghĩa. Luận án đề xuất mô hình và giải phEáp xây dựng hệ thống dịch tự động hướng ngữ nghĩa dựa theo ngữ cảnh thông qua c1ải tiến mô hình dịch sfí dụng mạng nơ ron 0 kết hợp với kho ngữ liệu lớn đã được làm giàu ngữ nghĩa. Bằng giải pháp này, kết 0 quả dịch được hệ thống xfí lý ngữ nghĩa trước khi hiển thị cho người dùng, từ đó biểu diễn thêm các tầng ngữ nghĩa khác giúp cho bản dịch có đầy đủ thông tin và người đọc có thể hiểu toàn vẹn ý nghĩa của bản dịch. Kết quả đóng góp này được thể hiện ở công trình NGHIÊN cứu GIẢI PHÁP cải TIẾN CHẤT LƯỢNG DỊCH tự ĐỘNG TIẾNG VIỆT NGHIÊN cứu GIẢI PHÁP cải TIẾN CHẤT LƯỢNG DỊCH tự ĐỘNG TIẾNG VIỆTsố (10,11) (5) Đóng góp về mặt thực nghiệm và sản phẩm sfí dụng thực tế: xây dựng, triển khai thực nghiệm được hệ thống dịch tự động Anh –Việt VIKI Translator, cho kết quả thfí nghiệm chất lượng dịch tiếng Việt lĩnh vực hẹp (văn bản quy phạm pháp luật) tốt hơn so với các hệ thống dịch tiếng Việt đang hoạt động. Hệ thống dịch đã cung cấp cho người dùng thông qua môi trường Internet tại địa chỉ https://vikitranslator.com, đã có hơn 1.500.000 lượt người dùng trên trang web, hơn 30.000 lượt tải và cài đặt phần mềm, nhận được đánh tích cực từ phía người dùng với điểm số trung bình trên 4,5/5,0 từ Google Play và Chrome Extensions. Có hơn 30 bài viết từ các blog, trang web khác viết bài đánh giá và hướng dẫn sfí dụng, với 582.561 liên kết về trang chủ của hệ thống. Bên cạnh đó, một kết quả quan trọng khác có ý nghĩa thực tế và đóng góp về mặt thực nghiệm mà luận án đã xây dựng được đó là kho ngữ liệu lớn và có chất lượng tốt các cặp ngôn ngữ Anh – Việt với hơn 1.479.000 cặp câu song ngữ (phần lớn thuộc lĩnh vực văn bản quy phạm pháp luật).
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, 12/2021 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp GS Vincent Berment Đà Nẵng, 12/2021 P A ĐOAN LỜI CAMG E Tôi tên Nguyễn Văn Bình Tơi x1in cam đoan cơng trình nghiên cfíu tơi Các nội dung kết quảthực nghiên cfíu Luận án trình bày trung thực tham khảo trích dẫn, rõ nguồn tham khảo theo quy định T c g iả N g u y ễ n V ă n B ì n h P MỤCALỤC G E 0 LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU P A G E 0 DANH MỤC HÌNH VẼ 10 MỞ ĐẦU Đặt vấn đề 13 13 Mục tiêu nghiên cfíu 14 Đối tượng phạm vi nghiên cfíu 14 Phương pháp nghiên cfíu 15 Bố cục luận án 15 Đóng góp luận án 16 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1 Giới thiệu 19 19 1.2 Nghiên cfíu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động 21 Các phương pháp dịch tự động 21 Kho ngữ liệu dịch tự động 28 Đánh giá chất lượng hệ thống dịch tự động 33 1.3 Các nghiên cfíu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt 43 Nghiên cfíu xây dựng hệ thống dịch đánh giá chất lượng dịch 43 Nghiên cfíu xây dựng cải tiến kho ngữ liệu tiếng Việt 45 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 48 1.5 Kết luận Chương 52 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNGP DỊCH TỰ ĐỘNG TIẾNG VIỆT 53 A G 2.1 Giới thiệu E 2.2 Đánh giá chất lượng hệ thống dịch tự động tiếng Việt Tổ chfíc đánh giá Nhận xét, đánh giá 53 54 55 60 Đề xuất giải pháp đánh giá chất lượng dựa trình hiệu đính dịch 2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn Tổng quan 61 69 69 Các nghiên cfíu liên quan đến cải tiến chất lượng kho ngữ liệu 70 Giải pháp nâng cao chất lượng kho ngữ liệu 71 Đánh giá vai trò kho ngữ liệu kết hệ thống dịch 87 2.4 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron Tổng quan 91 91 Giải pháp cải tiến chất lượng dịch tiếng Việt mơ hình học máy mạng nơ ron 91 Kết xây dựng hệ thống dịch 102 Giải pháp xây dựng hệ thống dịch ngữ nghĩa 104 2.5 Kết luận Chương 109 HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR 111 3.1 Giới thiệu 111 3.2 Xây dựng kho ngữ liệu 112 Quy trình bước triển khai 112 Xây dựng kho ngữ liệu song ngữ số lượng lớn 113 Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ ngữ nghĩa Xây dựng kho ngữ liệu onPtology 117 118 A 3.3 K ết G thực nghiệm xây dựng fín g dụng dịch Anh – Việt lĩnh vực văn 122 pháp luật (VIKI Translator) E1 Quy trình bước triển k hai 122 Tổ chfíc huấn luyện mơ h0ình điều chỉnh tham số mơ hình 122 Xây dựng mơ đun hệ thống dịch 3.4 Đánh giá kết 124 125 Kết thực nghiệm 125 Đánh giá người dùng 128 3.5 Kết luận Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 130 131 Kết luận 131 Hướng phát triển 132 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 133 TÀI LIỆU THAM KHẢO 135 P A DANH MỤC CÁ C TỪ VIẾT TẮT G E Thuật ngữ Tiếng Anh Tiếng Việt Ủy ban cố vấn xfí lý ngơn Automatic Language Proce0ssing ALPAC ngữ tự động Advisory Committee BLEU BiLingual Evaluation Understudy Chỉ số đánh giá chất lượng dịch BLEU CBOW Continuous Bag of Words Mơ hình túi từ liên tục EBMT Example Translation GNMT Google Neural Translation Based Machine Dịch máy dựa ví dụ Machine Hệ thống dịch tự động sfí dụng mạng nơ ron Google HTER Human Translation Error Rate Chỉ số lỗi dịch người NIST National Institute of Standards and Technology Chỉ số đánh giá chất lượng dịch NIST NMT Neural Network Translation Dịch máy sfí dụng mạng nơ ron POS Part of Speech Phân loại từ vựng RNN Recurrent Neural Networks Mạng nơ ron tái phát SMT Statistical Machine Translation Dịch máy thống kê TBL Transformation-Based Learning Dịch máy chuyển đổi TER Translation Edit Rate Chỉ số đo lỗi dịch WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ WMT Workshop on Statistical Machine Translation Hội thảo dịch máy thống kê P DANH MỤCABẢNG BIỂU G E Bảng 1.1 Chi tiết kho ngữ liệu EuroMatri1x Bảng 1.2 Tổng hợp số kho ngữ liệu Bảng 1.3 Bảng thang đo tương fíng với mfíc độ đầy đủ trôi chảy 36 Bảng 1.4 Mô kết đánh giá hình thfíc xếp hạng 37 30 31 Bảng 1.5 Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa MOSES 43 Bảng 1.6 So sánh kết dịch sfí dụng MOSES hệ thống Google, Microsoft 44 Bảng 1.7 Kết đánh giá tập liệu TED tst2015 IWSLT 2015 44 Bảng 1.8 Đánh giá chất lượng hệ thống dịch sfí dụng ngơn ngữ trung gian 45 Bảng 1.9 Ví dụ số câu hệ thống dịch sai nghĩa 50 Bảng 2.1 Thông tin liệu phục vụ đánh giá 55 Bảng 2.2 Đánh giá kết dịch từ tiếng Anh sang tiếng Việt 57 Bảng 2.3 Đánh giá kết dịch từ tiếng Việt sang tiếng Anh 57 Bảng 2.4 Kết đánh giá phương pháp chủ quan 59 Bảng 2.5 Trung bình số liệu 67 Bảng 2.6 Kết sau hiệu chỉnh dịch 67 Bảng 2.7 Bảng tóm tắt đặc trưng kho ngữ liệu phổ biến 72 Bảng 2.8 Số liệu kho ngữ liệu sfí dụng để đánh giá ảnh hưởng đến chất lượng 89 Bảng 2.9 Chất lượng mơ hình dịch nhận Bảng 2.10 Mơ tả liệu phục vụ xây dựng hệ thống dịch 90 103 Bảng 2.11 So sánh chất lượng hệ thống dịch theo phương pháp khác 104 Bảng 3.1 Thống kê số lượng câu kho ngữ liệu xây dựng 114 Bảng 3.2 Tổng hợp quy mô kho ngữ liệu số công bố 115 P Bảng 3.3 Kết đánh giá so sánh chấAt lượng hệ thống dịch Anh-Việt 125 G Bảng 3.4 So sánh điểm BLEU đạt ởEmột số nghiên cfíu xây dựng hệ thống dịch tiếng Việt 126 Bảng 3.5 So sánh số lượng câu dịch 127 Bảng 3.6 Ví dụ câu, thuật ngữ mà hệ thống VIKI Translator dịch 127 Kết dịch từ hệ thống VIKI Translator EVTran so sánh xác với gốc bỏ qua việc kiểm tra chữ hoa, chữ thường thể bảng sau: Bảng 3.5 So sánh số lượng câu dịch Số lượng câu đúng/Tổng số câu VIKI Translator EVTran Dịch từ tiếng Anh sang tiếng Việt mục lục Hiệp định 14/30 10/30 Dịch từ tiếng Việt sang tiếng Anh tên quan 15/23 11/23 Một số câu, thuật ngữ mà hệ thống VIKI Translator dịch sau: Bảng 3.6 Ví dụ câu, thuật ngữ mà hệ thống VIKI Translator dịch Bản gốc tiếng Anh Bản gốc tiếng Việt VIKI Translator EVTran The State Bank of Viet Nam Ngân hàng Nhà nước Việt Nam The State Bank of Vietnam The Bank of Viet Nam Ministry of Public Security Bộ Công an Ministry of Public security Police Ministry of Justice Bộ Tư pháp The Ministry of Justice Judicial Ministry of Labour, War invalids and Social Affairs Bộ Lao động Thương binh Xã hội Ministry of Labour, Ministry of Labor - Invalids and War invalids and Social Affairs Social affairs Chapter Sanitary and Chương Biện pháp vệ sinh kiểm dịch Chương Các biện pháp vệ sinh kiểm dịch Chương Các biện pháp vệ sinh kiểm dịch động thực vật Chương 24 Doanh nghiệp vừa nhỏ Chương 24 Doanh nghiệp vừa nhỏ Chương 24 Doanh nghiệp nhỏ vừa Phytosanitary Measures Chapter 24 Small and Medium-sized Enterprises Chapter 27 Administrative and Institutional Provisions Chương 27 Các điều khoản hành thể chế Chương 27 Điều khoản hành thể chế Chương 27 Các quy định thể chế hành Qua so sánh thấy rằng, cách sfí dụng kho ngữ liệu số lượng lớn, chất lượng tốt, hệ thống dịch dựa mơ hình mạng nơ ron mà nghiên cfíu xây dựng cho kết tốt Bên cạnh đó, nhờ kho ngữ liệu tập trung vào lĩnh vực văn pháp luật mà thu thập nên hệ thống dịch dịch phần lớn thuật ngữ liên quan đến lĩnh vực này, số hệ thống khác có tượng dịch sai cụm từ quan trọng Điều cho thấy mơ hình dịch NMT áp dụng hiệu dịch tự động tiếng Việt Đánh giá người dùng Hệ thống dịch VIKI Translator triển khai từ tháng 11 năm 2017 đến nay, cung cấp cho người sfí dụng chfíc dịch trực tuyến từ tiếng Anh sang tiếng Việt tiếng Việt sang tiếng Anh thông qua môi trường Internet địa chỉ: https://vikitranslator.com Giao diện hệ thống VIKI Translator Hình 3.9 Hình 3.9 Giao diện hệ thống dịch tự động VIKI Translator Ngoài hình thfíc sfí dụng thơng qua website, VIKI Translator cịn cung cấp cách thfíc sfí dụng sau: o Mô đun phần mềm chạy tảng Windows o Mô đun phần mềm chạy tảng Android o Mơ đun tích hợp trình duyệt Chrome (Chrome Extensions) Về bản, phân hệ thị trực tiếp nội dung từ website VIKI Translator gọi hàm API từ website để lấy kết dịch Tổng hợp số kết đạt qua trình triển khai thực nghiệm hệ thống: o Tổng số lượt truy cập sfí dụng fíng dụng tất tảng: 1.500.0 người dùng o Tổng số lượt truy cập website hàng tháng: gần 70.000 người o Lượt tải fíng dụng Windows: 30.000 lượt o Số người dùng Chrome Extensions: 5.000 người o Đánh giá người dùng Chrome Extensions: 4,6/5 điểm từ 27 đánh giá o Đánh giá người dùng Google Play: 4,5/5 điểm từ 47 đánh giá o Tổng số viết giới thiệu, hướng dẫn sfí dụng từ website khác: 30 o Tổng số liên kết từ website khác trỏ đến VIKI Translator (backlink): 582.561 backlink (kết từ ahrefs.com, trang web tổng hợp số liệu backlink hàng đầu nay) Hình 3.10 Biểu đồ số lượng người sử dụng hàng tháng (Nguồn: Google Analytics) Hình 3.11 Thống kê tổng số người dùng (Nguồn: Google Analytics) Hình 3.12 Thống kê số lượng liên kết (Nguồn: ahrefs.com) 3.5 Kết luận Chương Nội dung Chương trình bày bước thực nghiệm triển khai xây dựng hệ thống dịch tự động Anh – Việt sở tổng hợp giải pháp cải tiến mặt kho ngữ liệu phương pháp dịch đề xuất chương trước Hệ thống VIKI Translator xây dựng cho kết vượt trội so với hệ thống dịch tiếng Việt qua số liệu đánh giá cụ thể điểm BLEU, NIST WER Hệ thống cho kết khả quan so sánh với số kết xây dựng hệ thống dịch thực nghiên cfíu khác Hệ thống dịch Anh – Việt triển khai thực tế gần năm có 1,5 triệu lượt sfí dụng, nhận đánh giá tích cực từ phía người dùng Qua cho thấy giải pháp cải tiến mà nghiên cfíu đề xuất góp phần xây dựng hệ thống dịch có chất lượng tốt, phù hợp để triển khai tiếp tục nghiên cfíu phát triển cho tốn dịch tự động tiếng Việt KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án triển khai nghiên cfíu yếu tố quan trọng ảnh hưởng đến chất lượng kết hệ thống dịch tự động tiếng Việt kho ngữ liệu phương pháp dịch, từ đề xuất giải pháp cụ thể nhằm cải tiến chất lượng hệ thống dịch tiếng Việt Các nội dung nghiên cfíu cụ thể sau: - Nghiên cfíu phương pháp đánh giá chất lượng dịch máy, triển khai đánh giá tổng quát chi tiết chất lượng hệ thống dịch tiếng Việt hoạt động nay, cung cấp số liệu làm sở để phân tích, so sánh hệ thống dịch chất lượng dịch lĩnh vực khác hệ thống so sánh với chất lượng hệ thống dịch ngơn ngữ khác Trên sở đưa nhìn tổng thể chất lượng hệ thống dịch tiếng Việt có Nghiên cfíu đề xuất phương pháp số đo để tính tốn chất lượng kết dịch q trình người dùng hiệu đính dịch máy Phương pháp đảm bảo tính xác, đồng thời tiết kiệm nguồn lực tổ chfíc đánh giá - Nghiên cfíu kho ngữ liệu phục vụ cho dịch tự động tiếng Việt đề xuất giải pháp nhằm cải tiến chất lượng kho ngữ liệu Các giải pháp cải tiến khía cạnh cải tiến chất lượng số lượng, bao gồm giải pháp mở rộng hợp kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng cách kết hợp thuật toán Maximum Matching phân tích mối quan hệ thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mơ hình phân phối từ cụm từ văn Trên sở nghiên cfíu tiến hành xây dựng mô đun phần mềm để mô giải pháp đề xuất thfí nghiệm cho kết tốt Từ giải pháp hợp mở rộng kho ngữ liệu nêu trên, nghiên cfíu triển khai thu thập kho ngữ liệu có số lượng lớn, chất lượng tốt gồm 1.479.0 cặp câu song ngữ Anh – Việt để phục vụ cho hệ thống dịch tự động tiếng Việt - Nghiên cfíu phương pháp dịch tự động đề xuất giải pháp fíng dụng mơ hình học máy mạng nơ ron vào toán dịch tự động tiếng Việt nhằm nâng cao chất lượng hệ thống dịch Nghiên cfíu tổ chfíc cài đặt huấn luyện mơ hình dịch thống kê dịch sfí dụng mạng nơ ron so sánh kết mơ hình dịch này, qua cho thấy phù hợp mơ hình dịch sfí dụng mạng nơ ron tốn dịch tự động tiếng Việt Nghiên cfíu đề xuất mơ hình hệ thống dịch tự động hướng ngữ nghĩa, thơng qua hệ thống dịch cung cấp đầy đủ ngữ nghĩa theo ngữ cảnh văn cần dịch giúp cho người đọc hiểu toàn vẹn nội dung văn - Xây dựng triển khai hệ thống dịch tự động Anh – Việt có tên gọi VIKI Translator, cung cấp cho người dùng thông qua môi trường Internet Hệ thống dịch sản phẩm fíng dụng giải pháp đề xuất nghiên cfíu, xây dựng có sở đánh giá lại tính hiệu giải pháp cải tiến chất lượng dịch tiếng Việt Hệ thống có triệu lượt sfí dụng đánh giá tích cực từ phía người dùng Hướng phát triển Để hoàn thiện giải pháp hệ thống dịch tự động tiếng Việt giúp hệ thống đạt chất lượng tốt hơn, thời gian tới nghiên cfíu sinh tiếp tục tập trung nghiên cfíu nội dung sau đây: - Tiếp tục nghiên cfíu, cải tiến phương pháp dịch sfí dụng mạng nơ ron nhằm đạt hiệu cao - Xây dựng kho ngữ liệu phong phú nhiều phương pháp khác nhau, đồng thời mô tả ngữ nghĩa liệu kết hợp phân tích ngữ nghĩa phương pháp dịch - Mở rộng xây dựng kho ngữ liệu lĩnh vực khác triển khai đánh giá, phân tích so sánh - Đánh giá yếu tố ngữ cảnh toàn văn để làm tham số đầu vào cho hệ thống dịch, từ nâng cao chất lượng kết dịch DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ Huỳnh Cơng Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Cải tiến chất lượng dịch tự động giải pháp mở rộng kho ngữ liệu”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) (ISBN: 978- 604913-397-8), pp 80-87, 07/2015 Phạm Tuấn Anh, Nguyễn Văn Bình, “Nghiên cfíu phương pháp đề xuất hệ thống đánh giá chất lượng dịch tự động song ngữ Anh - Việt”, Kỷ yếu Hội thảo khoa học Quốc gia Công nghệ thông tin ứng dụng lĩnh vực CITA2015, Trang 118-121, 06/2015 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Cải tiến chất lượng dịch Việt-Anh mơ hình học máy mạng nơron kết hợp kho ngữ liệu lớn”, Kỷ yếu Hội thảo Quốc gia “Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông” (Hội thảo @), 11/2017 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “A System of Exploiting and Building Homogeneous and Large Resources for the Improvement of Vietnamese- Related Machine Translation Quality”, International Journal of Applied Engineering Research, pp 10242-10248, 12/2017 (Indexed in Scopus) Nguyễn Văn Bình, Huỳnh Cơng Pháp, Huỳnh Thị Tâm Thương, “Giải pháp tách từ sfí dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt”, Kỷ yếu hội thảo quốc gia CITA2017 (ISBN: 978-604-80-2853-4), 11/2017 Huỳnh Cơng Pháp, Nguyễn Văn Bình, “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, ISSN: 1859- 1531, số 05(114), trang 46-51, 2017 Nguyễn Văn Bình, Huỳnh Công Pháp, “An English-Vietnamese Translation System Using Artificial Intelligence Approach”, ACIIDS 2018: Intelligent Information and Database Systems, Lecture Notes in Computer Science; Nhà xuất bản: Springer Nature, pp 211-220, 03/2018 (Indexed in Scopus) Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, Đinh Thị Mỹ Hạnh, “Xây dựng mơ hình thuật tốn hợp liệu từ điển phục vụ xfí lý ngơn ngữ tự nhiên”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2018, “Công nghệ thông tin ứng dụng lĩnh vực”, ISBN: 978-604-84-3470-0, Trang 215-222, 09/2018 Nguyễn Văn Bình, Huỳnh Cơng Pháp, “Đánh giá vai trò kho ngữ liệu chất lượng dịch tự động tiếng Việt”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, ISSN 1859-1531, Vol 19, No 1, 01/2021 10 Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, “Giải pháp phát triển kho ngữ liệu dịch tự động theo hướng làm giàu ngữ nghĩa”, Kỷ yếu Hội thảo khoa học Quốc gia CITA2021, 06/2021 11 Nguyễn Văn Bình, Huỳnh Cơng Pháp, Đặng Đại Thọ, “Improving the neural network model in combination with a big semantic-enriched corpus for building an English - Vietnamese semantic-oriented machine translation system”, Design Engineering, ISSN 0011-9342, Vol 2021, Issue 07, 07/2021 (Indexed in Scopus) Ngoài ra, nghiên cfíu sinh thực 01 đề tài NCKH cấp Bộ: 12 Nguyễn Văn Bình, Đề tài NCKH cấp Bộ: “Nghiên cfíu giải pháp đánh giá chất lượng dịch tự động tiếng Việt”, Mã số: B2016-DNA-48-TT, 2017-2018, Báo cáo nghiệm thu 03/2019 TÀI LIỆU THAM KHẢO [1] W Hutchins and H Somers, An Introduction fo Machine Translation Academic Press, Harcourt Brace Jovanovich, Publishers, 1992 [2] Đ T Hồng, “Xây dựng hệ thống dịch tự động tiếng Việt.” Tạp chí Ngôn ngữ Đời sống, p vol 11(157), 2008 [3] R K Philipp Koehn, “Six Challenges for Neural Machine Translation.” Proceedings of the First Workshop on Neural Machine Translation, Vancouver, Canada, pp 28–39, 2017 [4] W J Hutchins, “Machine Translation: A Brief History,” Concise History of the Language Sciences pp 431–445, 1995, doi: 10.1016/b978-0-08-0425801.50066-0 [5] M Nagao, “A Framework of a Mechanical Translation between Japanese and English by Analogy Principle,” in Readings in Machine Translation, 1984, pp 173–180, doi: 10.7551/mitpress/5779.003.0038 [6] S Sato and M Nagao, “Toward memory-based translation,” in Proceedings of the 13th conference on Computational linguistics -, 1990, vol 3, pp 247– 252, doi: 10.3115/991146.991190 [7] H Somers, “Review Article: Example-based Machine Translation.” Kluwer Academic Publishers Printed in the Netherlands, pp 113–157, 1999 [8] N Q Phuoc, Y Quan, and C.-Y Ock, “Building a Bidirectional EnglishVietnamese Statistical Machine Translation System by Using MOSES,” International Journal of Computer and Electrical Engineering, vol 8, no pp 161–168, 2016, doi: 10.17706/ijcee.2016.8.2.161-168 [9] P Koehn, Statistical Machine Translation Cambridge University Press, 2010 [10] H N Franz Josef Och, “A Systematic Comparison of Various,” Association for Computational Linguistics 2003 [11] D M Philipp Koehn, Franz Josef Och, “Statistical Phrase-Based Translation,” DARPA IAO Machine Translation Workshop Santa Monica, CA, 2002 [12] H H A B Philipp Koehn, “Moses: Open Source Toolkit for Statistical Machine Translation,” Proceedings ofthe ACL 2007 Association for Computational Linguistics, Prague, pp 177–180, 2007, doi: 10.5539/ijel.v5n3p143 [13] Phan Thị Hà, “Nghiên cfíu việc xây dựng, chuẩn hóa khai thác kho ngữ liệu từ nguồn Internet cho xfí lý tiếng Việt.” Luận án Tiến sĩ kỹ thuật Ngành Hệ thống thơng tin, Học viện cơng nghệ Bưu Viễn thơng, 2013 [14] C Boitet, “Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de systốme, Revue franỗaise de linguistique appliquộe, vol XII, no p 25, 2007, doi: 10.3917/rfla.121.0025 [15] L N M Đinh Điền, “Ứng dụng Ngữ liệu Song ngữ Anh-Việt Giảng dạy Ngôn ngữ,” in Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, 2015, pp 559–567 [16] P Koehn, “Europarl: A Parallel Corpus for Statistical Machine Translation,” in Proc of the 10th Machine Translation Summit, 2005, pp 79–86, doi: 10.5209/DIDA.19853 [17] J B Carroll, “An Experiment in Evaluating the Quality of Translations,” Mechanical Translation and Computational Linguistics, vol 9, no 3–4 pp 67–75, 1966 [18] J S Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, “(Meta-) Evaluation of Machine Translation,” in Proceedings ofthe Second Workshop on Statistical Machine Translation, 2007, pp 136–158 [19] M Przybocki, K Peterson, S Bronsart, and G Sanders, “The NIST 2008 Metrics for machine translation challenge—overview, methodology, metrics, and results,” Mach Transl., vol 23, no 2–3, pp 71–103, Sep 2009, doi: 10.1007/s10590-009-9065-6 [20] and I D M Joseph P Turian, Luke Shen, “Evaluation of Machine Translation and its Evaluation,” Proceedings of the International Conference & Workshop on Emerging Trends in Technology - ICWET ’11 ACM Press, New York, New York, USA, 2011, doi: 10.1145/1980022.1980409 [21] M Snover, B Dorr, R Schwartz, L Micciulla, and J Makhoul, “A study of translation edit rate with targeted human annotation,” AMTA2006 Proceedings of the 7th Conference of the Association for Machine Translation of the Americas: Visions for the Future of MT pp 223–231, 2006 [22] D Gates et al., “End-to-end evaluation in JANUS: A speech-to-speech translation system,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 1997, vol 1236, pp 195–206, doi: 10.1007/3-540-631755_47 [23] R Nübel, “End-to-End evaluation in VERBMOBIL I,” in Proceedings of MT Summit VI, 1997, pp 232–239 [24] J S White and T A O’Connell, “Evaluation in the ARPA machine translation program,” Human Language Technology: Proceedings of a Workshop held at Plainsboro, New Jersey 1994, doi: 10.3115/1075812.1075840 [25] M Denkowski and A Lavie, “Choosing the right evaluation for machine translation: An examination of annotator and automatic metric performance on human judgment tasks,” AMTA 2010 - 9th Conference of the Association for Machine Translation in the Americas 2010 [26] F J Och, “Minimum Error Rate Training,” Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics pp 160–167, 2003 [27] K.-Y Su, M.-W Wu, and J.-S Chang, “A new quantitative quality measure for machine translation systems.” p 433, 1992, doi: 10.3115/992133.992137 [28] V I Levenshtein, “Binary codes capable of correcting deletions, insertions, and reversals,” Soviet physics doklady, vol 10, no pp 707–710, 1966 [29] S Nießen, F J Och, G Leusch, and H Ney, “An evaluation tool for machine translation: Fast evaluation for MT research,” 2nd International Conference on Language Resources and Evaluation, LREC 2000 2000 [30] H S C Tillmann, S Vogel, H Ney, A Zubiaga, “Accelerated Dp Based Search For Statistical Translation,” Fifth European Conference on Speech Communication and Technology 1997 [31] W.-J Z Kishore Papineni, Salim Roukos, Todd Ward, “BLEU: a Method for Automatic Evaluation of Machine Translation,” in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002, pp 311–318, doi: 10.1002/andp.19223712302 [32] E Hovy, “Toward Finely Differentiated Evaluation Metrics for Machine Translation,” Proceedings of the EAGLES Workshop on Standards and Evaluation pp 127–133, 1999 [33] A Popescu-Belis, “An experiment in comparative evaluation: human vs computers,” MT Summit IX pp 307–314, 2003 [34] G N Ramaswamy, J Navrátil, U V Chaudhari, and R D Zilca, “The IBM system for the NIST-2002 cellular speaker verification evaluation,” ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings, vol pp 61–64, 2003, doi: 10.1109/icassp.2003.1202294 [35] V T Hùng, “Phương pháp công cụ đánh giá tự động hệ thống dịch tự động mạng,” Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, vol 1(18), pp 37–42, 2007 [36] H V Tran, T H Vu, T T Le, P L Nghia, and V V Nguyen, “The EnglishVietnamese Machine Translation System for IWSLT 2015,” Proceeding of the 12th International Workshop on Spoken Language Translation 2015 [37] M Luong and C D Manning, “Stanford Neural Machine Translation Systems for Spoken Language Domains,” Proceedings of the international workshop on spoken language translation pp 76–79, 2015 [38] D T Hoang and O Bojar, “Pivoting methods and data for Czech-Vietnamese translation via English,” Proceedings of the 19th Annual Conference of the European Association for MT, EAMT2016 pp 190–202, 2016 [39] Dinh Dien, “Building an annotated English-Vietnamese parallel corpus,” MKS A J Southeast Asian Linguist Lang., vol 35, pp 21–36, 2005 [40] T.-N.-D Do, V.-B Le, B Bigi, L Besacier, and E Castelli, “Mining a comparable text corpus for a Vietnamese - French statistical machine translation system.” p 165, 2009, doi: 10.3115/1626431.1626466 [41] L T H Dương Minh Hùng, Lê Mạnh Thạnh, “Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet,” in Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Oct 2019, pp 315–321, doi: 10.15625/vap.2019.00040 [42] N T Hà, N T M Huyền, and N M Hải, “Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mfíc câu cho dịch máy,” Res Dev Inf Commun Technol., Jul 2018, doi: 10.32913/rd-ict.vol1.no39.550 [43] P N Luân, N V Vinh, and N H Hoàng, “Thích fíng miền dịch máy nơ ron cho cặp ngôn ngữ Anh-Việt,” Kỷ yếu Hội nghị Quốc gia lần thứ XII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR) Publishing House for Science and Technology, Huế, Oct 28, 2019, doi: 10.15625/vap.2019.00056 [44] T B Ho, N K Pham, T L Ha, and P T Nguyen, “Issues and First Phase Development of the English-Vietnamese Translation System EVSMT1.0,” Special Issue in Journal of Science, Natural Sciences and Technology pp 59– 66, 2008 [45] L K Hung, “One method of interlingual translation,” National Conference on IT Research, Development and Applications CNTT&TT 2003 [46] M Alez, J Us Giménez, and L Arquez, “A Graphical Interface for MT Evaluation and Error Analysis,” Jeju, Republic of Korea Association for Computational Linguistics, pp 139–144, 2012 [47] B Chen and C Cherry, “A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU,” in Association for Computational Linguistics (ACL), 2015, pp 362–367, doi: 10.3115/v1/w14-3346 [48] C.-P Huynh, “Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia.” Institut National Polytechnique de Grenoble - INPG, p 226, 2010 [49] D M Dragos Stefan Munteanu, “Extracting parallel sub-sentential fragments from non-parallel corpora,” in Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 2006, pp 81–88 [50] C P Huynh, “New approach for collecting high quality parallel corpora from multilingual websites,” ACM International Conference Proceeding Series pp 341–344, 2011, doi: 10.1145/2095536.2095599 [51] H C Pháp, “Nghiên cfíu xây dựng hệ hệ thống hỗ trợ khai thác liệu dịch tự động.” Đề tài nghiên cfíu khoa học cấp Đại học Đà Nẵng, 2012 [52] C B Hervé Blanchon, “Pour l évaluation externe des systèmes de TA par des méthodes fondées sur la tâche.pdf.” [53] H.C Pháp, Đ.Đ Thọ, “Mở rộng kho ngữ liệu theo hướng ngữ nghĩa,” Hội thảo CNTT ứng dụng lĩnh vực, Lần thứ Đà Nẵng, 2013 [54] Đ Đ T Huỳnh Cơng Pháp, “Giải pháp chuẩn hóa kho ngữ liệu dùng lĩnh vực dịch tự động,” Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, vol 9(58).2012, pp 111–117, 2012 [55] and C.-Y O Van-Hai Vu, Quang-Phuoc Nguyen, Pum-Mo Ryu, “Effect of Named Entity Recognition on English-Vietnamese Neural Machine Translation,” Int J Mach Learn Comput., vol 12, no 2, pp 51–55, 2021, doi: 10.18178/ijmlc.2022.12.2.1078 [56] T Mikolov, “Distributed Representations of Words and Phrases and their Compositionality,” NIPS Deep Learning Workshop pp 1–31, 2013 [57] D Bahdanau, K H Cho, and Y Bengio, “Neural machine translation by jointly learning to align and translate,” 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings 2015 [58] Q Le Oriol Vinyals, “A Neural Conversational Model,” in The 31st International Conference on Machine Learning, 2015, pp 233–239 [59] O V Wojciech Zaremba, Ilya Sutskever, “Recurrent Neural Network Regularization,” ICLR 2015 : International Conference on Learning Representations 2015 2015, doi: 10.1111/j.1745-3984.1987.tb00286.x [60] Z Li, J Cai, S He, and H Zhao, “Seq2seq Dependency Parsing,” Proceedings of the 27th International Conference on Computational Linguistics, no 15 pp 3203–3214, 2018 [61] Z Yang, Z Hu, Y Deng, C Dyer, and A Smola, “Neural Machine Translation with Recurrent Attention Modeling,” in Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, 2017, pp 383–387, doi: 10.18653/v1/E17-2061 [62] Y Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” https://arxiv.org/abs/ 1609.08144v2, Sep 2016 [63] J D Tomas Mikolov, Kai Chen, Greg Corrado, “Efficient Estimation ofWord Representations in Vector Space.” 2013, [Online] Available: https://arxiv.org/abs/1301.3781 [64] G Klein, Y Kim, Y Deng, J Crego, J Senellart, and A M Rush, “OpenNMT: Open-source toolkit for neural machine translation,” 20th Annual Conference of the European Association for M Translation, EAMT 2017 p 22, 2017 Đà Nẵng, 12/2021 Đà Nẵng, 12/2021 LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ MỞ ĐẦU Đặt vấn đề Mục tiêu nghiên cfíu Đối tượng phạm vi nghiên cfíu Phương pháp nghiên cfíu Bố cục luận án Đóng góp luận án TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1 Giới thiệu 1.2 Nghiên cfíu tổng quan dịch tự động, kho ngữ liệu, phương pháp cải tiến đánh giá chất lượng dịch tự động Các phương pháp dịch tự động Kho ngữ liệu dịch tự động Đánh giá chất lượng hệ thống dịch tự động 1.3 Các nghiên cfíu liên quan đến xây dựng cải tiến chất lượng dịch tự động tiếng Việt Nghiên cfíu xây dựng hệ thống dịch đánh giá chất lượng dịch Nghiên cfíu xây dựng cải tiến kho ngữ liệu tiếng Việt 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 1.5 Kết luận Chương GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT 2.1 Giới thiệu 2.2 Đánh giá chất lượng hệ thống dịch tự động tiếng Việt Tổ chfíc đánh giá Nhận xét, đánh giá Đề xuất giải pháp đánh giá chất lượng dựa trình hiệu đính dịch 2.3 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn Tổng quan Các nghiên cfíu liên quan đến cải tiến chất lượng kho ngữ liệu Giải pháp nâng cao chất lượng kho ngữ liệu Đánh giá vai trò kho ngữ liệu kết hệ thống dịch 2.4 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron Tổng quan Giải pháp cải tiến chất lượng dịch tiếng Việt mô hình học máy mạng nơ ron Kết xây dựng hệ thống dịch Giải pháp xây dựng hệ thống dịch ngữ nghĩa 2.5 Kết luận Chương HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR 3.1 Giới thiệu 3.2 Xây dựng kho ngữ liệu Quy trình bước triển khai Xây dựng kho ngữ liệu song ngữ số lượng lớn Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ ngữ nghĩa Xây dựng kho ngữ liệu ontology 3.3 Kết thực nghiệm xây dựng fíng dụng dịch Anh – Việt lĩnh vực văn pháp luật (VIKI Translator) Quy trình bước triển khai Tổ chfíc huấn luyện mơ hình dịch điều chỉnh tham số mơ hình Xây dựng mô đun hệ thống dịch 3.4 Đánh giá kết Kết thực nghiệm Đánh giá người dùng 3.5 Kết luận Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Hướng phát triển DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ TÀI LIỆU THAM KHẢO ... cfíu xây dựng cải tiến kho ngữ liệu tiếng Việt 45 1.4 Thực trạng chất lượng dịch tự động tiếng Việt 48 1.5 Kết luận Chương 52 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNGP DỊCH TỰ ĐỘNG TIẾNG VIỆT 53 A G 2.1... thống dịch tự động phổ biến nay, đề xuất giải pháp cải tiến chất lượn0g dịch tự động cặp ngôn ngữ tiếng Việt – tiếng Anh - Xây dựng fíng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt. .. ngữ liệu kết hệ thống dịch 87 2.4 Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mơ hình máy học mạng nơ ron Tổng quan 91 91 Giải pháp cải tiến chất lượng dịch tiếng Việt mơ hình học máy