Theo các tài liệu đã được công bố, Google bắt đầu áp dụng GNMT (Google Neural Machine Translation – Hệ thống dịch máy sử dụng mạng nơ ron của Google) để thay thế cho mơ hình dịch thống kê cho 8 ngơn ngữ: Anh, Pháp, Đức, Tây Ban Nha, Thổ Nhĩ Kỳ, Trung Quốc, Nhật Bản, Hàn Quốc và Thổ Nhĩ Kỳ từ tháng 11/2016. Đến tháng 03/2017, GNMT áp dụng cho tiếng Hindi, tiếng Nga và tiếng Việt. Hệ thống dịch Microsoft Translator cũng đã áp dụng NMT cho hệ thống dịch từ tháng 05/2018.
Các nghiên cứu ứng dụng NMT thuộc đề tài nghiên cứu này được bắt đầu từ năm 2016. Trên cơ sở đó, nghiên cứu sinh đã hoàn thành nghiên cứu và nộp bài báo tại Hội thảo Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông” (Hội thảo @) vào tháng 06/2017, báo cáo trực tiếp tại Hội thảo vào tháng 11/2017. Vì vậy, các kết quả nghiên cứu và đề xuất trong chương này được trình bày trên cơ sở nghiên cứu đã có trong q trình thực hiện đề tài và kết quả đạt được từ năm 2017. Đề xuất áp dụng mơ hình học máy mạng nơ ron cho hệ thống dịch tự động tiếng Việt tại thời điểm nghiên cứu mang tính thời sự và mở ra hướng tiếp cận để cải thiện chất lượng của các hệ thống dịch.
Dịch máy sử dụng mạng nơ rơn đã bắt đầu được nghiên cứu trong những năm gần đây [57][58] và được đánh giá cao khi thực nghiệm với các cặp ngôn ngữ như
tiếng Anh – tiếng Pháp, tiếng Anh – tiếng Đức. NMT thường là một mạng nơ ron kích thước lớn được đã được huấn luyện, lưu trữ các véc tơ biểu diễn thông tin liên kết giữa các từ trong ngữ cảnh, chính vì vậy có khả năng dịch tốt các câu văn bản dài. Khơng giống như mơ hình dịch truyền thống dựa trên cụm từ, phụ thuộc vào các cụm từ riêng biệt để dịch và ghép nối như mô hình dịch thống kê, NMT sẽ huấn luyện từ dữ liệu đầu vào để tạo ra một mạng nơ ron có lớn có thể đọc các câu nguồn và tái tạo câu đích dựa trên nguyên tắc hoạt động của các mạng nơ ron hồi quy (Recurrent Neural Networks).
Về cơ bản, nguyên tắc chung của RNN [59] là một mạng nơ ron có khả năng xử lý được thơng tin dạng chuỗi, trong đó trạng thái đầu ra ở thời điểm hiện tại được tính toán phụ thuộc vào kết quả của các trạng thái ở thời điểm trước đó. Như vậy, RNN là một mơ hình có trí nhớ và có thể nhớ được thơng tin của một chuỗi có chiều dài bất kỳ.
Mơ hình RNN bao gồm các trạng thái ẩn (hidden state) h và cho kết quả đầu ra y khi nhận được chuỗi đầu vào x = (x1, x2, … xT). Tại mỗi thời điểm t, trạng thái ẩn h<t> của mơ hình RNN được cập nhật theo cơng thức:
h<t> = f(h<t-1>,xt) (2.6) trong đó f là hàm kích hoạt phi tuyến (chẳng hạn hàm sigmoid, hàm tanh).