Hình 2.21 mơ tả kiến trúc của mơ hình RNN Encoder – Decoder. Thành phần mã hóa và giải mã được huấn luyện để tìm các tham số của mơ hình sao cho các chuỗi đầu ra dự đoán với xác suất cực đại:
(2.11) Trong đó, là các tham số của mơ hình RNN và (xn, yn) là các cặp dữ liệu huấn luyện, trong trường hợp này là các cặp câu song ngữ.
Bên cạnh đó có nhiều nghiên cứu nhằm tiếp tục cải tiến mơ hình RNN để phù hợp với hệ thống dịch tự động và cải tiến chất lượng các hệ thống dịch. Mơ hình seq2seq [60] vẫn có nhược điểm đó là yêu cầu bộ giải mã sử dụng toàn bộ thơng tin mã hóa từ chuỗi đầu vào, kể cả chuỗi có chiều dài lớn. Ngồi ra, kết quả của q trình mã hóa sẽ tạo ra một véc tơ có độ dài cố định. Tuy nhiên trên thực tế, việc khởi tạo một từ trong chuỗi đầu ra tại một bước thời gian có thể sẽ phụ thuộc nhiều hơn vào ngữ cảnh xung quanh nó hoặc một số thành phần khác, mà khơng phải tồn bộ câu. Nghiên cứu tại [57][61] áp dụng kỹ thuật attention được để giải quyết vấn đề trên. Theo đó, các từ trong chuỗi đầu vào sẽ được bộ mã hóa tạo thành một dãy các véc tơ, ở phía bộ giải mã sẽ lấy tổng có trọng số của dãy các véc tơ mã hóa. Các trọng số trong mơ hình này được tính bằng một mạng nơ ron truyền thẳng.
Hình 2.22. Minh họa mơ hình seq2seq dùng attention trong bài tốn dịch máy [57]
Đã có nhiều nghiên cứu về dịch tự động sử dụng mạng nơ ron đã áp dụng kỹ thuật attention [57]. Hệ thống dịch của Google Translate cũng đã áp dụng kỹ thuật này trong mơ hình dịch máy của mình.
Hiện nay, các tổ chức nghiên cứu và hãng cung cấp hệ thống dịch tự động lớn đã bắt đầu tập trung nghiên cứu áp dụng mơ hình học máy mạng nơ ron nhằm cải tiến chất lượng dịch tự động cho các hệ thống dịch máy của mình, trong đó có các hệ thống lớn như Google [62], Microsoft và mang lại kết quả tốt. Tuy nhiên, hướng nghiên cứu này chỉ mới được áp dụng đối với một số cặp ngôn ngữ phổ biến nhất định.
Việc lựa chọn phương pháp dịch sẽ quyết định đến chất lượng của hệ thống dịch, vì vậy sử dụng phương pháp dịch tối ưu sẽ giúp cho kết quả dịch tiến gần hơn đến ngôn ngữ của con người.
Những ưu điểm chính của phương pháp dịch máy sử dụng mạng nơ ron:
- Phương pháp này không phụ thuộc vào hiểu biết về ngơn ngữ. Thuật tốn tự tìm ra luật về ngơn ngữ và khơng cần chuyên gia để tinh chỉnh trọng số ở từng bước.
- Có khả năng xử lý các chuỗi đầu vào với độ dài lớn mà vẫn đảm bảo nội dung và ngữ nghĩa của bản dịch.
- Sử dụng thông tin ngữ cảnh của toàn bộ câu đầu vào để xây dựng câu dịch.
2.4.2.1. Các bước xây dựng hệ thống dịch NMT a. Biểu diễn dữ liệu đầu vào
Đối với các bài toán học máy, vấn đề đầu tiên là chuyển đổi dữ liệu đầu vào ở các định dạng khác nhau (âm thanh, hình ảnh, tín hiệu, văn bản…) thành định dạng dữ liệu có thể xử lý được bởi các phương pháp học máy. Trường hợp dịch tự động, cần chuyển các câu đầu vào thành dạng số để phục vụ huấn luyện mơ hình dịch.
Có nhiều phương pháp khác nhau để biểu diễn số học một đơn vị văn bản (tài liệu, đoạn, câu, cụm từ, từ, ký tự). Các phương pháp biểu diễn truyền thống bao gồm One-hot véc tơ, biểu diễn túi từ (BoW: bag of words), mơ hình n-gram, mơ hình TF- IDF. Đối với các bài toán học máy sâu như dịch tự động sử dụng mạng nơ ron, phương pháp thông dụng để biểu diễn toán học các từ là biểu diễn tập nhúng từ (Word embebding). Đây là một tập hợp các mơ hình ngơn ngữ và các phương pháp học đặc trưng trong xử lý ngôn ngữ tự nhiên, thực hiện ánh xạ tập các từ vựng đến một vectơ số thực. Với phương pháp này, bằng cách quan sát và huấn luyện từ các tập dữ liệu
lớn, các từ sẽ có quan hệ ngữ nghĩa với nhau thơng qua cách biểu diễn tốn học. Biểu diễn bằng tập nhúng từ cũng sẽ làm giảm đáng kể số chiều của véc tơ biểu diễn từ. Phương pháp này có các mơ hình là như Word2Vec, GloVe, luận án sử dụng mơ hình Word2Vec [63] để triển khai hệ thống dịch sử dụng mạng nơ ron.
Bằng mơ hình Word2Vec, từ một kho ngữ liệu có tập hợp từ vựng V gồm n từ, chúng ta sẽ sử dụng một véc tơ W được biểu diễn bởi k số thực W = [w1, w2, …, wk]. Khi đó mỗi từ trong tập hợp từ vựng V sẽ được ánh xạ tới một véc tơ trong khơng gian véc tơ W. Q trình huấn luyện mơ hình sẽ cập nhật liên tục các trọng số của véc tơ từng từ. Word2Vec sẽ giúp việc tính tốn và biểu diễn mức độ tương tự của các từ, quan hệ ngữ nghĩa giữa các từ và nhiều bài tốn xử lý ngơn ngữ tự nhiên khác.
Word2vec có 2 kỹ thuật là skip-gram và Cbow. Ý tưởng chính của kỹ thuật CBOW là chúng ta có thể dự đốn một từ nếu biết được các từ đứng xung quanh nó, nghĩa là một từ trung tâm có thể được tạo ra dựa trên các từ ngữ cảnh đứng trước và sau nó. Chẳng hạn trong trường hợp biết trước ngữ cảnh các từ (context words) với kích thước cửa sổ là 2: “I like football with”, có thể dự đốn từ ở giữa (center word) là “playing”
I like playing football with my friends
CBOW sẽ tính tốn xác suất có điều kiện để sinh ra từ trung tâm “playing” dựa trên các từ ngữ cảnh “I”, “like”, “football” và “with” như sau:
P(“playing” | “I”, “like”, “football” và “with”)
Từ trong ngữ
Ngược lại, kỹ thuật Skip-gram giả định rằng chúng ta có thể sử dụng một từ để sinh ra các từ xung quanh nó trong một chuỗi văn bản. Chẳng hạn, với từ trung tâm là “playing”, mơ hình thực hiện tính tốn xác suất có điều kiện để sinh ra các từ xung quanh nó là “I”, “like”, “football” và “with”:
P(“I”|“playing”).P(“like” | “playing”). P(“football” | “playing”).P(“with” | “playing”)
Hình 2.23. Mơ hình CBOW và Skip-gram trình bày tại [63]
Sau khi huấn luyện mơ hình từ kho ngữ liệu đã thu được từ phần trước, có thể thấy biểu diễn trực quan véc tơ thể hiện của từ “đẹp” theo mơ hình Word2Vec, kích thước 100 như sau:
I like footballwith playing
b. Xây dựng bộ mã hóa (Encoder)
Sau khi biểu diễn câu đầu vào thành dữ liệu số, hệ thống dịch sẽ sử dụng bộ mã hóa và giải mã (Encoder và Decoder) để xử lý dữ liệu. Về cơ bản, bộ mã hóa của mơ hình dịch sẽ nhận câu đầu vào để tạo ra một véc tơ ngữ nghĩa (Thought vector) của câu này. Véc tơ ngữ nghĩa này lưu trữ thông tin ngữ nghĩa của câu nguồn và thông qua bộ giải mã để tái tạo lại câu tương ứng ở ngơn ngữ đích. Q trình này được mơ phỏng trong Hình 2.24.