CHƯƠNG 1 TỔNG QUAN VỀ CÁC VẤN ĐỀ LIÊN QUAN LUẬN ÁN
1.3. Dịch máy nơ-ron
Các mơ hình dịch máy được sử dụng nhiều là dịch máy thống kê dựa trên cụm từ (PBSMT) [60], [88] và dịch máy nơ-ron (NMT) [4], [22].
Mô hình sequence to sequence (seq2seq): mơ hình được đưa ra trong bài nghiên cứu của tác giả Sutskever và cộng sự [112] mà theo đó một câu sẽ được dịch bằng cách đưa vào một bộ mã hóa và nối tiếp với một bộ giải mã để dịch ra một câu ở ngôn ngữ khác. Câu nguồn sẽ được mã hóa thành một vector và được đưa vào bộ mã hóa. Bộ giải mã sẽ lần lượt sinh từng từ trong chuỗi đầu
ra dựa trên vector đầu vào và những từ được dự đốn trước đó cho tới khi gặp
từ kết thúc câu. Trong mơ hình seq2seq chúng ta có thể sử dụng những thành phần khác nhau cho bộ mã hóa và giải mã như RNN hoặc những cải tiến như LSTM và GRU để giải quyết vấn đề phụ thuộc xa và biểu diễn các mỗi quan hệ phụ thuộc vào ngữ cảnh của câu.
Mơ hình seq2seq cơ bản có nhược điểm là u cầu RNN decoder sử dụng tồn bộ thơng tin mã hóa từ chuỗi đầu vào cho dù chuỗi đó dài hay ngắn. Thứ hai, RNN encoder cần phải mã hóa chuỗi đầu vào thành một vec-tơ duy nhất và có độ dài cố định. Ràng buộc này khơng thực sự hiệu quả vì trong thực tế, việc sinh ra từ tại một bước thời gian trong chuỗi đầu ra có khi phụ thuộc nhiều hơn vào một số những thành phần nhất định trong chuỗi đầu vào. Ví dụ, khi dịch một câu từ tiếng nước này sang tiếng nước khác, chúng ta thường quan tâm nhiều hơn đến ngữ cảnh xung quanh từ hiện tại so với các từ khác trong câu. Kỹ thuật attention được đưa ra để giải quyết vấn đề đó.
Mơ hình seq2seq với kỹ thuật attention: Kỹ thuật attention lần đầu được
đưa ra bởi Bahdanau và cộng sự [4]. Kỹ thuật attention không chỉ mã hóa tồn bộ chuỗi đầu thành một vector duy nhất mà các từ trong chuỗi đầu vào sẽ được RNN encoder mã hóa thành một dãy các vector. Sau đó RNN decoder áp dụng kỹ thuật attention để lấy trọng số của dãy các vector mã hóa.
0.5 0.3 0.1 0.1 Các trọng số chú ý Vec tơ ngữ cảnh Vec tơ chú ý (attention) Je suis étudiant </s> Je suis étudiant I am a student <s>
Các trọng số trong mơ hình này được tính bằng một mạng neural truyền thẳng. RNN encoder, RNN decoder và các tham số trong kỹ thuật attention được huấn luyện đồng thời từ dữ liệu. Như vậy, khi áp dụng kỹ thuật attention thay vì chỉ sử dụng vector trạng thái ẩn cuối cùng để tạo ra vector biểu diễn cho decoder, mơ hình có thể tương tác với toàn bộ vector trạng thái ẩn của encoder. Các cơ chế attention có thể được chia thành 3 dạng [27]: Self-attention, Global/Soft attention, Local/Hard attention.
Trong dịch máy, Attention nhận vào hai câu, chuyển chúng thành một
ma trận với hàng và cột tương ứng với các từ trong hai câu đầu vào. Attention sẽ khớp các từ của câu này với từ tương ứng ở câu kia để tập trung vào các từ có liên kết mạnh của hai câu. Tính hợp lý của cách tiếp cận này có thể thấy rõ ràng trong dịch máy, bên cạnh ý nghĩa của tồn câu, mơ hình cần “chú ý” vào các từ để học được cách dịch tự nhiên nhất. Attention không bị giới hạn trong việc tìm tương quan giữa các từ trong các câu ở hai ngôn ngữ khác nhau. Trong kỹ thuật “self-attention”, ma trận có thể được tạo ra với hàng và cột là cùng một câu để hiểu những phần nào của câu sẽ liên quan đến nhau.
Mơ hình transformer: Mơ hình được giới thiệu lần đầu bởi Vaswani và
cơng sự [125]. Transformer là một mơ hình học sâu được thiết kế để phục vụ giải quyết nhiều bài tốn trong xử lý ngơn ngữ tự nhiên, trong đó có dịch máy. Khác với RNNs, Transformer khơng xử lý các phần tử trong một chuỗi một cách tuần tự. Nếu dữ liệu đầu vào là một câu ngôn ngữ tự nhiên, Transformer không cần phải xử lý phần đầu câu trước rồi mới tới phần cuối câu. Do tính năng này, Transformer có thể tận dụng khả năng tính tốn song song của GPU và giảm thời gian xử lý đáng kể.
Mơ hình transformer sử dụng kỹ thuật self-attention mà không sử dụng
kiến trúc Recurrent (hồi quy) như RNNs. Trong kiến trúc của mình, Transformer chứa 6 encoder và 6 decoder. Mỗi encoder chứa hai lớp: Self-
attention và mạng truyền thẳng (FNN).
Self-Attention là cơ chế giúp encoder nhìn vào các từ khác trong lúc mã
hóa một từ cụ thể, vì vậy,Transformers có thể hiểu được sự liên quan giữa các từ trong một câu, kể cả khi chúng có khoảng cách xa. Các decoder cũng có kiến
trúc giống như vậy nhưng giữa chúng có một lớp attention để nó có thể tập trung vào các phần liên quan của đầu vào.
Input Embedding Input Output Embedding Output (shifted right) + Multi-Head attention Add & Norm
Multi-Head attention Add & Norm
Masked Multi-Head
attention Add & Norm Add & Norm
Feed Forward Add & Norm
Multi-Head attention Nx Softmax Linear Output Probabilities Nx Positional
Encoding ~ + ~ PositionalEncoding
Hình 1.8. Kiến trúc mơ hình transformer
Dịch máy dựa trên cụm từ được sử dụng nhiều trong nghiên cứu và công
nghiệp với các ưu điểm dịch đầy đủ, dễ can thiệp xử lý gỡ lỗi trong quá trình
dịch. Gần đây dịch máy mạng nơ-ron đã cho thấy tiềm năng và một số trường hợp đã vượt qua dịch máy dựa trên cụm từ [7], [23], [52], [105]. Ưu điểm của dịch máy nơ-ron là: dịch trôi chảy hơn, sát nghĩa hơn. Tuy nhiên, dịch máy nơ-
ron cũng có các nhược điểm như: nhiều trường hợp bản dịch không đầy đủ, hiện tượng từ chưa biết (unknown word) làm giảm chất lượng dịch, quá trình
dịch như hộp đen nên khó can thiệp xử lý và gỡ lỗi... Trong nghiên cứu của
Philip Koehn [59] đã chỉ ra 6 thách thức của dịch máy mạng nơ-ron gồm: dịch
ngồi miền, dịch với dữ liệu ít, các từ hiếm gặp, dịch với các câu dài, mơ hình
chú ý (Attention) khơng phải là gióng hàng, vấn đề khó để điều khiển nâng cao
chất lượng dịch. Nghiên cứu của Zheng và cộng sự [134] chỉ ra hệ thống dịch máy nơ-ron có thể bị gây lỗi cho các bản dịch do đặc điểm của các ngôn ngữ
và khi thiết kế các mạng nơ-ron gồm: mất thông tin, sai ngữ nghĩa và thiếu logic. Nghiên cứu của Ott và cộng sự [90] đã chỉ ra tính khơng chính xác trong
dịch máy mạng nơ-ron ...
Tương tự như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạng nơ-ron là mơ hình dịch máy dựa trên dữ liệu, phụ thuộc vào dữ liệu song ngữ được sử dụng để huấn luyện. Chất lượng dịch của một hệ thống liên quan đến số lượng và chất lượng của tập dữ liệu huấn luyện. Các đặc điểm của dịch
máy mạng nơ-ron gồm:
- Dịch máy mạng nơ-ron cho kết quả dịch trôi chảy hơn nhưng không đầy đủ. Đầu ra bản dịch thường dễ đọc nhưng nghĩa của câu chưa hay. Trong khi đó, dịch máy thống kê về mặt ngữ pháp, dùng mơ hình ngơn ngữ có thể khơng đúng và trôi chảy như dịch máy nơ-ron, nhưng nghĩa của bản dịch thường sát nghĩa với câu nguồn.
- Dịch máy mạng nơ-ron cho kết quả tốt khi dịch các câu thường hay xuất hiện nhưng lại khơng tốt khi dịch các câu ít xuất hiện trong dữ liệu huấn luyện (ngược lại với dịch máy thống kê). Ví dụ như: các từ hiếm ít gặp, các từ khơng xác định ... Dịch máy mạng nơ-ron cho kết quả tốt khi có nhiều dữ liệu huấn luyện nhưng kết quả thường không cao cho các miền cụ thể hoặc với các ngơn ngữ có nguồn tài nguyên hạn chế.
- Dịch máy nơ-ron có thể đưa ra các ứng viên bản dịch không xuất hiện
trong dữ liệu huấn luyện, nhưng dịch máy thống kê có thể lựa chọn bản dịch tốt hơn do có thể can thiệp xử lý các bản dịch này.
Trong các hệ thống dịch máy thống kê dựa trên cụm từ, các gióng hàng từ khơng chỉ dùng để huấn luyện mơ hình dịch mà cịn cung cấp các thông tin
gỡ lỗi hữu ích để kiểm tra lại mơ hình. Nhưng mơ hình chú ý (attention) của dịch máy nơ-ron lại không thể quan sát các gióng hàng từ theo cách thông thường, ngay cả khi đã giải quyết vấn đề của mơ hình chú ý như gióng hàng mềm.
Dịch máy thống kê dựa trên cụm từ vẫn thể hiện các ưu điểm trong các trường hợp các ngôn ngữ với nguồn tài nguyên hạn chế. Năm 2018, trong dự án về dịch máy cho các ngôn ngữ hạn chế về tài nguyên [98], Philip Koehn đã đề cập đến vấn đề cần rất nhiều dữ liệu cho các hệ thống dịch mạng nơ-ron. Trường hợp hạn chế nguồn tài nguyên, dịch máy dựa trên mạng nơ-ron chưa thể hiện được các ưu điểm so với dịch máy thống kê dựa trên cụm. Các ưu điểm của dịch thống kê dựa trên cụm từ là hướng nghiên cứu được quan tâm để kết hợp với điểm mạnh trong dịch máy mạng nơ-ron [14], [62]. Ngoài ra, dịch máy thống kê địi hỏi tài ngun phần cứng ít hơn dịch máy nơ-ron.