7. Bố cục của luận án
1.3. Dịch máy nơ-ron
Các mơ hình dịch máy được sử dụng nhiều là dịch máy thống kê dựa trên cụm từ (PBSMT) [60], [88] và dịch máy nơ-ron (NMT) [4], [22].
Mơ hình sequence to sequence (seq2seq): mơ hình được đưa ra trong bài nghiên cứu của tác giả Sutskever và cộng sự [112] mà theo đĩ một câu sẽ được dịch bằng cách đưa vào một bộ mã hĩa và nối tiếp với một bộ giải mã để dịch ra một câu ở ngơn ngữ khác.Câu nguồn sẽ được mã hĩa thành một vector và được đưa vào bộ mã hĩa. Bộ giải mã sẽ lần lượt sinh từng từ trong chuỗi đầu
ra dựa trên vector đầu vào và những từ được dự đốn trước đĩ cho tới khi gặp
từ kết thúc câu. Trong mơ hình seq2seq chúng ta cĩ thể sử dụng những thành phần khác nhau cho bộ mã hĩa và giải mã như RNN hoặc những cải tiến như LSTM và GRU để giải quyết vấn đề phụ thuộc xa và biểu diễn các mỗi quan hệ phụ thuộc vào ngữ cảnh của câu.
Mơ hình seq2seq cơ bản cĩ nhược điểm là yêu cầu RNN decoder sử dụng tồn bộ thơng tin mã hĩa từ chuỗi đầu vào cho dù chuỗi đĩ dài hay ngắn. Thứ hai, RNN encoder cần phải mã hĩa chuỗi đầu vào thành một vec-tơ duy nhất và cĩ độ dài cố định. Ràng buộc này khơng thực sự hiệu quả vì trong thực tế, việc sinh ra từ tại một bước thời gian trong chuỗi đầu ra cĩ khi phụ thuộc nhiều hơn vào một số những thành phần nhất định trong chuỗi đầu vào. Ví dụ, khi dịch một câu từ tiếng nước này sang tiếng nước khác, chúng ta thường quan tâm nhiều hơn đến ngữ cảnh xung quanh từ hiện tại so với các từ khác trong câu. Kỹ thuật attention được đưa ra để giải quyết vấn đề đĩ.
Mơ hình seq2seq với kỹ thuật attention:Kỹ thuậtattention lần đầuđược đưa ra bởi Bahdanau và cộng sự [4]. Kỹ thuật attention khơng chỉ mã hĩa tồn
bộ chuỗi đầu thành một vector duy nhất mà các từ trong chuỗi đầu vào sẽ được RNN encoder mã hĩa thành một dãy các vector. Sau đĩ RNN decoder áp dụng kỹ thuật attention để lấy trọng số của dãy các vector mã hĩa.
0.5 0.3 0.1 0.1 Các trọng số chú ý Vec tơ ngữ cảnh Vec tơ chú ý (attention) Je suis étudiant </s> Je suis étudiant I am a student <s>
Các trọng số trong mơ hình này được tính bằng một mạng neural truyền thẳng. RNN encoder, RNN decoder và các tham số trong kỹ thuật attention được huấn luyện đồng thời từ dữ liệu. Như vậy, khi áp dụng kỹ thuật attention thay vì chỉ sử dụng vector trạng thái ẩn cuối cùng để tạo ra vector biểu diễn cho decoder, mơ hình cĩ thể tương tác với tồn bộ vector trạng thái ẩn của encoder. Các cơ chế attention cĩ thể được chia thành 3 dạng [27]: Self-attention, Global/Soft attention, Local/Hard attention.
Trong dịch máy, Attention nhận vào hai câu, chuyển chúng thành một ma trận với hàng và cột tương ứng với các từ trong hai câu đầu vào. Attention sẽ khớp các từ của câu này với từ tương ứng ở câu kia để tập trung vào các từ cĩ liên kết mạnh của hai câu. Tính hợp lý của cách tiếp cận này cĩ thể thấy rõ ràng trong dịch máy, bên cạnh ý nghĩa của tồn câu, mơ hình cần “chú ý” vào các từ để học được cách dịch tự nhiên nhất. Attention khơng bị giới hạn trong việc tìm tương quan giữa các từ trong các câu ở hai ngơn ngữ khác nhau. Trong kỹ thuật “self-attention”, ma trận cĩ thể được tạo ra với hàng và cột là cùng một câu để hiểu những phần nào của câu sẽ liên quan đến nhau.
Mơ hình transformer:Mơ hình được giới thiệu lần đầu bởi Vaswani và
cơng sự [125]. Transformer là một mơ hình học sâu được thiết kế để phục vụ giải quyết nhiều bài tốn trong xử lý ngơn ngữ tự nhiên, trong đĩ cĩ dịch máy. Khác với RNNs, Transformer khơng xử lý các phần tử trong một chuỗi một cách tuần tự. Nếu dữ liệu đầu vào là một câu ngơn ngữ tự nhiên, Transformer khơng cần phải xử lý phần đầu câu trước rồi mới tới phần cuối câu. Do tính năng này, Transformer cĩ thể tận dụng khả năng tính tốn song song của GPU
và giảm thời gian xử lý đáng kể.
Mơ hình transformer sử dụng kỹ thuật self-attention mà khơng sử dụng kiến trúc Recurrent (hồi quy) như RNNs. Trong kiến trúc của mình, Transformer chứa 6 encoder và 6 decoder. Mỗi encoder chứa hai lớp: Self- attention và mạng truyền thẳng (FNN).
Self-Attention là cơ chế giúp encoder nhìn vào các từ khác trong lúc mã hĩa một từ cụ thể, vì vậy,Transformers cĩ thể hiểu được sự liên quan giữa các từ trong một câu, kể cả khi chúng cĩ khoảng cách xa. Các decoder cũng cĩ kiến
trúc giống như vậy nhưng giữa chúng cĩ một lớp attention để nĩ cĩ thể tập trung vào các phần liên quan của đầu vào.
Input Embedding Input Output Embedding Output (shifted right) + Multi-Head attention Add & Norm
Multi-Head attention Add & Norm
Masked Multi-Head
attention Add & Norm Add & Norm
Feed Forward Add & Norm
Multi-Head attention Nx Softmax Linear Output Probabilities Nx Positional
Encoding ~ + ~ PositionalEncoding
Hình 1.8. Kiến trúc mơ hình transformer
Dịch máy dựa trên cụm từ được sử dụng nhiều trong nghiên cứu và cơng
nghiệp với các ưu điểm dịch đầy đủ, dễ can thiệp xử lý gỡ lỗi trong quá trình dịch. Gần đây dịch máy mạng nơ-ron đã cho thấy tiềm năng và một số trường hợp đã vượt qua dịch máy dựa trên cụm từ [7], [23], [52], [105]. Ưu điểm của dịch máy nơ-ron là: dịch trơi chảy hơn, sát nghĩa hơn. Tuy nhiên, dịch máy nơ-
ron cũng cĩ các nhược điểm như: nhiều trường hợp bản dịch khơng đầy đủ, hiện tượng từ chưa biết (unknown word) làm giảm chất lượng dịch, quá trình dịch như hộp đen nên khĩ can thiệp xử lý và gỡ lỗi... Trong nghiên cứu của
Philip Koehn [59] đã chỉ ra 6 thách thức của dịch máy mạng nơ-ron gồm: dịch ngồi miền, dịch với dữ liệu ít, các từ hiếm gặp, dịch với các câu dài, mơ hình
chú ý (Attention) khơng phải là giĩng hàng, vấn đề khĩ để điều khiển nâng cao chất lượng dịch. Nghiên cứu của Zheng và cộng sự [134] chỉ ra hệ thống dịch máy nơ-ron cĩ thể bị gây lỗi cho các bản dịch do đặc điểm của các ngơn ngữ
và khi thiết kế các mạng nơ-ron gồm: mất thơng tin, sai ngữ nghĩa và thiếu
logic. Nghiên cứu của Ott và cộng sự [90] đã chỉ ra tính khơng chính xác trong dịch máy mạng nơ-ron ...
Tương tự như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạng nơ-ron là mơ hình dịch máy dựa trên dữ liệu, phụ thuộc vào dữ liệu song ngữ được sử dụng để huấn luyện. Chất lượng dịch của một hệ thống liên quan đến số lượng và chất lượng của tập dữ liệu huấn luyện. Các đặc điểm của dịch
máy mạng nơ-ron gồm:
- Dịch máy mạng nơ-ron cho kết quả dịch trơi chảy hơn nhưng khơng đầy đủ. Đầu ra bản dịch thường dễ đọc nhưng nghĩa của câu chưa hay. Trong khi đĩ, dịch máy thống kê về mặt ngữ pháp, dùng mơ hình ngơn ngữ cĩ thể khơng đúng và trơi chảy như dịch máy nơ-ron, nhưng nghĩa của bản dịch thường sát nghĩa với câu nguồn.
- Dịch máy mạng nơ-ron cho kết quả tốt khi dịch các câu thường hay xuất hiện nhưng lại khơng tốt khi dịch các câu ít xuất hiện trong dữ liệu huấn luyện (ngược lại với dịch máy thống kê). Ví dụ như: các từ hiếm ít gặp, các từ khơng xác định ... Dịch máy mạng nơ-ron cho kết quả tốt khi cĩ nhiều dữ liệu huấn luyện nhưng kết quả thường khơng cao cho các miền cụ thể hoặc với các ngơn ngữ cĩ nguồn tài nguyên hạn chế.
- Dịch máy nơ-ron cĩ thể đưa ra các ứng viên bản dịch khơng xuất hiện trong dữ liệu huấn luyện, nhưng dịch máy thống kê cĩ thể lựa chọn bản dịch tốt hơn do cĩ thể can thiệp xử lý các bản dịch này.
Trong các hệ thống dịch máy thống kê dựa trên cụm từ, các giĩng hàng từ khơng chỉ dùng để huấn luyện mơ hình dịch mà cịn cung cấp các thơng tin
gỡ lỗi hữu ích để kiểm tra lại mơ hình. Nhưng mơ hình chú ý (attention) của dịch máy nơ-ron lại khơng thể quan sát các giĩng hàng từ theo cách thơng thường, ngay cả khi đã giải quyết vấn đề của mơ hình chú ý như giĩng hàng mềm.
Dịch máy thống kê dựa trên cụm từ vẫn thể hiện các ưu điểm trong các trường hợp các ngơn ngữ với nguồn tài nguyên hạn chế. Năm 2018, trong dự án về dịch máy cho các ngơn ngữ hạn chế về tài nguyên [98], Philip Koehn đã đề cập đến vấn đề cần rất nhiều dữ liệu cho các hệ thống dịch mạng nơ-ron.
Trường hợp hạn chế nguồn tài nguyên, dịch máy dựa trên mạng nơ-ron chưa thể hiện được các ưu điểm so với dịch máy thống kê dựa trên cụm. Các ưu điểm của dịch thốngkê dựa trên cụm từ là hướng nghiên cứu được quan tâm để kết hợp với điểm mạnh trong dịch máy mạng nơ-ron [14], [62]. Ngồi ra, dịch máy
thống kê địi hỏi tài nguyên phần cứng ít hơn dịch máy nơ-ron.