7. Bố cục của luận án
1.3. Dịch máy nơ-ron
Các mơ hình dịch máy được sử dụng nhiều là dịch máy thống kê dựa trên cụm từ (PBSMT) [60], [88] và dịch máy nơ-ron (NMT) [4], [22].
Mơ hình sequence to sequence (seq2seq): mơ hình được đưa ra trong bài nghiên cứu của tác giả Sutskever và cộng sự [112] mà theo đĩ một câu sẽ được dịch bằng cách đưa vào một bộ mã hĩa và nối tiếp với một bộ giải mã để dịch ra một câu ở ngơn ngữ khác. Câu nguồn sẽ được mã hĩa thành một vector và được đưa vào bộ mã hĩa. Bộ giải mã sẽ lần lượt sinh từng từ trong chuỗi đầu ra dựa trên vector đầu vào và những từ được dự đốn trước đĩ cho tới khi gặp từ kết thúc câu. Trong mơ hình seq2seq chúng ta cĩ thể sử dụng những thành phần khác nhau cho bộ mã hĩa và giải mã như RNN hoặc những cải tiến như LSTM và GRU để giải quyết vấn đề phụ thuộc xa và biểu diễn các mỗi quan hệ phụ thuộc vào ngữ cảnh của câu.
Mơ hình seq2seq cơ bản cĩ nhược điểm là yêu cầu RNN decoder sử dụng tồn bộ thơng tin mã hĩa từ chuỗi đầu vào cho dù chuỗi đĩ dài hay ngắn. Thứ hai, RNN encoder cần phải mã hĩa chuỗi đầu vào thành một vec-tơ duy nhất và cĩ độ dài cố định. Ràng buộc này khơng thực sự hiệu quả vì trong thực tế, việc sinh ra từ tại một bước thời gian trong chuỗi đầu ra cĩ khi phụ thuộc nhiều hơn vào một số những thành phần nhất định trong chuỗi đầu vào. Ví dụ, khi dịch một câu từ tiếng nước này sang tiếng nước khác, chúng ta thường quan tâm nhiều hơn đến ngữ cảnh xung quanh từ hiện tại so với các từ khác trong câu. Kỹ thuật attention được đưa ra để giải quyết vấn đề đĩ.
Mơ hình seq2seq với kỹ thuật attention: Kỹ thuật attention lần đầu được đưa ra bởi Bahdanau và cộng sự [4]. Kỹ thuật attention khơng chỉ mã hĩa tồn bộ chuỗi đầu thành một vector duy nhất mà các từ trong chuỗi đầu vào sẽ được RNN encoder mã hĩa thành một dãy các vector. Sau đĩ RNN decoder áp dụng kỹ thuật attention để lấy trọng số của dãy các vector mã hĩa.
Je suis étudiant </s>
Các trọng số chú ý
I am a student <s> Je suis étudiant
Hình 1.7. Mơ hình RNN với kỹ thuật attention
0.1 0.1 0.3 0.5 Vec tơ ngữ cảnh Vec tơ chú ý (attention)
Các trọng số trong mơ hình này được tính bằng một mạng neural truyền thẳng. RNN encoder, RNN decoder và các tham số trong kỹ thuật attention được huấn luyện đồng thời từ dữ liệu. Như vậy, khi áp dụng kỹ thuật attention thay vì chỉ sử dụng vector trạng thái ẩn cuối cùng để tạo ra vector biểu diễn cho decoder, mơ hình cĩ thể tương tác với tồn bộ vector trạng thái ẩn của encoder. Các cơ chế attention cĩ thể được chia thành 3 dạng [27]: Self- attention, Global/Soft attention, Local/Hard attention.
Trong dịch máy, Attention nhận vào hai câu, chuyển chúng thành một ma trận với hàng và cột tương ứng với các từ trong hai câu đầu vào. Attention
sẽ khớp các từ của câu này với từ tương ứng ở câu kia để tập trung vào các từ cĩ liên kết mạnh của hai câu. Tính hợp lý của cách tiếp cận này cĩ thể thấy rõ ràng trong dịch máy, bên cạnh ý nghĩa của tồn câu, mơ hình cần “chú ý” vào các từ để học được cách dịch tự nhiên nhất. Attention khơng bị giới hạn trong việc tìm tương quan giữa các từ trong các câu ở hai ngơn ngữ khác nhau. Trong kỹ thuật “self-attention”, ma trận cĩ thể được tạo ra với hàng và cột là cùng một câu để hiểu những phần nào của câu sẽ liên quan đến nhau.
Mơ hình transformer: Mơ hình được giới thiệu lần đầu bởi Vaswani và cơng sự [125]. Transformer là một mơ hình học sâu được thiết kế để phục vụ giải quyết nhiều bài tốn trong xử lý ngơn ngữ tự nhiên, trong đĩ cĩ dịch máy. Khác với RNNs, Transformer khơng xử lý các phần tử trong một chuỗi một cách tuần tự. Nếu dữ liệu đầu vào là một câu ngơn ngữ tự nhiên, Transformer khơng cần phải xử lý phần đầu câu trước rồi mới tới phần cuối câu. Do tính năng này, Transformer cĩ thể tận dụng khả năng tính tốn song song của GPU và giảm thời gian xử lý đáng kể.
Mơ hình transformer sử dụng kỹ thuật self-attention mà khơng sử dụng kiến trúc Recurrent (hồi quy) như RNNs. Trong kiến trúc của mình, Transformer chứa 6 encoder và 6 decoder. Mỗi encoder chứa hai lớp: Self- attention và mạng truyền thẳng (FNN).
Self-Attention là cơ chế giúp encoder nhìn vào các từ khác trong lúc mã hĩa một từ cụ thể, vì vậy,Transformers cĩ thể hiểu được sự liên quan giữa các từ trong một câu, kể cả khi chúng cĩ khoảng cách xa. Các decoder cũng cĩ kiến
trúc giống như vậy nhưng giữa chúng cĩ một lớp attention để nĩ cĩ thể tập trung vào các phần liên quan của đầu vào.
Output Probabilities Nx Nx Input Output (shifted right)
Hình 1.8. Kiến trúc mơ hình transformer
Dịch máy dựa trên cụm từ được sử dụng nhiều trong nghiên cứu và cơng nghiệp với các ưu điểm dịch đầy đủ, dễ can thiệp xử lý gỡ lỗi trong quá trình dịch. Gần đây dịch máy mạng nơ-ron đã cho thấy tiềm năng và một số trường hợp đã vượt qua dịch máy dựa trên cụm từ [7], [23], [52], [105]. Ưu điểm của dịch máy nơ-ron là: dịch trơi chảy hơn, sát nghĩa hơn. Tuy nhiên, dịch máy nơ- Output Embedding Input Embedding Positional Encoding + ~ + ~ Positional Encoding
Masked Multi-Head attention Add & Norm
Multi-Head attention
Add & Norm Multi-Head attention Add & Norm
Multi-Head attention
Add & Norm Add & Norm Feed Forward
Softmax Linear
ron cũng cĩ các nhược điểm như: nhiều trường hợp bản dịch khơng đầy đủ, hiện tượng từ chưa biết (unknown word) làm giảm chất lượng dịch, quá trình dịch như hộp đen nên khĩ can thiệp xử lý và gỡ lỗi... Trong nghiên cứu của Philip Koehn [59] đã chỉ ra 6 thách thức của dịch máy mạng nơ-ron gồm: dịch ngồi miền, dịch với dữ liệu ít, các từ hiếm gặp, dịch với các câu dài, mơ hình chú ý (Attention) khơng phải là giĩng hàng, vấn đề khĩ để điều khiển nâng cao chất lượng dịch. Nghiên cứu của Zheng và cộng sự [134] chỉ ra hệ thống dịch máy nơ-ron cĩ thể bị gây lỗi cho các bản dịch do đặc điểm của các ngơn ngữ và khi thiết kế các mạng nơ-ron gồm: mất thơng tin, sai ngữ nghĩa và thiếu logic. Nghiên cứu của Ott và cộng sự [90] đã chỉ ra tính khơng chính xác trong dịch máy mạng nơ-ron ...
Tương tự như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạng nơ-ron là mơ hình dịch máy dựa trên dữ liệu, phụ thuộc vào dữ liệu song ngữ được sử dụng để huấn luyện. Chất lượng dịch của một hệ thống liên quan đến số lượng và chất lượng của tập dữ liệu huấn luyện. Các đặc điểm của dịch máy mạng nơ-ron gồm:
- Dịch máy mạng nơ-ron cho kết quả dịch trơi chảy hơn nhưng khơng đầy đủ. Đầu ra bản dịch thường dễ đọc nhưng nghĩa của câu chưa hay. Trong khi đĩ, dịch máy thống kê về mặt ngữ pháp, dùng mơ hình ngơn ngữ cĩ thể khơng đúng và trơi chảy như dịch máy nơ-ron, nhưng nghĩa của bản dịch thường sát nghĩa với câu nguồn.
- Dịch máy mạng nơ-ron cho kết quả tốt khi dịch các câu thường hay xuất hiện nhưng lại khơng tốt khi dịch các câu ít xuất hiện trong dữ liệu huấn luyện (ngược lại với dịch máy thống kê). Ví dụ như: các từ hiếm ít gặp, các từ khơng xác định ... Dịch máy mạng nơ-ron cho kết quả tốt khi cĩ nhiều dữ liệu huấn luyện nhưng kết quả thường khơng cao cho các miền cụ thể hoặc với các ngơn ngữ cĩ nguồn tài nguyên hạn chế.
- Dịch máy nơ-ron cĩ thể đưa ra các ứng viên bản dịch khơng xuất hiện trong dữ liệu huấn luyện, nhưng dịch máy thống kê cĩ thể lựa chọn bản dịch tốt hơn do cĩ thể can thiệp xử lý các bản dịch này.
Trong các hệ thống dịch máy thống kê dựa trên cụm từ, các giĩng hàng từ khơng chỉ dùng để huấn luyện mơ hình dịch mà cịn cung cấp các thơng tin
gỡ lỗi hữu ích để kiểm tra lại mơ hình. Nhưng mơ hình chú ý (attention) của dịch máy nơ-ron lại khơng thể quan sát các giĩng hàng từ theo cách thơng thường, ngay cả khi đã giải quyết vấn đề của mơ hình chú ý như giĩng hàng mềm.
Dịch máy thống kê dựa trên cụm từ vẫn thể hiện các ưu điểm trong các trường hợp các ngơn ngữ với nguồn tài nguyên hạn chế. Năm 2018, trong dự án về dịch máy cho các ngơn ngữ hạn chế về tài nguyên [98], Philip Koehn đã đề cập đến vấn đề cần rất nhiều dữ liệu cho các hệ thống dịch mạng nơ-ron. Trường hợp hạn chế nguồn tài nguyên, dịch máy dựa trên mạng nơ-ron chưa thể hiện được các ưu điểm so với dịch máy thống kê dựa trên cụm. Các ưu điểm của dịch thống kê dựa trên cụm từ là hướng nghiên cứu được quan tâm để kết hợp với điểm mạnh trong dịch máy mạng nơ-ron [14], [62]. Ngồi ra, dịch máy thống kê địi hỏi tài nguyên phần cứng ít hơn dịch máy nơ-ron. 1.4. Các phương pháp đánh giá hệ thống dịch máy
Đánh giá chất lượng các hệ thống dịch cĩ thể được thực hiện bằng 2 phương pháp: (1) thủ cơng hoặc (2) tự động.
Quá trình đánh giá thủ cơng cho điểm cho các câu dịch dựa trên sự trơi chảy và chính xác của chúng. Phần lớn mọi người cho rằng đây là phương pháp đánh giá chính xác nhất. Tuy nhiên cơng việc đánh giá thủ cơng này lại tiêu tốn quá nhiều thời gian và chi phí, đặc biệt khi cần so sánh nhiều mơ hình ngơn ngữ, nhiều hệ thống khác nhau. Mỗi phương pháp đánh giá đều cĩ ưu nhược điểm riêng. Tuy đánh giá tự động khơng thể phản ánh được hết mọi khía cạnh của chất lượng dịch, nhưng nĩ cĩ thể nhanh chĩng cho ta biết: chất lượng của hệ dịch ở tầm nào, cĩ tăng lên hay khơng sau khi cải tiến hoặc thay đổi một tham số nào đĩ. Trong thực tế, hai phương pháp này vẫn được sử dụng đồng thời, và điểm BLEU là độ đo chất lượng hệ dịch phổ biến nhất hiện nay, được đề xuất bởi Papineni [91].
1.4.1. Phương pháp tự động
Độ đo được sử dụng phổ biến nhất để đánh giá các hệ thống dịch máy là điểm BLEU [91]. Điểm BLEU được tính bằng cách đối chiếu kết quả dịch tự động với bản dịch do chuyên gia dịch (bản dịch tham chiếu). Ý tưởng chính
của điểm BLEU là dựa vào việc so sánh các cụm từ (càng dài càng tốt) trong kết quả dịch tự động với bản dịch tham chiếu, bản dịch này càng giống với bản dịch tham khảo thì hệ dịch cĩ chất lượng càng tốt. Điểm số BLEU được tính bởi cơng thức (1.4)
Trong đĩ:
= ×
���� �� ���(∑ �� � ����) (1.4)
BP là điểm phạt theo độ dài câu (brevity penalty), bao gồm các tham số c là số lượng các từ trong bản dịch cần đánh giá từ hệ thống dịch máy, r là tổng số từ trong bản dịch tham khảo và được tính theo cơng thức (1.5): �� = {1 �ế� � > � �(1−�/�) �ế� � ≤ � (1.5)
pn là tham số modified n-gram biểu diễn mức độ trùng khớp của bản dịch cần đánh giá từ hệ thống dịch máy so với các bản dịch tham khảo và được tính theo cơng thức (1.6):
�� = ∑�∈{����� �����} ∑�−����∈� ������� � �(�−����) ∑�∈{����� �����} ∑�−����∈� ����� (�−���� ) (1.6) Trong đĩ:
o Countclip(n-gram) là số lượng các cụm cĩ n từ liên tiếp (n- gram) trùng nhau giữa bản dịch cần đánh giá và bản dịch tham khảo;
o Count (n-gram) là số lượng các cụm cĩ n từ liên tiếp trong bản dịch của hệ thống dịch máy
N là độ dài tối đa của n-gram được so khớp, trọng số ��= 1/�. Thơng thường, các thử nghiệm chọn N=4 để cơng bố kết quả. Điểm BLEU cĩ giá trị nằm trong khoảng [0,1]. Tuy nhiên trong các cơng bố, điểm BLEU thường được biểu diễn dưới dạng tỷ lệ % với khoảng giá trị [0,100], điểm càng gần 100 thì chất lượng dịch càng tốt.
= � 1
Mặc dù Callison-Burch chỉ ra rằng điểm BLEU thường khơng thực sự tương quan với đánh giá thủ cơng của con người với các loại hệ thống khác nhau (đặc biệt với hệ thống dịch dựa vào luật), thế nhưng vẫn cĩ thể khá chính xác để đánh giá các hệ thống dịch máy. Chính vì vậy, trong phạm vi luận án này, NCS sử dụng điểm BLEU làm giá trị đánh giá chất lượng dịch của các hệ thống dịch máy tự động Việt - Anh.
1.4.2. Phương pháp thủ cơng
Sự lưu lốt và trơi trảy trong văn bản dịch thường đề cập tới mức độ bản dịch đĩ là tốt theo ngữ pháp của ngơn ngữ cần dịch ra. Dựa theo cách đánh giá dự án dịch các ngơn ngữ châu Âu “EuroMatrix” [18], thơng thường cĩ 5 mức độ để các chuyên gia đánh giá văn bản dịch:
Mức 1: Bản dịch hồn hảo, Mức 2: Bản dịch tốt,
Mức 3: Bản dịch hiểu được,
Mức 4: Bản dịch hiểu được một phần, Mức 5: Bản dịch khơng hiểu được.
1.5. Tăng cường dữ liệu huấn luyện cho hệ thống dịch máy
Chất lượng của các hệ thống học máy phụ thuộc rất nhiều vào dữ liệu huấn luyện. Hệ thống học máy chỉ thực sự cĩ hiệu quả khi cĩ đủ lượng dữ liệu để máy học, khơng đủ dữ liệu sẽ dẫn tới một số vấn đề:
- Thiếu tính tổng quát: mơ hình rất dễ quá khớp, kết quả trên tập huấn luyện cao, kết quả trên tập kiểm thử thấp.
- Khĩ huấn luyện mơ hình: khơng đủ dữ liệu mơ hình rất khĩ hội tụ về giá trị tối ưu.
- Chất lượng dự đốn sẽ khơng ổn định: Một số trường hợp kết quả sai khác rất nhiều và khi cĩ nhiễu đầu vào sẽ ảnh hưởng lớn tới chất lượng dự đốn.
Một trong những kỹ thuật để giải quyết vấn đề khơng đủ dữ liệu đĩ là
tăng cường dữ liệu là kỹ thuật tăng số lượng dữ liệu huấn luyện bằng các phép biến đổi tuyến tính hay phi tuyến trên dữ liệu gốc cĩ sẵn. Tăng cường dữ liệu
huấn luyện đã được quan tâm và áp dụng trong nhiều mơ hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, các kỹ thuật tăng cường ảnh giúp mở rộng kích thước của tập dữ liệu huấn luyện thơng qua việc áp dụng một loạt thay đổi ngẫu nhiên trên các mẫu ảnh, từ đĩ tạo ra các mẫu huấn luyện tuy tương tự nhưng vẫn cĩ sự khác biệt. Việc thay đổi ngẫu nhiên các mẫu dùng cho huấn luyện sẽ làm giảm sự phụ thuộc của mơ hình vào một số thuộc tính nhất định. Do đĩ, giúp cải thiện năng lực khái quát hĩa của mơ hình. Chẳng hạn, cĩ thể cắt tập ảnh theo các cách khác nhau, để các đối tượng ta quan tâm xuất hiện ở các vị trí khác nhau, vì vậy giảm sự phụ thuộc của mơ hình vào vị trí xuất hiện của đối tượng. Hoặc cũng thể điều chỉnh độ sáng, màu sắc, và các yếu tố khác để giảm độ nhạy màu sắc của mơ hình [116].
Đối với dịch máy, việc tăng chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện mơ hình đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mơ hình mới. Ý tưởng chính của tăng cường dữ liệu cho hệ thống dịch máy là khai thác sức mạnh của dữ liệu đơn ngữ, thường là dễ kiếm hơn và số lượng lớn hơn đáng kể so với dữ liệu song ngữ để làm giàu kho ngữ liệu song ngữ. Các phương pháp làm giàu dữ liệu song ngữ cĩ thể phân thành hai nhĩm lớn: các phương pháp độc lập với kiến trúc là nhĩm các phương pháp cĩ thể được sử dụng với mơ hình dịch bất kỳ để cải thiện chất lượng dịch, mơ hình dịch được coi là một hộp đen; và các phương pháp phụ thuộc vào kiến trúc là nhĩm các phương pháp yêu cầu những thay đổi trong mơ hình ngơn