Trước khi Transformer được giới thiệu thì trong xử lý ngôn ngữ tự nhiên mô hình RNN được coi là hiện đại nhất. Mô hình Transformer ra đời đã giải quyết được hiện tượng Vanishing Gradient, vấn đề cố hữu mà RNN gặp phải, Transformer xử lý các từ một cách đồng thời chứ không phải từng từ một nên tốc độ xử lý nhanh hơn rất nhiều, và bằng kĩ thuật Self Attention và Positional Encoding sẽ không gây mất mát thông tin trên câu có độ dài lớn, đặc biệt có thể xử lý câu có độ dài vô hạn.
Trong bài báo (8), tác giả đã thử nghiệm trên tập dữ liệu tiêu chuẩn WMT 2014 English-German bao gồm 4.5 triệu cặp câu với 37000 từ vựng và tập dữ liệu lớn WMT 2014 English-French bao gồm 36 triệu câu. Phần cứng thử nghiệm là một máy tính với 8 card GPU NVIDIA P100. Mô hình thử nghiệm trên 2 bộ dữ liệu là base và big model, với base model bao gồm 6 lớp mỗi bộ encoder và decoder, embedding có chiều 512, lớp ẩn của mạng truyền thẳng có chiều 2048, với 8 Head-Attention và trên big model cũng có 6 lớp cho mỗi bộ encoder và decoder với embedding 512 chiều, lớp ẩn của mạng truyền thẳng có chiều 4096 và 8 Head-Attention. Thực nghiệm thu được kết quả như sau:
25
Hình 2.5. So sánh Transformer với các mô hình khác dựa trên kết quả đánh giá của bài báo [8]
Ở phần dịch tập dữ liệu WMT 2014 English-German, mô hình Transformer với big model cho được kết quả tốt nhất với các mô hình được báo cáo trước đó với hơn 2.0 điểm BLEU, là mô hình tiên tiến nhất với điểm BLEU là 28.4, không những thế chi phí huấn luyện (training cost) theo điểm FLOPs chỉ bằng 1/3 so với mô hình ConvS2S (là mô hình có điểm FLOPs thấp nhất trên tập EN-DE).
Trên tập dữ liệu lớn hơn là WMT 2014 English-French, điểm BLUE của big model đạt được là 41.0 và là cao nhất so với các mô hình trước đó, với điểm FLOPs chỉ bằng 1/4 so với mô hình Deep-Att + PosUnk (là mô hình có FLOPs thấp nhất trên tập EN-FR).
Từ đó có thể kết luận mô hình Transformer đang cho kết quả tốt nhất với thời gian huấn luyện nhanh hơn đáng kể so với các mô hình hiện đại nhất hiện nay.