Định nghĩa• Là một mô hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.Điểm yếu:• Thời gian và tốc độ train rất chậm, không tậ
Trang 3• Transformer:
1 TỔNG QUAN
Được giới thiệu vào năm 2017, dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên (NLP)
Trang 4Định nghĩa
• Là một mô hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ
liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.
Điểm yếu:
• Thời gian và tốc độ train rất chậm, không tận dụng được tính toán song song trên GPU.
• Xử lý không tốt với những câu dài do hiện tượng Gradient
Recurrent Neural Networks (RNNs)
Trang 5Long-short Term Memory (LSTM)
Định nghĩa
• LSTM được phát triển để giải quyết vấn đề Gradient Vanishing của RNNs LSTM cell có thêm một nhánh C cho phép toàn bộ
thông tin đi qua cell, giúp duy trì thông tin cho những câu dài.
Điểm yếu:
• Thời gian và tốc độ train rất chậm, không tận dụng được tính toán song song trên GPU.
• Xử lý không tốt với những câu dài do hiện tượng Gradient Vanishing/Exploding.
Trang 8Làm thế nào để biểu diễn một từ cho máy hiểu được?
Trang 9Word Embedding
là một phương pháp biểu diễn các từ bằng vecto theo cách mà các từ tương tự có vecto tương tự
Trang 11Positional Encoding
Trang 13Self Attentiontính toán mối quan hệ của các từ với nhau
Trang 14Self Attention
• Query: vector dùng để chứa thông tin của từ được tìm kiếm, so sánh
• Key : vector dùng để biểu diễn thông tin các từ được so sánh với từ cần
tìm kiếm ở trên
• Value : vector biểu diễn nội dung, ý nghĩa của các từ
Trang 15Self Attention
Trang 16Multi Head Attention
Trang 18DECODER
Trang 19Masked Multi Head Attention
Trang 21Transformer big Transformer base
3 KẾT QUẢ THỰC NGHIỆM
Trang 223.1 DỊCH MÁY
Hình 2: Hiệu suất của mô hình máy biến áp trong quá trình dịch thuật so với các mô hình khác
Trang 233.2 CÁC BIẾN THỂ CỦA MÔ HÌNH
Hình 3: Các biến thể của kiến trúc
Trang 25Hình 4: Hiệu suất của mô hình máy biến áp trong nhiệm vụ phân tích cú pháp bằng Tiếng Anh
3.3 PHÂN TÍCH CÚ PHÁP TIẾNG ANH
Trang 264 ỨNG DỤNG
01 Mô hình Transformer đã đạt được thành công lớn trong việc dịch ngôn ngữ, nhận dạng giọng nói, dịch giọng nói và dự đoán chuỗi thời
gian.
Trang 29• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum ac fringilla Nunc cursus, arcu nec pretium aliquet.
• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum ac fringilla Nunc cursus, arcu nec pretium aliquet.
03 Trong tài chính, mô hình Transformer được sử dụng để phân tích dữ liệu chuỗi thời gian
4 ỨNG DỤNG
Trang 305 KẾT LUẬN
TÍNH LINH HOẠT VÀ TỔNG QUÁT
CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN HIỆU SUẤT
TỐI ƯU HÓA VÀ HUẤN LUYỆNHIỆU SUẤT MÔ HÌNH
Mô hình có khả năng tổng quát hóa tốt đối với các nhiệm vụ
khác như phân tích cú pháp tiếng Anh
Mô hình Transformer cho thấy hiệu suất xuất sắc trong nhiệm vụ
dịch máy cho thấy sự vượt trội so với các mô hình trước đó
Thông qua việc sử dụng bộ tối ưu hóa Adam và điều chỉnh tốc độ học, áp dụng các phương pháp chuẩn hóa như dropout và label
smoothing.Số lượng và kích thước của đầu chú
ý, kích thước mô hình, việc áp dụng các kỹ thuật như dropout và
label smoothing,