Định nghĩa• Là một mô hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.Điểm yếu:• Thời gian và tốc độ train rất chậm, không tậ
Trang 205
02
04
Trang 3• Transformer:
1 TỔNG QUAN
Được giới thiệu vào năm 2017, dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự
nhiên (NLP)
Trang 4Định nghĩa
• Là một mô hình học sâu được đào tạo
để xử lý và chuyển đổi đầu vào dữ
liệu tuần tự thành đầu ra dữ liệu tuần
tự cụ thể.
Điểm yếu:
• Thời gian và tốc độ train rất chậm,
không tận dụng được tính toán song
song trên GPU
• Xử lý không tốt với những câu dài do
hiện tượng Gradient
Vanishing/Exploding
Recurrent Neural Networks (RNNs)
Trang 5Long-short Term Memory (LSTM)
Định nghĩa
• LSTM được phát triển để giải quyết vấn đề
Gradient Vanishing của RNNs LSTM cell có
thêm một nhánh C cho phép toàn bộ
thông tin đi qua cell, giúp duy trì thông tin
cho những câu dài
Điểm yếu:
• Thời gian và tốc độ train rất chậm, không
tận dụng được tính toán song song trên
GPU
• Xử lý không tốt với những câu dài do hiện
tượng Gradient Vanishing/Exploding
Trang 6• Ra đời giải quyết triệt để vấn đề của RNN và LSTM
• Sử dụng 2 phần Encoder và Decoder khá giống RNN nhưng input được
đẩy vào cùng một lúc.
• Sử dụng cơ chế Self-Attention
Trang 7• Mô hình Transformer gồm 2 phần chính là encoder (bộ mã hóa) và
Trang 8Làm thế nào để biểu diễn một
từ cho máy hiểu được?
“Groot”
hot vecto
one-#1960
Trang 9Word Embedding
là một phương pháp biểu diễn các từ bằng vecto theo cách mà các từ tương tự có vecto tương tự
Trang 11Positional Encoding
Trang 13Self Attention tính toán mối quan hệ của các từ với
nhau
Trang 14Self Attention
• Query: vector dùng để chứa thông
tin của từ được tìm kiếm, so sánh
• Key : vector dùng để biểu diễn thông tin các từ được so sánh với từ cần
tìm kiếm ở trên
• Value : vector biểu diễn nội dung, ý nghĩa của các từ
Trang 15Self Attention
Trang 16Multi Head Attention
Trang 18DECODER
Trang 19Masked Multi Head Attention
Trang 21Transformer big Transformer base
3 KẾT QUẢ THỰC NGHIỆM
Trang 223.1 DỊCH MÁY
Hình 2: Hiệu suất của mô hình máy biến áp trong quá trình dịch thuật so với các mô hình
khác
Trang 233.2 CÁC BIẾN THỂ CỦA MÔ HÌNH
Hình 3: Các biến thể của kiến trúc
Transformer
Các thử nghiệm với biến thể của mô hình
cơ bản cho
thấy sự thay đổi về hiệu suất và
hiệu quả tính toán.
Trang 243.3
PHÂN TÍCH CÚ
PHÁP
TIẾNG ANH
Trang 25Hình 4: Hiệu suất của mô hình máy biến áp trong nhiệm vụ phân tích cú pháp
bằng Tiếng Anh
3.3 PHÂN TÍCH CÚ PHÁP TIẾNG ANH
Trang 264 ỨNG DỤNG
01 Mô hình Transformer đã đạt được thành công lớn trong việc dịch ngôn ngữ, nhận dạng giọng nói, dịch giọng nói và dự đoán chuỗi thời
gian
Trang 27VÍ DỤ
• Mô hình GPT của OpenAI
• GPT-2 có thể được điều chỉnh để chơi cờ vua
Trang 284 ỨNG DỤNG
02 Hiểu sâu hơn về mối quan hệ giữa gen và axit amin trong DNA và protein
Một nhóm các nhà nghiên cứu Google DeepMind đã phát triển
AlphaFold
Trang 29• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum
ac fringilla Nunc cursus, arcu nec pretium aliquet.
• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum
ac fringilla Nunc cursus, arcu nec pretium aliquet.
03 Trong tài chính, mô hình Transformer được sử dụng để phân
tích dữ liệu chuỗi thời gian
4 ỨNG DỤNG
Trang 305 KẾT LUẬN
TÍNH LINH HOẠT VÀ TỔNG QUÁT
CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN
HIỆU SUẤT
TỐI ƯU HÓA VÀ HUẤN LUYỆN
HIỆU SUẤT MÔ HÌNH
Mô hình có khả năng tổng quát hóa tốt đối với các nhiệm vụ khác như phân tích cú pháp
tiếng Anh
Mô hình Transformer cho thấy
hiệu suất xuất sắc trong nhiệm vụ
dịch máy cho thấy sự vượt trội so
với các mô hình trước đó
Thông qua việc sử dụng bộ tối ưu hóa Adam và điều chỉnh tốc độ học, áp dụng các phương pháp chuẩn hóa như dropout và label
smoothing.
Số lượng và kích thước của đầu chú
ý, kích thước mô hình, việc áp
dụng các kỹ thuật như dropout và
label smoothing,
Trang 31THANK YOU FOR
LISTENING!
nhóm 08 - Trí tuệ nhân tạo