1. Trang chủ
  2. » Luận Văn - Báo Cáo

slide thuyết trình mô hình transformer

31 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Hình Transformer
Tác giả Nhóm 08
Trường học Trường Đại Học
Chuyên ngành Trí Tuệ Nhân Tạo
Thể loại Báo Cáo
Năm xuất bản 2017
Định dạng
Số trang 31
Dung lượng 9,2 MB

Nội dung

Định nghĩa• Là một mô hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.Điểm yếu:• Thời gian và tốc độ train rất chậm, không tậ

Trang 3

• Transformer:

1 TỔNG QUAN

Được giới thiệu vào năm 2017, dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự nhiên (NLP)

Trang 4

Định nghĩa

• Là một mô hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ

liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.

Điểm yếu:

• Thời gian và tốc độ train rất chậm, không tận dụng được tính toán song song trên GPU.

• Xử lý không tốt với những câu dài do hiện tượng Gradient

Recurrent Neural Networks (RNNs)

Trang 5

Long-short Term Memory (LSTM)

Định nghĩa

• LSTM được phát triển để giải quyết vấn đề Gradient Vanishing của RNNs LSTM cell có thêm một nhánh C cho phép toàn bộ

thông tin đi qua cell, giúp duy trì thông tin cho những câu dài.

Điểm yếu:

• Thời gian và tốc độ train rất chậm, không tận dụng được tính toán song song trên GPU.

• Xử lý không tốt với những câu dài do hiện tượng Gradient Vanishing/Exploding.

Trang 8

Làm thế nào để biểu diễn một từ cho máy hiểu được?

Trang 9

Word Embedding

là một phương pháp biểu diễn các từ bằng vecto theo cách mà các từ tương tự có vecto tương tự

Trang 11

Positional Encoding

Trang 13

Self Attentiontính toán mối quan hệ của các từ với nhau

Trang 14

Self Attention

• Query: vector dùng để chứa thông tin của từ được tìm kiếm, so sánh

• Key : vector dùng để biểu diễn thông tin các từ được so sánh với từ cần

tìm kiếm ở trên

• Value : vector biểu diễn nội dung, ý nghĩa của các từ

Trang 15

Self Attention

Trang 16

Multi Head Attention

Trang 18

DECODER

Trang 19

Masked Multi Head Attention

Trang 21

Transformer big Transformer base

3 KẾT QUẢ THỰC NGHIỆM

Trang 22

3.1 DỊCH MÁY

Hình 2: Hiệu suất của mô hình máy biến áp trong quá trình dịch thuật so với các mô hình khác

Trang 23

3.2 CÁC BIẾN THỂ CỦA MÔ HÌNH

Hình 3: Các biến thể của kiến trúc

Trang 25

Hình 4: Hiệu suất của mô hình máy biến áp trong nhiệm vụ phân tích cú pháp bằng Tiếng Anh

3.3 PHÂN TÍCH CÚ PHÁP TIẾNG ANH

Trang 26

4 ỨNG DỤNG

01 Mô hình Transformer đã đạt được thành công lớn trong việc dịch ngôn ngữ, nhận dạng giọng nói, dịch giọng nói và dự đoán chuỗi thời

gian.

Trang 29

• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum ac fringilla Nunc cursus, arcu nec pretium aliquet.

• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum ac fringilla Nunc cursus, arcu nec pretium aliquet.

03 Trong tài chính, mô hình Transformer được sử dụng để phân tích dữ liệu chuỗi thời gian

4 ỨNG DỤNG

Trang 30

5 KẾT LUẬN

TÍNH LINH HOẠT VÀ TỔNG QUÁT

CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN HIỆU SUẤT

TỐI ƯU HÓA VÀ HUẤN LUYỆNHIỆU SUẤT MÔ HÌNH

Mô hình có khả năng tổng quát hóa tốt đối với các nhiệm vụ

khác như phân tích cú pháp tiếng Anh

Mô hình Transformer cho thấy hiệu suất xuất sắc trong nhiệm vụ

dịch máy cho thấy sự vượt trội so với các mô hình trước đó

Thông qua việc sử dụng bộ tối ưu hóa Adam và điều chỉnh tốc độ học, áp dụng các phương pháp chuẩn hóa như dropout và label

smoothing.Số lượng và kích thước của đầu chú

ý, kích thước mô hình, việc áp dụng các kỹ thuật như dropout và

label smoothing,

Ngày đăng: 22/04/2024, 06:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN