1. Trang chủ
  2. » Luận Văn - Báo Cáo

slide thuyết trình mô hình transformer

31 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Hình Transformer
Tác giả Nhóm 08
Trường học Trường Đại Học
Chuyên ngành Trí Tuệ Nhân Tạo
Thể loại Báo Cáo
Năm xuất bản 2017
Định dạng
Số trang 31
Dung lượng 9,2 MB

Nội dung

Định nghĩa• Là một mô hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể.Điểm yếu:• Thời gian và tốc độ train rất chậm, không tậ

Trang 2

05

02

04

Trang 3

• Transformer:

1 TỔNG QUAN

Được giới thiệu vào năm 2017, dùng chủ yếu ở lĩnh vực xử lý ngôn ngữ tự

nhiên (NLP)

Trang 4

Định nghĩa

• Là một mô hình học sâu được đào tạo

để xử lý và chuyển đổi đầu vào dữ

liệu tuần tự thành đầu ra dữ liệu tuần

tự cụ thể.

Điểm yếu:

• Thời gian và tốc độ train rất chậm,

không tận dụng được tính toán song

song trên GPU

• Xử lý không tốt với những câu dài do

hiện tượng Gradient

Vanishing/Exploding

Recurrent Neural Networks (RNNs)

Trang 5

Long-short Term Memory (LSTM)

Định nghĩa

• LSTM được phát triển để giải quyết vấn đề

Gradient Vanishing của RNNs LSTM cell có

thêm một nhánh C cho phép toàn bộ

thông tin đi qua cell, giúp duy trì thông tin

cho những câu dài

Điểm yếu:

• Thời gian và tốc độ train rất chậm, không

tận dụng được tính toán song song trên

GPU

• Xử lý không tốt với những câu dài do hiện

tượng Gradient Vanishing/Exploding

Trang 6

• Ra đời giải quyết triệt để vấn đề của RNN và LSTM

• Sử dụng 2 phần Encoder và Decoder khá giống RNN nhưng input được

đẩy vào cùng một lúc.

• Sử dụng cơ chế Self-Attention

Trang 7

• Mô hình Transformer gồm 2 phần chính là encoder (bộ mã hóa) và

Trang 8

Làm thế nào để biểu diễn một

từ cho máy hiểu được?

“Groot”

hot vecto

one-#1960

Trang 9

Word Embedding

là một phương pháp biểu diễn các từ bằng vecto theo cách mà các từ tương tự có vecto tương tự

Trang 11

Positional Encoding

Trang 13

Self Attention tính toán mối quan hệ của các từ với

nhau

Trang 14

Self Attention

• Query: vector dùng để chứa thông

tin của từ được tìm kiếm, so sánh

• Key : vector dùng để biểu diễn thông tin các từ được so sánh với từ cần

tìm kiếm ở trên

• Value : vector biểu diễn nội dung, ý nghĩa của các từ

Trang 15

Self Attention

Trang 16

Multi Head Attention

Trang 18

DECODER

Trang 19

Masked Multi Head Attention

Trang 21

Transformer big Transformer base

3 KẾT QUẢ THỰC NGHIỆM

Trang 22

3.1 DỊCH MÁY

Hình 2: Hiệu suất của mô hình máy biến áp trong quá trình dịch thuật so với các mô hình

khác

Trang 23

3.2 CÁC BIẾN THỂ CỦA MÔ HÌNH

Hình 3: Các biến thể của kiến trúc

Transformer

Các thử nghiệm với biến thể của mô hình

cơ bản cho

thấy sự thay đổi về hiệu suất và

hiệu quả tính toán.

Trang 24

3.3

PHÂN TÍCH CÚ

PHÁP

TIẾNG ANH

Trang 25

Hình 4: Hiệu suất của mô hình máy biến áp trong nhiệm vụ phân tích cú pháp

bằng Tiếng Anh

3.3 PHÂN TÍCH CÚ PHÁP TIẾNG ANH

Trang 26

4 ỨNG DỤNG

01 Mô hình Transformer đã đạt được thành công lớn trong việc dịch ngôn ngữ, nhận dạng giọng nói, dịch giọng nói và dự đoán chuỗi thời

gian

Trang 27

VÍ DỤ

• Mô hình GPT của OpenAI

• GPT-2 có thể được điều chỉnh để chơi cờ vua

Trang 28

4 ỨNG DỤNG

02 Hiểu sâu hơn về mối quan hệ giữa gen và axit amin trong DNA và protein

Một nhóm các nhà nghiên cứu Google DeepMind đã phát triển

AlphaFold

Trang 29

• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum

ac fringilla Nunc cursus, arcu nec pretium aliquet.

• Lorem ipsum dolor sit amet, consectetur adipiscing elit Integer vulputate vel ipsum

ac fringilla Nunc cursus, arcu nec pretium aliquet.

03 Trong tài chính, mô hình Transformer được sử dụng để phân

tích dữ liệu chuỗi thời gian

4 ỨNG DỤNG

Trang 30

5 KẾT LUẬN

TÍNH LINH HOẠT VÀ TỔNG QUÁT

CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN

HIỆU SUẤT

TỐI ƯU HÓA VÀ HUẤN LUYỆN

HIỆU SUẤT MÔ HÌNH

Mô hình có khả năng tổng quát hóa tốt đối với các nhiệm vụ khác như phân tích cú pháp

tiếng Anh

Mô hình Transformer cho thấy

hiệu suất xuất sắc trong nhiệm vụ

dịch máy cho thấy sự vượt trội so

với các mô hình trước đó

Thông qua việc sử dụng bộ tối ưu hóa Adam và điều chỉnh tốc độ học, áp dụng các phương pháp chuẩn hóa như dropout và label

smoothing.

Số lượng và kích thước của đầu chú

ý, kích thước mô hình, việc áp

dụng các kỹ thuật như dropout và

label smoothing,

Trang 31

THANK YOU FOR

LISTENING!

nhóm 08 - Trí tuệ nhân tạo

Ngày đăng: 22/04/2024, 06:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN