2.1.7.1. Cơ chế tự chỳ ý
Cơ chế tự chỳ ý (self-attention) được sử dụng để giỳp cho mụ hỡnh nắm bắt được sự liờn quan giữa cỏc từ trong một cõu, cho phộp mụ hỡnh xỏc định được cỏc từ cú liờn quan với một từ cho trước và sau đú thụng tin sẽ được mó húa dựa trờn tất cả cỏc từ đú.
Self-attention nhận đầu vào là ba vộc tơ được tạo ra từ cựng một chuỗi: Q - vộc tơ lưu trữ thụng tin từ cần tỡm kiếm (kớch thước dk), K - vộc tơ biểu diễn thụng tin cỏc từ trong cõu so sỏnh với từ cần tỡm kiếm (kớch thước dk) và V - vộc tơ biểu diễn nội dung của cỏc từ (kớch thước dv) trong chuỗi. Quỏ trỡnh tớnh toỏn self-attention cú thể được mụ tả qua cỏc bước như sau:
- Bước 1: Tớnh cỏc ma trận Q, K, V bằng cỏch nhõn vộc tơ mó húa từ của cỏc từ đầu vào với cỏc ma trận trọng số học tương ứng.
- Bước 2: Tớnh tớch vụ hướng của hai ma trận Q, K với mục đớch so sỏnh giữa cõu Q và K để học mối tương quan
- Bước 3: Chuẩn húa cỏc giỏ trị đó tớnh được về khoảng [0; 1] sử dụng hàm softmax (với ý nghĩa bằng 1 khi cõu Q giống với K, ngược lại thỡ bằng 0).
- Bước 4: Kết quả trả ra được tớnh bằng tớch vụ hướng của ma trận vừa tớnh toỏn ở trờn với ma trận V theo cụng thức: ( , , ) ( T) k QK d Attention Q K V softmax V (2.34)
2.1.7.2. Kiến trỳc của Transformer
Mụ hỡnh Transformer [97] được đề xuất với khả năng tớnh toỏn song song và nắm bắt được phụ thuộc xa nhờ cơ chế self-attention đó đạt được hiệu quả cao trong cỏc nhiệm vụ xử lý ngụn ngữ tự nhiờn. Mụ hỡnh Transformer được biểu diễn trong Hỡnh 2.12 dưới đõy, bao gồm bộ mó húa và bộ giải mó với cỏc từ đầu vào được đưa vào mụ hỡnh đồng thời nờn khụng cú khỏi niệm bước, thay vào đú là cơ chế self- attention.
40
Hỡnh 2.12. Mụ hỡnh Transformer [97]
Bộ mó húa và bộ giải mó gồm cỏc lớp xếp chồng lờn nhau, mỗi lớp gồm 2 thành phần chớnh được mụ tả như sau:
Mó húa vị trớ của từ (Positional Encoding): Do cỏc từ được đưa vào đồng thời nhưng ta muốn biểu diễn được ngữ cảnh của từ nờn cần thờm mó húa vị trớ của từ
(PE - Positional Encoding) vào cỏc mó húa từ đầu vào (WE - word embedding) để thờm thụng tin về vị trớ của từ trong chuỗi (cỏc PE cú cựng kớch thước với cỏc WE để cú thể thực hiện tớnh tổng được). Sau đú, biểu diễn của một từ được tớnh bằng cỏch cộng hai vộc tơ PE và WE để đưa vào bộ mó húa. PE của từ thứ i trong cõu được tớnh như sau:
mod ( ,2 ) sin 2 10000 el pos i i d pos PE (2.35) mod ( ,2 1) cos 2 10000 el pos i i d pos PE (2.36) trong đú: pos là vị trớ của từ trong cõu, PE là giỏ trị phần tử thứ i trong vộc tơ mó húa từ cú độ dài dmodel.
41
Hỡnh 2.13. Scaled Dot-Product Attention và Multi-Head Attention [97]
Cơ chế chỳ ý nhiều “đầu” (Multi-Head Attention): Self-attention giỳp cho mụ hỡnh thấy được mức độ chỳ ý của một từ tới cỏc từ cũn lại. Để chỳ ý vào cỏc vị trớ khỏc nhau, mụ hỡnh sử dụng cơ chế chỳ ý nhiều “đầu”. Cơ chế chỳ ý nhiều “đầu” gồm cỏc lớp self-attention xếp chồng song song, mỗi lớp self-attention cú một phộp biến đổi tuyến tớnh riờng biệt từ cựng một đầu vào được gọi là “đầu”. Mỗi “đầu” sẽ cho kết quả riờng, cỏc ma trận này được ghộp nối với nhau, sau đú nhõn với một ma trận tham số học để được một ma trận chỳ ý đầu ra duy nhất. Chỳ ý nhiều “đầu”
được tớnh toỏn theo cụng thức:
1 2
( , , ) ( , ,...., h)WO
MultiHead Q K V Concat head head head (2.37) trong đú: headi=Attention( W , W , W )Q iQ K iK V iV , Concat head head( 1, 2,....,headh)là phộp ghộp nối cỏc đầu headi, h là số đầu, cỏc ma trận
x x x d
WQRdmodel dk, WKRdmodel dk, WV Rdmodel v
i i i và x
WORhdv dmodel là cỏc tham số học.
Multi-head attention ứng dụng trong mụ hỡnh Transformer như sau [98]:
Cỏc lớp self-attention trong bộ mó húa cú ba vộc tơ K, V và Q đến từ cựng một chuỗi đầu vào, chuỗi này là đầu ra của lớp trước đú của bộ mó húa.
Trong lớp chỳ ý mó húa - giải mó (encoder-decoder attention) thỡ cơ chế chỳ ý được sử dụng ở đõy khụng phải là self-attention mà là attention. Cỏc vộc tơ K, V đến từ đầu ra của bộ mó húa, cũn vộc tơ Q đến từ lớp giải mó trước đú của bộ giải mó.
Cỏc lớp self-attention trong bộ giải mó cho phộp mỗi vị trớ trong bộ giải mó tham gia vào tất cả cỏc vị trớ trong bộ giải mó. Tuy nhiờn, việc tớnh trọng số chỳ ý cần che đi một phần cỏc vị trớ đầu ra và được thực hiện bởi cơ chế scaled dot- product attention. Cơ chế scaled dot-product attention này tương tự như cơ chế dot- product attention nhưng cú thờm hệ số tỉ lệ.
Trong bộ giải mó cũn cú lớp chỳ ý nhiều “đầu” bị che (Masked Multi-Head Attention). Về bản chất, lớp này là Multi-head attention. Ngoài ra, Transformer cũn cú cỏc lớp cộng và chuẩn húa (Add & Norm) và mạng nơ ron truyền thẳng (Feed Forward).
42