Self-Attention và Cross -Attention

Một phần của tài liệu luận văn thạc sĩ phát triển chatbot trên nền tảng transformers ứng dụng trong tìm kiếm tra cứu thông tin về trường đại học công nghệ đông á (Trang 30 - 33)

Sử dụng m¿ng LSTM gặp phải mát sákhó khăn sau:

Thồi gian huấn luyỏn dài và khú khăn: Do gradient path trong LSTM rất dài, đặc biỏt khi xử lý cỏc chuòi dài, điÁu này làm tăng thồi gian và đỏ phāc t¿p cÿa quỏ trỡnh huấn luyỏn. Mòi chuòi dữ liỏu, dự cú đỏ dài ngắn khỏc nhau đÁu t°¢ng đ°¢ng vãi viác huấn luyán mát m¿ng có sá lãp t°¢ng āng, gây ra khó khăn trong quá trình tái °u hóa.

Transfer learning khụng hiỏu quả: LSTM th°ồng khụng thớch āng tỏt vói viác chuyển giao ki¿n thāc từ mát nhiám vụ huấn luyán sang mát nhiám vụ mói. ĐiÁu này cú ngh*a là khi ỏp dụng LSTM vào mỏt bài toỏn mói, th°ồng

cần phải huấn luyỏn l¿i mụ hỡnh vói dữ liỏu mói, tỏn kộm thồi gian và tài nguyên.

H¿n ch¿ cÿa mô hình seq2seq: Trong mô hình seq2seq vãi LSTM, viác encoder "nộn" toàn bỏ chuòi đầu vào thành mỏt vector biểu diòn duy nhất cú

thể dÁn đ¿n viỏc mất mỏt thụng tin quan trọng, đặc biỏt là khi chuòi đầu vào cú đỏ dài lón. Decoder chò cú thể nhỡn vào mỏt vector đầu vào duy nhất, điÁu này làm giảm khảnăng xử lý cỏc phần khỏc nhau cÿa chuòi đầu vào t¿i từng b°óc, dÁn đ¿n sự giãi h¿n trong viác trích xuất thông tin cần thi¿t. C¢ ch¿ chú ý (Attention mechanism) ra đồi để giải quy¿t vấn đÁ này bằng cỏch tập trung vào cỏc phần quan trọng cÿa chuòi đầu vào t¿i mòi b°óc trong quỏ trỡnh giải mó.

Self-Attention:

C¢ ch¿ tự chú ý (Self-Attention) là c¢ ch¿ giúp Transformers "hiểu" đ°ợc sự liên quan giữa các từ trong mát câu. Ví dụ nh° từ "kicked" trong câu "I kicked the ball" (tôi đã đá quả bóng) liên quan nh° th¿nào đ¿n các từ khác?

Liên quan mật thi¿t đ¿n từ "I" (chÿ ngữ), "kicked" là chính nó lên sẽ luôn "liên quan m¿nh" và "ball" (vá ngữ). Ngoài ra từ "the" là giãi từ nên sự liên k¿t vãi từ "kicked" gần nh° không có [7].

Hình 2.8. C¢ ch¿ Self-Attention Đầu vào cÿa các mô-đun Multi-head Attention có ba mũi tên là ba véc- t¢ Querys (Q), Keys (K) và Values (V). Từ ba véc-t¢ này, tính véc-t¢ attention Z cho mát từ theo công thāc sau:

ý = ýý�㕓þ �㕚þ�㕥 (√Dimension of vector Q K or V�㕄.�㔾�㕇 ) . �㕉 (2.3) Thực hián tính nh° sau:

B°ớc 1: Tính ba véc-t¢ Q, K, V, input embedding đ°ợc nhân vãi ba ma trận trọng sát°¢ng āng WQ, WK, WV.

B°ớc 2: vộc-tÂK đúng vai trũ nh° mỏt biểu diòn cho từ trong cõu, đ°ợc sử dụng nh° các "khóa". Vector Q, đ¿i dián cho từ hián t¿i hoặc từđang đ°ợc xem xét, sẽ truy vấn đ¿n các vector K cÿa các từ khác trong câu bằng cách thực hián phép nhân chập vãi chúng. Nhân chập để tính toán đá liên quan giữa các từ vãi nhau (2 từ liên quan đ¿n nhau sẽ có "Score" lãn). B°ãc "Scale" chia

"Score" cho căn bậc hai cÿa sá chiÁu cÿa Q/K/V (trong hình chia 8 vì Q/K/V là 64-D véc-t¢) giúp giá trá "Score" không phụ thuác vào đá dài cÿa véc-t¢ Q/K/V.

B°ớc 3: Sử dụng hàm softmax để chu¿n hóa các giá trá k¿t quả vÁ đo¿n từ0 đ¿n 1. K¿t quả cÿa quá trình này thể hián māc đát°¢ng đồng giữa Q và K.

N¿u giá trá là 1 tāc là t°¢ng đồng hoàn toàn và 0 biểu thá sựkhông t°¢ng đồng.

B°ớc 4: Nhõn phõn bỏ xỏc suất đú vói vộc-t V để lo¿i bò những từ khụng cần thi¿t (xỏc suất nhò) và giữ l¿i những từ quan trọng (xỏc suất lón).

B°ớc 5: Thực hián cáng các vector V để t¿o ra véc-t¢ chú ý Z cho mát từ cụ thể. Quá trình này đ°ợc lặp l¿i cho tất cả các từ trong câu để t¿o ra ma trận chú ý cho câu đó.

Cross Attention:

C¢ ch¿ chú ý chéo (Cross-Attention) hoặc lãp chú ý chéo, cho phép các mô hình xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) nắm bắt cỏc mỏi quan hỏ phāc t¿p và sự phụ thuỏc giữa cỏc chuòi đầu vào khỏc nhau. Nú v°ợt xa c ch¿ tự chỳ ý, tập trung vào sự hiểu bi¿t trong mỏt chuòi duy nhất và cho phép mô hình ti¿p thu thông tin từ nhiÁu nguồn mát cách hiáu quả.

Chú ý chéo ho¿t đáng bằng cách tính toán trọng sá attention phản ánh māc đỏ liờn quan cÿa từng phần tử trong chuòi này vói cỏc phần tử trong chuòi khác. Bằng cách tận dụng các truy vấn, khóa và giá trá, c¢ ch¿ này sẽ tính toán trọng sỏ chỳ ý dựa trờn sựt°Âng đồng hoặc t°Âng quan giữa cỏc chuòi. Ng°ợc l¿i, các trọng sánày đ°ợc sử dụng để t¿o ra các véc-t¢ ngữ cảnh nhằm nắm bắt thụng tin quan trọng từ chuòi khỏc. Khả năng m¿nh mẽ này cho phộp cỏc mụ hình trích xuất những hiểu bi¿t sâu sắc vÁ sắc thái và đ°a ra quy¿t đánh sáng suát trong các nhiám vụ NLP khác nhau.

Một phần của tài liệu luận văn thạc sĩ phát triển chatbot trên nền tảng transformers ứng dụng trong tìm kiếm tra cứu thông tin về trường đại học công nghệ đông á (Trang 30 - 33)

Tải bản đầy đủ (PDF)

(70 trang)