Giới thiệu về túm tắt văn bản

i i i i

s  f s y c (2.25) Ở đõy, mỗi xỏc suất cú điều kiện trờn một vộc tơ ngữ cảnh riờng biệt citương ứng với mỗi từ mục tiờu yi. Vộc tơ ngữ cảnh ci phụ thuộc vào chuỗi trạng thỏi

h h1, 2,....,hT mà bộ mó húa ỏnh xạ với cõu đầu vào. Mỗi trạng thỏi hi chứa thụng tin của toàn bộ cõu với sự chỳ ý tới cỏc thành phần xung quanh từ thứ i của cõu đầu vào. Sau đú, vộc tơ ngữ cảnh ciđược tớnh bằng tổng trọng số của cỏc trạng thỏi hi

theo cụng thức: 1   T i ij j j c h (2.26) trong đú: trọng số ij của mỗi trạng thỏi hjđược tớnh theo cụng thức:

( ) ij softmax eij hay 1 ( ) ( )     ij ij T ik k exp e exp e (2.27)

với: eij a s i1,hj là mụ hỡnh căn chỉnh cho biết độ tương quan giữa từ đầu vào thứ j của bộ mó húa và đầu ra tại vị trớ i của bộ giải mó. Điểm căn chỉnh eij được tớnh toỏn dựa trờn trạng thỏi ẩn đớch si1 của RNN và trạng thỏi ẩn hj của cõu đầu

vào. Mụ hỡnh căn chỉnh đơn giản nhất được tham số húa bởi một mạng nơ ron truyền thẳng với hàm tớnh điểm căn chỉnh cú dạng:

1 1

(  , ) T tanh(W [ ; ])

i j align align i j

a s h v s h (2.28) với: Walign, valign là cỏc tham số học của mụ hỡnh căn chỉnh.

Điểm căn chỉnh eij cũng cú thể được tớnh toỏn dựa vào trạng thỏi ẩn hiện tại si

theo cụng thức eij a s h( ,i j) với cỏc phương phỏp sau: - Phương phỏp của Graves và cộng sự [94]:

( ,i j) ( ,i j)

a s h cosin s h (2.29) - Phương phỏp của Luong và cộng sự [95]: Điểm căn chỉnh thu được bởi một hàm tớnh điểm dựa trờn nội dung được tớnh theo một trong ba cụng thức sau:

tanh(W [ ; ]) ( , ) W       T align align i j T i j i j T i align j v s h a s h s h s h (2.30)

Ngoài ra, Luong và cộng sự [95] cũn đề xuất một hàm dựa trờn vị trớ (location- based) mà ij được tớnh toỏn từ duy nhất trạng thỏi ẩn đớch si là:

(W )

ij softmax align is (2.31) Với mục tiờu cải thiện hiệu quả của cỏc cơ chế chỳ ý ỏp dụng cho mụ hỡnh seq2seq, Luong và cộng sự [95] đó phỏt triển hai cơ chế chỳ ý là: chỳ ý toàn cục

(global) và chỳ ý cục bộ (local). Tại mỗi thời điểm, chỳ ý toàn cục xem xột tất cả cỏc từ nguồn, trong khi chỳ ý cục bộ chỉ xem xột một tập con cỏc từ nguồn khi dự đoỏn từ mục tiờu. Cỏc cơ chế chỳ ý này chủ yếu khỏc nhau về phương phỏp tớnh toỏn điểm căn chỉnh eij và vộc tơ căn chỉnh ij khi tớnh toỏn vộc tơ ngữ cảnh ci như sau:

- Chỳ ý toàn cục: Vộc tơ căn chỉnh cú kớch thước thay đổi ijđược tớnh theo cụng thức (2.27) và điểm căn chỉnh eij được xỏc định theo một trong ba phương phỏp trong cụng thức (2.30).

- Chỳ ý cục bộ: Cơ chế này dựa trờn cỏc cơ chế chỳ ý cứng (hard attention) và

chỳ ý mềm (soft attention) trong [96] và chỉ chỳ ý đến một số vị trớ nguồn để tạo ra mỗi từ mục tiờu. Vộc tơ căn chỉnh ij được tạo ra bằng cỏch sử dụng một cửa sổ cú tõm đặt tại vị trớ căn chỉnh qilà: [qi D q, i D] (với D là giỏ trị tự chọn theo kinh nghiệm). Chỳ ý cục bộ cú hai biến thể tựy thuộc vào vị trớ căn chỉnh qi được tớnh toỏn trong 2 trường hợp sau:

+ Căn chỉnh đơn điệu: Khi cõu nguồn và cõu đớch được căn chỉnh đơn điệu thỡ vị trớ căn chỉnh qi i và vộc tơ căn chỉnh ij được xỏc định theo cụng thức (2.27) ở trờn.

+ Căn chỉnh dự đoỏn: Dự đoỏn vị trớ căn chỉnh qi dựa trờn cỏc tham số học

Wq, vq của mụ hỡnh và độ dài S của cõu nguồn, được tớnh theo cụng thức: . ( tanh(W ))

 T

i q q i

Theo kết quả của hàm sigmoid thỡ qi[0, ]S . Để ưu tiờn cỏc vị trớ căn chỉnh gần

q , một phõn bố Gaussian được đặt xung quanhqi và vộc tơ căn chỉnh ijđược tớnh toỏn theo cụng thức:   2 2 ( ) ( , ) . 2           i ij i j s q softmax a s h exp (2.33) với:  là độ lệch chuẩn được chọn là

  D, qilà một số thực, s là số nguyờn nằm trong phạm vi cửa sổ cú tõm đặt tại vị trớqi, vộc tơ ij cú kớch thước cố định bằng

(2.D + 1).

í tưởng gần đõy về cơ chế chỳ ý để học ra mối tương quan của từ đang xột với cỏc từ trong cõu là cơ chế tự chỳ ý [97]. Cơ chế tự chỳ ý được mụ tả chi tiết trong phần dưới đõy.

2.1.7. Cơ chế tự chỳ ý và mụ hỡnh Transformer

2.1.7.1. Cơ chế tự chỳ ý

Cơ chế tự chỳ ý (self-attention) được sử dụng để giỳp cho mụ hỡnh nắm bắt được sự liờn quan giữa cỏc từ trong một cõu, cho phộp mụ hỡnh xỏc định được cỏc từ cú liờn quan với một từ cho trước và sau đú thụng tin sẽ được mó húa dựa trờn tất cả cỏc từ đú.

Self-attention nhận đầu vào là ba vộc tơ được tạo ra từ cựng một chuỗi: Q - vộc tơ lưu trữ thụng tin từ cần tỡm kiếm (kớch thước dk), K - vộc tơ biểu diễn thụng tin cỏc từ trong cõu so sỏnh với từ cần tỡm kiếm (kớch thước dk) và V - vộc tơ biểu diễn nội dung của cỏc từ (kớch thước dv) trong chuỗi. Quỏ trỡnh tớnh toỏn self-attention cú thể được mụ tả qua cỏc bước như sau:

- Bước 1: Tớnh cỏc ma trận Q, K, V bằng cỏch nhõn vộc tơ mó húa từ của cỏc từ đầu vào với cỏc ma trận trọng số học tương ứng.

- Bước 2: Tớnh tớch vụ hướng của hai ma trận Q, K với mục đớch so sỏnh giữa cõu Q và K để học mối tương quan

- Bước 3: Chuẩn húa cỏc giỏ trị đó tớnh được về khoảng [0; 1] sử dụng hàm softmax (với ý nghĩa bằng 1 khi cõu Q giống với K, ngược lại thỡ bằng 0).

- Bước 4: Kết quả trả ra được tớnh bằng tớch vụ hướng của ma trận vừa tớnh toỏn ở trờn với ma trận V theo cụng thức: ( , , ) ( T) k QK d Attention Q K V softmax V (2.34)

2.1.7.2. Kiến trỳc của Transformer

Mụ hỡnh Transformer [97] được đề xuất với khả năng tớnh toỏn song song và nắm bắt được phụ thuộc xa nhờ cơ chế self-attention đó đạt được hiệu quả cao trong cỏc nhiệm vụ xử lý ngụn ngữ tự nhiờn. Mụ hỡnh Transformer được biểu diễn trong Hỡnh 2.12 dưới đõy, bao gồm bộ mó húa và bộ giải mó với cỏc từ đầu vào được đưa vào mụ hỡnh đồng thời nờn khụng cú khỏi niệm bước, thay vào đú là cơ chế self- attention.

Hỡnh 2.12. Mụ hỡnh Transformer [97]

Bộ mó húa và bộ giải mó gồm cỏc lớp xếp chồng lờn nhau, mỗi lớp gồm 2 thành phần chớnh được mụ tả như sau:

Mó húa vị trớ của từ (Positional Encoding): Do cỏc từ được đưa vào đồng thời nhưng ta muốn biểu diễn được ngữ cảnh của từ nờn cần thờm mó húa vị trớ của từ

(PE - Positional Encoding) vào cỏc mó húa từ đầu vào (WE - word embedding) để thờm thụng tin về vị trớ của từ trong chuỗi (cỏc PE cú cựng kớch thước với cỏc WE để cú thể thực hiện tớnh tổng được). Sau đú, biểu diễn của một từ được tớnh bằng cỏch cộng hai vộc tơ PE và WE để đưa vào bộ mó húa. PE của từ thứ i trong cõu được tớnh như sau:

mod ( ,2 ) sin 2 10000  el pos i i d pos PE (2.35) mod ( ,2 1) cos 2 10000   el pos i i d pos PE (2.36) trong đú: pos là vị trớ của từ trong cõu, PE là giỏ trị phần tử thứ i trong vộc tơ mó húa từ cú độ dài dmodel.

Hỡnh 2.13. Scaled Dot-Product Attention và Multi-Head Attention [97]

Cơ chế chỳ ý nhiều “đầu” (Multi-Head Attention): Self-attention giỳp cho mụ hỡnh thấy được mức độ chỳ ý của một từ tới cỏc từ cũn lại. Để chỳ ý vào cỏc vị trớ khỏc nhau, mụ hỡnh sử dụng cơ chế chỳ ý nhiều “đầu”. Cơ chế chỳ ý nhiều “đầu” gồm cỏc lớp self-attention xếp chồng song song, mỗi lớp self-attention cú một phộp biến đổi tuyến tớnh riờng biệt từ cựng một đầu vào được gọi là “đầu”. Mỗi “đầu” sẽ cho kết quả riờng, cỏc ma trận này được ghộp nối với nhau, sau đú nhõn với một ma trận tham số học để được một ma trận chỳ ý đầu ra duy nhất. Chỳ ý nhiều “đầu”

được tớnh toỏn theo cụng thức:

1 2

( , , ) ( , ,...., h)WO

MultiHead Q K V Concat head head head (2.37) trong đú: headi=Attention( W , W , W )Q iQ K iK V iV , Concat head head( 1, 2,....,headh)là phộp ghộp nối cỏc đầu headi, h là số đầu, cỏc ma trận

x x x d

WQRdmodel dk, WKRdmodel dk, WV Rdmodel v

i i i và x

WORhdv dmodel là cỏc tham số học.

Multi-head attention ứng dụng trong mụ hỡnh Transformer như sau [98]:

Cỏc lớp self-attention trong bộ mó húa cú ba vộc tơ K, V và Q đến từ cựng một chuỗi đầu vào, chuỗi này là đầu ra của lớp trước đú của bộ mó húa.

Trong lớp chỳ ý mó húa - giải mó (encoder-decoder attention) thỡ cơ chế chỳ ý được sử dụng ở đõy khụng phải là self-attention mà là attention. Cỏc vộc tơ K, V đến từ đầu ra của bộ mó húa, cũn vộc tơ Q đến từ lớp giải mó trước đú của bộ giải mó.

Cỏc lớp self-attention trong bộ giải mó cho phộp mỗi vị trớ trong bộ giải mó tham gia vào tất cả cỏc vị trớ trong bộ giải mó. Tuy nhiờn, việc tớnh trọng số chỳ ý cần che đi một phần cỏc vị trớ đầu ra và được thực hiện bởi cơ chế scaled dot- product attention. Cơ chế scaled dot-product attention này tương tự như cơ chế dot- product attention nhưng cú thờm hệ số tỉ lệ.

Trong bộ giải mó cũn cú lớp chỳ ý nhiều “đầu” bị che (Masked Multi-Head Attention). Về bản chất, lớp này là Multi-head attention. Ngoài ra, Transformer cũn cú cỏc lớp cộng và chuẩn húa (Add & Norm) và mạng nơ ron truyền thẳng (Feed Forward).

2.2. Cỏc mụ hỡnh ngụn ngữ dựa trờn học sõu được huấn luyện trước trước

2.2.1. Mó húa từ

Mó húa từ (Word embedding) là phương phỏp phổ biến để biểu diễn cỏc từ của văn bản. Mó húa từ cú khả năng nắm bắt được ngữ cảnh của một từ trong văn bản, sự tương đồng về ý nghĩa và ngữ phỏp, mối quan hệ giữa một từ với cỏc từ khỏc. Nú cung cấp cỏc vộc tơ biểu diễn dày đặc của cỏc từ, đõy là cải tiến so với cỏc mụ hỡnh sử dụng tần suất xuất hiện của từ để sinh ra cỏc vộc tơ cú kớch thước lớn và thưa (chứa hầu hết cỏc giỏ trị 0) để mụ tả văn bản nhưng khụng phải ý nghĩa của cỏc từ. Mó húa từ sử dụng một thuật toỏn để huấn luyện tập cỏc vộc tơ dày đặc với giỏ trị liờn tục, cú độ dài cố định dựa trờn khối lượng lớn cỏc văn bản. Mỗi từ được biểu diễn bởi một điểm trong khụng gian mó húa và được học dựa trờn cỏc từ xung quanh nú. Phương phỏp mó húa từ sử dụng cho cỏc nhiệm vụ trong xử lý ngụn ngữ tự nhiờn như túm tắt văn bản, dịch mỏy,…đó đạt được hiệu quả cao. Cú một số mụ hỡnh được sử dụng để học mó húa từ như Word2vec, Glove, BERT,...

2.2.2. Phương phỏp Word2Vec

Phương phỏp word2vec [99] là phương phỏp thống kờ cú thể học hiệu quả mó húa từ độc lập với một kho ngữ liệu văn bản cho trước. Đầu ra của word2vec là bộ phõn lớp sử dụng hàm softmax [100]. Hàm softmax cho giỏ trị thuộc khoảng [0; 1] là xỏc suất của mỗi đầu ra, tổng cỏc giỏ trị này bằng 1. Phương phỏp word2vec thường kết hợp hai mụ hỡnh để học mó húa từ là mụ hỡnh tỳi từ liờn tục (CBoW - Continuous Bag of Words) [101] và mụ hỡnh Skip - Gram [101].

Mụ hỡnh CBoW: Lấy ngữ cảnh của mỗi từ làm đầu vào để cố gắng dự đoỏn ra từ tương ứng với ngữ cảnh này, nghĩa là CBoW học cỏch mó húa từ bằng cỏch dự đoỏn từ hiện tại dựa trờn ngữ cảnh của từ đú. Chi tiết như sau: CBoW sử dụng vộc tơ mó húa one - hot của từ đầu vào và tớnh toỏn lỗi đầu ra của mụ hỡnh so với vộc tơ mó húa one - hot của từ cần dự đoỏn. Trong quỏ trỡnh dự đoỏn từ mục tiờu, mụ hỡnh cú thể học được cỏch để biểu diễn vộc tơ của từ mục tiờu này. Hỡnh 2.14 là kiến trỳc của mụ hỡnh CBoW với 1 từ làm ngữ cảnh để dự đoỏn từ tiếp theo.

Hỡnh 2.14. Mụ hỡnh CBoW với một từ làm ngữ cảnh để dự đoỏn từ tiếp theo [101]

+ Lớp đầu vào là vộc tơ được mó húa dưới dạng vộc tơ one-hot cú kớch thước V, lớp ẩn chứa N nơron, lớp đầu ra là một vộc tơ cú kớch thước V.

+ WVìN là một ma trận trọng số với số chiều là VìN, ỏnh xạ lớp vào tới lớp ẩn. + W’NìV là ma trận trọng số với số chiều là NìV, ỏnh xạ cỏc lớp ẩn tới lớp ra. Cỏc nơ ron trong lớp ẩn chỉ sao chộp tổng trọng số của lớp vào sang lớp tiếp theo (khụng cú cỏc hàm kớch hoạt sigmoid, tanh hay ReLU [100]), chỉ cú hàm kớch hoạt softmax tại cỏc nơ ron trong lớp ra.

Ta cũng cú thể sử dụng nhiều từ đầu vào làm ngữ cảnh để dự đoỏn ra từ tiếp theo thay vỡ chỉ sử dụng 1 từ làm ngữ cảnh, khi đú mụ hỡnh tổng quỏt được biểu diễn như trong Hỡnh 2.15 dưới đõy.

Hỡnh 2.15. Mụ hỡnh CBoW với nhiều từ làm ngữ cảnh để dự đoỏn từ tiếp theo [101]

Mụ hỡnh này gồm ngữ cảnh của C từ nờn khi tớnh toỏn cỏc đầu vào lớp ẩn, mụ hỡnh tớnh trung bỡnh vộc tơ của C từ.

Mụ hỡnh Skip-Gram: Khỏc với mụ hỡnh CBoW, mụ hỡnh Skip-Gram học mó húa từ bằng cỏch dự đoỏn cỏc từ xung quanh cho một từ đầu vào, được biểu diễn trong Hỡnh 2.16 dưới đõy.

Trong mỗi bước huấn luyện, mụ hỡnh Skip-Gram chỉ nhận một từ đầu vào nhưng cú nhiều đầu ra cho một từ đầu vào. Cỏc thử nghiệm thực tế cho thấy mụ hỡnh Skip-Gram hoạt động tốt hơn đối với những từ ớt gặp, cũn mụ hỡnh CBoW lại hoạt động tốt hơn đối với những từ phổ biến.

2.2.3. Mụ hỡnh BERT

2.2.3.1. Giới thiệu

Mụ hỡnh BERT [102] là mụ hỡnh biểu diễn mó húa hai chiều dựa trờn Transformer, được thiết kế cho lớp bài toỏn biểu diễn ngụn ngữ trong NLP của Google. Mụ hỡnh BERT được phỏt triển để huấn luyện cỏc vộc tơ biểu diễn văn bản thụng qua ngữ cảnh 2 chiều. Vộc tơ biểu diễn sinh ra từ mụ hỡnh BERT được kết hợp với cỏc lớp bổ sung đó tạo ra cỏc mụ hỡnh hiệu quả cho cỏc nhiệm vụ trong xử lý ngụn ngữ tự nhiờn như: Đưa điểm đỏnh giỏ hiểu ngụn ngữ chung (GLUE - General Language Understanding Evaluation) đạt 80,5% (tăng 7,7%), bộ dữ liệu hỏi đỏp SQuAD v2.0 (SQuAD - Stanford Question Answering Dataset) với điểm F1 (F1 - score) đạt 83,1% (tăng 5,1%),...v...v... Mụ hỡnh BERT khắc phục được cỏc nhược điểm của cỏc phương phỏp trước đõy bằng cỏch tạo cỏc biểu diễn theo ngữ cảnh dựa trờn cỏc từ phớa trước và phớa sau để tạo ra một mụ hỡnh ngụn ngữ với ngữ nghĩa phong phỳ hơn.

Mụ hỡnh BERT được huấn luyện trước trờn một kho ngữ liệu văn bản lớn khụng gỏn nhón là sự kết hợp của BooksCorpus (800 triệu từ) [103] và Wikipedia tiếng Anh (2.500 triệu từ), tổng cộng ~16GB văn bản khụng nộn và được tinh chỉnh bằng cỏch sử dụng dữ liệu được gỏn nhón của cỏc nhiệm vụ phớa sau.

2.2.3.2. Kiến trỳc BERT

Hỡnh 2.17. Kiến trỳc mụ hỡnh BERT [102]

BERT sử dụng Transformer [97] được biểu diễn trong Hỡnh 2.17 (với: Ei là biểu diễn cỏc mó húa từ (word embedding), Trm là cỏc vộc tơ biểu diễn trung gian cho mỗi từ tại mỗi tầng Transformer tương ứng, Ti là vộc tơ biểu diễn cho mỗi từ đầu ra cuối cựng).Trong kiến trỳc của BERT, L là số lớp Transformer, H là kớch thước của

CLS x x, ,1 2,...,xM,SEP y y, ,1 2,...,xN,EOS

lớp ẩn và A là số đầu ở lớp chỳ ý (heads attention). Cú 2 kớch thước mụ hỡnh BERT là:

- BERTBASE (L = 12, H = 768, A = 12, với 110 triệu tham số (110M)). - BERTLARGE (L = 24, H = 1.024, A = 16, với 340 triệu tham số (340M)).

Mỗi lớp thực hiện tớnh toỏn multi-head attention trờn biểu diễn từ của lớp trước để tạo ra một biểu diễn trung gian mới. Tất cả cỏc biểu diễn trung gian này cú cựng

Cỏc bộ dữ liệu văn bản tiếng Việt

Cỏc biến thể của RNN