Output gate trong LSTM[23]

Một phần của tài liệu Tóm tắt đa văn bản tiếng việt (Trang 33 - 34)

5 Kết luận và hướng phát triển

2.11 Output gate trong LSTM[23]

Trong đó:

ot=σ(Wo.[ht−1, xt] +bo)

ht=ot∗tanh(Ct)

Chú ý:

• Forget gate: 0< ft, it, ot <1;bf, bi, bo là các hệ số bias, hệ sốW, U tương tự như trong mạng RNN.

• ht, Ct∼ được ví như short term memory trong RNN. Trong khi đó, Ct, như một băng chuyền trong mô hình RNN, thông tin quan trọng và cần dùng sau có thể được gửi vào khi cần. Như vậy Ct đại diện cho long term memory (bộ nhớ dài hạn). Vì vậy mô hình này có tên là Long Short Term Memory (LSTM).

2.5.3 Mô hình Sequence to Sequence cơ bản

Mô hình Sequence to Sequence[20] (Seq2Seq) cơ bản cho bài toán tóm tắt văn bản theo hướng tóm lược bao gồm một bộ encoder (bộ mã hóa) và một bộ decoder (bộ giải mã). Bộ encoder đọc một văn bản nguồn mà được biểu thị bằng x = (x1, x2, ..., xJ) và biến đổi nó về các trạng thái ẩnhe = (he

1, he

2, ..., he

J).Trong khi đó, bộ decoder nhận vào các trạng thái ẩn này như một đầu vào ngữ cảnh và trả về đầu ra là một bản tóm tắt y= (y1, y2, ..., yT). Ở đây,xi và yi tương ứng là các đại diện one-hot của các token trong tài liệu nguồn và bản tóm tắt. Trong đó, J và T là số lượng các token (hay độ dài) của tài liệu nguồn và bản tóm tắt. Nhiệm vụ của bài toán tóm tắt văn bản được định nghĩa như việc suy ra một bản tóm tắty từ tài liệu nguồn đã cho x.

Bộ encoder và decoder có thể là các mạng feed-forward (lan truyền tiến), Convolutional Neural Network (CNN - Mạng nơron tích chập) hoặc Recurrent Neural Network (RNN). Các kiến trúc RNN đặc biệt là Long Short Term Memory (LSTM) và Gated Recurrent Unit (GRU) được áp dụng phổ biến trong các mô hình Seq2seq. Hình 2.12 cho thấy một mô hình seq2seq với một bộ encoder LSTM hai chiều và một bộ decoder LSTM một chiều. LSTM hai chiều được xem xét vì nó thường lấy ra được đại diện tốt hơn cho tài liệu hơn là với LSTM một chiều.

Một phần của tài liệu Tóm tắt đa văn bản tiếng việt (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(66 trang)