Mô hình seq2seq cơ bản (SOS và EOS là token bắt đầ- 123docz.net

5 Kết luận và hướng phát triển

2.12 Mô hình seq2seq cơ bản (SOS và EOS là token bắt đầu và kết thúc)[20]

Dễ dàng thấy rằng các LSTM cơ bản chỉ có thể truy cập vào ngữ cảnh quá khứ của chuỗi đặc trưng đầu vào. Để khắc phục vấn đề này, một mạng LSTM hai chiều được áp dụng để có thể xử lý dữ liệu chuỗi theo cả hai chiều tiến và lùi với hai lớp ẩn riêng biệt và sau đó được kết hợp để thu được kết quả đại diện cuối cùng (hình 2.13). Đại diện cuối cùng của LSTM hai chiều là véc tơ ht, kết hợp các đầu ra của quá trình tiến và lùi:

ht=−→ ht⊕←−ht

Bộ encoder đọc một chuỗi các token đầu vào x và biến chúng thành một chuỗi các trạng thái ẩn h = (h1, h2, h3, ..., hJ). Đối với LSTM hai chiều, chuỗi đầu vào được mã

hóa như−→ he và←−

he, trong đó mũi tên→ và← biểu thị cho các phụ thuộc thời gian tiến và lùi. Ký hiệue(tương ứng vớit trong hình 2.13) được sử dụng để chỉ ra rằng nó thuộc bộ encoder. Trong quá trình giải mã, bộ decoder nhận các đại diện đã được mã hóa của tài liệu nguồn (các trạng thái cell và các trạng thái ẩn h, c) như đầu vào và sinh ra bản tóm tắt y. Trong một mô hình encoder-decoder đơn giản, các véc tơ đã mã hóa được sử dụng để khởi tạo các trạng thái ẩn và các trạng thái cell cho bộ giải mã LSTM. Ví dụ, ta có thể khởi tạo nó như sau:

hd 0 =tanhWe2d−→ he J ⊕←h−e 1 +be2d, cd 0 =−→ ce J ⊕←c−e 1

Ở đây, d chỉ ra rằng nó thuộc bộ decoder và ⊕ là một toán tử concatenation (nối). Tại mỗi bước giải mã, đầu tiên ta cập nhật trạng thái ẩnhd

t trên các trạng thái ẩn trước đó và các token đầu vào,hd

t =LST M hd

t−1, Eyt−1.Sau đó, ta sẽ không thể hiện rõ ràng các trạng thái cell trong đầu vào và đầu ra của LSTM vì chỉ có các trạng thái ẩn mới được chuyển đến các phần khác của mô hình. Sau đó, phân phối từ vựng có thể được tính toán bằng công thứcPvocab,t=sof tmax Wd2vhdt +bd2v,trong đó, Pvocab,t là một véc tơ mà có chiều là kích thước của tập từ vựngV và sof tmax(vt) = exp(vt)

τexp(vτ) cho mỗi phần tửvt của véc tơ v. Do đó, xác suất của việc sinh ra token mục tiêuw trong tập từ vựng V làPvocab,t(w).

Mô hình seq2seq cơ bản (SOS và EOS là token bắt đầu và kết thúc)[20]

Một đơn vị trong RNN[26]