5 Kết luận và hướng phát triển
2.14 Mô hình seq2seq dựa trên cơ chế attention[20]
Cần lưu ý rằng số lượng các tham số bổ sung cho các hướng tiếp cận "dot", "general" và "concat" tương ứng là 0,hej×hdtvà hej×hdt
× |valign|+ 2× |valign|
đại diện cho chiều của một véc tơ. "general" và "concat" được sử dụng phổ biến trong tóm tắt văn bản (trong phạm vi luận văn tốt nghiệp của mình, mô hình sử dụng "concat"). Một nhược điểm của phương thức "dot" là nó yêu cầu he
j và hd
t có cùng chiều. Với phân phối attention, ta có thể xác định véc tơ ngữ cảnh phía nguồn cho các từ mục tiêu như:
zte =PJ
j−1αetjhej Cùng với trạng thái ẩn hiện tại của bộ decoderhd
t, ta tính được trạng thái ẩn attention:
˜ hd t =Wz ze t ⊕hd t +bz
Cuối cùng, phân phối từ vựng được tính toán như sau: Pvocab,t=sof tmaxWd2vh˜d
t +bd2v Khi t >1, trạng thái ẩn của bộ decoder hdt+1 được cập nhật:
hdt+1 =LST M
hdt, Eyt ⊕˜hdt
Trong đó,E là token đầu vào; đầu vào là sự kết hợp của Eyt và ˜hd t.
2.5.5 Cơ chế Pointing/Copying
Cơ chế pointing/copying (cơ chế sao chép) đại diện cho một lớp các hướng tiếp cận mà sinh ra các token mục tiêu bằng cách sao chép trực tiếp từ chuỗi đầu vào dựa trên các trọng số attention của chúng. Nó có thể được áp dụng một cách tự nhiên vào tóm tắt văn bản theo hướng tóm lược vì các bản tóm tắt và các tài liệu đầu vào có thể cùng nhau chia sẻ tập từ vựng chung.
Một khía cạnh quan trọng hơn nữa là nó có khả năng trong việc giải quyết các vấn đề liên quan đến các từ không tồn tại trong tập từ vựng ban đầu (OOV). Một vài nghiên cứu đã cho thấy một hiệu suất tăng lên sau khi kết hợp cơ chế pointing/copying vào nền tảng Seq2seq.