5 Kết luận và hướng phát triển
3.8 Mô hình tóm tắt đơn văn bản tóm lược cơ sở
Phương pháp được sử dụng rộng rãi nhất để đào tạo decoder cho việc sinh ra chuỗi mới được gọi là teacher forcing[41], phương pháp này cực tiểu hóa lỗi maximum-likelihood ở mỗi bước decode. Định nghĩa y = {y1, y2, ..., yT} như một chuỗi đầu ra ground-truth cho một chuỗi đầu vào đã cho x. Mục tiêu của việc huấn luyện maximum-likelihood là việc cực tiểu hóa theo hàm lỗi cross-entropy (CE), công thức được tính như sau:
LCE =−PT
t=1logπθ yt|yt−1, sd t, cd
t−1, X
Khi mô hình được huấn luyện với hàm mục tiêu trên, mô hình sinh ra một chuỗi như sau: yˆt biểu thị hành động (đầu ra) được thực hiện bởi mô hình ở điều kiện t. Sau đó, hành động tiếp theo được sinh ra bởi:
ˆ
yt0 =argmax
y
πθ y|yˆt, sdt0
Trong đó, sd là trạng thái ẩn sinh ra từ bộ decoder.
Như đã trình bày trong chương 2, mô hình tóm tắt đơn văn bản sử dụng cơ chế Attention để buộc mô hình chú ý vào các từ quan trọng trong tài liệu đầu vào. Cùng với đó, mô hình cũng sử dụng cơ chế pointing để khắc phục tình trạng OOV (những từ trong tài liệu không có trong tập từ điển) nhằm cải thiện hiệu suất của mô hình tóm tắt. 3.3.2 Tận dụng các đặc trưng từ tài liệu đầu vào
Đặc trưng về vị trí
Với một văn bản đầu vào x = (x1, x2, ..., xJ) gồm n câu, ta có thể biểu diễn văn bản lại như sau x = (x11, x21, ..., xmi, ..., xJn), trong đó, i là chỉ số câu; n là tổng số câu;
xji là từ thứ j và câu thứ i. Từ đó, véc tơ đặc trưng Position được biểu diễn như sau: xposition = (1,1, ..., i, ..., n).
Như đã trình bày trong mục 3.2.3, những câu đứng đầu trong văn bản thì thường chứa nhiều thông tin hơn là những câu nằm về phía cuối văn bản. Với đặc trưng Position, phân phối attention được tính toán lại như sau:
setj = (valign) T tanh(Walign(he j⊕hd t)+balign) xposition
Đặc trưng độ quan trọng của từ (tf-idf)
Với một văn bản đầu vào x = (x1, x2, ..., xJ), véc tơ đặc trưng độ quan trọng của từ được biểu diễn lại như sau:xtf idf = (tf idf(x1), tf idf(x2), ..., tf idf (xJ))(tf-idf được tính theo chương 2). Phân phối attention được tính toán lại như sau:
se tj = (valign) T tanh(Walign(he j⊕hd t)+balign)(xtf idf) xposition
Như vậy mô hình cho bài toán tóm tắt đơn văn bản tóm lược được thể hiện qua hình 3.9: