Tầng mạng nơ-ron hồi quy LSTM

Trong phần trước luận văn đã trình bày phương pháp tạo ra vector biểu diễn cho mỗi từ trong đoạn văn bản là một tổ hợp của vector nhúng từ theo ngữ cảnh, vector từ loại và vector vị trí. Tuy nhiên, các biểu diễn từ loại và vị trí là những vector được khởi tạo ngẫu nhiên từ đầu và cần phải được cập nhật trong quá trình huấn luyện. Vì vậy, luận văn đã sử dụng mạng LSTM để mã hóa lại thông tin ngữ cảnh cũng như cung cấp cho mô hình khả năng uyển chuyển để thay đổi các biểu diễn đó sao cho phù hợp với bài toán. Hình 3.3 minh họa mô hình LSTM mà luận văn sử dụng.

Hình 3.3 Minh họa mô hình LSTM sử dụng để thu thập thông tin ngữ cảnh.

Như đã trình bày ở mục 2.2, mạng LSTM bao gồm các cổng điều khiển để khắc phục vấn đề tiêu biến đạo hàm. Ở mỗi bước t, mạng LSTM tính toán trạng thái ẩn ht và

trạng thái tế bào ct bằng cách sử dụng vector đầu vào xt, trạng thái ẩn trước đó ht−1 và trạng thái tế bào trước đó ct−1. Quá trình tính toán cụ thể như sau:

it=σ(Wixt+Uih(t-1)+bi) ft=σ(Wfxt+Ufh(t-1)+bf) ot=σ(Woxt+Uoh(t-1)+bo) gt=tanh(Wgxt+Ugh(t-1)+bg) ct=ft⊙c(t-1)+ it⊙gt ht= ot⊙tanh(ct) (3.2)

Thêm nữa, luận văn sử dụng mô hình LSMT hai chiều (Bidirectional LSTM) bao gồm hai mạng LSTM riêng biệt gọi là Forward LSTM và Backward LSTM để đồng thời mã hóa được cả thông tin ngữ cảnh từ trái qua phải và từ phải qua trái. Cuối cùng, với mỗi vector biểu diễn xt, mạng Bidirectional LSTM tạo ra một trạng thái ẩn cuối cùng

ht là kết quả của phép nối hai vector trạng thái ẩn xuôi hf và ngược hb. Quá trình tình toán diễn ra như sau.

ℎ𝑡𝑓 = 𝐿𝑆𝑇𝑀𝑓 (𝑥𝑡, ℎ𝑡−1𝑓 ) ℎ𝑡𝑏 = 𝐿𝑆𝑇𝑀𝑏 (𝑥𝑡, ℎ𝑡−1𝑏 )

ℎ𝑡 = ℎ𝑡𝑓 ○ ℎ𝑡𝑏

Tầng mạng nơ-ron tích chập CNN

Dự đoán mức định danh