2 Kiến thức nền tảng
2.4.3 Long short term memory
Vấn đề lớn ở mơ hình RNN là việc giảm về 0 của gradient khi các trạng thái cách xa các trạng thái trước đó dẫn đến các hệ số khơng được cập nhật. Theo lý thuyết RNN có thể mang thơng tin từ các lớp trước đến các lớp sau, nhưng thực tế thông tin chỉ mang qua một số lượng trạng thái nhất định, các thông tin càng được truyền đi xa sẽ dẫn đến việc biến mất gradient làm cho việc học khơng hiệu quả. Ta có thể nói RNN chỉ có thể học thơng tin từ các trạng thái gần nó (short term memory). Để giải quyết vấn đề này mơ hình long short term memory (LSTM) ra đời.
Hình 2.10 mơ tả trạng thái thứt của LSTM với
• c là các trạng thái tế bào (cell state), ct là trạng thái tế bào tại thời điểm t
Hình 2.10: Hình ảnh một khối tại thời điểm t của LSTM (nguồn [23])
• h là các trạng thái ẩn (hidden state), ht là trạng thái ẩn tại thời điểm
t.
Điểm mới ở LSTM so với RNN là c, khối tính tốn LSTM tại thời điểm
t ngồi các giá trị đầu vào ht−1, xt như RNN thì có thêm giá trị ct−1 đầu vào. Và đầu ra của khối đó là ct vàht sẽ trở thành giá trị đầu vào cho khối tiếp theo. Nhờ có cđóng vai trị như một băng truyền đối với mơ hình RNN, các thơng tin nào quan trọng và được sử dụng ở các khối phía sau sẽ được gửi đến và dùng khi cần thiết. LSTM có thể mang thơng tin đi xa hơn và tránh được vấn đề tiêu biến gradient.
Với Hình 2.10 ta có các cổng là ft =σ(Uf ∗xt+Wf ∗ht−1), it =σ(Ui∗xt+Wi∗ht−1), ot =σ(Uo∗xt+Wo∗ht−1), ˜ ct =tanh(Uc∗xt+Wc∗ht−1), ct =ft∗ct−1+it∗c˜t. Khi đó ∂ct ∂ct−1 =ft.
Do các giá trị trên các khối tính tốn cần ít khi phải qn đi nên ft ≈1, nên thông tin được truyền đi xa hơn giảm bớt được sự giảm về 0 của gradient.