Long short term memory

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 46 - 48)

2 Kiến thức nền tảng

2.4.3Long short term memory

Vấn đề lớn ở mơ hình RNN là việc giảm về 0 của gradient khi các trạng thái cách xa các trạng thái trước đó dẫn đến các hệ số khơng được cập nhật. Theo lý thuyết RNN có thể mang thơng tin từ các lớp trước đến các lớp sau, nhưng thực tế thông tin chỉ mang qua một số lượng trạng thái nhất định, các thông tin càng được truyền đi xa sẽ dẫn đến việc biến mất gradient làm cho việc học khơng hiệu quả. Ta có thể nói RNN chỉ có thể học thơng tin từ các trạng thái gần nó (short term memory). Để giải quyết vấn đề này mơ hình long short term memory (LSTM) ra đời.

Hình 2.10 mơ tả trạng thái thứt của LSTM với

c là các trạng thái tế bào (cell state), ct là trạng thái tế bào tại thời điểm t

Hình 2.10: Hình ảnh một khối tại thời điểm t của LSTM (nguồn [23])

h là các trạng thái ẩn (hidden state), ht là trạng thái ẩn tại thời điểm

t.

Điểm mới ở LSTM so với RNN là c, khối tính tốn LSTM tại thời điểm

t ngồi các giá trị đầu vào ht−1, xt như RNN thì có thêm giá trị ct−1 đầu vào. Và đầu ra của khối đó là ctht sẽ trở thành giá trị đầu vào cho khối tiếp theo. Nhờ có cđóng vai trị như một băng truyền đối với mơ hình RNN, các thơng tin nào quan trọng và được sử dụng ở các khối phía sau sẽ được gửi đến và dùng khi cần thiết. LSTM có thể mang thơng tin đi xa hơn và tránh được vấn đề tiêu biến gradient.

Với Hình 2.10 ta có các cổng là ft =σ(Ufxt+Wfht−1), it =σ(Uixt+Wiht−1), ot =σ(Uoxt+Woht−1), ˜ ct =tanh(Ucxt+Wcht−1), ct =ftct−1+itc˜t. Khi đó ∂ct ∂ct−1 =ft.

Do các giá trị trên các khối tính tốn cần ít khi phải qn đi nên ft ≈1, nên thông tin được truyền đi xa hơn giảm bớt được sự giảm về 0 của gradient.

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 46 - 48)