Hình 2 .4 Mơ hình RNN
Hình 2.8 Biểu đồ tanh và đạo hàm
Nhìn vào Hình 2.8, ta cĩ thể cả hàm lẫn sẽ cĩ đạo hàm bằng tại 2 đầu. Mà khi đạo hàm bằng thì nút mạng tƣơng ứng tại đĩ sẽ bị bão hịa. Lúc đĩ các nút phía trƣớc cũng sẽ bị bão hồ theo. Nên với các giá trị nhỏ trong ma trận, khi ta thực hiện phép nhân ma trận sẽ đạo hàm tƣơng ứng sẽ bùng nổi rất nhanh, thậm chí nĩ sẽ bị triệt tiêu chỉ sau vài bƣớc nhân. Nhƣ vậy, các bƣớc ở xa sẽ khơng cịn tác dụng với nút hiện tại nữa, làm cho mạng khơng thể học đƣợc các phụ thuộc xa. Vấn đề này cũng xảy ra đối với neural chuẩn khá sâu [7][8][12].
Tùy thuộc vào hàm kích hoạt và tham số của mạng, khi ma trận lớn ta cĩ thể gặp vấn đề bùng bổ đạo hàm. Tuy nhiên, ta cĩ thể thấy vấn đề mất mát đạo hàm cĩ thể gặp nhiều hơn vấn đề bùng nổ đạo hàm, vì bùng nổ đạo hàm cĩ thể theo dõi
đƣợc vì khi đạo hàm bị bùng nổ thì ta sẽ thu đƣợc kết quả là một giá trị phi số NaN làm cho chƣơng trình của ta bị dừng hoạt động.
Bùng nổ đạo hàm cĩ thể ngăn chặn đƣợc khi ta đặt một ngƣỡng giá trị trên cho đạo hàm. Cịn việc mất mát đạo hàm lại khơng theo dõi đƣợc mà cũng khơng biết làm sao để xử lý nĩ cho hợp lý [12].
2.3.4. Mơ hình mạng bộ nhớ dài ngắn LSTM a. Nguồn gốc mạng bộ nhớ dài ngắn a. Nguồn gốc mạng bộ nhớ dài ngắn
Kiến trúc mạng bộ nhớ dài-ngắn (LSTM /Long-Short Term Memory networks) là một dạng đặc biệt của RNN. LSTM cĩ khả năng xử lý đƣợc các phụ
38
thuộc xa. LSTM đƣợc giới thiệu vào năm 1977. Nĩ đƣợc cải tiến từ mạng neural hồi quy và trở lên phổ biến hơn do nhoạt động hiệu quả trên nhiều bài tốn khác nhau trong thực tế [9].
Mạng neural hồi quy RNN cĩ chứa vịng lặp. Mạng cĩ khả năng lƣu trữ thơng tin, thơng tin đƣợc truyền từ lớp này sang lớp khác. Đầu ra của lớp ẩn phụ thuộc vào thơng tin của các lớp tại mọi thời điểm. RNN đã đƣợc sử dụng phổ biến trong xử lý ngơn ngữ tự nhiên hay các bài tốn cĩ dữ liệu tuần tự. Tuy nhiên, do kiến trúc của RNN khá đơn giản nên khả năng liên kết các lớp cĩ khoảng cách xa là khơng tốt. Nĩ cơ bản khơng cĩ khả năng ghi nhớ thơng tin từ các dữ liệu cĩ khoảng cách xa, và do đĩ, những phần tử đầu tiên trong chuỗi đầu vào thƣờng khơng cĩ nhiều ảnh hƣởng đến kết quả dự đốn phần tử cho chuỗi đầu ra các bƣớc sau. Nguyên nhân của việc này là do RNN chịu ảnh hƣởng bởi việc đạo hàm bị thấp dần trong quá trình học – biến mất đạo hàm (vanishing gradient). Mạng LSTM đƣợc thiết kế để khắc phục vấn đề này. Cơ chế hoạt động của LSTM là chỉ ghi nhớ những thơng tin liên quan, quan trọng cho việc dự đốn, cịn các thơng tin khác sẽ đƣợc bỏ đi[17].
Theo Olah (2015): “Mọi mạng hồi quy đều cĩ dạng là một chuỗi các module lặp đi lặp lại của mạng neural. Với kiến trúc mạng RNN chuẩn, các module này cĩ cấu trúc rất đơn giản, thƣờng là một tầng ”