Kiến trúc LSTM xếp chồng là những lợi ích tương tự có thể được khai thác với LSTM. Các mạng LSTM hoạt động trên dữ liệu chuỗi, điều đó có nghĩa là việc thêm các lớp sẽ thêm các mức độ trừu tượng của các quan sát đầu vào theo thời gian. Trong thực tế, quan sát khúc dữ liệu theo thời gian hoặc đại diện cho vấn đề ở quy mô thời gian khác nhau. Sự kiện xây dựng một RNN sâu bằng cách xếp chồng nhiều trạng thái ẩn lặp lại lên nhau. Cách tiếp cận này có khả năng cho phép trạng thái ẩn ở mỗi cấp hoạt động ở các khoảng thời gian khác nhau.
Các LSTM xếp chồng hoặc LSTM sâu được giới thiệu bởi Graves, trong việc áp dụng các LSTM của họ để nhận dạng giọng nói, đánh bại điểm chuẩn về một vấn đề tiêu chuẩn đầy thách thức. RNN vốn đã có thời gian sâu, vì trạng thái ẩn của chúng là một chức năng của tất cả các trạng thái ẩn trước đó. Câu hỏi truyền cảm hứng này là liệu RNN cũng có thể hưởng lợi từ độ sâu trong không gian; đó là từ việc xếp chồng nhiều lớp ẩn lặp lại lên nhau, giống như các lớp cấp trước được xếp chồng lên nhau trong các mạng sâu thông thường.
Trong cùng một công việc, họ thấy rằng độ sâu của mạng quan trọng hơn số lượng ô nhớ trong một lớp nhất định để mô hình hóa kỹ năng. Các LSTM xếp chồng hiện là một kỹ thuật ổn định cho các vấn đề dự đoán trình tự đầy thách thức. Một kiến trúc LSTM xếp chồng có thể được định nghĩa là một mô hình LSTM bao gồm nhiều lớp LSTM. Một lớp LSTM ở trên cung cấp một đầu ra chuỗi thay vì một đầu ra giá trị duy nhất cho lớp LSTM bên dưới. Cụ thể, một bước đầu ra cho mỗi bước thời gian đầu vào, thay vì một bước thời gian đầu ra cho tất cả các bước thời gian đầu vào.
Hình 2.15 LSTM xếp chồng sử dụng bộ nhớ giữa các bước