Các cổng gates trong LSTM quyết định thông tin nào cần giữ lại hoặc bỏ đi, giúp duy trì trạng thái của tế bào... Các cổng gates trong LSTM quyết định thông tin nào cần giữ lại hoặc bỏ
Trang 1BÁO CÁO SEMINAR NHẬP MÔN TRÍ TUỆ NHÂN TẠO
SHORT-TERM MEMORY
BÁO CÁO NHÓM 7
GVHD:Nguyễn Thái Công Nghĩa
Trang 2Thành viên nhóm 7
MSSV Họ và tên
19200080 Nguyễn Nhựt Hào
19200111 Nguyễn Quốc Khánh
19200268 Nguyễn Thành Đạt
19200276 Trần Trung Dũng
19200491 Phạm Hồng Lâm Thành
20200011 Tô Thế Bảo
20200063 Đỗ Nhật Phát
Trang 31.GIỚI THIỆU VỀ LSTM
LSTM (Long Short-Term Memory) là một loại mạng nơ-ron đặc biệt của RNN (Recurrent Neural
Network), được giới thiệu bởi Hochreiter &
Schmidhuber (1997) LSTM có khả năng học và ghi nhớ các phụ thuộc dài hạn, giúp nó trở nên hiệu quả trong việc xử lý các chuỗi dữ liệu dài mà RNN truyền thống gặp khó khăn.
Trang 42.CẤU TRÚC MÔ HÌNH LSTM
Mô hình LSTM bao gồm bốn mạng nơ-ron và nhiều khối bộ nhớ gọi là tế bào (cell) trong cấu trúc chuỗi Mỗi đơn vị LSTM có ba cổng chính: cổng đầu vào (Input Gate), cổng đầu ra (Output Gate), và cổng quên (Forget Gate) Các cổng này điều khiển luồng thông tin ra vào các tế bào.
Trang 5Hình 1 Gates in LSTM
-Ở sơ đồ trên, mỗi một đường mang một véc-tơ
từ đầu ra của một nút tới đầu vào của một nút khác Các hình trong màu hồng biểu diễn các
phép toán như phép cộng véc-tơ chẳng hạn, còn các ô màu vàng được sử dụng để học trong các từng mạng nơ-ron Các đường hợp nhau kí hiệu việc kết hợp, còn các đường rẽ nhánh ám chỉ nội dung của nó được sao chép và chuyển tới các nơi khác nhau
Trang 63.SƠ LƯỢC THUẬT TOÁN TRONG LSTM
Trạng thái tế bào (Cell State) là yếu tố cốt lõi của LSTM, chạy xuyên suốt qua các mắt xích và chỉ bị thay đổi đôi chút Các cổng (gates) trong LSTM
quyết định thông tin nào cần giữ lại hoặc bỏ đi, giúp duy trì trạng thái của tế bào.
Trang 73.SƠ LƯỢC THUẬT TOÁN TRONG LSTM
Trạng thái tế bào (Cell State) là yếu tố cốt lõi của LSTM, chạy xuyên suốt qua các mắt xích và chỉ bị thay đổi đôi chút Các cổng (gates) trong LSTM
quyết định thông tin nào cần giữ lại hoặc bỏ đi, giúp duy trì trạng thái của tế bào.
Trang 83.SƠ LƯỢC THUẬT TOÁN TRONG LSTM
Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được kết hợp bởi một tầng mạng
sigmoid và một phép nhân
Tầng sigmoid sẽ cho đầu ra là một số trong
khoản [0,1][0,1], mô tả có bao nhiêu thông tin có
thể được thông qua Khi đầu ra là 00 thì có nghĩa
là không cho thông tin nào qua cả, còn khi
là 11 thì có nghĩa là cho tất cả các thông tin đi
qua nó
Trang 94.HOẠT ĐỘNG CỦA LSTM
Các bước hoạt động của LSTM bao gồm:
1 Quyết định thông tin nào cần bỏ qua từ trạng thái tế bào
hiện tại thông qua cổng quên.
2 Xác định thông tin mới cần thêm vào trạng thái tế bào qua
cổng đầu vào.
3 Cập nhật trạng thái tế bào.
4 Quyết định đầu ra dựa trên trạng thái tế bào và thông tin
mới qua cổng đầu ra.
Trang 104.HOẠT ĐỘNG LSTM
Bước đầu tiên của LSTM là quyết định xem thông tin nào cần bỏ đi từ trạng thái tế bào Quyết định này được đưa ra bởi tầng sigmoid - gọi là “tầng cổng quên” (forget gate layer) Nó sẽ lấy đầu vào là ℎ t-1 và x t rồi đưa ra kết quả là
một số trong khoảng [0,1]] cho mỗi số trong trạng thái tế bào Ct−1 Đẩu ra
là 1 thể hiện rằng nó giữ toàn bộ thông tin lại, còn 0 chỉ rằng toàn bộ thông tin sẽ bị bỏ đi.
Trang 114.HOẠT ĐỘNG LSTM
Bước tiếp theo là quyết định xem thông tin mới nào
ta sẽ lưu vào trạng thái tế bào Việc này gồm 2 phần Đầu tiên là sử dụng một tầng sigmoid được gọi là
“tầng cổng vào” (input gate layer) để quyết định giá
trị nào ta sẽ cập nhập Tiếp theo là một tầng tanh tạo
ra một véc-tơ cho giá trị mới nhằm thêm vào cho
trạng thái Trong bước tiếp theo, ta sẽ kết hợp 2 giá trị đó lại để tạo ra một cập nhập cho trạng thái
Trang 12
4.HOẠT ĐỘNG LSTM
Giờ là lúc cập nhập trạng thái tế bào cũ Ct−1 thành trạng thái mới Ct Ở các bước trước đó đã quyết định
những việc cần làm, nên giờ ta chỉ cần thực hiện là xong
Ta sẽ nhân trạng thái cũ với ft để bỏ đi những thông
tin ta quyết định quên lúc trước Sau đó cộng thêm it
* Trạng thái mới thu được này phụ thuộc vào việc ta quyết định cập nhập mỗi giá trị trạng thái ra sao
Trang 13
4.HOẠT ĐỘNG LSTM
Cuối cùng, ta cần quyết định xem ta muốn đầu ra là
gì Giá trị đầu ra sẽ dựa vào trạng thái tế bào, nhưng
sẽ được tiếp tục sàng lọc Đầu tiên, ta chạy một tầng sigmoid để quyết định phần nào của trạng thái tế bào ta muốn xuất ra Sau đó, ta đưa nó trạng thái tế
bảo qua một hàm tanh để có giá trị nó về
khoảng [−1,1], và nhân nó với đầu ra của cổng
sigmoid để được giá trị đầu ra ta mong muốn
Trang 145.ỨNG DỤNG CỦA LSTM
Trang 156.LỢI ÍCH VÀ THÁCH THỨC
• Lợi ích:
1 Quản lý phụ thuộc dài hạn tốt hơn.
2 Hiệu quả hơn RNN thông thường.
3 Độ chính xác cao trong dự đoán.
Trang 166.LỢI ÍCH VÀ THÁCH THỨC
Thách thức:
1 Dễ bị trang bị quá mức (overfitting).
2 Đòi hỏi nhiều sức mạnh tính toán và bộ nhớ.
3 Khó khăn trong đào tạo do phức tạp của mô
hình.
Trang 177.KẾT LUẬN
LSTM là một kiến trúc mạng nơ-ron mạnh mẽ cho các bài toán chuỗi thời gian và xử lý dữ liệu tuần tự Tuy nhiên, việc đào tạo và triển khai LSTM đòi hỏi nhiều tài nguyên và cân nhắc kỹ lưỡng.
Trang 18TÀI LIỆU THAM KHẢO
Nam
"Long Short-Term Memory“
Christopher Olah