Mô hình LSTM (Long Short – Term Memory)

Một phần của tài liệu Dự đoán dòng tiền dựa vào thu nhập của cơ sở kinh doanh (Trang 54 - 56)

3.2. Cơ sở lý thuyết về các mô hình học sâu

3.2.5. Mô hình LSTM (Long Short – Term Memory)

Là một thể loại đặc biệt RNN, mạng LSTM được xem là có khả năng ghi nhớ tốt hơn các chuỗi dữ liệu dài.

Các ft, it, ot tương ứng với forget gate, input gate và output gate. Phép nhân (*) là element-wise multiplication, phép cộng (+) là cộng ma trận.

Forgate gate: 𝑓𝑡 = 𝜎(𝑈𝑓 ∗ 𝑥𝑡+ 𝑊𝑓 ∗ ℎ𝑡−1+ 𝑏𝑓)

Input gate: 𝑖𝑡 = 𝜎(𝑈𝑖∗ 𝑥𝑡 + 𝑊𝑖 ∗ ℎ𝑡−1+ 𝑏𝑖)

Output gate: 𝑜𝑡 = 𝜎(𝑈𝑜 ∗ 𝑥𝑡+ 𝑊𝑜∗ ℎ𝑡−1 + 𝑏0)

• 𝐶𝑡~ = 𝑡𝑎𝑛ℎ(𝑈𝑐 ∗ 𝑥𝑡+ 𝑊𝑐 ∗ ℎ𝑡−1+ 𝑏𝑐), công thức tạo cell state tạm thời

𝐶𝑡 = 𝑓𝑡 ∗ 𝐶𝑡−1+ 𝑖𝑡∗ 𝐶𝑡~ PT 3.77

𝐻𝑡 = 𝑜𝑡∗ tanh (𝐶𝑡) PT 3.78

Nhận xét:

• 0 < ft, it, ot <1; bf, bi, b0 là các hệ số bias, hệ số W, U tương tự như trong mạng RNN

• Phương trình PT 3.77, các cell state phụ thuộc vào hàm forget state và input state. Forget gate quyết định xem cần lấy bao nhiêu từ cell state trước và input gate sẽ quyết định lấy bao nhiêu từ input của state và hidden layer của layer trước.

• Phương trình PT 3.78, việc tính hidden state phụ thuộc vào output gate. Output gate quyết định xem cần lấy bao nhiêu từ cell state (ct)

45

để trở thành output của hidden state. Ngoài ra ht cũng được dùng để tính ra output yt cho mỗi trạng thái tại thời điểm t.

Ht, ct~ được ví như short term memory trong RNN. Trong khi đó, ct, như một băng chuyền trong mô hình RNN, thông tin quan trọng và cần dùng sau có thể được gửi vào khi cần. Như vậy ct đại diện cho long term memory. Vì vậy mô hình này có tên là long short term memory (LSTM).

Về vấn đề lấy đạo hàm, ta thấy thành phần chính gây nên vanishing gradient trong RNN là

𝜕𝑠𝑡+1

𝜕𝑠𝑡 = (1 − 𝑠𝑡

2) ∗ 𝑊

Trong đó, st, W < 1. Tương tự như vậy, ta có quan tâm đến 𝜕𝑐𝑡

𝜕𝑐𝑡−1= 𝑓𝑡

Do 0 < ft < 1, nên về cơ bản thì LSTM hạn chế việc bị vanishing gradient hơn. Hơn thế nữa, khi mang thông tin trên cell state thì ít khi quên đi giá trị cell cũ, nên ft xấp xỉ bằng 1.

Với các đặc trưng trong LSTM, mỗi một lớp LSTM là một tập các tế bào (mỗi một tế bào còn được gọi là một unit) hay còn được gọi là tập module hệ thống, nơi chuỗi dữ liệu đầu vào được bắt lại và lưu trữ. Tập các tế bào liên kết với nhau trong một lớp tạo thành một dòng vận chuyển, kết nối module cũ với module mới

46

CÀI ĐẶT VÀ KẾT QUẢ THỰC NGHIỆM

Một phần của tài liệu Dự đoán dòng tiền dựa vào thu nhập của cơ sở kinh doanh (Trang 54 - 56)

Tải bản đầy đủ (PDF)

(93 trang)