Mạng bộ nhớ Dài-Ngắn (Long-Short term memory network)

Một phần của tài liệu Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu (Trang 35 - 39)

Là 1 cải tiến của mạng nơ-ron hồi quy (RNN), khác nhau ở chỗ LSTM [12] sử dụng các hàm tính toán khác ở trạng thái ẩn nhằm giải quyết vấn đề nhớ các bước dài của RNN. Về mặt lý thuyết thì RNN có thể mang thông tin từ các lớp trước đến lớp sau, thường được sử dụng với dạng thông tin dạng chuỗi như một văn bản dài nhưng trên thực tế thì nó chỉ có thể nhớ được vài bước trước đó và sau đó bị hiện tượng triệt tiêu đạo hàm, hay nói cách khác là mô hình chỉ học được vài bước gần nó, còn gọi là bộ nhớ ngắn hạn (short-term memory)

Mục tiêu của chúng ta là sử dụng thông tin từ những bước ở rất xa trước đó. Tức là cần bộ nhớ dài hạn (long-term memory), điều mà mạng nơ-ron hồi quy không làm được. Cần một mô hình mới để giải quyết vấn đề này và bộ nhớ nhớ dài – ngắn hạn ra đời (Long short-term memory).

Chương 3: Học sâu

23 Hình 3.15: Tổng quan mô hình LSTM.

Nhiệm vụ của các cổng là đánh giá mức độ quan trọng của thông tin, từ đó quyết định giữ lại hay bỏ đi. Nhờ đó mà các thông tin quan trọng được lưu lại, truyền đi rất xa, tác động đáng kể đến quá trình huấn luyện.

Cổng quên (Forget gate): Cổng này quyết định thông tin nào trong bộ nhớ hiện tại được giữ và thông tin nào bị bỏ đi. Đầu vào là trạng thái ẩn (hidden state) ở bước trước đó và đầu vào.

Hình 16: Cổng quên trong LSTM và công thức.

Với xt là đầu vào bước t, ht-1 là trạng thái ẩn ở bước t-1, Wf là trọng số tại cổng quên, bf là độ lệch tại cổng quên.

Các hàm Sigmoid cũng có vùng chiếu được giới hạn ở (0:1). Nếu phần thông tin nào không quan trọng thì ta sẽ chiếu nó về 0, tức là bị lãng quên. Phần thông tin không quan trọng sau khi qua hàm Sigmoid sẽ càng gần 0, thông tin hữu ích sẽ gần 1.

Chương 3: Học sâu

24

Cổng vào (Input gate): Cổng này quyết định thông tin mới sẽ cập nhật vào bộ nhớ (Cell state). Có cả hai hàm Sigmoid và Tanh. Đầu ra từ hàm Sigmoid có tác dụng điều chỉnh thông tin đã xử lý từ đầu ra hàm Tanh. Sự kết hợp này nhằm điều chỉnh thông tin được thêm vào bộ nhớ sao cho phù hợp.

Hình 3.17: Cổng vào trong LSTM và công thức.

Với it là dữ liệu sau ghi qua hàm Sigmoid tại cổng quên, Wi, bi lần lượt là trọng

số và độ lệch tại cổng vào.

Nhờ 2 cổng trên, ta có thể tính ra giá trị của cell state hiện tại.

Tế bào trạng thái (Cell State): Được coi là bộ nhớ của hệ thống. Muốn được cập nhật và lưu lại thì các thành phần thông tin phải đi qua hết các cổng. Vì vậy nên chỉ có những thành phần thông tin chọn lọc mới có thể đưa vào bộ nhớ, nhờ đó các thành phần có ích từ rất lâu vẫn có khả năng tác động, điều chỉnh.

Hình 3.18: Tế bào trạng thái trong LSTM và công thức.

Với it và 𝐶̃t lần lượt là đầu ra của hàm Sigmoid là đầu ra của hàm Tanh tại cổng vào. Ct-1 là cell state ở bước t-1.

Cổng ra (Output gate): Quyết định trạng thái ẩn (hidden state) cho tế bào tiếp theo (Chứa các thông tin về đầu vào trước đó). Nó lấy thông tin từ 2 nguồn là bộ nhớ

Chương 3: Học sâu

25

và đầu vào hiện tại cùng với trạng thái ẩn trước đó. Trạng thái ẩn hiện tại thường sử dụng trong việc dự đoán.

Hình 3.19: Cổng ra trong LSTM và công thức.

Với ot là đầu ra của hàm Sigmoid tại Cổng ra, Wo và bo lần lượt là trọng số và độ

lệch tại Cổng ra. ht là trạng thái ẩn ở bước hiện tại (t).

*Nhận xét: Vì LSTM là cải tiến của RNN nên mô hình đáp ứng được bộ nhớ ngắn hạn (short-term memory). Trong khi đó thành phần mới trong LSTM là trạng thái tế bào (Cell state) giống như một băng chuyền trong mô hình RNN, cũng đóng vai trò là bộ nhớ chính nên những thông nào quan trọng và dùng lại ở những bước sau thì sẽ được giữ lại và dùng khi cần nên thông tin được mang đi xa hơn, đảm bảo tính chất bộ nhớ dài hạn (long-term memory). Do đó nên mô hình có cả hai tính chất là bộ nhớ dài-ngắn hạn.

LSTM giúp chống triệt tiêu đạo hàm.

Ta cũng áp dụng thuật toán lan truyền ngược liên hồi (Back propagation through time) cho LSTM giống như RNN.

Thành phần chính gây nên hiện tượng triệt tiêu đạo hàm ở RNN là 𝜕𝑆𝑡

𝜕𝑆𝑡−1 = (1- 𝑆𝑡2) * W với W < 1. Với LSTM thì ta quan tâm đến 𝜕𝑐𝑡

𝜕𝑐𝑡−1 =f(t). Do

f(t) có giá trị trong khoảng (0;1) nên về cơ bản thì LSTM vẫn bị triệt tiêu đạo hàm

nhưng hạn chế hơn so với RNN. Hơn nữa, thông tin được lưu trên trạng thái tế bào ít khi cần phải quên giá trị cũ nên f(t) ≈ 1 nên tránh được vấn đề triệt tiêu đạo hàm.

Chương 4: Học sâu và bài toán mô tả ảnh thời trang

26

CHƯƠNG 4:

HỌC SÂU VÀ BÀI TOÁN MÔ TẢ ẢNH THỜI TRANG

Một phần của tài liệu Tìm hiểu bài toán tạo câu mô tả cho ảnh thời trang dùng học sâu (Trang 35 - 39)

Tải bản đầy đủ (PDF)

(58 trang)