1.6. Kiến thức nền tảng về học sâu
1.6.1. Mơ hình mạng truy hồi
Mơ hình mạng truy hồi (Recurrent Neural Network - RNN) [23] là một loại mơ hình ngơn ngữ mạng nơ ron. Mạng RNN liên quan tới độ dài của chuỗi đầu vào nên mạng này phù hợp cho dữ liệu dạng chuỗi như văn bản. Trong ngơn ngữ thì từ đằng sau phụ thuộc vào các từ đứng trước nó. Để dự đốn từ đứng sau thì cần phải biết các từ đứng trước. Mạng truy hồi được mơ tả như hình 1.49.
Mạng nơ ron truy hồi nhận đầu vào là chuỗi các giá trị xvà sinh ra chuỗi các từ đầu ra o. Hàm mất mát L được dùng để đánh giá sự sai khác của giá trị dự đoán o so với tập nhãn dữ liệu thực tế y. Sự kết nối giữa đầu vào với tầng ẩn, tầng ẩn với đầu ra và tầng ẩn với tầng ẩn lần lượt là các ma trận U, V và W
theo công thức sau:
a(t) =b+W.h(t−1) +U.x(t), (1.1) h(t) = tanh (a(t)), (1.2) o(t) =c+V.h(t) , (1.3) y(t) =sof tmax(o(t)), (1.4) 9 https://nguyentruonglong.net/giai-thich-chi-tiet-ve-mang-long-short-term-memory-lstm.html
Hình 1.4: Mơ hình RNN
trong đó b, c là độ lệch (bias). Nhược điểm của mơ hình RNN là vấn đề phụ thuộc xa. Tức là mơ hình RNN cơ bản khơng có khả năng ghi nhớ thơng tin từ các dữ liệu có khoảng cách xa. Nguyên nhân của vấn đề này là do giá trị đạo hàm sau khi lan truyền qua nhiều giai đoạn có xu hướng bị tiêu biến hoặc rất lớn gây ảnh hưởng lớn đến q trình tối ưu hóa. Ngồi ra nếu các tham số giúp mạng RNN có tính ổn định thì có khả năng dẫn tới việc các trọng số nhỏ dần theo cấp số nhân do các tương tác dài. Một mơ hình được đề xuất để khắc phục nhược điểm này là mơ hình LSTM (Long Short-Term Memory) - mạng bộ nhớ ngắn hạn hướng tới dài hạn.