1.6. Kiến thức nền tảng về học sâu
1.6.1. Mô hình mạng truy hồi
Mô hình mạng truy hồi (Recurrent Neural Network - RNN) [23] là một loại mô hình ngôn ngữ mạng nơ ron. Mạng RNN liên quan tới độ dài của chuỗi đầu vào nên mạng này phù hợp cho dữ liệu dạng chuỗi như văn bản. Trong ngôn ngữ thì từ đằng sau phụ thuộc vào các từ đứng trước nó. Để dự đoán từ đứng sau thì cần phải biết các từ đứng trước. Mạng truy hồi được mô tả như hình 1.49.
Mạng nơ ron truy hồi nhận đầu vào là chuỗi các giá trị xvà sinh ra chuỗi các từ đầu ra o. Hàm mất mát L được dùng để đánh giá sự sai khác của giá trị dự đoán o so với tập nhãn dữ liệu thực tế y. Sự kết nối giữa đầu vào với tầng ẩn, tầng ẩn với đầu ra và tầng ẩn với tầng ẩn lần lượt là các ma trận U, V và W
theo công thức sau:
a(t) =b+W.h(t−1)+U.x(t), (1.1)
h(t) = tanh (a(t)), (1.2)
o(t) =c+V.h(t), (1.3)
y(t) =sof tmax(o(t)), (1.4) 9https://nguyentruonglong.net/giai-thich-chi-tiet-ve-mang-long-short-term-memory-lstm.html
Hình 1.4: Mô hình RNN
trong đó b, c là độ lệch (bias). Nhược điểm của mô hình RNN là vấn đề phụ thuộc xa. Tức là mô hình RNN cơ bản không có khả năng ghi nhớ thông tin từ các dữ liệu có khoảng cách xa. Nguyên nhân của vấn đề này là do giá trị đạo hàm sau khi lan truyền qua nhiều giai đoạn có xu hướng bị tiêu biến hoặc rất lớn gây ảnh hưởng lớn đến quá trình tối ưu hóa. Ngoài ra nếu các tham số giúp mạng RNN có tính ổn định thì có khả năng dẫn tới việc các trọng số nhỏ dần theo cấp số nhân do các tương tác dài. Một mô hình được đề xuất để khắc phục nhược điểm này là mô hình LSTM (Long Short-Term Memory) - mạng bộ nhớ ngắn hạn hướng tới dài hạn.