Mạng nơron hồi qui RNN

Mạng mạng nơ ron hồi qui RNN (Recurrent Neural Network) được thiết kế để xử lý các mẫu dữ liệu tuần tự. Các vấn đề có thể được hưởng lợi từ mạng RNN thay vì mạng nơ-ron chuyển tiếp nguồn cấp dữ liệu (Feed Forward Neural Network - FFNN), thông thường là nhận dạng giọng nói, nhận dạng hoạt động của con người và phát hiện hoặc nhận dạng ngôn ngữ. Những vấn đề này bao gồm các mẫu dữ liệu phụ thuộc vào bước thời gian trước đó của mẫu. Để xác định một ngôn ngữ, một từ hoặc một ký tự trước đó giúp ta dễ dàng xem văn bản bằng ngôn ngữ nào. Điều tương tự cũng áp dụng cho nhận biết chuyển động của con người, rằng họ đang di chuyển hay đang ngồi, đang nằm..., và các hành động của họ trong khoảng thời gian trước đó. Từ các cảm biến có thể tiết lộ các hoạt động đang diễn ra.

3 Tensorflow documentation.

https://www.tensorflow.org/api_docs/python/tf/keras/losses/SparseCategoricalCrossentropy. fetched 20200810. (2.10)

So với mạng nơ-ron nhân tạo chuyển tiếp nguồn cấp dữ liệu thông thường, mạng RNN có kết nối phản hồi bên trong lớp ẩn, xem hình (2.11) và hình (2.12). Đây là lý do khiến mạng RNN về mặt lý thuyết xử lý dữ liệu đầu vào tuần tự tốt hơn so với mạng nơ-ron chuyển tiếp nguồn cấp dữ liệu.

Các tầng ẩn trong mạng RNN được mô tả bằng ma trận trọng số W, nhưng cũng được mô tả bằng ma trận ẩn trạng thái nhân với bước thời gian trước đó là (t-1). được biểu diễn bằng phương trình (2.11).

ℎ𝑡 = 𝜎(W𝑥𝑡 + Uℎ𝑡−1)

Phương trình (2.11) cho ta thấy, mỗi tầng ẩn chứa thông tin không chỉ của mẫu trước đó, mà của tất cả các mẫu đã chuyển qua trước đó. Các đơn vị ẩn được huấn luyện với dữ liệu mới thông qua một phần mở rộng của lan truyền ngược

Hình 2.9 Một RNN có kết nối phản hồi bên trong lớp ẩn

Hình 2.10 Kiến trúc RNN chưa được mở rộng

(được sử dụng trong các mạng chuyển tiếp nguồn cấp dữ liệu) được gọi là lan truyền ngược theo thời gian (BPTT - backpropagation through time) [18].

Mạng RNN cũng có một số vấn đề nhất định khi xử lý các mẫu dữ liệu tuần tự thời gian, trong đó sự cố gradient biến mất hoặc nổ tung có thể xảy ra. Các gradient có thể nổ tung và tạo ra một mô hình không đáng tin cậy [19].

Chức năng kích hoạt đầu ra

Tính hiệu quả của Drop-Out