So sánh các lớp chuẩn hóa thường dùng trong mạng neuron tích chập

Một phần của tài liệu Xây dựng mô hình nhận dạng chữ viết tay trong các biểu mẫu có bố cục cố định (Trang 33 - 34)

6 Ứng dụng

2.10So sánh các lớp chuẩn hóa thường dùng trong mạng neuron tích chập

2.3 Mạng neuron hồi quy

Mạng neuron hồi quy (Recurrent Neural Network - RNN) là một mơ hình có thể giải quyết yêu cầu nhận dạng số lượng từ khổng lồ mà mơ hình CNN đơn giản khơng giải quyết được. Tức là khi chia ảnh ban đầu thành nhiều thành phần và nhận diện từng phần nhỏ.

RNN là nhóm các mạng neuron dùng để xử lý dữ liệu tuần tự có dạngx(1), x(2), ..., x(t)

với (t) chỉ thời điểm xuất hiện của đầu vào x, còn gọi là time-step. Sự tuần tự này

đặc trưng cho dữ liệu đến theo thời gian, chẳng hạn như văn bản, âm thanh. Do tính chất của luận văn, chúng ta biến đổi một chút lên dữ liệu hình ảnh (feature map) để có dữ liệu tuần tự bằng cách cắt ảnh ban đầu thành nhiều ảnh con, đầu vào mới sẽ là chuỗi các ảnh con này.

Hình 2.11: Ví dụ cắt ảnh thành những mảnh nhỏ theo chiều ngang. Trên hình mỗi mảnh có chiều rộng là 4 pixel7

6

https://www.arxiv-vanity.com/papers/1803.08494/

7

Kiến thức nền tảng 21

Sức mạnh của RNN đối với dữ liệu tuần tự đến từ việc nó kết hợp kết quả tính được ở thời điểm trước với đầu vào ở thời điểm hiện tại, điều này tạo ra tính “nhớ” tương tự như cách nhận thức của con người. Khi quan sát thông tin đến theo thời gian, nhận thức của chúng ta luôn tự biết kết hợp thêm những thông tin đã tiếp thu trong quá khứ; chẳng hạn với Hình 2.11 nêu trên, khi nhìn riêng mỗi ơ được đóng khung đậm, ta chỉ thấy mỗi đường cong, khơng biết đó là chữ “i” hay “a” hay “o”, nhưng khi kết hợp với thơng tin từ ơ trước, ta biết đó là phần cuối của ký tự “i”.

RNN sử dụng chung một đơn vị tính tốn để lan truyền các tham số tính được từ thời điểm trước (t−1) sang thời điểm hiện tại (t) và kết hợp hai giá trị này để sử dụng như đầu vào của lần tính tốn kế tiếp như sau:

h(t) =f(h(t−1), x(t);θ) (2.9) Trong đó h(t) và x(t) lần lượt là hidden layer và đầu vào tại thời điểm t. Hàm f là hàm kích hoạt vàθ đại diện cho các tham số được áp dụng lên h(t) và x(t). Công thức này tương đương với sơ đồ tính tốn trong Hình 2.12.

Một phần của tài liệu Xây dựng mô hình nhận dạng chữ viết tay trong các biểu mẫu có bố cục cố định (Trang 33 - 34)