39 Tầng transcription là tầng cao nhất của CRNN, nhiệm vụ chuyển từ các đặc trưng của tầng recurrent trước đó về dạng chuỗi.
4.3 Tầng trích xuất đặc trưng chuỗi
Đặc trưng của một bức ảnh là một thành phần rất quan trọng, trích xuất đặc trưng là một bước bản lề cho các bước sau của thuật toán. Hiện nay sự phát triển của DL trong đó có mạng CNN, là một mạng khá nổi tiếng để trích xuất đặc trưng từ bức ảnh. Ở mô hình mạng CRNN [9] là sự kết hợp của mạng CNN và mạng RNN, dựa vào cấu trúc mạng, dễ nhận thấy rằng đã sử dụng CNN để trích xuất đặc trưng.
Ở tầng dưới cùng ở hình 4.0.1, thành phần bao gồm các convolutional và max- pooling và bỏ đi tầng kết nối đầy đủ, tầng trích xuất đặc trưng sử dụng để trích xuất đặc trưng chuỗi trên ảnh đầu và trước khi đưa vào mạng thì các ảnh đầu vào phải đưa về cùng chiều cao. Bởi vì mỗi véc tơ đặc trưng phải cùng số chiều với nhau, sau đó các véc tơ của đặc trưng chuỗi được trích xuất từ feature maps là đầu vào của tầng tiếp theo. Cụ thể, mỗi véc tơ từ trái sang phải theo cột, nghĩa là véc tơ thứ 𝑖 là sự nối nhau của các cột thứ i của tất các feature maps, độ rộng của mỗi cột là một điểm ảnh. Vì sử dụng max-pooling nên mỗi cột của feature maps tương ứng là các hình chữ nhật trên ảnh gốc (trên trường tiếp nhận). Dễ nhận ra, mỗi véc tơ của đặc trưng chuỗi là một hình chữ nhật đó trên ảnh gốc
4.4 Gán nhãn trình tự
Một bidirectional Recurrent Neural Network được xây dựng trên đỉnh của các tầng Convolutinal, được xem như tầng recurrent, tầng recurrent có nhiệm vụ dự đoán một phân phối 𝑦𝑡 cho mỗi frame của chuỗi đặc trưng 𝑋 = 𝑥1, … … 𝑥𝑇 Những lợi thế của tầng recurrent là:
• Mô hình RNN có khả năng mạnh mẽ trong lưu giư nội dung dạng chuỗi. • Xử lý trên nội dung chuỗi là phù hợp và hưu dụng hơn nhiều so với xử lý trên
tầng kí tự riêng lẻ. Bởi vì ví dụ như nhận dạng chuỗi trên bức ảnh thì việc xác định tầng kí tự rất khó khăn và khi ấy có nhiều trường sẽ dễ bị nhầm lẫn giưa các kí tự đơn lẻ ví dụ như chữ cái “i” và chữ cái “l”
40 • Việc tối ưu của RNN là tối ưu hàm mất mát CTC, có thể sử dụng thuật toán
lan truyền ngược để tìm nghiệm tối ưu cho hàm mất mát này. Điều này dẫn đến sự kết hợp với các tầng convolution để tạo thành một mạng thống nhất. • RNN có thể thực hiện trên các chuỗi với độ dài thay đổi
Để hiểu thêm về tầng này, dưới đây sẽ trình bày ngắn gọn về mạng RNN và sử dụng LSTM để khắc phục nhưng hạn chế của RNN.
Nếu sử dụng DL với đầu vào là ảnh thì có hai mạng nổi tiếng đó là CNN và RNN, trong đó RNN cho bài toán dữ liệu đầu vào là chuỗi, bởi vì một chuỗi các sự kiện sẽ có mối liên quan lẫn nhau. Nên chỉ xử lý tầng thời điểm riêng lẻ sẽ không có đủ thông tin để đưa ra câu trả lời chính xác nên từ đó mạng RNN ra đời nhằm giải quyết vấn đề này, dưới đây là cấu trúc của mạng RNN