Kết quả của mô hình sinh chữ viết tay RNN

Một phần của tài liệu Nhận diện chữ viết tay tiếng việt (Trang 42 - 43)

4.2 Mô hình sử dụng4.2.1 OpenNMT 4.2.1 OpenNMT

OpenNMT là công trình mã nguồn mở dùng cho việc dịch máy và các mô hình học máy dạng chuỗi. OpenNMT được bắt đầu phát triển vào năm 2016 bởi nhóm Harvard NLP và công ty SYSTRAN., hiện đang được duy trì bởi SYSTRAN và Ubiqus.

OpenNMT cho phép tùy chỉnh mô hình và tùy chỉnh tham số training dễ dàng. Những mô hình được huấn luyện có thể tích hợp tốt vào các ứng dụng thực tế.

Trong luận văn này, em sẽ sử dụng mô hình image-to-text ở bản legacy, do phiên bản mới hơn đã loại bỏ image-to-text. Mô hình này được xây dựng với mục đích đầu tiên là sinh ra code LaTEX cho các công thức toán học từ hình ảnh ([Den+17]).

4.2.2 Chi tiết mô hình

Mô hình nhận diện chữ viết tay được sử dụng có cấu trúc như hình 4.6.

Tằng ImageEncoder sẽ là các tầng convolutional xen kẽ với max pooling, tuy nhiên sẽ không đưa qua tầng fully-connected cuối cùng như trong các mạng CNN khác để giữ được tính vị trí của các feature. Thay vào đó, các feature maps sẽ được đưa qua một mạng LSTM encoder để lưu giữ được tính vị trí của các feature trong bộ encoder-decoder. Tầng này gọi là row encoder, vì nó sẽ chạy qua từng row trên feature map. Sau đó, bộ decoder sẽ sinh ra các token (chữ cái) dựa trên chính kết quả thu được từ row encoder. Bộ decoder này được huấn luyện như một mô hình ngôn ngữ, cho ra xác suất của token hiện tại dựa trên các token trước đó. Để decoder có độ chính xác cao, decoder cần biết vị trí của feature trên input đầu vào, do đó, thêm một tầng Attention để giữ vị trí của token đang generate trên ảnh. Tầng generator cuối cùng sẽ tập hợp các token có xác suất cao nhất làm kết quả, sử dụng Beam search để tăng độ chính xác cho đầu ra.

Một phần của tài liệu Nhận diện chữ viết tay tiếng việt (Trang 42 - 43)

Tải bản đầy đủ (PDF)

(57 trang)