Phân tách từ

2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN

2.10 Phân tách từ

• Phương pháp phân tách sử dụng mô hình học máy: Mô hình học máy tỏ ra có lợi thế lớn khi mà có thể tối ưu nâng cao độ chính xác vì mô hình có khả năng học từ dữ liệu. Các mô hình thông thường đi theo hướng nhận diện vật thể (Object Detection) từ các mô hình tiêu biểu như Faster- RCNN hay YOLO (You only look once). Thông thường phương pháp này được sử dụng nhiều hơn vì cho độ chính xác cao và khả năng học thêm dữ liệu.

2.2.4 CRNN

Đối với hướng tiếp cận Word Based OCR, tác giả Baoguang Shi đã sử dụng mô hình CRNN [55] và đạt được kết quả rất khả quan. Mô hình CRNN

được thiết kế để phục vụ cho các bài toán nhận diện vật thể dạng chuỗi trong ảnh, đặc biệt phù hợp với các bài toán OCR (do đối tượng nhận diện thường là một chuỗi các ký tự). CRNN là viết tắt của Convolutional Recurrent Neural Network, hay mạng nơ-ron hồi quy tích chập. Sở dĩ có tên như vậy vì mô hình là sự kết hợp giữa mạng nơ-ron tích chập CNN và mạng nơ-ron hồi quy RNN. Đồi vật các vật thể dạng chuỗi, CRNN có lợi thế hơn các mô hình mạng tích chập thuần túy ở các điểm:

• Mô hình có thể học trực tiếp từ nhãn của chuỗi (các từ), không cần đến các nhãn ở mức độ thấp hơn (các ký tự).

• Có khả năng học các biểu diễn có ích tương tự như mạng CNN, chỉ sử dụng dữ liệu ảnh mà không cần đến việc tạo các đặc trưng thủ công hay các bước tiền xử lý (ví dụ như nhị phân hóa, địa phương hóa, phân vùng ngữ nghĩa, ...).

• Có khả năng tạo ra một chuỗi các dự đoán giống với mạng RNN.

• Không bị ràng buộc bởi độ dài của vật thể, chỉ yêu cầu chuẩn hóa chiều cao trong cả quá trình huấn luyện và kiểm thử.

• Mô hình cho kết quả tốt hơn các phương pháp trước ([56], [57]) đối với dữ liệu chữ đặt trong bối cảnh thực tế (scene texts).

• CRNN có lượng tham số mô hình ít hơn một mô hình CNN tiêu chuẩn, giúp tiết kiệm bộ nhớ cho các tác vụ khác.

Kiến trúc cụ thể của mô hình CRNN như sau: Mô hình được tạo nên từ 3 thành phần chính: các lớp tích chập, các lớp hồi quy và lớp phiên mã. Ở tầng đáy của mô hình, lớp tích chập tự động trích xuất chuỗi các đặc trưng từ ảnh đầu vào. Xếp trên lớp tích chập là các lớp hồi quy, với đầu vào là chuỗi các

Lớp tổng hợp Pooling Layer (PL) Nguồn: [85]

Kiến trúc mạng RN N Nguồn: [85]