Phương pháp End2End kết hợp End2End OCR

Một phần của tài liệu Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt (Trang 74 - 75)

2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN

2.5 Phương pháp End2End kết hợp End2End OCR

OCR

2.5.1 Tổng quan hướng tiếp cận

Việc phân tách mô hình OCR thành hai bài toán: Phát hiện ký tự - Text Detection và Nhận diện ký tự - Text Recognition thành hai mô hình Học sâu - Deep Learning độc lập khi áp dụng vào thực tiễn không đạt được hiệu quả cao về tốc độ do đòi hỏi về phần cứng. Ngoài ra, với hai mô hình độc lập, mô hình nhận diện ký tự còn đòi hỏi xử lý được các lỗi từ mô hình xác định vị trí nên sẽ khó khăn hơn nhiều lần.

Một kiến trúc Phương pháp End2End kết hợp - End2End OCR nhận đầu vào là một ảnh bất kỳ chứa ký tự có thể trực tiếp cho đầu ra là các chuỗi ký tự có trong ảnh đó chỉ bằng một mô hình Học sâu - Deep Learning duy nhất. Các đặc trưng cần thiết cho việc phát hiện ký tự cũng như nhận diện ký tự có thể chia sẻ trực tiếp cho nhau, và được tối ưu để đạt được hiệu quả tốt nhất cho toàn bộ kiến trúc. Ngoài ra, các kiến trúc End2End còn loại bỏ được các yêu cầu cao về phần cứng mà vẫn đạt được độ chính xác cao khi áp dụng vào thực tiễn.

Có nhiều nghiên cứu gần đây đã chứng mình tính hiệu quả khi xây dựng một kiến trúc End2End. Barzt và các cộng sự [28] đã tích hợp Spatial Trans-

former Network [29] vào trong kiến trúc của mình để phát hiện được các ký tự trong ảnh. Sau đó, các ký tự được phát hiện sẽ được đi qua một mạng nơ-ron đơn giản để có thể nhận diện được. Nhằm tăng việc chia sẻ đặc trưng giữa việc phát hiện ký tự và nhận diện ký tự, nhiều nghiên cứu đã xây dựng các cầu nối phức tạp hơn giữa hai công việc này. Một kiến trúc cầu nối thông thường sẽ có nhiệm vụ chỉ lấy những vùng đặc trưng cần được quan tâm và từ đó có thể có ích cho việc nhận dạng ký tự. Điển hình là kiến trúc RoIPool [27] trong kiến trúc Fast R-CNN nổi tiếng sẽ chuẩn hóa các vùng đặc trưng về một tỷ lệ nhất định từ đó có ích trong việc xác định các vật thể. Tuy nhiên, cách tiếp cận này dường như không phù hợp với xác định ký tự vì sự thay đổi của độ dài của các câu trong văn bản. Nhằm giải quyết vấn đề này, Li và các cộng sự [26] đã khắc phục được điểm yếu này bằng việc bằng việc thay đổi cách chuẩn hóa vùng đặc trưng trong kiến trúc RoIPool bằng việc chuẩn hóa về nhiều tỷ lệ khác nhau. Mặc dù vậy, kiến trúc RoIPool vẫn còn sự sai lệch giữa vùng đặc trưng cần được trích xuất và các đặc trưng được trích xuất. Có nhiều nghiên cứu đã sử dụng các phương pháp như nội suy song tuyến tính để trích xuất được đặc trưng của các ký tự như phép lấy mẫu song tuyến tính [25] hoặc là kiến trúc RoIRotate từ kiến trúc End2End FOTS [?] để có thể trích xuất các vùng đặc trưng chuẩn xác hơn.

2.5.2 Xử lý ảnh

Một phần của tài liệu Ứng dụng học sâu giải quyết bài toán nhận dạng ký tự tiếng việt (Trang 74 - 75)

Tải bản đầy đủ (PDF)

(107 trang)