Kiến trúc RoIRotate khi áp dụng trên vùng chứa ký- 123docz.net

2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN

2.26 Kiến trúc RoIRotate khi áp dụng trên vùng chứa ký tự

2.5.4 Các kết quả tiêu biểu

Kiến trúc FOTS được Liu và các cộng sự đánh giá trên các tập dữ liệu như ICDAR 2015, ICDAR 2017 MLT và ICDAR 2013 đạt được kết quả cao so với các phương pháp ở thời điểm ra mắt.

So sánh với các kiến trúc OCR gồm hai mô hình phát hiện ký tự và nhận diện ký tự độc lập, kiến trúc OCR End2End FOTS cho thấy rằng việc tối ưu đồng thời hàm mất mát của việc phát hiện và nhận diện ký tự đạt được kết quả tốt hơn. Một lý do được Liu và các cộng sự đưa ra là việc nhận diện ký tự đã giúp cho kiến trúc FOTS học được các đặc trưng quan trọng của các ký tự và từ đó giúp việc xác định vị trí trở lên tốt hơn. Các kiến trúc truyền thống với hai nhánh độc lập thường xuất hiện các lỗi trong việc phát hiện ký tự như vùng phát hiện ký tự bị cắt bớt, kết hợp nhiều vùng chứa ký tự lại với nhau, xác định nhầm vùng chứa ký tự và xác định thiếu vùng chứa ký tự. Các lỗi đó đã làm tăng các biến thể mà mô hình nhận diện cần phải xác định được từ đó gây khó khăn cho việc nhận diện. Các lỗi này hầu hết đã được khắc phục khi áp dụng kiến trúc End2End như kiến trúc FOTS.

Ngoài ra, kiến trúc FOTS còn được so sánh với các kiến trúc tốt nhất ở thời điểm ra mắt. Kết quả sau khi được đánh giá cho thấy sự vượt trội cả về độ

chính xác và tính hiệu quả.

2.5.5 Đánh giá hướng tiếp cận

2.5.5.1 Điểm mạnh

Các kiến trúc End2End hoạt động khá hiệu quả khi được áp dụng vào thực tiễn khi không phải đòi hỏi cao về phần cứng và đạt được độ chính xác không thua kém gì các phương pháp huấn luyện độc lập hai mô hình xác định vị trí và nhận diện ký tự.

2.5.5.2 Điểm yếu

Tuy nhiên, các kiến trúc End2End vẫn còn một vài hạn chế nhất định như:

• Khó khăn trong việc xây dựng các kiến trúc cầu nối để chia sẻ thông tin giữa việc xác định và nhận diện ký tự.

• Khó khăn trong việc tối ưu một bài toán tối ưu đa mục tiêu.

• Việc cải thiện hàm mất mát đồng thời của hai việc xác định vị trí và nhận diện ký tự cũng là một thách thức không nhỏ.

Chương 3

MÔ HÌNH OCR CẢI TIẾN

3.1 Tổng quan

Trong chương hai, tôi đã trình bày và đánh giá cụ thể các phương pháp tiếp cận của OCR, mặc dù các phương pháp End2End thể hiện tiềm năng trong tương lai, tuy nhiên việc huấn luyện các mô hình này đòi hỏi việc chuẩn bị dữ liệu phức tạp và khó cải tiến, vậy nên tôi quyết định phát triển nghiên cứu theo hướng Phương pháp nhận dạng từng câu - Sentence Based OCR, để đạt kết quả tốt nhất.

3.2 Kiến trúc mô hình

Một vấn đề của Phương pháp nhận dạng từng câu - Sentence Based OCR đã được nhắc tới ở chương trước, đó là việc nó phụ thuộc vào kết quả của nhiều bài toán khác, bao gồm nhận diện dòng chữ và cân chỉnh dòng chữ, qua thời gian nghiên cứu, luồng OCR được tôi thiết kế như dưới đây:

Kiến trúc RoIRotate khi áp dụng trên vùng chứa ký tự

Lớp tổng hợp Pooling Layer (PL) Nguồn: [85]

Kiến trúc mạng RN N Nguồn: [85]