KIÊN THỨC CƠ BẢN
Chương 2. CÔNG TRÌNH LIÊN QUAN VÀ KIEN THUC CƠ BẢN
2.2 Nhận diện van bản
2.2.1 Tổng quan về Nhận diện văn ban
Mục tiêu của nhận diện văn bản là nhằm chuyển đổi vùng văn bản đã được phát hiện thành những ký tự hoặc những từ bao gồm 10 chữ số, 26 chữ thường, 26 chữ hoa, 32 dau câu ASCII và ký hiệu kết thúc câu (EOS). Vì các thuộc tính của các hình anh văn bản được chụp trong điều kiện thực tế là so với dang văn bản/hóa đơn được scan, điều đó rất khó để phát triển phương pháp nhận dạng văn bản dựa trên những thuật toán OCR hoặc phương pháp nhận diện chữ viết tay sử dụng cho đữ liệu văn bản truyền thống. Như đã dé cập trước đó, hình ảnh được chụp trong tự nhiên thường có độ phân giải thấp, chói sáng, điều kiện môi trường không tốt, lẫn nhiều hình ảnh nền phía sau, tỷ lệ không đồng đều, phân bố tùy ý của văn bản trong ảnh và có nhiều phông chữ khác nhau, nhiều góc xoay, ngôn ngữ và từ vựng. Các nhà nghiên cứu đã đề xuất các kỹ thuật khác nhau để giải quyết những thách thức này, được chia thành hai loại là phương pháp dựa trên
máy học và phương pháp dựa trên học sâu.
17
Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
Method Model Year Feature Extraction Sequence modeling Prediction Training Dataset? Irregular recognition Task # classes Code
Wang et al. [80] E2ER 2012 CNN - SVM PD - C 62 -
Bissacco ef aÍ.[22| PhotoOCR 2013 HệG.NN - - PD - L8) 99 - Jaderberg eral. [6O] SYNTR 2014 CNN „ _ MI _ Cc 36 v Jaderberg eral. [60 SYNTR 2014 CNN x - MJ — Ww 90k v
He et al. [150] DTRN 2015 DCNN LSTM cre MJ - Seq 37 - Shi et al.* [53] RARE 2016 STN+VGGI6 BLSTM Attn MI “ Seq 37 vw Lee et al. [61 R2AM 2016 Recursive CNN LTSM Attn MJ _ _- 37 - Liu et al.* [54] STARNet 2016 STN+RSB BLSTM crc MJ+PD vw Seq 37 v
Shi et al.* [52] CRNN 2017 VGG16 BLSTM cre MI _ Seq 37 “ Wang et al. [62] GRCNN 2017 GRCNN BLSTM CTC MI _ Seq 62 -
Yang et al. [63] L2RI 2017 VGGI6 RNN Attn PD+CL vw Seq - -
Cheng et al. [64] FAN 2017 ResNet BLSTM Attn MI+ST+CL - Seq 37 - Liu et al. (65 Char-Net 2018 CNN LTSM Att MJ vw Bs 37 -
Cheng et ai. [66] AON 2018 AON+VGGI6 BLSTM Attn MI+ST v Seq 37 x
Bai et al. [67 EP 2018 ResNet - Attn MI+ST = Seq 37 - Liao et al [151] CAFCN 2018 VGG - - ST vw es 37 - Borisyuk ef ứ_* [55] ROS 2018 ResNet = CTC PD _ Seq — = Shi et al.* [16] AS] 2018 STN+ResNet BLSTM Attn MI+ST vw Seq 4 v Liu et al. [68 là 2018 VGG16 BLSTM cre MI wv Seq 37 - Back et al.* [56] CLOVA 2018 STN+ResNet BLSTM Attn MI+ST “ Seq 36 vw
Xie er al. [69] ACE 2019 ResNet - ACE ST+MI vw Seq 37 L4
Zhan et al. [TU] ESIR 2019 IRN+ResNet, WGG BLSTM Attn ST+MI “ Seq 68 - Wang et al. [71] SSCAN 2019 ResNet, VGG _ Attn ST v Seq 4 - Wang ef al. [152] 2DCTC 2019 PSPNet - 2D-CTC ST‡+MI “ Seq 36 x
HÌNH 2.8: Tóm tắt sự so sánh giữa một số kỹ thuật gần đây nhất
trong lĩnh vựcŠ
2.2.1.1 Phương pháp dựa trên máy học
Khoảng hai thé ki vừa qua, các phương pháp nhận dạng van bản đã sử dụng các
tính tiêu chuẩn hình ảnh như là HOG [6] và SIFT [26] với một bộ phân lớp như
SVM hoặc k-nearest neighbors [1] sau đó một mô hình ngôn ngữ thống kê hoặc dự đoán cấu trúc trực quan được áp dụng để loại bỏ các ký tự được phân loại sai. Hầu hết các phương pháp này đều tuân theo hướng tiếp cận bottom-up
mà các ký tự đã được phân loại được liên kết với nhau thành một từ. Ví dụ, trong
[43], đặc trưng HOG dau tiên sẽ trích xuất từ cửa sổ trượt sau đó một bộ phân
lớp đã được huấn luyên trước đó (SVM) được áp dụng để phân loại các ký tự của hình ảnh từ đầu vào. Một số khác theo hướng tiếp cận top-down mà các từ được nhận dạng trực tiếp từ những thực thể đầu vào hình ảnh thay vì nhận dạng các
ký tự riêng lẻ.
8 Ảnh lấy từ
18
Chương 2. CÔNG TRINH LIÊN QUAN VÀ KIÊN THUC CƠ BẢN
2.2.1.2 Phương pháp dựa trên học sâu
Với những tiến bộ gần đây của kiến trúc mạng nơron, nhiều nhà nghiên cứu đã
dé xuất phương pháp dựa trên học sâu giải quyết các thách thức về nhận dang
văn bản trong tự nhiên được minh họa trong Hình|2.9| Ví dụ đã đề xuất dựa
trên trích xuất tính năng của CNN để nhận diện ký tự, sau đó áp dụng kỹ thuật của NMS để có được những từ dự đoán cuối cùng.
2.2.2 Nhận Dạng Tiếng Việt Sử Dung Mô Hình Transformer va
AttentionOCR
Trong khóa luận này, trong phần nhận dạng Tiếng Việt chúng tôi sử dụng một
mô hình có tên là VietOCR ? ứng dụng kiến trúc của mạng Transformer đã đạt được nhiều tiến bộ vượt bậc cho cộng đồng NLP cho bài toán nhận dạng hình
ảnh văn bản.
2.2.2.1 Tìm hiểu mô hình Transformer
Transformer giải quyết được nhược điểm của mô hình tuần tự truyền thống nhờ chủ yếu vào hai cau trúc là Multi-head attention và Positional encoding.
"https: //pbcquoc. github.1o/vietocr/
19
Chương 2. CÔNG TRÌNH LIEN QUAN VÀ KIÊN THUC CƠ BẢN
Pasitional ae Positional