Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 100 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
100
Dung lượng
2,89 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Hệ thống nhận dạng chữ viết ảnh Smart OCR VŨ MINH ĐỨC ducminhvudlt@gmail.com Ngành Toán Tin Giảng viên hướng dẫn: TS Trần Ngọc Thăng Chữ ký GVHD Viện: Toán ứng dụng tin học HÀ NỘI, 04/2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Vũ Minh Đức Đề tài luận văn: Hệ thống nhận dạng chữ viết ảnh SmartOCR Chuyên ngành: Toán Tin Mã số SV: CB190316 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28 tháng 04 năm 2022 với nội dung sau: • Sửa lại cấu trúc xếp chương luận văn cách hợp lý • Sửa thêm nguồn định nghĩa, cơng thức, hình vẽ • Chỉnh sửa tài liệu tham khảo • Bổ sung lời cảm ơn đến cơng ty Ngày 30 tháng 04 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Trước tiên, tác giả xin gửi lời cảm ơn sâu sắc tới người thầy cố vấn tôi, TS Trần Ngọc Thăng – Người định hướng, trực tiếp dẫn dắt giải đáp thắc mắc tơi suốt q trình thực đề tài Những lời khuyên vô quý giá về kiến thức chuyên môn định hướng phát triển nghiệp thầy giúp tác giả hoàn thiện luận văn cách chu Tôi xin trân trọng cảm ơn tới thầy Viện Tốn ứng dụng Tin học, Đại học Bách Khoa Hà Nội giúp đỡ tạo điều kiện thuận lợi trình học tập nghiên cứu Xin cảm ơn bạn sinh viên, học viên cao học Viện Toán ứng dụng Tin học đồng hành, giúp đỡ, trao đổi với tác giả kiến thức, học thực tế, giúp cho luận văn chi tiết Đồng thời, tác giả gửi lời cảm ơn tới Công ty FPT Software trợ giúp thiết bị cho việc huấn luyện mơ hình, tạo điều kiện cho việc nghiên cứu, phát triển áp dụng vào thực tế hệ thống đề xuất Sau cùng, xin gửi lời cảm ơn đến gia đình bạn bè ln bên khuyến khích tơi suốt năm học tập trình nghiên cứu luận văn Xin chân thành cảm ơn người! Tóm tắt nội dung luận văn Nhận dạng chữ viết toán kinh điển lĩnh vực thị giác máy tính (Computer Vision – CV) Trong thời đại kỷ nguyên chuyển đổi số cách mạng 4.0, tốn số hóa loại văn tự động từ dạng cứng (trên giấy) thành liệu lưu trữ dạng số trở thành xu hướng tất yếu Trong luận văn tác giả xin đề xuất cách giải khâu quan trọng việc số hố tài liệu, nhận dạng chữ viết hình ảnh (Optical Character Recognition – OCR) Tác giả đề xuất hệ thống SmartOCR xử lý đầy đủ từ đầu đến cuối hình ảnh văn với đa dạng thể loại kiểu chữ từ in thường, viết tay nhiều định dạng in đậm, in nghiêng, … Ta thử nghiệm quy trình dựa tập liệu đánh giá thực tế Tiếng Anh Tiếng Việt, đồng thời so sánh kết thu với mơ hình có sẵn Cuối cùng, ta ứng dụng hệ thống vào toán trích xuất thơng tin hóa đơn (Information extraction) để hiểu rõ tính thiết thực khả kết nối mơ hình với tốn liên quan khác Quy trình hệ thống bao gồm bước: chuyển liệu gốc ban đầu dạng ảnh, nhận diện thông tin từ ảnh chụp, chuyển thể thành văn bóc tách trường thơng tin có ý nghĩa Để giải vấn đề ta tập trung vào hai tốn quan trọng phát chữ (text detection) nhận diện chữ (text recognition) Bên cạnh đó, tác giả sâu vào việc phân tích liệu để huấn luyện kiểm thử tốn có điểm khởi đầu từ liệu đầu vào Hơn tác giả đóng góp thêm cho cộng đồng liệu khơng nhiều mong có ích cho nhà nghiên cứu phát triển sau sử dụng Không phải ngẫu nhiên mà OCR số toán nghiên cứu nhiều từ xưa ngành trí tuệ nhân tạo (Artificial Intelligence – AI) hình ảnh chữ viết hay văn định dạng mà người tiếp xúc hàng ngày lĩnh vực Tiềm to lớn ln thúc đẩy nghiên cứu, tìm tịi nhà trường, phịng lab hay cơng ty, tập đồn hàng đầu ngồi nước Với hướng riêng mình, tác giả mong muốn đóng góp cho độc giả nhìn tổng thể không phần đổi việc ứng dụng, phát triển triển khai mơ hình học máy từ lý thuyết, thực hành, đề xuất áp dụng vào thực tiễn để có ích cho xã hội Từ khoá: Optical recognition character, OCR, phát chữ ảnh, nhận diện chữ ảnh, text detection, text recognition, text spotting Giáo viên hướng dẫn Ký ghi rõ họ tên Hà Nội, ngày 30 tháng 04 năm 2022 HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Bài toán nhận dạng chữ viết (OCR) 1.1.1 Lịch sử OCR 1.1.2 Một số ứng dụng OCR 1.1.3 Phân loại OCR 1.2 Kiến trúc mạng neuron 1.3 Mạng neuron tích chập – CNN 13 1.4 Mạng neuron hồi quy – RNN 16 1.5 Một số cấu trúc mạng CNN 18 1.6 1.5.1 Alexnet (2012) 19 1.5.2 VGG (2014) 19 1.5.3 ResNet (2015) 21 Một số chế quan trọng 22 1.6.1 Cơ chế CTC 22 1.6.2 Cơ chế Attention 24 1.6.3 Cơ chế NMS 30 CHƯƠNG CÁC PHƯƠNG PHÁP GIẢI BÀI TOÁN 33 2.1 2.2 Các toán OCR 33 2.1.1 Bài toán phát chữ - Text detection 33 2.1.2 Bài toán nhận diện chữ - Text recognition 33 Các mơ hình phát chữ - Text detection 34 2.2.1 Các phương pháp cổ điển 34 2.2.2 Text detection dựa Object Detection 35 2.2.3 Text detection dựa thành phần chữ (Sub-Text Components) 39 2.3 2.4 Các mơ hình nhận diện chữ - Text recognition 42 2.3.1 Các phương pháp cổ điển 42 2.3.2 Mơ hình tổng quan text recognition áp dụng học sâu 43 2.3.3 Text recognition dựa CTC 44 2.3.4 Text recognition dựa Attention 45 Mơ hình nhận diện văn đầu cuối – Text spotting 46 2.4.1 Phương pháp cổ điển 46 2.4.2 Phương pháp áp dụng học sâu 47 2.4.3 Đánh giá tổng quan phương pháp 48 CHƯƠNG GIẢI PHÁP SMARTOCR CHO BÀI TOÁN NHẬN DẠNG CHỮ VIẾT 49 3.1 3.2 3.3 Tổng quan kiến trúc 49 3.1.1 Pha 1: Tiền xử lý 50 3.1.2 Pha 2: Phát vùng chứa chữ 55 3.1.3 Pha 3: Nhận diện chữ 56 3.1.4 Pha 4: Hậu xử lý 58 Cài đặt đánh giá hệ thống SmartOCR 60 3.2.1 Ngôn ngữ văn Tiếng Việt 60 3.2.2 Các tập liệu huấn luyện kiểm thử 61 3.2.3 Phương pháp thực 65 3.2.4 Kết 69 3.2.5 Chương trình 71 Ứng dụng hệ thống vào tốn trích xuất thơng tin hóa đơn 73 3.3.1 Giới thiệu tốn trích xuất thơng tin 73 3.3.2 Kết áp dụng mơ hình tập liệu SROIE 73 KẾT LUẬN 76 TÀI LIỆU THAM KHẢO 78 DANH MỤC HÌNH VẼ Hình 1.1: Mục đích kỹ thuật OCR – Nguồn [2] Hình 1.2: Ảnh font chữ: OCR-A OCR-B Hình 1.3: Xác thực đăng ký ngân hàng cccd – Nguồn [5] Hình 1.4: Áp dụng OMR để nhận dạng dấu tick – Nguồn [2] Hình 1.5: Offline OCR Online OCR Hình 1.6: Mối quan hệ AI, ML, DL – Nguồn [2] Hình 1.7: Mạng thần kinh – Nguồn [2] Hình 1.8: Kiến trúc mạng Multi Layer Perceptron (MLP) – Nguồn [2] Hình 1.9: Vai trị tốc độ học – Learning rate Hình 1.10: Lan truyền tiến mạng NN – Nguồn [6] 10 Hình 1.11: Lan truyền ngược mạng NN – Nguồn [6] 11 Hình 1.12: Mơ hình tổng qt CNN – Nguồn [2] 13 Hình 1.13: Một số loại Pooling 14 Hình 1.14: Đồ thị hàm kích hoạt Sigmoid, Tanh, ReLU 15 Hình 1.15: Hàm Softmax với toán phân loại nhiều lớp – Nguồn [2] 15 Hình 1.16: Mạng NN trước sau Dropout – Nguồn [2] 16 Hình 1.17: Kiến trúc mạng RNN – Nguồn [7] 17 Hình 1.18: Cấu trúc BiLSTM – Nguồn [8] 18 Hình 1.19: Lịch sử phát triển cấu trúc mạng CNN – Nguồn [9] 18 Hình 1.20: Kiến trúc mạng AlexNet – Nguồn [9] 19 Hình 1.21: Cấu trúc mạng VGG-16 – Nguồn [9] 19 Hình 1.22: Ví dụ việc thay lọc 5x5 lọc 3x3 – Nguồn [9] 20 Hình 1.23: Cấu trúc mạng ResNet – Nguồn [9] 21 Hình 1.24: Chi tiết bên khối Identity – Nguồn [9] 21 Hình 1.25: Đường CTC 23 Hình 1.26: Mã hóa từ “that” CTC 24 Hình 1.27: Ví dụ cấu trúc Seq2Seq dịch máy – Nguồn [2] 25 Hình 1.28: Mơ hình mạng Encoder-Decoder với RNN – Nguồn [2] 25 Hình 1.29: Mơ hình Seq2Seq áp dụng chế Attention – Nguồn [2] 26 Hình 1.30: Một số kiểu tính score Attention 27 Hình 1.31: Mơ hình Attention-OCR – Nguồn [19] 28 Hình 1.32: Mơ hình CRNN + Attention – Nguồn [20] 29 Hình 1.33: Ảnh trước sau áp dụng chế NMS – Nguồn [2] 30 Hình 1.34: Phần giao hai khung 31 Hình 1.35: IOU hai khung 31 Hình 2.1: Phát chữ ảnh logo Bách Khoa 33 Hình 2.2: Nhận diện ảnh chữ BÁCH KHOA 34 Hình 2.3: Luồng xử lý mơ hình MSER – Nguồn [2] 35 Hình 2.4: Luồng xử lý mơ hình SWT – Nguồn [34] 35 Hình 2.5: Những dự đốn lỗi TextBoxes – Nguồn: [39] 36 Hình 2.6: Một số kết phát hiên chữ EAST – Nguồn [41] 37 Hình 2.7: Mơ hình LOMO – Nguồn [43] 38 Hình 2.8: Kết mơ hình LOMO Wang (2019) 38 Hình 2.9: Kết phát chữ mơ hình dạng Sub-Text Component 41 Hình 2.10: Luồng huấn luyện tổng quan mơ hình Text recognition 43 Hình 2.11: Mơ hình mạng CRNN – Nguồn [16] 44 Hình 2.12: Một số kiểu mơ hình text recognition áp dụng CTC 45 Hình 2.13: Một số kiểu mơ hình áp dụng chế Attention 46 Hình 2.14: Text spotting hai giai đoạn 47 Hình 2.15: Text spotting giai đoạn 48 Hình 3.1: Luồng xử lý hệ thống SmartOCR 49 Hình 3.2: Chỉnh lệch ảnh – Nguồn [2] 50 Hình 3.3: Chỉnh nhăn ảnh 51 Hình 3.4: Chỉnh cường độ ảnh – Nguồn [2] 51 Hình 3.5: Xóa ảnh ảnh văn – Nguồn [2] 52 Hình 3.6: Loại bỏ đường kẻ ảnh 52 Hình 3.7: Chỉnh kích thước ảnh 53 Hình 3.8: Chuyển ảnh sang dạng trắng đen 53 Hình 3.9: Phân tích bố cục ảnh 54 Hình 3.10: Phát dòng văn 54 Hình 3.11: Nhận dạng ngơn ngữ với ảnh văn đa ngôn ngữ 54 Hình 3.12: Mơ hình CRAFT 55 Hình 3.13: Luồng xử lý tính score CRAFT – Nguồn: [85] 55 Hình 3.14: Mơ hình DB – Nguồn: [86] 56 Hình 3.15: Mơ hình CLOVA_AI 57 Hình 3.16: Top-3 ký tự từ phần text recognition 59 Hình 3.17: Bộ dictionary corpus địa 59 Hình 3.18: Bảng chữ Tiếng Việt 60 Hình 3.19: Ảnh văn khó – Nguồn [73] 61 Hình 3.20: Ảnh liệu CMT thực tế nhân tạo 62 Hình 3.21: Sơ đồ sinh ảnh data augmentation 63 Hình 3.22: Ảnh liệu đánh giá 65 Hình 3.23: Ảnh trước sau mở rộng 67 Hình 3.24: Nhận diện ảnh chứa cụm từ 67 Hình 3.25: IOU text detection 69 Hình 3.26: Ảnh minh họa với văn hóa đơn Tiếng Việt 71 Hình 3.27: Ảnh minh họa text detection với liệu SROIE 71 Hình 3.28: Ảnh minh họa với liệu Cin 72 Hình 3.29: Ảnh minh họa với liệu Cin 72 Hình 3.30: Ảnh minh họa text detection VNOnDB-paragraph 72 Hình 3.31: Ảnh liệu output hóa đơn SROIE 73 Hình 3.32: Một luồng xử lý IE 73 Hình 3.33: Ảnh kết tốn trích xuất thơng tin hóa đơn tập liệu SROIE 75 DANH MỤC BẢNG Bảng 1.1: Một số kiểu Attention 27 Bảng 2.1: So sánh số mơ hình phát chữ 39 Bảng 2.2: Bảng so sánh kết mơ hình phát chữ - Nguồn [51], [43], [52] 42 Bảng 3.1: Các liệu dùng để huấn luyện mơ hình 63 Bảng 3.2: Các liệu dùng để đánh giá mơ hình 64 Bảng 3.3: Cấu hình huấn luyện 65 Bảng 3.4: Điểm thay đổi hệ thống so với mơ hình ban đầu 66 Bảng 3.5: Kết mơ hình text detection tập liệu SROIE 70 Bảng 3.6: Kết mơ hình text recognition tập liệu VNOnDB-Word 70 Bảng 3.7 Kết mơ hình tập liệu Cin 70 Bảng 3.8: Kết thử nghiệm SmartOCR với toán IE tập SROIE 74 Hình 3.28: Ảnh minh họa với liệu Cin Hình 3.29: Ảnh minh họa với liệu Cin Hình 3.30: Ảnh minh họa text detection VNOnDB-paragraph 72 3.3 Ứng dụng hệ thống vào tốn trích xuất thơng tin hóa đơn 3.3.1 Giới thiệu tốn trích xuất thơng tin Trích xuất thơng tin (Information Extraction - IE) tốn trích xuất nội dung cần thiết quan trọng văn nhiều từ đa dạng bố cục Ví dụ với biên lai hố đơn ta cần xác định tên mặt hàng, số lượng giá tương ứng theo cặp từ khoá - giá trị (Key – Value) Việc khai thác thông tin tài liệu người không đơn giản việc đọc toàn văn trang mà cần phải hiểu bố cục nội dung Bài tốn OCR thường áp dụng vào tốn trích xuất thơng tin ảnh có chứa văn Việc đọc hiểu chữ góp phần khơng nhỏ xác định Đầu vào: Ảnh Đầu ra: Thường thông tin quan trọng theo cặp từ khoá – giá trị Hàm đánh giá: Recall, Precision, Hmean Hình 3.31: Ảnh liệu output hóa đơn SROIE 3.3.2 Kết áp dụng mơ hình tập liệu SROIE Ta đề cập đến khả áp dụng hệ thống OCR đề xuất nên phần mà không đề cập chi tiết đến bước xử lý tốn trích chọn đặc trưng Ta tóm tắt luồng xử lý: Hình 3.32: Một luồng xử lý IE 73 Bảng 3.8: Kết thử nghiệm SmartOCR với toán IE tập SROIE Recall Precision Hmean Không đổi (original) 83.14% 83.38% 83.26% Thay đổi phần OCR 88.76% 89.08% 88.92% Sửa toàn diện lỗi OCR 96.18% 97.45% 96.81% Trong kết Bảng 3.8 ta dùng mơ hình ngun khơng đổi (original) kết dự đốn cịn thấp Sau ta thực số điều chỉnh trường Company Address OCR: • Xóa số lỗi văn OCR ví dụ trường Company có chuỗi “862725 U” khơng tính Ground Truth nên cần xóa việc sử dụng regex (regular expression) • Ngồi số hóa đơn có số điện thoại dịng với địa (Address) nên ta đơn giản việc loại bỏ Thực xong hai bước ta thu kết tạm gọi mơ hình thay đổi phần OCR tốt tầm 5% Cuối ta sửa lỗi toàn diện OCR sau đánh giá kết hai mơ hình trước ta thấy sai biệt phần lớn khoảng trắng số từ định dạng lại trường regex Do kết mơ hình “sửa tồn diện lỗi OCR” đạt kết chấp nhận Nhận xét: Ta thấy kết áp dụng hệ SmartOCR cho toán IE tập SROIE chưa cao kì vọng (So sánh với kết có thi) phần ta thấy khả liên kết thực thi hệ thống áp dụng vào toán khác 74 Hình 3.33: Ảnh kết tốn trích xuất thơng tin hóa đơn tập liệu SROIE 75 KẾT LUẬN Kết thúc luận văn, tác giả xin tổng kết kết đóng góp thực đề tài: • Luận văn đem đến nhìn tổng quan tồn diện hệ thống xử lý nhận dạng văn kỹ thuật OCR qua bước cụ thể, từ khứ đến • Dựa kiến thức có kinh nghiệm triển khai thực tế, tác giả đề xuất hệ thống xử lý văn Tiếng Việt gọi SmartOCR Các mơ hình hệ thống cải tiến so với phiên gốc để phù hợp với Tiếng Việt Một điểm bật mơ hình huấn luyện kết hợp chữ in chữ viết tay nên mơ hình có khả nhận dạng chữ viết tay với độ xác tốt • Bên cạnh tác giả nhấn mạnh việc chọn tập liệu cộng đồng phù hợp với việc huấn luyện mơ hình Tiếng Việt Luận văn đề cập đến phương pháp tạo liệu nhân tạo để tăng độ xác mơ hình Hơn nữa, tác giả xin đóng góp liệu gán nhãn mức từ đánh nhãn từ tập liệu có sẵn Cinnamon cho cộng đồng sừ dụng nghiên cứu • Mơ hình sử dụng hệ thống SmartOCR thử nghiệm so sánh, cho kết tốt dự liệu chữ viết tay Tiếng Việt liệu chữ in Tiếng Anh Có thể mở rộng cho ngôn ngữ khác Với kết đạt được, hệ thống SmartOCR tổ chức dạng module phần phù hợp cho việc thay phát triển sau Tiềm toán nhận dạng chữ OCR lớn kết hợp ứng dụng toán khác Một số hướng phát triển hệ thống kể đến là: • Cải thiện pha tiền xử lý: năm gần đây, bên cạnh việc sử dụng kỹ thuật xử lý ảnh Một số mơ hình sử dụng Deep Learning để cải thiện chất lượng đầu vào ứng dụng như: TextZoom [87] (tăng cường khả dự đốn ảnh có độ phân giải thấp), DocTR [88] (Xử lý nhiễu làm phẳng ảnh), • Với module quan trọng sử dụng mơ hình phát (text detection) mơ hình nhận diện (text recognition) có phương thức tiếp cận như: o Text detection: kết hợp đặc trưng ký tự tồn văn vào mơ hình phát model TextFuseNet [89], o Text recognition: kiểm thử với kiểu mơ hình sử dụng Graph convolution network, Transformer [90], • Thử nghiệm số cách rút gọn, cắt tỉa mơ hình để đủ nhẹ nhanh chạy tảng di động hay thiết bị nhỏ gọn • Kết hợp visual model text recognition với mơ hình ngữ nghĩa (semantic model) mơ hình ngơn ngữ (language model) 76 Danh mục cơng trình cơng bố liên quan đến luận văn ❖ Vu Minh Duc, Tran Ngoc Thang, “Text spotting in Vietnamese Documents”, The International Conference on Intelligent Systems & Networks (ICISN 2022) (Đã báo cáo chờ công bố Book series: Lecture Notes in Networks and System Intelligent Systems and Networks, 2022) ❖ Vũ Minh Đức, Trần Ngọc Thăng, “Nâng cao hiệu hoạt động ngân hàng cơng nghệ nhận diện chữ viết hình ảnh”, Tạp chí Ngân hàng: chun đề Cơng nghệ Ngân hàng số, số 1, 2022, ISSN–0866–7642 77 TÀI LIỆU THAM KHẢO [1] [Online] Available: http://cchc.mard.gov.vn/Pages/moi-lien-he-giua-chinhphu-dien-tu-va-chinh-phu-so phan-1.aspx [2] [Online] Available: https://images.google.com/ [3] [Online] https://en.wikipedia.org/wiki/Optical_character_recognition Available: [4] "finanteq," [Online] Available: https://finanteq.com/are-your-customersstressed-out-simplify-their-money-transfers-with-ocr/ [5] [Online] Available: tpb.vn [6] [Online] Available: https://machinelearningcoban.com/ [7] [Online] Available: https://cs231n.github.io/convolutional-networks/ [8] Z Cui, R Ke, Z Pu and Y Wang, "Stacked Bidirectional and Unidirectional LSTM Recurrent Neural Network for Forecasting Network-wide Traffic State with Missing Values," ArXiv, vol abs/2005.11627, 2020 [9] [Online] Available: https://medium.com/ [10] A Krizhevsky, I Sutskever and G Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," Neural Information Processing Systems, vol 25, January 2012 [11] K Simonyan and A Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv 1409.1556, September 2014 [12] K He, X Zhang, S Ren and J Sun, "Deep Residual Learning for Image Recognition," 2016 [13] A Graves, S Fernández, F Gomez and J Schmidhuber, "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural 'networks," 2006 [14] A Graves, S Fernández, M Liwicki, H Bunke and J Schmidhuber, "Unconstrained On-line Handwriting Recognition with Recurrent Neural Networks.," 2007 [15] Y Gao, Y Chen, J Wang and H Lu, "Reading Scene Text with Attention Convolutional Sequence Modeling," ArXiv, vol abs/1709.04303, 2017 [16] B Shi, X Bai and C Yao, "An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol PP, July 2015 [17] A Zeyer, R Schluter and H Ney, "Why does CTC result in peaky behavior?," ArXiv, vol abs/2105.14849, 2021 78 [18] D Bahdanau, K Cho and Y Bengio, "Neural Machine Translation by Jointly Learning to Align and Translate," ArXiv, vol 1409, September 2014 [19] Z Wojna, A Gorban, D.-S Lee, K Murphy, Q Yu, Y Li and J Ibarz, "Attention-based Extraction of Structured Information from Street View Imagery," April 2017 [20] [Online] Available: https://pbcquoc.github.io/attention/ [21] D Bahdanau, J Chorowski, D Serdyuk, P Brakel and Y Bengio, "End-toend attention-based large vocabulary speech recognition," 2016 [22] C Gopalan and D.Manjula, "Sliding window approach based Text Binarisation from Complex Textual images," International Journal on Computer Science and Engineering, vol 2, March 2010 [23] X Chen and A L Yuille, "Detecting and reading text in natural scenes," in Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004 CVPR 2004., 2004 [24] Y Wei and C Lin, "A robust video text detection approach using SVM," Expert Systems with Applications, vol 39, p 10832–10840, September 2012 [25] Y Zhang, C Wang, B Xiao and C Shi, "A New Method for Text Verification Based on Random Forests," in 2012 International Conference on Frontiers in Handwriting Recognition, 2012 [26] X Zhao, K.-H Lin, Y Fu, Y Hu, Y Liu and T S Huang, "Text From Corners: A Novel Approach to Detect Text and Caption in Videos," IEEE Transactions on Image Processing, vol 20, pp 790-799, 2011 [27] W Wu, X Chen and J Yang, "Detection of text on road signs from video," IEEE Transactions on Intelligent Transportation Systems, vol 6, pp 378390, 2005 [28] L Neumann and J Matas, "Real-time scene text localization and recognition," in 2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012 [29] C Thillou and B Gosselin, "Color text extraction with selective metricbased clustering," Proceedings of CVPR, pp 97-107, January 2007 [30] Y Zhu, C Yao and X Bai, "Scene text detection and recognition: recent advances and future trends," Frontiers of Computer Science (print), vol 10, June 2015 [31] H W Lim and Y H Tay, "Detection of license plate characters in natural scene with MSER and SIFT unigram classifier," in 2010 IEEE Conference on Sustainable Utilization and Development in Engineering and Technology, 2010 79 [32] L Neumann and J Matas, "A Method for Text Localization and Recognition in Real-World Images," 2010 [33] W Huang, Y Qiao and X Tang, "Robust Scene Text Detection with Convolution Neural Network Induced MSER Trees," 2014 [34] B Epshtein, E Ofek and Y Wexler, "Detecting text in natural scenes with stroke width transform," in 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010 [35] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed, C.-Y Fu and A Berg, "SSD: Single Shot MultiBox Detector," 2016 [36] J Redmon, S Divvala, R Girshick and A Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," 2016 [37] R Girshick, "Fast r-cnn," April 2015 [38] S Ren, K He, R B Girshick and J Sun, "Faster R-CNN: Towards RealTime Object Detection with Region Proposal Networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 39, pp 1137-1149, 2015 [39] M Liao, B Shi, X Bai, X Wang and W Liu, "TextBoxes: A Fast Text Detector with a Single Deep Neural Network," November 2016 [40] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke and A Rabinovich, "Going deeper with convolutions," in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 [41] X Zhou, C Yao, H Wen, Y Wang, S Zhou, W He and J Liang, "EAST: An Efficient and Accurate Scene Text Detector," April 2017 [42] O Ronneberger, P Fischer and T Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," 2015 [43] C Zhang, B Liang, Z Huang, M En, J Han, E Ding and X Ding, "Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes," 2019 [44] K He, G Gkioxari, P Dollár and R B Girshick, "Mask R-CNN," 2017 IEEE International Conference on Computer Vision (ICCV), pp 2980-2988, 2017 [45] X Jiang, S Xu, S Zhang and S Cao, "Arbitrary-Shaped Text Detection With Adaptive Text Region Representation," IEEE Access, vol PP, pp 1-1, June 2020 [46] D Deng, H Liu, X Li and D Cai, "PixelLink: Detecting Scene Text via Instance Segmentation," ArXiv, vol abs/1801.01315, 2018 [47] Z Tian, W Huang, H Tong, P He and Y Qiao, "Detecting Text in Natural Image with Connectionist Text Proposal Network," 2016 80 [48] B Shi, X Bai and S Belongie, "Detecting Oriented Text in Natural Images by Linking Segments," March 2017 [49] S.-X Zhang, X Zhu, J.-B Hou, C Liu, C Yang, H Wang and Y xu, "Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection," 2020 [50] S Long, J Ruan, W Zhang, X He, W Wu and C Yao, "TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes," in ECCV, 2018 [51] Y Baek, B Lee, D Han, S Yun and H Lee, "Character Region Awareness for Text Detection," 2019 [52] M Liao, Y Wan, C Yao, K Chen and X Bai, "Real-Time Scene Text Detection with Differentiable Binarization," Proceedings of the AAAI Conference on Artificial Intelligence, vol 34, pp 11474-11481, April 2020 [53] A Mishra, K Alahari and C Jawahar, "Top-Down and Bottom-Up Cues for Scene Text Recognition," Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 2012 [54] C Shi, C Wang, B Xiao, Y Zhang, S Gao and Z Zhang, "Scene Text Recognition Using Part-Based Tree-Structured Character Detection," in 2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013 [55] Y Gao, Y Chen, J Wang and H Lu, "Reading Scene Text with Attention Convolutional Sequence Modeling," CoRR, vol abs/1709.04303, 2017 [56] C.-Y Lee and S Osindero, "Recursive Recurrent Nets with Attention Modeling for OCR in the Wild," March 2016 [57] Z Cheng, F Bai, Y Xu, G Zheng, S Pu and S Zhou, "Focusing Attention: Towards Accurate Text Recognition in Natural Images," September 2017 [58] F Bai, Z Cheng, Y Niu, S Pu and S Zhou, "Edit Probability for Scene Text Recognition," 2018 [59] Z Liu, Y Li, F Ren, W L Goh and H Yu, "SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder Network," in AAAI, 2018 [60] K Wang, B Babenko and S Belongie, "End-to-end scene text recognition," in 2011 International Conference on Computer Vision, 2011 [61] N Dalal and B Triggs, "Histograms of oriented gradients for human detection," in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), 2005 [62] P Felzenszwalb and D Huttenlocher, "Pictorial Structures for Object Recognition," International Journal of Computer Vision, vol 61, pp 55-79, January 2005 81 [63] A Gupta, A Vedaldi and A Zisserman, "Synthetic Data for Text Localisation in Natural Images," 2016 [64] M Jaderberg, K Simonyan, A Vedaldi and A Zisserman, "Reading Text in the Wild with Convolutional Neural Networks," International Journal of Computer Vision, vol 116, December 2014 [65] C Zitnick and P Dollar, "Edge Boxes : Locating Object Proposals from Edges," 2014 [66] P Dollár, R Appel, S Belongie and P Perona, "Fast Feature Pyramids for Object Detection," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 36, pp 1532-1545, 2014 [67] M Jaderberg, K Simonyan, A Vedaldi and A Zisserman, "Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition," June 2014 [68] H Li, P Wang and C Shen, "Towards End-to-End Text Spotting with Convolutional Recurrent Neural Networks," 2017 [69] X Liu, D Liang, S Yan, D Chen, Y Qiao and J Yan, "FOTS: Fast Oriented Text Spotting with a Unified Network," January 2018 [70] H Tong, Z Tian, W Huang, C Shen and C Sun, "An End-to-End TextSpotter with Explicit Alignment and Attention," 2018 [71] W Feng, W He, F Yin, X.-Y Zhang and C.-L Liu, "TextDragon: An Endto-End Framework for Arbitrary Shaped Text Spotting," in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019 [72] M Liao, G Pang, J Huang, T Hassner and X Bai, "Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting," 2020, pp 706-722 [73] J Baek, G Kim, J Lee, S Park, D Han, S Yun, S J Oh and H Lee, "What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis," 2019 [74] M Jaderberg, K Simonyan, A Zisserman and K Kavukcuoglu, "Spatial Transformer Networks," Advances in Neural Information Processing Systems 28 (NIPS 2015), June 2015 [75] U.-V Marti and H Bunke, "A full English sentence database for off-line handwriting recognition," in Proceedings of the Fifth International Conference on Document Analysis and Recognition ICDAR '99 (Cat No.PR00318), 1999 [76] F Kleber, S Fiel, M Diem and R Sablatnig, "CVL-DataBase: An Off-Line Database for Writer Retrieval, Writer Identification and Word Spotting," in 2013 12th International Conference on Document Analysis and Recognition, 2013 82 [77] "ORAND CAR 2014," [Online] Available: https://www.orand.cl/icfhr2014hdsr/ [78] "NIST," [Online] database-19 Available: https://www.nist.gov/srd/nist-special- [79] S Lucas, A Panaretos, L Sosa, A Tang, S Wong and R Young, "ICDAR 2003 robust reading competitions," 2003 [80] D Karatzas, F Shafait, S Uchida, M Iwamura, L G i Bigorda, S R Mestre, J Mas, D F Mota, J A Almazàn and L P de las Heras, "ICDAR 2013 Robust Reading Competition," in 2013 12th International Conference on Document Analysis and Recognition, 2013 [81] D Karatzas, L Gomez-Bigorda, A Nicolaou, S Ghosh, A Bagdanov, M Iwamura, J Matas, L Neumann, V R Chandrasekhar, S Lu, F Shafait, S Uchida and E Valveny, "ICDAR 2015 competition on Robust Reading," in 2015 13th International Conference on Document Analysis and Recognition (ICDAR), 2015 [82] "SROIE," [Online] Available: https://rrc.cvc.uab.es/?ch=13 [83] "VNOnDB," [Online] Available: https://sites.google.com/view/icfhr2018vohtr-vnondb [84] "Cin," [Online] Available: https://ktmt.uit.edu.vn/2017-10-26-10-00-02/ [85] A D Le, H T Nguyen and M Nakagawa, "End to End Recognition System for Recognizing Offline Unconstrained Vietnamese Handwriting," ArXiv, vol abs/1905.05381, 2019 [86] R Litman, O Anschel, S Tsiper, R Litman, S Mazor and R Manmatha, "SCATTER: Selective Context Attentional Scene Text Recognizer," in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020 [87] W Wang, E Xie, X Liu, W Wang, D Liang, C Shen and X Bai, "Scene Text Image Super-Resolution in the Wild," ArXiv, vol abs/2005.03341, 2020 [88] H Feng, Y Wang, W.-g Zhou, J Deng and H Li, "DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction," Proceedings of the 29th ACM International Conference on Multimedia, 2021 [89] J Ye, Z Chen, J Liu and B Du, "TextFuseNet: Scene Text Detection with Richer Fused Features," in Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, IJCAI-20, 2020 [90] A Vaswani, N M Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser and I Polosukhin, "Attention is All you Need," ArXiv, vol abs/1706.03762, 2017 83 TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Hệ thống nhận dạng SmartOCR…………………………… chữ viết ảnh - Tác giả luận văn: Vũ Minh Đức……………… ……Khóa: 2019B … Người hướng dẫn: TS Trần Ngọc Thăng… ………………………………… Từ khóa (Keyword): Optical recognition character, OCR, phát chữ ảnh, nhận diện chữ ảnh, text detection, text recognition, text spotting Nội dung tóm tắt: a) Lý chọn đề tài Sau thời gian học hỏi, nghiên cứu vận dụng nhà trường thực tế, tác giả đề xuất “Hệ thống nhận dạng chữ viết ảnh – SmartOCR” cho luận văn Việc đưa mơ hình thực từ đầu đến cuối quy trình số hóa loại tài liệu, văn từ giấy hay hình ảnh sang dạng lưu trữ xử lý máy phù hợp thời kỳ chuyển đổi số Cả phủ đất nước ta đẩy mạnh q trình ứng dụng mơ hình AI để giải vấn đề thực tế tốn OCR nằm số OCR nói tới hầu hết thi hay ứng dụng doanh nghiệp vừa nhỏ khiến tốn kinh điển cần phải tìm lời giải tốt b) Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu • Mục đích nghiên cứu: o Giới thiệu tổng hợp lịch sử hình thành, phát triển, ý nghĩa toán OCR o Đưa cách tiếp cận, phương pháp thực phần hệ thống việc giải toán nhận dạng chữ viết (OCR) o So sánh hệ thống đề xuất tập liệu thực tế o Đưa hướng mở rộng tương lai o Có thể áp dụng vào ứng dụng thực tế xe tự lái, nhận dạng hộ chiếu, chứng minh thư hay số hóa tài liệu sách dạng điện tử, • Đối tượng: Các tài liệu văn ảnh chữ tự nhiên (cả chữ in chữ viết tay) • Phạm vi: Các ảnh văn Tiếng Việt Tiếng Anh c) Tóm tắt đọng nội dung đóng góp tác giả • Luận văn tập trung vào việc nghiên cứu đầy đủ hệ thống từ đầu đến cuối kỹ thuật OCR ngơn ngữ Tiếng Việt (Có thể áp dụng với 84 Tiếng Anh mở rộng với ngơn ngữ khác) Các nội dung luận văn: o Tóm tắt kiến thức, định nghĩa chế liên quan đến toán nhận dạng chữ viết o Đưa phương pháp liên quan giải toán o Đề xuất hệ thống SmartOCR gồm có phần tiền xử lý, phát chữ, nhận diện chữ, hậu xử lý Áp dụng, cải tiến mơ hình phát chữ (DB, CRAFT), nhận diện chữ (CLOVA_AI) kỹ thuật xử lý trước (Khử nhiễu, xoay ảnh, ) sau (dựa từ điển từ chuyên ngành) nhằm đọc chữ viết ảnh Tiếng Việt Tiếng Anh đạt độ xác cao o Kiểm thử mơ hình tập liệu Tiếng Anh (SROIE - chữ in) hai tập liệu Tiếng Việt (VNOnDB, Cin - chữ viết tay) o Phân tích liệu đầu vào cách sinh liệu cho tốn để cải thiện độ xác mơ hình (kỹ thuật sinh ảnh data augmentation) o Ứng dụng hệ thống SmartOCR vào tốn bóc tách thơng tin quan trọng (trên tập SROIE) o Hướng phát triển: sử dụng mơ hình cải thiện chất lượng ảnh đầu vào (TextZoom, DocTR), thử nghiệm mơ hình TextFuseNet cho module text detection mơ hình dùng Transformer, Graph cho phần text recognition Thử nghiệm số cách rút gọn, cắt tỉa cho mơ hình nhẹ • Đóng góp: o Kết nghiên cứu cơng bố báo: ❖ Vu Minh Duc, Tran Ngoc Thang, “Text spotting in Vietnamese Documents”, The International Conference on Intelligent Systems & Networks (ICISN 2022) (Đã báo cáo chờ công bố Book series: Lecture Notes in Networks and System Intelligent Systems and Networks, 2022) ❖ Vũ Minh Đức, Trần Ngọc Thăng, “Nâng cao hiệu hoạt động ngân hàng công nghệ nhận diện chữ viết hình ảnh”, Tạp chí Ngân hàng: chun đề Cơng nghệ Ngân hàng số, số 1, 2022, ISSN–0866–7642 o Cung cấp nhìn tổng thể từ truyền thống đến đại thuật toán áp dụng để giải tốn OCR o Phân tích đánh giá, so sánh điểm mạnh yếu phương pháp o Đề xuất hệ thống SmartOCR với mơ hình bước xử lý chọn lọc phù hợp với ngơn ngữ Tiếng Việt Có thể nhận diện tốt Tiếng Anh có khả áp dụng cho ngơn ngữ khác o Đóng góp cho cộng đồng liệu nhận diện mức từ tập liệu Cinnamon có trước (nhãn ban đầu mức dòng) 85 d) Phương pháp nghiên cứu • Phương pháp hệ thống hóa phân loại: Luận văn đem đến góc nhìn có chiều sâu từ lịch sử hình thành, phát triển, tốn con, cách giải toán phân loại chúng • Phương pháp phân tích tổng kết kinh nghiệm: o Đưa nhận xét cho loại mơ hình thành phần chọn liệu cho tốn o Phát triển từ mơ hình có để áp dụng giải việc nhận dạng chữ viết ảnh Tiếng Việt • Phương pháp so sánh: So sánh kết mơ hình hệ thống: o Mơ hình phát chữ text detection (CRAFT, DB) liệu SROIE (chữ in Tiếng Anh) o Mơ hình nhận diện chữ text recognition (CLOVA_AI) liệu VNOnDB Cin (chữ viết tay Tiếng Việt) • Phương pháp thực nghiệm: sử dụng hệ thống SmartOCR để giải tốn trích xuất thơng tin hóa đơn liệu SROIE e) Kết luận Luận văn trình bày cách tổng quát chi tiết toán nhận dạng chữ viết ảnh (OCR) Bằng việc qua phương pháp từ cổ điển đến đại, tác giả đưa nhận xét đánh giá nhằm chọn lựa cải thiện mơ hình cho mơ hình hệ thống đạt độ xác cao, tốc độ nhanh, ổn định, dễ dàng mở rộng phát triển sau Các mơ hình hệ thống đề xuất SmartOCR đạt độ xác cao liệu kiểm thử có tính ứng dụng, kết nối vào toán khác Cuối cùng, luận văn cho người đọc hướng mở thành phần hệ thống để cải thiện phát triển mơ hình với ngơn ngữ u cầu 86 ... chứa chữ (theo kiểu object detection) ảnh mặt nạ chữ - ảnh mà pixel ta biết có chữ hay khơng (theo kiểu instance segmentation) • Khó khăn: Các chữ viết văn bản, hình ảnh thường đa dạng kiểu chữ, ... NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Vũ Minh Đức Đề tài luận văn: Hệ thống nhận dạng chữ viết ảnh SmartOCR Chuyên ngành: Toán Tin Mã số... kích cỡ Chữ ảnh thường khơng phải nằm thẳng hồn tồn so với chiều ngang ảnh Một điều chất lượng ảnh Các ảnh chụp bị bóng, hay bị nhiễu khiến khó phân biệt chữ ảnh 2.1.2 Bài toán nhận diện chữ -