Nhận dạng tự động ảnh tài liệu tiếng việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Hoàng Văn Đức NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Hoàng Văn Đức NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT Chuyên ngành: Khoa học liệu Mã số: 8904468.01QTD LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đỗ Thanh Hà Hà Nội – 2021 LỜI CẢM ƠN Đầu tiên, xin bày tỏ lời cảm ơn chân thành sâu sắc đến TS Đỗ Thanh Hà, người dành nhiều thời gian tâm huyết hướng dẫn tơi q trình lựa chọn hướng tiếp cận thực đề tài, điều hỗ trợ tơi nhiều việc hồn thành luận văn Tôi gửi lời cảm ơn trân trọng tới cán Nhà trường, Khoa Toán - Cơ - Tin học tạo điều kiện thuận lợi cho tơi suốt q trình học tập nghiên cứu Đồng thời, muốn gửi lời cảm ơn chân thành đến cán bộ, giảng viên anh chị học viên lớp Khoa học liệu niên khóa 2018-2020 động viên, hỗ trợ, giúp đỡ nhiều trình học tập thời gian thực luận văn Với cố gắng thân giúp đỡ hiệu giảng viên hướng dẫn, thầy, cô anh chị học viên, luận văn tơi hồn thành, đạt mục tiêu thời gian kết mà đề Tuy nhiên, số hạn chế kiến thức chuyên môn kinh nghiệm thực tiễn lĩnh vực khoa học liệu chưa nhiều nên nội dung luận văn khó tránh số thiếu sót Với cầu thị mong muốn học hỏi, mong nhận góp ý, phản biện q thầy, anh chị học viên để tơi tích lũy thêm kiến thức áp dụng nhiều công việc Tôi xin chân thành cảm ơn! Học viên thực Hoàng Văn Đức i MỤC LỤC MỤC LỤC ii DANH MỤC BẢNG BIỂU iv DANH MỤC HÌNH VẼ v Danh mục ký hiệu toán học viii Danh mục thuật ngữ từ viết tắt ix Giới thiệu tốn 1 Mơ hình nhiễu phương pháp khử nhiễu ảnh 1.1 Các mơ hình nhiễu ảnh tài liệu 1.1.1 Mơ hình nhiễu Gaussian 1.1.2 Mơ hình nhiễu Impulse 1.1.3 Mơ hình nhiễu Kanungo 1.1.4 Mơ hình nhiễu Noise Spread 11 1.2 Các phương pháp khử nhiễu 12 1.2.1 Cửa sổ trượt tích chập 12 1.2.2 Phương pháp lọc truyền thống 15 Phương pháp nhận dạng ảnh tài liệu 2.1 Cơ sở lý thuyết 2.1.1 Phép toán hình thái 2.1.2 Các phép tốn hình thái phổ biến 2.1.3 Toán tử Sobel 25 25 25 27 30 2.2 Một số hệ thống nhận dạng 31 2.2.1 Google Docs OCR 32 2.2.2 Tesseract 33 ii 2.2.3 ABBYY FineReader 34 2.2.4 VnDOCR 34 2.2.5 VietOCR 35 2.3 Phương pháp sử dụng luận văn 2.3.1 Khoanh vùng từ 2.3.2 Khoanh vùng ký tự 2.3.3 Mạng neural tích chập 2.3.4 Nhận dạng ảnh ký tự Kết thực nghiệm 36 36 39 40 50 52 3.1 Dữ liệu thực nghiệm 52 3.2 Quá trình thực nghiệm 3.2.1 Mơi trường, cơng cụ lập trình 3.2.2 Tham số mơ hình 3.2.3 Độ đo 3.2.4 Huấn luyện mơ hình 55 55 56 57 58 3.3 Kết thực nghiệm 58 3.4 Kết luận hướng phát triển 60 Tài liệu tham khảo 61 iii DANH MỤC BẢNG BIỂU Danh mục ký hiệu toán học viii Danh mục thuật ngữ x Danh mục từ viết tắt x 3.1 Mô tả liệu thực nghiệm 53 3.2 Danh mục tham số mơ hình 56 3.3 Kết thực nghiệm mơ hình số cơng cụ OCR khác 59 iv DANH MỤC HÌNH VẼ Các bước nhận dạng ảnh văn 1.1 1.2 Ví dụ minh họa ảnh bị nhiễu Hàm phân bố đồ thị biểu diễn mơ hình nhiễu Gaussian, đó: (a) Hàm phân bố nhiễu Gaussian; (b) Đồ thị biểu diễn phân bố nhiễu Gaussian 1.3 Ví dụ minh họa nhiễu Gaussian, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram ảnh gốc, (d) Histogram ảnh nhiễu 1.4 Hàm phân bố đồ thị biểu diễn mơ hình nhiễu Impulse, đó: (a) Hàm phân bố nhiễu Impulse; (b) Đồ thị biểu diễn phân bố nhiễu Impulse 1.5 Ví dụ minh họa nhiễu Impulse, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram ảnh gốc, (d) Histogram ảnh nhiễu 1.6 Ví dụ minh họa nhiễu Kanungo [35], đó: (a) Ảnh gốc, (b) - (g) mức độ nhiễu Kanungo xếp theo chiều tăng dần 1.7 Minh họa cửa sổ trượt 1.8 Ví dụ tính tích chập 1.9 Ví dụ minh họa ARM, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 1.10 Ví dụ minh họa GEM, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết v 10 13 14 17 18 1.11 Ví dụ minh họa COM, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 1.12 Minh họa lọc thống kê thứ tự 1.13 Ví dụ minh họa MEF, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 1.14 Ví dụ minh họa MAX, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 20 21 22 24 Ví dụ minh họa hình dạng phần tử cấu trúc Ví dụ minh họa phép giãn nở Ví dụ minh họa phép co Ví dụ minh họa phép mở Ví dụ minh họa phép đóng Ví dụ minh họa toán tử Sobel Minh họa OCR Minh họa trình xử lý ảnh tài liệu Google Docs OCR Các bước OCR với Tesseract Giao diện công cụ ABBYY FineReader (phiên 12) Giao diện công cụ VietOCR Kết thực nghiệm phép toán Sobel ảnh tài liệu, đó: (a) ảnh gốc, (b) ảnh kết Kết thực nghiệm phép đóng ảnh tài liệu, đó: (a) ảnh phát biên, (b) ảnh kết Kết biến đổi ký tự qua tốn tử Sobel phép đóng hình thái Kết thực nghiệm khoanh vùng từ, đó: (a) ảnh thực liên thông nét chữ, (b) ảnh kết Kết thực nghiệm khoanh vùng ký tự, đó: (a) Ảnh gốc, (b) Áp dụng phép đóng, (c) Khoanh vùng Kết thực nghiệm cắt ký tự Kiến trúc mạng CNN[10] Minh họa ma trận lọc phát biên[10] Minh họa bước nhảy[10] Minh họa đường viền[10] vi 26 27 28 29 30 31 32 33 33 34 35 37 38 38 39 40 40 42 44 44 45 2.22 Minh họa bước tính tầng tích chập[10] 2.23 Một số hàm kích hoạt phổ biến, đó: (a) Sigmoid, (b) ReLU, (c) Tanh 2.24 Ví dụ minh họa phép lấy mẫu cực đại[10] 2.25 Ví dụ minh họa lớp liên kết đầy đủ[10] 3.1 3.2 3.3 3.4 3.5 46 48 49 50 Danh sách phân lớp ký tự Một phần liệu học luận văn xây dựng Một ảnh văn liệu kiểm định [24] Đồ thị biểu diễn trình huấn luyện mơ hình nhận dạng ký tự Đồ thị so sánh kết thực nghiệm phương pháp vii 54 54 55 58 59 DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Nghĩa tiếng Việt (r, c) Tọa độ vị trí điểm ảnh I Ảnh ban đầu J Ảnh đầu η (r, c) Hàm nhiễu H Cửa sổ/Ma trận trượt z Mức xám ảnh p(z) Hàm mật độ xác suất mức xám T[ I ] Phép biến đổi tuyến tính ảnh I I⊗ H Phép tích chập ảnh I cửa sổ trượt H I⊕ H Phép giãn ảnh I phần tử cấu trúc H I Phép co ảnh I phần tử cấu trúc H H I◦H Phép mở ảnh I phần tử cấu trúc H I•H Phép đóng ảnh I phần tử cấu trúc H X Ma trận thông tin k Số lượng ma trận lọc Wi Ma trận lọc thứ i Si Bước nhảy áp dụng với ma trận lọc thứ i P Kích thước đường viền thêm vào ảnh Bảng 1: Danh mục ký hiệu toán học viii Lớp tổng hợp (Pooling Layer) lớp thực chức làm giảm chiều không gian thông tin đầu vào, qua giúp giảm độ phức tạp tính tốn mơ hình Ngồi lớp cịn giúp kiểm sốt tượng mơ hình q khớp với liệu (overfitting) Thơng thường, lớp tổng hợp có nhiều hình thức khác phù hợp cho nhiều toán, nhiên phép lấy mẫu cực đại (Max Pooling) sử dụng nhiều vào phổ biến với ý tưởng sát với thực tế người Đó là, chi tiết quan trọng giữ lại hay toán nhận dạng ảnh giữ lại điểm ảnh có giá trị lớn [44] Hình 2.24: Ví dụ minh họa phép lấy mẫu cực đại[10] Một ví dụ phép lấy mẫu cực đại với ma trận lọc kích thước (2 × 2) bước nhảy thể hình 2.24 Trong đó, ma trận lọc chạy dọc ảnh Và với vùng ảnh chọn, chọn giá trị lớn giữ lại Ví dụ, góc phần tư thứ có giá trị {1, 0, 4, 6}, gá trị lớn nên giữ lại Thông thường, lớp tổng hợp thường chọn ma trận lọc có kích thước (2 × 2) bước nhảy S = Nếu lấy giá trị q lớn, thay giảm tính tốn làm phá vỡ cấu trúc ảnh mát thơng tin nghiêm trọng Vì vậy, số chun gia khơng thích sử dụng lớp mà thay vào sử dụng thêm lớp lớp tích chập tăng số bước nhảy lên lần [44] d) Lớp liên kết đầy đủ Lớp cuối mơ hình CNN (trong phạm vi toán nhận dạng ảnh) lớp liên kết đầy đủ (Fully Connected Layer) Lớp có chức chuyển ma trận đặc trưng lớp trước thành vector chứa xác suất đối tượng cần dự đốn Hay nói cách khác thơng tin mà mơ hình đọc 49 lớp trước xâu chuỗi lại để tạo mơ hình lớp liên kết đầy đủ Trong đó, neural lớp liên kết tới neural lớp khác Để đưa ảnh từ lớp trước vào mạng này, buộc phải dàn phẳng ảnh thành vector thay mảng nhiều chiều trước Cuối cùng, hàm kích hoạt (softmax sigmoid, v.v) sử dụng để phân loại đối tượng dựa vào vector đặc trưng tính tốn lớp trước [18] Hình 2.25: Ví dụ minh họa lớp liên kết đầy đủ[10] Trong hình 2.25, ma trận đầu lớp trước chuyển đổi thành bốn vector ( x1 , x2 , x3 , x4 ) liên kết với toàn neural lớp 2.3.4 Nhận dạng ảnh ký tự Nếu nội dung lý thuyết mạng neural tích chập đề cập phần 2.3.3 phần này, luận văn trình bày hướng tiếp cận cho việc áp dụng CNN vào toán nhận dạng ký tự Đầu tiên, liệu gồm ảnh ký tự gán nhãn sử dụng để huấn luyện cho mơ hình Bộ liệu bao gồm tập tất hình thái nhận ký tự tiếng Việt (điều trình bày chi tiết phần 3.1 chương sau) Sau đó, mơ hình phân lớp xây dựng với tham số cấu hình mơi trường lập trình thư viện hỗ trợ (sẽ trình bày phần 3.2) Các đặc trưng ký tự tập liệu mẫu trích chọn đưa vào mơ hình q trình huấn luyện Điều giúp mơ hình hoạt động hiệu với tài liệu chứa nhiều font kiểu 50 dáng chữ khác Tiếp theo, sau mơ hình xây dựng xong, tập ảnh ký tự tài liệu tách phần trước được đưa vào để mơ hình dự đoán thuộc nhãn (tương ứng với chữ cái) số 190 hình thái ký tự tiếng Việt (xem hình 3.1) Khi đó, với ảnh ký tự phân lớp xong lưu lại thông tin vị trí văn với giá trị phân lớp tương ứng Cuối cùng, thông tin phân lớp lưu lại bước trước, ký tự nhận dạng ghép lại theo thứ tự tương ứng với vị trí ảnh ký tự mà gắn với để trở thành văn số hoàn chỉnh Ở chương này, số vấn đề lý thuyết phép tốn hình thái tốn tử Sobel cách áp dụng vào toán khoanh vùng văn luận văn trình bày Cùng với đó, cơng cụ nhận dạng ảnh phổ biến luận văn giới thiệu chương Cùng với đó, đặc điểm hướng áp dụng mạng neural tích chập việc nhận dạng ảnh luận văn đưa trình bày Các thơng tin liệu, phương pháp kết thực nghiệm giới thiệu đến chương 51 CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM Trên toàn phần sở lý thuyết thuật toán liên quan đến vấn đề nhận dạng ảnh luận văn trình bày Điều thể thông qua ba chương tương ứng với ba bước thực nhằm giải toán đặt đầu luận văn Đó vấn đề từ tiền xử lý ảnh (lọc bỏ nhiễu) đến việc khoanh vùng, phân đoạn ký tự cuối bước sử dụng mơ hình học máy để tiến hành nhận dạng ký tự Song song với việc tìm hiểu lý thuyết trình thực nghiệm thực với liệu đa dạng Cùng với đó, việc thực nghiệm thực với số công cụ OCR khác để đánh giá hiệu mơ hình Sau đây, nội dung liệu thực nghiệm, phương pháp thực kết đánh giá luận văn giới thiệu 3.1 Dữ liệu thực nghiệm Để huấn luyện kiểm định mơ hình, liệu gồm ảnh chụp văn tiếng Việt thu thập từ nhiều nguồn khác tài liệu [24], sách báo [4], tạp chí [39], v.v Các văn chứa thông tin công khai, công bố rộng rãi cho độc giả nhà nghiên cứu Với ảnh chụp 200 trang văn với nhiều định dạng nội dung phong phú, chuẩn hóa ảnh đen trắng có kích thước, liệu đáp ứng q trình thực nghiệm toán mà luận văn đặt 52 Dữ liệu học Dữ liệu kiểm định Số trang 140 60 Tỷ lệ (%) 70 30 Được luận văn xây dựng cách Mô tả cắt ảnh thành ảnh ký tự tiếng Việt Chọn ngẫu nhiên 30% đơn gồm đầy đủ 29 chữ 10 chữ ảnh liệu sau số với nhiều font chữ, kiểu dáng khác thêm nhiễu vào nhau, với trường hợp có nửa số dấu dấu câu kèm Số ảnh 10.000 60 Kích thước 28×28 1000×936 Bảng 3.1: Mơ tả liệu thực nghiệm Một số thông tin liệu sử dụng thực nghiệm luận văn trình bày bảng 3.1 Trong đó, chia làm hai phần riêng biệt liệu học (train data) liệu dùng để kiểm định mơ hình (test data) với tỷ lệ 70% 30% Trong liệu học luận văn sử dụng để tiến hành huấn luyện mơ hình nhận dạng ảnh ký tự việc đánh giá hiệu mơ hình thực với liệu kiểm định Về liệu học, chưa tiếp cận liệu văn tiếng Việt mẫu để huấn luyện nên luận văn tiến hành tự xây dựng liệu sở ảnh chụp văn thu thập trước Bằng cách chọn ngẫu nhiên 70% số ảnh liệu thực nghiệm cắt thành ảnh ký tự riêng lẻ có kích thước (28 × 28) gán nhãn, luận văn có liệu ảnh ký tự đủ lớn để huấn luyện mô hình Cụ thể, liệu bao gồm tập hợp ảnh ký tự tiếng Việt đơn thuộc 29 chữ 10 chữ số với số font chữ phổ biến với kiểu dáng chữ IN HOA, chữ thường, in nghiêng bôi đậm Cùng với đó, với trường hợp ký tự chữ có dấu (sắc, huyền, hỏi, ngã, nặng) hay dấu câu (, ? ! : ; ) bổ sung vào liệu Tổng cộng có 10.000 ảnh mẫu ký tự xếp ngẫu nhiên gán nhãn thuộc 190 phân lớp (xem hình 3.1) có liệu Điều đảm bảo mơ hình học đầy đủ trường hợp văn tiếng Việt, kiểu dáng, âm dấu câu Hình 3.2 thể 53 phần liệu huấn luyện Hình 3.1: Danh sách phân lớp ký tự Hình 3.2: Một phần liệu học luận văn xây dựng 54 Cùng với đó, liệu kiểm định tạo cách lấy ngẫu nhiên 30% tương ứng với 60 ảnh liệu thực nghiệm sử dụng để kiểm định mơ hình nhận dạng Sau đó, nhiều loại nhiễu khác thêm vào nửa số ảnh (tương ứng với 30 ảnh) liệu Việc thêm nhiễu vào ảnh nhằm thực nghiệm khả khử nhiễu số lọc so sánh hiệu suất nhận dạngcủa mơ hình ảnh nhiễu ảnh Hình 3.3 ví dụ ảnh văn chứa nhiễu Gaussian dùng để kiểm định Khi đó, việc thử nghiệm thực với mơ hình luận văn xây dựng số công cụ nhận dạng phổ biến khác Hình 3.3: Một ảnh văn liệu kiểm định [24] 3.2 Quá trình thực nghiệm 3.2.1 Mơi trường, cơng cụ lập trình Các thuật tốn cài đặt mơi trường ngơn ngữ lập trình Python 3.7 [26] với cơng cụ Spyder IDE 4.1 [34] máy tính cá nhân sử dụng hệ điều hành Windows 10 Cùng với đó, số thư viện xử lý ảnh Python OpenCV [25], Tensorflow [41], v.v luận văn ứng dụng Trong OpenCV dùng thuật toán tiền xử lý nhị phân ảnh, 55 phép tốn hình thái, tốn tử Sobel hay tìm phần tử liên thơng để phân đoạn ký tự thư viện Tensortflow lại hỗ trợ hiệu việc cài đặt mơ hình nhận dạng 3.2.2 Tham số mơ hình Sau chuẩn bị liệu thực nghiệm lựa chọn mơi trường lập trình với hỗ trợ thư viện Tensorflow, việc cấu hình tham số cài đặt mơ hình luận văn thực Dựa kinh nghiệm nhà khoa học nhiều nghiên cứu trước [30], với ưu điểm tốc độ hội tụ dễ dàng tính tốn, hàm ReLU (xem mục 2.3.3) luận văn lựa chọn để kích hoạt trọng số nút mạng mơ hình Bảng 3.2 trình bày toàn tham số giá trị cấu hình cài đặt mơ hình luận văn sử dụng Lớp INPUT Kích thước Ma trận lọc Bước nhảy Đường viền (28, 28, 1) CONV1 (3, 3, 32, 32) POOL1 (2, 2) CONV2 (3, 3, 32, 64) POOL2 (2, 2) CONV3 (3, 3, 64, 128) POOL3 (2, 2) (1, 1) "SAME" (1, 1) "SAME" (1, 1) "SAME" FC1 FC2 (625, 190) Bảng 3.2: Danh mục tham số mơ hình Trong đó, ảnh đầu vào (INPUT) có thơng số ( Iw , Ih , c) với ( Iw × Ih = 28 × 28) kích thước ảnh ảnh huấn luyện sử dụng luận văn ảnh đen trắng nên có số dải màu c = Tại lớp tích chập (CONV13), giá trị cấu hình ma trận lọc (Ww , Wh , n1 , n2 ) với (Ww × Wh = × 3) kích thước ma trận lọc, n1 , n2 số phép tích chập sử dụng tầng thứ tầng thứ hai lớp Số phép tích chập cấu hình tăng dần lớp tích chập sau (CONV2-3) để tăng cường trích chọn đặc trưng phức tạp mẫu Cùng với đó, bước nhảy (S1 , S2 ) tầng tích 56 chập thứ thứ hai có giá trị Giá trị đường biên "SAME" có nghĩa đường biên tự động thêm vào để phù hợp với kích thước ma trận lọc Ngồi ra, lớp tổng hợp (POOL1-3), ma trận lọc có kích thước (2 × 2) phép lấy mẫu cực đại sử dụng để giảm số chiều ma trận thông tin Cuối cùng, lớp liên kết đầy đủ (FC), luận văn sử dụng 625 neural 190 nhãn (tương ứng với 190 phân lớp, xem hình 3.1) 3.2.3 Độ đo Cùng với việc tạo lập mơi trường lập trình cấu hình tham số cho mơ hình nhận dạng việc xác định độ đo để so sánh hiệu mơ hình xây dựng cơng cụ nhận dạng tham chiếu luận văn thực Trong thực tế có nhiều phương pháp để đo lường kết mơ hình thống kê nói chung [40] mơ hình nhận dạng ảnh nói riêng [16] Trong phạm vi luận văn phù hợp với toán đặt ra, phương pháp đo lường dựa theo tỷ lệ nhận dạng trùng khớp kết mơ hình văn mẫu đề xuất để đánh giá hiệu nhận dạng Trong đó, việc đo lường tính tốn hai cấp độ tỷ lệ xác ảnh tỷ lệ toàn tập liệu kiểm định Ri = Ti × 100(%) Ni (3.1) Việc tính tốn hiệu suất nhận dạng ảnh tài liệu trình bày cơng thức 3.1 Trên mẫu kiểm thử thứ i, tham số Ri (%), Ti , Ni tỷ lệ xác, số ký tự trùng khớp với văn gốc số lượng ký tự ảnh tài liệu Trong đó, việc đo lường tồn tập liệu kiểm định giới thiệu công thức 3.2 Giá trị tỷ lệ mẫu thử trùng khớp R(%) tính cách lấy tổng giá trị xác mẫu ∑ Ti chia cho tổng số lượng mẫu thử N R= ∑ Ti × 100(%) N 57 (3.2) 3.2.4 Huấn luyện mơ hình Sau thực xong việc chuẩn bị mơi trường lập trình xác định giá trị cho tham số mơ hình, mơ hình đưa vào huấn luyện với liệu học chuẩn bị phần 3.1 Quá trình huấn luyện qua 40 bước duyệt (epoch) cho kết khả quan, điều thể hình 3.4 sau đây: Hình 3.4: Đồ thị biểu diễn q trình huấn luyện mơ hình nhận dạng ký tự Qua hình 3.4, thấy hàm chi phí (cost function) giảm giá trị qua bước lặp thông qua việc huấn luyện với tập liệu ký tự Tại bước duyệt thứ 40, giá trị chi phí (0.26496) nhỏ giá trị dừng cấu hình 0.3 có mức giảm < 0.01 ba lần liên tiếp nên đảm bảo tính dừng 3.3 Kết thực nghiệm Ở phần này, mơ hình huấn luyện phần trước sử dụng để kiểm định với liệu thu thập Đồng thời, liệu thử nghiệm số công cụ OCR phổ biến Google Docs OCR, Tesseract ABBYY FineReader với hai công cụ người Việt phát triển VnDOCR VietOCR nhằm so sánh, đánh giá hiệu cơng cụ với mơ hình mà luận văn xây dựng Qua trình thực nghiệm tính tốn hiệu suất nhận dạng, kết thể bảng 3.3 sau đây: 58 Ảnh thường Ảnh nhiễu 95.8% 90.2% VnDOCR 97% 92.9% VietOCR 97.2% 92.5% Google Docs OCR 95.3% 87.4% Tesseract 96.0% 90.5% ABBYY FineReader 96.6% 89.2% Mơ hình đề xuất Bảng 3.3: Kết thực nghiệm mơ hình số cơng cụ OCR khác Theo đó, qua kết nhận dạng ảnh tài liệu tiếng Việt mơ hình luận văn đề xuất dựa CNN thấy mơ hình cho kết nhận dạng tương đương với ba công cụ OCR luận văn tham chiếu Với nhóm ảnh sạch, độ xác tính tốn 95.8% so với văn gốc, khơng có chênh lệch đáng kể so với kết 96% Tesseract hay 96.6% sử dụng ABBYY FineReader nhỉnh chút so với Google Docs OCR với 95.3% Trong đó, hai cơng cụ Việt Nam VnDOCR VietOCR cho kết tốt với tỷ lệ 97% 97.2% Tuy nhiên, kết nhận dạng ảnh nhiễu có giảm sút đến từ sáu phương pháp OCR mà luận văn tiến hành thực nghiệm Cụ thể, mơ hình đề xuất nhận dạng với tỷ lệ 90.2%, cao so với Google Docs OCR (87.4%) ABBYY FineReader (89.2%) thấp VnDOCR (97%), VietOCR (97.2%) Tesseract với 90.6% Hình 3.5 sau thể cách trực quan kết mà luận văn thực nghiệm Hình 3.5: Đồ thị so sánh kết thực nghiệm phương pháp 59 3.4 Kết luận hướng phát triển Trên toàn nội dung từ lý thuyết đến phương pháp trình thực nghiệm để giải toán mà luận văn đặt phần đầu tiên, nhận dạng tự động ảnh tài liệu tiếng Việt Trong đó, việc nêu vấn đề, mơ tả tốn trình bày nhằm nêu lên cần thiết đề tài mục tiêu cần đạt thực Tiếp theo, luận văn tập trung trình bày số vấn đề lý thuyết cần thiết hướng tiếp cận để giải toán đề xuất Ở phần cuối cùng, việc thực nghiệm với liệu thu thập tham chiếu kết mơ hình đề xuất với số công cụ OCR khác giúp đưa đánh giá, nhận xét mơ hình mà luận văn xây dựng Trong trình tìm hiểu, lựa chọn hướng tiếp cận áp dụng lý thuyết vào toán thực tế, luận văn giới thiệu đề xuất phương pháp giúp giải nhiều vấn đề toán xử lý ảnh Đầu tiên, vấn đề nhiễu ảnh giải pháp giúp mô hình hóa loại bỏ nhiễu để nâng cao chất lượng hình ảnh Tiếp theo, số phép tốn áp dụng nhiều để biến đổi, phát cấu trúc ảnh phép tốn hình thái, toán tử Sobel luận văn giới thiệu áp dụng vấn đề cụ thể khoanh vùng ký tự Ngoài ra, kiến trúc tham số mạng CNN hướng áp dụng toán nhận dạng ký tự luận văn trình bày Cuối cùng, liệu tiếng Việt chuẩn bị, việc phân đoạn gán nhãn liệu học hay q trình chuẩn hóa thêm nhiễu kiểm định thực sau Thơng qua việc thực nghiệm nhiều lần với tham số đầu vào khác giúp tìm hướng tiếp cận tốt triển khai hiệu liệu tiếng Việt Các kết đạt làm tốt nữa, luận văn đề xuất hướng tiếp cận sử dụng CNN để nhận dạng tiếng Việt đạt kết khả quan phạm vi thực nghiệm luận văn Tuy nhiên, với ảnh chứa nhiễu kết có sụt giảm độ xác đáng kể Do đó, vấn đề tiền xử lý quan trọng, giúp ảnh giữ lại nhiều thơng tin, đặc trưng hữu ích trước đưa vào mơ hình Ngồi ra, với liệu tiếng Việt, số lượng liệu có chất lượng chưa nhiều việc tiếp cận khó khăn Do đó, vấn đề xây dựng thu thập liệu việc cần nhận nhiều quan tâm 60 TÀI LIỆU THAM KHẢO [1] Saad Albawi, Tareq Abed Mohammed, and Saad Al-Zawi “Understanding of a convolutional neural network” In: 2017 International Conference on Engineering and Technology (ICET) Ieee 2017, pp 1–6 [2] Henry S Baird, Horst Bunke, and Kazuhiko Yamamoto Structured document image analysis Springer Science & Business Media, 2012 [3] Carlo Migel Bautista et al “Convolutional neural network for vehicle detection in low resolution traffic videos” In: 2016 IEEE Region 10 Symposium (TENSYMP) IEEE 2016, pp 277–281 [4] dantri.com.vn Báo điện tử Dân trí https://dantri.com.vn/ Accessed: 2020-08-15 [5] TK Das, Asis Kumar Tripathy, and Alekha Kumar Mishra “Optical character recognition using artificial neural network” In: 2017 International Conference on Computer Communication and Informatics (ICCCI) IEEE 2017, pp 1–4 [6] docs.google.com Google docs http://docs.google.com/ Accessed: 2020-11-05 [7] Valveny P Dosch P “Report on the second symbol recognition contest” In: Springer 3926 (2005), pp 381–397 [8] Edward Dougherty Mathematical morphology in image processing CRC press, 2018 [9] Barney E “Modeling image degradations for improving OCR” In: Proceedings of the 16th European signal processing conference (EUSIPCO) (2008), pp 1–5 [10] Eloquent Arduino Blog Convolutional Neural Network https://eloquentarduino.github.io/ 2020/11/tinyml-on-arduino-and-stm32-cnn-convolutional-neural-network-example/ [Online; accessed 13-January-2021] [11] finereaderonline.com ABBYY OCR online https://finereaderonline.com/en- us/Tasks/ Create/ Accessed: 2020-11-23 [12] Kunihiko Fukushima and Sei Miyake “Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition” In: Competition and cooperation in neural nets Springer, 1982, pp 267–285 [13] Tabbone S Hoang TV Smith EHB “Sparsity-based edge noise removal from bilevel graphical document images” In: IJDAR 17.2 (2014), pp 161–179 61 [14] David H Hubel and Torsten N Wiesel “Receptive fields of single neurones in the cat’s striate cortex” In: The Journal of physiology 148.3 (1959), p 574 [15] Haidi Ibrahim et al “Impulse noise model and its variations” In: International Journal of Computer and Electrical Engineering 4.5 (2012), p 647 [16] Junichi Kanai et al “Automated evaluation of OCR zoning” In: IEEE Transactions on Pattern Analysis and Machine Intelligence 17.1 (1995), pp 86–90 [17] Phillips IT Kanungo T Haralick RM “Global and local document degradation models” In: Proceedings of the second international conference on document analysis and recognition (1993), pp 730– 734 [18] Andrej Karpathy “Lecture 5: Convolutional Neural Networks” In: CS231n: Convolutional Neural Networks for Visual Recognition (2021) [19] VC Kieu et al “A character degradation model for grayscale ancient document images” In: Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012) IEEE 2012, pp 685–688 [20] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton “Imagenet classification with deep convolutional neural networks” In: Communications of the ACM 60.6 (2017), pp 84–90 [21] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton “Deep learning” In: nature 521.7553 (2015), pp 436–444 [22] Licheng Liu et al “A new weighted mean filter with a two-phase detector for removing impulse noise” In: Information Sciences 315 (2015), pp 1–16 [23] Y M EmreCelebi Hassan A Kingravi “Alp Aslandogan Nonlinear vector filtering for impulsive noise removal from color images” In: Journal of Electronic Imaging (2007), pp 1–21 [24] ngsp.gov.vn NGSPDOCS - Kết nối sẵn sàng https://ngsp.gov.vn/docs/ketnoisansang html Accessed: 2020-11-30 [25] pypi.org OpenCV with Python — pypi https://pypi.org/project/opencv-python/ [Online; accessed 13-January-2021] [26] python.org Welcome to Python.org — python https : / / www python org/ [Online; accessed 13-January-2021] [27] Wei-Mao Qian et al “Sharp bounds for Neuman means in terms of two-parameter contraharmonic and arithmetic mean” In: Journal of Inequalities and Applications 2019.1 (2019), pp 1–13 [28] Tanzila Saba et al “Evaluation of current documents image denoising techniques: a comparative study” In: Applied Artificial Intelligence 28.9 (2014), pp 879–887 [29] Parul Shah et al “OCR-based chassis-number recognition using artificial neural networks” In: 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES) IEEE 2009, pp 31– 34 62 [30] P Sibi, S Allwyn Jones, and P Siddarth “Analysis of different activation functions using back propagation neural networks” In: Journal of theoretical and applied information technology 47.3 (2013), pp 1264–1268 [31] Kh Manglem Singh “Fuzzy rule based median filter for gray-scale images” In: Journal of information Hiding and Multimedia signal processing 2.2 (2011), pp 108–122 [32] R Smith “An Overview of the Tesseract OCR Engine” In: Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) Vol 2007, pp 629–633 DOI: 10 1109 / ICDAR.2007.4376991 [33] Irwin Sobel “An Isotropic 3x3 Image Gradient Operator” In: Presentation at Stanford A.I Project 1968 (Feb 2014) [34] spyder-ide.org Spyder IDE for Python https://www.spyder-ide.org/ Accessed: 2020-12-30 [35] S Tabbone T H Do O Ramos Terrades “DSD: document sparse-based denoising algorithm” In: Springer (2018) [36] Ahmad P Tafti et al “OCR as a service: an experimental evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym” In: International Symposium on Visual Computing Springer 2016, pp 735–746 [37] Sagar B Tambe et al “Image processing (IP) through erosion and dilation methods” In: (2013) [38] Li Tao et al “Analysis of noise spread in optical DFT-S OFDM systems” In: Journal of Lightwave Technology 30.20 (2012), pp 3219–3225 [39] tapchinganhang.com.vn Tạp chí ngân hàng http://tapchinganhang.com.vn/ Accessed: 202101-05 [40] Jonathan Templin and Laine Bradshaw “Measuring the reliability of diagnostic classification model examinee estimates” In: Journal of Classification 30.2 (2013), pp 251–275 [41] tensorflow.org Tensorflow for Python https://www.tensorflow.org/ Accessed: 2021-01-12 [42] Mr.Rohit Verma and Dr.Jahid Ali “A comparative study of various types of image noise and efficient noise removal techniques” In: International Journal of Advanced Research in Computer Science and Software Engineering (2013) [43] Wikipedia contributors Gaussian noise — Wikipedia, The Free Encyclopedia https://en.wikipedia org/w/index.php?title=Gaussian_noise&oldid=973378598 [Online; accessed 9-January2021] 2020 [44] Luiz Zaniolo and Oge Marques “On the use of variable stride in convolutional neural networks” In: Multimedia Tools and Applications 79.19 (2020), pp 13581–13598 63 ... trình thực việc nhận dạng ảnh tài liệu luận văn đề xuất thể hình sau Hình 1: Các bước nhận dạng ảnh văn Trong phạm vi luận văn, phương pháp giúp lọc, trích xuất nhận dạng ký tự ảnh tài liệu đề xuất... chập (CNN) 24 CHƯƠNG 2: PHƯƠNG PHÁP NHẬN DẠNG ẢNH TÀI LIỆU Một số phương pháp nhận dạng ký tự luận văn giới thiệu chương Đầu tiên, số hệ thống nhận dạng ảnh tài liệu phổ biến trình bày phần 2.2... (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết Một ví dụ ARM ảnh tài liệu giới thiệu hình 1.9 Kết thực nghiệm ảnh tài liệu

Định dạng
Số trang	75
Dung lượng	4,96 MB