Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
4,96 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Hoàng Văn Đức NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Hoàng Văn Đức NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT Chuyên ngành: Khoa học liệu Mã số: 8904468.01QTD LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đỗ Thanh Hà Hà Nội – 2021 LỜI CẢM ƠN Đầu tiên, xin bày tỏ lời cảm ơn chân thành sâu sắc đến TS Đỗ Thanh Hà, người dành nhiều thời gian tâm huyết hướng dẫn tơi q trình lựa chọn hướng tiếp cận thực đề tài, điều hỗ trợ tơi nhiều việc hồn thành luận văn Tôi gửi lời cảm ơn trân trọng tới cán Nhà trường, Khoa Toán - Cơ - Tin học tạo điều kiện thuận lợi cho tơi suốt q trình học tập nghiên cứu Đồng thời, muốn gửi lời cảm ơn chân thành đến cán bộ, giảng viên anh chị học viên lớp Khoa học liệu niên khóa 2018-2020 động viên, hỗ trợ, giúp đỡ nhiều trình học tập thời gian thực luận văn Với cố gắng thân giúp đỡ hiệu giảng viên hướng dẫn, thầy, cô anh chị học viên, luận văn tơi hồn thành, đạt mục tiêu thời gian kết mà đề Tuy nhiên, số hạn chế kiến thức chuyên môn kinh nghiệm thực tiễn lĩnh vực khoa học liệu chưa nhiều nên nội dung luận văn khó tránh số thiếu sót Với cầu thị mong muốn học hỏi, mong nhận góp ý, phản biện q thầy, anh chị học viên để tơi tích lũy thêm kiến thức áp dụng nhiều công việc Tôi xin chân thành cảm ơn! Học viên thực Hoàng Văn Đức i MỤC LỤC MỤC LỤC ii DANH MỤC BẢNG BIỂU iv DANH MỤC HÌNH VẼ v Danh mục ký hiệu toán học viii Danh mục thuật ngữ từ viết tắt ix Giới thiệu tốn 1 Mơ hình nhiễu phương pháp khử nhiễu ảnh 1.1 Các mơ hình nhiễu ảnh tài liệu 1.1.1 Mơ hình nhiễu Gaussian 1.1.2 Mơ hình nhiễu Impulse 1.1.3 Mơ hình nhiễu Kanungo 1.1.4 Mơ hình nhiễu Noise Spread 11 1.2 Các phương pháp khử nhiễu 12 1.2.1 Cửa sổ trượt tích chập 12 1.2.2 Phương pháp lọc truyền thống 15 Phương pháp nhận dạng ảnh tài liệu 2.1 Cơ sở lý thuyết 2.1.1 Phép toán hình thái 2.1.2 Các phép tốn hình thái phổ biến 2.1.3 Toán tử Sobel 25 25 25 27 30 2.2 Một số hệ thống nhận dạng 31 2.2.1 Google Docs OCR 32 2.2.2 Tesseract 33 ii 2.2.3 ABBYY FineReader 34 2.2.4 VnDOCR 34 2.2.5 VietOCR 35 2.3 Phương pháp sử dụng luận văn 2.3.1 Khoanh vùng từ 2.3.2 Khoanh vùng ký tự 2.3.3 Mạng neural tích chập 2.3.4 Nhận dạng ảnh ký tự Kết thực nghiệm 36 36 39 40 50 52 3.1 Dữ liệu thực nghiệm 52 3.2 Quá trình thực nghiệm 3.2.1 Mơi trường, cơng cụ lập trình 3.2.2 Tham số mơ hình 3.2.3 Độ đo 3.2.4 Huấn luyện mơ hình 55 55 56 57 58 3.3 Kết thực nghiệm 58 3.4 Kết luận hướng phát triển 60 Tài liệu tham khảo 61 iii DANH MỤC BẢNG BIỂU Danh mục ký hiệu toán học viii Danh mục thuật ngữ x Danh mục từ viết tắt x 3.1 Mô tả liệu thực nghiệm 53 3.2 Danh mục tham số mơ hình 56 3.3 Kết thực nghiệm mơ hình số cơng cụ OCR khác 59 iv DANH MỤC HÌNH VẼ Các bước nhận dạng ảnh văn 1.1 1.2 Ví dụ minh họa ảnh bị nhiễu Hàm phân bố đồ thị biểu diễn mơ hình nhiễu Gaussian, đó: (a) Hàm phân bố nhiễu Gaussian; (b) Đồ thị biểu diễn phân bố nhiễu Gaussian 1.3 Ví dụ minh họa nhiễu Gaussian, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram ảnh gốc, (d) Histogram ảnh nhiễu 1.4 Hàm phân bố đồ thị biểu diễn mơ hình nhiễu Impulse, đó: (a) Hàm phân bố nhiễu Impulse; (b) Đồ thị biểu diễn phân bố nhiễu Impulse 1.5 Ví dụ minh họa nhiễu Impulse, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram ảnh gốc, (d) Histogram ảnh nhiễu 1.6 Ví dụ minh họa nhiễu Kanungo [35], đó: (a) Ảnh gốc, (b) - (g) mức độ nhiễu Kanungo xếp theo chiều tăng dần 1.7 Minh họa cửa sổ trượt 1.8 Ví dụ tính tích chập 1.9 Ví dụ minh họa ARM, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 1.10 Ví dụ minh họa GEM, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết v 10 13 14 17 18 1.11 Ví dụ minh họa COM, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 1.12 Minh họa lọc thống kê thứ tự 1.13 Ví dụ minh họa MEF, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 1.14 Ví dụ minh họa MAX, đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram ảnh gốc, (e) Histogram ảnh nhiễu, (f) Histogram ảnh kết 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 20 21 22 24 Ví dụ minh họa hình dạng phần tử cấu trúc Ví dụ minh họa phép giãn nở Ví dụ minh họa phép co Ví dụ minh họa phép mở Ví dụ minh họa phép đóng Ví dụ minh họa toán tử Sobel Minh họa OCR Minh họa trình xử lý ảnh tài liệu Google Docs OCR Các bước OCR với Tesseract Giao diện công cụ ABBYY FineReader (phiên 12) Giao diện công cụ VietOCR Kết thực nghiệm phép toán Sobel ảnh tài liệu, đó: (a) ảnh gốc, (b) ảnh kết Kết thực nghiệm phép đóng ảnh tài liệu, đó: (a) ảnh phát biên, (b) ảnh kết Kết biến đổi ký tự qua tốn tử Sobel phép đóng hình thái Kết thực nghiệm khoanh vùng từ, đó: (a) ảnh thực liên thông nét chữ, (b) ảnh kết Kết thực nghiệm khoanh vùng ký tự, đó: (a) Ảnh gốc, (b) Áp dụng phép đóng, (c) Khoanh vùng Kết thực nghiệm cắt ký tự Kiến trúc mạng CNN[10] Minh họa ma trận lọc phát biên[10] Minh họa bước nhảy[10] Minh họa đường viền[10] vi 26 27 28 29 30 31 32 33 33 34 35 37 38 38 39 40 40 42 44 44 45 2.22 Minh họa bước tính tầng tích chập[10] 2.23 Một số hàm kích hoạt phổ biến, đó: (a) Sigmoid, (b) ReLU, (c) Tanh 2.24 Ví dụ minh họa phép lấy mẫu cực đại[10] 2.25 Ví dụ minh họa lớp liên kết đầy đủ[10] 3.1 3.2 3.3 3.4 3.5 46 48 49 50 Danh sách phân lớp ký tự Một phần liệu học luận văn xây dựng Một ảnh văn liệu kiểm định [24] Đồ thị biểu diễn trình huấn luyện mơ hình nhận dạng ký tự Đồ thị so sánh kết thực nghiệm phương pháp vii 54 54 55 58 59 DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Nghĩa tiếng Việt (r, c) Tọa độ vị trí điểm ảnh I Ảnh ban đầu J Ảnh đầu η (r, c) Hàm nhiễu H Cửa sổ/Ma trận trượt z Mức xám ảnh p(z) Hàm mật độ xác suất mức xám T[ I ] Phép biến đổi tuyến tính ảnh I I⊗ H Phép tích chập ảnh I cửa sổ trượt H I⊕ H Phép giãn ảnh I phần tử cấu trúc H I Phép co ảnh I phần tử cấu trúc H H I◦H Phép mở ảnh I phần tử cấu trúc H I•H Phép đóng ảnh I phần tử cấu trúc H X Ma trận thông tin k Số lượng ma trận lọc Wi Ma trận lọc thứ i Si Bước nhảy áp dụng với ma trận lọc thứ i P Kích thước đường viền thêm vào ảnh Bảng 1: Danh mục ký hiệu toán học viii Lớp tổng hợp (Pooling Layer) lớp thực chức làm giảm chiều không gian thông tin đầu vào, qua giúp giảm độ phức tạp tính tốn mơ hình Ngồi lớp cịn giúp kiểm sốt tượng mơ hình q khớp với liệu (overfitting) Thơng thường, lớp tổng hợp có nhiều hình thức khác phù hợp cho nhiều toán, nhiên phép lấy mẫu cực đại (Max Pooling) sử dụng nhiều vào phổ biến với ý tưởng sát với thực tế người Đó là, chi tiết quan trọng giữ lại hay toán nhận dạng ảnh giữ lại điểm ảnh có giá trị lớn [44] Hình 2.24: Ví dụ minh họa phép lấy mẫu cực đại[10] Một ví dụ phép lấy mẫu cực đại với ma trận lọc kích thước (2 × 2) bước nhảy thể hình 2.24 Trong đó, ma trận lọc chạy dọc ảnh Và với vùng ảnh chọn, chọn giá trị lớn giữ lại Ví dụ, góc phần tư thứ có giá trị {1, 0, 4, 6}, gá trị lớn nên giữ lại Thông thường, lớp tổng hợp thường chọn ma trận lọc có kích thước (2 × 2) bước nhảy S = Nếu lấy giá trị q lớn, thay giảm tính tốn làm phá vỡ cấu trúc ảnh mát thơng tin nghiêm trọng Vì vậy, số chun gia khơng thích sử dụng lớp mà thay vào sử dụng thêm lớp lớp tích chập tăng số bước nhảy lên lần [44] d) Lớp liên kết đầy đủ Lớp cuối mơ hình CNN (trong phạm vi toán nhận dạng ảnh) lớp liên kết đầy đủ (Fully Connected Layer) Lớp có chức chuyển ma trận đặc trưng lớp trước thành vector chứa xác suất đối tượng cần dự đốn Hay nói cách khác thơng tin mà mơ hình đọc 49 lớp trước xâu chuỗi lại để tạo mơ hình lớp liên kết đầy đủ Trong đó, neural lớp liên kết tới neural lớp khác Để đưa ảnh từ lớp trước vào mạng này, buộc phải dàn phẳng ảnh thành vector thay mảng nhiều chiều trước Cuối cùng, hàm kích hoạt (softmax sigmoid, v.v) sử dụng để phân loại đối tượng dựa vào vector đặc trưng tính tốn lớp trước [18] Hình 2.25: Ví dụ minh họa lớp liên kết đầy đủ[10] Trong hình 2.25, ma trận đầu lớp trước chuyển đổi thành bốn vector ( x1 , x2 , x3 , x4 ) liên kết với toàn neural lớp 2.3.4 Nhận dạng ảnh ký tự Nếu nội dung lý thuyết mạng neural tích chập đề cập phần 2.3.3 phần này, luận văn trình bày hướng tiếp cận cho việc áp dụng CNN vào toán nhận dạng ký tự Đầu tiên, liệu gồm ảnh ký tự gán nhãn sử dụng để huấn luyện cho mơ hình Bộ liệu bao gồm tập tất hình thái nhận ký tự tiếng Việt (điều trình bày chi tiết phần 3.1 chương sau) Sau đó, mơ hình phân lớp xây dựng với tham số cấu hình mơi trường lập trình thư viện hỗ trợ (sẽ trình bày phần 3.2) Các đặc trưng ký tự tập liệu mẫu trích chọn đưa vào mơ hình q trình huấn luyện Điều giúp mơ hình hoạt động hiệu với tài liệu chứa nhiều font kiểu 50 dáng chữ khác Tiếp theo, sau mơ hình xây dựng xong, tập ảnh ký tự tài liệu tách phần trước được đưa vào để mơ hình dự đoán thuộc nhãn (tương ứng với chữ cái) số 190 hình thái ký tự tiếng Việt (xem hình 3.1) Khi đó, với ảnh ký tự phân lớp xong lưu lại thông tin vị trí văn với giá trị phân lớp tương ứng Cuối cùng, thông tin phân lớp lưu lại bước trước, ký tự nhận dạng ghép lại theo thứ tự tương ứng với vị trí ảnh ký tự mà gắn với để trở thành văn số hoàn chỉnh Ở chương này, số vấn đề lý thuyết phép tốn hình thái tốn tử Sobel cách áp dụng vào toán khoanh vùng văn luận văn trình bày Cùng với đó, cơng cụ nhận dạng ảnh phổ biến luận văn giới thiệu chương Cùng với đó, đặc điểm hướng áp dụng mạng neural tích chập việc nhận dạng ảnh luận văn đưa trình bày Các thơng tin liệu, phương pháp kết thực nghiệm giới thiệu đến chương 51 ... khắc phục nhược điểm này, số phương pháp khác nghiên cứu, phát triển phương pháp lọc trung vị có trọng số [22], phương pháp trung vị linh động [31], v.v Ở chương này, số sở lý thuyết phục vụ cho... phương pháp xử lý [35] Bởi vậy, có nhiều nghiên cứu thực vấn đề [23, 15, 35, 38] Trong phạm vi nghiên cứu, luận văn giới thiệu số mơ hình tạo nhiễu thường gặp thực tế, bao gồm mơ Gaussian [43], Impulse... thiệu ba lọc trung bình phổ biến, bao gồm: Arithmetic Mean, Geometric Mean Contraharmonic Mean [27] Arithmetic Mean: Bộ lọc Arithmetic Mean (ARM) (hay gọi lọc trung bình số học) lọc đơn giản nhất,