Áp dụng thuật toán làm phẳng bề mặt để nâng cao độ chính xác của ứng dụng hỗ trợ đọc sách cho người mù

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Áp dụng thuật toán làm phẳng bề mặt để nâng cao độ xác ứng dụng hỗ trợ đọc sách cho người mù NGUYỄN NGỌC QUỲNH Ngành Kỹ thuật điện tử Giảng viên hướng dẫn: TS Hàn Huy Dũng Viện: Điện tử - Viễn thông HÀ NỘI, 2020 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Áp dụng thuật toán làm phẳng bề mặt để nâng cao độ xác ứng dụng hỗ trợ đọc sách cho người mù NGUYỄN NGỌC QUỲNH Ngành Kỹ thuật điện tử Giảng viên hướng dẫn: TS Hàn Huy Dũng Viện: Điện tử - Viễn thông HÀ NỘI, 2020 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: NGUYỄN NGỌC QUỲNH Đề tài luận văn: Áp dụng thuật toán làm phẳng bề mặt để nâng cao độ xác ứng dụng hỗ trợ đọc sách cho người mù Chuyên ngành: Kỹ thuật điện tử Mã số HV: CB170225 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 29/10/2020 với nội dung sau: - Sửa lại số lỗi chỉnh tả - Sửa lại tiêu đề “Chương Kết luận chung” sửa lại câu chữ “tích hợp thuật toán” phần Kết luận - Sửa lại chữ viết hoa “Danh mục ký hiệu viết tắt” - Sửa lại số từ “ngơn ngữ lập trình, thư viện xử lý ảnh” trang 21 - Bỏ phần “Luận giải sử dụng thư viện ảnh” Mục lục Hà Nội, Ngày 29 tháng 10 năm 2020 Tác giả luận văn Giảng viên hướng dẫn TS Hàn Huy Dũng Nguyễn Ngọc Quỳnh CHỦ TỊCH HỘI ĐỒNG TS Phạm Doãn Tĩnh LỜI CẢM ƠN Đề tài thực với giúp đỡ TS Hàn Huy Dũng nhóm phát triển ứng dụng hỗ trợ đọc sách cho người mù Reading Assistant Application Qua đây, xin bày tỏ lòng biết ơn sâu sắc đến TS Hàn Huy Dũng – Người tận tình hướng dẫn, chia sẻ kinh nghiệm đưa ý kiến đóng góp quý báu suốt trình tìm hiểu thực đề tài Do thời gian thực có hạn, kiến thức chun mơn cịn nhiều hạn chế nên luận văn Tác giả thực không tránh khỏi thiếu sót Tơi mong nhận ý kiến đóng góp q báu q thầy bạn đọc Xin chân thành cảm ơn! Hà Nội, ngày tháng Tác giả năm 2020 Nguyễn Ngọc Quỳnh MỤC LỤC DANH MỤC KÝ HIỆU VIẾT TẮT iii DANH MỤC HÌNH VẼ iv DANH MỤC BẢNG BIỂU vii CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Giới thiệu ứng dụng hỗ trợ đọc sách cho người mù 1.1.1 Tổng quan, tính cần thiết hoạt động ứng dụng 1.1.2 Cấu trúc hoạt động ứng dụng 1.1.3 Những vấn đề ảnh hưởng đến độ xác ứng dụng 1.2 Cơ sở lý thuyết 11 1.2.1 Nhận dạng ký tự quang học OCR sử dụng mơ hình Tesseract 11 1.2.1.1 Giới thiệu OCR 11 1.2.1.2 Tesseract gì? 11 1.2.1.3 Kiến trúc hoạt động Tesseract 15 1.2.1.4 Huấn luyện liệu tích hợp 16 1.2.2 Các kỹ thuật sử dụng để tối ưu chất lượng module OCR 18 1.2.3 Kỹ thuật đề xuất 23 1.3 Kết luận chương 26 CHƯƠNG 2: NÂNG CAO ĐỘ CHÍNH XÁC CỦA ỨNG DỤNG SỬ DỤNG PHƯƠNG PHÁP LÀM PHẲNG BỀ MẶT TRANG GIẤY 27 2.1 Các phương pháp làm phẳng trang giấy xử lý ảnh 27 2.1.1 Phương pháp biểu diễn ảnh xương liên tục (Continuous skeletal image representation - SKEL) 27 2.2.2 Phương pháp làm phẳng ảnh dựa phân đoạn (Segmentation based document image dewarping - SEG) 29 2.2.3 Phương pháp mơ hình biến đổi tọa độ (Coordinate transform model - CTM) 30 2.2.4 So sánh ưu nhược điểm phương pháp SKEL, SEG, CTM 31 2.2 Các phương pháp làm phẳng trang giấy đề xuất 35 2.2.1 Phương pháp Mơ hình tham số 35 2.2.2 Phương pháp Leptonica 37 2.3 Triển khai phương pháp làm phẳng bề mặt trang giấy đề xuất 38 2.3.1 Triển khai phương pháp sử dụng mơ hình tham số viết thư viện OpenCV 38 i 2.3.1.1 Tìm đoạn văn “contour” 38 2.3.1.2 Tạo dòng “span” 42 2.3.1.3 Tối ưu hóa mơ hình “optimize” 45 2.3.1.4 Ánh xạ lại điểm ảnh 46 2.3.2 Triển khai phương pháp sử dụng mơ hình Leptonica viết thư viện Leptonica 47 2.3.2.1 Xác định dòng văn 47 2.3.2.2 Xác định hàm đường cong 49 2.3.2.3 Lấy mẫu dòng văn 50 2.3.2.4 Ánh xạ lại điểm ảnh 50 2.4 Kết luận chương 51 CHƯƠNG 3: KẾT QUẢ 52 3.1 Kết thuật toán làm phẳng bề mặt trang giấy 52 3.1.1 Môi trường công cụ sử dụng 52 3.1.2 Mục đích 53 3.1.3 Kết 53 3.1.4 Nhận xét 60 3.2 Ảnh hưởng phương pháp lên độ xác ứng dụng 63 3.2.1 Môi trường công cụ sử dụng 63 3.2.2 Mục đích 63 3.2.3 Kết 63 3.2.4 Nhận xét 69 3.3 Kết luận chương 70 KẾT LUẬN CHUNG 71 TÀI LIỆU THAM KHẢO 72 ii DANH MỤC KÝ HIỆU VIẾT TẮT AI Artificial Intelligence API Application Programming Interface BSD Berkeley Software Distribution CTM Coordinate Transform Model HTML HyperText Markup Language I/O Input/Output JNI Java Native Interface JPG Joint Photographic experts Group LSTM Long Short-Term Memory ML Machine Learning NDK Native Development Kit OCR Optical Character Recognition OpenCV Open source Computer Vision PCA Principal Components Analysis PDF Portable Document Format PNG Portable Network Graphics RNN Recurrent Neural Network SEG SEGmentation based document image dewarping SKEL SKELeton - continuous skeletal image representation SVD Singular Value Decomposition TCVN3 Tiêu Chuẩn Việt Nam TIFF Tagged Image File Format TSV Tab-Separated Values UNLV University of Nevada, Las Vegas UTF-8 Unicode Transformation Format – VNI VietNam-International iii DANH MỤC HÌNH VẼ Hình 1-1: Lưu đồ xử lý tổng quát ứng dụng Hình 1-2: Biểu đồ trình tự hệ thống Hình 1-3: Lưu đồ xử lý module Detect Page Hình 1-4: Lưu đồ cài đặt thực thi module OCR Hình 1-5: Một trang sách trước sau làm phẳng 11 Hình 1-6: Ví dụ Recurrent Neural Network 13 Hình 1-7: Mạng RNN khơng đáp ứng trạng thái xa điểm cần dự đoán .14 Hình 1-8: Ví dụ Long Short Term Memory Network 14 Hình 1-9: Ví dụ trang giấy có nhiều nhiễu .19 Hình 1-10: Font chữ sử dụng Serif font chữ thường 20 Hình 1-11: Sử dụng Erosion xử lý ký tự quang học .20 Hình 1-12: Sử dụng Dilation xử lý ký tự quang học 20 Hình 1-13: Sử dụng Rotation để chỉnh trang giấy 21 Hình 1-14: Trang giấy trước sau bỏ đường viền 22 Hình 1-15: Hình ảnh trước sau xử lý làm phẳng .23 Hình 1-16: Ví dụ thực kỹ thuật Binarisation sử dụng thuật toán Otsu thư viện Leptonica .24 Hình 1-17: Kỹ thuật Binarization sử dụng ngưỡng toàn cục 25 Hình 1-19: Kỹ thuật Binarization sử dụng phân ngưỡng thích nghi trung bình 25 Hình 1-20: Kỹ thuật Binarization sử dụng phân ngưỡng Gaussian thích nghi 26 Hình 2-1: Xây dựng khung xương 27 Hình 2-2: Tính tốn Bezier bậc ba 28 Hình 2-3: Làm phẳng bề mặt sử dụng SKEL 28 Hình 2- 4: Làm phẳng trang giấy sử dụng thuật toán SEG 30 Hình 2-5: Ví dụ biến dạng trang giấy, hình bên phải cho thấy lưới tọa độ cong sử dụng 30 Hình 2-6: Các bước thực phương pháp CTM 31 Hình 2-7: Kết thử nghiệm phương pháp trường hợp 32 Hình 2-8: Kết thử nghiệm phương pháp trường hợp 33 Hình 2-9: Kết thử nghiệm phương pháp trường hợp 34 iv Hình 2-10: Hình dáng độ cong biểu diễn biến α β 35 Hình 2-11: Các bước thực thuật tốn Mơ hình tham số 36 Hình 2-12: Các bước thực phương pháp Leptonica 37 Hình 2-13: Thực phân ngưỡng thích nghi với ảnh 39 Hình 2-14: Thực biến đổi hình thái giãn với ảnh 39 Hình 2-15: Mơ tả cấu trúc Contour 40 Hình 2-16: Các contour tìm với trọng tâm tiếp tuyến tương ứng 42 Hình 2-17: Hai contour coi trùng nhiều theo phương ngang 42 Hình 2-18: Hai contour coi khoảng cách xa 43 Hình 2-19: Hai contour coi có độ lệch góc lớn 43 Hình 2-20: Các span tập hợp từ contour 44 Hình 2-21: Tập hợp điểm lấy mẫu từ span 45 Hình 2-22: (a) Các điểm ảnh trước tối thiểu hóa lỗi chiếu (b) Các điểm ảnh sau tối thiểu hóa lỗi chiếu 46 Hình 2-23: Ảnh trước sau dewarp 47 Hình 2-24: Ảnh đầu vào 47 Hình 2-25: Xác định dịng văn 48 Hình 2-26: Xác định hàm đường cong bậc dịng 49 Hình 2-27: Lấy mẫu dòng theo chiều ngang 50 Hình 2-28: Kết đầu thuật toán 51 Hình 3-1: Các loại biến dạng ảnh 52 Hình 3-2: Biến dạng phối cảnh chưa xử lý tốt Mơ hình tham số 61 Hình 3-3:Xử lý nhị phân Leptonica cịn có khuyết điểm, gây ảnh hưởng đến thuật toán 61 Hình 3- 4: Biến dạng phức tạp Mơ hình tham số xử lý tốt 62 Hình 3-5: Tỉ lệ tốc độ xử lý thuật tốn Mơ hình tham số Leptonica 62 Hình 3-6: Ảnh đầu vào kết tiến hành thực OCR 63 Hình 3-7: Kết sử dụng thuật tốn Mơ hình tham số 64 Hình 3- 8: Kết sử dụng thuật tốn Leptonica 64 Hình 3-9: Kết OCR ảnh chưa làm phẳng 65 Hình 3-10: Kết thuật tốn Mơ hình tham số sau qua OCR 65 Hình 3-11: Kết thuật toán Leptonica sau qua OCR 66 v Hình 3-12: So sánh kết có từ hai thuật tốn Mơ hình tham số Leptonica .66 Hình 3-13: Kết OCR ảnh chưa làm phẳng 67 Hình 3-14: Kết OCR sau làm phẳng sử dụng thuật tốn Mơ hình tham số .67 Hình 3-15: Kết OCR sau làm phẳng sử dụng thuật toán Leptonica 68 Hình 3-16: (a) Trang giấy bị biến dạng phức tạp; (b) Ánh sáng đổ bóng ảnh hưởng đến xử lý làm phẳng 70 vi STT Ảnh đầu vào (a) Mơ hình tham số Thuật tốn Leptonica (b) (c) 18 19 20 59 Kết thời gian xử lý mẫu trình bày bảng sau: Bảng 3-2: Thời gian xử lý ảnh thuật tốn mơ hình tham số Leptonica (đơn vị: giây) STT Thuật tốn Mơ hình tham số (TM) Thuật tốn Leptonica (TL) TM/ TL 0.598327 0.172141 3.475796 1.557259 0.506018 3.077477 1.566609 0.602787 2.598943 1.935082 0.665072 2.909583 1.409440 0.558041 2.525693 0.693821 0.265506 2.613203 1.039733 0.370989 2.802598 0.808794 0.278587 2.903201 1.835062 0.581304 3.156803 10 1.756494 0.605187 2.902399 11 1.327445 0.418923 3.168709 12 1.624397 0.545682 2.976820 13 1.667212 0.463649 3.595849 14 1.024189 0.358501 2.856865 15 1.203208 0.410027 2.934460 16 1.325685 0.398545 3.326312 17 0.925681 0.302343 3.061692 18 1.021386 0.358608 2.848196 19 1.398256 0.509792 2.742797 20 1.613864 0.524439 3.077315 3.1.4 Nhận xét - Cả hai thuật toán xử lý tốt biến dạng phổ biến, trang giấy đặt cầm cách tự nhiên, công thức trang giấy không bị biến dạng phương pháp biểu diễn ảnh xương liên tục SEG - Tuy nhiên thuật tốn mơ hình tham số xử lý tốt biến dạng theo chiều ngang, nhiều ảnh vấn đề xếp dòng thẳng theo chiều dọc chưa tốt, biến dạng phối cảnh rõ ràng, ngược lại Leptonica làm việc tốt, 60 nhiên điều không ảnh hưởng nhiều qua module Tesseract, dòng ký tự xử lý OCR cách riêng rẽ Sau ta xem xét hai thuật toán xử lý loại biến dạng biến dạng phối cảnh biến dạng độ cong trang sách nào, số tác nhân nhiễu, ánh sách, đổ bóng ảnh hưởng tới độ xác thuật tốn Các dòng chưa xếp ngắn (a) (b) Hình 3-2: Biến dạng phối cảnh chưa xử lý tốt Mơ hình tham số (a) Ảnh đầu vào, (b) Ảnh sau xử lý Mơ hình tham số - Những ảnh có độ sáng bóng gây ảnh hưởng đến thuật tốn Leptonica, xử lý độ sáng chuyển ảnh nhị phân thư viện Leptonica có phần OpenCV, điều đề cập tới mục 1.2.3: Kỹ thuật đề xuất (a) (b) Hình 3-3:Xử lý nhị phân Leptonica cịn có khuyết điểm, gây ảnh hưởng đến thuật toán (a) Ảnh đầu vào; (b) Ảnh đầu nhị phân xử lý Leptonica - Ở biến dạng dịng ký tự khó, thuật tốn mơ hình tham số làm việc tốt, thuật tốn Leptonica khơng thể xử lý độ biến dạng dịng ký tự khơng cịn tuân theo đồ thị phương trình bậc hai 61 (a) (b) Hình 3- 4: Biến dạng phức tạp Mơ hình tham số xử lý tốt (a) Leptonica khơng xử lý biến dạng phức tạp (b) Leptonica xếp dòng văn thẳng hàng - Ngồi ra, thời gian thực thi thuật tốn Mơ hình tham số nhiều nhiều so với thuật toán Leptonica Trong trường hợp mẫu đầu vào, tỉ lệ khoảng từ 2.5 đến 3.5 lần Có khác biệt lớn phương pháp tối ưu hai thuật tốn, Mơ hình tham số sử dụng tối ưu hàm bậc ba, Leptonica sử dụng tối ưu hàm bậc hai Tỉ lệ thời gian xử lý hai thuật toán biểu diễn đồ thị Hình 3-5: Tỉ lệ tốc độ xử lý thuật tốn Mơ hình tham số/Leptonica (TM)/(TL) Hình 3-5: Tỉ lệ tốc độ xử lý thuật tốn Mơ hình tham số Leptonica Với: • TM thời gian thực thi thuật tốn Mơ hình tham số • TL thời gian thực thi thuật toán Leptonica Tốc độ thời gian thực thi quan trọng ta tích hợp thuật tốn lên thiết bị điện thoại thơng minh, vi xử lý điện thoại không mạnh mẽ máy tính cấu hình cao, điện thoại 62 có tốc độ xử lý chênh lệch đáng kể, lý tác giả đề xuất sử dụng hai thuật toán làm phẳng với độ phức tạp thời gian thực thi khác 3.2 Ảnh hưởng phương pháp lên độ xác ứng dụng 3.2.1 Mơi trường công cụ sử dụng - Hệ điều hành: Ubuntu 16-64 bit - Tesseract 3.04.01 với traineddata tiếng Việt mặc định - Bộ ảnh đầu vào ảnh sử dụng cho thuật toán làm phẳng bề mặt trang giấy kết phần 3.1 3.2.2 Mục đích - Khảo sát ảnh hưởng kỹ thuật làm phẳng lên xác module OCR ứng dụng - So sánh hiệu hai thuật tốn Mơ hình tham số Leptonica 3.2.3 Kết Ví dụ với ảnh trang sách hình 3-6 (mẫu số 1), kết nhận diện ký tự quang học qua module Tesseract OCR lưu dạng text hiển thị sau: Hình 3-6: Ảnh đầu vào kết tiến hành thực OCR 63 Hình 3-7: Kết sử dụng thuật tốn Mơ hình tham số Hình 3- 8: Kết sử dụng thuật toán Leptonica Kết với trường hợp sử dụng thuật tốn Mơ hình tham số Leptonica để làm phẳng trang giấy trình bày hình 3-7 3-8 Trường hợp đầu vào ảnh có độ biến dạng trang giấy thấp nên OCR tiến hành xác, có vài lỗi tả nhỏ chỉnh sửa lại qua khối sửa lỗi “Text Error Processing” ứng dụng - Ở mẫu số 2, ảnh đầu vào biến dạng phối cảnh, đưa vào module Tesseract OCR để tiến hành nhận diện ký tự quang học khơng sử dụng kỹ thuật làm phẳng (Hình 3-9), việc đọc văn gần sửa lỗi, module OCR nhận diện 134/259 chữ 64 Hình 3-9: Kết OCR ảnh chưa làm phẳng Ở kỹ thuật làm phẳng trang giấy phát huy điểm mạnh lớn Kết sau bỏ qua nhiễu ký tự từ trang giấy bên cạnh sau: Hình 3-10: Kết thuật tốn Mơ hình tham số sau qua OCR 65 Hình 3-11: Kết thuật tốn Leptonica sau qua OCR Để rõ ràng hơn, so sánh kết thuật tốn Mơ hình tham số Leptonica, sử dụng công cụ compare so sánh đoạn văn có từ thuật tốn Ta dễ dàng nhận kết tương đương nhau, sai tả hầu hết dấu từ, “vấn đê”, “vẫn để”, “can bẹnh”,… Liệt kê cho thấy Mơ hình tham số, số ký tự nhận diện 242/259 chữ, Leptonica 248/259 chữ Hình 3-12: So sánh kết có từ hai thuật tốn Mơ hình tham số Leptonica Ở mẫu số 7, ảnh đầu vào biến dạng trang giấy, đưa vào module Tesseract OCR để tiến hành nhận diện ký tự quang học, kết sau: 66 Hình 3-13: Kết OCR ảnh chưa làm phẳng Tesseract nhận diện xác 181/348 chữ, độ cong dòng ký tự lớn Kết nhận diện ký tự ảnh sau làm phẳng sử dụng hai thuật tốn Mơ hình tham số Leptonica trình bày hình 3-14 hình 3-15 Hình 3-14: Kết OCR sau làm phẳng sử dụng thuật tốn Mơ hình tham số Liệt kê cho thấy sử dụng mơ hình tham số, Tesseract nhận diện xác 299/348 chữ, cịn thuật toán Leptonica, Tesseract nhận diện 327/348 chữ 67 Hình 3-15: Kết OCR sau làm phẳng sử dụng thuật toán Leptonica Tiếp tục thực bước nhận diện ký tự quang học với mẫu thử nghiệm cịn lại, sau lọc bỏ chữ khơng có nghĩa, ta có kết sau: Bảng 3-3: Kết chữ nhận diện trước sau làm phẳng (đơn vị: số chữ nhận diện / tổng số số chữ) STT Ảnh chưa làm phẳng Ảnh đầu Mơ hình tham số Ảnh đầu thuật toán Leptonica Số chữ % Số chữ % Số chữ % 290/293 98.98 290/293 98.98 290/293 98.98 134/259 51.74 242/259 93.44 248/259 95.75 282/344 81.98 340/344 98.84 339/344 98.55 206/315 65.40 312/315 99.05 304/315 96.51 103/377 27.32 320/377 84.88 358/377 94.96 119/233 51.07 216/233 92.70 218/233 93.56 181/348 52.01 299/348 85.92 327/348 93.97 116/217 53.46 201/217 92.63 116/217 53.46 179/250 71.60 226/250 90.40 241/250 96.40 10 39/224 17.41 209/224 93.30 39/224 17.41 11 68/249 27.31 198/249 79.52 232/249 93.17 12 19/202 9.4 170/202 84.16 187/202 92.57 13 156/328 47.56 294/328 89.63 324/328 98.78 14 166/241 68.88 211/241 87.55 231/241 95.85 15 83/259 32.05 209/259 80.69 234/259 90.35 16 156/259 60.23 245/259 94.59 254/259 98.07 68 STT Ảnh chưa làm phẳng Ảnh đầu Mơ hình tham số Ảnh đầu thuật toán Leptonica Số chữ % Số chữ % Số chữ % 17 232/262 88.55 250/262 95.42 261/262 99.62 18 182/249 73.09 232/249 93.17 243/249 97.59 19 179/310 57.74 282/310 90.97 298/310 96.13 20 121/238 50.84 213/238 89.50 203/238 85.29 Tổng số 3011/5457 55.18 4959/5457 90.87 4947/5457 90.65 Trong đó: - Những ô màu xám xử lý độ cong ảnh biểu diễn trường hợp thuật tốn khơng - Những màu cam cịn lại có kết nhận diện OCR tốt thuật toán 3.2.4 Nhận xét - Kỹ thuật làm phẳng trang giấy làm tăng đáng kể độ xác module OCR, qua giúp ứng dụng hoạt động tốt - Thuật toán Mơ hình tham số thuật tốn Leptonica có kết nhận diện OCR tương đương nhau, với tổng số ký tự nhận diện qua module Tesseract OCR Mơ hình tham số 4959/5457 chữ (90.87%), kết thuật tốn Leptonica 4947/5457 chữ (90.65%), ảnh chưa làm phẳng 3011/5457 chữ (55.18%) Trong phần lớn mẫu sử dụng, thuật toán Leptonica cho kết nhận diện tốt thuật tốn Mơ hình tham số, nhiên số mẫu (mẫu số 8, 10), thuật toán Leptonica khơng thể xử lý trang giấy có độ biến dạng phức tạp (mẫu số 8) ảnh chụp có độ đổ bóng (mẫu số 10) gây ảnh hưởng đến phép biến đổi phân ngưỡng Leptonica (Hình 3-16), kết trường hợp khơng cải thiện 69 (a) (b) Hình 3-16: (a) Trang giấy bị biến dạng phức tạp; (b) Ánh sáng đổ bóng ảnh hưởng đến xử lý làm phẳng - Vẫn cịn xuất lỗi tả đầu OCR, lỗi hồn tồn khắc phục module sửa lỗi “Text Error Processing” - Có thể tối ưu thêm kỹ thuật xử lý ảnh nhận diện đường bao “contour recognition”, xóa nhiễu “noise removal”, nghiêng “skew”, biến đổi nhị phân phân ngưỡng “binarization”… để tăng khả xử lý Tesseract OCR 3.3 Kết luận chương Với kết trên, ta rút kết luận: - Kỹ thuật làm phẳng sử dụng thuật tốn Mơ hình tham số có khả xử lý với nhiều trường hợp biến dạng thuật toán Leptonica hầu hết trường hợp Tuy nhiên độ phức tạp thời gian thực thi cao gấp từ 2.5 đến 3.5 lần Vì việc sử dụng thuật toán cho loại vi xử lý cần xem xét cách kỹ lưỡng để tối ưu tốt hoạt động ứng dụng - Áp dụng kỹ thuật làm phẳng trang giấy giúp nâng cao đáng kể độ xác ứng dụng trường hợp ảnh đầu vào biến dạng Trong tổng số mẫu thử nghiệm, độ xác nhận diện ký tự quang học tăng từ 55.18% chưa làm phẳng, lên 90.87% sử dụng thuật tốn Mơ hình tham số 90.65% sử dụng thuật toán Leptonica 70 KẾT LUẬN CHUNG Kết luận Đề tài “Áp dụng thuật toán làm phẳng bề mặt để nâng cao độ xác ứng dụng hỗ trợ đọc sách cho người mù” giới thiệu tổng quan ứng dụng có tính thực tiễn cao nhằm hỗ trợ cho người mù khiếm thị tiếp xúc với xã hội với thông tin tri thức từ sách loại văn bản; qua đề xuất tích hợp kỹ thuật làm phẳng bề mặt trang giấy để nâng cao độ xác ứng dụng Tác giả áp dụng hai thuật toán làm phẳng bề mặt thuật tốn Mơ hình tham số thuật tốn Leptonica vào ứng dụng Trong thuật tốn Mơ hình tham số viết ngơn ngữ C++ dựa thư viện OpenCV 3.4, thuật toán Leptonica viết ngôn ngữ C dựa thư viện Leptonica, thư viện xử lý ảnh Tesseract OCR Kết cho thấy kỹ thuật làm phẳng bề mặt trang giấy làm tăng đáng kể độ xác ứng dụng trường hợp mà ảnh đầu vào bị biến dạng Hướng phát triển Từ kết thu đề tài, thấy cịn nhiều kỹ thuật khác tích hợp để tăng độ xác ứng dụng, kỹ thuật xử lý ảnh đầu vào, sửa lỗi tả đầu ra, tối ưu thời gian hoạt động điện thoại thơng minh Trong tương lai nghiên cứu thuật tốn xử lý ảnh trí tuệ nhân tạo AI (Artificial Intelligence), tiến hành tăng độ xác Tesseract cách dạy (train) mơ hình, để thực tốn cần có lượng kiến thức định mơ hình Học sâu (Deep learning), từ hồn thiện tối ưu ứng dụng hỗ trợ đọc sách đầy tính thiết thực 71 TÀI LIỆU THAM KHẢO [1] B S Mehmet Sezgin, "Survey over image thresholding techniques and quantitative performance evaluation," Journal of Electronic Imaging, Vols Bd 13(1), Nr 163, pp 146-168, 2004 [2] A Masalovitch and L Mestetskiy Usage of contin-uous skeletal image representation for document im-ages de-warping In 2nd Int Workshop on Camera-Based Document Analysis and Recognition, Curitiba,Brazil, Sep 2007 Accepted for publication [3] B Gatos, I Pratikakis, and K Ntirogiannis Segmen-tation based recovery of arbitrarily warped documentimages In Proc Int Conf on Document Analysis andRecognition, Curitiba, Brazil, Sep 2007 Accepted forpublication [4] B Fu, M Wu, R Li, W Li, and Z Xu A model-basedbook dewarping method using text line detection In2nd Int Workshop on Camera-Based Document Anal-ysis and Recognition, Curitiba, Brazil, Sep 2007 Accepted for publication [5] [Online] Available: https://suckhoedoisong.vn/khoang-2-trieu-nguoimu-va-thi-luc-kem-1-3-nguoi-ngheo-khong-co-tien-dieu-tri-tim-laianh-sang-n164407.html [Accessed 28/09/2020] [6] [Online] Available: https://mzucker.github.io/2016/08/15/pagedewarping.html [Accessed 28/09/2020] [7] Phạm Viết Quyền, Đồ án tốt nghiệp, Ứng dụng hỗ trợ đọc sách cho người mù người khiếm thị, 06/2019 [8] S G Johnson, "nlopt," 2010 [Online] Available: https://nlopt.readthedocs.io/en/latest/ [Accessed 28/09/2020] [9] [Online] Available: 28/09/2020] [10] [Online] Available: https://tpgit.github.io/UnOfficialLeptDocs/leptonica/index.html [Accessed 28/09/2020] [11] [Online] Available: https://azure.microsoft.com/enus/services/cognitive-services/computer-vision/ [Accessed 05 06 2019] [12] M P J Sauvola, "Adaptive document image binarization," Pattern Recognition, pp 225-336, 2000 https://www.abbyy.com/en-us/ [Accessed 72 [13] [Online] Available: https://docparser.com/blog/improve-ocr-accuracy/ [Accessed 28/09/2020] [14] [Online] Available: https://www.pyimagesearch.com/2020/08/03/tesseract-ocr-for-nonenglish-languages/ [Accessed 28/09/2020] [15] Faisal Shafait, “Document Image Dewarping Contest”, January 2007 [16] [Online] Available: https://ezcodin.com/cv17 [Accessed 28/09/2020] 73 ... đến đầu ứng dụng; đề xuất sử dụng thuật toán làm phẳng trang giấy để nâng cao độ xác [7] 1.1 Giới thiệu ứng dụng hỗ trợ đọc sách cho người mù 1.1.1 Tổng quan, tính cần thiết hoạt động ứng dụng Trên... HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Áp dụng thuật toán làm phẳng bề mặt để nâng cao độ xác ứng dụng hỗ trợ đọc sách cho người mù NGUYỄN NGỌC QUỲNH Ngành Kỹ thuật điện tử Giảng viên hướng dẫn:... Leptonica 26 CHƯƠNG 2: NÂNG CAO ĐỘ CHÍNH XÁC CỦA ỨNG DỤNG SỬ DỤNG PHƯƠNG PHÁP LÀM PHẲNG BỀ MẶT TRANG GIẤY Chương trình bày tóm lược phương pháp làm phẳng trang giấy sử dụng thuật toán xử lý ảnh khác

Định dạng
Số trang	85
Dung lượng	3,55 MB