Xây dựng chương trình phát hiện và rút trích văn bản từ hình ảnh trên thiết bị di động: luận văn thạc sĩ

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN THỊ THẢO NGUYÊN XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN VÀ RÚT TRÍCH VĂN BẢN TỪ HÌNH ẢNH TRÊN THIẾT BỊ DI ĐỘNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN THỊ THẢO NGUYÊN XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN VÀ RÚT TRÍCH VĂN BẢN TỪ HÌNH ẢNH TRÊN THIẾT BỊ DI ĐỘNG Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC LUNG Đồng Nai - năm 2019 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, tài liệu kết nghiên cứu luận văn trung thực Mọi nội dung tham khảo từ tài liệu trích dẫn thích đầy đủ Tôi xin chịu trách nhiệm luận văn Học viên Nguyễn Thị Thảo Nguyên ii LỜI CẢM ƠN Để hồn thành luận văn tốt nghiệp mình, tơi xin gửi lời cảm ơn chân thành tới tập thể thầy giáo, cô giáo khoa Công nghệ thông tin trường Đại học Lạc Hồng đào tạo cho kiến thức, kinh nghiệm quý báu suốt thời gian học tập trường Trước hết xin chân thành cảm người thân gia đình ln gần gũi, động viên tạo điều kiện tốt để hồn thành luận văn Tơi xin gửi lời tri ân sâu sắc đến thầy PGS.TS Vũ Đức Lung, người hướng dẫn tận tình quan tâm, động viên tơi suốt q trình thực đề tài Mặc dù cố gắng để hoàn thành luận văn này, kiến thức hạn chế nên khơng tránh khỏi thiếu sót Rất mong q thầy thơng cảm đóng góp ý kiến cho luận văn Tôi xin gửi lời chúc sức khỏe thành đạt tới tất quý thầy cô cách chân thành Học viên Nguyễn Thị Thảo Nguyên iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC HÌNH VẼ v DANH MỤC BẢNG vii DANH MỤC TỪ VIẾT TẮT viii Chương TỔNG QUAN 1.1 Tổng quan đề tài nước 1.2 Mục tiêu luận văn 1.3 Đối tượng phạm vi nghiên cứu 1.4 Nội dung Bố cục luận văn Chương PHƯƠNG PHÁP TIẾP CẬN MÔ HÌNH PHÁT HIỆN VÀ RÚT TRÍCH VĂN BẢN TRONG ẢNH 2.1 Mơ hình giải tốn 2.2 Tiền xử lý 2.2.1 Chuyển ảnh đa mức xám 2.2.2 Phép biến đổi hình thái học reconstruction 2.3 Phát sinh vùng văn ứng viên 12 2.3.1 Các tốn tử hình thái học 12 2.3.2 Phát sinh ký tự ứng viên SWT 13 2.3.3 Gom nhóm điểm ảnh thành ký tự 16 2.4 Gom nhóm thành phần liên kết 17 2.4.1 Nhóm ký tự thành dịng văn 17 iv 2.4.2 Tách dòng văn thành từ 18 2.5 Tinh lọc ứng viên phân lớp SVM 19 2.5.1 Đặc trưng HOG 19 2.5.2 Khái niệm phân lớp SVM 20 2.5.2.1 SVM cho toán phân lớp tuyến tính 21 2.5.2.2 SVM cho phân lớp phi tuyến 24 2.5.3 Huấn luyện phân lớp từ phân lớp SVM 25 2.6 Rút trích văn 26 Chương XÂY DỰNG ỨNG DỤNG TRÊN THIẾT BỊ DI ĐỘNG 28 3.1 Thiết kế hệ thống 28 3.2 Thu nhận ảnh từ camera điện thoại 28 3.3 Phân lớp vùng ảnh có chứa kí tự 33 3.3.1 Giới thiệu thư viện mã nguồn mở OpenCV 33 3.3.2 Phân lớp vùng ảnh có chứa kí tự thư viện OpenCV 35 3.4 Nhận dạng vùng có kí tự 37 3.5 Phiên dịch văn 38 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 41 4.1 Môi trường phát triển ứng dụng 41 4.2 Cài đặt ứng dụng 41 4.3 Kết thực nghiệm 42 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 48 TÀI LIỆU THAM KHẢO 50 v DANH MỤC HÌNH VẼ Hình Các chức phần mềm ABBYY FineReader Hình 2-1 Sơ đồ bước thực mơ hình phát rút trích văn Hình 2-2 Ảnh gốc RGB Hình 2-3 Ảnh xám Hình 2-4 Ảnh sau thực phép reconstruction 11 Hình 2-5 Ảnh kết lấy ảnh xám trừ ảnh reconstruction 11 Hình 2-6 Ảnh nhị phân 12 Hình 2-7 Ảnh kết phép giãn nở 13 Hình 2-8 Các vùng văn ứng viên lựa chọn 13 Hình 2-9 Minh họa đường nét ảnh 14 Hình 2-10 Các bước tìm độ rộng nét [7] 14 Hình 2-11 Ảnh minh họa SWT cho ký tự L 15 Hình 2-12 Ảnh SWT 16 Hình 2-13 Ảnh ký tự ứng viên chọn lọc 17 Hình 2-14 Kết dịng văn phát 18 Hình 2-15 Các từ ứng viên xác định 19 Hình 2-16 Một đường thẳng tuyến tính phân chia lớp điểm 21 Hình 2-17 Độ rộng biên lớn tính tốn SVMs tuyến tính SVM biên cứng 23 Hình 2-18 Ảnh hưởng số biên mềm C ranh giới định 23 Hình 2-19 Một mặt phân chia phi tuyến trở thành siêu phẳng không gian lớn 24 Hình 2-20 Mẫu vùng ảnh chứa văn liệu ICDAR 2003 25 Hình 2-21 Mẫu vùng ảnh không chứa văn liệu ICDAR 2003 25 Hình 2-22 Kết phát văn hệ thống 26 Hình 2-23 Các vùng văn đưa vào phần mềm nhận dạng 27 vi Hình 3-1 Quá trình bước thực ứng dụng 28 Hình 3-2 Giao diện ứng dụng chương trình 31 Hình 3-3 Ảnh khung lưới tùy chỉnh cắt vùng ảnh cần nhận dạng 32 Hình 3-4 Sơ đồ trình phân lớp vùng ảnh có chứa kí tự 36 Hình 3-5 Ảnh chế độ dịch đoạn hội thoại Microsoft Translator Google Translate 39 Hình 3-6 Kết giao diện ứng dụng 40 vii DANH MỤC BẢNG Bảng 4-1 Kết nhận dạng văn phần mềm OCR thường sau cải thiện 42 Bảng 4-2 Bảng so sánh số kết nhận dạng 43 Bảng 4-3 Kết thử nghiệm chụp hình điều chỉnh để lựa chọn vùng có text, nhận dạng dịch 45 viii DANH MỤC TỪ VIẾT TẮT SVM Support Vector Machine OCR Optical Character Recognition SWT Stroke Width Transform HOG Histogram of Oriented Gradients 37 trainingLabels.push_back( Mat.ones( new Size( 1, ), CvType.CV_32FC1 ) ); } } Tiếp đến huấn luyện mẫu khơng có chứa văn thông qua phương thức sau: protected static void trainNegative() { for ( File file : new File( PATH_NEGATIVE ).listFiles() ) { Mat img = getMat( file.getAbsolutePath() ); trainingImages.push_back( img.reshape( 1, ) ); trainingLabels.push_back( Mat.zeros( new Size( 1, ), CvType.CV_32FC1 ) ); } } 3.4 Nhận dạng vùng có kí tự Lớp TextDetector sử dụng để nhận dang vùng có chứa kí tự Cụ thể lớp có số phương thức sau:  Phương thức FindText() có chức tìm chữ có chứa ảnh Trong đầu vào ma trận ảnh xámkết sau thực xong phương thức này, vùng nhận dạng có chữ đóng khung để đánh dấu liệu đầu vào phương thức FilterWords() 38 public void findText(Mat gray, ImageView imageview,EditText ed, String language){ …… }  Phương thức FilterWords() có chức lọc vùng có chứa từ, liệu phương thức truyền vào vùng ảnh đánh dấu phương thức FindText() Sau phương thức này, vùng có chứa từ nhận dạng bao khung viền để đánh dấu đưa vào nhận dạng OCR Tesseract private void FilterWords() { …… } 3.5 Phiên dịch văn Sau nhận kết trả chuỗi ký tự nhận dạng rút trích từ ảnh gốc qua camera, công việc tiến hành phiên dịch sang ngôn ngữ khác, cụ thể tiếng Việt Trong việc phiên dịch sau khảo sát, tìm hiểu luận văn tìm công cụ hỗ trợ cho chức là: Google Translate Microsoft Translator Cả hai dịch vụ máy chủ, truy cập thông qua API hỗ trợ việc tự động dịch văn từ ngôn ngữ sang ngơn ngữ khác Có thể sử dụng cơng cụ để lập trình dịch văn trang web ứng dụng Các thư viện API client hỗ trợ nhiều tảng ngôn ngữ khác như: tảng NET, ngôn ngữ Java, Objective C, Javascript, PHP, Python, Ruby… Ở luận văn lựa chọn Microsoft Translator dịch vụ hỗ trợ dịch cho ứng dụng Microsoft Translator có chế độ dịch đoạn hội thoại hình 3.5 Google Translate chưa hỗ trợ tính 39 Hình 3.5: Ảnh chế độ dịch đoạn hội thoại Microsoft Translator Google Translate Việc để sử dụng dịch vụ phải có tài khoản miễn phí Microsoft để đăng nhập vào Windows Azure Marketplace Việc đăng nhập với mục đích đăng ký dịch vụ Microsoft Translator API truy cập thông qua Windows Azure Marketplace Việc đăng ký dịch vụ Translator API việc chọn gói cước toán thực trang web https://datamarket.azure.com/dataset/bing/microsofttranslator Sau hoàn tất việc đăng ký dịch vụ, bước cần đăng ký ứng dụng Windows Azure Marketplace địa trang web https://datamarket.azure.com/ nhận Client ID với Client Secret để xác thực ứng dụng Bây cần tải thư viện microsoft-translator-java-api0.6-mod.jar json_simple-1.1.jar để bắt đầu xây dựng ứng dụng phiên dich thông qua lớp TessBaseAPI Do ứng dụng cần truy cập qua Internet để trao đổi liệu với máy chủ nên cần phải thiết lập thêm quyền sau vào tập tin AndroidManifest.xml: 40 Hình 3.6: Kết giao diện ứng dụng 41 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Sau nghiên cứu vấn đề liên quan xây dựng thành công ứng dụng, việc triển khai ứng dụng thiết bị thực đánh giá kết thực nghiệm 4.1 Môi trường phát triển ứng dụng Ứng dụng cài đặt điện thoại Android (tập tin cài đặt apk) tập tin liệu kèm với chương trình để chép vào thẻ nhớ Sau danh sách công cụ môi trường phát triển để thực đề tài: Môi trường cơng cụ lập trình  Android Studio 3.1.2  Bản dựng #AI-1734720617, built on April 14, 2018  JRE: 1.8.0_152-release-1024-b02 amd64  JVM: OpẹnDK 64-Bit Server VM by JetBrains s.r.o Các công cụ thư viện sử dụng:  Bộ cài đặt mã nguồn thư viện Tesseract phiên Android  Thư viện xử lý ảnh OpenCV phiên 4.1.2  Công cụ tesseract-android-tools Môi trường cài đặt thử nghiệm:  Điện thoại ASUS_X00TD chạy phiên Android 4.2 Cài đặt ứng dụng Ứng dụng hoạt động tốt loại điện thoại sử dụng tảng Android phiên 5.0 trở lên Sau cấu hình yêu cầu cài đặt:  Phiên Android 5.0 trở lên  Điện thoại có hỗ trợ camera  Bộ nhớ điện thoại cịn trống 21 MB cho cài đặt chương trình 42  Thẻ nhớ trống 37 MB để chứa liệu nhận dạng Tesseract Cài ứng dụng OpenCV Manager phiên 3.00 để sử dụng thu viện OpenCV tảng di động Android 4.3 Kết thực nghiệm Để đánh giá hiệu chương trình, luận văn tiến hành thực nghiệm 100 ảnh từ liệu IDCAR 2003 50 ảnh thực tế lấy từ camera đầu vào ứng dụng Mặc định ảnh chụp thử nghiệm sử dụng tính lấy nét tự động với camera 8Mpx Kết nhận dạng văn đánh giá với độ xác định nghĩa sau: Độ xác = Số từ nhận dạng Số từ nhận dạng Dưới (Bảng 4.1) luận văn đưa số liệu kết nhận dạng chương chình so với kết cho ảnh thẳng vào phần mềm nhận dạng Tesseract OCR mà không thông qua bước xử lý đề tài trình bày: Bảng 4.1: Kết nhận dạng văn phần mềm OCR thường sau cải thiện Tesseract OCR Xử lý + Tesseract OCR Số từ nhận dạng 1024 1150 Số từ nhận dạng 1672 1672 Tổng số từ thực có 1705 1705 61.23% 68,78% Độ xác 43 Kết nhận dạng số mẫu chương trình luận văn so với kết từ nhận dạng Microsoft OneNote ứng dụng Text Scanner (OCR) Pro bảng 4.2 Bảng 4.2 Bảng so sánh số kết nhận dạng Ảnh Kết nhận Kết nhận dạng dạng Microsoft Text Scanner OneNote (OCR) Pro Kết nhận dạng hệ thống Human Trattic Human Traftic Human Traffic RESTAURANT RESTAURANT RESTAURANT EXIT SERVICE EXIT SERVICE EXIT SERVICE VEHICLES VEHIQLES VEHIGLES Không nhận Không nhận Không nhận dạng dạng dạng PeacockS PeacockS Không nhận dạng 44 Không nhận Không nhận dạng dạng ons IAVA JAVA Aphic Aphic Không nhận dạng Mastering the Mastering the JFG JFG 3RD EDITION Kết nhận dạng cho thấy chương trình luận văn đưa hiệu với hình có đoạn text rõ ràng Tuy kết nhận dạng khơng hồn tồn xác kết cao so với chương trình nhận dạng khác Điều chứng tỏ việc luận văn đưa vùng ảnh văn nhị phân phát vào nhận dạng mang lại hiệu so với việc nhị phân ảnh để đem vào Kết thử nghiệm chụp hình điều chỉnh để lựa chọn vùng có text, nhận dạng dịch bảng 4.3 45 ST T Hình chụp Hình khoanh Kết nhận vùng Text dạng text Kết dịch 46 47 Kết nhận dạng từ hình ảnh cho thấy:  Kết nhận dạng có độ xác cao  Ứng dụng đơn giản, dễ dàng để sử dụng hoạt động cách ổn định  Nhận dạng tốt số ảnh bị chói sáng  Kết dịch, ứng dụng chạy cịn chậm độ xác chưa cao 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận: Luận văn trình bày hệ thống hố lý thuyết liên quan để từ xây dựng ứng dụng nhận dạng văn thiết bị di động phục vụ tra cứu thông tin, cụ thể phiên dịch ngôn ngữ từ tiếng Anh sang tiếng Việt Trong mơ hình phát rút trích văn ảnh, luận văn dùng phương pháp theo mơ hình phát hiện, định vị tinh lọc văn Phương pháp đề xuất dùng góp phần vượt qua số thách thức độ phân giải thấp, nhiễu loạn, trước màu sắc, font chữ, cỡ chữ, bố cục vị trí văn ảnh Trong đó, luận văn sử dụng phép reconstruction cho giai đoạn tiền xử lý để loại bỏ đối tượng xung quanh văn Luận văn sử dụng tốn tử hình thái học để phát sinh vùng văn ứng viên Các từ ứng viên hình thành dựa vào SWT Một phân lớp SVM sử dụng đặc trưng HOG huấn luyện để phân lớp từ ứng viên Đối với giai đoạn rút trích văn bản, luận văn đề xuất phương pháp lấy vùng văn nhị phân hóa để đem vào nhận dạng giúp làm tăng đáng kể hiệu giai đoạn nhận dạng văn mã mở cho OCR Đối với giai đoạn nhận dạng văn bản, luận văn sử dụng công cụ nhận dạng Tesseract OCR Google Kết thực nghiệm cho thấy phương pháp phát văn đề xuất có cải tiến so với phương pháp có nhiều triển vọng tương lai Bên cạnh việc phát triển ứng dụng dựa vào kết nhận dạng đem đến tiện lợi hữu ích người dùng Với ứng dụng tác giả luận văn hy vọng làm hài lòng nhu cầu đại đa số người dùng muốn biết thông tin từ biển dẫn, bảng tên đường hay biển quảng cáo bất kỳ…dưới dạng ngơn ngữ tiếng Anh từ hỗ trợ cho việc học tập, du lịch 49 Hướng phát triển: Chương trình nhận dạng có giao diện cịn chưa bắt mắt chậm chưa cho độ xác cao nên hướng phát triển tương lai tiếp tục nghiên cứu cần khác phục nhược điểm TÀI LIỆU THAM KHẢO  TÀI LIỆU TIẾNG VIỆT [1] [2] [3] [4] [5] Võ Hoàng Minh, “Nghiên cứu giải pháp xây dựng phần mềm thử nghiệm chuyển dòng văn tiếng việt hình ảnh sang văn dạng text”, báo cáo nghiên cứu khoa học, trường Đại học Lạc Hồng, 2012 Hồ Trần Nhật Thủy, “Xây dựng hệ thống truy vấn ảnh dựa vào văn ngoại cảnh”, luận văn thạc sĩ ngành khoa học máy tính, Trường Đại học Khoa học Tự nhiên-Đại học Quốc Gia Thành Phố Hồ Chí Minh, 2012 Lê Thanh Hà, “Giáo trình xử lý ảnh”, tủ sách khoa học MS: 163KHTN-2016, nhà xuất Đại học Quốc Gia Hà Nội, 2016 Ngô Văn Sỹ, “Nhận dạng ký tự quang học mạng Nơ ron”, báo đăng tạp chí khoa học cơng nghệ, đại học Đà Nẵng, số 4(27).2008 Nguyễn Thị Thảo, Nguyễn Thị Huyền, Đoàn Thị Thu Hà Trần Thị Thu Huyền, Nguyễn Thị Thủy, “Phương pháp phân lớp sử dụng máy vec-tơ hỗ trợ ứng dụng tin sinh học”, Tạp chí Khoa học Phát triển 2011: Tập 9, số 6: 1021 - 1031 Trường Đại học Nông Nghiệp Hà Nội, 2011  TÀI LIỆU TIẾNG ANH [6] [7] [8] Adam Coates, Blake Carpenter, Carl Case, Sanjeev Satheesh, Bipin Suresh, Tao Wang, David J Wu, Andrew Y Ng, “Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning”, Computer Science Department Stanford University 353 Serra Mall Stanford, CA 94305 USA, 2011 Ali Mosleh, Nizar Bouguila, A Ben Hamza, “Image Text Detection Using a Bandlet-Based Edge Detector and Stroke Width Transform”, Department of Electrical and Computer Engineering, Concordia Institute for Information Systems Engineering Concordia University Montreal, QC, Canada, 2012 B Epshtein, E Ofek, and Y Wexler, “Detecting text in natural scenes with stroke width transform”, IEEE Computer [9] [10] [11] Society Conference on Computer Vision and Pattern Recognition (CVPR), pp 2963-2970, 2010 L Vincent, “Morphological grayscale reconstruction in image analysis: applications and efficient algorithms”, IEEE Transactions on Image Processing, Vol 2, No 2, pp 176-201, April 1993 Navneet Dalal, Bill Triggs, “Histograms of Oriented Gradients for Human Detection”, International Conference on Computer Vision & Pattern Recognition (CVPR '05), pp.886 893, Jun 2005, San Diego, United States Patel A., Sukumar B., Bhagvati C (2018) SVM with Inverse Fringe as Feature for Improving Accuracy of Telugu OCR Systems In: Sa P., Sahoo M., Murugappan M., Wu Y., Majhi B (eds) Progress in Intelligent Computing Techniques: Theory, Practice, and Applications Advances in Intelligent Systems and Computing, vol 518 Springer, Singapore ... hướng phát triển Chương PHƯƠNG PHÁP TIẾP CẬN MƠ HÌNH PHÁT HIỆN VÀ RÚT TRÍCH VĂN BẢN TRONG ẢNH 2.1 Mơ hình giải tốn Sau nghiên cứu đề tài nước, luận văn thực mơ hình phát rút trích văn ảnh hình. .. Trong nước Hiện nước có số tổ chức, cá nhân xây dựng phát triển chương trình nhận dạng văn từ hình ảnh như:  Đề tài ? ?Xây dựng hệ thống truy vấn ảnh dựa vào văn ngoại cảnh” – luận văn thạc sĩ tác... lựa chọn thực đề tài: ? ?Xây dựng chương trình phát rút trích văn từ hình ảnh thiết bị di động” 1.2 Mục tiêu luận văn Nghiên cứu kỹ thuật chuyển đổi hình ảnh có nội dung văn bên thành tài liệu

Định dạng
Số trang	61
Dung lượng	3,06 MB