Kết luận chương 3

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và nhận dạng văn bản trong video (Trang 61 - 64)

Trong chương 3 của luận văn, học viên đã xây dựng và thiết kế chương trình có khả năng phát hiện và nhận dạng văn bản trong video từ những kiến thức đã nghiên cứu từ chương 2. Đồng thời ứng dụng chương trình trên tập dữ liệu thực và cho ra những đánh giá ban đầu về kết quả đạt được. Từ đó rút ra những định hướng phát triển trong tương lai của chương trình như: thử nghiệm với những tập dữ liệu đa dạng hơn, nghiên cứu các phương pháp, kĩ thuật nhằm nâng cao khả năng nhận dạng văn bản của chương trình.

KẾT LUẬN

Hiện nay lĩnh vực OCR, với mục đích chính là rút trích các ký tự trong ảnh và lưu thành dạng text, được ứng dụng một cách rộng rãi trong nhiều lĩnh đời sống. Nhiều hệ thống OCR được xây dựng và đưa ra dưới dạng sản phẩm thương mại hoặc miễn phí, thậm chí dưới dạng mã nguồn mở. Với mong muốn tìm hiểu lĩnh vực OCR và góp phần trong việc bổ sung vào kho ứng dụng OCR một sản phẩm mới, luận văn đã đi vào nghiên cứu “Phát hiện và nhận dạng văn bản trong Video” sử dụng công nghệ OCR mã nguồn mở tiên tiến Tesseract OCR.

Qua quá trình làm luận văn, ngoài việc tạo ra được một sản phẩm OCR thực tế, bản thân đã có cơ hội tìm tòi và hiểu biết nhiều hơn, rộng hơn về lĩnh vực OCR và lập trình ứng dụng, các thuật toán được sử dụng để nhị phân hóa ảnh, dò hướng và chỉnh độ nghiêng của ảnh, phân tích bố cục trang ảnh, phương pháp nhận dạng ký tự...; hiểu biết về công nghệ Tesseract OCR.

Trong khuôn khổ của luận văn, học viên trình bày một cách tổng quan về lĩnh vực OCR cũng như một số vấn đề liên quan. Do mục đích của luận văn là nghiên cứu xây dựng hệ thống nhận dạng và dịch sử dụng mã nguồn mở cũng như một số công nghệ tiên tiến hiện có nên không đi sâu vào lý thuyết từng phương pháp, từng thuật toán cụ thể được sử dụng trong các bước của một hệ thống OCR. Ưu điểm của hệ thống này là có thể nhận dạng khá chuẩn xác nhưng văn bản trong video có chất lượng hình ảnh cao. Tuy nhiên sẽ có khuyết điểm đáng kể với các video có chất lượng thấp hơn hoặc bộ chữ sử dụng là đặc biệt.

Trong thời gian tới, hệ thống cần phát triển hơn nữa theo hướng đưa dần việc OCR đối với một số ngôn ngữ đặc biệt khác. Nghiên cứu các kỹ thuật sửa lỗi hậu OCR phù hợp trên nhiều ngôn ngữ khác nhau, đồng thời tích hợp nhiều hơn các kỹ thuật nâng cao chất lượng ảnh vào hệ thống, kết hợp mã nguồn mở OCRopus với Tesseract để cho ra một công nghệ OCR mạnh mẽ hơn.

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Nguyễn Quang Hoan (2006), “Xử lý ảnh”, Giáo trình , Học viện Công nghệ Bưu chính Viễn thông, pp. 29

[2] Nguyễn Văn Huy (2009), Tìm hiểu phương pháp phân tích trang tài liệu, Luận văn Thạc sĩ, Đại học Thái Nguyên.

[3] Antoni Gasull (2002), “TEXT DETECTION IN IMAGES AND VIDEO SEQUENCES”, Image processing group, Department of Signal Theory and Communications 2-1, 08034, pp. 2.

[4] C. Misra, P.K Swain, J.K Mantri (2012), “Text Extraction and Recognition from Image using Neural Network”, International Journal of Computer Applications, 40(2), pp. 13-19.

[5] Chunmei Liu, Chunheng Wang, Ruwei Dai (2005), “Text Detection in Images Based on Unsupervised Classification of Edgebased Features”, Proceedings of the Eight International Conference on Document Analysis and Recognition (ICDAR’05), 2, pp. 610 – 614.

[6] J. Ohya, A. Shio, S. Akamatsu (1994), “Recognizing characters in scene images”, IEEE Transactions on Pattern Analysis and Machine Intelligence 16 (2), pp. 214–224.

[7] J. van Beusekom, F. Shafait, T. M. Breuel, “Combined orientation and skew detection using geometric text-line modeling”, Vol. 13, No. 2. (1 June 2010), pp. 79-92.

[8] K. M. Mohiuddlin, Jianchang Mao, “Optical Character Recognition”, 27 Dec 1999.

[9] Miriam León, Antoni Gasull (2002), “TEXT DETECTION IN IMAGES AND VIDEO SEQUENCES”, Image processing group, Department of Signal Theory and Communications, 1-3, 08034, pp. 1.

[10] P.JAYAPRIYA, V.GOPI, C.NARASIMHAN (2013), “Text Detection and Extraction in Video Sequences”, International Journal of Advanced Research

in Computer Engineering & Technology (IJARCET) Volume 2, Issue 12, December 2013, p 3132

[11] R. Lienhart, A. Wernike (2002), “Localizing and segmenting text in images and videos.”, IEEE Transactions on Circuits and Systems for video Technology, 12(4) ISSN: 1051-8215, 256-268, DOI:10.1109/76.999203 [12] R. Smith, “An overview of the Tesseract OCR Engine”, Proc 9 th Int. Conf.

on Document Analysis and Recognition, 2007, pp629-633.

[13] R. Smith, D. Antonova, D. Lee, “Adapting the Tesseract open source OCR engine for multilingual OCR”, in Proceedings of the International Workshop on Multilingual OCR, 2009.

[14] S. Ranjini, Dr. M. Sundaresan (2013), “Extraction and Recognition of Text from Digital English Comic Image Using Median Filter”, International Journal on Computer Science and Engineering (IJCSE), 5(4).

[15] Shilpa Arora, Dharamveer Sharma, Silky Arora (2014), “Recognition of Gurmukhi Text from Sign Board Images Captured from Mobile Camera”, International Journal of Information & Computation Technology, ISSN 0974-2239, 4, pp. 1839-1845.

[16] https://vi.wikipedia.org/wiki/Nhan_dang_ky_tu_quang_hoc truy cập ngày

18/9/2018

[17] https://www.bugcodemaster.com/article/extract-images-frame-frame-video- file-using-ffmpeg truy cập ngày 20/9/2018

[18] http://kdientu.duytan.edu.vn/media/50176/ly-thuyet-mang-neural.pdf truy cập

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và nhận dạng văn bản trong video (Trang 61 - 64)

Tải bản đầy đủ (PDF)

(64 trang)