(Luận văn) phát hiện và nhận dạng văn bản trong video

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Phát hiện và nhận dạng văn bản trong video
Tác giả	Ngô Ngọc Hà
Người hướng dẫn	TS. Vũ Hữu Tiến
Trường học	Học viện Công nghệ Bưu chính viễn thông
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	65
Dung lượng	1,13 MB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) Chuyên ngành: Hệ thống thông tin Mã số: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ HỮU TIẾN HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi cam đoan đề tài: “Phát nhận dạng văn Video” cơng trình nghiên cứu riêng tơi hướng dẫn TS Vũ Hữu Tiến Các kết quả, phân tích, kết luận luận văn thạc sỹ (ngồi phần trích dẫn) kết làm việc tác giả, số liệu nêu luận văn trung thực chưa cơng bố cơng trình khác Nếu sai tơi xin hồn tồn chịu trách nhiệm Hà Nội, ngày 10 tháng 02 năm 2019 Tác giả Ngô Ngọc Hà ii LỜI CẢM ƠN Lời cho em xin gửi lời cảm ơn chân thành đến thầy, cô giáo thuộc Khoa CNTT, Khoa QT&ĐT sau đại học thuộc Học viện Cơng nghệ Bưu viễn thơng tận tình giảng dạy, truyền đạt nội dung kiến thức, kinh nghiệm quý báu suốt trình em theo học Học viện Với học quý giá, kèm cặp, bảo truyền thụ tâm huyết thầy, cô giúp cá nhân em hoàn thiện hệ thống kiến thức chuyên ngành, phục vụ tốt yêu cầu công tác đơn vị đồng thời nâng cao vốn tri thức thân Đặc biệt, em xin gửi lời cảm ơn trân thành tới thầy hướng dẫn khoa học TS Vũ Hữu Tiến tâm huyết, tận tình bảo, hướng dẫn, cung cấp tài liệu nội dung kiến thức quý báu, đồng thời có định hướng đắn giúp em hoàn thành luận văn Em xin bày tỏ cảm ơn sâu sắc tới gia đình, đồng nghiệp tạo điều kiện, dành ủng hộ thân em để có nhiều thời gian cho khóa học, đạt kết khả quan trình học tập Đồng thời xin chân thành cảm ơn tập thể lớp Cao học Hệ thống thông tin – Đợt năm 2016 đồng hành, khích lệ chia sẻ suốt trình học tập Trong trình thực luận văn, thân cố gắng, chủ động việc sưu tầm tài liệu, củng cố kiến thức… nhiên chắn luận văn cịn nhiều thiếu sót Em mong nhận dạy, đóng góp tận tình thầy, để luận văn em hồn thiện có tính ứng dụng cao thực tiễn Xin trân trọng cảm ơn! Hà Nội, ngày 10 tháng 02 năm 2019 Học viên Ngô Ngọc Hà iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU Chương - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO .4 1.1 Phát biểu toán 1.2 Các nghiên cứu trước phân tích liệu video 1.2.1 Tổng quan video .4 1.2.2 Những nghiên cứu liên quan 1.2.3 Phát nhận dạng văn thời điểm .8 1.3 Hướng nghiên cứu tác giả 1.4 Kết luận chương 10 Chương - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 11 2.1 Bài toán nhận dạng văn Video lĩnh vực dịch thuật giảng trực tuyến 11 2.2 Kỹ thuật phân đoạn video thành ảnh 13 2.3 Kỹ thuật nhận dạng trích xuất văn từ ảnh 15 2.3.1 Các giải thuật nhận dạng văn 15 2.3.2 Phát nhận dạng văn công nghệ OCR 20 iv Chương – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 44 3.1 Phân tích, thiết kế tốn nhận dạng nội dung video kỹ thuật nhận dạng ký tự quang học 44 3.2 Nghiên cứu xây dựng chương trình dựa phần mềm mã nguồn mở Tesseract – OCR 45 3.2.1 Công cụ môi trường xây dựng chương trình 45 3.2.2 Giao diện chương trình 46 3.3 Thử nghiệm chương trình tập liệu thực 48 3.4 Kết luận chương 51 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO 53 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CC Connected component Thành phần liên thông OCR optical character recognition Nhận dạng ký tự quang học SVM supper vector machines Máy véc tơ hỗ trợ K keyframes Khung hình ANN Artificial Neural Network Mạng nơ ron nhân tạo LSTM Long Short Term Memory networks Mạng thần kinh tái phát vi DANH MỤC CÁC BẢNG Bảng 1: Minh họa ký tự dạng ảnh 16 Bảng 2: Nhị phân hóa mẫu ký tự mẫu 16 Bảng 3: Đối sánh nhận dạng ký tự số 17 Bảng 4: Các phần mềm OCR tiêu biểu 23 Bảng 1: Cấu hình mơi trường xây dựng chương trình………………………… 45 Bảng 2: Cơng cụ sử dụng xây dựng chương trình 45 Bảng 3: Danh sách đặc điểm tập liệu thực 49 Bảng 4: Kết nhận dạng chương trình tập liệu thực 51 vii DANH MỤC CÁC HÌNH Hình 1: Kiến trúc chương trình phát nhận dạng văn video 10 Hình 1: Phân đoạn video thành ảnh theo keyframes……………………………14 Hình 2: Nút neural nhân tạo 18 Hình 3: Mạng truyền thẳng nhiều tầng 19 Hình 4: Các đường văn 25 Hình 5: Minh họa thành phần liên thông 26 Hình 6: Quy trình hoạt động hệ thống OCR 26 Hình 7: Độ nghiêng hướng văn 29 Hình 8: Văn bị nhiễu ảnh 29 Hình 9: Bố cục văn tài liệu 31 Hình 10: Quy trình hoạt động Tesseract 36 Hình 11: Ảnh ảnh đa cấp xám 38 Hình 12: Xác định vùng văn Tesseract 38 Hình 13: Xác định đường văn Tesseract .38 Hình 14: Phân tách từ thành ký tự Tesseract 39 Hình 15: Xác định khoảng cách từ Tesseract 39 Hình 16: Quy trình phân tích từ thành ký tự Tesseract 41 Hình 17: Xác định đặc trưng ký tự Tesseract 42 Hình 1: Phân cấp chức chương trình ……………………… 44 Hình 2: Chức tách xử lý ảnh thành ảnh đa cấp xám 46 Hình 3: Chức sử dụng Tesseract OCR để nhận dạng văn 47 Hình 4: Chức lọc trùng văn 48 Hình 5: Khung hình minh họa tập liệu kiểm thử 48 Hình 6: Các lỗi nhận dạng văn sai chương trình 50

Ngày đăng: 05/10/2023, 14:06

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Nguyễn Quang Hoan (2006), “Xử lý ảnh”, Giáo trình , Học viện Công nghệ Bưu chính Viễn thông, pp. 29

Sách, tạp chí

Tiêu đề:	Xử lý ảnh
Tác giả:	Nguyễn Quang Hoan
Năm:	2006

[3] Antoni Gasull (2002), “TEXT DETECTION IN IMAGES AND VIDEO SEQUENCES”, Image processing group, Department of Signal Theory and Communications 2-1, 08034, pp. 2

Sách, tạp chí

Tiêu đề:	TEXT DETECTION IN IMAGES AND VIDEOSEQUENCES
Tác giả:	Antoni Gasull
Năm:	2002

[4] C. Misra, P.K Swain, J.K Mantri (2012), “Text Extraction and Recognition from Image using Neural Network”, International Journal of ComputerApplications, 40(2), pp. 13-19

Sách, tạp chí

Tiêu đề:	Text Extraction and Recognitionfrom Image using Neural Network
Tác giả:	C. Misra, P.K Swain, J.K Mantri
Năm:	2012

[5] Chunmei Liu, Chunheng Wang, Ruwei Dai (2005), “Text Detection in Images Based on Unsupervised Classification of Edgebased Features”,Proceedings of the Eight International Conference on Document Analysis and Recognition (ICDAR’05), 2, pp. 610 – 614

Sách, tạp chí

Tiêu đề:	Text Detection inImages Based on Unsupervised Classification of Edgebased Features
Tác giả:	Chunmei Liu, Chunheng Wang, Ruwei Dai
Năm:	2005

[6] J. Ohya, A. Shio, S. Akamatsu (1994), “Recognizing characters in scene images”, IEEE Transactions on Pattern Analysis and Machine Intelligence 16(2), pp. 214–224

Sách, tạp chí

Tiêu đề:	Recognizing characters in sceneimages
Tác giả:	J. Ohya, A. Shio, S. Akamatsu
Năm:	1994

[7] J. van Beusekom, F. Shafait, T. M. Breuel, “Combined orientation and skew detection using geometric text-line modeling”, Vol. 13, No. 2. (1 June 2010), pp. 79-92

Sách, tạp chí

Tiêu đề:	Combined orientation and skewdetection using geometric text-line modeling

[8] K. M. Mohiuddlin, Jianchang Mao, “Optical Character Recognition”, 27 Dec 1999

Sách, tạp chí

Tiêu đề:	Optical Character Recognition

[9] Miriam León, Antoni Gasull (2002), “TEXT DETECTION IN IMAGES AND VIDEO SEQUENCES”, Image processing group, Department of Signal Theory and Communications, 1-3, 08034, pp. 1

Sách, tạp chí

Tiêu đề:	TEXT DETECTION IN IMAGESAND VIDEO SEQUENCES
Tác giả:	Miriam León, Antoni Gasull
Năm:	2002

[10] P.JAYAPRIYA, V.GOPI, C.NARASIMHAN (2013), “Text Detection and Extraction in Video Sequences”, International Journal of Advanced Research

Sách, tạp chí

Tiêu đề:	Text Detection andExtraction in Video Sequences
Tác giả:	P.JAYAPRIYA, V.GOPI, C.NARASIMHAN
Năm:	2013

[11] R. Lienhart, A. Wernike (2002), “Localizing and segmenting text in images and videos.”, IEEE Transactions on Circuits and Systems for video Technology, 12(4) ISSN: 1051-8215, 256-268, DOI:10.1109/76.999203

Sách, tạp chí

Tiêu đề:	Localizing and segmenting text in imagesand videos
Tác giả:	R. Lienhart, A. Wernike
Năm:	2002

[12] R. Smith, “An overview of the Tesseract OCR Engine”, Proc 9 th Int. Conf. on Document Analysis and Recognition, 2007, pp629-633

Sách, tạp chí

Tiêu đề:	An overview of the Tesseract OCR Engine

[13] R. Smith, D. Antonova, D. Lee, “Adapting the Tesseract open source OCR engine for multilingual OCR”, in Proceedings of the International Workshop on Multilingual OCR, 2009

Sách, tạp chí

Tiêu đề:	Adapting the Tesseract open source OCRengine for multilingual OCR

[14] S. Ranjini, Dr. M. Sundaresan (2013), “Extraction and Recognition of Text from Digital English Comic Image Using Median Filter”, InternationalJournal on Computer Science and Engineering (IJCSE), 5(4)

Sách, tạp chí

Tiêu đề:	Extraction and Recognition of Textfrom Digital English Comic Image Using Median Filter
Tác giả:	S. Ranjini, Dr. M. Sundaresan
Năm:	2013

[15] Shilpa Arora, Dharamveer Sharma, Silky Arora (2014), “Recognition of Gurmukhi Text from Sign Board Images Captured from Mobile Camera”, International Journal of Information & Computation Technology, ISSN 0974-2239, 4, pp. 1839-1845

Sách, tạp chí

Tiêu đề:	Recognition ofGurmukhi Text from Sign Board Images Captured from Mobile Camera
Tác giả:	Shilpa Arora, Dharamveer Sharma, Silky Arora
Năm:	2014

[2] Nguyễn Văn Huy (2009), Tìm hiểu phương pháp phân tích trang tài liệu, Luận văn Thạc sĩ, Đại học Thái Nguyên

Khác