1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) phát hiện và nhận dạng văn bản trong video

65 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) Chuyên ngành: Hệ thống thông tin Mã số: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ HỮU TIẾN HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi cam đoan đề tài: “Phát nhận dạng văn Video” cơng trình nghiên cứu riêng tơi hướng dẫn TS Vũ Hữu Tiến Các kết quả, phân tích, kết luận luận văn thạc sỹ (ngồi phần trích dẫn) kết làm việc tác giả, số liệu nêu luận văn trung thực chưa cơng bố cơng trình khác Nếu sai tơi xin hồn tồn chịu trách nhiệm Hà Nội, ngày 10 tháng 02 năm 2019 Tác giả Ngô Ngọc Hà ii LỜI CẢM ƠN Lời cho em xin gửi lời cảm ơn chân thành đến thầy, cô giáo thuộc Khoa CNTT, Khoa QT&ĐT sau đại học thuộc Học viện Cơng nghệ Bưu viễn thơng tận tình giảng dạy, truyền đạt nội dung kiến thức, kinh nghiệm quý báu suốt trình em theo học Học viện Với học quý giá, kèm cặp, bảo truyền thụ tâm huyết thầy, cô giúp cá nhân em hoàn thiện hệ thống kiến thức chuyên ngành, phục vụ tốt yêu cầu công tác đơn vị đồng thời nâng cao vốn tri thức thân Đặc biệt, em xin gửi lời cảm ơn trân thành tới thầy hướng dẫn khoa học TS Vũ Hữu Tiến tâm huyết, tận tình bảo, hướng dẫn, cung cấp tài liệu nội dung kiến thức quý báu, đồng thời có định hướng đắn giúp em hoàn thành luận văn Em xin bày tỏ cảm ơn sâu sắc tới gia đình, đồng nghiệp tạo điều kiện, dành ủng hộ thân em để có nhiều thời gian cho khóa học, đạt kết khả quan trình học tập Đồng thời xin chân thành cảm ơn tập thể lớp Cao học Hệ thống thông tin – Đợt năm 2016 đồng hành, khích lệ chia sẻ suốt trình học tập Trong trình thực luận văn, thân cố gắng, chủ động việc sưu tầm tài liệu, củng cố kiến thức… nhiên chắn luận văn cịn nhiều thiếu sót Em mong nhận dạy, đóng góp tận tình thầy, để luận văn em hồn thiện có tính ứng dụng cao thực tiễn Xin trân trọng cảm ơn! Hà Nội, ngày 10 tháng 02 năm 2019 Học viên Ngô Ngọc Hà iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU Chương - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO .4 1.1 Phát biểu toán 1.2 Các nghiên cứu trước phân tích liệu video 1.2.1 Tổng quan video .4 1.2.2 Những nghiên cứu liên quan 1.2.3 Phát nhận dạng văn thời điểm .8 1.3 Hướng nghiên cứu tác giả 1.4 Kết luận chương 10 Chương - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 11 2.1 Bài toán nhận dạng văn Video lĩnh vực dịch thuật giảng trực tuyến 11 2.2 Kỹ thuật phân đoạn video thành ảnh 13 2.3 Kỹ thuật nhận dạng trích xuất văn từ ảnh 15 2.3.1 Các giải thuật nhận dạng văn 15 2.3.2 Phát nhận dạng văn công nghệ OCR 20 iv Chương – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 44 3.1 Phân tích, thiết kế tốn nhận dạng nội dung video kỹ thuật nhận dạng ký tự quang học 44 3.2 Nghiên cứu xây dựng chương trình dựa phần mềm mã nguồn mở Tesseract – OCR 45 3.2.1 Công cụ môi trường xây dựng chương trình 45 3.2.2 Giao diện chương trình 46 3.3 Thử nghiệm chương trình tập liệu thực 48 3.4 Kết luận chương 51 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO 53 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CC Connected component Thành phần liên thông OCR optical character recognition Nhận dạng ký tự quang học SVM supper vector machines Máy véc tơ hỗ trợ K keyframes Khung hình ANN Artificial Neural Network Mạng nơ ron nhân tạo LSTM Long Short Term Memory networks Mạng thần kinh tái phát vi DANH MỤC CÁC BẢNG Bảng 1: Minh họa ký tự dạng ảnh 16 Bảng 2: Nhị phân hóa mẫu ký tự mẫu 16 Bảng 3: Đối sánh nhận dạng ký tự số 17 Bảng 4: Các phần mềm OCR tiêu biểu 23 Bảng 1: Cấu hình mơi trường xây dựng chương trình………………………… 45 Bảng 2: Cơng cụ sử dụng xây dựng chương trình 45 Bảng 3: Danh sách đặc điểm tập liệu thực 49 Bảng 4: Kết nhận dạng chương trình tập liệu thực 51 vii DANH MỤC CÁC HÌNH Hình 1: Kiến trúc chương trình phát nhận dạng văn video 10 Hình 1: Phân đoạn video thành ảnh theo keyframes……………………………14 Hình 2: Nút neural nhân tạo 18 Hình 3: Mạng truyền thẳng nhiều tầng 19 Hình 4: Các đường văn 25 Hình 5: Minh họa thành phần liên thông 26 Hình 6: Quy trình hoạt động hệ thống OCR 26 Hình 7: Độ nghiêng hướng văn 29 Hình 8: Văn bị nhiễu ảnh 29 Hình 9: Bố cục văn tài liệu 31 Hình 10: Quy trình hoạt động Tesseract 36 Hình 11: Ảnh ảnh đa cấp xám 38 Hình 12: Xác định vùng văn Tesseract 38 Hình 13: Xác định đường văn Tesseract .38 Hình 14: Phân tách từ thành ký tự Tesseract 39 Hình 15: Xác định khoảng cách từ Tesseract 39 Hình 16: Quy trình phân tích từ thành ký tự Tesseract 41 Hình 17: Xác định đặc trưng ký tự Tesseract 42 Hình 1: Phân cấp chức chương trình ……………………… 44 Hình 2: Chức tách xử lý ảnh thành ảnh đa cấp xám 46 Hình 3: Chức sử dụng Tesseract OCR để nhận dạng văn 47 Hình 4: Chức lọc trùng văn 48 Hình 5: Khung hình minh họa tập liệu kiểm thử 48 Hình 6: Các lỗi nhận dạng văn sai chương trình 50

Ngày đăng: 05/10/2023, 14:06

HÌNH ẢNH LIÊN QUAN

Hình 1. 1: Kiến trúc chương trình phát hiện và nhận dạng văn bản trong video - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 1. 1: Kiến trúc chương trình phát hiện và nhận dạng văn bản trong video (Trang 20)
Hình 2. 1 : Phân đoạn video thành ảnh theo keyframes [17] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 1 : Phân đoạn video thành ảnh theo keyframes [17] (Trang 24)
Bảng 2. 1: Minh họa ký tự dưới dạng ảnh - (Luận văn) phát hiện và nhận dạng văn bản trong video
Bảng 2. 1: Minh họa ký tự dưới dạng ảnh (Trang 26)
Bảng 2. 3: Đối sánh nhận dạng ký tự số - (Luận văn) phát hiện và nhận dạng văn bản trong video
Bảng 2. 3: Đối sánh nhận dạng ký tự số (Trang 27)
Hình 2. 2: Nút neural nhân tạo [18] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 2: Nút neural nhân tạo [18] (Trang 29)
Hình 2. 3: Mạng truyền thẳng nhiều tầng [18] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 3: Mạng truyền thẳng nhiều tầng [18] (Trang 30)
Bảng 2. 4: Các phần mềm OCR tiêu biểu - (Luận văn) phát hiện và nhận dạng văn bản trong video
Bảng 2. 4: Các phần mềm OCR tiêu biểu (Trang 34)
Hình 2. 4: Các đường cơ bản trong văn bản [13] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 4: Các đường cơ bản trong văn bản [13] (Trang 36)
Hình 2. 5: Minh họa thành phần liên thông [13] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 5: Minh họa thành phần liên thông [13] (Trang 37)
Hình 2. 8: Văn bản bị nhiễu trong ảnh [12] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 8: Văn bản bị nhiễu trong ảnh [12] (Trang 40)
Hình 2. 7: Độ nghiêng và hướng của văn bản [12] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 7: Độ nghiêng và hướng của văn bản [12] (Trang 40)
Hình 2. 9: Bố cục của văn bản trong tài liệu [12] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 9: Bố cục của văn bản trong tài liệu [12] (Trang 42)
Hình 2. 10: Quy trình hoạt động của Tesseract [12] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 10: Quy trình hoạt động của Tesseract [12] (Trang 47)
Hình 2. 11: Ảnh và ảnh đa cấp xám - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 11: Ảnh và ảnh đa cấp xám (Trang 49)
Hình 2. 12: Xác định vùng văn bản trong Tesseract [12] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 12: Xác định vùng văn bản trong Tesseract [12] (Trang 49)
Sơ đồ nhận dạng một từ là quy trình phân tích một từ được chia ra thành các ký tự: - (Luận văn) phát hiện và nhận dạng văn bản trong video
Sơ đồ nh ận dạng một từ là quy trình phân tích một từ được chia ra thành các ký tự: (Trang 52)
Hình 2. 17: Xác định đặc trưng của ký tự trong Tesseract [13] - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 2. 17: Xác định đặc trưng của ký tự trong Tesseract [13] (Trang 53)
Hình 3. 1: Phân cấp chức năng của chương trình - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 3. 1: Phân cấp chức năng của chương trình (Trang 55)
Bảng 3. 1: Cấu hình môi trường xây dựng chương trình STT Thành phần Thông số kỹ thuật - (Luận văn) phát hiện và nhận dạng văn bản trong video
Bảng 3. 1: Cấu hình môi trường xây dựng chương trình STT Thành phần Thông số kỹ thuật (Trang 56)
Hình 3. 3: Chức năng sử dụng Tesseract OCR để nhận dạng văn bản - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 3. 3: Chức năng sử dụng Tesseract OCR để nhận dạng văn bản (Trang 58)
Hình 3. 4: Chức năng lọc trùng văn bản - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 3. 4: Chức năng lọc trùng văn bản (Trang 59)
Hình 3. 5: Khung hình minh họa tập dữ liệu kiểm thử - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 3. 5: Khung hình minh họa tập dữ liệu kiểm thử (Trang 59)
Bảng 3. 3: Danh sách và đặc điểm tập dữ liệu thực - (Luận văn) phát hiện và nhận dạng văn bản trong video
Bảng 3. 3: Danh sách và đặc điểm tập dữ liệu thực (Trang 60)
Hình 3. 6: Các lỗi nhận dạng văn bản sai của chương trình - (Luận văn) phát hiện và nhận dạng văn bản trong video
Hình 3. 6: Các lỗi nhận dạng văn bản sai của chương trình (Trang 61)
Bảng 3. 4: Kết quả nhận dạng của chương trình trên tập dữ liệu thực - (Luận văn) phát hiện và nhận dạng văn bản trong video
Bảng 3. 4: Kết quả nhận dạng của chương trình trên tập dữ liệu thực (Trang 62)
w