Phát hiện và nhận dạng văn bản trong video

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2019 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) Chuyên ngành: Hệ thống thông tin Mã số: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ HỮU TIẾN HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi cam đoan đề tài: “Phát nhận dạng văn Video” cơng trình nghiên cứu riêng tơi hướng dẫn TS Vũ Hữu Tiến Các kết quả, phân tích, kết luận luận văn thạc sỹ (ngồi phần trích dẫn) kết làm việc tác giả, số liệu nêu luận văn trung thực chưa cơng bố cơng trình khác Nếu sai tơi xin hồn tồn chịu trách nhiệm Hà Nội, ngày 10 tháng 02 năm 2019 Tác giả Ngô Ngọc Hà ii LỜI CẢM ƠN Lời cho em xin gửi lời cảm ơn chân thành đến thầy, cô giáo thuộc Khoa CNTT, Khoa QT&ĐT sau đại học thuộc Học viện Cơng nghệ Bưu viễn thơng tận tình giảng dạy, truyền đạt nội dung kiến thức, kinh nghiệm quý báu suốt trình em theo học Học viện Với học quý giá, kèm cặp, bảo truyền thụ tâm huyết thầy, cô giúp cá nhân em hoàn thiện hệ thống kiến thức chuyên ngành, phục vụ tốt yêu cầu công tác đơn vị đồng thời nâng cao vốn tri thức thân Đặc biệt, em xin gửi lời cảm ơn trân thành tới thầy hướng dẫn khoa học TS Vũ Hữu Tiến tâm huyết, tận tình bảo, hướng dẫn, cung cấp tài liệu nội dung kiến thức quý báu, đồng thời có định hướng đắn giúp em hoàn thành luận văn Em xin bày tỏ cảm ơn sâu sắc tới gia đình, đồng nghiệp tạo điều kiện, dành ủng hộ thân em để có nhiều thời gian cho khóa học, đạt kết khả quan trình học tập Đồng thời xin chân thành cảm ơn tập thể lớp Cao học Hệ thống thông tin – Đợt năm 2016 đồng hành, khích lệ chia sẻ suốt trình học tập Trong trình thực luận văn, thân cố gắng, chủ động việc sưu tầm tài liệu, củng cố kiến thức… nhiên chắn luận văn nhiều thiếu sót Em mong nhận dạy, đóng góp tận tình thầy, để luận văn em hồn thiện có tính ứng dụng cao thực tiễn Xin trân trọng cảm ơn! Hà Nội, ngày 10 tháng 02 năm 2019 Học viên Ngô Ngọc Hà iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii MỞ ĐẦU Chương - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO 1.1 Phát biểu toán 1.2 Các nghiên cứu trước phân tích liệu video 1.2.1 Tổng quan video 1.2.2 Những nghiên cứu liên quan 1.2.3 Phát nhận dạng văn thời điểm 1.3 Hướng nghiên cứu tác giả .9 1.4 Kết luận chương .10 Chương - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO .11 2.1 Bài toán nhận dạng văn Video lĩnh vực dịch thuật giảng trực tuyến 11 2.2 Kỹ thuật phân đoạn video thành ảnh 13 2.3 Kỹ thuật nhận dạng trích xuất văn từ ảnh 15 2.3.1 Các giải thuật nhận dạng văn 15 2.3.2 Phát nhận dạng văn công nghệ OCR 20 iv Chương – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO .44 3.1 Phân tích, thiết kế toán nhận dạng nội dung video kỹ thuật nhận dạng ký tự quang học .44 3.2 Nghiên cứu xây dựng chương trình dựa phần mềm mã nguồn mở Tesseract – OCR 45 3.2.1 Công cụ mơi trường xây dựng chương trình 45 3.2.2 Giao diện chương trình 46 3.3 Thử nghiệm chương trình tập liệu thực 48 3.4 Kết luận chương .51 KẾT LUẬN 52 DANH MỤC TÀI LIỆU THAM KHẢO .53 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CC Connected component Thành phần liên thông OCR optical character recognition Nhận dạng ký tự quang học SVM supper vector machines Máy véc tơ hỗ trợ K keyframes Khung hình ANN Artificial Neural Network Mạng nơ ron nhân tạo LSTM Long Short Term Memory networks Mạng thần kinh tái phát vi DANH MỤC CÁC BẢNG Bảng 1: Minh họa ký tự dạng ảnh 16 Bảng 2: Nhị phân hóa mẫu ký tự mẫu 16 Bảng 3: Đối sánh nhận dạng ký tự số 17 Bảng 4: Các phần mềm OCR tiêu biểu 23 Bảng 1: Cấu hình mơi trường xây dựng chương trình………………………… 45 Bảng 2: Cơng cụ sử dụng xây dựng chương trình 45 Bảng 3: Danh sách đặc điểm tập liệu thực 49 Bảng 4: Kết nhận dạng chương trình tập liệu thực .51 vii DANH MỤC CÁC HÌNH Hình 1: Kiến trúc chương trình phát nhận dạng văn video 10 Hình 1: Phân đoạn video thành ảnh theo keyframes……………………………14 Hình 2: Nút neural nhân tạo 18 Hình 3: Mạng truyền thẳng nhiều tầng 19 Hình 4: Các đường văn .25 Hình 5: Minh họa thành phần liên thông 26 Hình 6: Quy trình hoạt động hệ thống OCR 26 Hình 7: Độ nghiêng hướng văn 29 Hình 8: Văn bị nhiễu ảnh 29 Hình 9: Bố cục văn tài liệu .31 Hình 10: Quy trình hoạt động Tesseract .36 Hình 11: Ảnh ảnh đa cấp xám 38 Hình 12: Xác định vùng văn Tesseract 38 Hình 13: Xác định đường văn Tesseract 38 Hình 14: Phân tách từ thành ký tự Tesseract .39 Hình 15: Xác định khoảng cách từ Tesseract 39 Hình 16: Quy trình phân tích từ thành ký tự Tesseract .41 Hình 17: Xác định đặc trưng ký tự Tesseract .42 Hình 1: Phân cấp chức chương trình ……………………… 44 Hình 2: Chức tách xử lý ảnh thành ảnh đa cấp xám 46 Hình 3: Chức sử dụng Tesseract OCR để nhận dạng văn 47 Hình 4: Chức lọc trùng văn 48 Hình 5: Khung hình minh họa tập liệu kiểm thử 48 Hình 6: Các lỗi nhận dạng văn sai chương trình 50 40 băm (LSH) Bước cuối tính tốn khoảng cách mờ từ ngun mẫu ký tự danh sách ngắn Ban đầu thiết kế nhằm tiết kiệm thời gian, lớp cắt tỉa phân vùng khơng gian thuộc tính chiều cao, cách xem xét thuộc tính 3-D riêng lẻ Thay cho bảng băm LSH, ta dùng bảng tra cứu đơn giản, trả vectơ số nguyên phạm vi [0, 3], tương ứng lớp ký tự, với giá trị gần phù hợp với thuộc tính với ngun mẫu ký tự Các kết vector tổng hợp lấy lớp có tổng số điểm phần nhỏ trả dạng danh sách rút gọn phân loại theo giai đoạn thứ hai Lớp cắt tỉa tương đối nhanh, thời gian tỉ lệ tuyến tính với số lượng lớp với số lượng thuộc tính Giai đoạn thứ hai tính toán khoảng cách df đối tượng từ nguyên mẫu gần nhất, khoảng cách Euclide bình phương d tọa độ (x, y) từ dòng nguyên mẫu không gian 2-D, cộng với chênh lệch trọng số (w) góc 𝜃 từ nguyên mẫu: 𝑑𝑓 = 𝑑2 + 𝑤𝜃 Khoảng cách thuộc tính chuyển đổi thành 𝐸𝑓 sử dụng phương trình sau: 𝐸𝑓 = 1 + 𝑘𝑑𝑓2 Hằng số k sử dụng để kiểm sốt tốc độ mà chứng phân rã với khoảng cách Khi thuộc tính khớp với mẫu thử, 𝐸𝑓 chép vào mẫu thử 𝐸𝑝 Vì mẫu thử mong đợi nhiều tính so khớp với chúng, tập hợp “phù hợp nhất” thực độc lập với tốc độ, tổng thuộc tính chứng mẫu thử khác Với 𝐿𝑝 tổng độ dài mẫu thử kết chuyển đổi trở lại thành khoảng cách: 𝑑𝑓𝑖𝑛𝑎𝑙 ∑𝑓 𝐸𝑓 + ∑𝑝 𝐸𝑝 =1− 𝑁𝑓 + ∑𝑝 𝐿𝑝 41 Bước vào trình nhận diện, input đánh giá, phân tích hai lần Ở lần đầu tiên, OCR nhận diện ký tự với kết phân tích bước trước Các kết nhận diện thoả mãn yêu cầu đưa vào tập tin huấn luyện để hỗ trợ cho trình nhận diện lần thứ hai với kết chưa đạt yêu cầu Đương nhiên, việc xác nhận kết có thoả mãn yêu cầu hay khơng cần phải dựa nhiều tiêu chí nhận diện nội dung phải trải qua trình lặp lặp lại gồm bước nhận diện ký tự, ghép ký tự so khớp với từ điển Các tiêu chí bao gồm khoảng cách ký tự, độ phù hợp với từ điển khoảng cách đến dấu câu Nhận dạng khoảng cách chữ số toán rắc rối Trong văn có nhiều phơng chữ khác dẫn tới khoảng cách từ số khác Tesseract khắc phục khó khăn cách đo khoảng cách chọn gần ngưỡng giá trị mờ với sai số Mỗi ký tự cần nhận dạng có đặc trưng riêng, có khoảng 50 tới 100 đặc trưng điển hình ký tự Mỗi đặc trưng chứa tham số hoành độ, tung độ, góc xoay Trong ký tự mẫu có từ 10 tới 20 đặc trưng, đặc trưng có tham số hồnh độ, tung độ, góc xoay, độ dài Sơ đồ nhận dạng từ quy trình phân tích từ chia thành ký tự: Hình 16: Quy trình phân tích từ thành ký tự Tesseract [12] Văn tồn độ dư thừa ký tự từ vựng, chức phân loại ký tự tạo danh sách rút gọn chứa ký tự mà ký tự đối sánh trùng khớp 42 Các lớp ký tự mẫu sinh lớp véc tơ bít tương ứng với đặc trưng ký tự Hình 17: Xác định đặc trưng ký tự Tesseract [13] Những đặc trưng ký tự nhận dạng (Features of character) đối sánh với lớp véc tơ bít ký tự mẫu, tính tốn khác đặc trưng chúng Bên cạnh có tham số thứ hai độ dài ký tự nhận dạng Hệ số đánh giá đối sánh tích hai tham số trên, cặp đối sánh có hệ số nhỏ xem chúng tương tự Chức phân loại tĩnh (static classifier) phù hợp với ký tự có phơng chữ bất kỳ, chủ yếu dùng để nhận dạng ký tự riêng ký tự giải, dấu ngăn cách hay kết thúc câu chức phân loại thích ứng (Adaptive classifier) dùng để nhận dạng ký tự theo phông chữ chuẩn Bộ từ điển dùng để lưu trữ liệu cho trình phân loại nhận dạng Mỗi ngơn ngữ có từ điển chứa ký tự theo phơng chữ khác với thuộc tính chuẩn – normal , đậm – bold, nghiêng – italic thuộc tính kết hợp Từ điển lưu trữ từ hay sử dụng, từ chữ cái, từ số, từ chữ hoa, từ chữ thường So sánh, đánh giá công nghệ Tesseract OCR với công nghệ khác Ưu điểm lớn mà cơng nghệ Tesseract có tính mở việc nghiên cứu Ngồi Tesseract ý đến việc huấn luyện học máy để nhận biết kiểu chữ khác nhau, từ xây dựng thư viện riêng cho loại văn khác Vì so với công nghệ khác, Tesseract phù hợp với việc phát nhận dạng loại văn đặc biệt khơng thống Việc làm cho thấy tính chất phù hợp cơng nghệ việc phát nhận dạng văn video 43 2.4 Kết luận chương Trong chương luận văn, học viên trình bày cách khái quát công nghệ kỹ thuật sử dụng việc phát nhận dạng văn video Đồng thời học viên trình bày hiểu biết cơng nghệ Tesseract OCR, kiến trúc hoạt động sử dụng Tesseract Học viên đưa so sánh công nghệ Tesseract với cơng nghệ nhận dạng văn khác để từ cho thấy tính phù hợp Tesseract việc xây dựng thiết kế chương trình phát nhận dạng văn video chương 44 Chương – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO Trong chương 1, luận văn trình bày cần thiết việc phát nhận dạng văn Video Trên sở đó, chương luận văn trình bày xây dựng chương trình phát nhận dạng văn video với công nghệ OCR sử dụng thư viện Tesseract Cuối cùng, luận văn trình bày kết thử nghiệm mơ hình tập liệu có sẵn, từ đánh giá mơ hình xây dựng triển vọng triển khai mơ hình thực tế 3.1 Phân tích, thiết kế tốn nhận dạng nội dung video kỹ thuật nhận dạng ký tự quang học Dựa vào nghiên cứu chương 2, học viên tiến hành phân tích, thiết kế chương trình phát nhận dạng văn video với chức đề tài phát nhận dạng văn có video đầu vào Vì chương trình có chức gồm: phân đoạn video thành ảnh dựa khung hình chính, xử lý ảnh thu từ trình phân đoạn thành ảnh đa cấp xám, nhận dạng văn công nghệ OCR thư viện Tesseract, lọc trùng văn thu lưu văn thành tệp tin văn Hình 1: Phân cấp chức chương trình Quy trình hoạt động chương trình mơ tả sau:  Bước 1: Video thu thập, download quay dựng lưu trữ sẵn máy tính 45  Bước 2: Phần mềm tiếp nhận video theo đường dẫn đồng thời xử lý video theo mục tiêu: phân đoạn video thành ảnh, xử lý ảnh sang ảnh đa cấp xám  Bước 3: Kiểm tra ảnh xem ảnh cuối chưa trước tham gia vòng lặp Nếu ta chuyển sang bước 4, sai ta chuyển tới bước  Bước 4: sử dụng công nghệ OCR thư viện Tesseract để lấy văn tập tin txt Quay lại bước  Bước 5: Sau phần mềm lọc trùng văn tập tin txt văn hoàn thiện cuối Kết thúc chương trình 3.2 Nghiên cứu xây dựng chương trình dựa phần mềm mã nguồn mở Tesseract – OCR 3.2.1 Cơng cụ mơi trường xây dựng chương trình Để phục vụ cho q trình hồn thành chương trình, tác giả sử dụng cấu hình phần cứng cơng cụ phần mềm bảng Bảng 1: Cấu hình mơi trường xây dựng chương trình STT Thành phần Thơng số kỹ thuật CPU Intel ® Core i7-2630QM @ 2.00GHz RAM GB HĐH Windows Home Premium Ổ cứng TB Bảng 2: Cơng cụ sử dụng xây dựng chương trình STT Tên công cụ Microsoft Visual Chức Năng Studio Công cụ phát triển chương trình phần 2017 mềm FFMPEG Công cụ xử lý video ImageMagick Công cụ xử lý ảnh 46 Tesseract-OCR Thư viện nhận dạng ký tự quang học WPF C# Ngơn ngữ lập trình 3.2.2 Giao diện chương trình Dưới giao diện khởi động chương trình với chức chính: - Trích xuất ảnh từ Video đồng thời xử lý ảnh thành ảnh đa cấp xám - Sử dụng Tesseract-OCR để nhận dạng văn từ ảnh - Lọc trùng văn Chức trích xuất ảnh từ Video xử lý ảnh thành ảnh đa cấp xám Hình 2: Chức tách xử lý ảnh thành ảnh đa cấp xám Ở đây, giao diện cho phép người dùng chọn đường dẫn tới nơi lưu trữ video cần xử lý Với lựa chọn tương ứng với mục tiêu đề ra: - CUT: Thực lấy ảnh từ video theo khung hình đại diện - CONVERT: Thực xử lý ảnh thu thành tập ảnh đa cấp xám 47 Sử dụng Tesseract-OCR để nhận dạng văn từ ảnh Hình 3: Chức sử dụng Tesseract OCR để nhận dạng văn Giao diện cho phép người dùng lựa chọn thư mục chứa ảnh đa cấp xám để tiến hành thu thập văn Tesseract-OCR Văn thu hiển thị Listbox Với dòng nội dung văn mà Tesseract-OCR thu nhập - SAVE: Lưu lại toàn đường dẫn tới ảnh đa cấp xám cần xử lý Tesseract-OCR dạng tập tin txt (out-list.txt) - OCR: sử dụng Tesseract-OCR đường dẫn ảnh theo tập tin outlist.txt thu đưa kết thu nhận lên Listbox giao diện Đồng thời lưu kết thu tập tin out-ocr.txt Lọc trùng lặp văn Giao diện cho phép người dùng lựa chọn việc lọc trùng văn bị trùng lặp ảnh đa cấp xám giống qua nút FILTER 48 Hình 4: Chức lọc trùng văn FILTER: Tiến hành lọc trùng theo dòng văn có nội dung giống từ tập tin out-ocr.txt phần theo dòng Kết thu thị lên textbox giao diện đồng thời lưu trữ thành tập tin filter-ocr.txt 3.3 Thử nghiệm chương trình tập liệu thực Trong phần thực nghiệm này, tác giả tiến hành video giảng thu thập mạng Tiến hành trích xuất khung hình từ video thu kết theo bảng đây: Hình 5: Khung hình minh họa tập liệu kiểm thử 49 Bảng 3: Danh sách đặc điểm tập liệu thực STT Độ dài video Số khung hình Đặc điểm văn (phút:giây) (keyframes) 1:57 118 Văn nằm nền, nhiều kích thước 2:22 148 Văn nằm nền, nhiều màu sắc, có hiệu ứng làm mờ 3:35 224 Văn nằm khung cố định 2:59 202 Văn thích, độ tương phản thấp 3:39 228 Văn nằm nền, hiệu ứng Số lượng khung hình thu video tương ứng bảng Ứng với đặc điểm riêng video theo mô tả bảng ta thu nhận kết khác nhau, từ đánh giá mức độ xác mà chương trình đem lại Ta nhận thấy văn có độ tương phản với thấp, bị làm mờ hiệu ứng kích thước nhỏ khiến chương trình nhận dạng sai thiếu sót Những văn thích nằm khung sử dụng hiệu ứng nhận dạng với độ xác cao Hình thể lỗi sai nhận dạng văn đặc điểm nêu gây Ở ảnh a, ký tự dấu chấm bị nhận dạng sai thành ký tự khác dấu phẩy, dấu chấm than, số bị nhận dạng sai thành số có tương đồng cách viết Ở ảnh b, ký tự nhận dạng sai màu sắc gần với màu bị làm mờ hiệu ứng chuyển cảnh Ở ảnh c, ký tự bị nhận dạng thiếu kích thước nhỏ độ tương phản với khung chứa thấp 50 Hình 6: Các lỗi nhận dạng văn sai chương trình Bảng mơ tả kết nhận dạng kí tự quang học công cụ Tesseract-OCR Tập kết lưu trữ với định dạng văn txt Để đánh giá trình OCR Tesseract-OCR, tác giả đánh giá dựa vào tiêu chí: phần trăm số khung hình nhận dạng (độ xác) phần trăm văn nhận dạng khung hình (độ hồi tưởng) Cơng thức biểu diễn sau: Độ xác OCR video P= ∑ 𝑘ℎ𝑢𝑛𝑔 ℎì𝑛ℎ 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔 𝑁 ∗ 100% (với N tổng số khung hình video) Độ hồi tưởng OCR video R = ∑𝑁 𝑖=1 𝑅𝑖 𝑁 (với N tổng số khung hình video) Độ hồi tưởng 𝑅𝑖 tính theo cơng thức: 𝑅𝑖 = ∑ 𝑣ă𝑛 𝑏ả𝑛 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔 ∑ 𝑣ă𝑛 𝑏ả𝑛 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đượ𝑐 *100% 51 Bảng 4: Kết nhận dạng chương trình tập liệu thực STT Số khung hình Độ xác Độ hồi tưởng (%) (%) 118 95.7 69.6 148 91.9 62.2 224 95.53 88.12 202 92.07 59.16 228 95.17 90.34 94.07 73.88 Trung bình Qua thực nghiệm tác giả nhận rằng, khung hình khơng bị ảnh hưởng hiệu ứng trình chiếu kết nhận dạng Tesseract-OCR cho kết với độ xác cao, xấp xỉ khoảng 80% đến 90% Nhưng khung hình bị ảnh hưởng cho kết nhận dạng thấp, khoảng 60% - 70% Vì độ xác trung bình video bị giảm đáng kể, xấp xỉ 73.88% Đây thách thức hạn chế tác giả luận văn 3.4 Kết luận chương Trong chương luận văn, học viên xây dựng thiết kế chương trình có khả phát nhận dạng văn video từ kiến thức nghiên cứu từ chương Đồng thời ứng dụng chương trình tập liệu thực cho đánh giá ban đầu kết đạt Từ rút định hướng phát triển tương lai chương trình như: thử nghiệm với tập liệu đa dạng hơn, nghiên cứu phương pháp, kĩ thuật nhằm nâng cao khả nhận dạng văn chương trình 52 KẾT LUẬN Hiện lĩnh vực OCR, với mục đích rút trích ký tự ảnh lưu thành dạng text, ứng dụng cách rộng rãi nhiều lĩnh đời sống Nhiều hệ thống OCR xây dựng đưa dạng sản phẩm thương mại miễn phí, chí dạng mã nguồn mở Với mong muốn tìm hiểu lĩnh vực OCR góp phần việc bổ sung vào kho ứng dụng OCR sản phẩm mới, luận văn vào nghiên cứu “Phát nhận dạng văn Video” sử dụng công nghệ OCR mã nguồn mở tiên tiến Tesseract OCR Qua q trình làm luận văn, ngồi việc tạo sản phẩm OCR thực tế, thân có hội tìm tòi hiểu biết nhiều hơn, rộng lĩnh vực OCR lập trình ứng dụng, thuật toán sử dụng để nhị phân hóa ảnh, dò hướng chỉnh độ nghiêng ảnh, phân tích bố cục trang ảnh, phương pháp nhận dạng ký tự ; hiểu biết công nghệ Tesseract OCR Trong khn khổ luận văn, học viên trình bày cách tổng quan lĩnh vực OCR số vấn đề liên quan Do mục đích luận văn nghiên cứu xây dựng hệ thống nhận dạng dịch sử dụng mã nguồn mở số cơng nghệ tiên tiến có nên khơng sâu vào lý thuyết phương pháp, thuật toán cụ thể sử dụng bước hệ thống OCR Ưu điểm hệ thống nhận dạng chuẩn xác văn video có chất lượng hình ảnh cao Tuy nhiên có khuyết điểm đáng kể với video có chất lượng thấp chữ sử dụng đặc biệt Trong thời gian tới, hệ thống cần phát triển theo hướng đưa dần việc OCR số ngôn ngữ đặc biệt khác Nghiên cứu kỹ thuật sửa lỗi hậu OCR phù hợp nhiều ngơn ngữ khác nhau, đồng thời tích hợp nhiều kỹ thuật nâng cao chất lượng ảnh vào hệ thống, kết hợp mã nguồn mở OCRopus với Tesseract công nghệ OCR mạnh mẽ 53 DANH MỤC TÀI LIỆU THAM KHẢO [1] Nguyễn Quang Hoan (2006), “Xử lý ảnh”, Giáo trình , Học viện Cơng nghệ Bưu Viễn thơng, pp 29 [2] Nguyễn Văn Huy (2009), Tìm hiểu phương pháp phân tích trang tài liệu, Luận văn Thạc sĩ, Đại học Thái Nguyên [3] Antoni Gasull (2002), “TEXT DETECTION IN IMAGES AND VIDEO SEQUENCES”, Image processing group, Department of Signal Theory and Communications 2-1, 08034, pp [4] C Misra, P.K Swain, J.K Mantri (2012), “Text Extraction and Recognition from Image using Neural Network”, International Journal of Computer Applications, 40(2), pp 13-19 [5] Chunmei Liu, Chunheng Wang, Ruwei Dai (2005), “Text Detection in Images Based on Unsupervised Classification of Edgebased Features”, Proceedings of the Eight International Conference on Document Analysis and Recognition (ICDAR’05), 2, pp 610 – 614 [6] J Ohya, A Shio, S Akamatsu (1994), “Recognizing characters in scene images”, IEEE Transactions on Pattern Analysis and Machine Intelligence 16 (2), pp 214–224 [7] J van Beusekom, F Shafait, T M Breuel, “Combined orientation and skew detection using geometric text-line modeling”, Vol 13, No (1 June 2010), pp 79-92 [8] K M Mohiuddlin, Jianchang Mao, “Optical Character Recognition”, 27 Dec 1999 [9] Miriam León, Antoni Gasull (2002), “TEXT DETECTION IN IMAGES AND VIDEO SEQUENCES”, Image processing group, Department of Signal Theory and Communications, 1-3, 08034, pp [10] P.JAYAPRIYA, V.GOPI, C.NARASIMHAN (2013), “Text Detection and Extraction in Video Sequences”, International Journal of Advanced Research 54 in Computer Engineering & Technology (IJARCET) Volume 2, Issue 12, December 2013, p 3132 [11] R Lienhart, A Wernike (2002), “Localizing and segmenting text in images and videos.”, IEEE Transactions on Circuits and Systems for video Technology, 12(4) ISSN: 1051-8215, 256-268, DOI:10.1109/76.999203 [12] R Smith, “An overview of the Tesseract OCR Engine”, Proc th Int Conf on Document Analysis and Recognition, 2007, pp629-633 [13] R Smith, D Antonova, D Lee, “Adapting the Tesseract open source OCR engine for multilingual OCR”, in Proceedings of the International Workshop on Multilingual OCR, 2009 [14] S Ranjini, Dr M Sundaresan (2013), “Extraction and Recognition of Text from Digital English Comic Image Using Median Filter”, International Journal on Computer Science and Engineering (IJCSE), 5(4) [15] Shilpa Arora, Dharamveer Sharma, Silky Arora (2014), “Recognition of Gurmukhi Text from Sign Board Images Captured from Mobile Camera”, International Journal of Information & Computation Technology, ISSN 0974-2239, 4, pp 1839-1845 [16] https://vi.wikipedia.org/wiki/Nhan_dang_ky_tu_quang_hoc truy cập ngày 18/9/2018 [17] https://www.bugcodemaster.com/article/extract-images-frame-frame-videofile-using-ffmpeg truy cập ngày 20/9/2018 [18] http://kdientu.duytan.edu.vn/media/50176/ly-thuyet-mang-neural.pdf truy cập ngày 20/9/2018 ... thuật nhận dạng trích xuất văn từ ảnh 15 2.3.1 Các giải thuật nhận dạng văn 15 2.3.2 Phát nhận dạng văn công nghệ OCR 20 iv Chương – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN... .10 Chương - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO .11 2.1 Bài toán nhận dạng văn Video lĩnh vực dịch thuật giảng trực tuyến 11 2.2 Kỹ thuật phân đoạn video thành ảnh ... việc phát nhận dạng văn video dựa vào xử lý ảnh công nghệ OCR Trong khuôn khổ luận văn này, tác giả đề cập đến video giảng, thuyết trình dạng slide có phụ đề tốn liên quan đến q trình nhận dạng văn

Định dạng
Số trang	64
Dung lượng	1,6 MB