1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) phát hiện và nhận dạng văn bản trong video

64 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1,76 MB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG lu an va Ngô Ngọc Hà n p ie gh tn to PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO d oa nl w an lu LUẬN VĂN THẠC SĨ KỸ THUẬT ll u nf va (Theo định hướng ứng dụng) oi m z at nh z m co l gm @ an Lu HÀ NỘI - 2019 n va ac th si HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG lu an va Ngô Ngọc Hà n ie gh tn to p PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO d oa nl w an lu LUẬN VĂN THẠC SĨ KỸ THUẬT ll u nf va (Theo định hướng ứng dụng) m oi Chuyên ngành: Hệ thống thông tin Mã số: 8480104 z at nh z @ m co l gm NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ HỮU TIẾN an Lu n va HÀ NỘI - 2019 ac th si lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si i LỜI CAM ĐOAN Tôi cam đoan đề tài: “Phát nhận dạng văn Video” cơng trình nghiên cứu riêng tơi hướng dẫn TS Vũ Hữu Tiến Các kết quả, phân tích, kết luận luận văn thạc sỹ (ngồi phần trích dẫn) kết làm việc tác giả, số liệu nêu luận văn trung thực chưa công bố cơng trình khác Nếu sai tơi xin hoàn toàn chịu trách nhiệm lu Hà Nội, ngày 10 tháng 02 năm 2019 an Tác giả n va gh tn to p ie Ngô Ngọc Hà d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Lời cho em xin gửi lời cảm ơn chân thành đến thầy, cô giáo thuộc Khoa CNTT, Khoa QT&ĐT sau đại học thuộc Học viện Công nghệ Bưu viễn thơng tận tình giảng dạy, truyền đạt nội dung kiến thức, kinh nghiệm quý báu suốt trình em theo học Học viện Với học quý giá, kèm cặp, bảo truyền thụ tâm huyết thầy, giúp cá nhân em hồn thiện hệ thống kiến thức chuyên ngành, phục vụ tốt yêu cầu công tác đơn vị đồng thời nâng cao vốn tri thức thân lu Đặc biệt, em xin gửi lời cảm ơn trân thành tới thầy hướng dẫn khoa học TS an n va Vũ Hữu Tiến tâm huyết, tận tình bảo, hướng dẫn, cung cấp tài liệu thành luận văn Em xin bày tỏ cảm ơn sâu sắc tới gia đình, đồng nghiệp tạo p ie gh tn to nội dung kiến thức quý báu, đồng thời có định hướng đắn giúp em hoàn điều kiện, dành ủng hộ thân em để có nhiều thời gian cho khóa học, nl w đạt kết khả quan trình học tập Đồng thời xin chân thành d oa cảm ơn tập thể lớp Cao học Hệ thống thông tin – Đợt năm 2016 đồng hành, an lu khích lệ chia sẻ suốt trình học tập va Trong trình thực luận văn, thân cố gắng, chủ động u nf việc sưu tầm tài liệu, củng cố kiến thức… nhiên chắn luận văn ll cịn nhiều thiếu sót Em mong nhận dạy, đóng góp tận tình m oi thầy, cô để luận văn em hồn thiện có tính ứng dụng cao Xin trân trọng cảm ơn! z at nh thực tiễn z m co l gm @ Hà Nội, ngày 10 tháng 02 năm 2019 Học viên an Lu Ngô Ngọc Hà n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH vii lu MỞ ĐẦU an n va Chương - TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO 1.2 Các nghiên cứu trước phân tích liệu video ie gh tn to 1.1 Phát biểu toán p 1.2.1 Tổng quan video nl w 1.2.2 Những nghiên cứu liên quan d oa 1.2.3 Phát nhận dạng văn thời điểm an lu 1.3 Hướng nghiên cứu tác giả .9 u nf va 1.4 Kết luận chương .10 ll Chương - PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO .11 m oi 2.1 Bài toán nhận dạng văn Video lĩnh vực dịch thuật giảng z at nh trực tuyến 11 2.2 Kỹ thuật phân đoạn video thành ảnh 13 z @ gm 2.3 Kỹ thuật nhận dạng trích xuất văn từ ảnh 15 m co l 2.3.1 Các giải thuật nhận dạng văn 15 2.3.2 Phát nhận dạng văn công nghệ OCR 20 an Lu n va ac th si iv Chương – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO .44 3.1 Phân tích, thiết kế tốn nhận dạng nội dung video kỹ thuật nhận dạng ký tự quang học .44 3.2 Nghiên cứu xây dựng chương trình dựa phần mềm mã nguồn mở Tesseract – OCR 45 3.2.1 Công cụ môi trường xây dựng chương trình 45 3.2.2 Giao diện chương trình 46 lu an 3.3 Thử nghiệm chương trình tập liệu thực 48 n va 3.4 Kết luận chương .51 tn to KẾT LUẬN 52 p ie gh DANH MỤC TÀI LIỆU THAM KHẢO .53 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt lu Connected component Thành phần liên thông OCR optical character recognition Nhận dạng ký tự quang học SVM supper vector machines Máy véc tơ hỗ trợ K keyframes Khung hình ANN Artificial Neural Network Mạng nơ ron nhân tạo LSTM Long Short Term Memory networks Mạng thần kinh tái phát an CC n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC BẢNG Bảng 1: Minh họa ký tự dạng ảnh 16 Bảng 2: Nhị phân hóa mẫu ký tự mẫu 16 Bảng 3: Đối sánh nhận dạng ký tự số 17 Bảng 4: Các phần mềm OCR tiêu biểu 23 Bảng 1: Cấu hình mơi trường xây dựng chương trình………………………… 45 Bảng 2: Công cụ sử dụng xây dựng chương trình 45 Bảng 3: Danh sách đặc điểm tập liệu thực 49 lu an Bảng 4: Kết nhận dạng chương trình tập liệu thực .51 n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vii DANH MỤC CÁC HÌNH Hình 1: Kiến trúc chương trình phát nhận dạng văn video 10 Hình 1: Phân đoạn video thành ảnh theo keyframes……………………………14 Hình 2: Nút neural nhân tạo 18 Hình 3: Mạng truyền thẳng nhiều tầng 19 Hình 4: Các đường văn .25 Hình 5: Minh họa thành phần liên thông 26 Hình 6: Quy trình hoạt động hệ thống OCR 26 lu an Hình 7: Độ nghiêng hướng văn 29 n va Hình 8: Văn bị nhiễu ảnh 29 tn to Hình 9: Bố cục văn tài liệu .31 gh Hình 10: Quy trình hoạt động Tesseract .36 p ie Hình 11: Ảnh ảnh đa cấp xám 38 w Hình 12: Xác định vùng văn Tesseract 38 oa nl Hình 13: Xác định đường văn Tesseract 38 d Hình 14: Phân tách từ thành ký tự Tesseract .39 an lu Hình 15: Xác định khoảng cách từ Tesseract 39 u nf va Hình 16: Quy trình phân tích từ thành ký tự Tesseract .41 Hình 17: Xác định đặc trưng ký tự Tesseract .42 ll ……………………… 44 oi m Hình 1: Phân cấp chức chương trình z at nh Hình 2: Chức tách xử lý ảnh thành ảnh đa cấp xám 46 Hình 3: Chức sử dụng Tesseract OCR để nhận dạng văn 47 z Hình 4: Chức lọc trùng văn 48 @ gm Hình 5: Khung hình minh họa tập liệu kiểm thử 48 m co l Hình 6: Các lỗi nhận dạng văn sai chương trình 50 an Lu n va ac th si 40 băm (LSH) Bước cuối tính tốn khoảng cách mờ từ ngun mẫu ký tự danh sách ngắn Ban đầu thiết kế nhằm tiết kiệm thời gian, lớp cắt tỉa phân vùng khơng gian thuộc tính chiều cao, cách xem xét thuộc tính 3-D riêng lẻ Thay cho bảng băm LSH, ta dùng bảng tra cứu đơn giản, trả vectơ số nguyên phạm vi [0, 3], tương ứng lớp ký tự, với giá trị gần phù hợp với thuộc tính với ngun mẫu ký tự Các kết vector tổng hợp lấy lớp có tổng số điểm phần nhỏ trả dạng danh sách rút gọn phân loại theo giai đoạn thứ hai Lớp cắt tỉa tương đối lu nhanh, thời gian tỉ lệ tuyến tính với số lượng lớp với số an Giai đoạn thứ hai tính tốn khoảng cách df đối tượng từ nguyên mẫu n va lượng thuộc tính gh tn to gần nhất, khoảng cách Euclide bình phương d tọa độ (x, y) từ dịng ngun p ie mẫu khơng gian 2-D, cộng với chênh lệch trọng số (w) góc 𝜃 từ nguyên mẫu: oa nl w 𝑑𝑓 = 𝑑2 + 𝑤𝜃 d Khoảng cách thuộc tính chuyển đổi thành 𝐸𝑓 sử dụng phương trình sau: lu u nf va an 𝐸𝑓 = 1 + 𝑘𝑑𝑓2 ll Hằng số k sử dụng để kiểm sốt tốc độ mà chứng phân m oi rã với khoảng cách Khi thuộc tính khớp với mẫu thử, 𝐸𝑓 chép z at nh vào mẫu thử 𝐸𝑝 Vì mẫu thử mong đợi nhiều tính so khớp với chúng, tập hợp “phù hợp nhất” thực độc lập với tốc độ, tổng thuộc z gm @ tính chứng mẫu thử khác Với 𝐿𝑝 tổng độ dài mẫu thử kết chuyển đổi trở lại thành khoảng cách: m co l an Lu 𝑑𝑓𝑖𝑛𝑎𝑙 ∑𝑓 𝐸𝑓 + ∑𝑝 𝐸𝑝 =1− 𝑁𝑓 + ∑𝑝 𝐿𝑝 n va ac th si 41 Bước vào trình nhận diện, input đánh giá, phân tích hai lần Ở lần đầu tiên, OCR nhận diện ký tự với kết phân tích bước trước Các kết nhận diện thoả mãn yêu cầu đưa vào tập tin huấn luyện để hỗ trợ cho trình nhận diện lần thứ hai với kết chưa đạt yêu cầu Đương nhiên, việc xác nhận kết có thoả mãn yêu cầu hay khơng cần phải dựa nhiều tiêu chí nhận diện nội dung phải trải qua trình lặp lặp lại gồm bước nhận diện ký tự, ghép ký tự so khớp với từ điển Các tiêu chí bao gồm khoảng cách ký tự, độ phù hợp với từ điển khoảng cách đến dấu câu lu Nhận dạng khoảng cách chữ số toán rắc rối Trong văn an n va có nhiều phơng chữ khác dẫn tới khoảng cách từ số khác ngưỡng giá trị mờ với sai số Mỗi ký tự cần nhận dạng có đặc gh tn to Tesseract khắc phục khó khăn cách đo khoảng cách chọn gần ie trưng riêng, có khoảng 50 tới 100 đặc trưng điển hình ký tự Mỗi đặc p trưng chứa tham số hoành độ, tung độ, góc xoay Trong ký tự xoay, độ dài d oa nl w mẫu có từ 10 tới 20 đặc trưng, đặc trưng có tham số hồnh độ, tung độ, góc ll u nf va an lu Sơ đồ nhận dạng từ quy trình phân tích từ chia thành ký tự: oi m z at nh z m co l gm @ Hình 16: Quy trình phân tích từ thành ký tự Tesseract [12] an Lu Văn tồn độ dư thừa ký tự từ vựng, chức phân loại ký tự tạo danh sách rút gọn chứa ký tự mà ký tự đối sánh trùng khớp n va ac th si 42 Các lớp ký tự mẫu sinh lớp véc tơ bít tương ứng với đặc trưng ký tự Hình 17: Xác định đặc trưng ký tự Tesseract [13] Những đặc trưng ký tự nhận dạng (Features of character) đối sánh lu với lớp véc tơ bít ký tự mẫu, tính tốn khác đặc trưng an chúng Bên cạnh có tham số thứ hai độ dài ký tự nhận dạng va n Hệ số đánh giá đối sánh tích hai tham số trên, cặp đối sánh có hệ số tn to nhỏ xem chúng tương tự Chức phân loại tĩnh (static ie gh classifier) phù hợp với ký tự có phơng chữ bất kỳ, chủ yếu dùng p để nhận dạng ký tự riêng ký tự giải, dấu ngăn cách hay kết thúc câu nl w chức phân loại thích ứng (Adaptive classifier) dùng để nhận dạng oa ký tự theo phông chữ chuẩn d Bộ từ điển dùng để lưu trữ liệu cho trình phân loại nhận dạng Mỗi lu va an ngơn ngữ có từ điển chứa ký tự theo phông chữ khác với thuộc u nf tính chuẩn – normal , đậm – bold, nghiêng – italic thuộc tính kết hợp Từ ll điển lưu trữ từ hay sử dụng, từ chữ cái, từ số, từ chữ hoa, từ chữ thường m oi So sánh, đánh giá công nghệ Tesseract OCR với công nghệ khác z at nh Ưu điểm lớn mà cơng nghệ Tesseract có tính mở việc nghiên cứu Ngồi Tesseract ý đến việc huấn luyện học máy để nhận z @ biết kiểu chữ khác nhau, từ xây dựng thư viện riêng cho loại văn gm khác Vì so với cơng nghệ khác, Tesseract phù hợp với việc m co l phát nhận dạng loại văn đặc biệt khơng thống Việc làm cho thấy tính chất phù hợp cơng nghệ việc phát nhận an Lu dạng văn video n va ac th si 43 2.4 Kết luận chương Trong chương luận văn, học viên trình bày cách khái quát công nghệ kỹ thuật sử dụng việc phát nhận dạng văn video Đồng thời học viên trình bày hiểu biết cơng nghệ Tesseract OCR, kiến trúc hoạt động sử dụng Tesseract Học viên đưa so sánh công nghệ Tesseract với công nghệ nhận dạng văn khác để từ cho thấy tính phù hợp Tesseract việc xây dựng thiết kế chương trình phát nhận dạng văn video chương lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 44 Chương – XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO Trong chương 1, luận văn trình bày cần thiết việc phát nhận dạng văn Video Trên sở đó, chương luận văn trình bày xây dựng chương trình phát nhận dạng văn video với công nghệ OCR sử dụng thư viện Tesseract Cuối cùng, luận văn trình bày kết thử nghiệm mơ hình tập liệu có sẵn, từ đánh giá mơ hình xây dựng triển vọng triển lu khai mơ hình thực tế an 3.1 Phân tích, thiết kế toán nhận dạng nội dung video kỹ thuật va n nhận dạng ký tự quang học to gh tn Dựa vào nghiên cứu chương 2, học viên tiến hành phân tích, thiết kế chương trình phát nhận dạng văn video với chức ie p đề tài phát nhận dạng văn có video đầu vào Vì nl w chương trình có chức gồm: phân đoạn video thành ảnh dựa oa khung hình chính, xử lý ảnh thu từ trình phân đoạn thành ảnh đa cấp xám, d nhận dạng văn công nghệ OCR thư viện Tesseract, lọc trùng văn lu ll u nf va an thu lưu văn thành tệp tin văn oi m z at nh z gm @ Hình 1: Phân cấp chức chương trình Quy trình hoạt động chương trình mơ tả sau: l máy tính m co  Bước 1: Video thu thập, download quay dựng lưu trữ sẵn an Lu n va ac th si 45  Bước 2: Phần mềm tiếp nhận video theo đường dẫn đồng thời xử lý video theo mục tiêu: phân đoạn video thành ảnh, xử lý ảnh sang ảnh đa cấp xám  Bước 3: Kiểm tra ảnh xem ảnh cuối chưa trước tham gia vòng lặp Nếu ta chuyển sang bước 4, sai ta chuyển tới bước  Bước 4: sử dụng công nghệ OCR thư viện Tesseract để lấy văn tập tin txt Quay lại bước  Bước 5: Sau phần mềm lọc trùng văn tập tin txt văn hoàn thiện cuối Kết thúc chương trình lu an 3.2 Nghiên cứu xây dựng chương trình dựa phần mềm mã nguồn va n mở Tesseract – OCR tn to 3.2.1 Công cụ mơi trường xây dựng chương trình ie gh Để phục vụ cho q trình hồn thành chương trình, tác giả sử dụng cấu hình p phần cứng cơng cụ phần mềm bảng nl w Bảng 1: Cấu hình mơi trường xây dựng chương trình Thành phần Thơng số kỹ thuật CPU Intel ® Core i7-2630QM @ 2.00GHz RAM HĐH Ổ cứng d oa STT va an lu GB u nf Windows Home Premium ll TB oi m STT Tên công cụ Visual Studio Công cụ phát triển chương trình phần @ Microsoft Chức Năng z z at nh Bảng 2: Công cụ sử dụng xây dựng chương trình mềm FFMPEG Cơng cụ xử lý video ImageMagick Công cụ xử lý ảnh m co l gm 2017 an Lu n va ac th si 46 Tesseract-OCR Thư viện nhận dạng ký tự quang học WPF C# Ngơn ngữ lập trình 3.2.2 Giao diện chương trình Dưới giao diện khởi động chương trình với chức chính: lu - Trích xuất ảnh từ Video đồng thời xử lý ảnh thành ảnh đa cấp xám - Sử dụng Tesseract-OCR để nhận dạng văn từ ảnh - Lọc trùng văn an n va Chức trích xuất ảnh từ Video xử lý ảnh thành ảnh đa cấp xám p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z Hình 2: Chức tách xử lý ảnh thành ảnh đa cấp xám l lý Với lựa chọn tương ứng với mục tiêu đề ra: gm @ Ở đây, giao diện cho phép người dùng chọn đường dẫn tới nơi lưu trữ video cần xử CUT: Thực lấy ảnh từ video theo khung hình đại diện - CONVERT: Thực xử lý ảnh thu thành tập ảnh đa cấp xám m co - an Lu n va ac th si 47 Sử dụng Tesseract-OCR để nhận dạng văn từ ảnh lu an n va gh tn to Hình 3: Chức sử dụng Tesseract OCR để nhận dạng văn p ie Giao diện cho phép người dùng lựa chọn thư mục chứa ảnh đa cấp xám nl w để tiến hành thu thập văn Tesseract-OCR Văn thu hiển lu SAVE: Lưu lại toàn đường dẫn tới ảnh đa cấp xám cần xử lý va an - d oa thị Listbox Với dòng nội dung văn mà Tesseract-OCR thu nhập OCR: sử dụng Tesseract-OCR đường dẫn ảnh theo tập tin out- ll - u nf Tesseract-OCR dạng tập tin txt (out-list.txt) m oi list.txt thu đưa kết thu nhận lên Listbox giao z at nh diện Đồng thời lưu kết thu tập tin out-ocr.txt z Lọc trùng lặp văn gm @ Giao diện cho phép người dùng lựa chọn việc lọc trùng văn bị m co l trùng lặp ảnh đa cấp xám giống qua nút FILTER an Lu n va ac th si 48 lu an n va tn to FILTER: Tiến hành lọc trùng theo dịng văn có nội dung giống p ie gh Hình 4: Chức lọc trùng văn w từ tập tin out-ocr.txt phần theo dòng Kết thu oa nl thị lên textbox giao diện đồng thời lưu trữ thành tập tin filter-ocr.txt d 3.3 Thử nghiệm chương trình tập liệu thực lu an Trong phần thực nghiệm này, tác giả tiến hành video giảng thu u nf va thập mạng Tiến hành trích xuất khung hình từ video thu ll kết theo bảng đây: oi m z at nh z m co l gm @ an Lu Hình 5: Khung hình minh họa tập liệu kiểm thử n va ac th si 49 Bảng 3: Danh sách đặc điểm tập liệu thực STT Độ dài video Số khung hình Đặc điểm văn (phút:giây) (keyframes) 1:57 118 Văn nằm nền, nhiều kích thước 2:22 Văn nằm nền, nhiều màu 148 sắc, có hiệu ứng làm mờ lu an 3:35 224 Văn nằm khung cố định 2:59 202 Văn thích, độ tương phản va thấp n 3:39 Văn nằm nền, hiệu ứng 228 p ie gh tn to Số lượng khung hình thu video tương ứng bảng nl w Ứng với đặc điểm riêng video theo mô tả bảng ta thu nhận d oa kết khác nhau, từ đánh giá mức độ xác mà chương trình đem lại an lu Ta nhận thấy văn có độ tương phản với thấp, bị làm mờ hiệu ứng va kích thước nhỏ khiến chương trình nhận dạng sai thiếu sót Những văn u nf thích nằm khung sử dụng hiệu ứng nhận dạng với độ ll xác cao Hình thể lỗi sai nhận dạng văn m oi đặc điểm nêu gây Ở ảnh a, ký tự dấu chấm bị nhận dạng sai thành ký z at nh tự khác dấu phẩy, dấu chấm than, số bị nhận dạng sai thành số có z tương đồng cách viết Ở ảnh b, ký tự nhận dạng sai màu sắc gần với màu gm @ bị làm mờ hiệu ứng chuyển cảnh Ở ảnh c, ký tự bị nhận dạng thiếu m co l kích thước nhỏ độ tương phản với khung chứa thấp an Lu n va ac th si 50 lu an n va tn to Bảng mơ tả kết nhận dạng kí tự quang học cơng cụ p ie gh Hình 6: Các lỗi nhận dạng văn sai chương trình w Tesseract-OCR Tập kết lưu trữ với định dạng văn txt oa nl Để đánh giá trình OCR Tesseract-OCR, tác giả đánh giá dựa vào tiêu d chí: phần trăm số khung hình nhận dạng (độ xác) phần trăm u nf va biểu diễn sau: an lu văn nhận dạng khung hình (độ hồi tưởng) Cơng thức Độ xác OCR video ll ∑ 𝑘ℎ𝑢𝑛𝑔 ℎì𝑛ℎ 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔 oi m P= 𝑁 ∗ 100% z at nh (với N tổng số khung hình video) Độ hồi tưởng OCR video @ (với N tổng số khung hình video) ∑ 𝑣ă𝑛 𝑏ả𝑛 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔 *100% an Lu ∑ 𝑣ă𝑛 𝑏ả𝑛 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đượ𝑐 m co 𝑅𝑖 = l Độ hồi tưởng 𝑅𝑖 tính theo cơng thức: gm 𝑁 z R = ∑𝑁 𝑖=1 𝑅𝑖 n va ac th si 51 Bảng 4: Kết nhận dạng chương trình tập liệu thực STT Số khung hình Độ xác Độ hồi tưởng (%) (%) 118 95.7 69.6 148 91.9 62.2 224 95.53 88.12 202 92.07 59.16 228 95.17 90.34 94.07 73.88 Trung bình lu an n va Qua thực nghiệm tác giả nhận rằng, khung hình khơng bị ảnh tn to hưởng hiệu ứng trình chiếu kết nhận dạng Tesseract-OCR cho kết gh với độ xác cao, xấp xỉ khoảng 80% đến 90% Nhưng khung p ie hình bị ảnh hưởng cho kết nhận dạng thấp, khoảng 60% - 70% Vì độ w xác trung bình video bị giảm đáng kể, xấp xỉ 73.88% Đây oa nl thách thức hạn chế tác giả luận văn d 3.4 Kết luận chương an lu Trong chương luận văn, học viên xây dựng thiết kế chương trình u nf va có khả phát nhận dạng văn video từ kiến thức nghiên cứu từ chương Đồng thời ứng dụng chương trình tập liệu thực ll oi m cho đánh giá ban đầu kết đạt Từ rút định hướng z at nh phát triển tương lai chương trình như: thử nghiệm với tập liệu đa dạng hơn, nghiên cứu phương pháp, kĩ thuật nhằm nâng cao khả nhận z dạng văn chương trình m co l gm @ an Lu n va ac th si 52 KẾT LUẬN Hiện lĩnh vực OCR, với mục đích rút trích ký tự ảnh lưu thành dạng text, ứng dụng cách rộng rãi nhiều lĩnh đời sống Nhiều hệ thống OCR xây dựng đưa dạng sản phẩm thương mại miễn phí, chí dạng mã nguồn mở Với mong muốn tìm hiểu lĩnh vực OCR góp phần việc bổ sung vào kho ứng dụng OCR sản phẩm mới, luận văn vào nghiên cứu “Phát nhận dạng văn Video” sử dụng công nghệ OCR mã nguồn mở tiên tiến Tesseract OCR lu Qua trình làm luận văn, việc tạo sản phẩm OCR thực an va tế, thân có hội tìm tòi hiểu biết nhiều hơn, rộng lĩnh vực OCR n lập trình ứng dụng, thuật tốn sử dụng để nhị phân hóa ảnh, dị hướng gh tn to chỉnh độ nghiêng ảnh, phân tích bố cục trang ảnh, phương pháp nhận dạng Trong khn khổ luận văn, học viên trình bày cách tổng quan p ie ký tự ; hiểu biết công nghệ Tesseract OCR nl w lĩnh vực OCR số vấn đề liên quan Do mục đích luận văn d oa nghiên cứu xây dựng hệ thống nhận dạng dịch sử dụng mã nguồn mở an lu số cơng nghệ tiên tiến có nên khơng sâu vào lý thuyết phương pháp, thuật toán cụ thể sử dụng bước hệ thống OCR va u nf Ưu điểm hệ thống nhận dạng chuẩn xác văn ll video có chất lượng hình ảnh cao Tuy nhiên có khuyết điểm đáng kể với m oi video có chất lượng thấp chữ sử dụng đặc biệt z at nh Trong thời gian tới, hệ thống cần phát triển theo hướng đưa dần việc OCR số ngôn ngữ đặc biệt khác Nghiên cứu kỹ thuật sửa lỗi hậu z gm @ OCR phù hợp nhiều ngơn ngữ khác nhau, đồng thời tích hợp nhiều kỹ thuật nâng cao chất lượng ảnh vào hệ thống, kết hợp mã nguồn mở OCRopus với m co l Tesseract công nghệ OCR mạnh mẽ an Lu n va ac th si 53 DANH MỤC TÀI LIỆU THAM KHẢO Nguyễn Quang Hoan (2006), “Xử lý ảnh”, Giáo trình , Học viện Cơng nghệ [1] Bưu Viễn thơng, pp 29 Nguyễn Văn Huy (2009), Tìm hiểu phương pháp phân tích trang tài liệu, [2] Luận văn Thạc sĩ, Đại học Thái Nguyên Antoni Gasull (2002), “TEXT DETECTION IN IMAGES AND VIDEO [3] SEQUENCES”, Image processing group, Department of Signal Theory and Communications 2-1, 08034, pp lu C Misra, P.K Swain, J.K Mantri (2012), “Text Extraction and Recognition an [4] va from Image using Neural Network”, International Journal of Computer n Applications, 40(2), pp 13-19 Chunmei Liu, Chunheng Wang, Ruwei Dai (2005), “Text Detection in gh Images Based on Unsupervised Classification of Edgebased Features”, tn to [5] p ie Proceedings of the Eight International Conference on Document Analysis J Ohya, A Shio, S Akamatsu (1994), “Recognizing characters in scene d oa [6] nl w and Recognition (ICDAR’05), 2, pp 610 – 614 an lu images”, IEEE Transactions on Pattern Analysis and Machine Intelligence 16 (2), pp 214–224 va J van Beusekom, F Shafait, T M Breuel, “Combined orientation and skew u nf [7] ll detection using geometric text-line modeling”, Vol 13, No (1 June 2010), oi z at nh [8] m pp 79-92 K M Mohiuddlin, Jianchang Mao, “Optical Character Recognition”, 27 Dec 1999 z Miriam León, Antoni Gasull (2002), “TEXT DETECTION IN IMAGES gm @ [9] AND VIDEO SEQUENCES”, Image processing group, Department of l [10] m co Signal Theory and Communications, 1-3, 08034, pp P.JAYAPRIYA, V.GOPI, C.NARASIMHAN (2013), “Text Detection and an Lu Extraction in Video Sequences”, International Journal of Advanced Research n va ac th si 54 in Computer Engineering & Technology (IJARCET) Volume 2, Issue 12, December 2013, p 3132 R Lienhart, A Wernike (2002), “Localizing and segmenting text in images [11] and videos.”, IEEE Transactions on Circuits and Systems for video Technology, 12(4) ISSN: 1051-8215, 256-268, DOI:10.1109/76.999203 R Smith, “An overview of the Tesseract OCR Engine”, Proc th Int Conf [12] on Document Analysis and Recognition, 2007, pp629-633 R Smith, D Antonova, D Lee, “Adapting the Tesseract open source OCR [13] engine for multilingual OCR”, in Proceedings of the International Workshop lu an on Multilingual OCR, 2009 S Ranjini, Dr M Sundaresan (2013), “Extraction and Recognition of Text from Digital English Comic Image Using Median Filter”, International n va [14] to gh tn Journal on Computer Science and Engineering (IJCSE), 5(4) Shilpa Arora, Dharamveer Sharma, Silky Arora (2014), “Recognition of p ie [15] Gurmukhi Text from Sign Board Images Captured from Mobile nl w Camera”, International Journal of Information & Computation Technology, https://vi.wikipedia.org/wiki/Nhan_dang_ky_tu_quang_hoc truy cập ngày https://www.bugcodemaster.com/article/extract-images-frame-frame-video- u nf [17] va 18/9/2018 an lu [16] d oa ISSN 0974-2239, 4, pp 1839-1845 ll file-using-ffmpeg truy cập ngày 20/9/2018 m http://kdientu.duytan.edu.vn/media/50176/ly-thuyet-mang-neural.pdf truy cập oi [18] z at nh ngày 20/9/2018 z m co l gm @ an Lu n va ac th si

Ngày đăng: 12/07/2023, 17:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w