Phát hiện và nhận dạng văn bản trong video tt

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Ngô Ngọc Hà PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO Chuyên ngành: Hệ thống thơng tin Mã số: 8480104 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2019 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Vũ Hữu Tiến Phản biện 1: PGS.TS Nguyễn Hà Nam Phản biện 2: TS Vũ Văn Thỏa Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: 10 ngày 19 tháng năm 2019 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Cùng với sự phát triển công nghệ thơng tin, ngồi điểm tốc độ, dịch vụ internet cải thiện rõ nét việc nội dung đăng tải tăng đến chóng mặt Có thể kể Youtube có tỉ người dùng ngày người xem hàng triệu Youtube tạo hàng tỉ lượt xem Hay trung bình 13 người trái đất có người dùng Facebook đăng tải ảnh Tính riêng số lượng video giảng, diễn thuyết… phục vụ học tập cho lứa tuổi tải lên chia sẻ internet số khổng lồ E-Learning khơng khái niệm lạ với người dùng phát triển mạnh mẽ Bài giảng nhiều cách tiếp cận khác nhau, từ trình chiếu đến tư liệu quay phim … Trong thời điểm tại, người dùng có nhu cầu học tập loại tài liệu loại ngôn ngữ khác nhau, đặc biệt tiếng Anh, từ hướng dẫn thủ thuật chia sẻ miễn phí Youtube hay tài liệu chuyên ngành Tuy nhiên, bất tiện cho người học liên tục phải xem hết tài liệu qua video Từ đòi hỏi phải có cơng cụ rút ngắn thời gian xem mà đáp ứng thu nhận đầy đủ nội dung truyền tải từ tài liệu Để làm điều này, ta sử dụng kỹ thuật nhận dạng ký tự quang học để nhận dạng nội dung từ ảnh chụp video thành văn Điều vừa giữ nguyên nội dung vừa giảm thiểu dung lượng lưu trữ, tái sử dụng nhiều mục đích khác Từ ý nghĩa khoa học thực tiễn nêu trên, học viên chọn đề tài: “Phát nhận dạng văn Video” Tổng quan vấn đề nghiên cứu Những nghiên cứu Việt Nam nước 20 năm trở lại vấn đề phát nhận dạng văn nói chung khối lượng thông tin đến từ nội dung video lớn Những thông tin lấy áp dụng vào lĩnh vực khác như: giao thông, kho bãi, bán hàng chí tìm kiếm dịch thuật… Tuy nhiên vấn đề khác liệu đầu vào như: chất lượng video, kiểu văn bản, kích thước văn … đã trở ngại cho nghiên cứu tìm phương án tối ưu cho vấn đề Mục tiêu của Luận văn tập trung nghiên cứu xây dựng công cụ để phát nhận dạng nội dung giảng, thuyết trình, trình diễn dạng video Người dùng cần chọn video đầu vào, kết trả nội dung dạng văn có video Vấn đề cần giải đề tài giải pháp xử lý video đầu vào Phát nhận dạng văn có video Đầu tiên, video phân tách thành ảnh nhỏ theo khung hình với khoảng thời gian định Tiếp theo, liệu văn chứa hình ảnh khung hình trích xuất cách sử dụng kĩ thuật nhận dạng kí tự quang học Các văn trích xuất xử lý trùng lặp, lưu trữ dạng văn để người dùng đọc lại nội dung từ Mục đích nghiên cứu - Tìm hiểu phương pháp phân đoạn ảnh từ video trích xuất văn - Cài đặt chương trình tìm kiếm thử nghiệm, đánh giá độ xác mơ hình phát nhận dạng Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Các phương pháp xử lý video, phát nhận dạng ký tự quang học Phạm vi nghiên cứu: - Kỹ thuật xử lý video - Kỹ thuật trích xuất văn từ ảnh - Kỹ thuật phát nhận dạng ký tự quang học - Xây dựng thử nghiệm chương trình Phương pháp nghiên cứu - Nghiên cứu lý thuyết: Sử dụng phương pháp phân tích, tổng hợp thơng tin để tổng kết kiến thức tảng, công bố khoa học ứng dụng phương pháp xử lý video, phương pháp phát nhận dạng ký tự quang từ nguồn tài liệu internet nguồn tài liệu khác: bao gồm báo khoa học kỷ yếu hội thảo, tạp chí chuyên ngành… - Nghiên cứu thực nghiệm: Bao gồm nội dung: 1) Tìm hiểu tốn trích xuất nội dung video từ kĩ thuật nhận dạng ký tự quang 2) Cài đặt chương trình thử nghiệm chương trình liệu thử nghiệm Bố cục luận văn Luận văn có bố cục gồm: Phần mở đầu, chương chính, phần kết luận, tài liệu tham khảo phụ lục Được bố trí theo thứ tự: - Mở đầu - Chương 1: Tổng quan phân tích liệu Video - Chương 2: Phát nhận dạng văn Video - Chương 3: Xây dựng thử nghiệm chương trình Phát nhận dạng văn Video - Kết luận - Tài liệu tham khảo 5 Chương 1- TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU VIDEO 1.1 Phát biểu toán Ngày nay, khối lượng liệu chứa video lớn Điều đòi hỏi cần thiết để tạo rac cơng cụ hữu ích cho phép trích xuất thơng tin từ chuỗi video để phân loại phân tích mà không cần sự giám sát người Chú thích văn ảnh sử dụng việc tách lọc thông tin Mặc dù văn dễ dàng phát người, trường hợp viết tắt loại ngoại ngữ khác Tuy nhiên thời điểm tại, khơng có phương pháp cho phép trích xuất văn cách tối ưu Điều thực tế văn tồn video có nhiều cách thể khác (Ví dụ: kích thước, phong cách, định hướng, ), độ phân giải thấp hình ảnh (chất lượng) độ phức tạp Mặc dù hạn chế này, dòng văn thể số tính đồng nhất, làm cho phát độ tương phản, độ bám dính khơng gian, bề kết cấu, độ đồng màu, độ dày nét, độ đồng theo thời gian, chuyển động theo trình tự, vị trí khung, vv Do đó, mục đích luận văn giải pháp cho việc phát nhận dạng văn video dựa vào xử lý ảnh công nghệ OCR Trong khuôn khổ luận văn này, tác giả đề cập đến video giảng, thuyết trình dạng slide có phụ đề tốn liên quan đến trình nhận dạng văn từ video dạng nói Ngồi ra, nhiều chủng loại video khác nữa, nội dung nghiên cứu video khác nằm ngồi khn khổ luận văn Trọng tâm luận văn nghiên cứu cách thức xử lý nhận dạng văn cho video đầu vào 1.2 Các nghiên cứu trước phân tích liệu video 1.2.1 Tổng quan video Về mặt chất video cấu thành từ ảnh tĩnh Những ảnh sau xếp liên tiếp trình diễn đơn vị thời gian đủ nhỏ để làm cho mắt cảm nhận đối tượng chuyển động Thơng thường video quay khoảng 24-30 hình giây Tuy nhiên ảnh trình chiếu nhanh cảm nhận mượt mà linh động Mỗi hình gọi frame Số frame giây đo số nguyên kí hiệu FPS Một video đơn giản hiểu tổng số khung hình lưu trữ trình chiếu theo thứ tự, video thơng thường có khoảng vài trăm đến vài trăm nghìn khung hình 1.2.2 Những nghiên cứu liên quan Kể từ năm 1994 đến nay, có nhiều nghiên cứu khác việc phát nhận dạng văn video tác giả giới Trong có nghiên cứu cho thấy tính khả quan phương pháp áp dụng việc phát nhận dạng văn video, có nghiên cứu điểm hạn chế việc làm 7 1.2.3 Phát nhận dạng văn thời điểm Sự nhận dạng xác ký tự Latin đánh máy xem vấn đề giải Tỷ lệ xác thực tế đạt tới 99%, số ứng dụng đòi hỏi tỷ lệ xác cao cần phải người kiểm tra lại lỗi Tuy nhiên, việc nhận dạng chữ in tay, chữ viết tay, văn video, đề tài nghiên cứu Các hệ thống nhận dạng ký tự viết tay đạt thành công lớn mặt thương mại năm gần Trong số thiết bị nhập cho thiết bị hỗ trợ cá nhân (PDA) phần mềm chạy Palm OS hãng Apple Newton tiên phong công nghệ Những giải thuật sử dụng thiết bị sử dụng ưu điểm thứ tự, tốc độ, hướng đoạn dòng đơn lẻ biết trước Tương tự, người dùng yêu cầu sử dụng vài loại kiểu chữ định Những phương pháp dùng phần mềm scan tài liệu giấy, sự nhận dạng xác văn in tay vấn đề lớn bỏ ngỏ Với mức xác từ 80% đến 90%, ký tự in tay nhận ra, độ xác tạo hàng tá lỗi trang, khiến cho công nghệ hiệu vài trường hợp Sự đa dạng OCR biết đến công nghiệp ICR, (Intelligent Character Recognition - Nhận dạng Ký tự Thông minh) 8 1.3 Hướng nghiên cứu tác giả Dựa vào phương pháp tiếp cận nghiên cứu nêu phần 1.1 1.2, tác giả lựa chọn phương pháp tiếp cận để trích xuất văn từ video công nghệ OCR thay sử dụng cơng nghệ khác tính ứng dụng cao công nghệ Công cụ phát nhận dạng văn từ video mà tác giả mong muốn xây dựng hình thành từ cách giải toán cụ thể sau:  Phân đoạn video  Trích xuất văn đại diện: o Nhận dạng kí tự quang học o Xử lý trùng lặp văn 1.4 Kết luận chương Trong chương 1, học viên trình bày khái qt tốn phát nhận dạng văn video Đồng thời dựa nghiên cứu trước tác giả khác công nghệ thời gian để đưa hướng giải tốn áp dụng lĩnh vực phát nhận dạng văn video 9 Chương 2- PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 2.1 Bài toán nhận dạng văn video lĩnh vực dịch thuật giảng trực tuyến Văn video phân loại thành hai loại: văn nằm cảnh văn hậu xử lý Văn nằm cảnh phần môi trường máy ảnh chụp với phần lại cảnh Văn nhân tạo tạo riêng biệt từ quay video phủ lên cảnh giai đoạn hậu xử lý Chúng quan tâm đến phương pháp phát văn nhân tạo (hoặc nhúng) video mang thơng tin quan trọng ngữ nghĩa nội dung video Ví dụ: văn phụ đề có chương trình phát sóng tin tức phim tài liệu thường thích thơng tin vị trí, thời gian sự kiện báo cáo Cũng chương trình thể thao, điểm số tên người chơi tên nhóm thường xếp chồng lên video dạng văn thay nói to 2.2 Kỹ thuật phân đoạn video thành ảnh Như nói phần trên, video trích xuất đến hàng trăm, hàng nghìn chí hàng vạn ảnh Tuy nhiên thực tế lượng thông tin nằm video không nhiều đến Thông tin hay khuôn khổ luận văn văn trích xuất nằm khung hình video (keyframes) hình ảnh sử dụng làm tham chiếu video Chúng sử dụng làm tham chiếu để ta tìm kiếm dễ dàng tham 10 chiếu đến khung hình phía sau để nén video lưu trữ sự khác biệt khung hình khung hình sau thay lưu trữ tất chúng Đó lý ta mong đợi chất lượng hình ảnh thơng tin khung hình Khoảng cách khung hình phụ thuộc vào video sử dụng Tuy nhiên thơng thường khoảng cách dao động từ 2-5 giây Chúng ta tìm kiếm phần mềm, cơng cụ khác để hỗ trợ việc chuyển đổi video thành frames phần mềm total video converter, video to picture converter… Nhưng tác giả quan tâm công cụ mã nguồn mở Ffmpeg ba lý chính:  Hỗ trợ nhiều định dạng video khác nhau, ví dụ mp4, avi, flv…  Điều chỉnh FPS  Mã nguồn mở FFMpeg thư viện có nhiều tiện ích cho việc xử lý video Tính bật có lẽ khả encode/decode nhiều video định dạng khác nhau, giúp chuyển đổi qua lại nhiều định dạng video Ngồi ra, dùng FFMpeg để chia cắt đoạn video, chụp lại frame xuất dạng hình ảnh,… Để trích xuất khung hình từ tệp video ffmpeg, ta sử dụng lệnh sau: ffmpeg -i {IP} -vf "select=eq(pict_type\,I)" -vsync vfr {OP} hide_banner Trong đó: 11 -vf: Bộ lọc video Trong trường hợp này, lọc video phức tạp chút so với trước "select = eq (pict_type \, I)" làm cho lọc chọn tất hình ảnh khung hình ("pict_type \, I" dùng để loại hình ảnh mục, "eq" đề cập đến nhau, chúng tơi đọc "chọn tất hình ảnh mục") -vsync vfr: Đây thông số cho lọc sử dụng đồng hóa bitrate biến Nếu không sử dụng tham số ffmpeg khơng tìm thấy khung hình trích xuất khung hình khác khơng xử lý xác 2.3 Kỹ thuật nhận dạng trích xuất văn từ ảnh 2.3.1 Các giải thuật nhận dạng văn Ứng dụng Logic mờ nhận dạng văn Ứng dụng mạng Neural nhân tạo nhận dạng văn 2.3.2 Phát nhận dạng văn công nghệ OCR Tổng quan OCR OCR (optical character recognition) lĩnh vực nhận dạng ký tự quang học Kỹ thuật cho phép máy tính tự động nhận dạng ký tự thơng qua chế quang học Đối tượng OCR ảnh scan tài liệu, sách, video liên quan Mục tiêu OCR chuyển nguồn tài liệu sang định dạng chỉnh sửa tìm kiếm Vào những năm đầu kỷ 20, nhà khoa học quan tâm nghiên cứu lĩnh vực OCR Tuy nhiên kết lúc hạn chế Từ năm 90 đến nay, OCR có 12 nghiên cứu mang tính đột phá, kết hợp với công nghệ tiến tiến thời đại cho đời hệ thống OCR mạnh mẽ hiệu suất cao Ngày nay, công nghệ OCR kết hợp với máy scan tốc độ cao thuật tốn máy tính phức hợp làm gia tăng tốc độ xử lý sự xác liệu Những cơng nghệ OCR nhận dạng hầu hết font chữ với độ xác cao, số hỗ trợ khả kết xuất đoạn văn có định dạng gần giống hồn tồn với gốc Hoạt động hệ thống OCR Hoạt động hệ thống OCR thông thường gồm bước sau: thu nhận ảnh, tiền xử lý ảnh, phân tích bố cục trang, tách dòng từ, huấn luyện nhận dạng, hậu xử lý Kết bước ảnh hưởng lớn đến kết cuối hệ thống Công nghệ Tesseract OCR Tesseract công nghệ OCR phát triển năm từ 1984 đến 1994 HP, bắt đầu dự án nghiên cứu tiến sĩ phòng thí nghiệm Tuy đạt kết định lúc chưa thể phát triển thành sản phẩm thương mại Cuối năm 2005, HP phát hành Tesseract dạng mã nguồn mở tập đoàn Google tài trợ phát triển Địa cho mã nguồn Tesseract http://code.google.com/p/teseract-ocr Tesseract phát triển để chạy hệ điều hành nhân Linux Windows Phiên Tesseract 4.00 với số nhà phát triển tiêu biểu Ray Smith, Thomas Breuel, Luc Vincent Khác 13 với phần mềm mục tiêu thương mại, Tesseract thư viện – khơng phải chương trình – nhận dạng ký tự quang học Tesseract đánh giá số thư viện nhận dạng ký tự quang học mã nguồn mở tốt Từ Tesseract OCR trở thành mã nguồn mỡ, phát triển cách nhanh chóng, hỗ trợ nhận dạng 30 ngơn ngữ khác nhau, độ xác tiến tới tỉ lệ 100% số ngôn ngữ với ảnh văn chất lượng Tuy dự án Tesseract chưa phát triển GUI cho người dùng sử dụng công nghệ Các tổ chức, cá nhân muốn sử dụng Tesseract OCR phải dùng source code cung cấp sẵn đem tùy biến xây dựng thành GUI OCR riêng cho Sản phẩm OCR dựa Tesseract phát hành lại dạng mã nguồn mã hay sản phẩm thương mại Kiến trúc Tesseract Adapting thresholding: thực việc nhị phân hóa ảnh đầu vào (ảnh màu ảnh xám ) dựa việc xác định ngưỡng xám tương thích Tesseract cung cấp phương pháp xác định ngưỡng xám: ngưỡng otsu, ngưỡng tương thích cục isodata Page layout analysis: thuật tốn phân tích bố cục trang qua việc dò tabstop [19] đề xuất cài đặt Tesseract Ray Smith nhằm xác định block text, vùng ảnh Text-line finding: Thuật tốn tìm dòng text [10] thiết kế dò dòng text block mà khơng phụ thuộc vào độ nghiêng ảnh tài liệu ban đầu Khi block text tổ chức thành dòng text 14 Baseline fitting: Với dòng text tìm được, Tesseract xem xét ước lượng để tìm đường cap line, mean line, baseline, descent line thích hợp Fixed pitch detection and chopping: Trên dòng text, Tesseract kiểm tra để xác định có phải fixed pitch text (phần text mà ký tự có độ rộng khơng đổi) hay không Tại nơi xác định fixed pitch text, Tesseract bổ từ thành ký tự Proportional (non-fixed pitch) word finding: Chữ in nghiêng, chữ số, dấu chấm câu yếu tố tạo trường hợp đặc biệt khoảng cách ký tự từ dòng text Word recognition: Các khối chia cắt nhỏ bước gọi blod Quá trình nhận dạng từ trải qua pha Pha trình nhận dạng cố gắng nhận dạng blod Với blod thỏa mãn chuyển đến phân lớp tương thích (adaptive classifier) liệu tập huấn Phân lớp tương thích tăng thêm khả làm cho việc nhận dạng xác cho phần text phía sau Các từ khơng nhận dạng tốt pha thứ nhận dạng lại pha thứ hai cách bổ từ thành ký tự nhỏ hơn, nhận dạng kết hợp lại Trong trình nhận dạng từ, kết hợp với việc phân tích ngữ cảnh cú pháp kết xác Nhận dạng văn Tesseract Trình phân loại hình dạng (Shape Classification) hoạt động theo hai giai đoạn Giai đoạn đầu tiên, gọi cắt tỉa lớp, làm 15 giảm ký tự đặt thành danh sách ngắn 1-10 ký tự, sử dụng phương pháp liên quan chặt chẽ đến hàm băm (LSH) Bước cuối tính tốn khoảng cách mờ từ ngun mẫu ký tự danh sách ngắn Ban đầu thiết kế nhằm tiết kiệm thời gian, lớp cắt tỉa phân vùng khơng gian thuộc tính chiều cao, cách xem xét thuộc tính 3-D riêng lẻ Thay cho bảng băm LSH, ta dùng bảng tra cứu đơn giản, trả vectơ số nguyên phạm vi [0, 3], tương ứng lớp ký tự, với giá trị gần phù hợp với thuộc tính với ngun mẫu ký tự Các kết vector tổng hợp lấy lớp có tổng số điểm phần nhỏ trả dạng danh sách rút gọn phân loại theo giai đoạn thứ hai Lớp cắt tỉa tương đối nhanh, thời gian tỉ lệ tuyến tính với số lượng lớp với số lượng thuộc tính Giai đoạn thứ hai tính tốn khoảng cách df đối tượng từ nguyên mẫu gần nhất, khoảng cách Euclide bình phương d tọa độ (x, y) từ dòng ngun mẫu khơng gian 2-D, cộng với chênh lệch trọng số (w) góc 𝜃 từ nguyên mẫu: 𝑑𝑓 = 𝑑2 + 𝑤𝜃 Khoảng cách thuộc tính chuyển đổi thành 𝐸𝑓 sử dụng phương trình sau: 𝐸𝑓 = 1 + 𝑘𝑑𝑓2 16 Hằng số k sử dụng để kiểm soát tốc độ mà chứng phân rã với khoảng cách Khi thuộc tính khớp với mẫu thử, 𝐸𝑓 chép vào mẫu thử 𝐸𝑝 Vì mẫu thử mong đợi nhiều tính so khớp với chúng, tập hợp “phù hợp nhất” thực độc lập với tốc độ, tổng thuộc tính chứng mẫu thử khác Với 𝐿𝑝 tổng độ dài mẫu thử kết chuyển đổi trở lại thành khoảng cách: 𝑑𝑓𝑖𝑛𝑎𝑙 = − ∑𝑓 𝐸𝑓 + ∑𝑝 𝐸𝑝 𝑁𝑓 + ∑𝑝 𝐿𝑝 Bước vào trình nhận diện, input đánh giá, phân tích hai lần Ở lần đầu tiên, OCR nhận diện ký tự với kết phân tích bước trước Các kết nhận diện thoả mãn yêu cầu đưa vào tập tin huấn luyện để hỗ trợ cho trình nhận diện lần thứ hai với kết chưa đạt yêu cầu Đương nhiên, việc xác nhận kết có thoả mãn yêu cầu hay khơng cần phải dựa nhiều tiêu chí nhận diện nội dung phải trải qua trình lặp lặp lại gồm bước nhận diện ký tự, ghép ký tự so khớp với từ điển Các tiêu chí bao gồm khoảng cách ký tự, độ phù hợp với từ điển khoảng cách đến dấu câu Nhận dạng khoảng cách chữ số toán rắc rối Trong văn có nhiều phơng chữ khác dẫn tới khoảng cách từ số khác Tesseract khắc phục khó khăn cách đo khoảng cách chọn gần ngưỡng giá trị mờ với sai số Mỗi ký tự cần nhận dạng có đặc trưng riêng, có khoảng 50 tới 100 đặc trưng điển hình ký tự Mỗi đặc 17 trưng chứa tham số hoành độ, tung độ, góc xoay Trong ký tự mẫu có từ 10 tới 20 đặc trưng, đặc trưng có tham số hồnh độ, tung độ, góc xoay, độ dài So sánh, đánh giá cơng nghệ Tesseract OCR với công nghệ khác Ưu điểm lớn mà cơng nghệ Tesseract có tính mở việc nghiên cứu Ngồi Tesseract ý đến việc huấn luyện học máy để nhận biết kiểu chữ khác nhau, từ xây dựng thư viện riêng cho loại văn khác Vì so với cơng nghệ khác, Tesseract phù hợp với việc phát nhận dạng loại văn đặc biệt khơng thống Việc làm cho thấy tính chất phù hợp công nghệ việc phát nhận dạng văn video 2.5 Kết luận chương Trong chương luận văn, học viên trình bày cách khái quát công nghệ kỹ thuật sử dụng việc phát nhận dạng văn video Đồng thời học viên trình bày hiểu biết cơng nghệ Tesseract OCR, kiến trúc hoạt động sử dụng Tesseract Học viên đưa so sánh công nghệ Tesseract với công nghệ nhận dạng văn khác để từ cho thấy tính phù hợp Tesseract việc xây dựng thiết kế chương trình phát nhận dạng văn video chương 18 Chương 3- XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 3.1 Phân tích thiết kế toán nhận dạng nội dung video kỹ thuật nhận dạng ký tự quang học 3.2 Nghiên cứu xây dựng chương trình dựa phần mềm mã nguồn mở Tesseract - OCR 3.2.1 Công cụ môi trường xây dựng chương trình 3.2.2 Giao diện chương trình 3.3 Thử nghiệm chương trình tập liệu thực Để đánh giá trình OCR Tesseract-OCR, tác giả đánh giá dựa vào tiêu chí: phần trăm số khung hình nhận dạng (P) phần trăm văn nhận dạng khung hình (R) Cơng thức biểu diễn sau: Phần trăm số khung hình nhận dạng video P= ∑ 𝑘ℎ𝑢𝑛𝑔 ℎì𝑛ℎ 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔 ∗ 100% 𝑁 (với N tổng số khung hình video) phần trăm văn nhận dạng video R = ∑𝑁 𝑖=1 𝑅𝑖 𝑁 (với N tổng số khung hình video) Vơi 𝑅𝑖 tính theo cơng thức: 𝑅𝑖 = ∑ 𝑣ă𝑛 𝑏ả𝑛 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔 ∑ 𝑣ă𝑛 𝑏ả𝑛 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đượ𝑐 *100% Qua thực nghiệm tác giả nhận rằng, khung hình khơng bị ảnh hưởng hiệu ứng trình chiếu kết nhận 19 dạng Tesseract-OCR cho kết với độ xác cao, xấp xỉ khoảng 80% đến 90% Nhưng khung hình bị ảnh hưởng cho kết nhận dạng thấp, khoảng 60% - 70% Vì độ xác trung bình video bị giảm đáng kể, xấp xỉ 73.88% Đây thách thức hạn chế tác giả luận văn 3.4 Kết luận chương Trong chương luận văn, học viên xây dựng thiết kế chương trình có khả phát nhận dạng văn video từ kiến thức nghiên cứu từ chương Đồng thời ứng dụng chương trình tập liệu thực cho đánh giá ban đầu kết đạt Từ rút định hướng phát triển tương lai chương trình như: thử nghiệm với tập liệu đa dạng hơn, nghiên cứu phương pháp, kĩ thuật nhằm nâng cao khả nhận dạng văn chương trình 20 KẾT LUẬN Hiện lĩnh vực OCR, với mục đích rút trích ký tự ảnh lưu thành dạng text, ứng dụng cách rộng rãi nhiều lĩnh đời sống Nhiều hệ thống OCR xây dựng đưa dạng sản phẩm thương mại miễn phí, chí dạng mã nguồn mở Với mong muốn tìm hiểu lĩnh vực OCR góp phần việc bổ sung vào kho ứng dụng OCR sản phẩm mới, luận văn vào nghiên cứu “Phát nhận dạng văn Video” sử dụng công nghệ OCR mã nguồn mở tiên tiến Tesseract OCR Qua trình làm luận văn, việc tạo sản phẩm OCR thực tế, thân có hội tìm tòi hiểu biết nhiều hơn, rộng lĩnh vực OCR lập trình ứng dụng, thuật tốn sử dụng để nhị phân hóa ảnh, dò hướng chỉnh độ nghiêng ảnh, phân tích bố cục trang ảnh, phương pháp nhận dạng ký tự ; hiểu biết công nghệ Tesseract OCR Trong khuôn khổ luận văn, học viên trình bày cách tổng quan lĩnh vực OCR số vấn đề liên quan Do mục đích luận văn nghiên cứu xây dựng hệ thống nhận dạng dịch sử dụng mã nguồn mở số công nghệ tiên tiến có nên khơng sâu vào lý thuyết phương pháp, thuật toán cụ thể sử dụng bước hệ thống OCR Ưu điểm hệ thống nhận dạng chuẩn xác văn video có chất lượng hình ảnh cao Tuy nhiên có khuyết 21 điểm đáng kể với video có chất lượng thấp chữ sử dụng đặc biệt Trong thời gian tới, hệ thống cần phát triển theo hướng đưa dần việc OCR số ngôn ngữ đặc biệt khác Nghiên cứu kỹ thuật sửa lỗi hậu OCR phù hợp nhiều ngôn ngữ khác nhau, đồng thời tích hợp nhiều kỹ thuật nâng cao chất lượng ảnh vào hệ thống, kết hợp mã nguồn mở OCRopus với Tesseract công nghệ OCR mạnh mẽ ... vực phát nhận dạng văn video 9 Chương 2- PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG VIDEO 2.1 Bài toán nhận dạng văn video lĩnh vực dịch thuật giảng trực tuyến Văn video phân loại thành hai loại: văn. .. 2.3 Kỹ thuật nhận dạng trích xuất văn từ ảnh 2.3.1 Các giải thuật nhận dạng văn Ứng dụng Logic mờ nhận dạng văn Ứng dụng mạng Neural nhân tạo nhận dạng văn 2.3.2 Phát nhận dạng văn công nghệ... phát nhận dạng văn video dựa vào xử lý ảnh công nghệ OCR Trong khuôn khổ luận văn này, tác giả đề cập đến video giảng, thuyết trình dạng slide có phụ đề tốn liên quan đến q trình nhận dạng văn

Định dạng
Số trang	23
Dung lượng	531,45 KB