Thử nghiệm chương trình trên tập dữ liệu thực

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và nhận dạng văn bản trong video (Trang 58 - 61)

Trong phần thực nghiệm này, tác giả tiến hành trên 5 video bài giảng thu thập được trên mạng. Tiến hành trích xuất các khung hình từ lần lượt các video thu được kết quả theo bảng dưới đây:

Bảng 3. 3: Danh sách và đặc điểm tập dữ liệu thực STT Độ dài video

(phút:giây)

Số khung hình (keyframes)

Đặc điểm của văn bản

1 1:57 118 Văn bản nằm trên nền, nhiều kích thước

2 2:22 148 Văn bản nằm trên nền, nhiều màu

sắc, có hiệu ứng làm mờ

3 3:35 224 Văn bản nằm trên khung cố định

4 2:59 202 Văn bản chú thích, độ tương phản thấp

5 3:39 228 Văn bản nằm trên nền, ít hiệu ứng

Số lượng khung hình thu được của mỗi video tương ứng như trong bảng. Ứng với từng đặc điểm riêng của video theo mô tả của bảng ta thu nhận được những kết quả khác nhau, từ đó đánh giá được mức độ chính xác mà chương trình đem lại. Ta nhận thấy những văn bản có độ tương phản với nền thấp, bị làm mờ do hiệu ứng và kích thước nhỏ sẽ khiến chương trình nhận dạng sai hoặc thiếu sót. Những văn bản chú thích nằm trong khung và ít sử dụng hiệu ứng đều được nhận dạng với độ chính xác cao. Hình dưới thể hiện những lỗi sai trong nhận dạng văn bản do những đặc điểm nêu trên gây ra. Ở ảnh a, ký tự dấu chấm đã bị nhận dạng sai thành các ký tự khác như dấu phẩy, dấu chấm than, số 1 bị nhận dạng sai thành số 4 do có sự tương đồng về cách viết. Ở ảnh b, các ký tự nhận dạng sai do màu sắc gần với màu nền và bị làm mờ bằng hiệu ứng chuyển cảnh. Ở ảnh c, ký tự bị nhận dạng thiếu do kích thước nhỏ và độ tương phản với khung chứa quá thấp.

Hình 3. 6: Các lỗi nhận dạng văn bản sai của chương trình

Bảng dưới đây mô tả kết quả nhận dạng kí tự quang học bằng công cụ Tesseract-OCR. Tập kết quả được lưu trữ với định dạng văn bản .txt.

Để đánh giá quá trình OCR bằng Tesseract-OCR, tác giả đánh giá dựa vào 2 tiêu chí: phần trăm số khung hình có thể nhận dạng đúng (độ chính xác) và phần trăm văn bản có thể nhận dạng đúng trong 1 khung hình (độ hồi tưởng). Công thức được biểu diễn như sau:

Độ chính xác OCR của một video

P = ∑ 𝑘ℎ𝑢𝑛𝑔 ℎì𝑛ℎ 𝑛ℎậ𝑛 𝑑ạ𝑛𝑔 đú𝑛𝑔

𝑁 ∗ 100%

(với N là tổng số khung hình của video) Độ hồi tưởng OCR của một video

R = ∑𝑁𝑖=1𝑅𝑖

𝑁 (với N là tổng số khung hình của video)

Độ hồi tưởng 𝑅𝑖 được tính theo công thức:

Bảng 3. 4: Kết quả nhận dạng của chương trình trên tập dữ liệu thực STT Số khung hình Độ chính xác (%) Độ hồi tưởng (%) 1 118 95.7 69.6 2 148 91.9 62.2 3 224 95.53 88.12 4 202 92.07 59.16 5 228 95.17 90.34 Trung bình 94.07 73.88

Qua thực nghiệm tác giả nhận ra rằng, đối với các khung hình không bị ảnh hưởng bởi hiệu ứng trình chiếu thì kết quả nhận dạng bằng Tesseract-OCR cho kết quả với độ chính xác cao, xấp xỉ khoảng 80% đến 90%. Nhưng đối với các khung hình bị ảnh hưởng thì cho kết quả nhận dạng thấp, khoảng 60% - 70%. Vì vậy độ chính xác trung bình đối với một video bị giảm đáng kể, xấp xỉ 73.88%. Đây cũng là thách thức và hạn chế của tác giả trong luận văn này.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và nhận dạng văn bản trong video (Trang 58 - 61)

Tải bản đầy đủ (PDF)

(64 trang)