XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH THÔNG THƯỜNG VÀ ẢNH VIDEO
3.3.4. Chú thích video
Chú thích video để tìm một số khung mong muốn dựa trên thông tin truy vấn người dùng. Nhiều hướng tiếp cận được đưa ra sử dụng thông tin truy vấn trực quan như kết cấu [15], hình dáng [16] và màu sắc [17]. Đồng thời, những kỹ thuật đánh dấu từ [18] và nhận dạng lời nói [19] được sử dụng trong tìm kiếm hội thoại và tường thuật để chú thích video. Text có phụ đề và không có phụ đề trên các vật thể (object) có trong video có thể được dùng trong chú thích tương tác và chú thích tự động, đây chính là mục tiêu chính của xác định vùng chứa chữ đối với video. Hình 3.4 (d) thể hiện khung video có chứa text. Một số công việc có liên quan được thực hiện để thu lại ảnh và video trong đó những gợi ý tìm kiếm sử dụng những đặc trưng trực quan của các vật cụ thể và những phụ đề trong cơ sở dữ liệu ảnh và video [20, 6]
3.3.5 Tóm tắt
Có hai lớp ứng dụng cần thiết trong công việc xác định vùng chứa chữ tự động: (i) chuyển đổi tài liệu và (ii) tìm kiếm Web và chú thích video. Lớp ứng dụng đầu tiên, chủ yếu chứa ảnh nhị phân, yêu cầu tất cả text trong ảnh đầu vào phải được định vị. Điều này đòi hỏi phải có độ phân giải ảnh cao hơn. Mặt khác, rõ ràng rằng những yêu cầu quan trọng nhất đối với lớp ứng dụng thứ hai là (i) tốc độ xác định vùng chứa chữ cao, và (ii) chỉ text quan trọng trong ảnh đầu vào là cần định vị. Thông thường, cỡ phông trong ảnh càng lớn thì nó càng quan trọng. Text rất bé không thể nhận dạng được một cách dễ dàng bởi công cụ OCR [21]. Nói chung, text quan trọng trong các ảnh xuất hiện chủ yếu theo chiều ngang. Do đó, phương pháp của tác giả có gắng chỉ trích text ngang với cỡ tương đối lớn. Tuy nhiên, thuật toán của tác giả có thể dễ dàng thay đổi để trích text theo các chiều khác. Do một số vật không có text sau đó có thể bị loại bỏ bởi module OCR, nên tác giả tối thiểu hoá khả năng quên text (bỏ sót sai) bao gồm làm mất ngày càng tăng xác suất báo động giả.
Hình 3.6 cho thấy tổng quan của hệ thống đưa ra. Đầu vào có thể là ảnh nhị phân, ảnh Web tổng hợp, ảnh màu hoặc khung video. Sau khi giảm màu (color reduction) bao gồm cả giảm bit (drop bit) gộp màu và phân tích ảnh có nhiều giá trị, ảnh đầu vào được phân tích thành nhiều ảnh tiền cảnh (foreground image). Những
ảnh tiền cảnh đi qua các bước xử lý giống nhau, cho nên các module phân tích thành phần liên kết và nhận dạng text có thể được thực hiện song song trên hệ thống đa xử lý để tăng tốc độ. Cuối cùng, các đầu ra từ tất cả các kênh được tập hợp vào để nhận dạng vị trí của text trong ảnh đầu vào. Xác định vùng chứa chữ được thể hiện giống các toạ độ hộp ranh giới của nó.
Trong phần 3.3, đồ án sẽ miêu tả phương pháp phân tích ảnh có nhiều giá trị bao gồm cả việc giảm khoảng màu. Phương pháp phân tích thành phần liên thông được áp dụng cho các ảnh tiền cảnh được giải thích ở phần 3.4. Phần 3.5 là thảo luận về đặc trưng của text, nhận dạng text và kết cấu text trong ảnh.
Hình 3.6: hệ thống xác định vùng chứa chữ tự động