XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH THÔNG THƯỜNG VÀ ẢNH VIDEO
3.6.2 Đặc trưng hình chiếu
Đối với các ký tự chạm nhau, đặc trưng được rút ra dựa vào hình chiếu của dòng text theo các chiều ngang và dọc. Ý tưởng cơ bản đó là nếu có các ký tự trong dòng text ứng viên thì sẽ có số lượng gò cụ thể trong hình chiếu trục X của nó và một gò đáng kể trong hình chiếu trục Y. Hình 3.16 (e) và 3.16 (f) mô tả hình chiếu trục X và Y của dòng text trong hình 3.16 (c).
Những dấu hiệu của các hình chiếu theo 2 chiều được tạo ra bởi ngưỡng và chúng được thể hiện trong hình 3.16 (e) và 3.16 (f). Ngưỡng đối với hình chiếu X là
giá trị trung bình còn ngưỡng đối với hình chiếu Y được chọn là 1/3 giá trị cao nhất trong đó. Các dấu hiệu này được quan sát giống như các đoạn giảm 1s và 0s, trong đó 1 thể hiện giá trị của hình chiếu lớn hơn ngưỡng và 0 thể hiện giá trị của hình chiếu nhỏ hơn ngưỡng. Do đó, tác giả xét các đặc trưng sau đối với một text: (i) Do text có nhiều gò trong hình chiếu X, nhưng chỉ có một số gò trong hình chiếu Y nên số lượng đoạn giảm 1 trong dấu hiệu X cần phải lớn hơn 5 và số lượng đoạn giảm 1 trong dấu hiệu Y sẽ nhỏ hơn 3; (ii) Do một gò rất rộng trong hình chiếu X của text không được mong đợi nhờn đoạn lớn nhất trong các đoạn giảm 1 trong dấu hiệu X sẽ nhỏ hơn 1,4 lần chiều cao của dòng text; và (iii) Cỏc gũ trong hình chiếu X sẽ có độ rộng cách đều, có nghĩa là độ lệch chuẩn chiều dài của đoạn giảm 1 sẽ nhỏ hơn 1,2 lần giá trị trung bình và giá trị trung bình sẽ nhỏ hơn 0,11 lần chiều cao của dòng text.
Hình 3.17: Kết cấu text: (a) dòng text trích từ ảnh tiền cảnh hình 3.5 (b); (b) dòng text trích từ ảnh tiền cảnh hình 3.5 (g); (c) kết quả tổng hợp.