XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH THÔNG THƯỜNG VÀ ẢNH VIDEO
3.5 THỰC HIỆN LIÊN KẾT CÁC THÀNH PHẦN
Sau khi phân tích ảnh có nhiều giá trị, chúng ta thu được bảng tìm kiếm nhận dạng tiền cảnh (FI) cho các giá trị ảnh điểm theo ảnh tiền cảnh. Ảnh điểm trong ảnh gốc có một hoặc nhiều giá trị nhận dạng tiền cảnh và có thể đóng góp một hoặc nhiều ảnh tiền cảnh được định rõ trong bảng này. Thông tin này sẽ được sử dụng cho việc tìm kiếm các thành phần liên kết trong ảnh xám miêu tả dưới đây. Đồ thị khối liền kề (Blog Adjacency Graph BAG) được sử dụng để tính toán hiệu quả các thành phần liên kết do nó có thể được tạo ra bởi quy trình một chiều [7].
Hình 3.13: Ảnh nhị phân và BAG của nó
BAG của một ảnh được xác định bằng B =(N, ) , trong đó N={ni}là tập
hợp nút khối và là tập hợp đỉnh biểu thị liên kết giữa cỏc
nút ni và nj. Đối với ảnh nhị phân, một trong hai giá trị xám có thể được coi là tiền cảnh và giá trị khác là nền. Các ảnh điểm trong tiền cảnh được nhóm thành các khối liên kết cận kề với nhau như cỏc nỳt trong đồ thị. Hình 3.13 đưa ra một ví dụ của BAG, trong đó khối được mô tả bởi các toạ độ đường biên hình chữ nhật phía trên bên trái (Xu, Yu) và phía dưới bên phải (Xl, Yl), là hộp ranh giới của nhóm đoạn giảm được sắp thẳng hàng gần nhau. Chú ý rằng những liên kết tồn tại giữa các khối gần kề nhau. Tác giả mở rộng thuật toán truyền thống để tạo ra BAG cho các ảnh có nhiều giá trị, trong đó BAG được tạo ra riêng lẻ cho mỗi ảnh tiền cảnh bắt đầu từ đoạn giảm. Đoạn giảm trong ảnh có nhiều giá trị bao gồm nhiều ảnh điểm liên tục có FI giống nhau trên một hàng như chúng được gắn trước đó. Thuật toán mức độ cao hơn tạo ra BAG cho ảnh có nhiều giá trị được thể hiện trong hình 3.14. Chú ý rằng cỏc nỳt BAG đối với các tiền cảnh khác nhau không liên kết với nhau. Quá trình sau được thực hiện song song đối với tất cả các ảnh tiền cảnh.
Cho BAG, thành phần liên kết ci = {ni} là tập hợp cỏc nỳt BAG được liên kết thoả món cỏc điều kiện sau: (i) ci , có một dãy
(nj , nj1,nj2 ,…, njP ,nk ,)
Và (iii) nếu e (nj, nj) và nj nj thì nk ci. Những toạ độ phía trên bên trái và phía dưới bên phải của thành phần liên kết là ci {ni }
Xu(ci)= ,
Yu(ci)= ,
Mỗi đoạn giảm trong hàng đầu tiên của ảnh đầu vào được coi là một khối có FI tương ứng.
Đối với các hàng liên tiếp trong ảnh {
Đối với mỗi đoạn giảm rc trong hàng hiện thời {
Nếu rc được nối 8 với đoạn giảm trong hàng trước và chúng có cùng FI {
Nếu rc được nối 8 chỉ với một đoạn giảm rl có cùng FI và độ chênh lệch của các vị trí ngang của các ảnh điểm đầu tiên và cuối cùng là trong dung sai cho trước tương ứng Ta, thì rc được kết hợp với nút khối ni có rl.
Ngoài ra, rc được coi là nút khối mới ni+1 có FI tương ứng, được bắt đầu với các lề
e(ni, nj) đến các nút khối {nj} được nối 8 với rc
}
Ngoài ra, rc được coi là nút khối mới ni+1 có FI tương ứng. }
}
Hình 3.15: Phân tích thành phần liên kết cho ảnh tiền cảnh trong hình 3.11 (f): (a) các thành phần liên kết; (b) ngưỡng của thành phần liên kết; (c) dòng text ứng viên
Thành phần liên kết được trích ra đối với ảnh tiền cảnh trong hình 3.11 (f) được miêu tả trong hình 3.15 (a). Các thành phần liên kết rất nhỏ bị xoá đi như trong hình 3.15 (b). Giả sử rằng tác giả đang tìm kiếm text ngang, tác giả nhóm các thành phần liên kết theo chiều ngang và các thành phần kết quả được gọi là dòng text ứng viên như trong hình 3.15 (c).
Hình 3.16: Các ký tự trong dòng text: (a) các ký tự được phân tách; (b) các thành phần liên kết và cỏc dòng text cho (a); (c) các ký tự chạm nhau; (d) các thành phần liên kết và cỏc dòng
text cho (c); (e) hình chiếu của trục X và ký hiệu của text trong (c); (f) hình chiếu của trục Y và ký hiệu của text trong (c).