XÁC ĐỊNH VÙNG CHỨA CHỮ TRONG ẢNH THÔNG THƯỜNG VÀ ẢNH VIDEO
3.5 THỰC HIỆN LIÊN KẾT CÁC THÀNH PHẦN
Sau khi phân tích ảnh có nhiều giá trị, chúng ta thu được bảng tìm kiếm nhận dạng tiền cảnh (FI) cho các giá trị ảnh điểm theo ảnh tiền cảnh. Ảnh điểm trong ảnh gốc có một hoặc nhiều giá trị nhận dạng tiền cảnh và có thể đóng góp một hoặc nhiều ảnh tiền cảnh được định rõ trong bảng này. Thông tin này sẽ được sử dụng cho việc tìm kiếm các thành phần liên kết trong ảnh xám miêu tả dưới đây. Đồ thị khối liền kề (Blog Adjacency Graph BAG) được sử dụng để tính toán hiệu quả các thành phần liên kết do nó có thể được tạo ra bởi quy trình một chiều [7].
Hình 3.13: Ảnh nhị phân và BAG của nó
BAG của một ảnh được xác định bằng B =(N,ε ) , trong đó N={ni}là tập hợp nút khối và ε ={e(ni,nj)¦ni,nj∈N}là tập hợp đỉnh biểu thị liên kết giữa các nút ni và
trị khác là nền. Các ảnh điểm trong tiền cảnh được nhóm thành các khối liên kết cận kề với nhau như các nút trong đồ thị. Hình 3.13 đưa ra một ví dụ của BAG, trong đó khối được mô tả bởi các toạ độ đường biên hình chữ nhật phía trên bên trái (Xu, Yu) và phía dưới bên phải (Xl, Yl), là hộp ranh giới của nhóm đoạn giảm được sắp thẳng hàng gần nhau. Chú ý rằng những liên kết tồn tại giữa các khối gần kề nhau. Tác giả mở rộng thuật toán truyền thống để tạo ra BAG cho các ảnh có nhiều giá trị, trong đó BAG được tạo ra riêng lẻ cho mỗi ảnh tiền cảnh bắt đầu từ đoạn giảm. Đoạn giảm trong ảnh có nhiều giá trị bao gồm nhiều ảnh điểm liên tục có FI giống nhau trên một hàng như chúng được gắn trước đó. Thuật toán mức độ cao hơn tạo ra BAG cho ảnh có nhiều giá trị được thể hiện trong hình 3.14. Chú ý rằng các nút BAG đối với các tiền cảnh khác nhau không liên kết với nhau. Quá trình sau được thực hiện song song đối với tất cả các ảnh tiền cảnh.
Cho BAG, thành phần liên kết ci = {ni} là tập hợp các nút BAG được liên kết thoả mãn các điều kiện sau: (i) ci ⊂B;(ii)∀nj,nK ∈ci, có một dãy
(nj , nj1,nj2 ,…, njP ,nk ,)
với nji ∈ci do l = 1, 2, …, p và e (nj , nj1),e (nj1 , nj2),…, e (njp-1 , njp),e (njp , njk),∈ε
Và (iii) nếu e (nj, nj) ∈ε và nj ∈ nj thì nk ∈ ci. Những toạ độ phía trên bên trái và phía dưới bên phải của thành phần liên kết là ci ∈ {ni }
Xu(ci)=min{ ( )}, ( ) { u( j)} c n i u j u c n X n X c ma X n i j i j × = ∈ ∈ , Yu(ci)=min{ ( )}, ( ) { u( j)} c n i u j u c n Y n Y c ma Y n i j i j × = ∈ ∈ ,
tương ứng.
Đối với các hàng liên tiếp trong ảnh {
Đối với mỗi đoạn giảm rctrong hàng hiện thời {
Nếu rc được nối 8 với đoạn giảm trong hàng trước và chúng có cùng FI {
Nếu rc được nối 8 chỉ với một đoạn giảm rl có cùng FI và độ chênh lệch của các vị trí ngang của các ảnh điểm đầu tiên và cuối cùng là trong dung sai cho trước tương ứng Ta, thì rc được kết hợp với nút khối nicó rl.
Ngoài ra, rc được coi là nút khối mới ni+1 có FI tương ứng, được bắt đầu với các lề
e(ni, nj) đến các nút khối {nj} được nối 8 với rc
}
Ngoài ra, rc được coi là nút khối mới ni+1 có FI tương ứng. }
}
Hình 3.14: thuật toán thế hệ BAG một chiều đối với các ảnh có nhiều giá trị
Hình 3.15: Phân tích thành phần liên kết cho ảnh tiền cảnh trong hình 3.11 (f): (a) các thành phần liên kết; (b) ngưỡng của thành phần liên kết; (c) dòng text ứng viên
Thành phần liên kết được trích ra đối với ảnh tiền cảnh trong hình 3.11 (f) được miêu tả trong hình 3.15 (a). Các thành phần liên kết rất nhỏ bị xoá đi như trong hình 3.15 (b). Giả sử rằng tác giả đang tìm kiếm text ngang, tác giả nhóm các thành phần liên kết theo chiều ngang và các thành phần kết quả được gọi là dòng text ứng viên như trong hình 3.15 (c).
Hình 3.16: Các ký tự trong dòng text: (a) các ký tự được phân tách; (b) các thành phần liên kết và các dòng text cho (a); (c) các ký tự chạm nhau; (d) các thành phần liên kết và các dòng
text cho (c); (e) hình chiếu của trục X và ký hiệu của text trong (c); (f) hình chiếu của trục Y và ký hiệu của text trong (c).