Trong giai đoạn này, các ký tự liền nhau được nhóm lại để tạo thành các dòng văn bản. Hầu hết văn bản thường xuất hiện với hướng ngang hoặc có độ dốc không lớn. Đặc trưng này giúp chúng ta quyết định một đối tượng có phải là ký tự thực
(thuộc về một dòng văn bản) hoặc là đối tượng nhiễu không mong đợi. Đầu tiên, chúng ta phát sinh các cặp ký tự hợp lệ dựa vào các quy luật sau.
Các ký tự thuộc cùng một dòng thường có độ rộng nét tương tự nhau. Hai ký tự ứng viên được nhóm lại nếu tỉ lệ giá trị trung bình của độ rộng nét của chúng không vượt quá 1.5.
Tỉ lệ chiều cao giữa các ký tự không vượt quá 2.25. Quy luật này xem xét các ký tự chữ thường và chữ hoa.
Hai ký tự có khoảng cách không quá xa nhau. Khoảng cách giữa các ký tự không lớn hơn 2.5 lần độ rộng của ký tự có chiều rộng lớn hơn.
Gọi và là tâm của hai ký tự. Độ lệch giữa và không vượt quá 0.5 lần chiều cao của ký tự có chiều cao lớn hơn: |
| , trong đó, H1 và H2 lần lượt là chiều cao của hai ký tự.
Hình 3.10 Kết quả các dòng văn bản hệ thống phát hiện đƣợc
Sau khi phát sinh các cặp ký tự ứng viên, các cặp ký tự này được kết nối lại để tạo thành các chuỗi ký tự. Ban đầu, mỗi chuỗi ký tự chỉ chứa duy nhất một cặp ký tự. Hai chuỗi ký tự sẽ được kết nối lại nếu chúng cùng một ký tự đầu-cuối và có cùng hướng. Quá trình này được lặp lại cho đến khi không còn hai chuỗi nào có thể kết nối được với nhau. Các thành phần liên kết không được gom vào bất kỳ chuỗi
ký tự nào sẽ bị loại bỏ. Giả định các dòng văn bản có ít nhất ba ký tự, các chuỗi ký tự được xem là một dòng văn bản thực nếu số lượng ký tự lớn hơn hoặc bằng 3. Các chuỗi ký tự còn lại chính là các dòng văn bản phát hiện được. Qua giai đoạn này, ta thu được các hình chữ nhật bao quanh các dòng văn bản. Hình 3.10 minh họa các dòng văn bản phát hiện được (được đánh dấu bằng các hình chữ nhật có màu xanh).