Thí dụ được đưa ra trên Hình 13 bao gồm hai loại kiểu ký tự: ký tự Trung Quốc và ký tự Tiếng Anh. Bảng 1 chỉ ra thông tin về Độ Đậm Đặc (LSD) của các đối tượng văn bản và ảnh. Trong đó B là số lượng điểm ảnh màu đen (black pixel – 1) và W là số lượng điểm ảnh màu trắng (white pixel – 0) tính trong hình bao. Khi đó LSD được tính bằng công thức LSD = B/(B+W)(%). Trong đó hình bao của một đối tượng là một hình chữ nhật giới hạn nhỏ nhất bao quanh đối tượng, hình chữ nhật bao quanh ký tự Trung Quốc, hình chữ nhật bao quanh một từ Tiếng Anh, hình chữ nhật bao quanh toàn bộ hình 2c. Nếu chúng ta kẻ một đường thẳng cắt ngang từng chuỗi ký tự và ảnh trong hình 2c, khi đó điểm giao của những đường thẳng này và các nét bút sẽ là các điểm ảnh màu đen hoặc màu trắng. Cho rằng các điểm ảnh màu đen được biểu diễn ở mức cao, các điểm ảnh màu trắng được biểu diễn ở mức thấp, khi đó Hình 14 biểu
diễn tần số xuất hiện của các điểm ảnh giao nhau màu đen và màu trắng khi đường thẳng cắt ngang qua các đối tượng. Nhìn trên Hình 14 sự thay đổi tần số của các nét bút trong văn bản thường cao hơn so với đối tượng ảnh. Hình 15 chỉ ra một số trường hợp ngoại lệ. Hình 15a đưa ra một bức ảnh nhỏ và nhìn giống như một ký tự. Hình 15b là một ký tự Trung Quốc rất khó phân biệt so với các đối tượng ảnh, đặc biệt khi ký tự này tiếp xúc với các đối tượng ảnh. Hình 15c là một đối tượng ảnh có LSD cao. Những ngoại lệ trên là những nguyên nhân chính dẫn đến sự nhận dạng và phân tách sai các đối tượng trong các kết quả thí nghiệm được đưa ra dưới đây.
2.3. Thuật toán phân tách văn bản - ảnh
Phần này sẽ trình bày thuật toán phân tách văn bản - ảnh dựa trên một số quy tắc [28] để xác định các đối tượng ảnh, lưu giữ thông tin của chúng và từ đó xác định được các đối tượng văn bản. Hình 16 chỉ ra sơ đồ thực hiện lần lượt các bước của thuật toán. Các bước thực hiện chính của thuật toán được tóm tắt lại như sau:
2.3.1. Xoá bỏ các đối tượng tuyến tính (đường thẳng)
Theo như đặc trưng 4 trong phần 2.2 các thành phần tuyến tính của ảnh thường được xác định trước. Khái niệm thành phần tuyến tính (LC) để ám chỉ đến các đối tượng có nét bút là các điểm ảnh đen (black pixel) nằm liên tiếp khi đi theo một hướng nhất định. Trong phần này, thuật toán sẽ duyệt từ trên xuống dưới quét theo từng hàng để tìm các thành phần LC, một LC sẽ được xác định là một đối tượng ảnh khi mà độ dài của nó lớn hơn một tham số T1 được đặt trước. Cũng làm tương tự như vậy nhưng sẽ quét theo chiều thẳng đứng từ trái sang phải để tìm những thành phần LC. Các thành phần LC có góc nghiêng là ±22.5, ±45, ±67.5 cũng sẽ được xác định. Tất cả các đối tượng LC được xác định không phải là văn bản (non text regions) sẽ được đưa vào lớp các đối tượng ảnh.
Trong trường hợp hình chữ nhật bao của đối tượng văn bản có chiều rộng hẹp xấp xỉ một điểm ảnh thì đối tượng đó được cho là một đường kẻ thẳng đứng hay ngang có độ rộng là 1 điểm ảnh và chúng được coi như là một đối tượng ảnh. Do đó phần lớn các điểm nhiễu (dấu chấm câu) hay các LC ngắn (dấu gạch ngang, gạch nối) sẽ bị coi là những đối tượng ảnh.