Sau khi đã xác định các đoạn thẳng thuần túy được thực hiện trong phần 2.4.1, thì các đoạn thẳng này được chuyển vào lớp hình ảnh và sau đó thực hiện động tác xóa chúng khỏi ảnh tài liệu. Bây giờ tiếp tục phát hiện các đối tượng ảnh khác dựa vào tính năng rằng các đối tượng này có những đặc điểm khác biệt lớn so với các đối tượng văn bản. Chúng ta sẽ tạo ra những nét vẽ liên thông tám láng giềng (LT8LG) trên cơ sở căn cứ vào các điểm ảnh màu đen thuộc cùng một vùng
Hình 2.5: Minh họa phương pháp kéo giãn để phát hiện các đoạn thẳng nghiêng.
(a): ảnh nguyên bản ban đầu; (b): góc α = +22.5o; (c): góc α = +45o; (d): góc α = +67.5o
Nguồn: Zhaoyang (1998)
giới hạn liên thơng tám, theo đó một điểm ảnh đen sẽ liên thông tám láng giềng với một điểm ảnh đen khác thuộc vùng giới hạn đó. Tất nhiên lúc này trong nét vẽ LT8LG thì các điểm ảnh có quan hệ liên thơng tám nằm trong khu vực giới hạn (vùng bao quanh) hình vng hoặc hình chữ nhật chưa thể xác định rõ là chúng sẽ thuộc về đối tượng hình ảnh hay văn bản. Một nét vẽ liên thông tám được đồng nhất với một vùng bao quanh đối tượng, nó sẽ lưu trữ các thành phần tọa độ lớn nhất và nhỏ nhất của vùng bao quanh hình chữ nhật đồng thời lưu trữ số lượng điểm ảnh màu đen (điểm ảnh có giá trị 1 trong ảnh nhị phân).
Nét vẽ LT8LG được sinh ra khi quét ảnh theo từng dòng sau khi ảnh tài liệu đã được xóa hết các đoạn thẳng thuần túy và sẽ dùng các thông số của mật độ điểm ảnh của nét vẽ LT8LG để làm căn cứ phát hiện đối tượng ảnh không phải là các đoạn thẳng thuần túy. Thực hiện lặp lại bước xóa khỏi ảnh tài liệu các đối tượng ảnh khi chúng đã được phát hiện và được chuyển vào lớp đối tượng ảnh. Lúc đó ảnh tài liệu chỉ cịn lại các đối tượng văn bản. Các nét vẽ LT8LG được xây dựng dựa vào phương pháp tách cạnh dựa vào các tham số, trong đó tọa độ của các điểm ảnh thuộc vùng bao quanh của một nét vẽ được ký hiệu là (Xi,Yi), với i=1,2,3,4,5,…k, sao cho k là tổng số điểm ảnh thuộc vùng bao quanh đối tượng. Chúng ta thiết lập các biến số và tham số tương ứng cần thiết để làm căn cứ tách cạnh như sau:
i) VBQ (Vùng Bao Quanh): Thể hiện tọa độ nhỏ nhất và lớn nhất vùng bao quanh hình chữ nhật của nét vẽ LT8LG.
ii) TyleDen (Tỷ lệ Đen): Thể hiện mật độ điểm ảnh của các điểm ảnh đen trong vùng giới hạn của VBQ.
iii) TyleChieu: (Tỷ lệ Chiều): Thể hiện tỷ lệ giữa hai chiều của vùng giới hạn VBQ. Nếu TyleChieu < 1 thì ta đặt TyleChieu = 1 / TyleChieu.
Lúc này nét vẽ LT8LG được xem là một đối tượng ảnh trên cơ sở chúng ta thiết lập các tham số TS2, TS3 và TS4 sao cho các biến số nêu trên thỏa mãn một trong những bất đẳng thức sau đây:
a) TyleDen ≤ TS2;
b) TyleChieu ≥ TS3; hoặc
Việc thiết lập các tham số TS2, TS3 và TS4 là hoàn toàn tương tự như khi thiết lập tham số TS1 đã được trình bày trong phần 2.4.1. Vì mật độ điểm ảnh màu trắng trong vùng VBQ của các đoạn thẳng nghiêng sẽ lớn hơn nhiều so với nét vẽ LT8LG của chuỗi văn bản, nên ta có thể ứng dụng bất đẳng thức a) để phát hiện các đoạn thẳng nghiêng mà có góc nghiêng khác với các góc nghiêng đặc biệt đã được phát hiện trong phần 2.4.1 (đó là các góc nghiêng ±22.5o, ±45o, ±67.5o, ±90o). Ngoài ra bất đẳng thức a) còn để phát hiện các hình ảnh có giá trị TyleDen nhỏ nhưng bản thân kích thước của nó lại lớn. Tương tự như vậy, ta sẽ sử dụng bất đẳng thức b) để phát hiện các hình ảnh dài và có chiều rộng nhỏ và bất đẳng thức c) dùng để phát hiện các ảnh có kích thước nhỏ hơn ký tự. Như vậy, có nhiều loại đối tượng ảnh đã được phát hiện thông qua phương pháp này và cũng lặp lại bước xóa tạm các đối tượng ảnh đã phát hiện sau khi đã xếp chúng vào lớp đối tượng ảnh. Theo đó, một số đối tượng cấu thành văn bản mà bị phát hiện nhầm cũng sẽ bị xóa theo. Các đối tượng bị xóa nhầm thường là các dấu chấm câu, dấu chấm thang, một số nét chữ đặc thù như chữ Trung Quốc và một vài dấu trên con chữ tiếng Pháp, tiếng Việt chẳng hạn. Nhưng ta sẽ tìm cách khơi phục lại chúng trong những bước sau nếu chúng thật sự tồn tại trong cấu trúc của văn bản (Lai - 1994).