Những đặc trƣng chung của một tệp tài liệu ảnh

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 36)

Thế nào được gọi là đối tượng văn bản và đối tượng ảnh? Dường như không có sự phân biệt rõ ràng hai loại đối tượng này trên ảnh nhị phân, bởi vì cả hai đối tượng đều được biểu diễn bởi các con số 0 và 1 trong ảnh nhị phân. Do đó việc phân biệt được sự khác nhau giữa hai loại đối tượng này sẽ dựa vào phán đoán chủ quan và thống kê. Đối với trường hợp văn bản được kết hợp bởi các ký tự Trung Quốc sẽ có một số trường hợp đặc biệt. Thí dụ trong Hình 12 chỉ ra một số nhầm lẫn khi nhận dạng, trong đó vùng 1 giống như vùng a, 2 giống như b và 3 giống như c. Mặc dù máy tính sẽ rất khó để phân biệt sự khác nhau giống như trong Hình 12, nhưng chúng ta sẽ dễ dàng phân biệt chúng nếu dựa vào những điều kiện sau:

- Văn bản – các biểu tượng hay chuỗi ký tự bao gồm các ký tự, các từ, ký tự

số, ký tự Trung Quốc (hoặc ngôn ngữ khác) hoặc các ký tự đặc biệt. - Ảnh – các thành phần không chứa các ký tự, bao gồm tất cả các loại đường

thẳng, đường cong, hay các bức ảnh, sơ đồ, .v.v..

Dựa trên những định nghĩa cơ bản của hai loại đối tượng văn bản và ảnh ở trên, chúng ta có thể nhận biết được những đặc trưng khác nhau giữa hình bao của vùng văn bản và ảnh được liệt kê dưới đây:

1) Kích cỡ của ký tự văn bản bao giờ cũng nhỏ hơn nhiều kích cỡ của các đối tượng ảnh. Tỉ lệ kích cỡ hình bao của văn bản thường nhỏ. Chẳng hạn với kiểu chữ Tahoma – 20 có tỉ lệ trung bình của chiều rộng/chiều cao là vào khoảng 2:3.

2) Các ký tự văn bản thường nằm trong một chuỗi ký tự. Khoảng cách giữa các ký tự trong một từ hay khoảng cách giữa các từ thường là nhỏ và thường theo những quy tắc nhất định. Hướng của chuỗi ký tự thường là theo chiều ngang, chiều dọc hoặc là nghiêng một góc 45 độ.

Hình 12. Một số thí dụ nhầm lẫn giữa ký tự và ảnh

Hình 13. Thí dụ về văn bản và ảnh

Bảng 1 Độ đậm của nét bút (LSD) của Hình 13.

Ký tự Chiều rộng Chiều cao Số điểm đen Số điểm trắng B/(B+W)(%)

12 15 88 92 48.9 14 15 59 151 28.1 15 15 62 163 27.6 13 15 84 111 43.1 “Text” 28 10 94 126 35.0 “and” 22 10 94 126 42.7 “Graphics” 56 13 220 706 30.2 “Separation” 68 13 268 616 30.3 Hình 2.(c) 201 92 1801 16691 9.7

3) Độ đậm của nét chữ trong vùng chuỗi văn bản bao giờ cũng lớn hơn so với độ đậm của vùng ảnh.

4) Độ dài của các thành phần tuyến tính trong nét bút của chuỗi ký tự thường ngắn hơn so với các đối tượng ảnh, chẳng hạn như một đường kẻ dài hiếm khi xuất hiện trong nét bút của chuỗi ký tự.

Mặc dù trên thực tế mỗi đặc trưng được đưa ra ở trên cũng có một số ngoại lệ xảy ra. Tuy nhiên ở trên là bốn đặc trưng chung nhất của các đối tượng văn bản và ảnh.

Hình 14. Biểu diễn các điểm ảnh giao nhau

Hình 15. Một số trường hợp ngoại lệ

Thí dụ được đưa ra trên Hình 13 bao gồm hai loại kiểu ký tự: ký tự Trung Quốc và ký tự Tiếng Anh. Bảng 1 chỉ ra thông tin về Độ Đậm Đặc (LSD) của các đối tượng văn bản và ảnh. Trong đó B là số lượng điểm ảnh màu đen (black pixel – 1) và W là số lượng điểm ảnh màu trắng (white pixel – 0) tính trong hình bao. Khi đó LSD được tính bằng công thức LSD = B/(B+W)(%). Trong đó hình bao của một đối tượng là một hình chữ nhật giới hạn nhỏ nhất bao quanh đối tượng, hình chữ nhật bao quanh ký tự Trung Quốc, hình chữ nhật bao quanh một từ Tiếng Anh, hình chữ nhật bao quanh toàn bộ hình 2c. Nếu chúng ta kẻ một đường thẳng cắt ngang từng chuỗi ký tự và ảnh trong hình 2c, khi đó điểm giao của những đường thẳng này và các nét bút sẽ là các điểm ảnh màu đen hoặc màu trắng. Cho rằng các điểm ảnh màu đen được biểu diễn ở mức cao, các điểm ảnh màu trắng được biểu diễn ở mức thấp, khi đó Hình 14 biểu

diễn tần số xuất hiện của các điểm ảnh giao nhau màu đen và màu trắng khi đường thẳng cắt ngang qua các đối tượng. Nhìn trên Hình 14 sự thay đổi tần số của các nét bút trong văn bản thường cao hơn so với đối tượng ảnh. Hình 15 chỉ ra một số trường hợp ngoại lệ. Hình 15a đưa ra một bức ảnh nhỏ và nhìn giống như một ký tự. Hình 15b là một ký tự Trung Quốc rất khó phân biệt so với các đối tượng ảnh, đặc biệt khi ký tự này tiếp xúc với các đối tượng ảnh. Hình 15c là một đối tượng ảnh có LSD cao. Những ngoại lệ trên là những nguyên nhân chính dẫn đến sự nhận dạng và phân tách sai các đối tượng trong các kết quả thí nghiệm được đưa ra dưới đây.

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 36)