Hiển nhiện là bằng mắt thường người ta có thể phân biệt được đâu là đối tượng hình ảnh và đâu là đối tượng văn bản trong 1 ảnh tài liệu đang hiện hữu trên giấy. Nhưng khi chúng ta số hóa ảnh ở dạng ảnh nhị phân thì hình như không thể phân biệt được một cách rõ ràng hai loại hình ảnh này. Lý do là lúc này tất cả các đối tượng hình ảnh đều được biểu diễn dưới dạng nhị phân là những con số 0 và 1. Vì vậy, để phân định được hai loại đối tượng này trong ảnh nhị phân người ta xây dựng những quy tắc dựa trên cơ sở đặc tính của chúng. Phương pháp thông thường là xây dựng một cơ sở dữ liệu bằng phương pháp thống kê và tiên đoán rồi tích hợp vào hệ thống máy học có ứng dụng công nghệ của mạng nơ-ron nhân tạo và hệ cơ sở tri thức. Nhưng vấn đề đặt ra là một số loại chữ viết có cấu trúc như hình vẽ sẽ làm cho máy tính nhầm lẫn giữa ký tự và hình vẽ. Điển hình như chữ viết của Nhật Bản, Hàn Quốc hay Trung Quốc chẳng hạn, những kiểu chữ viết này có những nét sổ ngang, sổ dọc, được chia thành từng bộ như Bộ Trúc, Bộ Nữ,… đặc biệt như chữ Trung Quốc chỉ tính riêng Bộ Thủ đã có đến 214 Bộ Thủ cơ bản. Điều này cần thiết phải xây dựng một cơ sở dữ liệu máy học rất lớn. Có thể lấy thí dụ máy tính sẽ nhầm lẫn giữa hình vẽ và chữ Trung Quốc trong quá trình nhận dạng (Hình 2.1), trong đó, máy tính sẽ nhầm lẫn giữa vùng 1 với vùng a, vùng 2 với vùng b và vùng 3 với vùng c.
Giải pháp để phần nào có thể khắc phục vấn đề này là đưa ra những tính năng cơ bản để phân biệt văn bản và hình ảnh. Cụ thể những tính năng ưu việt để phân biệt là đối với văn bản thì bao gồm các chuỗi ký tự được cấu thành từ những ký tự chữ cái la tinh, ký tự số, các ký tự đặc biệt (special symbol), các ký tự chữ đặc thù của các quốc gia như Trung Quốc, Nhật Bản, Hàn Quốc, Thái Lan, v.v…Trong khi đó hình ảnh thì lại có những tính năng khác biệt không phải là các ký tự như các loại đường thẳng, đoạn thẳng kích thước lớn hơn những nét sổ của ký tự, những đường cong dài và lớn hơn những nét chữ cái la tinh hay những nét cong của chữ Thái Lan, hay những hình ảnh, biểu đồ, sơ đồ và những hình thù đa dạng khác.
Tính năng quan trọng thứ nhất được xét đến để làm cơ sở cho quá trình phân biệt giữa ký tự, chuỗi ký tự, văn bản so với hình ảnh đó là diện tích hình chữ nhật hoặc hình vuông cực tiểu bao quanh mỗi loại đối tượng này (một số tài liệu gọi là vùng bao hay hình bao, tiếng Anh thường dùng chữ boundary area, bài luận này dùng cụm từ “vùng bao quanh”). Tính năng thứ hai được đề cập đến đó là tỷ lệ mật độ điểm ảnh màu đen và màu trắng xét trong phạm vi vùng bao quanh của mỗi đối tượng này. Bài luận dùng cụm từ “mật độ điểm ảnh” (MĐĐA), để chỉ tính năng
này. Lấy thí dụ để tính toán mật độ điểm ảnh như sau, giả sử xét ảnh tài liệu gồm có một chuỗi ký tự tiếng Trung Quốc, hai chuỗi ký tự tiếng Anh và một hình vẽ thể hiện mặt cắt của một thiết bị kỹ thuật nào đó (Hình 2.2).
Gọi Sđen là số lượng điểm ảnh màu đen (điểm ảnh nhận giá trị 1 trong ảnh nhị phân), và gọi Strắng là số lượng điểm ảnh màu trắng (điểm ảnh nhận giá trị 0
trong ảnh nhị phân) tính trong vùng bao quanh của đối tượng. Đối với văn bản thì tính vùng bao quanh cho mỗi từ với chữ tiếng Anh và tính cho mỗi chữ cho tiếng Trung Quốc và tính cho cả hình ảnh trong hình 2.2c. Lúc này mật độ điểm ảnh (đơn vị tính là %) sẽ được tính bởi công thức:
MĐĐA (%) = Sđen/(Sđen + Strắng)
Với cách tính toán như công thức tính giá trị MĐĐA kết hợp với phương pháp thống kê số liệu trên Bảng 1 (Số liệu thống kê về số điểm ảnh và giá trị mật độ điểm ảnh) ta sẽ có được các giá trị về mật độ điểm ảnh trong một vùng bao quanh xác định trước làm cơ sở để tìm tần suất xuất hiện của các điểm ảnh đen và trắng, từ đó sẽ có cơ sở về mặt số liệu để phân biệt được giữa một đối tượng là hình ảnh và đối tượng kia là ký tự hoặc chuỗi ký tự.
Để ứng dụng được các giá trị mật độ điểm ảnh, người ta tiến hành kẻ đường thẳng cắt ngang qua đường trung tuyến của các vùng bao quanh các chuỗi văn bản và cũng kẻ đường thẳng tương tự đối với hình ảnh, lúc này ta sẽ thống kê kết quả thu được từ việc thống kê số lượng các giao điểm giữa đường thẳng vừa kẻ với các điểm ảnh đen tạo nên các nét chữ cũng như giao điểm giữa đường thẳng vừa kẻ với các điểm đen tạo nên hình ảnh (tức nhiên là chỉ xét trong phạm vi vùng bao quanh), gọi chung là “giao điểm”. Ta quy ước rằng nếu có tồn tại giao điểm thì được biểu diễn tương ứng bởi 1 điểm cao nhất (the highest point) và nếu không tồn tại giao
Bảng 2.1: Số liệu thống kê về số điểm ảnh và giá trị mật độ điểm ảnh (Nguồn: Zhaoyang, “Detection of Text Regions From Digital Engineering Drawings”-1998). Ký tự/từ Độ rộng Độ cao Số điểm ảnh đen ảnh trắng Số điểm ảnh (Mật độ điểm MĐĐA
) “ ” 12 15 88 92 48.9 “ ” 14 15 59 151 28.1 “ ” 15 15 62 163 27.6 “ ” 13 15 84 111 43.1 “Text” 28 10 94 126 35.0 “and” 22 10 94 126 42.7 “Graphics” 56 13 220 706 30.2 “Separation” 68 13 268 616 30.3 Hình 13c 201 92 1801 16691 9.7
điểm thì được biểu diễn tương ứng bởi 1 điểm thấp nhất (the lowest point) trong biểu đồ tần suất. Dẫn hình 2.3 để minh họa về biểu đồ tần suất được phát sinh khi chúng ta duyệt từ đầu đến cuối của mỗi đoạn thẳng mà ta đã kẻ như đã mô tả trên đây. Bằng trực quang ta có nhận xét rằng, mật độ điểm ảnh hay mật độ giao điểm của các chuỗi văn bản và đoạn thẳng cắt ngang thường cao hơn nhiều so với mật độ giao điểm của hình ảnh và đoạn thẳng. Đây là một cơ sở quan trọng có tính mấu chốt trong quá trình nhận dạng sự khác biệt giữa chuỗi văn bản và một đối tượng hình ảnh.
Nhưng với phương pháp đường kẻ trung tuyến như đã nêu thì cũng còn nhiều hạn chế và không thể bảo đảm tính toàn vẹn cho mọi đối tượng khi mà đối tượng đó đã được xác định vùng bao quanh. Để chứng minh cho tính chất không toàn vẹn này, thì giả sử rằng ta chọn hình ảnh mặc dù rất lớn nhưng hình này được tô kín bởi những điểm đen, lúc này ta áp dụng phương pháp kẻ đoạn thẳng trung tuyến và tính tần suất giao điểm giữa đoạn thẳng với hình vẽ này thì máy tính sẽ bị đánh lừa và sẽ nhận dạng hình ảnh này thành một đối tượng văn bản. Với một đối tượng ảnh có kích thước nhỏ và những đường nét cấu tạo nên nó trông giống với một ký tự, hoặc một ký tự mà khó để phân biệt với hình ảnh nhỏ thì máy tính cũng sẽ bị đánh lừa và cho ra kết quả nhận dạng ngược lại hoàn toàn với những gì chúng ta mong đợi. Hình 2.4 mô tả một số hình ảnh và ký tự thường gây ra những sai sót trong quá trình nhận dạng áp dụng phương pháp đường kẻ này. Trong đó, hình 2.4a là một hình vẻ giống với ký tự, hình 2.4b là một ký tự giống với hình vẻ nhỏ, hình 2.4c là một hình với mật độ điểm ảnh rất lớn.
Hình 2.3: Mô phỏng biểu đồ tần suất của các giao điểm. Nguồn: Zhaoyang (1998) Hình 2.2c
Như đã khẳng định trên đây, vùng bao quanh một đối tượng ảnh hoặc một đối tượng văn bản đóng vai trò quan trọng trong việc nhận dạng, nó có nhiệm vụ định hình đối tượng trước khi máy có thể biết được đối tượng đó thuộc lớp văn bản hay lớp hình ảnh. Vì vậy, cần phải nhận biết các vùng bao quanh này thông qua một số đặc điểm như sau (dù rằng những đặc điểm này chỉ là những đặc điểm chung và không thể bảo đảm tính tuyệt đối):
a) Kích thước của đối tượng ảnh thông thường sẽ lớn hơn nhiều so với kích thước của đối tượng văn bản (ký tự, từ, cụm từ, chuỗi văn bản). Theo đó diện tích vùng bao quanh đối tượng ảnh cũng sẽ lớn hơn nhiều so với vùng bao quanh văn bản.
b) Các ký tự cấu thành một dòng văn bản thường đứng liền kề nhau, chúng cùng nằm trong hệ thống của một chuỗi, khoảng cách giữa chúng thường rất nhỏ và chúng được phân bổ theo những quy tắc của cách thức trình bày văn bản. Điển hình như tính năng mỗi từ cách nhau bởi một dấu khoảng trắng đều đặn và hướng bố trí của văn bản thường theo chiều ngang và chiều dọc hoặc thỉnh thoảng có nghiêng với góc nghiêng lân cận 45o.
c) Mật độ điểm đen của nét chữ tạo thành văn bản thường lớn hơn mật độ điểm đen của vùng ảnh.
d) Độ dài của các đoạn thẳng tuyến tính hoặc những nét cong cơ bản của đối tượng hình ảnh luôn lớn hơn nhiều so với các nét thẳng và nét cong của ký tự tạo thành văn bản.