Kết luận : qua quá trình nghiên cứu, giải pháp này đã chứng minh được tính hiệu quả và thực dụng trong việc nhận dạng form dữ liệu, đặc biệt là trong việc nhận dạng với số lượng lớn. Những ưu điểm và nhược điểm của phương pháp
Ưu điểm :
Cho độ chính xác cao, thời gian xử lý nhanh
Dễ kiểm soát và bảo trì Nhược điểm :
Ảnh buộc phải có các block ở bên lề, có thể tạo ra một số vấn đề về mặt thẩm mỹ
2.1.4 Xác định vùng nhận dạng dựa trên vị trí tƣơng đối đến các đƣờng thẳng
Đặc điểm của kiểu form nhập dữ liệu là dữ liệu được nhập vào các ô trên form, các ô này được bao quanh bởi các đường thẳng, thêm vào đó trên form còn có thể có khung hoặc các đường phân cách khu vực, đường trang trí. Do đó chúng tôi đã đưa ra giải pháp xác định vùng nhập dữ liệu thông qua việc xác định các đường thẳng [3].
Trong phương pháp này, trước tiên ta tìm tất cả các đường thẳng có trong ảnh. Sau đó các đường thẳng này sẽ được đối chiếu với các đường thẳng có trong form mẫu để xác định thứ tự chính xác và khử nhiễu. Cuối cùng sau khi nhận dạng được các đường thẳng, vùng nhập dữ liệu sẽ được tính thông qua tọa độ gián tiếp tới các đường thẳng đó. Và bởi vì các tọa độ gián tiếp này là các tọa độ địa phương nên độ chính xác trong việc xác định các vùng là rất cao.
2.1.4.1 Mô tả thuật toán xác định đƣờng thẳng:
Trong ảnh của văn bản cần xử lý, các đường thẳng thường không phải là các đường thẳng lý tưởng mà chỉ là một tập hợp các điểm ảnh có thể xấp xỉ bởi một đường thẳng. Trong bài toán này, do việc tính toán vị trí các vùng nhận dạng sử dụng hệ tọa độ tương đối theo chiều thẳng đứng và theo chiều ngang nên trong việc xác định đường thẳng không cần xem xét đến các đường thẳng theo các hướng khác.
Theo giả thiết ở trên chúng tôi đưa ra thuật toán xác định đường thẳng dựa vào số lượng các điểm ảnh đen kề nhau liên tiếp theo chiều thẳng đứng và theo chiều ngang( còn gọi là các black run). Một đường thẳng bao gồm một tập các black run liền kề nhau. Ngưỡng nhận dạng cũng được áp dụng để loại bỏ các black run quá ngắn ( các black run thuộc về đường thẳng hay thuộc về chữ hoặc các đối tượng đồ họa khác). Sau khi duyệt toàn bộ ảnh để lọc ra các black run đủ dài, các black run này sẽ được nhóm lại để tạo thành các đường thẳng.
2.1.4.2 Thuật toán xác định đƣờng thẳng
Thuật toán được thực hiện qua bốn bước
Bƣớc 1: Duyệt toàn bộ ảnh, loại bỏ các black run ngắn, chỉ giữ lại các black
run đủ dài( lớn hơn ngưỡng)
Bƣớc 2 : Hợp các black run gần nhau lại để tạo thành đường thẳng.
Bƣớc 3 : Sau khi hợp các black run lại thành đường thẳng, thực hiện lại
Bƣớc 4 : Lọc các đường thẳng còn lại dựa theo tỉ lệ giữa độ rộng và độ cao
của đường. Các đường thẳng đạt tiêu chẩn là các đường thẳng có tỉ lê : độ rộng/độ cao > 10 hoặc độ cao/độ rộng > 10 ( bởi vì các đường thẳng của ta có đặc điểm là dài và hẹp). Bước này sẽ lọc được chữ hoặc hình ảnh có kích cỡ lớn trong văn bản.
Kết quả của việc lọc các đường thẳng :
Hình 2-11: (a)ảnh sau khi tiền xử lý; (b)ảnh sau khi lọc các black run ngắn theo chiều ngang (c) ảnh sau khi hợp cách black run dài theo chiều ngang;
(d) ảnh sau khi lọc các black run ngắn theo chiều thẳng đứng (e)ảnh sau khi hợp các black run dài theo chiều thẳng đứng
(f)các đƣờng thẳng xác định đƣợc trên ảnh
Trong việc lọc các đường thẳng, nếu lấy ngưỡng nhận dạng quá lớn thì các đường thẳng thu được sẽ không đầy đủ, ngược lại nếu lấy ngưỡng quá nhỏ thì sẽ còn lại rất nhiều nhiễu do chữ và các đối tượng đồ họa. Khi xử lý với những ảnh chứa các
đường thẳng có độ dày ≥ 2 pixel, ta có thể lấy ngưỡng tương đối lớn mà không làm mất thông tin trong việc nhận dạng đường. Tuy nhiên, bởi vì chúng ta phải xử lý với cả những ảnh scan có chất lượng kém nên cần tìm ra giải pháp để khắc phục việc mất thông tin.
2.1.4.3 Biện pháp khắc phục việc xác định các đƣờng thẳng mờ hoặc đứt đoạn
Theo trên, ta đã coi đường thẳng như một tập các điểm đen kề nhau. Để giảm bớt việc mất thông tin trong những trường hợp đường thẳng bị đứt đoạn hoặc quá mờ, ta có thể xem xét lại đường thẳng như là một tập các điểm đen có thể rời rạc, tuy nhiên phải thỏa mãn điều kiện : mật độ điểm đen trên một đường phải lớn hơn một ngưỡng α xác định ( trong bài toán này chúng tôi lấy là 0.7).
Kết quả của việc xác định đường thẳng có tính đến mật độ :
Hình 2-12: (a) đƣờng thẳng mờ và bị đứt doạn (b) đƣờng thẳng xác định đƣợc khi tính đến mật độ
Việc tính đến mật độ của đường thẳng có thể dẫn đến việc nhận dạng lầm một số dòng chữ đậm hoặc viết sát là đường thẳng. Do đó sau khi xác định các đường thẳng theo thuật toán ở trên (mục 2.2.1.1) với ngưỡng nhận dạng tương đối lớn để lọc hết các đối tượng chữ và đồ họa ta mới áp dụng biện pháp này trên các đường thẳng xác định được để giảm bớt mức độ mất mát thông tin.
Một vấn đề nữa trong việc tính đến mật độ của đường thẳng đó là việc dồn cục không đồng đều về mật độ dẫn đến việc xác định nhầm độ dài đường thẳng. Như hình dưới, số đường thẳng cần xác định là hai đường mặc dù mật độ điểm giữa điểm đầu và điểm cuối của đường thẳng xác định được vẫn lớn hơn ngưỡng.