Thuật toán bóc viền

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 76 - 80)

3.3 Các thuật toán khác áp dụng cho biểu mẫu động

3.3.1Thuật toán bóc viền

Có một thực tế mà chúng ta găp phải là các ảnh scan vào không chỉ có đƣờng biên là màu trắng, mà có thể có các đƣờng biên là màu đen, và chúng có thể gây ảnh hƣởng rất lớn đến quá trình nhận dạng ảnh.

Hình 3.18: Ảnh scan có đường viền màu đen

Để khắc phục trƣờng hợp này, trƣớc tiên chúng ta phải khử các đƣờng viền đen này. Thực tế nghiên cứu nhiều ảnh scan khác nhau chúng tôi nhận thấy rằng các điểm đen trên đƣờng viền phân bố một cách rời rạc, không liên tục, có xen kẽ các điểm trắng (hoặc cụm điểm trắng), và có các hình dạng rất khác nhau tùy thuộc vào chất lƣợng máy Scan và góc nghiêng của ảnh.

Do vậy để khử đƣờng các đƣờng viền đen này chúng tôi đề xuất giải pháp khử đƣờng viền bằng cách dựa vào phƣơng pháp phân cụm có tính đến mật độ (Density-Based Clusturing). Đặc điểm của phƣơng pháp phân cụm :

79

 Có thể phân cụm với nhiều hình dạng khác nhau, kể các các hình dạng bất thƣờng

 Chấp nhận nhiễu

 Chỉ thực hiện duyệt một lần

 Cần tham số mật độ cho điều kiện kết thúc

Hình 3.19: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng với một cụm

Trƣớc khi đi vào thuật toán khử đƣờng viền đen, chúng ta có thể hiểu một cách khái quát về phƣơng pháp phân cụm dựa trên mật độ nhƣ sau:

- Tham số mật độ cho điều kiện kết thúc

Eps: là bán kính lớn nhất của cụm

MinPts: số điểm tối thiểu trong một cụm. - Tập hàng xóm:  Eps q p dist D q q N( ) {  ( , )  Trong đó

 D: Cơ sở dữ liệu điểm

80

- Điểm lân cận trực tiếp (Direct density – reachable): một điểm p là điểm lân cận trực tiếp từ điểm q với Eps và MinPts, nếu p thuộc vào NEps(q) và |NEps(q)|

>= MinPts.

Hình 3.20: Mô tả điểm lân cận trực tiếp

- Điểm lân cận (Density – reachable): một điểm p là điểm lân cận từ một điểm q với Eps và MinPts, nếu tồn tại một chuỗi các điểm p1,p2,…, pn sao cho p1= q, pn= p và pi+1 là điểm lân cận trực tiếp từ pi.

Hình 3.21: Mô tả điểm lân cận

- Điểm nối (Density – connected): Một điểm p là điểm nối tới điểm q với Eps và MinPts, nếu tồn tại một điểm o sao cho cả p và q đều có thể là điểm lân cận với điểm o

81

Hình 3.22: Mô tả điểm nối

- Quy ƣớc một cụm (cluster): một cụm đƣợc định nghĩa là một tập hợp lớn nhất các điểm nối

Áp dụng phƣơng pháp phân cụm, chúng tôi đề xuất phƣơng pháp khử đƣờng viền đen có thể thực hiện các bƣớc chính sau:

Bước 1: Xuất phát từ điểm p ta đi tìm một cụm, sao cho p thuộc vào cụm đấy Bước 2: Đặt tất cả các điểm trong cụm của p là điểm trắng

Bước 3: Lặp lại bước 1 cho tới khi không còn tồn tại cụm nào.

Chú ý : Thuật toán này chỉ áp dụng với các điểm gần viền là màu đen, không áp dụng với các điểm đen bên trong

82

(adsbygoogle = window.adsbygoogle || []).push({});

Hình 3.23: Ảnh scan có đường viền màu đen và ảnh sau khi đã bóc viền đen

Nhận xét: Dựa trên kết quả thực nghiệm sau khi áp dụng thuật toán đối với 60 biểu mẫu văn bản thuộc về 4 loại khác nhau, chúng tôi thấy rằng kết quả thu đƣợc hoàn toàn có thể so sánh với kết quả của các thuật toán khác. Thời gian để nhị phân hóa ảnh có độ phân giải là 300 DPI với 10 lần lặp chỉ là 25ms. Điều này chứng minh rằng thuật toán có thể áp dụng rất hiệu quả khi ta cần xử lý văn bản với số lƣợng lớn.

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 76 - 80)