Kỹ thuật nhận dạng phiếu điểm

2.2.1. Hiệu chỉnh độ dịch chuyển

Việc hiệu chỉnh độ dịch chuyển của ảnh cần nhận dạng so với ảnh gốc là một bƣớc quan trọng có ảnh hƣởng đến kết quả quá trình nhận dạng. Để hiệu chỉnh độ dịch chuyển này thông thƣờng dùng biểu đồ tần suất (Histogram).

Luận văn chỉ xét ảnh nhị phân I có kích thƣớc MN, M là số hàng còn N là số cột của ảnh. Trong ảnh I mỗi phần tử I(x,y), 0x<N; 0y<M đƣợc xác định nhƣ sau:     nh ¶ thuéc y) (x, nÕu nÒn thuéc y) (x, nÕu ) , ( 0 1 y x I

Biểu đồ tần suất ngang H(y) hay dọc V(x) của một bức ảnh là tổng số các điểm đen trên hàng y hay cột x của ảnh I và đƣợc viết nhƣ sau:

    1 0 )) , ( 1 ( ) ( N x y x I y H vµ     1 0 )) , ( 1 ( ) ( M y y x I x V

Nếu biểu đồ tần suất ngang của dòng ảnh bằng 0 thì đó là dòng trắng (dòng gồm các điểm không thuộc ký tự). Để hiệu chỉnh lề (lề trên và trái ) của bức ảnh cần nhận dạng so với ảnh mẫu. (a) (b) Hình 2.9: (a) là ảnh mẫu (b) là ảnh cần nhận dạng hm vm h v

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Các phƣơng pháp chỉnh lề:

o Phƣơng pháp thứ nhất

Trƣớc tiên tìm khoảng cách hm,vm của ảnh mẫu (lề trên và lề trái). Để tìm đƣợc các khoảng cách này ta lần lƣợt tính H(i0) và V(j0) từ trên xuống dƣới và từ trái qua phải tại dòng i và cột j đầu tiên mà H(i) > ,V(j)>  ( đủ lớn) thì dừng, lúc đó i=i0 và j=j0 chính là hm và vm. Bƣớc tiếp theo cũng thực hiện tƣơng tự đối với ảnh cần nhận dạng ta tìm đƣợc h và v tƣơng ứng.

Sau đó tiến hành so sánh sự chênh lệch giữa hai cặp hm và h, vm và v để tịnh tiến những dòng đen của ảnh lên trên/xuống dƣới và sang trái/sang phải |hm-h và vm-v điểm ảnh tƣơng ứng. Phƣơng pháp này có ƣu điểm là khá nhanh tuy, tuy nhiên nó có nhƣợc điểm là nhạy với nhiễu.

Trong thực tế đôi khi ảnh mẫu và ảnh cần nhận dạng thƣờng bị nhiễu khi quét vào. Để khắc phục nhƣợc điểm này chúng tôi đƣa ra cách khắc phụ nó theo phƣơng pháp thứ hai.

o Phƣơng pháp thứ hai

Giả sử biểu đồ tần suất dọc của ảnh mẫu và ảnh cần nhận dạng nhƣ sau:

(a) (b) (c)

Hình 2.10: Mô hình biểu đồ tần suất của ảnh mẫu và ảnh cần nhận dạng, (a) ảnh mẫu,(b) ảnh cần nhận dạng, (c) lược đồ tần suất của ảnh mẫu và ảnh cần nhận dạng được vẽ chồng lên nhau

Ta tìm vị trí m ở ảnh mẫu và vị trí n ở ảnh cần nhận dạng sau cho:      x Hma 1 t 2 2 1(m t)-h (n t)) min (h h(i) i i h(i) h'(i) i h'(i)

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Trong đó Hmax là một ƣớc lƣợng đủ lớn. h1(i) là biểu đồ tần suất dọc của ảnh mẫu h2(i) là biểu đồ tần suất của ảnh cần nhận dạng. Thông thƣờng ta cố định một đối số và tìm đối số còn lại. Chẳng hạn ta cố định m=0,và tìm vị trí theo công thức trên. Tại vị trí n chính là cột đầu tiên của bức ảnh sau khi điều chỉnh lề phía trái.

Tƣơng tự để hiệu chỉnh lề trên của ảnh ta cũng tiến hành các bƣớc nhƣ hiệu chỉnh lề trái nhƣng thay vì sử dụng biểu đồ tần suất ngang ta lại sử dụng biểu đồ tần suất dọc.

2.2.2. Hiệu chỉnh góc lệch

2.2.2.1. Phƣơng pháp chiếu nghiêng

Phƣơng pháp chiếu nghiêng rất phổ biến cho việc xác định góc lệch của trang văn bản. Một hình chiếu nghiêng là một biểu đồ tần suất của số các giá trị điểm đen tích luỹ lại ứng với các dòng mẫu trên toàn bộ trang (Hình 1). Phép chiếu nghiêng có thể lấy theo góc bất kỳ, nhƣng thƣờng thì nó đƣợc thực hiện theo hƣớng nằm ngang dọc theo các dòng hoặc theo hƣớng thẳng đứng vuông góc với các dòng; những độ nghiêng đƣợc gọi là các hình chiếu nghiêng theo các hƣớng nằm ngang hoặc thẳng đứng. Với một tài liệu mà các dòng văn bản của nó nằm ngang thì hình chiếu nghiêng theo hƣớng nằm ngang sẽ có đỉnh với độ rộng bằng chiều cao ký tự và các vùng trũng có độ rộng bằng khoảng cách giữa các dòng. Với các tài liệu gồm nhiều cột, phƣơng pháp chiếu nghiêng theo phƣơng thẳng đứng sẽ thu đƣợc số khối tƣơng ứng với số cột, các khối đƣợc phân chia bởi các vùng trũng tạo bởi các khoảng chống giữa các cột và lề giấy.

Một cách sử dụng trực tiếp nhất đối với phƣơng pháp chiếu nghiêng trong việc xác định góc nghiêng là tính toán độ lệch của góc gần với hƣớng mong muốn (Postl 1986). Với mỗi góc nghiêng, ngƣời ta đo chiều cao các hộp theo mặt nghiêng và hộp nào có chiều cao lớn nhất sẽ cho ta góc lệch cần

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

tìm. Tại góc lệch chuẩn, vì các dòng quét đã đƣợc đã đƣợc sắp thẳng hàng theo các dòng văn bản, nên mặt cắt nghiêng sẽ có các đỉnh lồi với độ cao lớn nhất và các vùng trũng ứng với khoảng chống giữa các dòng văn bản. Đối với kỹ thuật chung này ngƣời ta có thể cải tiến và điều chỉnh để lặp lại một cách nhanh hơn đối với việc chuẩn hoá góc nghiêng và xác định góc nghiêng chính xác hơn.

Baird (1987) đã cải tiến phƣơng pháp mặt cắt nghiêng này để nâng cao tốc độ và độ chính xác trong xác định độ lệch. Trƣớc hết, các phần kết nối đƣợc “xác định” và trung điểm cạnh dƣới cũng đƣợc thể hiện. Ngƣời ta xác định tổng các độ lệch (nhƣ sự chênh lệch về chiều cao giữa các điểm lồi và lõm) đối với các góc nghiêng khác nhau.

Hình 2.11: Các hình chiếu theo chiều thẳng đứng và nằm ngang của văn bản

Giá trị thu đƣợc đối với mỗi góc sẽ đƣợc đo bởi số các điểm thuộc dòng cơ sở nằm trên đƣờng chiếu theo góc ấy. Chiều cao của các cột càng lớn thì góc nghiêng càng tiến tới 0o. Giá trị đo đƣợc lớn nhất sẽ cho góc lệch thực sự. Độ chính xác của phƣơng pháp này thƣờng đạt trong phạm vi 0.5o so với

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

hƣớng chuẩn. Do việc xác định đƣợc tiến hành bằng cách sử dụng các trung điểm cạnh đáy của mỗi hộp nên có một giả định rằng trang giấy đƣợc đặt gần vuông góc khi quét. Và một phần do giả thiết này nên phƣơng pháp sẽ chỉ đạt độ chính xác cao nhất trong phạm vi góc lệch là dƣới 10o

2.2.2.2. Phƣơng pháp biến đổi Hough

Thuật toán dùng biến đổi Hough thƣờng xác định một số điểm đen và dùng biến đổi Hough tác động lên các điểm đó.

Biến đổi Hough ánh sạ một đƣờng thẳng trong mặt phẳng thành các cặp (r,φ) trong không gian Hough với r là khoảng cách từ gốc tạo độ tới đƣờng thẳng đó và φ là góc nghiêng của đƣờng thẳng đó so với trục hoành. Góc nghiêng văn bản tƣơng ứng là góc có tổng số điểm nằm trên những đƣờng thẳng cùng lệch góc lớn nhất. Thông thƣờng để đếm các điểm đen này các thuật toán dùng một mảng tích lũy Histogram. Số các điểm đen này đƣợc áp dụng biến đổi Hough tùy thuộc vào từng thuật toán, có thể là tất cả các điểm đen hoặc có thể chỉ là những điểm thỏa mãn một số ràng buộc nào đó hoặc chỉ là đáy của các đối tƣợng ảnh.

Phƣơng pháp của Srihari và Govidaraju là áp dụng biến đổi Hough cho tất cả các điểm đen của ảnh. Tất nhiên, việc áp dụng không có loại trừ một điểm nào dẫn đến chi phí tính toán rất lớn và ảnh hƣởng tới độ chính xác của thuật toán. Để giảm thời gian chạy và tăng một phần độ chính xác của thuật toán, Hinds chỉ áp dụng biến đổi Hough cho một sô ít điểm hơn bằng phân tích chạy dài theo chiều dọc. Mục đích của nén chạy dài theo chiều dọc trong thuật toán này là lấy ra các điểm đáy của các dòng văn bản, loại bỏ đi những điểm đen khác kể cả chúng thuộc vào một ký tự dùng biến đổi Hough lên các điểm đen đó. Tuy nhiên, chi phí tính toán của thuật toán này vẫn còn lớn và việc áp dụng biến đổi Hough cho tất cả các điểm đen ở đáy có thể dẫn đến

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

những kết quả sai trong trƣờng hợp ảnh đầu vào còn nhiều đối tƣợng phi ký tự, nhiễu, bảng biểu hay ảnh.

Biến đổi Hough đƣợc sử dụng rộng rãi trong phân tích ảnh, tầm nhìn máy tính và xử lý hình ảnh kỹ thuật số. Nó là một kỹ thuật sử dụng để tìm các hình ảnh trong một hình ảnh kỹ thuật số nhị phân. Các tiếp cận này đƣợc ƣa thích khi mục tiêu là để tìm đƣờng hoặc đƣờng cong trong một hình ảnh. Nó đƣợc xác định bởi các đại diện tham số đƣợc sử dụng để mô tả các đƣờng trong mặt phẳng ảnh. Nó đƣợc giới thiệu bởi Paul Hough vào năm 1962 và bằng sáng chế của IBM. Các biến đổi biểu diễn bằng tham số mô tả về một đặc trƣng tại vị trí bất kỳ đƣợc đƣa ra trong một không gian ảnh gốc. Ý tƣởng cơ bản là “mỗi đƣờng thẳng trong một hình ảnh có thể đƣợc mô tả bởi một phƣơng trình và mỗi điểm trắng nếu xem xét trong sự cô lập có thể nằm trên vô số đƣờng thẳng”. Trong biến đổi Hough mỗi phiếu điểm cho mỗi dòng nó có thể đƣợc ủng hộ. Các dòng có số phiếu cao nhất giành chiến thắng.

Phép biến đổi Hough ánh xạ mỗi điểm trong mặt phẳng (x,y) lên mặt phẳng Hough với bộ tham số (r,), ở đây các đƣờng thẳng có thể đi qua (x,y) với góc nghiêng  và cách gốc toạ đô một khoảng r. Thời gian thực hiện phép biến đổi Hough cho từng điểm riêng biệt là rất lớn, nhƣng có nhiều phƣơng pháp tăng tốc độ cho phép biến đổi này, chẳng hạn có thể sử dụng độ dốc của đoạn thẳng. Đối với các trang tài liệu, cách tăng tốc độ là tính các ảnh “ngắt đoạn” (burst image) để giảm số phép biến đổi điểm sang không gian Hough. Những đoạn ngắt ngang và dọc là tập các điểm liên tiếp nằm trên cùng một hàng hoặc một cột. Các ảnh đoạn này đƣợc mã hoá bởi số điểm trên một ngắt đoạn (độ dài đoạn ngắt). Do vậy độ dài của các ngắt đoạn có giá trị gần với các cạnh phải và đáy của các ký tự (đối với các trang tài liệu có các góc nghiêng nhỏ), do đó tổng số điểm cần biến đổi sang không gian Hough giảm xuống đáng kể. Ở đây mỗi giá trị “burst” đƣợc lƣu trữ trong các “hộp” (bin)

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

tại mọi giá trị (r,) tham số hoá các đƣờng thẳng qua vị trí (x,y) trong ảnh ngắt đoạn đƣợc lƣu trữ trong các hộp trong không gian Hough, đỉnh hộp 

cho góc mà tại đó có nhiều đƣờng thẳng đi qua các điểm ban đầu nhất, đây là góc nghiêng. Đối với phƣơng pháp này có hạn chế là góc nghiêng của văn bản nhỏ hơn 15o. Ngoài ra, nếu văn bản có cấu trúc rời rạc, thì khó có thể chọn đƣợc đúng các đỉnh trong không gian Hough. Trong trƣờng hợp này mặc dù có cải tiến dùng các ảnh ngắt đoạn nhƣng phép biến đổi Hough thƣờng là chậm hơn các phƣơng pháp chiếu nghiêng đƣợc mô tả ở trên, nhƣng bù lại là độ chính xác của góc lệch đƣợc phát hiện ra cao hơn.

2.2.2.3. Phƣơng pháp láng giềng gần nhất

Tất cả các phƣơng pháp trên đều có hạn chế về góc nghiêng tối đa của trang tài liệu. Một cách tiếp cận khác không bị hạn chế này là: Sử dụng tập hợp các láng giềng gần nhất. Khi đó láng giềng gần nhất mỗi phần đƣợc xác định (đó là bộ phận gần nhất theo khoảng cách Euclid) và giữa các tâm của các phần láng giềng gần nhất đƣợc tính. Do khoảng trống trong các ký tự nhỏ hơn khoảng trống giữa các từ và giữa các ký tự của từ trong cùng một dòng văn bản, những láng giềng gần nhất này sẽ là các láng giềng trội hơn của các ký tự kế tiếp trên cùng một dòng văn bản. Mọi véc tơ định hƣớng cho các đƣờng nối láng giềng gần nhất đƣợc lƣu trong một biểu đồ và đỉnh của biểu đồ chỉ ra hƣớng chiếm ƣu thế - đó là góc nghiêng. Để xác định đƣợc bất kỳ góc nghiêng nào, phƣơng pháp này phải chi phí cho những tính toán trên máy tính nhiều hơn hầu hết các phƣơng pháp khác. Độ chính xác của phƣơng pháp phụ thuộc số thành phần; tuy nhiên, do với mỗi phần chỉ có một đƣờng nối với láng giềng gần nhất đƣợc tạo nên, những phần có nhiễu, ví dụ phần dƣới ký tự, dấu chấm trên chữ “i” và các đƣờng giữa văn bản có thể giảm độ chính xác của những trang tƣơng đối thƣa.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Hình 2.12: Biểu đồ minh hoạ phương pháp người láng giềng gần nhất

Trong hình trên ta có (a) là văn bản gốc, (b) là tâm của các ký tự trong (a), (c) là các đoạn thẳng nối các láng giềng gần nhất, (d) là biểu đồ tần suất xuất hiện các đoạn thẳng có cùng góc nghiêng. Trong đồ thị có đỉnh tại 0, do đó góc lệch của văn bản bằng 0, đỉnh của biểu đồ này chỉ đƣợc dùng để làm ƣớc lƣợng ban tiên nghiệm cho góc nghiêng của trang văn bản. Sự xấp xỉ này đƣợc dùng để loại những đƣờng nối có hƣớng vƣợt ra ngoài dãy các hƣớng gần với hƣớng xấp xỉ, vì chúng có thể là những đƣờng nối giữa các kí tự của các dòng văn bản khác nhau. Sau đó tiến hành hiệu chỉnh tâm các phần lại đƣợc nhóm lại bằng các đƣờng nối láng giềng gần nhất và đƣợc thực hiện bằng phƣơng pháp bình phƣơng tối thiểu. Giả sử phép điều chỉnh bình phƣơng tối thiểu đƣợc dùng cho toàn bộ dòng văn bản và phép đo đã đƣợc cải tiến là xấp xỉ chính xác hơn đối với góc nghiêng.

2.3. Nhận dạng phiếu điểm dựa vào mạng nơron 2.3.1. Thiết kế mạng nơron 2.3.1. Thiết kế mạng nơron

Mạng nơron nhân tạo là một mô phỏng xử lý thông tin, đƣợc nghiên cứu ra từ hệ thống thần kinh của sinh vật, giống nhƣ bộ não để xử lý thông

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

tin. Nó bao gồm số lƣợng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trong mối liên hệ giải quyết vấn đề rõ ràng. Mạng nơ-ron nhân tạo giống nhƣ con ngƣời, đƣợc học bởi kinh nghiệm, lƣu những kinh nghiệm hiểu biết và sử dụng trong những tình huống phù hợp.

Mỗi nơron là một đơn vị xử lý thông tin của mạng nơron, đồng thời là yếu tố cơ bản để cấu tạo nên mạng. Đây là hƣớng tiếp cận hiện đại và tỏ ra ƣu việt hơn các cách tiếp cận trên. Nó cho phép chƣơng trình ghi nhớ mẫu rất tốt sau một số lƣợt học. Ngay cả khi đầu vào có lỗi, chƣơng trình vẫn có thể tìm ra đƣợc kết quả phù hợp.

Luận văn đề cập đến hƣớng tiếp cận nhận dạng kí tự bằng mạng Back Propagation.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Trong đề tài này, tôi đã tạo một mạng nơron có 3 tầng. Số phần tử nơron trên mỗi tầng phụ thuộc vào ngƣời dùng lựa chọn. Thông thƣờng, có một tầng input, một tầng output và một tầng hidden.

Trên tầng input có 35 phần tử nơron. Có nghĩa là mỗi một ảnh đƣợc nhận dạng bởi 35 điểm ảnh đặc trƣng. Kích thƣớc của ảnh phụ thuộc vào chiều cao và độ rộng của kí tự. Cuối cùng, tất cả các ảnh cần nhận dạng đƣợc trích rút đặc trƣng và đƣa về kích thƣớc chuẩn: M*N.

Số nơron trên tầng hidden tùy thuộc vào lựa chọn của ngƣời dùng. Nó có thể lấy giá trị từ 10 đến 1000 hoặc nhiều hơn. Nhƣng để lấy đƣợc kết quả tốt nhất chúng ta phải thực hiện phƣơng pháp thử và sửa sai.

Trên tầng output có 10 phần tử nơron. Mỗi một nơron tƣơng ứng với các số từ 0 đến 9.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Một số mô hình mạng nơron cơ bản[5][6]

Phƣơng pháp chiếu nghiêng