Quy trình nhận dạng mẫu phiếu khi đã biết mã phiếu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tách và nhận dạng số viết tay trong phiếu nhập dữ liệu (Trang 79)

CHƯƠNG 4 – THỰC NGHIỆM

4.1 Môi trƣờng thực nghiệm

Chương trình được cài đặt trên ngôn ngữ C++ và C#, được thử nghiệm trên Máy tính Pentium IV 3.0 GHz, bộ nhớ RAM 512 MB sử dụng hệ điều hành Windows XP SP2.

Với mục đích đánh giá độ chính xác và hiệu năng thực hiện của các phương pháp trình bày trong luận văn, chúng tôi đã tuyển tập rất nhiều các tài liệu dạng ảnh trên các kiểu form khác nhau như: phiếu đăng ký, phiếu điều tra, hóa đơn, phiếu thanh toán, bảng điểm….Các ảnh này được tìm thấy phần lớn là thông qua trang tìm kiếm Google.com để có thể đảm bảo được sự đa dạng về kiểu form, về chất lượng ảnh, về kích cỡ và ngôn ngữ.

Bên cạnh đó tôi cũng tự thiết kế một số mẫu form đồng thời tiến hành thu thập các mẫu form trên thực tế( form tiếng việt).

Trên các ảnh kiểu form nhập dữ liệu này bao gồm nhiều đối tượng khác nhau như dòng chữ, bảng, ô đánh dấu, ảnh biểu tượng,.... Các ảnh này đều có kích thước rất đa dạng nhưng đều được in ra giấy khổ A4, và được scan với nhiều độ phân giải khác nhau, từ 100 đến 300 DPI( tương ứng với kích thước 827x1170 đến 2481x3510 pixel cho mỗi một ảnh).

Các tập ảnh con trong cơ sở dữ liệu ảnh được chọn lựa để kiểm thử cho từng giải pháp xử lý ảnh, các ảnh này được chia làm 5 loại được liệt kê trong bảng.

Bảng 1: Bảng phân loại ảnh

Category Loại ảnh Số lƣợng

Cat 1 Tài liệu thông thường 5 Cat 2 Tài liệu có chứa ảnh 5 Cat 3 Tài liệu có chứa bảng 20 Cat 4 Tài liệu hỗn hợp 30 Cat 5 Tài liệu tự thiết kế 7

4.2 Thực nghiệm về Lọc nhiễu, tách nền và tìm ngƣỡng nhị phân hóa.

Thực nghiệm Lọc nhiễu, tách nền và tìm ngưỡng nhi phân theo phương pháp ở mục 1.1. Kết quả về hiệu năng cho trong bảng dưới.

Bảng 2: Lọc nhiễu

DPI Hiệu năng (ms) Số lần lọc Trung bình

100 7.63 3.43

150 15.53 3.57

200 28.81 3.21

300 65.21 3.34

Dựa trên kết quả thực nghiệm ta thấy rằng thời gian lọc ảnh không phụ thuộc vào số lần lọc mà phụ thuộc chủ yếu vào độ phân giải của ảnh.

Ngược lại số lần lọc trung bình không phụ thuộc vào độ phân giải mà vào chất lượng của ảnh. Trong quá trình thực nghiệm chúng tôi thấy rằng với các ảnh có chất lượng tốt thì trung bình cần khoảng 2 lần lọc. Đối với những ảnh có độ tương phản thấp thì số lần lọc có thể lên đến 6 lần. Tuy nhiên do việc lọc ảnh thực tế chỉ sử dụng lược đồ mức xám nên số lần lọc không ảnh hưởng đến hiệu năng xử lý.

4.3 Thực nghiệm về xác định góc nghiêng của ảnh dựa trên phép chiếu

Thực nghiệm về xác định góc nghiêng của ảnh được cài đặt theo phương pháp phép chiếu trong mục 1.2.1. Chúng tôi đã thực nghiệm trên 60 ảnh, với mỗi một ảnh, chúng tôi thực hiện kiểm thử với 300 góc nghiêng khác nhau – mỗi góc nghiêng lệch nhau 0.1o, khoảng góc nghiêng lớn nhất mà chúng tôi thực hiện là ±15o, đây cũng là khoảng góc phù với các máy scan theo lô. Tổng số ảnh thử nghiệm là 18000 trường hợp.

Kết quả thực tế khi xác định một số góc nghiêng lớn với một ảnh 150 DPI và 300 DPI áp dụng phương pháp phép chiếu đã được tối ưu hóa như sau :

Bảng 3: Góc nghiêng với ảnh 150DPI Góc Góc

thực

Kết quả trên ảnh với độ phân giải 150 DPI

Kết quả trên ảnh với độ phân giải 300 DPI

5 5 5 5.1 5.1 5.1 5.2 5.2 5.2 5.3 5.2 5.2 5.4 5.4 5.4 5.5 5.5 5.5 5.6 5.5 5.6 5.7 5.7 5.7 5.8 5.8 5.8 5.9 5.9 5.9 6 6.1 6.0

Qua kết quả thực nghiệm trên ta thấy với những ảnh bé, góc nghiêng xác định được chỉ có thể đạt được độ chính xác là ±0.30

đến ±0.20, Với những ảnh lớn thì độ chính xác cao hơn rất nhiều. Điều này là do các điểm ảnh có tọa độ nguyên, khi ta sử dụng các đường chiếu theo phương pháp Bresenham thì các đường chiếu này không phải là các đường thẳng hoàn toàn. Ảnh càng lớn thì các đường này càng chuẩn hơn và càng cho kết quả chính xác hơn.

Kết quả chúng tôi thu được đối với độ lệch trung bình (0) so với góc thực tế:

Bảng 4: độ lệch trung bình so với góc thực tế Phƣơng pháp Phƣơng pháp

phép chiếu tối ƣu (0) Cat 1 0.11 Cat 2 0.05 Cat 3 0.03 Cat 4 0.03 Cat 5 0.03 Total 0.04

Trong thực tế sai số ±0.10 trong việc xác định góc nghiêng hoàn toàn có thể chấp nhận được. Với kết quả thực nghiệm trên cho ta thấy áp dụng phương pháp phép chiếu trong hệ thống là hợp lý.

Chúng tôi đã thực hiện kiểm thử hiệu năng với ảnh 100 DPI, 150 DPI, 200 DPI, 300 DPI, kết quả thu được trong bảng 5

Bảng 5: So sánh hiệu năng của phƣơng pháp phép chiếu tối ƣu với phƣơng pháp phép chiếu

DPI Phƣơng pháp phép

chiếu tối ƣu (ms)

Phƣơng pháp phép chiếu(ms) 100 12.81 64.53 150 25.63 132.40 200 31.15 259.17 300 41.34 517.12

Thực nghiệm cho thấy độ chính xác của phương pháp phép chiếu khi tối ưu và phương pháp phép chiếu là gần như nhau, trong khi đó tốc độ xử lý khi tối ưu thuật toán và tham số nhanh hơn một các đáng kể.

4.4 Thực nghiệm về xác định góc nghiêng của ảnh dựa trên block

Thực nghiệm về xác định góc nghiêng của ảnh được cài đặt theo phương pháp xác định block trong mục 1.2.2. tôi đã thực nghiệm trên 7 ảnh, mỗi một ảnh thực hiện kiểm thử với 300 góc nghiêng khác nhau – mỗi góc nghiêng lệch nhau 0.1o, khoảng góc nghiêng lớn nhất là ±15o, đây cũng là khoảng góc phù với các máy scan dạng batch job. Tổng số ảnh thử nghiệm là 2100 ảnh.

Kết quả thử nghiệm trên một số góc nghiêng của ảnh bài thi trắc nghiệm có độ phân giải 150DPI và 300DPI

Bảng 6: Kết quả xác định góc nghiêng bằng block Góc Góc thực Kết quả trên ảnh 150 DPI Kết quả trên ảnh 300 DPI 5 5 5 5.1 5.1 5.1 5.2 5.2 5.2 5.3 5.2 5.3 5.4 5.4 5.4 5.5 5.5 5.5 5.6 5.6 5.6 5.7 5.7 5.7 5.8 5.8 5.8 5.9 5.9 5.9 6 6 6

Block đặt bên lề ảnh có khoảng cách giữa block đầu tiên và block cuối cùng càng lớn thì đường thẳng xấp xỉ qua tâm các block càng dài, do đó thì độ chính xác càng cao. Qua thử nghiệm thấy rằng tìm góc nghiêng bằng block cho kết quả với sai số độ nghiêng của ảnh là ±0.030

, đây là phương pháp rất tin cậy không chỉ trong việc xác định góc nghiêng mà các block còn được xác định rất đầy đủ.

Kiểm thử hiệu năng với ảnh 150 DPI , 300 DPI, kết quả thu được trong bảng 7

Bảng 7: Thời gian xâc định block

DPI Phƣơng pháp xác

định block (ms)

150 12.45

300 31.17

4.5 Thực nghiệm về phân vùng ảnh dựa trên block

Tập dữ liệu cần để kiểm thử cho module xác định các vùng nhập liệu dựa trên vị trí tương đối đến block gồm các ảnh loại 5 trong bảng 1.

Phương pháp sử dụng block làm mốc quy chiếu đã được tác giả sử dụng để nhận dạng các bài thi trắc nghiệm của một số kỳ thi như "Kỳ thi tốt nghiệp phổ thông trung học Hải Dương" và đã chứng minh được tính hiệu quả trong khi áp dụng trong

thực tế. Trong khuôn khổ luận văn này, phương pháp đã được phát triển thêm lên và được thực nghiệm trên 1000 ảnh với các kiểu form góc nghiêng khác nhau.

Kết quả kiểm thử với ảnh 150 DPI , 300 DPI thu được kết quả trong bảng 8

Bảng 8: Độ chính xác phƣơng pháp tách vùng dựa trên block

DPI Sai số trong

xác định tỉ lệ co giãn Sai số trong xác định vị trí vùng(pixel) 150 0.02 2.25 300 0.01 3.85

Sai số là do ảnh bị co giãn không đều khi scan, sự co giãn giữa các block trong ảnh không đánh giá chính xác hoàn toàn được sự co giãn trên toàn bộ ảnh. Do đó vùng tìm kiếm cần được mở rộng để hạn chế việc mất thông tin.

4.6 Thực nghiệm về phân vùng ảnh dựa trên đƣờng thẳng

Tập dữ liệu có thể dùng kiểm thử cho module xác định các vùng nhập liệu dựa trên vị trí tương đối đến đường thẳng bao gồm các ảnh loại 3, 4 và 5 trong bảng 1. Tôi sử dụng 15 ảnh mẫu( form) để tạo ra 240 ảnh kiểm thử.

4.6.1 Thực nghiệm 1: Xác định các đƣờng thẳng

Với tập ảnh thực nghiệm chúng tôi chia ra làm 2 loại : Loại 1 gồm các ảnh có tập các đường thẳng với độ dày là 1 pixel và Loại 2 gồm các ảnh có tập các đường thẳng với độ dày ≥ 2 pixel. Thực hiện kiểm thử về độ chính xác cho việc xác định đầy đủ các đường thẳng chính ở trên ảnh scan so với ảnh mẫu.

Bảng 9: Độ chính xác của phƣơng pháp xác định đƣờng thẳng DPI Độ chính xác – DPI Độ chính xác – Loại 1(%) Độ chính xác – Loại 2(%) 100 73.35 96.14 150 87.61 99.15 200 91.53 99.45 300 97.11 99.66

Kết quả thực nghiệm thu được cho thấy, để đạt được độ chính xác cao chúng ta nên sử dụng các ảnh có độ dày các đường thẳng tối thiểu là 2 pixel.

Khi kiểm thử với tập các đường 1 pixel, với các góc nghiêng lớn, thì sau khi xác định được góc nghiêng và xoay lại ảnh, các đường thẳng này có dạng răng cưa và bị đứt đoạn do đó chỉ có thể xác định được các đoạn thẳng rất ngắn, dễ bị khử đi, dẫn tới việc mất một số đường thẳng chính. Trong khi đó với tập các đường thẳng có độ dày là 2 pixel thì sau khi xoay lại, các đường thẳng ít bị đứt đoạn, khi đó sẽ tạo ra được các đoạn thẳng dài, và có thể nhận dạng khá đầy đủ các đường thẳng chính.

4.6.2 Thực nghiệm 2: Tìm cặp các đƣờng thẳng giữa ảnh scan với ảnh mẫu.

Trong phần thực nghiệm này, trước tiên chúng tôi thực hiện kiểm thử với những ảnh được scan, sau đó với những ảnh scan đó chúng tôi kẻ thêm các đường nhiễu hoặc xóa bớt các đường thẳng ngang và dọc, nhưng vẫn đảm bảo trong ảnh đó có ít nhất 3 đường thẳng ngang và 3 đường thẳng dọc, và số đường thêm vào hoặc bớt đi phải không quá ¼ số đường có trong ảnh mẫu.

Thực nghiệm với cả các đường thẳng ngang và các đường thẳng đứng cho kết quả như trong bảng :

Bảng 10: Độ chính xác của phƣơng pháp ghép cặp các đƣờng thẳng trong tập mẫu và tập ảnh mới Độ chính xác (%)

Ảnh sau khi scan 99.17 Ảnh scan và thêm các đường

thẳng

99.17

Ảnh scan và xóa bớt các đường thẳng

98.33

Ảnh scan và được thêm, bớt các đường thẳng

97.25

4.6.3 Thực nghiệm 3: Xác định các vùng cần nhận dạng

Chúng ta thực hiện việc phân vùng bằng cách xác định các vị trí cục bộ của vùng cần nhận dạng so với vị trí của đường thẳng gần nó nhất cả theo chiều dọc và theo chiều ngang.

Trong một số trường hợp vùng cần nhận dạng nằm các xa các đường thẳng do vậy khi thực nghiệm chúng tôi thấy các vị trí các vùng thường bì dịch chuyển so với vị trí ban đầu, dẫn tới bị mất một phần nhỏ của vùng( hình 4-2).

Hình 4-1: Vùng cần xác định bị lệch so với vùng xác định thực tế

Sai số là do ảnh bị co giãn không đều khi scan, sự co giãn giữa các đường thẳng trong ảnh không đánh giá chính xác hoàn toàn được sự co giãn trên toàn bộ ảnh. Do đó vùng tìm kiếm cần được mở rộng để hạn chế việc mất thông tin.

Hình 4-2: (a) Ảnh mẫu (b) Kết quả thu đƣợc sau khi phân vùng

Kết quả kiểm thử với ảnh 150 DPI , 300 DPI thu được kết quả trong bảng 11

Bảng 11: Độ chính xác phƣơng pháp tách vùng dựa trên đƣờng thẳng

DPI Sai số trong xác

định tỉ lệ co giãn

Sai số trong xác định vị trí vùng(pixel)

150 0.02 2.15 300 0.01 3.60

4.6.4 Thực nghiệm 4: tìm kích thƣớc trung bình trên ảnh

Thực nghiệm này được thực hiện trên các ảnh có nhiều chữ với nhiều loại font chữ khác nhau, nhiều đối tượng khác nhau, bao gồm cả hình ảnh. Ảnh dùng để thử nghiệm phải có độ nghiêng bằng không. Mục đích của bước xử lý này là để đánh giá chung về kích thước các đối tượng do đó không cần quá đề cao về độ chính xác. Mặc dù chữ là các đối tượng phổ biến nhất nhưng kích thước trung bình tìm được cũng không nhất thiết là của các đối tượng này.

Kết quả thu được như sau :

Bảng 12: Kết quả xác định kích thƣớc trung bình của các đối tƣợng Font chữ Font chữ phổ biến nhất Kích thƣớc font chữ Kích thƣớc trung bình xác định đƣợc theo chiều thẳng đứng( pixel) Kích thƣớc trung bình xác định đƣợc theo chiều thẳng ngang( pixel) Times New Roman 12 11 9

Hình 4-3: (a) ảnh thử nghiệm; (b) Một phần của ảnh đƣợc phóng to

Hiệu năng xử lý :

Bảng 13: Thời gian xác định kích thƣớc trung bình

DPI Thời gian xử lý(ms)

150 11.02 200 17.75 300 31.61

Thời gian xử lý chủ yếu nằm ở thời gian tìm các đối tượng trong ảnh. Thông qua cải tiến thuật toán và thay đổi cách thức đọc ảnh – lưu lại các chuỗi điểm đen liền kề trong mảng để tính toán thay vì đọc trực tiếp trên ảnh, hiệu năng của phương pháp này đã tăng lên đáng kể so với trước.

4.7 Thực nghiệm nhận dạng

4.7.1 Thực nghiệm nhận dạng ô đánh dấu

Các vùng đánh dấu được sử dụng để thực nghiệm lấy từ mẫu phiếu bài thi trắc nghiệm trong cat 5( bảng 1) và một số bài thi thử ở một số kỳ thi. Nhận dạng được tiến hành trên 1000 ảnh. Kết quả thực nghiệm cho thấy rằng phương pháp đề xuất trong

luận văn giải quyết được hai vấn đề chính trong nhận dạng vùng đánh dấu : tô mờ, tẩy xóa. Các ngưỡng nhận dạng cũng có thể được kiểm soát bởi người thực thi chương trình, giúp cho việc chấm thi thêm chính xác và linh hoạt.

Với một số ô vùng diện tích thí sinh tô quá ít so với diện tích ô, phương pháp có thể cho kết quả không chính xác.

Thực nghiệm trên mẫu phiếu thi với 60 câu cho kết quả :

Bảng 14: Độ chính xác phƣơng pháp tách vùng dựa trên đƣờng thẳng

DPI Độ chính xác nhận dạng(%) Thời gian tách ô(ms) Thời gian nhận dạng(ms) 150 99.9% 8.11 9.42 300 99.9% 21.05 23.76 4.7.2Thực nghiệm nhận dạng số

Các chữ số sử dụng để kiểm thử phương pháp đề ra trong luận văn được thu thập thông qua mẫu phiếu "Mẫu dữ liệu số", được thiết kế bởi module thiết kế mẫu phiếu, và được tách riêng ra từng số bở module tách vùng được trình bày trong chương 3. Mười ảnh của phiếu được thu được sau khi scan, mỗi ảnh bao gồm 300 số, tổng cộng là 3000 số của các số từ 0 đến 9.

Kết quả nhận dạng trênh ảnh với độ phân giải 150DPI và 300DPI được cho như trong bảng 15

Bảng 15: Kết quả thực nghiệm nhận dạng số DPI Độ chính xác DPI Độ chính xác nhận dạng(%) Thời gian nhận dạng(ms) 150 99.85% 34.69 300 99.89% 44.21 4.8 Thực nghiệm tích hợp các thành phần

Lần thực nghiệm này tôi thực hiện xử lý tích hợp các phần như: Nạp ảnh, xử lý nhiễu, chính xác góc quay, xử lý phân vùng, nhận dạng. Thực nghiệm được thực hiện trên mẫu "Phiếu đánh giá môn học" với 10 ảnh, Kết quả về hiệu năng được cho trong bảng.

Bảng 16: Kết quả thực nghiệm tích hợp DPI Nạp DPI Nạp ảnh (ms) Lọc nhiễu (ms) Xác định góc xoay (ms) Xoay ảnh (ms) Xử lý phân vùng (ms) Nhận dạng Tổng thời gian (ms) 150 28.70 15.23 32.18 31.29 17.57 5.24 130.21 300 110.31 67.10 42.03 115.46 78.71 12.70 426.31

KẾT LUẬN

Qua quá trình nghiên cứu về nhập dữ liệu tự động bằng phương pháp quang học, chúng tôi đã tìm ra những giải pháp thích hợp đối với đặc điểm của văn bản dạng form nhập dữ liệu để từ đó tiến hành cài đặt các module cần thiết cho quá trình tiền xử lý ảnh như: lọc nhiễu và tách nền; chính xác góc nghiêng của ảnh; xác định các vùng nhập liệu, nhận dạng vùng nhập liệu. Bên cạnh các module về xử lý ảnh, module quản

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tách và nhận dạng số viết tay trong phiếu nhập dữ liệu (Trang 79)

Tải bản đầy đủ (PDF)

(96 trang)