Thực nghiệm nhận dạng đƣờng thẳng dày

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 93 - 96)

3.4 Thực nghiệm

3.4.3.2.Thực nghiệm nhận dạng đƣờng thẳng dày

Với đƣờng thẳng dày có độ dài 15 cm, độ dày 4 pt, ngƣỡng xác định độ dài là 9/10 độ dài thực tế, ngƣỡng nghiêng là 20, ta có kết quả thực nghiệm:

- Thời gian nhận dạng: 0.03 s

96

Kết luận

Bài toán nhập liệu tự động từ biểu mẫu tài liệu sẽ gồm các vấn đề: quản trị biểu mẫu, nhận dạng các vùng dữ liệu (bài toán phát hiện và phân vùng dữ liệu), nhận dạng chữ viết tay trên các vùng dữ liệu, xử lý từ vựng và ghi nhận vào cơ sở dữ liệu. Trong khuôn khổ của mình, luận văn đã đi vào nghiên cứu quá trình tiền xử lý ảnh, phân vùng ảnh.

Trong quá trình nghiên cứu rất nhiều dạng biểu mẫu văn bản khác nhau, bao gồm cả các văn bản tiếng Việt và tiếng Anh và việc nghiên cứu nhiều thuật toán khác nhau, chúng tôi đã lựa chọn, cải tiến và đƣa ra đƣợc một giải pháp : đó là sử dụng hệ thống biểu mẫu động. Trên hệ thống biểu mẫu động, chúng tôi đã cài đặt thành công các thuật toán nhƣ là xác định các khung điền thông tin, tách chữ viết tay ra khỏi khung điền, mã hóa thông tin vào khung điền, giải mã các thông tin từ khung điền dựa vào cấu trúc các điểm nhỏ :

Thuật toán xác định các khung điền thông tin đƣợc tiến hành dựa trên phép chiếu và cho kết quả rất cao, 99,99%.

Kỹ thuật tách chữ viết tay ra khỏi khung điền và ngƣợc lại : chúng tôi đã tiến hành thử nghiệm với hai thuật toán khác nhau là gán nhãn (labeling) và morphology. Kết quả thử nghiệm cho thấy thuật toán gán nhãn cho kết quả rất tốt, ngay cả trong trƣờng hợp chữ viết tay đè lên khung. Thuật toán morphology chỉ cho kết quả tốt đối với ảnh đƣợc quét vào với độ phân giải cao (250 dpi trở lên) và trong trƣờng hợp chữ viết tay khá đậm nét. Bởi vậy chúng tôi đã lựa chọn thuật toán gán nhãn cho quá trình phân tách chữ viết tay ra khỏi khung điền.

Mã hóa thông tin vào cấu trúc điểm nhỏ: để thuận tiện cho quá trình nhận dạng, chúng tôi đã xử dụng cấu trúc điểm nhỏ bao gồm một chấm nhỏ và một chấm hình chữ nhật để mã hóa thông tin theo mã hóa nhị

97

phân. Cấu trúc này đã đảm bảo mã hóa đầy đủ đƣợc các thông tin cần thiết trong một biểu mẫu động.

Việc giải mã thông tin từ các cấu trúc điểm nhỏ trên các khung điền đƣợc tiến hành dựa trên phép chiếu. Kết quả nhận đƣợc là rất tốt, đối với những ảnh có độ phân giải từ 100 dpi đến 150 pdi thì nhận đƣợc 95% nhƣng đối với ảnh có độ phân giải từ 200 dpi trở lên thì cho kết quả 100%.

Ngoài các thuật toán cơ bản trên, chúng tôi đã tiến hành thực nghiệm thêm một số thuật toán để nâng cao độ chính xác: thuật toán bóc biên, các thuật toán chỉnh độ nghiêng, thuật toán xác đinh khung điền thông tin dựa vào cấu trúc các đƣờng thẳng. Kết quả thực nghiệm cho thấy các thuật toán này hoạt động tốt và nâng cao rất nhiều vào kết quả nhận dạng của biểu mẫu động.

Nhƣ vậy chúng tôi đã phát triển, thiết kế và làm mẫu phƣơng pháp nhúng thông tin vào đầu vào các khung, phân tách chữ viết tay từ các khung, giải mã thông tin và xử lý biểu mẫu theo thông tin thông tin giải mã, kết quả nhận đƣợc là khả quan. Tuy nhiên vẫn còn một số vấn đề cần tiếp tục giải quyết, đó là:

- Các phƣơng pháp loại nhiễu mà không ảnh hƣởng đến thông tin đƣợc mã hóa trong cấu trúc các điểm nhỏ.

- Nhúng thêm đƣợc nhiều thông tin hơn trong cấu trúc các điểm nhỏ

Chúng tôi hi vọng rằng sau khi kết hợp với modul nhận dạng chữ viết tay tiếng Việt, chúng tôi sẽ có một hệ thống nhập dữ liệu tự động hoạt động tốt và đáp ứng đƣợc yêu cầu của thực tế.

98

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 93 - 96)