041_Thực nghiệm và đánh giá một phương pháp nhận dạng chữ tiếng Việt in

2 394 0
041_Thực nghiệm và đánh giá một phương pháp nhận dạng chữ tiếng Việt in

Đang tải... (xem toàn văn)

Thông tin tài liệu

- 68 - THỰC NGHIỆM ĐÁNH GIÁ MỘT PHƯƠNG PHÁP NHẬN DẠNG CHỮ TIẾNG VIỆT IN Trần Hà Tuyên Người hướng dẫn: TS. Nguyễn Trọng Dũng MSSV: 0122147 Email: tuyenth83@yahoo.com 1.Giới thiệu Nhận dạng chữ (chữ in , chữ viết tay) là một trong những hệ thống nhận dạng nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ. Trong các hệ thống này , từ một dạng thông tin thu nhận được(các ảnh chữ qua máy scan .) hệ thống sẽ phân tích , sắp xếp, gạn lọc, phân loại chúng dùng các kỹ thuật riêng biệt để xử lý chúng nhằm đưa ra ý nghĩa các thông tin đó mang tính ứng dụng phục vụ đời sống con người. Lĩnh vực nhận dạng chữ in đã đang thu hút được sự quan tâm của nhiều nhà nghiên cứu khoa học trong các lĩnh vực từ tin học đến toán học bởi tầm quan trọng của nó . Nhận dạng chữ in đã đang có mặt trong nhiều ứng dụng như là lưu trữ văn bản , phân loại thư tín, lưu trữ hồ sơ học sinh, thanh toán tiền trong nhà băng, hệ thống thống kê tự động các phiếu điều tra Tuy nhiên kết quả của việc nhận dạng nói chung việc nhận dạng chữ Tiếng Việt nói riêng chưa đáp ứng được nhu cầu thực tế. Vì thế với mong muốn cải tiến nâng cao chất lượng nhận dạng, em đã quyết định nghiên cứu đề tài “Phân tích so sánh các ph ương pháp nhận dạng chữ Tiếng Việt in” trong bài khoá luận tốt nghiệp của mình. Trong khuôn khổ của đề tài , em tập trung nghiên cứu về phần nhận dạng riêng từng chữ cái sau khi đã được tách khỏi dòng các từ , đây là phần quan trọng nhất quyết định đến việc nhận dạng toàn bộ văn bản. 2.Các phương pháp nhận dạng chữ viết Việc nhận dạng chữ viết thông thường đều tuân theo một số các bước nhất định như : quét tài liệu, tiền xử lý, trích chọn đặc trưng , phân loại hậu xử lý .Trên thế giới đã có khá nhiều phương pháp nhận dạng chữ viết chẳng hạn như: phương pháp dùng dãy điểm đặc trưng, phân tích đường biên, phân tích đường trơn, sơ đồ hình chiếu, đối sánh mẫu .Mỗi phương pháp đều có ưu điểm nhược điểm riêng. Tuy nhiên việc lựa chọn một phương pháp nhận dạng hợp lý còn phụ thuộc vào nhiều yếu tố như là : tổng số lượng chữ mà hệ thống xử lý, loại ký tự mà hệ thống thiết kế, chữ cái thuộc single-font hay là multi-font, có ràng buộc với chữ viết bằng tay hay không, các biến thể của chữ cái thuộ c cùng một lớp, chữ nhận dạng có thuộc loại phân tích cấu trúc hay không, độ phân giải của máy scan, phần cứng yêu cầu . 3. Xây dựng thuật toán nhận dạng Tư tưởng của thuật toán là so sánh chữ cần nhận dạng với một tập mẫu các chữ cái trong cơ sở dữ liệu để xét xem chữ cần nhận dạng giống mẫu chữ nào nhất. Vấn đề là phải đưa ra được đại lượng để đo được độ giống nhau giữa chữ cần nhận dạng với mẫu.Vì thể ta xét toàn bộ giá trị các điểm ảnh của ảnh chữ mẫu nhận dạng so sánh từng cặp giá trị ở cùng vị trí với nhau. Ta xét : m δ ( i,j )= ⎩ ⎨ ⎧ =∧= lai nguoc 0 )()(neu1 jyix mm Trong đó y m x m là giá trị điểm ảnh thứ m của ảnh chữ mẫu, i,j có giá trị 1 hoặc 0 vì là giá trị điểm ảnh của ảnh đen trắng. Số lượng cặp đồng thời xảy ra khi X[m]=i Y[m]=j là : ij n = ),( 1 ji n m m ∑ = δ Ở đây ta xét toàn bộ điểm ảnh của ảnh chữ mẫu nhận dạng để tổng hợp kết quả. Do i j - 69 - chỉ có giá trị là 1 0 nên n ij có các giá trị là n 01 , n 11 , n 10 , n 00. Từ đó ta đưa ra đại lượng để đo độ giống nhau giữa chữ nhận dang Y mẫu X như sau: T(Y,X) = n 11 /( n 11 + n 01 + n 10 ) Đại lương trên được xây dựng trên cơ sở lấy các điểm đen(điểm ảnh có giá trị 1) làm chính là bởi điểm đen thường có ý nghĩa nhận dạng cao hơn điểm trắng rất nhiều. Khi so sánh chữ cần nhận dạng với mẫu chữ thì đại lượng này phải vượt qua một ngưỡng nhất định thì mới được gán cho mẫu đó, thông thườ ng giá trị này là 0,5 4. Đánh giá các ưu, nhược điểm của thuật toán các biện pháp khắc phục Thuật toán nhận dạng nêu trên có ưu điểm đơn giản, hiệu quả , dễ cài đặt. Tuy nhiên ngoài các ưu điểm thuật toán vẫn tồn tại một số nhược điểm như không thích hợp trong trường hợp ảnh chữ cần nhận dạng bị biến thể, bị nhiễu ảnh chữ bị quay, không cùng kích cỡ với mẫu nhận dạng. Để khắc ph ục các nhược điểm trên thông thường chúng ta sử dụng các biện pháp tiền xử lý thích hợp , kết hợp với sử dụng một tập mẫu cho mỗi loại chữ cái cần nhận dạng. 5. Cài đặt thực nghiệm Chương trình được cài đặt tiến hành thực nghiệm qua 3 lần sử dụng khoảng 40-50 bộ mẫu chữ cho kết quả tương đối chính xác. • Thực nghiệm 1: Chữ nhận dạng tập mẫu chữ có cùng kiểu phông. • Thực nghiệm 2 : Chữ nhận dạng tập mẫu khác kiểu phông nhau. • Thực nghiệm 3 : Sử dụng 1 tập mẫu cho riêng từng chữ cái. Ví dụ với chữ a : a , a , a , a . Ở lần thực nghiệm thứ 1 do chữ nhận dạng tập mẫu có cùng kiểu nên cho kết quả khá chính xác. Ở lần thực nghiệm thứ 3 chương trình sử dụng một tập mẫu riêng cho mỗi chữ cái đã cho kết quả chính xác khắc phục được nhược điểm của lần thực nghiệm 2 khi font chữ nhận dạng mẫu khác kiểu nhau. 6. Kết luận Trong bài khoá luận tốt nghiệp này em đã xây dựng được một phương pháp nhận dạng dựa trên mô hình Template Matching. Sau một quá trình nghiên cứu, Luận văn đã đạt được một số kết quả như sau: + Phân tích so sánh các ưu điểm, nhược điểm của phương pháp nhận dạng chữ. + Xây dựng thuật toán nhận dạng chữ đưa vào hoạt động có hiệu quả + Cải ti ến thuật toán đạt được kết quả chính xác như mong đợi. Tuy nhiên do số lượng mẫu nhận dạng còn hạn chế nên việc đánh giá thuật toán cũng như khắc phục các vấn đề khác nảy sinh còn hạn chế Các vấn đề tiếp tục nghiên cứu là xây dựng mối liên hệ giữa các tập mẫu trong cơ sở dữ liệu để có thể giảm thiểu số lượ ng mẫu chữ cần đưa ra so sánh khi mỗi lần cần nhận dạng mẫu chữ, tìm hiểu các biện pháp tiền xử lý có hiệu quả cũng nhữ các biện pháp hậu xử lý để đánh giá đúng kết quả sau khi đã qua nhận dạng. Tài liệu tham khảo : [1] D. H. Ballard and C. M. Brown, Computer Vision , pp. 65-70. Englewood Cliffs, New Jersey : Prentice- Hall, 1982 [2] P. Gader, B. Forester, M. Ganzberger, A. Gilles, B. Mitchell, M. Whallen, and T.Yocum, “Recognition of handwritten digits using template and model matching” Pattern Recognition, vol. 24, no. 5, pp 421- 431, 1991. [3] TRIER, JAIN , and TAXT : Feature Extraction Methods for Character Recognition – A Survey. [2] . - 68 - THỰC NGHIỆM VÀ ĐÁNH GIÁ MỘT PHƯƠNG PHÁP NHẬN DẠNG CHỮ TIẾNG VIỆT IN Trần Hà Tuyên Người hướng dẫn: TS. Nguyễn. thiệu Nhận dạng chữ (chữ in , chữ viết tay) là một trong những hệ thống nhận dạng nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ. Trong

Ngày đăng: 06/10/2013, 19:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan