- 68 - THỰC NGHIỆMVÀĐÁNHGIÁMỘTPHƯƠNGPHÁPNHẬNDẠNGCHỮTIẾNGVIỆTIN Trần Hà Tuyên Người hướng dẫn: TS. Nguyễn Trọng Dũng MSSV: 0122147 Email: tuyenth83@yahoo.com 1.Giới thiệu Nhậndạngchữ (chữ in , chữviết tay) là một trong những hệ thống nhậndạng nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ. Trong các hệ thống này , từ mộtdạng thông tin thu nhận được(các ảnh chữ qua máy scan .) hệ thống sẽ phân tích , sắp xếp, gạn lọc, phân loại chúng và dùng các kỹ thuật riêng biệt để xử lý chúng nhằm đưa ra ý nghĩa các thông tin đó mang tính ứng dụng phục vụ đời sống con người. Lĩnh vực nhậndạngchữin đã vàđang thu hút được sự quan tâm của nhiều nhà nghiên cứu khoa học trong các lĩnh vực từ tin học đến toán học bởi tầm quan trọng của nó . Nhậndạngchữin đã vàđang có mặt trong nhiều ứng dụng như là lưu trữ văn bản , phân loại thư tín, lưu trữ hồ sơ học sinh, thanh toán tiền trong nhà băng, hệ thống thống kê tự động các phiếu điều tra Tuy nhiên kết quả của việc nhậndạng nói chung và việc nhậndạngchữTiếngViệt nói riêng chưa đáp ứng được nhu cầu thực tế. Vì thế với mong muốn cải tiến nâng cao chất lượng nhận dạng, em đã quyết định nghiên cứu đề tài “Phân tích so sánh các ph ương phápnhậndạngchữTiếngViệt in” trong bài khoá luận tốt nghiệp của mình. Trong khuôn khổ của đề tài , em tập trung nghiên cứu về phần nhậndạng riêng từng chữ cái sau khi đã được tách khỏi dòng và các từ , đây là phần quan trọng nhất và quyết định đến việc nhậndạng toàn bộ văn bản. 2.Các phương phápnhậndạng chữ viết Việc nhậndạngchữviết thông thường đều tuân theo một số các bước nhất định như : quét tài liệu, tiền xử lý, trích chọn đặc trưng , phân loại và hậu xử lý .Trên thế giới đã có khá nhiều phương phápnhậndạng chữ viết chẳng hạn như: phươngpháp dùng dãy điểm đặc trưng, phân tích đường biên, phân tích đường trơn, sơ đồ hình chiếu, đối sánh mẫu .Mỗi phươngpháp đều có ưu điểm và nhược điểm riêng. Tuy nhiên việc lựa chọn một phương phápnhậndạng hợp lý còn phụ thuộc vào nhiều yếu tố như là : tổng số lượng chữ mà hệ thống xử lý, loại ký tự mà hệ thống thiết kế, chữ cái thuộc single-font hay là multi-font, có ràng buộc với chữviết bằng tay hay không, các biến thể của chữ cái thuộ c cùng một lớp, chữnhậndạng có thuộc loại phân tích cấu trúc hay không, độ phân giải của máy scan, phần cứng yêu cầu . 3. Xây dựng thuật toán nhậndạng Tư tưởng của thuật toán là so sánh chữ cần nhậndạng với một tập mẫu các chữ cái trong cơ sở dữ liệu để xét xem chữ cần nhậndạng giống mẫu chữ nào nhất. Vấn đề là phải đưa ra được đại lượng để đo được độ giống nhau giữa chữ cần nhậndạng với mẫu.Vì thể ta xét toàn bộ giá trị các điểm ảnh của ảnh chữvà mẫu nhậndạngvà so sánh từng cặp giá trị ở cùng vị trí với nhau. Ta xét : m δ ( i,j )= ⎩ ⎨ ⎧ =∧= lai nguoc 0 )()(neu1 jyix mm Trong đó y m và x m là giá trị điểm ảnh thứ m của ảnh chữvà mẫu, i,j có giá trị 1 hoặc 0 vì là giá trị điểm ảnh của ảnh đen trắng. Số lượng cặp đồng thời xảy ra khi X[m]=i và Y[m]=j là : ij n = ),( 1 ji n m m ∑ = δ Ở đây ta xét toàn bộ điểm ảnh của ảnh chữvà mẫu nhậndạng để tổng hợp kết quả. Do i và j - 69 - chỉ có giá trị là 1 và 0 nên n ij có các giá trị là n 01 , n 11 , n 10 , n 00. Từ đó ta đưa ra đại lượng để đo độ giống nhau giữa chữnhậndang Y và mẫu X như sau: T(Y,X) = n 11 /( n 11 + n 01 + n 10 ) Đại lương trên được xây dựng trên cơ sở lấy các điểm đen(điểm ảnh có giá trị 1) làm chính là bởi điểm đen thường có ý nghĩa nhậndạng cao hơn điểm trắng rất nhiều. Khi so sánh chữ cần nhậndạng với mẫu chữ thì đại lượng này phải vượt qua một ngưỡng nhất định thì mới được gán cho mẫu đó, thông thườ ng giá trị này là 0,5 4. Đánhgiá các ưu, nhược điểm của thuật toán và các biện pháp khắc phục Thuật toán nhậndạng nêu trên có ưu điểm đơn giản, hiệu quả , và dễ cài đặt. Tuy nhiên ngoài các ưu điểm thuật toán vẫn tồn tại một số nhược điểm như không thích hợp trong trường hợp ảnh chữ cần nhậndạng bị biến thể, bị nhiễu ảnh chữ bị quay, không cùng kích cỡ với mẫu nhận dạng. Để khắc ph ục các nhược điểm trên thông thường chúng ta sử dụng các biện pháp tiền xử lý thích hợp , kết hợp với sử dụng một tập mẫu cho mỗi loại chữ cái cần nhận dạng. 5. Cài đặt thực nghiệm Chương trình được cài đặt và tiến hành thực nghiệm qua 3 lần sử dụng khoảng 40-50 bộ mẫu chữvà cho kết quả tương đối chính xác. • Thực nghiệm 1: Chữnhậndạngvà tập mẫu chữ có cùng kiểu phông. • Thực nghiệm 2 : Chữnhậndạngvà tập mẫu khác kiểu phông nhau. • Thực nghiệm 3 : Sử dụng 1 tập mẫu cho riêng từng chữ cái. Ví dụ với chữ a : a , a , a , a . Ở lần thực nghiệm thứ 1 do chữnhậndạngvà tập mẫu có cùng kiểu nên cho kết quả khá chính xác. Ở lần thực nghiệm thứ 3 chương trình sử dụng một tập mẫu riêng cho mỗi chữ cái đã cho kết quả chính xác khắc phục được nhược điểm của lần thực nghiệm 2 khi font chữnhậndạngvà mẫu khác kiểu nhau. 6. Kết luận Trong bài khoá luận tốt nghiệp này em đã xây dựng được một phương phápnhậndạng dựa trên mô hình Template Matching. Sau một quá trình nghiên cứu, Luận văn đã đạt được một số kết quả như sau: + Phân tích so sánh các ưu điểm, nhược điểm của phương phápnhậndạng chữ. + Xây dựng thuật toán nhậndạngchữvà đưa vào hoạt động có hiệu quả + Cải ti ến thuật toán và đạt được kết quả chính xác như mong đợi. Tuy nhiên do số lượng mẫu nhậndạng còn hạn chế nên việc đánhgiá thuật toán cũng như khắc phục các vấn đề khác nảy sinh còn hạn chế Các vấn đề tiếp tục nghiên cứu là xây dựng mối liên hệ giữa các tập mẫu trong cơ sở dữ liệu để có thể giảm thiểu số lượ ng mẫu chữ cần đưa ra so sánh khi mỗi lần cần nhậndạng mẫu chữ, tìm hiểu các biện pháp tiền xử lý có hiệu quả cũng nhữ các biện pháp hậu xử lý để đánhgiá đúng kết quả sau khi đã qua nhận dạng. Tài liệu tham khảo : [1] D. H. Ballard and C. M. Brown, Computer Vision , pp. 65-70. Englewood Cliffs, New Jersey : Prentice- Hall, 1982 [2] P. Gader, B. Forester, M. Ganzberger, A. Gilles, B. Mitchell, M. Whallen, and T.Yocum, “Recognition of handwritten digits using template and model matching” Pattern Recognition, vol. 24, no. 5, pp 421- 431, 1991. [3] TRIER, JAIN , and TAXT : Feature Extraction Methods for Character Recognition – A Survey. [2] . - 68 - THỰC NGHIỆM VÀ ĐÁNH GIÁ MỘT PHƯƠNG PHÁP NHẬN DẠNG CHỮ TIẾNG VIỆT IN Trần Hà Tuyên Người hướng dẫn: TS. Nguyễn. thiệu Nhận dạng chữ (chữ in , chữ viết tay) là một trong những hệ thống nhận dạng nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ. Trong