Ứng dụng cho việc nhận dạng chữ viết tiếng việt.
Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt Vietnamese Handwritten Character Recognition By Combining SVM and Haar Wavelet Features Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai Abstract: This paper proposes a recognition model for isolated Vietnamese handwritten character recognition. Based on connected regions of image we try to determine character image that belongs to a group of characters which has either diacritical mark or not. In our model, character part and its diacritical mark part could be sepa-rately defined and they come independently for recogni-tion. Hence, we apply SVM (Support Vector Machines) classification where Haar wavelet features from a mark part and a character part are extracted independently. Finally, we join classified results together to have recogni-tion outcome. Our test results over Vietnamese handwrit-ing with 50,000 character samples collecting from 655 individuals show that the accuracy of our recognition model is over 88%. Keywords: Vietnamese handwritten character recogni-tion, SVM. I. GIỚI THIỆU Nhận dạng chữ viết tay đang là vấn đề thách thức lớn đối với các nhà nghiên cứu, bài toàn này chưa thể giải quyết trọn vẹn được vì nó phụ thuộc quá nhiều vào người viết và sự biến đổi quá đa dạng trong cách viết và trạng thái tinh thần của từng người viết. Cho đến nay, bài toán nhận dạng chữ viết tay cũng đã có một số kết quả khả quan, yếu tập trung trên các tập dữ liệu chữ số viết tay như USPS và MNIST [4,5,6], một số kết quả khác mở rộng đối với các chữ cái hệ La tinh, Hy lạp . [2,7]. Đặc biệt đối với việc nhận dạng chữ viết tay tiếng Việt lại càng gặp nhiều khó khăn hơn do bộ ký tự tiếng Việt có nhiều chữ có hình dáng rất giống nhau, chỉ khác nhau chút ít về phần dấu. Do đó có rất ít kết quả nghiên cứu về nhận dạng chữ viết tay tiếng Việt và các kết quả nghiên cứu chủ yếu cũng chỉ tập trung vào chữ viết tay online [9]. Bài toán chúng tôi đặt ra ở đây là xây dựng một mô hình nhận dạng chữ Việt viết tay hạn chế. Chúng tôi giới hạn phạm vi của bài toán theo một số qui định như: các chữ viết phải có một khoảng cách tương đối, giữa phần chữ và phần dấu phải tách rời nhau. Bộ ký tự tiếng Việt bao gồm tập ký tự không dấu {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, X, Y} và các ký tự có dấu {Ă, Â, À, Ả, Ã, Á, Ạ, Ằ, Ẳ, Ẵ, Ắ, Ặ, Ầ, Ẩ, Ẫ, Ấ, Ậ, Ê, È, Ẻ, Ẽ, É, Ẹ, Ề, Ể, Ễ, Ế, Ệ, Ì, Ỉ, Ĩ, Í, Ị, Ô, Ơ, Ò, Ỏ, Õ, Ó, Ọ, Ồ, Ổ, Ỗ, Ố, Ộ, Ờ, Ở, Ỡ, Ớ, Ợ, Ư, Ù, Ủ, Ũ, Ú, Ụ, Ừ, Ử, Ữ, Ứ, Ự, Ỳ, Ỷ, Ỹ, Ý, Ỵ}. SVM (Support Vector Machines) là một phương pháp máy học tiên tiến đã có nhiều thành công không chỉ trong các lĩnh vực khai phá dữ liệu mà còn trong lĩnh vực nhận dạng. Trong những thập niên gần đây, SVM được đánh giá là một trong những phương pháp phân lớp có độ chính xác rất cao và nó cũng đã được áp dụng nhiều trong các bài toán nhận dạng chữ viết tay [3,4,5,6]. Vì vậy chúng tôi đề xuất một mô hình nhận dạng chữ Việt viết tay hạn chế trên cơ sở phương pháp phân lớp SVM. Trích chọn đặc trưng phục vụ cho công việc huấn luyện và nhận dạng là 1 một bước rất quan trọng trong một hệ thống nhận dạng. Có rất nhiều phương pháp trích chọn đặc trưng hiệu quả có thể áp dụng cho chữ viết tay như: ma trận trọng số, toán tử Kirsch, các biểu đồ chiếu .[4,5,7], trong bài báo này chúng tôi sử dụng ý tưởng của phương pháp trích chọn đặc trưng wavelet Haar [8] cho mô hình nhận dạng chữ viết tay tiếng Việt. Dựa trên cơ sở các thành phần liên thông của ảnh, chúng tôi phân tập ký tự tiếng Việt thành 3 nhóm và tách các ký tự có dấu thành các phần rời nhau. Sau đó chúng tôi xây dựng các máy phân lớp SVM để nhận dạng cho từng phần chữ và dấu. Các kết quả thực nghiệm cho thấy mô hình nhận dạng của chúng tôi có độ chính xác tương đối cao. Phần còn lại của bài báo này có cấu trúc như sau: Phần 2 tóm tắt những ý tưởng cơ bản của phương pháp phân lớp SVM nhị phân. Phần 3 phát họa kiến trúc của mô hình nhận dạng, thuật toán trích chọn đặc trưng Haar wavelet và xây dựng các máy phân lớp SVM phục vụ cho việc nhận dạng. Phần 4 là các kết quả thực nghiệm trên tập dữ liệu viết tay tiếng Việt mà chúng tôi thu thập được. Cuối cùng là phần kết luận. II. PHƯƠNG PHÁP PHÂN LỚP SVM Hàm mục tiêu của một máy phân lớp SVM nhị phân có thể được phát biểu như sau: g(x) = w.Φ(x) + b (1) trong đó, véc tơ đầu vào x∈, w là véc tơ chuẩn của siêu phẳng phân cách trong không gian đặc trưng được sinh ra từ ánh xạ Φ(x): (F > D, Φ(x) có thể tuyến tính hoặc phi tuyến) và b là độ lệch so với gốc tọa độ. Ban đầu, SVM được thiết kế cho bài toán phân lớp nhị phân, do đó dấu của g(x) cho biết véc tơ x thuộc lớp +1 hay lớp -1. DRDRR→FCho tập mẫu {(x1,y1), .,(xN,yN)} trong đó xi∈RD và yi∈{±1}, mục tiêu của phương pháp phân lớp SVM là tìm một siêu phẳng phân cách sao cho khoảng cách lề (margin) giữa hai lớp đạt cực đại (Hình 1). Hình 1. Siêu phẳng tách với khoảng cách lề cực đại. Khoảng cách lề giữa hai lớp là 222w.ww=. Để nới lỏng điều kiện phân lớp, thêm vào một số yếu tố cân bằng và việc huấn luyện SVM chính là giải bài toán tối ưu có ràng buộc: Niw,bi=11min w.w + C2ξ∑ (2) sao cho: yi(w. Φ(xi) + b) ≥ 1-ξi ξi ≥ 0, ∀i, trong đó C là tham số nới lỏng điều kiện phân lớp [1]. Thay vì giải bài toán (2), ta giải bài toán đối ngẫu của nó bằng cách giải bài toán qui hoạch toàn phương (QP-Quadratic programming): T1max 1 H2α⎛⎞α −α α⎜⎝⎠⎟ (3) thỏa mãn: 0≤αi≤C, ∀i và , i10Niiy=α=∑trong đó α =[α1, ., αN]T và H là ma trận kích thước N×N được gọi là ma trận nhân (kernel matrix) với mỗi phần tử H(i,j) = yiyjΦ(xi).Φ(xj). Giải bài toán QP (3) ta thu được: (4) Ni1ii iw α y(x)==Φ∑Mỗi mẫu huấn luyện xi tương ứng với một hệ số Lagrange αi. Sau khi huấn luyện, các mẫu có αi>0 được gọi là véc tơ hỗ trợ. 2 Thế (4) vào (1), ta có : (5) Ni1ii ig(x) α y(x).(x)b==ΦΦ∑++Giả sử Φ(xi).Φ(xj) = K(xi,xj). Nghĩa là, tích vô hướng trong không gian đặc trưng tương đương với một hàm nhân K của không gian đầu vào. Vì vậy, ta không cần phải tính trực tiếp các giá trị Φ(xi), Φ(xj) mà chỉ cần tính tích vô hướng <Φ(xi).Φ(xj)> gián tiếp thông qua hàm nhân K(xi,xj). Nếu sử dụng hàm nhân là hàm tuyến tính thì SVM được gọi là SVM tuyến tính, ngược lại thì gọi là SVM phi tuyến. Như vậy, hàm mục tiêu cho bài toán phân lớp SVM nhị phân có dạng: (6) Niii1ig(x) α yK(x,x) b==∑ Chỉ có các véc tơ hỗ trợ tham gia vào việc xây dựng siêu phẳng phân cách, do đó một mẫu x sẽ được phân lớp theo hàm quyết định: SVNii ii1f(x) sgn α yK(x,x) b=⎛⎞=+⎜⎟⎝⎠∑ (7) trong đó, NSV là số véc tơ hỗ trợ. III. MÔ HÌNH NHẬN DẠNG CHỮ VIỆT VIẾT TAY HẠN CHẾ Trong phần này, chúng tôi sẽ trình bày chi tiết kiến trúc của mô hình nhận dạng chữ Việt viết tay hạn chế (Hình 2). 1. Tiền xử lý Mục đích của giai đoạn tiền xử lý nhằm tăng độ chính xác của hệ thống nhận dạng. Khi quét ảnh thường gặp các loại nhiễu, vì vậy chúng tôi sử dụng một số kỹ thuật lọc nhiễu để khử các nhiễu đốm và nhiễu vệt dài. Đối với nhiễu đốm, sử dụng các bộ lọc trung bình và lọc trung vị, còn với các nhiễu vệt dài thì chúng tôi sử dụng phương pháp khử các vùng liên thông nhỏ (Hình 3). Để thuận tiện cho việc xử lý sau này, chúng tôi biến đổi ảnh đầu vào từ ảnh đa cấp xám thành ảnh nhị phân. Hình 2. Kiến trúc của mô hình nhận dạng (a) Nhiễu đốm (b) Nhiễu vệt dài Hình 3. Một số nhiễu thường gặp khi quét ảnh Chuẩn hóa ảnh theo vùng liên thông Chuẩn hóa ảnh nhằm mục đích tạo điều kiện thuận tiện cho công đoạn tách ảnh thành từng phần chữ và dấu. Bước 1: Xác định các vùng liên thông trên ảnh (Hình 4). 3 (a) (b) Hình 4. Chuẩn hóa ảnh. (a) Ảnh gốc (b) Xác định các vùngliên thông và đánh thứ tự các vùng liên thông. Bước 2: Sắp xếp các vùng liên thông theo thứ tự từ trên xuống (Hình 4b). Bước 3: - Nếu ảnh chỉ có 1 vùng liên thông: Chuẩn hóa ảnh về kích thước chuẩn 16×16 (Hình 5a). (a) (b) (c) Hình 5. Chuẩn hóa các vùng liên thông. - Nếu ảnh có 2 vùng liên thông: Gọi S(i) là diện tích vùng liên thông thứ i. Nếu S(1)>S(2) thì dấu của phần liên thông 2 là dấu nặng (.) và chỉ cần chuẩn hóa vùng liên thông 1 về kích thước chuẩn 16×16. Ngược lại: Tách ảnh thành 2 phần: phần chữ và phần dấu. Chuẩn hóa phần chữ về kích thước chuẩn 16×16 và phần dấu về kích thước chuẩn 8×8 (Hình 5b). - Nếu ảnh có 3 vùng liên thông: Nếu S(3) = Min{S(i)} thì dấu của phần liên thông này là dấu nặng (.). Do đó chỉ cần chuẩn hóa thành phần liên thông 1 về kích thước chuẩn 8×8 và thành phần liên thông 2 về kích thước chuẩn 16×16. Ngược lại: Tách ảnh thành 3 phần từ các vùng liên thông. Chuẩn hóa các vùng liên thông 1 và 2 về kích thước chuẩn 8×8 và chuẩn hóa vùng liên thông 3 về kích thước chuẩn 16×16 (Hình 5c). 2. Phân nhóm sơ bộ Dựa vào số thành phần liên thông chúng tôi tách bộ ký tự tiếng Việt thành 3 nhóm: Nhóm 1: Nhóm có 1 vùng liên thông {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, X, Y, Ơ, Ư}. Nhóm 2: Nhóm có 2 vùng liên thông {Ă, Â, À, Ả, Ã, Á, Ạ, Ê, È, Ẻ, Ẽ, É, Ẹ, Ì, Ỉ, Ĩ, Í, Ị, Ô, Ò, Ỏ, Õ, Ó, Ọ, Ờ, Ở, Ỡ, Ớ, Ợ, Ù, Ủ, Ũ, Ú, Ụ, Ừ, Ử, Ữ, Ứ, Ự, Ỳ, Ỷ, Ỹ, Ý, Ỵ}. Nhóm 3: Nhóm có 3 vùng liên thông { Ằ, Ẳ, Ẵ, Ắ, Ặ, Ầ, Ẩ, Ẫ, Ấ, Ậ, Ề, Ể, Ễ, Ế, Ệ, Ồ, Ổ, Ỗ, Ố, Ộ} 3. Trích chọn đặc trưng Chúng tôi sử dụng ý tưởng của phương pháp trích chọn đặc trưng wavelet Haar [8] để chọn tập đặc trưng cho mỗi ảnh ký tự đầu vào. Hình 6. Quá trình trích chọn đặc trưng Từ ảnh nhị phân kích thước 2n×2n (Hình 6), quá trình trích chọn đặc trưng được mô tả theo thuật toán sau: Procedure HaarFeature Input Ma trận vuông (A,n) cấp 2n. Output Tập các đặc trưng {F1, F2, ., }. 22Fnn×Method 1. Khởi tạo: Queue = ∅; i = 1; 4 2. - Tính Fi= Tổng các điểm đen trong toàn bộ ma trận (A,n); - PUSH((A,n), Queue); 3. While Queue ≠∅ Do { - POP(Queue, (A,n)); - if (n>1) { n = n DIV 2; Chia ảnh thành 4 phần: A1, A2, A3, A4; for (j=1; i ≤ 4; j++) PUSH((Aj,n), Queue); } - Gọi S, S1, S2, S3, S4 là tổng các điểm đen tương ứng với các khối A, A1, A2, A3, A4; - Tính Fi+1 = S1 + S2; Fi+2 = S2 + S3; Fi+3 = S4; - i = i + 3; } Phương pháp tính nhanh tổng các điểm đen trong trong thuật toán trên có thể tham khảo trong [8]. Mệnh đề (tính bất biến của đặc trưng): Cho ma trận vuông A cấp 2n, n nguyên dương. Theo phương pháp trích chọn đặc trưng của thuật toán HaarFeature thì ma trận A bất biến đối với các đặc trưng được trích chọn. Chứng minh Dùng phương pháp quy nạp. Ta chứng minh mệnh đề đúng với n=1. Thật vậy, giả sử x1, x2, x3, x4 là 4 phần tử của ma trận vuông cấp 2. Theo phương pháp trích chọn đặc trưng trên ta có hệ phương trình: 123412 1223 2443x xxxSx xSSx xSxS+++=⎧⎪+=+⎪⎨+=+⎪⎪=⎩S và 111111001001100001= ≠ do đó hệ phương trình có nghiệm duy nhất. Vì vậy, theo cách trích chọn đặc trưng của thuật toán Haar-Feature thì ma trận A bất biến với n=1. Giả sử mệnh đề đúng với n=k. Ta sẽ chứng minh mệnh đề đúng với n=k+1. Rõ ràng ma trận vuông cấp 2k+1 có kích thước gấp 4 lần ma trận vuông cấp 2k. Ta sẽ chứng minh rằng nếu mỗi một phần tư của ma trận vuông A cấp 2k+1 bất biến thì ma trận vuông A cũng bất biến theo phương pháp trích chọn đặc trưng của thuật toán HaarFeature. Thật vậy, giả sử ma trận vuông A cấp 2k+1 được chia thành 4 khối con A1, A2, A3, A4 kích thước 2k có tổng các điểm đen tương ứng là S1, S2, S3, S4. Với cách chia thành 4 khối như vậy thì ma trận A sẽ có nghiệm duy nhất X1=S1, X2=S2, X3=S3, X4=S4 tương ứng với các phần tử A1, A2, A3, A4. Mà mỗi khối Ai, i=1 4 là bất biến theo phương pháp trích chọn đặc trưng của thuật toán HaarFeature nên ma trận A cũng bất biến theo phương pháp trích chọn đặc trưng trên. Trong thực nghiệm, với phần chữ chúng tôi chọn n=4, như vậy ta có: 1 + 3 + 4×3 + 4×4×3 + 4×4×4×3 = 256 đặc trưng, còn với phần dấu chúng tôi chọn n=3, như vậy có tất cả 64 đặc trưng. Với phương pháp trích chọn đặc trưng này thì sẽ tạo ra một dãy số các đặc trưng giảm dần. Với cùng một chữ thì các giá trị lớn ở đầu dãy tương đối ổn định, có thể đại diện cho hình dạng khái quát của chữ; còn các giá trị ở cuối dãy nhỏ dần và không ổn định, thể hiện sự đa dạng trong từng chi tiết của chữ. 4. Xây dựng các máy phân lớp SVM Trong phần này, chúng tôi sẽ xây dựng 3 máy phân lớp SVM, sử dụng tập đặc trưng được trích chọn ở trên để huấn luyện phân lớp và nhận dạng. Đối với phần chữ có kích thước 16×16, có tất cả 256 đặc trưng. Còn phần dấu với kích thước 8×8, như vậy có 64 đặc trưng được trích chọn. SVM1: phân lớp đối với nhóm ký tự có 1 vùng liên thông {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, X, Y, Ơ, Ư}. 5 SVM2: đối với các ký tự có dấu thì phần chữ đều là các nguyên âm, vì vậy máy này chỉ phân lớp các nguyên âm {A, E, I, O, U, Y}. SVM3: phân lớp các dấu {/, \, ?, ~, ^, ∨} (sắc, huyền, hỏi, ngã, dấu ô, dấu ă). Các máy phân lớp SVM1, SVM2, SVM3 được xây dựng từ các SVM nhị phân. Chúng tôi chọn thuật toán SMO [1] để huấn luyện các máy phân lớp nhị phân theo chiến lược một chống một (OVO – One verus One) với các tham số C=100 và sử dụng hàm nhân là hàm Gaussian với σ=0.5. IV. KẾT QUẢ THỰC NGHIỆM Các kết quả thực nghiệm của chúng tôi được tiến hành cài đặt và chạy thử nghiệm trên máy PC Pentium 4 tốc độ 2.66 Ghz, 512Mb Ram. Dữ liệu chữ viết tay tiếng Việt của chúng tôi được thu thập từ 655 người viết khác nhau, đối tượng chủ yếu là sinh viên. Mỗi người viết khoảng 200 chữ in hoa, các ký tự được viết rời rạc. Chúng tôi chọn lọc ra 50000 mẫu để tiến hành thực nghiệm (không kể các dấu), trong đó 13782 mẫu chữ không dấu được sử dụng để huấn luyện, phần còn lại phục vụ cho việc nhận dạng. Chúng tôi xây dựng 3 tập dữ liệu phục vụ cho việc huấn luyện: TrainData1: Tập các dấu tiếng Việt {/, \, ?, ~, ^, ∨}, với 2485 mẫu. TrainData2: Tập các chữ cái nguyên âm tiếng Việt {A, E, I, O, U, Y}, với 4128 mẫu. TrainData3: Tập các chữ cái tiếng Việt không dấu {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V, X, Y, Ơ, Ư}, với 13782 mẫu. Chúng tôi xây dựng 4 tập dữ liệu phục vụ cho việc nhận dạng, kết quả thực nghiệm thể hiện ở bảng 1: • TestData 1: Tập các ký tự tiếng Việt có 1 vùng liên thông, với 7143 mẫu. • TestData 2: Tập các ký tự tiếng Việt có 2 vùng liên thông, với 16856 mẫu. • TestData 3: Tập các ký tự tiếng Việt có 3 vùng liên thông, với 12219 mẫu. • TestData 4 = TestData 1 ∪ TestData 2 ∪ TestData3. Hình 7. Các mẫu trích từ tập ký tự viết tay tiếng Việt. BẢNG 1. KẾT QUẢ NHẬN DẠNG TRÊN DỮ LIỆU TIẾNG VIỆT VIẾT TAY HẠN CHẾ. Tập mẫu Số mẫu Độ chính xácTestData 1 7143 82.24% TestData 2 16856 90.69% TestData 3 12219 87.78% TestData 4 36218 88.04% Các kết quả thực nghiệm ở bảng 1 cho thấy mô hình nhận dạng chữ Việt viết tay hạn chế đạt độ chính xác tương đối cao. V. KẾT LUẬN Bài báo đã đề xuất một mô hình nhận dạng chữ Việt viết tay hạn chế dựa trên cơ sở SVM kết hợp với phương pháp trích chọn đặc trưng wavelet Haar. Chúng tôi dựa vào tính liên thông của ảnh để xác định xem ảnh ký tự thuộc nhóm ký tự có dấu hay không dấu, trên cơ sở đó sẽ tiến hành tách ảnh thành phần chữ và phần dấu để phân lớp độc lập, cuối cùng ghép nối các kết quả phân lớp của phần chữ và phần dấu để có được kết quả nhận dạng cuối cùng. Các kết quả thực nghiệm của chúng tôi cho thấy việc áp dụng phương pháp phân lớp SVM kết hợp với các đặc trưng Haar vào bài toán nhận dạng chữ viết tay tiếng Việt đạt độ chính xác tương đối khả quan và có triển vọng. 6 Bài báo này được sự hỗ trợ của đề tài nghiên cứu cơ bản: “Khai thác một số phương pháp tiêu biểu về trích chọn đặc trưng và khả năng ứng dụng trong nhận dạng chữ, tiếng nói, văn bản và hình ảnh”, mã số 2.007.06. TÀI LIỆU THAM KHẢO [1] J. Platt, “Fast Training of Support Vector Machines Using Sequential Minimal Optimization”, In Advences in Kernel Methods - Support Vector Learning, pp. 185-208, Cambridge, M.A, MIT Press, 1999. [2] Lê Hoài Bắc, Lê Hoàng Thái, “Neural Network & Genetic Algorithm in Application to Handwritten Character Recognition”, Tạp chí Tin học và Điều khiển học, Tập 17, số 4, tr. 57-65, 2001. [3] Chih-Chung Chang and Chil-Jen Lin, “LIBSVM: a Library for Support Vector Machines”, National Taiwan University, 2004. [4] Gorgevik D., Cakmakov D., “An Efficient Three-Stage Classifier for Handwritten Digit Recognition”, Proceedings of 17 Int. Conference on Pattern Recognition, ICPR2004th, Vol. 4, pp. 507-510, IEEE Computer Society, Cambridge, UK, 23-26 August 2004. [5] Cakmakov D., Gorgevik D., “Handwritten Digit Rec-ognition Using Classifier Cooperation Schemes”, Proceed-ings of the 2nd Balkan Conference in Informatics, BCI 2005, pp. 23-30, Ohrid, November 17-19, 2005. [6] Phạm Anh Phương, “Nhận dạng chữ viết tay hạn chế với mô hình SVM”, Tạp chí khoa học Đại học Huế, tr. 157-165, ISSN: 1859-1388, số 42, 2007. [7] G. Vamvakas, B. Gatos, I. Pratikakis, N. Stamatopou-los, A. Roniotis and S.J. Perantonis, "Hybrid Off-Line OCR for Isolated Handwritten Greek Characters", The Fourth IASTED International Conference on Signal Processing, Pattern Recognition, and Applications (SPPRA 2007), pp. 197-202, ISBN: 978-0-88986-646-1, Innsbruck, Austria, February 2007. [8] Viola, P., Jones, M., “Rapid object detection using a boosted cascade of simple features”, Proc. Intl. Conf. on Computer Vision and Pattern Recognition (CVPR), Volume 1, pp. 511–518 , 2001. [9] Ngo Quoc Tao, Pham Van Hung, “Online Continues Vietnamese Handwritten Character Recognition based on Microsoft Handwritten Character Recognition Library”, IEEE Asia Pacific Conference on Circuits and Systems, APCCAS 2006, Singapore, pp. 2024-2026. SƠ LƯỢC TÁC GIẢ PGS.TS. NGÔ QUỐC TẠO Tốt nghiệp: Khoa Toán Đại học Bách Khoa Hà Nội. Bảo vệ Tiến sĩ: năm 1997 chuyên ngành :" Đảm báo toán học cho các hệ thống tính toán", được phong hàm Phó Giáo sư năm 2002. Nơi công tác: Viện Công nghệ thông tin Hà Nội. Lĩnh vực nghiên cứu: Nhận dạng và Xử lý ảnh. Email: nqtao@ioit.ncst.ac.vn PGS.TS. LƯƠNG CHI MAI Tốt nghiệp Đại học Kishinov, Liên Xô cũ năm 1981, chuyên ngành Toán ứng dụng. Nhận bằng Tiến sĩ chuyên ngành Khoa học Máy tính tại viện Công nghệ thông tin năm 1991. Được phong hàm Phó Giáo sư năm 2005. Nơi công tác: Viện Công nghệ thông tin Hà Nội. Lĩnh vực nghiên cứu: Kỹ thuật nhận dạng, phân lớp thống kê, mạng nơ ron, nhận dạng chữ quang học và tiếng nói. Email:lcmai@ioit.ncst.ac.vnNgày nhận bài: 01/03/2008 PHẠM ANH PHƯƠNG Sinh năm 1974. Tốt nghiệp Đại học Sư phạm Huế năm 1996, chuyên ngành Toán –Tin học. Nhận bằng Thạc sỹ năm 2001, chuyên ngành Công nghệ Thông tin tại Đại học Bách Khoa Hà Nội. Hiện đang làm nghiên cứu sinh tại Viện Công nghệ Thông tin Hà Nội. Nơi công tác: Khoa Công nghệ thông tin, trường Đại học Khoa học Huế. Lĩnh vực nghiên cứu: Đồ họa, Nhận dạng và Xử lý ảnh. Email: paphuong@yahoo.com 7 . 1 cho thấy mô hình nhận dạng chữ Việt viết tay hạn chế đạt độ chính xác tương đối cao. V. KẾT LUẬN Bài báo đã đề xuất một mô hình nhận dạng chữ Việt viết. III. MÔ HÌNH NHẬN DẠNG CHỮ VIỆT VIẾT TAY HẠN CHẾ Trong phần này, chúng tôi sẽ trình bày chi tiết kiến trúc của mô hình nhận dạng chữ Việt viết tay hạn