D o chưa có đượ c m ột bộ dữ liệu chữ cái tiế n g A nh chuẩn nên ch ún g tôi phải tự tiến hành thu thập các m ẫu chữ tếng A n h từ nhiều người viết khác nhau. Tập dữ liệu thử nghiệm ở đây gồm có 10000 m ẫ u học và 1816 m ẫ u thử.
So sánh với m ột m ạng lan truyền ngượ c 3 lớp thông thường, có thể rút ra m ộ t số nhận xét sau:
C á c th ôn g số M ạn g ỉan tru yên n g ư ọ c 3
lớp
M ạ n g lan truyền ngư ợ c 4 lóp cải tiến
Sai số m ạng 0.1% 0.1%
Số m ẫu học 10000 10000
Thời gian học ~5 giờ 3.5 giờ
Tỷ lệ nhận dạng lại các m ẫu đã học
99 .97% (3 m âu n h ậ n dạn g sai/ 10000 m ẫu)
99 .97%
(3 m ẫu sai / lOOOOmẫu)
Số m ẫu nh ận dạng 1816 1689 Thời gian nhận dạng ~ 21 giây ~ 34 gỉây Tỷ lệ nhận dạng đúng 78.5% (142 6 m ẫu n h ậ n dạng đúng / tổ n g số 1816 m ẫ u ) 93% (1689 m ẫu nhận dạn g đúng / tổn g số 1816 m ẫ u thử)
Bảng 3-4: Kết quả thử nghiệm mạng vói tạp chữ cái không dấu viết tay
r t
K êt quả thử nghiệm với từng ch ữ cái đượ c thê hiện trên Bảng 3-5
C h ữ cái SÔ mâuri Á Ã Số m ẫu nh ận dạ n g đú ng Đ ộ chính xác (% )
a 70 67 94.5% b 75 71 94.7% c 92 84 91.2% d 60 57 95% e 75 68 90.7% f 55 52 94.2% g 62 58 93.8% C À I Đ Ặ T HỆ T H Ô N G N H Ậ N D Ạ N G C H Ữ V IẾ T T A Y H Ạ N CHẾ
Nguyễn T hị Thanh Tản Trang - 84 - Luận văn thạc sĩ h 73 69 9 4.3 % i 84 77 91 .4% j 52 48 9 2.3 % k 78 74 95.2 % 1 96 86 89.3% m 53 47 9 1.7 % n 68 64 9 3.4 % 0 75 70 9 3.5 % p 50 47 94 .6% q 86 79 92 .4% r 60 55 9 4.1% s 65 60 92.3% t 72 65 90.7 % u 60 55 92.3 % V 65 61 93.8 % w 70 67 95.2 % X 55 51 93.4 % y 90 86 95.2 % z 75 71 94 .7 %
Bảng 3-5: Kết quả nhận dạng các chữ cái không dấu viết tay
4.2.3 Thử nghiệm nhận dạng từ nguyên
D o tập d ữ liệu m ẫ u chữ cái viết tay chưa đầy đủ nên chúng tôi mới chỉ tiến hành thử n g h iệ m trên tập d ữ liệu nhỏ các từ (khảng 100 từ) và kết quả thu được tươ ng đối khả quan. K ế t qu ả nhận dạng m ột số kiểu từ điển hình được thể hiện trên bảng Bảng 3-6. Kí hiệu V thể hiện kết quả nhận dạng được là chính xác, kí hiệu X thể hiện kết q uả nhận dạng có sự nhập nhằng (kết quả nhận dạng chưa thự c sự tốt).
Nguyễn Thị Thanh Tàn Trang - 85 - Luận văn thạc sĩ Ả n h đ ầ u và o D a n h s á c h các t ừ ú n g c ử viên K ê t q u a n h ậ n d ạ n g Đ á n h giá
iwrr, rurr, rw er, iuirr, iuver,
iwier, river, ruier river V
C J j U ỷ citif, atif,city, aty city V
C ẩ ằ X s cat, eat eat X
feif, flif, fey, fly, hy fly V
give, gur, guie, gw e give V
great great V
$> skeiv, skuv, skew skew V
\à J - C a t \ s ivin, urn, win w in V
take take V
c X o q , clog, dog dog X
b a r v ^ b ank, baivk ban k V
o r v U
ovilif, ovily, onlif, only, omif,
om y, o n h f only V
t ó - T b e , tim e, tune, tinie tim e V
Ẩ í Ắ
Bảng 3-6: Kêt quả thử nghiệm một sô từ viêt tay điên hình
Nguyễn T h ị Thanlì Tân Trang - 86 - Luận vãn thạc sĩ
KÉT LUẬN
I. TÓM TẮT CÁC KÊT QUÀ ĐẠT Đ ư ợ c CỬA LUẬN VĂN
Q ua m ột thời gian nghiên cứu v à thực hiện luận văn, c h ủ n g tôi n h ậ n thấy đã đạt được n h ữ n g kết q u ả chính sau đây:
1) X ây d ự n g đ ư ọ c m ột m ô hình m ạ n g n ơ ro n bốn ló p cải tiến th ích h ợ p cho
nhận d ạ n g các kí tự ròi rạc v ó i độ chính xác cao và tốc độ n h ậ n d ạ n g nh an h
Đây là 1Ĩ1Ô hình m ạn g được cải tiến từ m ô hình m ạ n g nơron b a lớp tru y ề n thẳng. Với việc b ổ sung thêm lớp trích chọn các đặc trư ng của đối tư ợ n g cần n h ậ n dạng m ột cách tự đ ộ n g (lớp F). M ạ n g đã đ ảm b ả o đ ư ợ c n h ữ n g tính chất q uan trọng sau đây:
> K ết q u ả nh ận dạn g của m ạ n g sẽ k h ô n g bị ảnh h ư ở n g khi ảnh đ ầu vào bị dịch ch u y ển h o ặc bị n ghiêng.
> M ạ n g k h ô n g nh ạy c ảm với nhiễu ở trên các ảnh đầu v à o do tro n g q u á trình h u ấ n luyện m ạng, trọ n g số của các đặc trư n g n h ậ n dạn g đối tư ợ n g (đ ư ợ c tính bởi lớp F) sẽ dần dần đ ư ợ c tăng lên, n g ư ợ c lại, trọ n g số c ủa các đặc trư ng k h ô n g d ù n g để nhận d ạ n g đối tư ợ n g (k h ô n g phải là n h ữ n g đặc trư n g cơ bản của đối tư ợ n g ) sẽ dần dần bị triệt tiêu.
> T ố c độ tính toán c ủa m ạ n g là c hấp n h ậ n đ ư ợ c (tốc đ ộ tính to á n c ủ a m ạ n g nh an h h ơ n m ột m ạ n g b a lớp tru yền th ẳ n g m à các lớp liên kết đầy đủ).
> D o p h ầ n lấy đặc trư n g của m ẫu là m ộ t p h ầ n của m ạ n g nơ ro n , nên k h ô n g cân xây d ự n g các m o d u l trích chọ n đặc trư n g cho m ẫu, làm g iả m p h ứ c tạp của c h ư ơ n g trình v à rút n g ắ n thời gian x ây d ự n g hệ thống. N g o à i ra, do m ạ n g tự x ác định trọ n g số c ủ a các đặc trưng, nên so với việc xâ y d ự n g các h ệ th ố n g nhận d ạ n g khác thì rút n g ắ n được thời gian tìm hiểu các m ẫ u v à đặc trưng của tập mẫu.
Nguyễn Thị Thanh Tàn Trang - 87 - Luận văn thạc sĩ
2) X ây dự n g đirọc một m ô hình nhận d ạn g tù hiệu quả để giải q u y ết v ấ n đề
dính ch ữ tr o n g nhận d ạ n g c h ữ viết tay.
Q ua quá trình th ử n ghiệm , c h ú n g tôi nhận thấy mô hình nhận dạn g đ ư ợ c đề x u ấ t bởi luận văn là m ộ t h ư ớ n g tiếp cận khả thi để giải quyết vấn đề dính ch ữ trong nhận dạng chữ viết tay. C h ất lượng nhận dạng của mô hình đượ c đảm bảo bởi các y ế u tố:
• T rong q u á trình nhận dạng, tất cả các vị trí cắt có thể có trên ảnh đầu v à o đều được x é t đ ến m à k h ô n g bỏ qua bất kỳ m ột vị trí nào.
• Việc tích h ọ p quá trình kiểm tra m ức độ hợp lý của mỗi vào tron g q u á trình nhận d ạ n g sẽ giúp ta ph át hiện v à loại bỏ đượ c các vị trí cắt k h ô n g hợp lý (các vị trí cắt sai) ng ay tro n g quá trình nhận dạng.
• Việc ch ọn m ột từ dự a trên tần suất xuất hiện hoặc xác suất xuất hiện c ủ a từ đó đảm bả o cho c hú ng ta luôn luôn chọn được m ột từ hợp lý nhất (tư ơ n g ứng với m ột giải pháp ph â n đoạn tốt nhất).
3) C á c k ế t q u ả k h á c
N goài hai két q u ả quan trọ ng đã đạt. được, trong quá trình cài đặt hệ th ố n g nhận dạng chữ viết tay, tôi đã có được m ộ t số cải tiến trong p h ư ơ n g ph áp làm m ả n h ảnh và p h ư ơ n g p h á p k h ử nhiễu trên ảnh.
Với thuật toán làm m ả n h (tìm x ư ơ n g ) ảnh bằng p h ư ơ n g pháp lại bỏ các lớp biên thông th ư ờ n g thì x ư ơ n g ảnh thu đượ c sẽ có nhiều gai và các điểm đặc trư ng c ủ a cấu trúc ảnh (điểm uốn, điểm mút, đ iểm chạc, v.v) thư ờ ng bị nhập nhằng. Sau khi tôi cải tiến p h ư ơ n g p h á p này b ằ n g cách tích hợp các luật đã được đề x u ấ t ở [ l l ] v à o trong quá trình làm m ả n h thì x ư ơ n g của ảnh thu đượ c k h ô n g bị gai hay lô h ô n g và các điểm đặc trư n g c ủ a cấu trúc ảnh được thể hiện chính xác hơn. Đ iều này sẽ góp phần làm tăng c h ất lư ợ n g n h ậ n dạng.
T hô ng th ư ờ n g việ c k h ử nh iễu trên ảnh th ư ờ n g được thực hiện bằn g cách s ử dụng các bộ lọc. T u y n hiên, các p h ư ơ n g ph áp lọc thườ ng chỉ thích hợp với các loại nhiễu đốm (các n hiễu n ằ m rời rạc và có kích thước nhỏ). Còn các loại nhiễu dạng vạch
Nguyễn Thị Thanh Tân Trang - 88 - Luận văn thạc sĩ
(dãy các nhiễu đổm nối với nhau) thì ph ư ơ n g pháp lọc tỏ ra k h ô n g hiệu quả. Giải pháp c hú ng tôi xử lý ở đây là kết hợp phươ ng pháp lọc (trung vị) với p h ư ơ n g pháp khử nhiễu theo miền liên thôna. Phư ơng pháp này đã giải q uy ết tốt đượ c các loại nhiễu đốm và nhiễu vạch.
N goài ra, trong quá trình nghiên cứu, tôi nhận thấy đã tích luỹ thêm đượ c nhiều kiến thức về m ạn g nơron nhân tạo, về lĩnh vực nhận dạn?, xử lý ảnh v à các lĩnh vực liên quan. N h ữ n g kiến thức này sẽ giúp ích cho tôi rất nhiều trong quá trình làm việc và nghiên cứu sâu hơn.
II. N H Ữ N G VẤN ĐỀ CHƯ A ĐƯỢC GIẢI QUYẾT BỞI LUẬN VĂN
Do bị giới hạn về m ặt thời gian m à khối lượng công việc cần thực hiện lại quá lớn nên bên cạnh n hững kết quả đã đạt được, còn nhiều vấn đề tồn tại m à luận văn chưa giải quyết được, trong đỏ có thể kể đến m ột số vấn đề sau:
1) D o cơ sở dữ liệu mẫu chữ cái thu thập được còn hạn chế vê mặt số số lượng m ẫu cũng như tính đa dạng của các m ẫu vì vậy việc th ử nghiệm nh ậ n dạng các chữ viết tay rời rạc k hông dấu và th ử nghiệm nhận dạng từ ch ư a đư ợ c nhiều.
2) M ô hình nhận dạng ch ư a giải quyết được trường hợp hai kí từ bị dính quá sít nhau chẳng hạn như, với ảnh của từ copy sau đây thì c h ư ơ n g trình k h ô ng thể tìm được vị trí cắt giữa chữ o và chữ p.
3) L uận văn mới chỉ xem xét đến n hững văn bản cô cấu trúc đơn giản: chỉ là các
khối text, trên đó các dòng được viết rời nhau.
4) L uận văn chưa đặt ra vấn đề giải quyết trư ờ ng hợp ch ữ hoa, ch ữ thường.
D ựa trên n h ữ n g kêt quả đã đạt được và n h ữ ng hạn vẩn đề còn tôn tại, tôi xin đê xuâí m ột số h ư ớ n g phát triển trong thời gian sắp tới n hằm nâng cao chất lượng nhận III.H Ư Ớ N G PHÁT TRIỀN
Nguyễn T hị Thanh Tàn Trang - 89 - Luận văn thạc sĩ
dạn g của hệ th ốn g đồng thời nới lỏng bớt các điều kiện ràng buộc trên đầu vào của hệ thống.
1) T iến hành thu thập thêm các m ẫu c h ữ cái viết tay k h ô n g dấu n h ằ m xây dựng đ ư ợ c m ột tập d ữ liệu đủ tốt để hu ấn luyện m ạng.
2) Thiết kế thêm m ột số lớp m ạ n g để nhận d ạng các từ đôi.
3) Tiến hành nghiên cứu sâu hơn các đặc trư n g của ch ữ viết tay n h ằ m hoàn thiện hơn tập các đ ư ờ n g c o n g đặc trư n g điều này sẽ nâng cao hiệu q u ả c ủa quá trình xác định các vị trí cat trên từ.
4) C ẩu trúc lại lớp F (bổ sung các đặc trư ng khác) để hệ thống có nh iều thông tin hơn cho việc nhận dạng.
5) B ổ sung th êm phần p h â n tích cú ph áp v à p h â n tích n g ữ n g h ĩa tro n g câu để có thể lựa ch ọn đ ư ợ c chính xác hơn kết q u ả trả về của m ạ n g nơron.
Nguyễn Thị Thanh Tản Trang - 90 - Luận văn thạc sĩ
TÀI LIỆU THAM KHẢO■
T à i liêu t h a m k h ả o t iế n g V iê t• o •
[ 1 ] Lương Mạnh Bá, Nguyễn Thanh Thuỷ ( ] 999), N h ậ p M ô n X ử L ý A n h s ố , Nhà Xuất bản Khoa Học và K ỹ Thuật.
[2] Nguyễn Hữu Hoà (2001 ), ứ n g d ụ n g m ạ n g n ơ r o n m ờ t r o n g n h ậ n d ạ n g c h ữ v i ế t t a y t i ế n g V iệ t ,
Luận văn tốt nghiệp đại học, Khoa Công nghệ Thông tin, Đại học Bách khoa Hà N ội.
[3] Lê M inh Hoàng (2001), M ộ t p h ư ơ n g p h á p n h ậ n d ạ n g v ă n b ả n t i ế n g V i ệ t , Luận văn thạc sỹ, Khoa Công nghệ, Đại học Quốc gia Hà Nội.
[4] Hoàng Kiếm , Nguyễn Hồng Sơn, Đào M inh Sơn (2001), “ ủ n g dụng mạng nơron nhân tạo trong hệ thống xử lý biểu mẫu tự động” , k ý y ế u h ộ i n g h ị k ỳ n i ệ m 2 5 n ă m t h à n h l ậ p V i ệ n C ô n g n g h ệ T h ô n g t in .
[5] Nguyễn Thị Thanh Tân (1999), T h u ậ t t o á n p h â n t í c h E a r l e y v à i m g d ụ n g t r o n g k i ê m l ô i n g ô n
n g ữ đ ặ c t ả RAISE, Luận Văn Tốt Nghiệp Đại Học, Đại học Khoa Học Tự Nhiên, Đại học
Quốc gia Hà Nội.
T à i liệu t h a m k h ả o t iế n g A n h
[6] A n il K. Jain, F u n d a m e n t a l s D i g i t a l I m a g e P r o c e s s i n g , Prentice Hall Information and System Sciences Series.
[7] AZahour, B.Taconet and A.Faure (1992), “ Machine Recognition o f Arabic Cursive W riting ” ,
F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n , 289-296.
[8] B e ffe rt H. and Shinghal (1989). “ Skeletonizing binary patterns on the homogeneous mulptiprocessor” , J o u r n a l o f P a t t e r n R e c o g n i t i o n a n d A r t i f i c i a l I n t e l l i g e n c e , vol. 3, N o.2, pp. 207-216.
[9] Carl Grant Looney (1997), P a t t e r n R e c o g n i t i o n U s i n g N e u r a l N e t w o r k s , Oxford University Press.
[10] C.J.Wells, L.J.Evett, p.E.Whitby, and W hitrow, “ fast dictionaryloookup for contextual work recognition” , P a t t e r n R e c o g n i t i o n .
[11] Denis Ricard, Helle Hvid Hansen, M ike Wozniewski, L i n e a r F e a t u r e E x t r a c t i o n a n d D e s c r i p t i o n , M c G ill University.
[12] E.Kavallieratou, N.Fakotakis, and G.Kokkinakis, S k e w a n g l e e s t i m a t i o n in d o c u m e n t p r o c e s s i n g u s i n g C o h e n ' s c l a s s d i s t r i b u t i o n s , W ire Communications Laboratory, University
o f Patras.
[13] Hom ik, K., M.Stinchcommbe, and H.W hite (1989). “ M ultilayer feed-forward networks are universal approximator” . N e u r a l N e t w o r k, 259-366.
[14] Ioannis Andreadis, Maria I. Vardavoulia, Gerasimos Louverdis and Nikolaos Papamarkos,
C o l o u r i m a g e s k e l e t o n i s a t i o n , Democritus University o f Thrace.
[15] J.Camillerapp, G.Lorette, G.Menier, H,Oulhadj and J.C.Petttier (1992), “ O ff-line and On-line Methods For HandwritingRecognition” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n , 273-288.
Nguyễn Thị Thanh Tân Traníĩ - 91 - Luận văn thạc sĩ
[16] J.C.Simon and O.Baret, “ Cursive Words Recognition” (1992), F r o m P i x e l s T o F e a t u r e s I I I
Frontiers in Handwriting Recognition, 241-260.
[17] J.J. H ull, T.K .H o, J.Favata, V.Govindaraju and S.N.Srihari (1992), “ Combination o f segmentation-based and whoüstic handwritten word recognition algorithms” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n, 261-272.
[18] Kavallieratou, E.N.Fakotakis, and G .Kokkinakis (1999), New A l g o r i t h m F o r S s k e w i n g C o r r e c t i o n t a n d S l a n t R e m o v a l O n W o r d - L e v e l , In Proc O f ICECS’99, V.2.
[19] M artin T. Hagan, Howard B. Demuth, Mark Beale, N e u r a l N e t w o r k D e s i g n , An International Thomson Publishing Company.
[20] Naccache, N. J. and Shinghal, R (1984), “ SPTA: A proposed algorithm for thinning binary patterns,” I E E E T r a n s a c t i o n s o n S y s t e m s , Man, and Cybernetics, vol. S M C -14, 409-418. [21] P.S.P. Wang, M.V.Nagendraprasad and A. Gupta (1992), “ a neural net based “ H yb rid ”
approach to handwritten numeral recognition” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s in H a n d w r i t i n g R e c o g n i t i o n , 145 - 154.
[22] Sergios Theodoridis & Konstantinos Koutroumbas (1999), P a t t e r n R e c o g n i t i o n, Academic Press, America.
[23] Simon Haykin (1994), N e u r a l N e t w o r k A C o m p r e h e n s i v e F o u n d a t i o n , Macm illan College Publishing Company.
[24] S.M. Smith and J.M. Brady. SUSAN (1997), a new approach to low level image processing.
I n t . J o u r n a l o f C o m p u t e r V i s i o n , 45—78.
[25] S. Pal. Some Low Level Image Segmentation Methods, Algorithm s and their Analysis. PhD thesis, Indian Institute o f Technology, 1991.
[26] Stefanelli, R. and Rosenfeld (1971), “ Some parallel thinning algorithms for digital pictures,”
J o u r n a l o f t h e A . C . M , vol. 18, 255-264.
[27] T.Fujisaki, H.S.M .Beigi, C.C.Tappert, M. Ukelson and C .G .W o lf (1992), “ Online recognition o f unconstrained handprinting: a stroke-based system and its evaluation” , F r o m P i x e l s T o F e a t u r e s I I I F r o n t i e r s i n H a n d w r i t i n g R e c o g n i t i o n , 297 - 3 12.
[28] Y . LeCun, B. Boser, J. s. Denker, D. Henderson, R. E. Howard, w . Hubbard, and L. D. Jackel (1992), "Handwritten d ig it recognition w ith a back-propagation network", N e u r a l N e t w o t k s , c u r r e n t a p p l i c a t i o n s , (Lisboa P.G.J., e<±).
[29] Y. LeCun, L. Bottou, and Y. Bengio (1997), "Reading Checks w ith graph transformer networks", in I n t e r n a t i o n a l C o n f e r e n c e o n A c o u s t i c s , S p e e c h , a n d S i g n a l P r o c e s s i n g ,
(M unich) .
[30] Y . LeCun, L. Bottou, G. Orr, and K. M u lle r (1998), "E fficie n t BackProp", N e u r a l N e t w o r k s : T r i c k s o f t h e t r a d e , (G. O rr and M u lle r K., eds.) .
[31] Y . LeCun, p. Haffner, L. Bottou, and Y. Bengio (1999), "Gradient-Based Learning fo r Object Detection, Segmentation and Recognition," A T & T Labs.
[32] Y . LeCun, L. Bottou, Y. Bengio, and p. Haffner (2001), "Gradient-Based Learning A pplied to Document Recognition," I n t e l l i g e n t S i g n a l P r o c e s s i n g, .
Nguyễn Thị Thanh Tản Trang - 92 - Luận văn thạc sĩ
PHỤ LỤC A - GIAO DIỆN CỦA HỆ NHẬN DẠNG■ • ■ • ■ ■
T h u ậ t ngũ' tiếng Anh
T h u ật n g ữ
tiếng việt Lý giải
P attern Mâu A nh của kí tự được d ù ng đê huân luyện m ạng
Class Lớp Kiêu hoặc vùng của các đôi tượ ng khi phân loại
chúng.
N u m eral h an d w ritten
C hữ sô viêt tay Gôm 10 chữ số viết tay từ 0—>9
C h a ra cter han dw ritten
Chữ cái viêt tay Gồm các chữ số viết tay từ a—>z
T est set Tập mâu thử Tập dữ liệu được đê thử nghiệm mạng.
T ra in in g set Tập mẫu học Tập dữ liệu đê huân luyện mạng.
DPI Dots Per Inch Sô điêm ảnh trên 1 inch (đơn vị đo chiêu dài của Anh, 1 inch = 2.54 cm).
Features Các đặc trưng Các độ đo hoặc thuộc tính được sử dụng đê phân loại các đối tượng.
M L P M ulti L ay er Perceptron
M ạn g nơron truyên thăng nhiêu lớp.
H istogram M ứ c xám của
ảnh
T rong nhận dạng được sử dụng với ý nghĩa là biểu đồ tần suất (số lượng các điểm đen được chiếu lên các trực của ảnh).
E r r o r Sai sô của m ạ n g Là khái niệm thườ ng d ùn g đê thê hiện sai sô của mạng.
I n p u t , O u t p u t
Đ âu vào, đâu ra Các khái niệm này th ư ờ n g d ùn g đê chỉ các dữ liệu đầu vào, đầu ra (của thuật toán h oặc của mạng).
P ro c e s s Tiên trình x ử lý T h ư ờ n g dùng đê chỉ tiên trình x ử lý của thuật toán.
Nguyễn T hị Thanh Tân Trang - 93 - Luận văn thạc sĩ