Mục dich nham tim ra phương pháp hiệu qua cho quá trình trích đặc trưng chữ viết tay Tiếng Việt vì các phương pháp trên được các tác giả đánh giá hiệu quả.. Kết quả thu được của luận văn
Trang 1Đại Học Quốc Gia Tp Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYÊN VĂN TÚ
NHAN DẠNG CHU VIET TAY TIENG VIET OFFLINE
Chuyén nganh: Khoa hoc may tinh
Mã số: 604801
TP HO CHI MINH, Tháng 06 năm 2013
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HOC BACH KHOA —DHQG —HCM
Cán bộ hướng dẫn khoa học : TS Lê Thành Sách u c.cccccccccceceseeceeeeseceeeeeeesCán bộ cham nhận xét I : TS Huỳnh Trung Hiếu - 2-2-5 5255:Cán bộ chấm nhận xét 2 : TS Ngô Quốc Việt - - Sex xrxerrreg
Luận văn thạc sĩ được bảo vệ tại Trường Dai hoc Bách Khoa, DHQG Tp HCM ngày24 tháng 07 năm 2013
Thanh phan Hội đồng đánh giá luận văn thạc sĩ gồm:I TS Trần Văn Hoài - 5-55:2 TS Nguyễn Thanh Bình -3 TS Huỳnh Trung Hiếu 4 TS Ngô Quốc Việt 5 ccccccccec
5 TS Lê Thành Sách - 2-5-5:
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành
sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HOI DONG TRUONG KHOA KH & KT MAY TÍNH
Trang 3ĐẠI HỌC QUOC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
Tp HCM, ngày 21 tháng 06 năm 2013
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYEN VĂN TÚ - - MSHV: 10070503 Ngày, thang, năm sinh: 01/03/1986 - s55 55 <<<<<<2 Noi sinh: TP.Hồ Chí Minh Chuyên ngành: Khoa học máy tính -« «<<: Mã số: 604801 I TÊN ĐÈ TÀI:
NHAN DANG CHỮ VIET TAY TIENG VIET OFFLINEIl NHIEM VU VÀ NOI DUNG:
Luận văn khảo sát và đánh giá nhiều phương pháp nhận dang chữ viết tay Tiếng Việtoffline Từ kết quả đó, đề tài hiện thực mô hình nhận dạng và đề xuất hướng nghiêncứu phát triển trong tương lai
HI NGÀY GIAO NHIỆM VỤ: 21/01/2013
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2013V CÁN BỘ HƯỚNG DÂN: TS Lê Thành Sách
Tp HCM, ngay thang năm 20
CAN BO HUONG DAN CHU NHIEM BO MON DAO TAO
(Ho tên va chữ ky) (Ho tên va chữ ky)
TRUONG KHOA KH & KT MAY TINH
(Ho tên và chữ ky)
Trang 4LỜI CÁM ƠN
Lời cám ơn chân thành dau tiên tôi muốn gửi đến TS Lê Thành Sách Thay đãgiúp đỡ, hỗ trợ và hướng dẫn tôi tận tình trong quá trình nghiên cứu đề tài Thầy luôntạo mọi điều kiện dé tôi hoàn thành đề tai
Ngoài ra, tôi cũng xin gửi lời cám ơn đến bạn bè, những người đã hỗ trợ trongviệc thu thập và chia sẻ thông tin liên quan đến đề tài Và cuối cùng, tôi xin gửi lời cámơn đến gia đình đã luôn ủng hộ và động viên trong quá trình thực hiện đề tài
Lần nữa, tôi xin gửi lời cám ơn chân thành đến tất cả mọi người đã giúp tôi hoànthành luận văn tốt nghiệp này
TP Hỗ Chí Minh, ngày 21 tháng 06 năm 2013
Trang 5TÓM TAT
Character Recogniziton (CR) là chủ dé đã đang được tiếp tục nghiên cứu phố biến bởitính ứng dụng của nó và sự phức tạp từng ngôn ngữ Do đặc thù về chữ viết Tiếng Việtkhó phân loại vì có quá nhiều nhóm ký tự giống nhau và việc nhận dạng chữ viết tayTiếng Việt còn hạn chế nên luận văn nay đã dé cập đến nhận dang chữ viết tay TiếngViệt offline Luận văn cũng đề xuất mô hình nhận dạng chữ viết tay Tiếng Việt offlinerời rạc cho việc nhận dạng từng chữ cái riêng lẻ nhưng chủ yếu tập trung vào hai quá
trình cơ bản trích đặc trưng và phân loại Quá trình trích đặc trưng áp dụng các phươngpháp như Gradient Feature, Structural Feature, Concavity Feature, Projection Feature,Projection Histogram Feature, Zone Feature, Contour Profiles Feature[2,7,8] Mục dich
nham tim ra phương pháp hiệu qua cho quá trình trích đặc trưng chữ viết tay Tiếng
Việt vì các phương pháp trên được các tác giả đánh giá hiệu quả Còn quá trình phân
loại sử dụng phương pháp học máy SVM và phương pháp đánh giá chéo K-fold để
đánh giá sự chính xác của hệ thống nhận dạng Kết quả thu được của luận văn nêu ra 8
tổ hợp kết hợp các phương pháp trên tạo ra ty lệ nhận dạng chính xác tương đối cao.Ngoài ra, xây dựng các SVM dựa vào tính liên thông của đặc trưng ký tự Tiếng Việtcũng cho kết quả được cải thiện thay vì xây dựng một SVM đơn thuần cho tất cả cácký tự Tiếng Việt
il
Trang 6Character Recogniziton (CR) is the popular field which has researched The result inthe the field has applied for the reality and has the challenge for the another language.As we know, the feature of the handwritten Vietnamese, which is the same, is difficultto recognize Besides, the recognization of the handwritten Vietnamese is still the limitof the research Therefore, the thesis will propose the model which recognize thecharacters of the handwritten VietNam offline It focuses the two processes: the featureextraction and the classification, which are important to recognize exactly in the model.The feature extraction will consider the seven methods, which are Gradient Feature,Structural Feature, Concavity Feature, Projection Feature, Projection HistogramFeature, Zone Feature, Contour Profiles Feature[2.7,8] In the feature extraction, themain goal find out the good methods for the model In the classification, the thesis willapply the SVM method and the K-fold cross-validation to discuss The result of themodel performes the eight combinations of methods, which are the better methods inthe feature extraction And the result also showes that the combination of SVMs is thebetter than the simple SVM The combination of SVMs, which is constructed by theconnected region feature of Vietnamese characters, includes the three SVMs as thethree types of the connected region.
1H
Trang 7LỜI CAM ĐOAN
Tôi xin cam đoan tất cả những gi tôi đề cập đến trong bài luận văn là công trình nghiêncứu của mình được sự hỗ trợ của giáo viên hướng dẫn TS Lê Thành Sách Các nộidung và kết quả được nêu trong bài luận văn đều trung thực Ngoài ra, tôi còn sử dụngmột số nhận xét đánh giá của các bài báo khác nhau được thể hiện trong phan tài liệutham khảo Nếu có phát hiện có bất kỳ gian lận nào, tôi xin hoàn toàn chịu trách nhiệmtrước Hội đồng
TP Hỗ Chí Minh, ngày 21 tháng 06 năm 2013
IV
Trang 8MỤC LỤC
CHUONG 5n ằằắ l
TONG QUAN VE DE TY | (E653 121 E5 561191 1 E91 11 9195 911115111 E111 rrrei |LL Đặt vẫn để Gv T TH H11 TT ng TT TH HT TH TH TH ngư |1.2 Giới thiệu đỀ tài G11 11212 11g HT ng TH ng gi 21.2.1 Tên để tài che 21.2.2 Mục tiêu của dé tài ch 11 ST HH1 TH ngu 21.2.3 Giới hạn của dé tai ch HT HH1 HH ng ngu 2124 Ý nghĩa khoa học và thực tiỄn + - + 2 2E+*EEE2E2E£EEEEEEEzErkrkrsrsree 21.2.5 Tom lược kết quả đạt duoc + ¿2-5252 t£ESEEEEEeErkrkrrerererreee 21.3 Kết cấu của luận văn - Gv 11121 1E 911191 111 1111110 11111111 ng gi 3
05/019) 602151 d 4
09.9000.0045 42.1 Mô hình hệ thống CR3] - - 525626 E+E9EEEE E191 5 1211151115151 11115110111 y0 4
2.2 Phương pháp trích đặc trưng - - - «<6 099 ng vn 62.3.1 Gradient Featur€[ 2] - - - << + + +1 3333311113331 111135 1110 1111 11v crr 62.3.2 Structural Feature[2] - - << + + +1 3133310111333 1111015 11111 1111 11v ra 72.3.3 Concavity FeafUr€[Z2]| - 00000010 nh 82.34 Projection Featur€[Ì]| - 00 HH nh 102.3.5 Projection Histogram Featur€[Í7] - - << « «c1 1 1 1 re 102.3.6 Zone Feature|7] - - << c1 3220330009111 1111 11110111 11v cv rà 112.3.7 Contour Profiles Featur€[Í7] - - + «<< << + +11 311311 1111113 11115 11155 x2 112.4 Phương pháp học may SVM và phương pháp đánh gia chéo K-fold 12
Trang 924.1 Mô hình C-Support Vector Classification (C-SVM)[I| 122.4.2 Phuong pháp đánh gia chéo K-fold[Z4] << << + + «<< ++sssssseeeeess 13
3.2.1 Mô hình nhận dạng - (<0 SH nh 17
3.22 Kết quả nhận dạng và nhận XÉT - S999 1 1 re 193.3 Nhận dạng chữ viết tay Tiếng VIỆ( ¿- - - S221 S3 1 1511111111111 111101 1 ty 203.3.1 Mô hình nhận dạng thứ I0 ececeseceesecececessceecscecsesevscsceceseevscsceceeeevavacees 203.3.2 Kết quả nhận dạng và nhận xét thứ nhất - - 2 + 2 s+s+s+£s£cszs2 20
3.3.3 Mô hình nhận dạng thứ hal - G9993 1111 re, 22
334 Kết quả nhận dạng và nhận xét thứ haI - 55 «s1 eeeeee 24
3.3.5 Mô hình nhận dạng thứ ba - G999 ng 25
3.3.6 Kết quả nhận dạng và nhận xét thứ ba 2< << «1 reeeee 26
HƯỚNG TIEP CAN VA HIEN THỰC G- 6s S312 332 SE secegerkei 28
4.1 Mô hình nhận dạng và y tưởng hiện thu - 5G SH 111 ke 28
4.1.1 Quá trình tiền XỬ lý Ec SE SE 1 1E E1 1 1 151111111111 111 111k 28
4.1.2 Quá trinh trích đặc trưng - - - 5G S1 ng kg 294.1.3 Quá trình phan lOạI - E001 HS ke 3l
414 Tóm tat ý tưởng hiện thực mô hình 9 999535111111 ke 32
Trang 104.2 Hai mô hình hiện thực G000 gọn re 33
CHUONG 5 2 35
KET QUA THỰC NGHIEM VA DANH GIA u.e.cccccccescscssecscececsesscececevevscsceceeeevevecees 35
5.1 Tập dit ligu cece ccscscsscscscsscscscsscscssscsvsvsscsvsssscsvsssscsvsesscsvsscscsssecessvsrsesssavees 35
5.2 Kết qua thực nghiệm và đánh gid o ccccccccccescsesesesesescsescssssseseseesssseseseseetees 35
5.2.1 Qua trình trích đặc trưng - c0 ng re 353.2.2 Quá trình phân ÏỚ - 9.00 nọ re 38
CHƯNG Ó E222 S123 1915 5 1211151151311 111511 111111151111 11 0110111110111 11.01 11011110 y0 Al
TONG KET ceecccsccccccsccccscsssscscscscsscscscscsssscscscscssscsescsvsvsscscscsvsssscsesssvsescscssssessssesscssessveeeas 416.l KẾT luận G1111 1S 1111211110 1111011111 H111 11T 1H10 ng: Al6.1.1 Kết quả dat được oecccccccscscssescscscsssscscscscsssscsescscsssscsesssssssssssscsescssseeeseess Al6.1.2 Ưu điểm và khuyết điểm o cccccccccccccseescsessesesessesssessesssessesesesssseseseenesen 416.2 Hướng phát triển tương lai -¿- - ¿5 S2 SE+EEESE£EEEEEEEEEEEEEEEEEErkrrerrkrrerreo 41
Vil
Trang 11DANH MỤC CHU VIET TAT
CRSVM :OVO :OVR :HMM :NNMEOWA :GSCERERA
Character RecognitionSuport Vector MachineOne Versus One
One Versus RestHidden Markov ModelNeural Network
Maximum EntropyOrdered Weighted AveragingGradient Structural Concavity
Error RecognizationError Recognization Average
Vill
Trang 12DANH MỤC HINH
Hình 2.1 Sơ đồ các quá trình hệ thong CR[3] ¿- 2 2 22552 £+E+££e+x+Eezezeerered 4
Hình 2.2 Các thuộc tính của phương pháp Gradient Feature[2] .- -«««- 7Hình 2.3 Các thuộc tính của phương pháp Structural Feature{2 ] - - -««««+ 8Hình 2.4 Các thuộc tính phương pháp Concavity Feature[2] -< «<< 9Hình 2.5 Các thuộc tính phương pháp Projection Histogram Feature[7] IIHình 2.6 Các thuộc tính phương pháp Zone lFFeature[Í7] - «+ << s+ss.eeessssss IIHình 2.7 Các thuộc tính phương pháp Contour Profiles[Í7] -«««««««<<<<<<s 12
Hình 3.1 Kiến trúc mô hình nhận dang chữ viết tay rời rạc(chữ số)[7] - 15Hinh 3.2 Két quả nhận dang trên tập dữ liệu MINIST với các đặc trung[7] 16Hình 3.3 M6 hình nhận dạng chữ viết tay rời rạc(chữ cái Latin)|S] - 17
Hình 3.4 Mô hình quá trình hau xử lý[Š] -«- «5 S11 11 99931111 re 18Hình 3.5 Mô hình đa HMM trong qua trình nhận dạng HMMIS] 18
Hình 3.6 Biểu đồ Signature của ký tự O(a) va Q(b)[Ñ] -¿-5cc+c+cscsccereresree 19Hinh 3.7 Két qua khảo sát của bài DAO[8) . G0010 011g 20Hình 3.8 Kết quả thực nghiệm của SVM theo chiến lược OVO và OVR[5] 21
Hình 3.9 M6 hình nhận dạng chia nhóm SVM[6] << <1 ereeese 23
Hình 3.10 Vai mẫu các ký tự thu thập[6] ¿ + 2-22 25252 +*+E+t+E+E+xetexexererererereee 24Hình 3.11 Kết quả nhận dạng thu thập khi chia nhóm SVM|6] -+5¿ 25Hình 3.12 Mô hình kết hợp nhiều bộ phân loại[2] - + 2 22 25s+s+£+£zz£z£z£zzze: 25Hình 3.13 Cau trúc form và vài mẫu dữ liệu 2] . - - << << << << SSssseeesssss 26Hình 3.14 Kết quả của phương pháp GSC với SVM và kết hợp bộ phân loai[2] 27
Hình 4.1 Mô hình nhận dạng xây dựng - - << sờ 28
IX
Trang 13Hình 4.2 Mô hình quá trình tiền xử lý và kết quả thu được . - 25555552 29Hình 4.3 Mô hình kết hop SVM dựa vào vùng liên thông - 2 2 55+s+cs552 32
Hình 4.4 Mô hình hiện thực ÏÌ - 0000111011101 1 1111111111111 1 1n nhu 33Hình 4.5 Mô hình hiện thực 2 - << - 0000111111011 01010 11111111111 1 1n nen 34
Hình 5.1 Biểu mẫu thu thập ký tự ă - ¿5256 2E SE S313 E1 E121 E111 Eee 35
Trang 14DANH MỤC BANG BIEU
Bang 1: File tong hợp kết quả của các phương pháp trích đặc trưng - 36Bảng 2: Tập tin kết quả của phương pháp GSC Feature - - + 55+ + cs+s+cscs2 37Bảng 3: Kết quả khảo sát của 15 phương pháp trích đặc trưng - - - 5c: 38Bảng 4: Khảo sát các phương pháp trích đặc trưng tốt nhất trong 2 mô hình SVM 39Bang 5: Vài ký tự nhận dang sai trên SVM 147 lớp và đúng trên SVM kết hop bang
phương pháp Structural - Concavity — Projection FF€afUFe -«««« «c4 40
XI
Trang 15CHƯƠNG 1 TONG QUAN VE ĐÉ TÀI
chính: giai đoạn từ 1900-1980; giai đoạn từ 1980-1990; giai đoạn sau 1990 Giai đoạn
từ 1900-1980, chủ yếu áp dụng phương pháp so trùng mẫu để nhận dạng chữ viết.Nhưng phương pháp này có nhiều yếu điểm khi dữ liệu chúng ta có quá nhiều nhiễu.Chính lý do này sẽ làm ảnh hưởng đến quá trình nhận dạng của hệ thống Giai đoạn từ1980-1990, nhiều nghiên cứu đã tiếp cận đến với phương pháp nhận dạng hình dạng đểcải tiến quá trình nhận dạng Việc nhận dạng hình dang theo cách tiếp cận này giúp chothông tin đạt được từ chữ viết cao hơn so với phương pháp so trùng mẫu Nhưng nhữngphương pháp trên nhìn chung vẫn còn hạn chế vì nó chỉ lợi dụng thông tin nội tại bêntrong chữ viết Nó không thé lay được thông tin từ những ký tự bên cạnh nó Điều nàycó thể tận dụng vì chúng ta biết răng những chữ viết ít nhiều luôn mang một ý nghĩanao đó để diễn tả Nếu chúng ta biết khai thác điểm này thì quá trình nhận dạng sẽ càngtăng độ chính xác cho hệ thống Giai đoạn sau 1990, nhiều công trình nghiên cứu rađời với việc ứng dụng ngữ nghĩa để khai thác thêm thông tin Tuy nhiên vẫn còn rấtnhiều vẫn đề cần quan tâm đến trong lĩnh vực CR vì trong thực tế chúng ta phải đốimặt với nhiều loại dữ liệu khác nhau với ảnh hưởng nhiễu cũng khác nhau Chính vìthế, chúng tôi đã quyết định nghiên cứu về lĩnh vực CR trong luận văn này
Trang 16CHƯƠNG 1 TONG QUAN VE ĐÉ TÀI
1.2 Giới thiệu đề tài
1.2.1 Tên đề tàiDo đặc thù về chữ viết Tiếng Việt khó phân loại vì có quá nhiều nhóm ký tự giốngnhau và việc nhận dạng chữ viết tay Tiếng Việt còn hạn chế nên chúng tôi quyết địnhchọn tên dé tai Nhận Dang Chữ Viết Tay Tiếng Việt Offline” để nghiên cứu
1.2.2 Mục tiêu của đề tàiHệ thông nhận dạng chữ viết tay là một hệ thống phức hợp nhiều quá trình con bêntrong Trong giai đoạn luận văn này, mục tiêu của chúng tôi sẽ tìm hiểu so sánh nhiềuphương pháp trích đặc trưng và áp dụng phương pháp học máy để phân loại nham mụctiêu tìm ra phương pháp phù hợp cho quá trình nhận dạng chữ viết tay Tiếng Việt
offline Trong quá trình nhận dạng, hai quá trình trên được đánh giá quan trọng và ảnh
hưởng nhiều đến kết quả nhận dạng của hệ thống.1.2.3 Giới hạn của đề tài
Thông thường có hai hướng tiếp cận chính để nhận dạng: nhận dạng ký tự hay nhậndạng cum từ Trong giai đoạn thực hiện dé tài, chúng tôi tập trung nghiên cứu từng chữviết ký tự Tiếng Việt rời rạc Với hướng tiếp cận này chúng tôi sẽ bắt đầu tìm hiểu vàiphương pháp dé nhận dạng từng ký tự riêng biệt đã từng được sử dụng Sau đó xem xétáp dụng từng phương pháp cho từng ký tự Tiếng Việt riêng biệt và thong kê kết quả.1.2.4 Y nghĩa khoa hoc và thực tiễn
Về khía cạnh khoa học, chúng ta sẽ có cái nhìn tổng quan hơn về những khó khăn thửthách khi tiếp cận đề tài, đồng thời cũng cung cấp một vai phương pháp tiếp cận manglại hiệu quả phục vụ cho quá trình nghiên cứu sau này Về khía cạnh thực tiễn, chúng tasẽ có cái nhìn rõ ràng về hệ thống nhận dạng chữ viết tay Tiếng Việt offline rời rạc Từđó, chúng ta có thể áp dụng hệ thống vào ứng dụng thực tế của đời sống
1.2.5 Tóm lược kết quả đạt đượcTrong quá trình nghiên cứu, chúng tôi đã xây dựng được cơ bản về hệ thống nhận dạngchữ viết tay Tiếng Việt offline rời rac với một vài phương pháp trích đặc trưng va
2
Trang 17CHƯƠNG 1 TONG QUAN VE ĐÉ TÀI
phương pháp hoc máy SVM Vi quá trình nhận dạng bằng phương pháp SVM duocđánh giá cao trong việc nhận dạng chữ viết tay Tiếng Việt rời rạc[2] Từ đó đưa ra mộtvài hướng tiếp cận cho mô hình của quá trình nhận dạng chữ viết tay Tiếng Việt rời
rạc.
1.3 Ket cau của luận văn
Luận văn được tô chức 6 chương:Chương 1 giới thiệu tong quan về dé tài như sơ lược quá trình phát triển hệ thống CR,tên dé tài, mục tiêu, giới hạn nghiên cứu và ý nghĩa của đề tài
Chương 2 trình bày cơ sở lý thuyết chúng tôi vận dụng trong hệ thống gồm mô hìnhtổng quát hệ thống CR offline, các phương pháp trích đặc trưng đã sử dụng phương
pháp học máy SVM và phương pháp đánh giá chéo K-fold.
Chương 3 tìm hiểu các kết quả nghiên cứu liên quan với dé tài nhằm giúp chúng tôi cócái nhìn về phương pháp và kết quả đã đạt được từ các trong công trình nghiên cứu
trước đó.
Chương 4 dé xuất và hiện thực mô hình nhận dạng.Chương 5 nêu kết quả thực nghiệm đạt được trên tập dữ liệu và đưa ra nhận xét đánh
giá.
Chương 6 tong kết các kết quả đã đạt được bên cạnh ưu, nhược điểm và hướng phát
trién tương lai của đề tài.
Trang 18CHUONG 2 CƠ SỞ LÝ THUYET
CHUONG 2
CO SO LY THUYET
Do tai dé nghiên cứu của chúng tôi hướng đến hệ thông CR chữ viết tay offline Nhammục đích dễ trình bày không nhăm lẫn nên khi chúng tôi dé cập đến khái niệm hệthống CR thì đó là hệ thông CR chữ viết tay offline Trong phân này, chúng tôi sẽ trìnhbày mô hình tong quát của hệ thống CR và so lược các kỹ thuật áp dung cho từng tiếntrình của mô hình Trong hệ thống CR sẽ bao gồm nhiều tiến trình con với nhiều kỹthuật khác nhau được xây dựng phục vụ cho từng mục đích khác nhau Sự kết hợp nàysẽ tạo nên độ chính xác khi nhận dang cho hệ thong CR Chính vi thé, quá trình nghiêncứu về hệ thông CR là một quá trình phức tạp Ngoài ra trong giới hạn nghiên cứu củađề tài, chúng tôi sẽ trình bày bảy phương pháp trích đặc trưng, phương pháp học máySVM và phương pháp đánh giá chéo K-fold mà chúng tôi sẽ vận dụng để khảo sát
trong nghiên cứu này.
Trang 19CHUONG 2 CƠ SỞ LÝ THUYET
Trong quá trình tìm hiểu sơ bộ về hệ thông CR, mô hình chúng tôi có thé thay từ hệthống CR như miéu tả ở hình 2.1 Quá trình nhận dang sẽ trải qua bay bước chính Cacbước này nối kết với nhau để tạo nên dòng chảy các công việc Đầu ra của quá trìnhnày chính là đầu vào của quá trình kia Quá trình thu thập có nhiệm vụ tạo ra hình ảnhđể đưa vào hệ thống nhận dạng thông qua thiết bị máy scan Quá trình tiền xử lý thựchiện khử bớt nhiễu xảy ra đối với ảnh đưa vào Trong thực tế có rất nhiều nguyên nhândẫn đến việc gây nhiễu trên ảnh như chất lượng tài liệu scan, máy scan, cách thức scandữ liệu Tất cả những nguyên nhân đó có thể ảnh hưởng đến chất lượng nhận dạngcủa hệ thống CR Sau quá trình tiền xử lý hệ thống sẽ thu được ảnh đã giảm bớt đượclượng nhiễu có thể Hình ảnh này tiếp đến sẽ được đưa vào quá trình phân tách để thực
hiện thao tác tách những don vi xử lý như ký tu, từ, dong hay đoạn văn tùy theo mô
hình CR hiện thực Quá trình trích đặc trưng mục tiêu chính giúp hệ thống trích nhữngđặc trưng phân biệt để phục vụ cho quá trình nhận dạng Tuy nhiên, nhiều thuộc tínhtrong quá trình trích đặc trưng có thể dư thừa vì thế cần thực hiện thao tác lựa chọnnhững đặc trưng phù hợp Quá trình chọn đặc trưng sẽ chọn một số thuộc tính và loạibỏ những thuộc tính dư thừa nhằm tăng khả năng tính toán cho hệ thống Quá trìnhphân loại nhận dạng dựa vào các đặc trưng được chọn lựa để thực hiện công việc nhậndạng Trong hệ thống CR, có thể nói quá trình trích đặc trưng và quá trình phân loạinhận dạng là hai quá trình quan trọng Vì cả hai quá trình này đều mang ý nghĩa quyếtđịnh tạo nên độ chính xác và sự khác biệt cho hệ thống CR Đa số các bài báo đều khaithác những kỹ thuật khác nhau trong hai quá trình này nhằm mục tiêu cải tiễn hệ thốngCR Nói như thế không phải các quá trình khác đều không có ảnh hưởng đáng kế đếnhệ thống Mỗi quá trình đều có đóng góp tích cực đến việc tăng khả năng nhận dạng
chính xác cho hệ thống Quá trình hậu xử lý mục đích chính thực hiện việc chỉnh sửa
kết quả nhận dạng nham mục tiêu tăng thêm độ chính xác cần thiết Tóm lại, mô hìnhnhư hình 2.1 xem như mô hình tổng quát của hệ thống CR Tuy nhiên tùy vào nhữngnghiên cứu và khảo sát cụ thé mà mô hình CR có thé thay đối không nhất thiết có đầyđủ các quá trình trên Phần kế tiếp chúng tôi xin trình bày cơ sở lý thuyết một vài
Trang 20CHUONG 2 CƠ SỞ LÝ THUYET
phương pháp trích đặc trưng và phương pháp học máy SVM kết hợp đánh giá chéo
K-fold sẽ áp dụng trong luận văn này.
2.2 Phuong pháp trích đặc trưng
2.3.1 Gradient Feature[2|
Phương pháp nay sử dung đặc trưng gradient theo những hướng cụ thé của hình anh.Từ đó hình thành nên dữ liệu thống kê bằng cách xem số lần xuất hiện của nhómhướng cụ thể và đưa ra giá trị cho đặc trưng của hình ảnh Từ những ý trên, rõ ràngtrong phương pháp này cần quan tam hai yếu tố: cách tính gradient của hình ảnh và baonhiêu hướng cụ thé để khảo sát Về cách tinh gradient, tác giả sẽ tinh bằng cách tíchchập hình ảnh với cửa số Sobel theo trục x và y Sau đó, tính độ lớn và hướng của từngpixel trong hình ảnh đó Còn về số hướng cụ thể thì tùy thuộc vào số lượng hướng haysố lượng đặc trưng muốn thống kê mà đưa ra quyết định Sau khi đếm số lượng hướng,tác giả chọn giá trị ngưỡng cho mỗi đặc trưng và so sánh số lượng hướng với ngưỡngnày Nếu số lượng lớn hơn giá trị ngưỡng thì đặc trưng đó bằng 1 và ngược lại thì bằng0 Sau đây là công thức tính toán giá trị gradient của một pixel bất kỳ trong hình ảnh
Gx, Gy: giá tri dao ham trên trục x và trục y của hình anh,
a(x, y): giá tri gradient cua pixel (x,y) của hình anh.
Ngoài ra, hình 2.2 bên dưới biểu hiện cho 12 giá tri thông kê của 12 hướng thuộc tính
của vùng thứ 8 trong ảnh và giá tri 12 thuộc tính hình thành với ngưỡng 8 = 5 trongphương pháp Gradient Feature.
Trang 21CHUONG 2 CƠ SỞ LÝ THUYET
a
a
1 1000000000012 features
Hình 2.2 Các thuộc tinh cua phương pháp Gradient Feature[2].2.3.2 Structural Feature[2|
Cũng sử dung giá trị hướng của gradient nhưng việc thống kê lại dựa trên đặc trưngkhác của hình ảnh Ở đây, tác giả sẽ đưa ra 12 luật tương ứng với 12 đặc trưng thốngkê Với mỗi pixel của hình ảnh, tác giả sẽ xem xét 12 luật ấy và sẽ có số lượng tươngứng Điều chú ý ở các luật này là chúng thống kê dựa vào các điểm lân cận của pixel.Cũng giống phương pháp Gradient Feature, tác giả cũng áp dụng quy tắc ngưỡng chomỗi luật để đặt các luật về 2 giá trị 0 và 1 Hình 2.3 mô tả 8 pixel lận cận có đánh thứtự của một pixel và 12 quy luật thống kê cho 12 thuộc tính của một hình ảnh bất ky.Khi xem xét một pixel bat ky dé thống kê quy luật thi cần xem xét 8 pixel lận cận Nếu
pixel lân cận thỏa quy luật nào đó thi sẽ tăng quy luật đó lên 1 đơn vi Ví dụ như dòng
đầu tiên trong bảng quy luật, nêu điểm lận cận NO có gradient thuộc về vùng (2,3 4)hay N4 có gradient thuộc về vùng (2.3.4) thì quy luật 1 sẽ tăng lên tương ứng Và
tương tự cho các quy luật còn lại với các điêm lân cận.
Trang 22CHUONG 2 CƠ SỞ LÝ THUYET
N3 N2 NI
N4 x NO
NS N6 N7
Rules | Description Neighbor 1 Neighbor 2
1 Type 1 horizontal stroke NO (2.3.4) N4 (2.3.4)
2 Type 2 horizontal stroke NO (8.9.10) N4 (8.9.10)
3 Type 1 vertical stroke N2 (5,6,7) N6 (5.6.7)
4 Type 2 vertical stroke N2(1.0.11) N6 (1.0.11)
5 Type 1 upward diagonal N5 (4.5,6) N1 (4.5.6)
6 Type 2 upward diagonal NS(0.11.10) NI1(0.11,10)7 Type 1 downward điagonal N3@.2.1) N7@.2.1)
8 Type 2 downward diagonal N3 (7,8,9) N7(7,8.9)9 Type 1 right angle N2 (5.6,7) NO (8,9,10)
10 Type 2 right angle N6 (5.6,7) NO (2.3.4)
11 Type 3 right angle N4 (8,9,10) N2(1,0,11)
12 Type 4 right angle N4 (4,3,2) N6 (1.0,11)
Hình 2.3 Các thuộc tinh cua phương pháp Structural Feature[2].2.3.3 Concavity Feature[2]
Trong phương pháp nay, tác giả sẽ trích 8 đặc trưng cơ bản: số lượng pixel màu den, sốlượng horizonal large stroke, số lượng vertical large stroke, số lượng upwardconcavity, số lượng downward concavity, số lượng leftward concavity, số lượngrightward concavity và số lượng lỗ trống hình ảnh Tương tự 2 phương pháp trên, tácgiả cũng sẽ chọn giá trị ngưỡng để thiết lập giá trị đặc trưng bang 0 hay 1 Hình 2.4 (a)miêu ta thuộc tinh số lượng pixel đen trong vùng 12 của hình ảnh Hình 2.4 (b) tính
toán xem pixel màu xanh thuộc horizontal large stroke hay vertical large stroke Thuộc
tính này được xác định dựa vào SỐ pixel liên tục thuộc hàng và cột của pixel màu xanhthuộc về Nếu số pixel liên tục thuộc hàng lớn hon SỐ pixel liên tục thuộc cột nhân 1.5thì pixel màu xanh có thuộc tính horizontal large stroke Ngược lại, nếu số pixel liêntục thuộc hàng nhỏ hơn sỐ pixel liên tục thuộc cột nhân 0.75 thi pixel màu xanh cóthuộc tính vertical large stroke Theo như hình 2.4 (b), pixel màu xanh có số pixel liêntục thuộc hàng bằng 5 và số pixel liên tục thuộc cột bằng 9 thỏa điều kiện thuộc tính
S
Trang 23CHUONG 2 CƠ SỞ LÝ THUYET
vertical large stroke Vì thé pixel mau xanh duoc đếm thuộc về thuộc tinh vertical largestroke Hình 2.4 (c) đưa ra 8 hướng thống kê để xét xem pixel sẽ thuộc về thuộc tính
upward concavity, downward concavity, leftward concavity, rightward concavity hay
lỗ trống Nếu tir pixel xem xét mở rộng theo 8 hướng dung được pixel của hình ảnh(pixel màu đen) thì xem như hướng đó của pixel khảo sát tôn tại Sau khi khảo sát theo8 hướng, nếu tổn tại các hướng (0-7-6-5-4) thì pixel xem xét có thuộc tính upward
concavity Tương tự pixel sẽ có thuộc tính downward concavity (0-1-2-3-4); leftward
concavity (2-1-0-7-6); rightward concavity (2-3-4-5-6); 16 trong (tat cả các hướng)
4
4
0-7-6-5-4: Upward Concavnty0-1-2-3-4 : Downward Concavity2-1-0-7-6 : Leftward Concavity2-3-4-5-6 : Rightward ConcavityAll directions : lỗ trong
c/ Tinh so lượng cua moi Concavity.Hình 2.4 Các thuộc tính phương pháp Concavity Feature[2].
Trang 24CHUONG 2 CƠ SỞ LÝ THUYET
2.3.4 Projection Feature[8]
Trong phương pháp Projection Feature, tác giả sử dung ý tưởng chiếu các pixel den
vào hai trục x (cột của hình ảnh) và trục y (hàng của hình ảnh) Sau đó tính toán các đại
lượng thống kê tương ứng cho mỗi trục Các đại lượng cân tính toán trên mỗi phépchiếu trục bao gồm 3 đại lượng: mean, variance và entropy Vì thế, phương pháp nàysẽ thu được tong cộng 6 đặc trưng Công thức sau tính toán các đại lượng đó
2.3.5 Projection Histogram Feature[7]
Trong phương pháp này, tác giả sé sử dụng phép chiếu giống như Projection Featurenhưng sự khác biệt ở việc tính toán đặc trưng và cách chiếu Phương pháp Projection
Histogram Feature sẽ chiêu trên 4 trục x, y, chéo trai và chéo phải dé đêm sô lượng
10
Trang 25CHUONG 2 CƠ SỞ LÝ THUYET
pixel đen trên mỗi phép chiếu hình thành các đặc trưng Hình 2.5 miêu tả ý tưởngphương pháp Projection Histogram Feature Công thức để tính số lượng thuộc tính thuđược đối với hình ảnh có kích thước (m x n) trong phương pháp này: m + n + 2 (m+n -
1) thuộc tính.
eee
° °a @“ ®
Y eee
>
Hình 2.5 Các thuộc tinh phương pháp Projection Histogram Feature[7].2.3.6 Zone Feature[7]
Phương pháp Zone Feature ý tưởng chính cua tác gia chia hình anh thành các vung
nhỏ Sau đó đếm số lượng pixel đen trong mỗi vùng dé hình thành các thuộc tính Sốlượng thuộc tính thu được tùy thuộc vào SỐ lượng phân vùng ảnh của từng ứng dụng cụthể Hình 2.6 chia hình ảnh thành 49 vùng khác nhau thì sẽ thu được 49 thuộc tính của
11
Trang 26CHUONG 2 CƠ SỞ LÝ THUYET
phụ thuộc vào kích thước của ảnh Như hình ảnh có kích thước (m x n) thì SỐ lượng
thuộc tính thu được sé tính theo công thức: 2(m + n) thuộc tính Hình 2.7 minh họa chi
\
Hình 2.7 Các thuộc tính phương pháp Contour Profiles[7].
tiết về phương pháp Contour Profiles Feature
) b2
2.4 Phương pháp học máy SVM và phương pháp đánh giá chéo K-fold
2.4.1 Mô hình C-Support Vector Classification (C-SVM)[1]
Support Vector Machine (SVM) là bộ phân loại dựa trên việc tim kiếm siêu phăngphân cách tối ưu Thuật toán sẽ đánh nhãn cho từng mẫu huấn luyện và sẽ tìm ra siêuphăng phân cách tối ưu dựa trên mẫu huấn luyện Chính siêu phăng phân cách này sẽphân loại mẫu dữ liệu mới đưa vào bộ phân loại
Trong quá trình hiện thực có nhiều loại SVM tùy thuộc vào mô hình tối ưu toán học áp
dụng trong các bài toán khác nhau Hiện tại có 5 loại mô hình thường được sử dụng
pho biến trong các ứng dụng như C-Support Vector Classification, y-Support Vector
Classification, Distribution Estimation (One-class SVM), €-Support Vector Regression
và y-Support Vector Regression Trong nghiên cứu của dé tài, chúng tôi sử dung môhình C-Support Vector Classification dé xây dựng cho quá trình nhận dạng
Trong mô hình C-Support Vector Classification được phát biểu như sau: có một tậphuấn luyện gom những vécto x; € R”, ¡ = 1,, ,1, được chia trong 2 lớp và một véctơ xác
định y € RỈ với yi € {1,-1} C-SVM sẽ giải quyết bài toán tối ưu sau dé tìm ra mặt siêu
phăng
12
Trang 27CHUONG 2 CƠ SỞ LÝ THUYET
2.4.2 Phương pháp đánh giá chéo K-fold[4]
Phương pháp này dùng để đánh giá chéo các mẫu với nhau Ý tưởng của phương pháplà từ một tập mẫu gốc chia ngẫu nhiên thành k phần có kích thước mẫu bằng nhau.Trong đó, phương pháp sẽ chọn lần lượt 1 phần mẫu được chia làm tập test còn k-1phân còn lại dùng làm tập huấn luyện Cứ thế lập lại quá trình đến k lần cho việc đánh
13
Trang 28CHUONG 2 CƠ SỞ LÝ THUYET
giá Sau khi thu được k kết quả từ k lần đánh giá thì sẽ tính giá trị trung bình từ k kếtquả ấy Lợi ích của phương pháp này là tất cả các mẫu đều tham gia quá trình huấnluyện đánh giá và mỗi mẫu sẽ được đánh giá duy nhất một lần Cụ thé với phương pháphọc máy C-SVM như trên, chúng tôi sẽ chia tập dữ liệu góp thành 5 phần khác (k=5)và sau khi huẫn luyện sẽ thu được 5 mô hình C-SVM tương ứng Sau đó, chúng tôi laykết quả nhận dạng trung bình của 5 mô hình làm kết quả nhận dạng của hệ thống
14