TOM TATNhận dang chữ viết tay là một trong những lĩnh vực nghiên cứu tích cực va daythử thách trong lĩnh vực xử lý hình ảnh và nhận dạng mẫu.. - Hỗ trợ điều khiến bằng chữ viết: Hiện nay
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRAN TIEN HUY
NHAN DANG CHU VIET TAY TIENG VIET
Chuyên ngành: Kỹ thuật điện tử.
Mã số: 7140379
LUẬN VĂN THẠC SĨ
TP.HO CHI MINH, thang 7 năm 2018
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRUONG ĐẠI HOC BACH KHOA —DHQG —HCMCán bộ hướng dẫn khoa học : TS Truong Quang Vinh
2 Thư ký: TS Trần Hoàng Linh3 Phản biện |: TS Bùi Trọng Tú
4 Phản biện 2: TS Nguyễn Minh Sơn
5 Ủy viên: PGS TS Hoàng Trang
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRUONG ĐẠI HOC BACH KHOA Doc lập - Tw do - Hanh phúc
NHIEM VU LUẬN VAN THAC SĨ
Ho tén hoc vién: Tran Tién Huy MSHV:7140379Ngày, thang, năm sinh: 27/09/1991 Noi sinh: TP.HCMChuyên ngành: Kỹ thuật điện tử Mã số : 60520203
I TEN DE TÀI: Nhận Dạng Chữ Viết Tay Tiếng Việt
Il NHIỆM VU VA NỘI DUNG: Đưa ra phương pháp nhận dạng chữ viết tay tiếngViệt hoa và thường có dấu và số bang cách áp dụng phương pháp trích đặc trưngHOG và phương pháp máy học KNN nham đưa ra kết quả nhận dạng tối ưu nhất
Ill NGÀY GIAO NHIEM VU : 04/09/2017IV NGAY HOAN THANH NHIEM VU: 03/12/2017V CAN BO HUONG DAN: Tiến sĩ Truong Quang Vinh
Tp HCM, ngày thang năm 2018.
CAN BO HUONG DAN CHU NHIEM BO MON DAO TAO
(Họ tên va chữ ky) (Họ tên và chữ ký)
TRUONG KHOA (Họ tên và chữ ký)
Trang 4LỜI CÁM ƠN
Được sự phân công của nhà trường, khoa điện — điện tử va su đồng y của giảngviên hướng dẫn TS Trương Quang Vinh, em đã thực hiện luận văn thạc sĩ chuyênngành kỹ thuật điện tử với dé tài “Nhận Dang Chữ Viết Tay Tiếng Việt” Qua trangviết này em xin gửi lời cảm ơn tới những người đã giúp đỡ em trong thời gian học tập.nghiên cứu luận văn thời gian qua.
Trước hết, em xin được tỏ lòng biết ơn và gửi làm cảm ơn chân thành đến TS.Trương Quang Vinh Thây là người đã trực tiếp hướng dẫn và tận tình chỉ bảo trongcông việc nghiên cứu, tìm kiếm tài liệu, xử lý và phân tích van dé của luận văn Nhờthay mà em có thê hoàn thành luận văn cao học.
Ngoài ra, em cũng xin chân thành cảm ơn quý dong nghiệp, gia đình và bạn bècùng khóa đã luôn động viên và hồ trợ em trong suôt quá trình nghiên cứu và hoànthành luận văn này.
TÁC GIÁ
Trân Tiến Huy
Trang 5TOM TAT
Nhận dang chữ viết tay là một trong những lĩnh vực nghiên cứu tích cực va daythử thách trong lĩnh vực xử lý hình ảnh và nhận dạng mẫu Nó có nhiều ứng dụng baogôm: đọc trợ giúp cho người mù, ngân phiếu ngân hàng và chuyền đổi bất kỳ tài liệubang văn bản tay thành dạng cau trúc văn bản hay số hóa Trong nghiên cứu này, tácgiả nỗ lực thực hiện nhận biết ký tự viết tay cho bảng chữ cái tiếng Việt Mỗi bộ dữliệu chứa bảng chữ cái 29 ký tự (chữ hoa và chữ thường có dấu) Nhiều bộ dữ liệu kýtự khác nhau được sử dụng để đào tạo và kiểm tra kết quả
ABSTRACTS
Handwriting recognition has been one of the active and challenging researchareas in the field of image processing and pattern recognition It has numerousapplications which include, reading aid for blind, bank cheques and conversion of anyhand written document into structural text form In this research, my attempt is madeto recognize handwritten characters for Vietnamese alphabets Each character data setcontains 29 alphabets (upper case and lower case with accent) Many character datasets are used for training and testing.
Trang 6LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của riêng tác giả Các số liệu,kết qua trong dé tài này là trung thực và chưa công bố dưới bat kỳ hình thức nao trướcđây Tất cả những tham khảo và kế thừa cho việc thực hiện luận văn này đã được cảmơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc rõ ràng và đượcphép công bố
TP.HCM, ngay thang năm 2016
Hoc viên thực hiện
Tran Tiến Huy
Trang 71 Tổng quan: - 5S St E31 1111171111 1111111111111111T11111 111111 121.1 Giới thiệu về để tài: cc tt tt nh HH 1g rg 121.2 Mục tiêu, nhiệm vụ và phạm vi Cn ee 131.2.1 Mục tiêu của dé tis eseesesseesseessessnssseesseesscneesuserscenesuessuesseesueesnscnesusereseaeeaneenneessen 131.2.2 Nhiệm vụ của để tài: ch HH HH h 141.2.3 Phạm vi của G6 tài: co HH HH h 141.3 T6 chitc LUI nh 14
2 Tinh hình nghiên cứu trong và ngoài NUGCE - - - 5 S111 HH ngu 152.1 Tinh hình nghiên cứu trong TƯỚC: - - << EE01011113 101111199 11H HH nh 152.2 Tinh hình nghiên cứu ngoal HƯỚC: G- ĂG 1x SH TH HH HH kh 16
3 Cơ Sở Lý ThuyẾ( ¿ 5-5: SE SE ExE EE21111 11111111211 7111111111111 18
3.1 Median DIUG HBRBmBnBmnỪằỪẽ .ằ 18
3.3 CANNY a3 203.4 — Thresholding - -c Ăn HH HT tt re 213.5 COMOUL Iadđdđdđdaầdiaaaaaaiaaiíddda 22:®° Ẻốố6e6eW4 23SA 24
3.8 _ Bộ thư viện hỗ trỢ + tt tt HH HH gu 264 Thiết kết giải thuật(: -¿- 65c E2 E21 E1 22111711111111111111111111111111 11x 274.1 Lưu đồ huấn luyỆn: w.ceeeeeccseseeescescscseessscescseseesssssscssseesssssssssssessssssssssesssssesssnssesssssneesseseestaen 274.2 Luu đồ thực TIĐhlñỆTH: c0 10.0 vn nu nọ nọ và 28
4.3 Mác ä344.ốố a 29
5 _ Kết quả (thực nghiỆm: - +6 St z2xỀE2 E23 x1 E23E12111111111.11111111111 111111 36
5.1 _ Môi trường thực nghiệm va CONG CỤ: - - G E1 SH TH KH HH kg kh 36
KP NH-‹(diị( ccẢẢảỶsẢ4ỐŸÝÃỶÝỶŸẼŸẼ 40
5.3 80211185 SẼ00T70ẼỀ7Ề 87 a 48
5.4 Hung phát triển của dé tài: ¿St St E3 E111 1111211111111 gryeg 51IV )80)5080°7.)),809./ 100 52
Trang 8DANH MỤC CÁC CHỮ VIÉT TẮT
STT Chữ viết tat Ý nghĩal HOG Histogram of Oriented Gradients2 KNN K-Nearest Neighbors
3 HCR Handwriting character recognition4 USPS United State Postal Service
; MNIST National Institute of Standard and Technology of
the United States6 SVM Support Vector Machine7 NN Neural Network
8 ME Maximum Entropy9 GSC Gradient, Structural, and Concavity
10 OWA Ordered Weighted Aggregating
Trang 9DANH MỤC HÌNH
Hình 2.2.1 Giao diện được thử nghiệm của phần mềm (Nguéng[8]) 16Hình 3.1.1 Hình mơ ta Median Blur (Nguồn [Í H]) -<< <<<<<<<<<<ssssss 18Hình 3.2.1 Hình mơ ta Gaussian Blur (Nguồn [12 ]): . -< -<<<<<<<<<2 19Hình 3.3.1 Hình mơ ta Canny (Ngu6n [13]) ccccccescccssessesesessesssessesssesseseseeseseseesesen 20Hình 3.4.1 Hình mơ tả Thresholding (Ngu6n [14†]) 5- + 5s 5s+s+cs>szsee: 21Hình 3.5.1 Hình mơ ta Contour (Nguồn [1Š Ì- - << 22Hình 3.6.1 Hình mơ tả HOG (Nguồn [ 16 ]) ¿5-5-5252 52 *+es£cecrerrerree 23Hình 3.7.1 Hình mơ tả cho KNN (Nguồn [Í7])‹ - 7c S 2111311111111 1 11111112555 24Hình 3.7.2 Hình mơ tả KNN khi tác giả tạo vịng trịn (Ngu6n [17]) 24Hình 4.1.1 Lưu đồ huấn luyện - - 2 SE +E+E+EEEEE£E£E#EEEEEEEEEEEEEEErkrkrkrree 27Hình 4.2.1 Lưu đồ thực nghiệm - + ¿2E + S2 +E+E£E+E£EEEE£E£EeEeEeErrerkrerree 28Hình 4.3.1 Hình mơ tả lay mẫu dé huấn luyện ban dau - estes 28Hình 4.3.2 Hình mơ tả lay mẫu huấn luyện kiểu khác - 2 55552: 29Hình 4.3.3 Hình khi lấy giấy che đi ¿2 52 SE E22 SE E2 2E 29Hình 4.3.4 Hình kết quả khi lay giấy che đi - - ¿25+ 2 +s+x+c+cxvrerererree 30Hình 4.3.5 Hình kết quả khi lay giấy che đi với Ê ¿ - + 5s cs+x+cecszsee 30Hình 4.3.6 Hình kết quả khi lay giấy che đi với Ð - ¿5+ se scxsrrscree 30Hình 4.3.7 Hình khi huấn luyện với a -¿5©5 2 2ecc+ccecrerreerrseee 31Hình 4.3.8 Hình khi huấn luyện với A oeeeececceccceseceseseesssessesesessesesessesesessesssessesesen 31Hình 4.3.9 Hình file kết quả sau huấn luyện c.cceccccsesccsesessesesesesesesseseseeseseseesesen 32
Hình 4.3.10 Hình mẫu cho thực nghiỆm S901 1111 1 ng 33
Hình 4.3.11 Hình mẫu cho thực nghiệm với NAUAN c-ccsccsxsxcerseeeeees 34Hình 5.1.1 Hình mơ tả biểu tượng eclipDse - ¿5-5252 2++++S+£x+xvEzxerererrrrees 35Hình 5.1.2 Hình m6 tả giao diện eclipse - - ng re 36Hình 5.1.3 Hình mơ tả bước Build all - << 55+ +1 +33 ESSsskeesessske 36
Hình 5.1.4 Hình mồ tả quá trình Build aÏÏ 25555533315 Essssssseeeeree 37Hình 5.1.5 Hình file kết quả sau khi build - - 2552 25s+s+S++s+x+£ezszsee: 37Hình 5.1.6 Hình file kết quả sau khi huẫn luyện - 225 2 +5s+s+£s+xzsze: 37
Trang 10Hình 5.1.7 Hình m6 tả cài đặt OpenCV Gv, 38Hình 5.1.8 Hình m6 tả cài đặt thêm thư viên OpenC V -ccS+s++<**2 39
Hình 5.1.9 Hình m6 tả sử dung hàm trong OpenC se 39
Hình 5.2.1 Hình mẫu thực nghiệm với sáng ¿-+-222++s+x+x+x+xeeerererereee 40
Hình 5.2.2 Hình kết quả thực nghiệm với sáng - + 25 5+ cs+x+£ezxczee 40Hình 5.2.3 Hình mẫu thực nghiệm với TEN - CS HT H112 ng ng reg 4]Hình 5.2.4 Hình kết quả thực nghiệm với TEN o.ccecccseseeesesescsseseseseseeseseseens Al
Hinh 5.2.5 Hinh mau thuc nghiệm với Khánh - - - << <1 veeeeeeee 42
Hình 5.2.6 Hình kết quả thực nghiệm với Khánh - + 25 2 2x52: 43Hình 5.2.7 Hình mẫu thực nghiệm với Tiến Huyy 25-5 25+ cs+c+cezxcsee 4Hình 5.2.8 Hình kết quả thực nghiệm với Tiến HUY .- ¿25-52 25525: 44Hình 5.2.9 Hình mẫu thực nghiệm với Nhuhn cv gxevekrrersed 45Hình 5.2.10 Hình kết quả thực nghiệm với Nhuân - 5-5 252 5s+<+5+2 45
Hình 5.2.11 Hình mẫu thực nghiệm với |28⁄46 1 1 1 ve eee 46
Hình 5.2.12 Hình kết quả thực nghiệm với 12846 - +25 55s+s+c+cz£s+xcceẻ 46
Hình 5.3.1 Hình mô tả các mẫu thực nghiỆm - - SH 1 ke 47Hình 5.3.2 Hình mô tả các mẫu thực nghiệm khác - «s53 47
Trang 11DANH MỤC BANGBảng 5.3.1 Thống kê số lượng và kiểu mẫu trong thực nghiệm
Trang 12are.«
Nhận dạng ký tự HCR (Handwriting character recognition) đã thu được sự quantâm ngày cảng tăng trong cả nghiên cứu học thuật và trong ngành Đã là giấc mơ cô đạicủa con người dé phát triển các máy móc nhân bản chức năng của con người Một trongnhững nhân bản như vậy của các chức năng con người là đọc các tài liệu bao gồm cáchình thức văn bản viết khác nhau
Các hệ thống nhận dạng ký tự viết tay đã trở thành một trong những ứng dụngthành công nhất của công nghệ trong việc nhận diện ký tự và các lĩnh vực thông minhnhân tạo Mặc dù các hệ thống nhận dạng ký tự viết tay đang được thương mại hoá chocác ứng dụng rộng rãi đa dạng, tuy vậy những máy đọc nhận dạng ký tự viết tay vẫnkhông thê canh trạnh với khả năng đọc của con người về độ chính xác mong muôn.
Các ứng dụng của nhận dạng chữ viết tay đã và đang có nhiều đóng góp vào đờisống Nhận dạng chữ viết tay có thể phục vụ cho các ứng dụng đọc và xử lý các chứngtừ, hóa don, phiếu ghi, bản viết tay chương trình Tuy nhiên cho đến nay việc nhậndạng chữ viết tay vẫn còn là thách thức lớn đối với các nhà nghiên cứu Đã có nhiềucông trình nghiên cứu về nhận diện các mẫu chữ viết tay của các hệ chữ cái Latinh,Arap, Trung Quốc nhưng kết quả vẫn còn khá hạn chế do chữ viết tay rất đa dạng vềmẫu chữ cũng như các biến thé Các mẫu chữ viết tay phụ thuộc nhiều vào cách viết,trạng thái tinh thần của người viết Ứng dụng của chữ viết tay rất đa dạng:
- Hỗ trợ cho người khiếm thị: Ngay từ rất sớm các kỹ thuật xử lý ảnh được đưavào máy đọc phục vụ cho người khiếm thị Hệ thống có thể thu nhập dữ liệu từ tài liệugiấy rồi đọc ra dé người nghe hiểu được nội dung bài viết có thé ký tự viết tay hoặc chữin.
- Hỗ tro cho việc lưu trữ, sao chép dữ liệu: Con người ngày nay van hay dùng tai
liệu giấy dé trao đối thông tin, bản thao Công nghệ dạng ký tự có thé giảm thiểu thờigian đánh máy của con người, lưu trữ hợp đông, thư viện sách điện tử.
Trang 13- Hỗ trợ điều khiến bằng chữ viết: Hiện nay các ứng dụng nhận dạng chữ viếtcũng được dùng là đầu vào của hệ thong xử lý khác ví dụ như hệ thống thông minh tựđộng trong gia đình, công cộng hay những ứng dụng cảm ứng rất thịnh hành.
Ngoại trừ các ký hiệu đặc biệt như dau phay, dấu hai chấm, dẫu chấm , sỐ lượngchữ cái tiếng Việt là 29 bao gồm 26 chữ cái bảng chữ cái tiếng Anh (trừ ký tự f,wj,z),7 chữ cái có dấu phụ (4, a, 4, 6, ơ, ư, ê) Kèm theo đó tiếng Việt có 6 tông âm:
Không dâu: a ă âe ê1ôơư
c-Dâu nặng: ạ ã ậ e ệ Lộ ợự
Trong bài nghiên cứu này, tác giả cố găng nhận dạng những chữ cái riêng biệtnay Tuy nhiên, đối với lá thư viết tay, rất khó dé tách những phan này ra vì nó còn phụthuộc vào ngữ nghĩa và phong cách viết tay của từng cá nhân Nên tác giả giới hạnnghiên cứu của mình trong nhận dạng một chữ tiếng Việt hoa và thường có dấu
Nói chung có bốn giai đoạn chính trong van đề HCR (handwriting characterrecognition):
1 Tiền xử lý,2 Trích xuất đặc trưng và biéu diện đặc trưng,3 Huấn luyện,
4 Nhận dạng,
Sones
1.2.1 Mục tiêu của dé tarMục tiêu nghiên cứu
Trang 14Trong nghiên cứu này, tác giả muốn đưa ra phương pháp nhận dạng chữ viết taytiếng Việt hoa và thường có dau bang cách áp dụng phương pháp trích đặc trưng HOGvà phương pháp máy học KNN nham đưa ra kết quả nhận dạng tốt nhất
Mục tiêu ứng dụng
Mục tiêu ứng dụng dé tài nhận dang chữ viết rat đa dạng trong cuộc sống, nhấtlà chữ viết tiếng Việt còn mới tại Việt Nam Ứng dụng này sẽ là tiền đề cho sự pháttriển ứng dụng sao lưu, lưu trữ các tài liệu giấy thành những văn bản phan mém hay trítuệ nhân tạo sau này.
1.2.2 Nhiệm vụ của dé tài:
e_ Tiên xử lý các mẫu chữ tiếng viết hoa và thường có daue Trích xuất đặc trưng các mẫu đầu vào
e Sử dụng phương pháp huấn luyện cụ thée Nhận dạng được chữ tay tiếng Việt trên văn bản giấye Kiểm tra và đánh giá phương pháp nhận dạng
1.23 Phạm vi của dé tai:Bài toán nhận dạng được thực hiện dựa trên bộ chữ tiếng Việt hoa và thường.Trong giai đoạn thực hiện dé tài, tác giả tập trung nghiên cứu các ký tự tiếng Việt rờirạc không dính nét giữa các chữ Hướng tiếp cận là nhận dạng một chữ hoa và thườngcó dau trên văn bản giây việt tay
Luận văn sẽ đi qua các mục chính sau:
1) Xem qua các nghiên cứu trong và ngoài nước về đê tài của luận văn.2) Phân tích rõ về giải thuật tiên xử lý, trích xuât đặc trưng và huân luyện.
Trang 153) Tiến hành mô phỏng va thử nghiệm.4) Kết luận va thảo luận về các cải tiễn có thé trong tương lai.
Cho đến nay, bài toán nhận dạng chữ viết tay cũng đã có một số kết quả khảquan, chủ yếu tập trung trên các tập dữ liệu chữ số viết tay như USPS (United StatePostác giải Service) và MNIST (National Institute of Standard and Technology of theUnited Stác giates), một số kết quả khác mở rộng đối với các chữ cái hệ La tinh, Hylạp Đặc biệt đối với việc nhận dạng chữ viết tay tiếng Việt lại càng gặp nhiều khókhăn hơn do bộ ký tự tiếng Việt có nhiêu chữ có hình dáng rất giống nhau, chỉ khácnhau chút ít về phần dấu Do đó có rất ít kết quả nghiên cứu về nhận dạng chữ viết taytiếng Việt và các kết quả nghiên cứu chủ yếu cũng chỉ tập trung vào chữ viết tay online.Bộ ky tự tiếng Việt bao gồm tập ký tự không dau {A, B, C, D, Ð, E, G, H, I, K, L, M,N,O,P,Q,R,S,T,U,V,X, Y} và các ký tự có dau {A, A, A, Ả, A, A, A, A,A,A,A,A,A,A,A,A,A,E,E,E,E,E,E,E,E,E,E,E,1,1,1, 1,1, Ô, Ơ, Ò, Ó,Õ,Ó,O,Ô,Ô,Ô,Ô,Ô,Ở,Ở,Õ,Ớ,Ợ, Ư, Ù, U, U, Ú, Ụ, Ừ, Ứ, Ữ, Ứ,Ự, Y, Y, Ÿ, Ý, Y} Nhận dạngchữ viết tay dang là van đề thách thức lớn đối với các nhà nghiên cứu, bài toàn nàychưa thể giải quyết trọn vẹn được vì nó phụ thuộc quá nhiều vào người viết và sự biếnđổi quá đa dạng trong cách viết và trạng thái tinh than của từng người viết
Việc nhận dạng chữ viết tay thường được bắt đầu nghiên cứu với nhận dạng cácsố Bộ cơ sở dữ liệu chuẩn cho việc nghiên cứu này gồm hai bộ dữ liệu chính: USPS(United Stác giảte Postác giải Service) gồm 7291 mẫu dùng để training và 2007 mẫukhác để testing, mỗi mau là một ảnh xám có kích thước 16x16; MNIST (NationalInstitute of Stác giandard and Technology of the United States).
Theo bài báo [1] Tác giả đã sử dung phương pháp SVM dé khảo sát va so sánhtrên tập dừ liệu số MNIST Trong quá trình trích chọn đặc trưng tác giả khảo sát 4phương pháp Zone, Project Histogram, Countour Profile va Wavelet HaarFeature.Trong đó, phương pháp Zone, Projection Histogram va Contour Profile cho kết qua
Trang 16nhận dạng với độ chính xác cao và giảm khá nhiêu kích thước của dữ liệu đâu vào làmtang toc độ của hệ thông.
Trong bài báo [2] tác gia đã thực hiện trên hai tập dữ liệu: MINIST và VietData.Tập dừ liệu MNIST là tập dữ liệu số chuẩn còn tập dữ liệu VietData do tác giả xâydựng VietData bao gom 89 chữ cái in hoa, mỗi chữ cái chọn 200 mẫu nên tập dữ liệusẽ có tong cộng 17800 mẫu
Trong bai báo [3] Quá trình trích đặc trưng dùng phương pháp Wavelet Haar détrích đặc trưng Còn quá trình xây dựng phân loại SVM, nhóm tác giả đã lợi dụng đặcđiểm liên thông của chữ viết tay Tiếng Việt rời rac để xây dựng từng bộ phân loại SVMriêng biệt Các kết quả thực nghiệm thu được cho thấy việc áp dụng phương pháp phânlớp SVM kết hợp với các đặc trưng wavelet Haar vao bài toán nhận dạng chữ viết tayTiếng Việt đạt độ chính xác tương đối khả quan và có triển vọng
Trong bai báo [4] tác giả đã sử dụng kết hợp nhiễu bộ phân loại với phươngpháp GSC nhằm mục đích tăng độ chính xác trong quá trình nhận dạng chữ viết tayTiếng Việt rời rạc Trong quá trình kết hợp các bộ phân loại, bài báo khảo sát bốn quytắc kết hợp: Median, Max, Min, Product dựa trên lý thuyết Naive Bayesian và lý thuyếtOWA Các bộ phân loại riêng lẻ được họ khảo sát gom NN, ME va SVM với ba bộphân loại riêng lẻ bằng ba phương pháp khác nhau: NN, ME, SVM thi phương phápSVM phân loại dữ liệu chính xác hơn hết và khi sử dụng phương pháp GSC với thuậttoán SVM và những quy tắc kết hợp các bộ phân loại riêng lẻ sẽ là giải pháp phù hợpcho việc nhận dạng chữ viết tay Tiếng Việt rời rạc
Trong bài báo [Š ], hai sinh viên khoa Khoa học và Kỹ thuật máy tính trường Đạihọc Bách khoa (Đại học Quốc gia TPHCM) là Huỳnh Hữu Lộc và Lưu Quốc Hải năm2009 đã xây dựng một mạng nơron nhân tạo dé nhận dạng từng ký tự riêng lẻ dựa trêntập dữ liệu mẫu gồm chữ viết tay của 30 người khác nhau, mỗi mẫu bao gồm 26 nhãntương ứng 26 ký tự Latin Tốc độ nhận dạng đạt được 1000 ký tự/ giây và đưa ra phầnmềm nhận dạng chữ viết tay với 26 ký tự Latin, đạt độ chính xác 84% Thành công củanghiên cứu sẽ giúp tạo tiên dé cho nhiều ứng dụng hữu ích trong cuộc sống thực tiến
Theo bài báo [6] nghiên cứu về CR (character recognition), phân tích những hạnchế của phương pháp luận cho hệ thống, có thể phân loại dựa trên hai tiêu chí chính:quy trình thu thập dữ liệu (trực tuyến hoặc ngoại tuyến) và kiểu văn bản (được In băngmáy hoặc viết tay) Tác giả phân tích một vài phương pháp giả thuật trong năm giaiđoạn chính trong CR: tiền xử ly (Filtering, Size Normalization, Contour Smoothing),chia tách ký tự (Explicit Segmentác giảtion), biểu diễn (Fourier Transforms), dao tạonhận dạng (Neural Networks, Hidden Markov Modeling), hậu xử lý.
Trang 17Trong bài báo [7] tác giả đề xuất một mô hình công nhận dựa trên mô hìnhHidden Markov (HMM) với chữ cái Tiếng Anh, theo sau là một vài giải thuật trích xuấtđặc trưng mới cho một ký tự duy nhất dé giải quyết các định dạng văn bản khác nhaucủa nó Tác giả cũng dé xuất một chuỗi hậu xử lý ở giai đoạn cuối cùng để nâng cao tylệ công nhận hơn nữa Tác giả đã tạo ra một cơ sở dữ liệu gom 13000 mau duoc thuthập từ 100 người viết năm lần cho mỗi ký tự 2600 mẫu đã được sử dung dé dao taoHMM và phan còn lại được su dụng để kiểm tra mô hình nhận dạng Sử dụng hệ thốngnhận dạng dé xuất của tác giả, tác giả đã đạt được ty lệ công nhận trung bình là 98,26%.
Trong bài báo [8], lames A Pittman — truong nhom nghién cuu va phat triénphan mém cua Microsoft gioi thigu phân mém nhập van bản (chạy trên hệ điều hànhWindow) từ chữ viết tay được viết trên máy tính bảng — một ứng dụng của nhận dạngchữ viết tay nam 2007
Hình 2.2.1 Giao diện được thử nghiệm của phần mềm (Nguông[§])
Phần mềm sử dụng mô hình mạng nơ ron nhân tạo có thời gian trễ (time-delayneural networks TDNN) và một bộ từ điển mẫu để nhận dạng các chữ viết tay trên mànhình máy tính bảng Qua đó, một mô hình nhận dạng được huấn luyện băng một sốlượng lớn tập dữ liệu huấn luyện với mẫu chữ viết tay của hàng ngàn người khác nhau.Mô hình này đơn thuần chỉ nhận dạng được chữ cái hoặc chữ số hoặc một kí tự riêngbiệt trong chữ viết Latin Tuy vẫn còn nhiều hạn chế do việc khó lay mẫu chữ và chưatạo thành công mô hình có độ chính xác chấp nhận được nhưng nhóm này van tin tưởngva đang cô gang cho ra phiên bản mang tinh năng nay
Hiện nay nhóm đã nghiên cứu và đạo tạo các mô hình nhận dạng trên chữ viếtTrung Quốc, Hàn Quốc, Nhật Bản, Mỹ, Anh, Đức Một ý tưởng mới của nhóm đó làthêm tính năng huấn luyện cho cá nhân người dùng Tức là huấn luyện bằng bộ dữ liệuchữ viết tay của chính người dùng
Trong bài báo [9], các nhà nghiên cứu Shun Nishide, Hiroshi G Okuno, andTetsuya Ogatác giả đến từ Đại học Kyoto và Jun Tác giảni từ Viện khoa học não bộRIKEN - Nhật Bản đã sử dụng giải thuật mạng thần kinh lặp lại ( Recurrent NeuralNetworks RNN) để nhận dạng chữ chữ viết tay tiếng Nhật và thử nghiệm nhận dạng 10chữ cái tiếng Nhật với độ chính xác đạt được là 90% vào năm 2011 Mô hình nhận dạngbăng các hình ảnh được chụp của chữ viết tay từ một màn hình của máy tính bảngIntuos4 ptk-640 (WACOM).
Mô hình nhận dạng này bao gồm 2 mô dun: 1 mô-đun trích xuất đặc trưng va 1mô-đun máy học Đối với mô đun trích xuất đặc trưng nhóm nghiên cứu sử dụng mạng
Trang 18Self Organizing Map (SOM) để trích xuất đặc trưng của các hình ảnh, từ đó dùng làmdữ liệu huấn luyện Mô đun máy học được huấn luyện băng mạng thần kinh lặp lạinhiều lần - Multiple Timescales Recurrent Neural Network (MTRNN) Sở dĩ 2 mô hìnhđược lựa chọn là vì sự kết hợp tương đối tốt giữa chúng trong các ứng dụng về robot.
Self Organizing Map (SOM) là mạng thần kinh nhân tao được huấn luyện(trained) sử dụng kỹ thuật Unsupervised learning dé biểu diễn dữ liệu với số chiều(dimension) thấp hơn nhiều (thường là 2 chiều) so với dữ liệu đầu vào nhiều chiều(thường số chiều lớn)
Kết quả của SOM gọi là bản đồ (Map) SOM là một ANN (Artificial NeuralNetwork), tuy nhiên SOM khác với các ANN là không sử dụng các lớp an (hiddenlayers) chỉ sử dụng input và output layer SOM sử dụng khái niệm láng giéng(neighborhood) để giữ lại đặc trưng của các dữ liệu dau vào trên ban đồ (có nghĩa làcác training sample tương tự nhau thì được đặt gần nhau trên ban đồ) Ưu điểm chínhcủa SOM là biểu diễn trực quan dữ liệu nhiều chiều vào không gian ít chiều hơn (thườnglà 2 chiều) và đặc trưng của dữ liệu đầu vào được giữ lại trên bản đô
Multiple Timescales Recurrent Neural Network (MTRNN) là một biến thé củaRecurrent Neural Network với 2 lớp Tức là lớp sau sé dự đoán kết quả nhận dạng từkết quả nhận dạng của lớp trước Giải thuật trong mỗi lớp hoàn toàn giống với mạngRecurrent Neural Network truyền thống Các ma trận trọng số liên kết các nút của 2 lớpsẽ được cập nhật liên tục trong quá trình huấn luyện
Trong bài báo năm 2017 [10] tác giả tìm ra sự kết hợp các phương pháp tríchxuất đặc trưng để nhận dạng ký tự của văn bản Bali, trong nghiên cứu thực nghiệm vềphương pháp trích xuất đặc trưng để nhận dạng ký tự trên bản thảo lá cọ Tác giả đãnghiên cứu và đánh giá hiệu suất của 10 phương pháp trích xuất tính năng (HistogramProjection, Celled Projection, Distance Profile, Zoning, Gradient Feature, Moment Hu,NPW, Kirsch ) và phương pháp đảo tao (SVM va KNN), tác gia cũng đã dé xuất sựkết hợp chính xác và mạnh mẽ của các phương pháp trích xuất đặc trưng để tăng tỷ lệnhận dạng Trong nghiên cứu, kết quả nhận dạng cao gan 85% cho phương pháp tríchxuất HoG và KNN với chữ viết tay Bali là một trong những chữ khó nhận dạng Vìvậy tác giả đã áp dụng phương pháp trên vào nhận dạng chữ viết tiếng Việt
3 Cơ Sở Lý Thuyết
3.1 Median blur
Lọc trung vi là một kĩ thuật loc phi tuyến (non-linear), nó khá hiệu quả đối vớihai loại nhiễu: nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-pepper noise) Nóđược sử dụng rộng rãi vì nó rất hiệu quả trong việc loại bỏ nhiễu trong khi vẫn giữ đượccác canh[11].
Trang 19Bộ lọc trung vị hoạt động bằng cách di chuyển qua từng pixel này đến pixel kiacủa hình ảnh, thay thé với giá trị bang giá trị trung bình của các pixel lân cận Khu vựcđược xem xét được gọi là "cửa số" được di chuyến theo từng pixel trên toàn bộ hìnhảnh Giá trị trung bình được tính bang cách sắp xếp tat cả các giá trị pixel từ cửa số theosố thứ tự từ nhỏ đến lớn, và sau đó thay thế pixel được xem xét với giá trị pixel trungbình.
Nó có hiệu quả cao trong việc loại bỏ gai và nhiễu ngẫu nhiên, và bảo toàn các
cạnh khá tốt Mặc dù nó là một bộ lọc bảo toàn cạnh, nhược điểm chính của bộ lọc làxu hướng làm tròn các cạnh, khiến cho một số quá tron
as iy ~ median filter
Gaussian Blur là là kết quả của việc làm mờ một hình anh bang một hamGaussian [I2] Nó là một hiệu ứng được sử dụng rộng rãi trong phan mềm đồ hoa, điểnhình là giảm nhiễu hình ảnh và giảm chi tiết Hiệu ứng hình ảnh của kỹ thuật làm mờnày là mờ mịn giống như xem hình ảnh qua màn hình mờ, khác biệt rõ ràng với hiệuứng bokeh được tạo ra bởi thấu kính ngoài tiêu cự hoặc bóng của vật thể dưới ánh sángthông thường Gaussian lam mịn cũng được sử dụng như là một giai đoạn tiền xử lýtrong các thuật toán thị giác máy tính dé tăng cường cấu trúc hình ảnh ở quy mô khácnhau Một cách trực quan, đây được xem như là phương pháp làm mờ mịn cũng giốngnhư hiệu ứng hình ảnh được đặt dưới một lớp màn trong suốt bị mờ Nó không giốngvới trường hợp hình ảnh bị mờ do hậu quả của ống kính bị mat tiêu điểm (out of focus)hay do bóng của đối tượng dưới ánh sáng thường
Trong toán học, việc ứng dụng Gaussian Blur cho một hình cũng chính là tínhtích chập (Convolution) hình đó với ham Gaussian Vì biến đối Fourier của mộtGaussian sẽ tạo ra một Gaussian khác cho nên nêu xét trên miễn tan sô thì phương phápnày sẽ làm giảm các thành phần có tân sô cao trong hình Việc áp dụng hiệu ứng
Trang 20Gaussian blur có tác dụng giảm các thành phan tan số cao của ảnh; một Gaussian blurlà một bộ lọc thông thap.
Phương trình của ham Gaussian trong một chiêu là:
2
1 -2
G(z) = e 2?
v2rơvới hai chiều:
e Phát hiện các cạnh với tỷ lệ lỗi thấp, có nghĩa là phát hiện nên bắt chính xác nhưnhiêu cạnh hiên thi trong hình ảnh càng tot
Trang 21e Điểm cạnh được phát hiện từ toán tử nên định vị chính xác ở chính giữa củacạnh.
e Một cạnh nhất định trong hình ảnh chỉ nên được đánh dau một lần và nếu có thé,
nhiễu hình ảnh sẽ không tạo ra các cạnh giả
Trong số các phương pháp phát hiện cạnh được phát triển cho đến nay, thuậttoán phát hiện cạnh của Canny là một trong những phương pháp được xác định chặtchẽ nhất cung cấp khả năng phát hiện tốt và đáng tin cậy [13] Do tính tối ưu của nó đểđáp ứng với ba tiêu chí để phát hiện cạnh và sự đơn giản của quá trình thực hiện, nó đãtrở thành một trong những thuật toán phô biến nhất dé phát hiện cạnh
Những hiệu ứng này trở nên tôi tệ hơn khi nhiễu trở nhiễu, đơn giản bởi vì cườngđộ điểm ảnh không đại diện cho cường độ bình thường năm trong vùng Khi tác giả sửdụng thresholding, tác giả đôi khi mất quá nhiều vùng và đôi khi có quá nhiều pixel nềnkhong liên quan.
Trang 223.5 Confour
Contour dùng để nói đến đường viền của một đối tượng, một tập hợp các điểmảnh tách đối tượng khỏi nền Có 1 điểm chú ý là contour không chỉ dùng dé xác địnhcác pixel biên của đối tượng và tách chúng khỏi nền Cái tác giả cần là một chuỗi cácpixel biên để tách ra lay hình dang của mẫu [15]
Kỹ thuật tách Contour là một trong nhiều kỹ thuật tiền xử lý được thực hiện trênảnh số nhằm tách riêng các thông tin về hình dạng chung của ảnh Một contour khi đãđược tách, những đặc điểm khác nhau sẽ được sử dụng như những nét đặc trưng và sẽđược sử dụng để phân loại mẫu sau này Vì vậy, khi tách được contour chính xác, từ đó
tác giả sẽ nhận được những mẫu có các đặc tính chính xác giúp cơ hội nhận dạng, phân
loại một mẫu sẽ được tăng lên đáng kể
Các điểm ảnh của đường viên nói chung là một tập hợp của tong số các điểmảnh đại diện cho một mồ hình Vì vậy khối lượng công việc phải tính toán sẽ được giảmđi nhiều khi sử dụng thuật toán tách trên đường viễn thay cho việc trên toàn bộ môhình.Từ đó, contour sẽ có nhiều đặc tính mới hơn được nhận ra so với toàn bộ mô hìnhban đầu Quá trình xử lý sẽ dé dàng hơn là thực hiện với mô hình ban dau
Quá trình thực hiện dò contour đóng vai trò quan trọng trong lĩnh vực nhận dạng mẫu
Trang 233.6 HOG
HOG (histogram of oriented gradients) là một trích xuất đặc trưng được sử dụngtrong computer vision và xử lý hình ảnh, dùng để nhận dạng một đối tượng Các kháiniệm về HOG được nêu ra từ năm 1986 tuy nhiên cho đến năm 2005 HOG mới đượcsử dụng rộng rãi sau khi Navneet Dalal và Bill Triggs công bố những bồ sung về HOG
HOG tương tự như các biểu đồ edge orientation, scale-invariant featuretransform descriptors (như sift, surf, ), shape contexts nhưng HOG được tính toán trênmột lưới dày đặc các cell và chuẩn hóa sự tương phan giữa các khối dé nâng cao độchính xác.
Hog được sử dụng chu yếu để mô tả hình dạng và sự xuất hiện của một đối tượngtrong ảnh [16]
Bài toán tính toán Hog thường gồm 5 bước:Chuẩn hóa hình ảnh trước khi xử lý
Tính toán gradient theo cả hướng x vay Lay phiếu bau cùng trọng số trong các cellChuan hóa các block
Thu thập tat cả các biểu dé cường độ gradient định hướng để tạo ra featurevector cuối cùng
mM >> C2) )
Trang 243.7 KNN
K-nearest neighbor (KNN) là một trong những thuật toán supervised-learningđơn giản nhất trong Machine Learning Ý tưởng của KNN là tìm ra output của dữ kiệudựa trên thông tin của những dữ liệu training gần nó nhất [17]
KNN có thé được sử dụng cho cả hai van dé phân loại và dự báo hồi quy Tuynhiên, nó được sử dụng rộng rãi hơn trong các van đề phân loại trong ngành Đề đánhgiá bất kỳ kỹ thuật nào, tác giả thường xem xét 3 khía cạnh quan trọng:
e Dễ phân tích dau rae Thời gian tính toáne Sức mạnh dự đoánHãy lay một trường hợp đơn giản dé hiểu thuật toán này Sau đây là sự trải rộng củahình tròn màu do (RC) và hình vuông màu xanh lá cay (GS)
Với ý định là tìm ra lớp của ngôi sao màu xanh lam (BS) BS chỉ có thể là RChoặc GS và không có gi khác Thuật toán KNN là phương pháp tìm ra điểm lân cậnhàng xóm gan nhất Giả sử K = 3 Do đó, bây giờ tác giả sẽ tạo một vòng tròn với BS
Trang 25Hình 3.7.1 Hình mô tả cho KNN (Nguồn [17])là trung tâm lớn như chỉ bao gồm ba điểm dữ liệu trên mặt phang Tham khảo sơ đồ sauđể biết thêm chi tiết
mee: <
Hình 3.7.2 Hình mô tả KNN khi tác giả tạo vòng tròn (Nguồn [17])
Ba điểm gan nhất với BS là tat cả RC Do đó, với mức độ tin cậy tốt, tác giả cóthể nói rằng BS nên thuộc về lớp RC Ở day, sự lựa chon trở nên rất rõ ràng khi ca baphiếu bau từ người hàng xóm gan nhất đến RC Việc lựa chọn tham số K là rat quantrọng trong thuật toán này.
Ưu điểm¢ Dé sử dụng và cài đặte D6 phức tap tính toán nhỏ¢ Viéc dự đoán kết quả của dữ liệu mới rất đơn giản
Trang 26beNhược điểm
¢ - Với K nhỏ, gặp nhiễu dễ đưa ra kết quả không chính xác‹ _ Cần thời gian lưu trainning set, khi di liệu trainning và test tăng lên thì sẽ tốn
rất nhiều thời gian
A Sen Be
wpe at
Boy FRR EPtt ti
š
<howe.z
OpenCV (Open Source Computer Vision) là một thư viện mã nguồn mở về thịgiác máy với hơn 500 ham và hơn 2500 các thuật toán đã được tôi ưu về xử lý ảnh, vacác van dé liên quan tới thị giác máy OpenCV được thiết kế một cách tối ưu, sử dụngtối đa sức mạnh của các dòng chip đa lõi để thực hiện các phép tính toán trong thờigian thực, nghĩa là tốc độ đáp ứng của nó có thể đủ nhanh cho các ứng dụng thôngthường OpenCV là thư viện được thiết kế để chạy trên nhiễu nên tảng khác nhau (cross-patform), nghĩa là nó có thể chạy trên hệ điều hành Window, Linux, Mac, iOS Việcsử dụng thư viện OpenCV tuân theo các quy định về sử dụng phan mềm mã nguồn mởBSD do đó người dùng có thể sử dụng thư viện này một cách miễn phí cho cả mục đích
phi thương mại lẫn thương mại
Nhờ một hệ thống các giải thuật chuyên biệt, tối ưu cho việc xử lý thị giác máy tính,vì vậy tính ứng dụng của OpenCV là rat lớn, có thé kế đến như:
e Nhận dạng ảnh: nhận dạng khuôn mặt, các vật thể ‹ - Xử lý ảnh: khử nhiễu, điều chỉnh độ sáng
e Nhận dạng cử chỉ¢ - Và còn rất nhiễu ứng dụng khác nữaTác giả có thé sử dụng nhiều ngôn ngữ lập trình khác nhau dé làm việc với OpenCVnhư C++, Java, Python, C#
Dự án về OpenCV được khởi động từ những năm 1999, đến năm 2000 nó đượcgiới thiệu rộng một hội nghị của IEEE về các vẫn đề trong thị giác máy và nhận dạng,tuy nhiên bản OpenCV 1.0 mãi tới tận năm 2006 mới chính thức được công bố và năm2008 bản 1.1 pre-release) mới được ra đời Tháng 10 năm 2009, bản OpenCV thé hệthứ hai ra đời thường gọi là phiên bản 2.x), phiên ban này có giao diện của C++ (khácvới phiên bản trước có giao diện của C) và có khá nhiều điểm khác biệt so với phiệnbản thứ nhất
Thư viện OpenCV ban đầu được sự hỗ trợ từ Intel, sau đó được hỗ trợ bở WillowGarage , một phòng thí nghiệm chuyên nghiên cứu về công nghệ robot Cho đến nay,OpenCV vẫn là thư viện mở, được phát triển bởi nguồn quỹ không lợi nhuận (none -profit foundation) và được sự hưởng ứng rất lớn của cộng đồng