""v逢荏ng tác gi違 trong rj逢挨pi"pháp Contour Profiles Feature tìm v鵜 vt "8k吋o"8gp"i亥n nh医t khi xét 荏 các v鵜 trí c衣pj"vt‒p."f逢噂i, trái và ph違i c栄a hình 違pj"8cpi"zgo"zfiv0"Eƒe"x鵜 vt "8k吋m 8gp"8„"u胤 t衣o thành thu瓜c tính c栄a hình 違nh. S嘘n逢嬰ng thu瓜c tính c栄a hình 違nh
EJ姶愛PI"40"E愛"U雲 LÝ THUY蔭T
12
ph映 thu瓜e"x q"m ej"vj逢噂c c栄a 違pj0"Pj逢"j·pj"違pj"e„"m ej"vj逢噂c (m x n) thì s嘘 n逢嬰ng thu瓜e"v pj"vjw"8逢嬰c s胤 tính theo công th泳c: 2(m + n) thu瓜c tính. Hình 2.7 minh h丑a chi ti院t v隠rj逢挨pi"rjƒr"Eqpvqwt"Rtqhkngu"Hgcvwtg0
Hình 2.7 Các thuじe"v pj"rj⇔¬pi"rjƒr"Eqpvqwt"Rtqhkngu[7] .
2.4 Rj逢挨pi"rjƒr"j丑c máy SVM x "rj逢挨pi"rjƒr8ƒpj"ikƒ"ejfiq"M-fold 2.4.1 Mô hình C-Support Vector Classification (C-SVM)[1]
Support Vector Machine (SVM) là b瓜 phân lo衣i d詠a trên vi羽c tìm ki院m siêu ph鰯ng phân cách t嘘k"逢w0"Vjw壱t toán s胤 8ƒpj"pj«p"ejq"v瑛ng m磯u hu医n luy羽n và s胤 tìm ra siêu ph鰯ng phân cách t嘘k"逢w"f詠a trên m磯u hu医n luy羽n. Chính siêu ph鰯ng phân cách này s胤 phân lo衣i m磯u d英 li羽u m噂k"8逢c"x q"d瓜 phân lo衣i.
Trong quá trình hi羽n th詠c có nhi隠u lo衣i SVM tùy thu瓜c vào mô hình t嘘k"逢w"vqƒp"j丑c áp d映ng trong các bài toán khác nhau. Hi羽n t衣i có 5 lo衣i mô hình vj逢運ng 8逢嬰c s穎 d映ng ph鰻 bi院n trong các 泳ng d映ng pj逢"E-Support Vector Classification, 紘-Support Vector Classification, Distribution Estimation (One-class SVM), 香-Support Vector Regression và 紘-Support Vector Regression. Trong nghiên c泳u c栄c"8隠 tài, chúng tôi s穎 d映ng mô hình C-Support Vector Classification 8吋 xây d詠ng cho quá trình nh壱n d衣ng.
Trong mô hình C-Support Vector Classification 8逢嬰c phát bi吋w"pj逢"ucw< có m瓜t t壱p hu医n luy羽n g欝m nh英pi"xfiev挨 xi樺 Rn, i = 1,..,l, 8逢嬰c chia trong 2 l噂p và m瓜v"xfiev挨"zƒe" 8鵜nh y 樺 Rl v噂i yi樺 {1,-1}. C-SVM s胤 gi違i quy院t bài toán t嘘k"逢w"ucw"8吋 tìm ra m員t siêu ph鰯ng.
EJ姶愛PI"40"E愛"U雲 LÝ THUY蔭T 13 兼件券摘 長 締"怠態降脹降 髪 系 デ 行鎮 沈 沈退怠 (1) , 検沈岫降脹叶岫捲沈岻 髪 決岻 半 な 伐"行沈, , 行沈 半 ど 件 噺 な 健
Vtqpi"8„"叶岫®辿岻 ánh x衣 xi vào không gian có s嘘 chi隠w"ecq"j挨p"x "E"@"2"n "vj»pi"u嘘8k隠u ch雨nh. Do bi院n xfiev挨" có s嘘 chi隠u cao nên s胤 chuy吋p"d k"vqƒp"*3+"vj pj"d k"vqƒp"v逢挨pi" 8逢挨pi"*4+"ucw0
兼件券底怠態糠脹芸糠 伐"結脹糠 (2) , 検脹糠 噺 ど
,ど 判 " 糠沈 判 系 件 噺 な 健
Vtqpi"8„"g"?"]3.È.3]T và Q ma tr壱n l x l n穎c"zƒe"8鵜pj"f逢挨pi."Sij = yiyjK(xi,xj), K(xi,xj) = 叶岫®辿岻鐸叶盤®棚匪 g丑i là hàm kernel. Sau khi gi違k"8逢嬰c bài toán (2) thì s胤 vjw"8逢嬰c giá tr鵜 c栄a 糠 và giá tr鵜降 c亥n tìm (1) s胤8逢嬰c tính theo công th泳c sau.
降 噺 " 布 検沈捲沈 鎮
沈退怠
叶岫®辿岻
V噂i giá tr鵜 c栄a m瓜t m磯u x m噂i b医t k s胤 d詠a vào công th泳e"ucw"8吋zƒe"8鵜nh xem m磯u x thu瓜c v隠 l噂p nào.
嫌訣券岫降脹叶岫捲岻 髪 "決岻 噺 嫌訣券岫デ 検鎮 沈捲沈
沈退怠 計岫捲沈 捲岻 髪 決岻
Trong 泳ng d映ng c栄a lu壱p"x<p"p {."ej¿pi"v»k"u穎 d映ng b瓜 vj逢"xk羽n Orgpex"8吋 hi羽n th詠c mô hình C-SVM 8吋 phân l噂p nh壱n d衣ng c栄a các ký t詠 Ti院ng Vi羽t v噂i hàm kernel tuy院n tính K(xi,xj) = xiTXj và h茨ng s嘘 C = 1.
2.4.2 Rj逢挨pi"rjƒr"8ƒpj"ikƒ"ejfiq"M-fold[4]
Rj逢挨pi"rjƒr"p {"f́pi"8吋8ƒpj"ikƒ"ejfiq"eƒe"o磯u v噂k"pjcw0"""v逢荏ng c栄c"rj逢挨pi"rjƒr" là t瑛 m瓜t t壱p m磯u g嘘c chia ng磯u nhiên thành k ph亥p"e„"m ej"vj逢噂c m磯u b茨ng nhau. Vtqpi"8„."rj逢挨pg pháp s胤 ch丑n l亥p"n逢嬰t 1 ph亥n m磯w"8逢嬰c chia làm t壱p test còn k-1 ph亥n còn l衣i dùng làm t壱p hu医n luy羽n. C泳 th院 l壱p l衣k"swƒ"vt·pj"8院n k l亥n cho vi羽e"8ƒpj"
EJ姶愛PI"40"E愛"U雲 LÝ THUY蔭T
14
ikƒ0"Ucw"mjk"vjw"8逢嬰c k k院t qu違 t瑛 k l亥p"8ƒpj"ikƒ"vj·"s胤 tính giá tr鵜 trung bình t瑛 k k院t qu違 医y. L嬰i ích c栄c"rj逢挨pi"rjƒr"p {"n "v医t c違 các m磯w"8隠u tham gia quá trình hu医n luy羽p"8ƒpj"ikƒ"x "o厩i m磯u s胤8逢嬰e"8ƒpj"ikƒ"fw{"pj医t m瓜t l亥n. C映 th吋 v噂k"rj逢挨pi"rjƒr" h丑c máy C-UXO"pj逢"vt‒p."ej¿pi"v»k s胤 chia t壱p d英 li羽u góp thành 5 ph亥n khác (k=5) và sau khi hu医n luy羽n s胤vjw"8逢嬰c 5 mô hình C-UXO"v逢挨pi"泳pi0"Ucw"8„."ej¿pi"v»k"n医y k院t qu違 nh壱n d衣ng trung bình c栄a 5 mô hình làm k院t qu違 nh壱n d衣ng c栄a h羽 th嘘ng.
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
15
EJ姶愛PI"5
CÁC K蔭T QU謂 NGHIÊN C永U LIÊN QUAN
Trong ph亥n này, chúng tôi s胤 xem xét m瓜t vài k院t qu違 nghiên c泳u 8院n quá trình xây d詠ng h羽 th嘘pi"ET"nk‒p"swcp"8院p"8隠 tài lu壱p"x<p. Trong các h羽 th嘘pi"8„"dcq"i欝m các h羽 th嘘ng CR cho ch英 vi院t tay s嘘, ch英 vi院t tay Latin và ch英 vi院t tay Ti院ng Vi羽t.
3.1 Nh壱n d衣ng ch英 vi院t tay s嘘
3.1.1 Mô hình nh壱n d衣ng
Trong bài báo [7], tác gi違8«"8隠 c壱r"8院n m瓜t s嘘rj逢挨pi"rjƒr"vt ej"8員e"vt逢pi mang l衣i hi羽u qu違 cho quá trình nh壱n d衣ng ch英 vi院t tay r運i r衣c. Tác gi違8«"u穎 d映pi"rj逢挨pi"rjƒr" UXO" 8吋 kh違o sát và so sánh trên t壱p d英 li羽u s嘘 OPKUV0" X·" rj逢挨pi" rjƒr" UXO là rj逢挨pi" rjƒr" j丑c máy tiên ti院p" 8«" e„" pjk隠u thành công trong vi羽c khai phá d英 li羽u e pi"pj逢"pj壱n d衣ng. Hình 3.1 là ki院n trúc c栄a mô hình nh壱n d衣ng.
Hình 3.1 Kixn trúc mô hình nhfn dTng chの vixt tay rぜi rTc(chの sぐ)[7].
Trong mô hình, quá trình ti隠n x穎 lý có nhi羽m v映 th詠c hi羽n l丑c nhi宇u và chu育n hóa d英 li羽w"8亥w"x q0"Vtqpi"8„"xk羽c chu育n hóa d英 li羽w"8逢嬰c th詠c hi羽n thông qua b嘘n d逢噂c: + Chuy吋p"8鰻i 違pj"8亥u vào sang 違nh tr逸pi"8gp0
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
16
+ Tìm hình ch英 nh壱t R nh臼 nh医t ch泳c"eƒe"8k吋o"8gp"vt‒p"違nh. + L医y vùng 違nh I n茨m trong vùng hình ch英 nh壱t R.
+ Chu育p"j„c"m ej"vj逢噂c 違nh I thành 16x16.
Ngoài ra trong mô hình còn có hai quá trình quan tr丑ng c亥n kh違o sát: quá trình trích ch丑p"8員c tr逢pi"x "o»"j·pj"rj¤p"n噂p SVM. Trong quá trình trích ch丑p"8員e"vt逢pi"vƒe"ik違 kh違q"uƒv"6"rj逢挨pi"rjƒr"¥qpg."Rtqlgev"Jkuvqitco."Eqwpvqwt"Rtqhkng"x "Ycxgngv"Jcct" Hgcvwtg0"Dc"rj逢挨pi"rjƒr"8亥w"8«"8逢嬰c miêu t違vtqpi"ej逢挨pi"40"Rj逢挨pi"rjƒr"Ycxgngv" Haar Feature khác so v噂k"dc"rj逢挨pi"rjƒr"e”p"n衣i 荏 ch厩 c亥n ch雨nh size hình 違nh v隠 kích vj逢噂c 2nx2n. Mô hình phân l噂p SVM tác gi違8«"z¤{"d詠ng d詠a vào SVM nh鵜 phân theo chi院p"n逢嬰c OVO v噂i các tham s嘘 C = 100 và s穎 d映ng hàm nhân Guassian v噂i 購 = 0.5.
3.1.2 K院t qu違 nh壱n d衣ng và nh壱n xét
Sau khi hu医n luy羽n và kh違o sát, tác gi違vjw"8逢嬰c k院t qu違 hình 3.2 sau.
Hình 3.2 Kxt quV nhfn dTng trên tfp dの liうu MINIST vずk"eƒe"8pe"vt⇔pi[7] . Tóm l衣i, theo bài báo [7], tác gi違8«"8隠 xu医t mô hình d詠c"vt‒p"rj逢挨pi"rjƒr"UXO"m院t h嬰p v噂i m瓜t vài rj逢挨pi"rjƒr"vt ej"ej丑p"8員e"vt逢pi"ocpi"n衣i hi羽u qu違 cho quá trình nh壱n d衣ng ch英 vi院t tay r運i r衣e0"Vtqpi"8„."rj逢挨pi"rjƒr"¥qpg."Rtqlgevkqp"Jkuvqitco"x " Contour Profile cho k院t qu違 nh壱n d衣ng v噂k"8瓜 chính xác cao và gi違m khá nhi隠u kích vj逢噂c c栄a d英 li羽w"8亥u vào n o"v<pi"v嘘e"8瓜 c栄a h羽 th嘘ng. Và theo tác gi違, n院u mu嘘n v<pi"8瓜 chính xác cho vi羽c nh壱n d衣ng thì c亥n nghiên c泳u nhi隠w"j挨p"vtqpi"mj¤w"vk隠n x穎 n#"8吋 d英 li羽w"8亥u vào tr荏 nên t嘘v"j挨p"ejq h羽 th嘘ng.
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
17
3.2.1 Mô hình nh壱n d衣ng
Trong bài báo [8], nhóm tác gi違 8«"u穎 d映ng mô hình phân l噂r"8c"JOO"vjc{"ejq"o»" hình phân l噂p 8挨p"JOO"8吋 nh壱n d衣ng ch英 vi院t tay cho t瑛ng ký t詠 r運i r衣c. S詠 khác bi羽t gi英c"o»"j·pj"8挨p"x "8c"JOO"荏 ch厩 tác gi違 8«"z¤{"f詠ng nhi隠u mô hình HMM cho cùng m瓜t ký t詠 c亥n nh壱n d衣ng. T壱p d英 li羽w"8逢嬰c xây d詠ng g欝m 13000 m磯u c栄a 100 pi逢運i vi院t c栄a 26 ch英 cái. M厩i ch英 cái m瓜v"pi逢運i vi院v"8院n 5 l亥n. Nhóm tác gi違 8«"u穎 d映ng 2600 m磯u cho vi羽c hu医n luy羽n và các m磯u còn l衣k"8逢嬰c s穎 d映ng cho quá trình nh壱n d衣ng. Ngoài ra, nhóm tác gi違e pi"8«"ƒr"f映ng quá trình h壱u x穎 lý trong h羽 th嘘ng nh茨m c違i thi羽n hi羽u qu違 trong vi羽c nh壱n d衣ng. Hình 3.3 mô t違 mô hình nh壱n d衣ng c栄a h羽 th嘘ng.
Hình 3.3 Mô hình nhfn dTng chの vixt tay rぜi rTc(chの cái Latin)[8] .
H羽 th嘘ng nh壱n d衣ng ch英 vi院t tay Latin bao g欝m b嘘n ti院n trình chính: quá trình ti隠n x穎 lý, quá trình trích 8員e"vt逢pi, quá trình nh壱n d衣ng HMM và quá trình h壱u x穎 lý. Quá trình ti隠n x穎 lý, nhóm tác gi違 8«"u穎 d映pi"x k"rj逢挨pi"rjƒr"n丑c nhi宇w"pj逢"j·pj"506 mô t違: Thickening, Thresholding, Median Filtering và Thinning. Còn quá trình vt ej"8員c vt逢pi thì s穎 d映ng ba rj逢挨pi" rjƒr" 8吋 tính các lo衣i thu瓜c tính c栄a t瑛ng ch英 vi院t: Itcfkgpv"Hgcvwtgu."Rtqlgevkqp"Hgcvwtgu"x "Ewtxcvwtg"Hgcvwtgu0"Ak吋o"8員c bi羽t c栄a nhóm tác gi違vtqpi"rj逢挨pi"rjƒr"p {."h丑 8«"u穎 d映ng k院t h嬰p khai thác hai 8員e"8k吋m toàn c映c
Recognition Result From HMM Feature vectors Character Image Preprocessing Feature Extraction HMM based Module Post-processing
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
18
và c映c b瓜 c栄a hình 違nh kh違q"uƒv0"A員e"vt逢pi"vq p"e映c #"pij c"s穎 d映ng toàn b瓜 thông tin c栄a hình 違pj0"E”p"8員e"vt逢pi"e映c b瓜 thì chia nh臼 hình 違nh t衣o thành vùng."ucw"8„"v pj" toán thu瓜c tính cho t瑛ng vùng.
Hình 3.4 Mô hình quá trình hfu xぬ lý[8] .
Quá trình nh壱n d衣ng HMM, nhóm tác gi違 8«"8隠 xu医t s穎 d映ng rj逢挨pi"rjƒr"8c"JOO" pj逢"j·pj"507 mô t違. Sau khi xây d詠ng hu医n luy羽n mô hình HMM thì nó s胤 nh壱n d衣ng m磯u d詠a vào xác su医t m磯u trong t瑛ng HMM c栄a t瑛ng ch英 cái. N院u xác su医t nào l噂n nh医v"vj·"8„"ej pj"n "ej英 cái nh壱n d衣pi"8逢嬰c.
Hình 3.5 O»"j·pj"8c"JOO"trong quá trình nhfn dTng HMM[8] .
Scanned Character Image
Thickening Thresholding Median Filtering Thinning Feature Extraction - - - - Feature Vectors HMM A1 HMM A2 HMM B HMM Z Comparator Comparator
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
19
Trong quá trình h壱u x穎 lý, nhóm tác gi違 có nh壱n xét v隠 quá trình nh壱n d衣ng 26 ch英 cái Ncvkp"vj逢運ng có m瓜t s嘘 l厩i vj逢運ng g員p thu瓜c cái nhóm sau: O và Q; M và N; V và Y; C và O; B, K, R và P... Chính vì th院, h丑8«"u穎 d映ng bi吋w"8欝Ukipcvwtg"8隠 phân lo衣i c映 th吋 cho t瑛ng nhóm. Hình 3.6 mô t違 bi吋w"8欝 Signature c栄a hai ký t詠 O và Q.
a/ b/
Hình 3.6 Biあw"8げ Signature cてa ký tば O(a) va Q(b)[8] .
3.2.2 K院t qu違 nh壱n d衣ng và nh壱n xét
K院t qu違 nh壱n d衣ng c栄a nhóm tác gi違 kh違o sát d詠a vào so sánh hai rj逢挨pi"rjƒr"8c" JOO"x "rj逢挨pi"rjƒr"8挨p"JOO0"Piq k"tc."j丑 còn th嘘ng kê d詠a vào có hay không có quá trình h壱u x穎 lý 8吋 xem xét h羽 th嘘ng nh壱n d衣ng c違i thi羽p"8瓜 ej pj"zƒe"pj逢"vj院 nào. Hình 3.7 cho bi院t k院t qu違 kh違q"uƒv"8逢嬰c c栄a h羽 th嘘ng xây d詠ng.
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN 20 b/ So sánh không có và có quá trình hfu xぬ lý Hình 3.7 Kxt quV khVo sát cてa bài báo[8] . 3.3 Nh壱n d衣ng ch英 vi院t tay Ti院ng Vi羽t 3.3.1 Mô hình nh壱n d衣ng th泳 nh医t
Trong bài báo [5], tác gi違 s穎 d映pi"o»"j·pj"pj逢"d k"dƒq"u嘘 [7]. Tuy nhiên trong bài toán này m映c tiêu c栄a tác gi違 là mu嘘n kh違q"uƒv"rj逢挨pi"rjƒr"j丑c máy SVM b茨ng hai chi院n n逢嬰c OVO và OVR. M映c tiêu c栄a tác gi違 mu嘘n tìm ra m瓜t chi院p"n逢嬰c nh茨m gi違m thi吋u th運k"ikcp"v pj"vqƒp"x "v<pi"8瓜 chính xác cho h羽 th嘘ng nh壱n d衣ng. Trong kh違o sát này, tác gi違8«"vj詠c hi羽n trên hai t壱p d英 li羽u: MINIST và VietData. T壱p d英 li羽u MNIST là t壱p d英 li羽u s嘘 chu育n còn t壱p d英 li羽u VietData do tác gi違 xây d詠ng. VietData bao g欝m 89 ch英 cái in hoa, m厩i ch英 cái ch丑n 200 m磯u nên t壱p d英 li羽u s胤 có t鰻ng c瓜ng 17800 m磯w0"Rj逢挨pi" rjƒr" vƒe"ik違 s穎 d映pi"8吋 trích 8員c vt逢pi n "rj逢挨pi" rjƒr"¥qpg" pj逢"8«" trình bày 荏ej逢挨pi"40
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
21
Các k院t qu違 th詠c nghi羽o"8逢嬰e"e k"8員t và ch衣y th穎 nghi羽o"vt‒p"o»k"vt逢運ng Window XP, máy PC Pentium 4 t嘘e"8瓜 2.4 Ghz v噂k" fwpi"n逢嬰ng b瓜 nh噂 RAM 1Gb. Sau khi kh違o sát trên t壱p ch英 s嘘 MINIST và VietData, tác gi違vjw"8逢嬰c m瓜t s嘘 k院t qu違pj逢"ucw0" Hình 3.8 th吋 hi羽n k院t qu違 so sánh gi英a hai chi院p"n逢嬰c nh壱n d衣ng OVO và OVR. Ngoài ra th詠c nghi羽m trên t壱p VietData tác gi違 s穎 d映pi"rj逢挨pi"rjƒr"8ƒpj"ikƒ"ejfiq"M-fold v噂i K =10.
a/ Kxt quV trên tfp dの liうu MINIST vずi hàm nhân Guass(購 噺 ど どぱ)
b/ Kxt quV trên tfp dの liうu VietData vずi hàm nhân Guass(購 噺 ど どぱ) Hình 3.8 Kxt quV thばc nghiうm cてa SVM theo chixp"n⇔ぢc OVO và OVR[5] .
D詠a vào k院t qu違 th詠c nghi羽m, tác gi違 có vài nh壱n xét v隠 kh違 p<pi" rj¤p" n噂p c栄a rj逢挨pi" rjƒr" UXO" 8嘘i v噂i bài toán nh壱n d衣ng ch英 vi院t tay Ti院ng Vi羽t r運i r衣e" pj逢" sau[5]:
-"UXO"n "rj逢挨pi"rjƒr"j丑c máy tiên ti院p"x "8衣v"8逢嬰e"8瓜 chính xác phân l噂p cao. Tuy nhiên, h衣n ch院8嘘i v噂i SVM là t嘘e"8瓜 phân l噂p ch壱m, tùy thu瓜c vào s嘘n逢嬰ng véev挨"v詠a vjw"8逢嬰c sau khi hu医n luy羽n và quá trình hu医n luy羽p"8”k"j臼i b瓜 nh噂 cao. Vì v壱y vi羽c hu医n luy羽n v噂i t壱p m磯u l噂n s胤 g員p nhi隠u tr荏 ng衣i.
+ B違n ch医t nh鵜 rj¤p"e pi"n "o瓜t h衣n ch院 c栄a SVM, vi羽c m荏 r瓜ng kh違 p<pi"e栄a SVM 8吋 gi違i quy院t bài toán phân lo衣i nhi隠u l噂p là v医p"8隠 không nh臼. Có nhi隠u chi院p"n逢嬰c 8逢嬰e"8隠 xu医v"8吋 m荏 r瓜ng SVM cho bài toán phân lo衣i nhi隠u l噂p tùy thu瓜c vào t瑛ng lo衣i d英 li羽u c映 th吋. Vì th院, vi羽c l詠a ch丑n các chi院p"n逢嬰c phân l噂r"8逢嬰c ti院p"j pj"vt‒p"e挨"u荏 th詠c nghi羽m.
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
22
+ Bài toán hu医n luy羽n SVM th詠c ch医t là bài toán qui ho衣ej"vq p"rj逢挨pi"*SR+"vt‒p"o瓜t t壱p l欝k."fq"8ó luôn luôn t欝n t衣i nghi羽m toàn c映c và duy nh医v0"A¤{"n "8k吋m khác bi羽t rõ nh医t gi英a SVM so v噂k"eƒe"rj逢挨pi"rjƒr"mjƒe0"Jk羽u qu違 phân l噂p c栄a SVM ph映 thu瓜c vào hai y院u t嘘: gi違i bài toán QP và l詠a ch丑n hàm nhân. Vi羽c gi違i bài toán QP luôn luôn 8衣v"8逢嬰c gi違i pháp t嘘k"逢w"p‒p"o丑i c嘘 g逸ng trong nghiên c泳u lý thuy院t SVM t壱p trung vào vi羽c l詠a ch丑n hàm nhân. Vi羽c l詠a ch丑n hàm nhân và các thông s嘘 v磯n là m瓜t bài toán m荏vtqpi"rj逢挨pi"rjƒr"UXO0
+ T嘘e"8瓜 phân l噂p c栄a SVM b鵜 8ƒpj"ikƒ"n "ej壱m so v噂k"eƒe"rj逢挨pi"rjƒr"rj¤p"n噂p khác, tùy thu瓜c vào s嘘 n逢嬰ng véev挨"v詠c"vjw"8逢嬰c sau khi hu医n luy羽n. Vì v壱y, có nhi隠u công trình t壱p trung nghiên c泳w"8吋 gi違m t嘘k"8c"u嘘 n逢嬰ng véev挨"v詠a nh茨o"v<pi"v嘘e"8瓜 phân l噂p c栄a SVM.
Vì th院 theo tác gi違 mu嘘n áp d映ng k悦 thu壱t phân l噂p SVM vào bài toán nh壱n d衣ng ch英 vi院t tay Ti院ng Vi羽v."8k隠u c亥n thi院t là làm sao ph違k"vtƒpj"8逢嬰c bùng n鰻 s嘘 phân l噂r"e pi" pj逢"ik違m t嘘k"8c"u嘘 véev挨"v詠c"8吋v<pi"v嘘e"8瓜 nh壱n d衣ng.
3.3.3 Mô hình nh壱n d衣ng th泳 hai
Trong bài báo [6], nhóm tác gi違8«"8隠 xu医t mô hình nh壱n d衣pi"pj逢"j·nh 3.9. Theo mô hình, quá trình nh壱n d衣ng tr違i qua b嘘n quá trình chính: ti隠n x穎 n#."vt ej"8員e"vt逢pi và phân lo衣i SVM. Quá trình ti隠n x穎 lý s穎 d映ng các b瓜 l丑c trung bình và l丑c trung v鵜 8嘘i v噂i nhi宇w"8嘘m, ngoài ra còn s穎 d映pi"rj逢挨pi"rjƒr"mj穎 các vùng liên thông nh臼8吋 kh穎 nhi宇u v羽t d k0"Swƒ"vt·pj"vt ej"8員e"vt逢pi f́pi"rj逢挨pi"rjƒr"Ycxgngv"Jcct"8吋 trích 8員c vt逢pi. Còn quá trình xây d詠ng phân lo衣i SVM, nhóm tác gi違 8«"n嬰i d映ng 8員e"8k吋m liên thông c栄a ch英 vi院t tay Ti院ng Vi羽t r運i r衣c 8吋 xây d詠ng t瑛ng b瓜 phân lo衣i SVM riêng bi羽t.
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
23
Hình 3.9 Mô hình nhfn dTng chia nhóm SVM[6] .
T壱p d英 li羽w"8逢嬰c s穎 d映pi"8吋 kh違q"uƒv"8逢嬰c nhóm tác gi違 t詠 xây d詠ng t瑛877"pi逢運i vi院t mjƒe"pjcw."8嘘k"v逢嬰ng ch栄 y院u là sinh viên. M厩k"pi逢運i vi院t kho違ng 200 ch英 in hoa, các ký t詠8逢嬰c vi院t r運i r衣c. Nhóm tác gi違 ch丑n l丑c ra 50.000 m磯w"8吋 ti院n hành th詠c nghi羽m (không k吋 các d医w+."vtqpi"8„"3509:4"o磯u ch英 không d医w"8逢嬰c s穎 d映pi"8吋 hu医n luy羽n, ph亥n còn l衣i ph映c v映 cho vi羽c nh壱n d衣ng. Hình 3.10 trình bày vài m磯u ký t詠 vi院t tay Ti院ng Vi羽t r運i r衣c.
EJ姶愛PI"50"EèE"M蔭T QU謂 NGHIÊN C永U LIÊN QUAN
24
Hình 3.10 Vài mdu các ký tば thu thfp[6] .
T瑛 t壱p d英 li羽u này, h丑 xây d詠ng ba t壱p hu医n luy羽p"ejq"UXO"3."UXO"4"x "UXO"5"pj逢" sau:
+ TrainData1: T壱p các d医u Ti院ng Vi羽t {/, \, ?, ~, ^, 喚}, v噂i 2.485 m磯u.
+ TrainData2: T壱p các ch英 cái nguyên âm Ti院ng Vi羽t {A, E, I, O, U, Y}, v噂i 4.128 m磯u.
+ TrainData3: T壱p các ch英 cái Ti院ng Vi羽t không d医w"}C."D."E."F."A."G."I."J."K."M."N." O."P."Q."R."S."T."U."V."W."X."Z."[."愛."姶ʼ."x噂i 13.782 m磯u.
Ngoài ra, h丑e pi"z¤{"f詠ng b嘘n t壱p ki吋o"vtc"pj逢"ucw"ejq"j羽 th嘘ng
+ TestData 1: T壱p các ký t詠 Ti院ng Vi羽t có 1 vùng liên thông, v噂i 7.143 m磯u. + TestData 2: T壱p các ký t詠 Ti院ng Vi羽t có 2 vùng liên thông, v噂i 16.856 m磯u. + TestData 3: T壱p các ký t詠 Ti院ng Vi羽t có 3 vùng liên thông, v噂i 12.219 m磯u. + TestData 4 = TestData 1 姦 TestData 2 姦 TestData3.
3.3.4 K院t qu違 nh壱n d衣ng và nh壱n xét th泳 hai
Các k院t qu違 th詠c nghi羽m c栄a nhóm tác gi違8逢嬰c ti院p"j pj"e k"8員t và ch衣y th穎 nghi羽m trên máy PC Pentium 4 t嘘e"8瓜 2.66 Ghz, 512Mb Ram. Sau khi xây d詠ng mô hình và kh違o sát, nhóm tác gi違 8«"vjw"8逢嬰c k院t qu違pj逢"j·pj"5033. D k"dƒq"8«"8隠 xu医t m瓜t mô hình nh壱n d衣ng ch英 Ti院ng Vi羽t vi院t tay h衣n ch院 d詠c" vt‒p" e挨" u荏 SVM k院t h嬰p v噂i