Watch, Attend and Parse: An End-to-end Neural Network Based
Nhúm tỏc giÊZhang và cỏc cẻng sá ó giểi thiêu mẻt hêthậng ảy h˘a hàn ∫giÊi quy∏t vòn ∑ Âc bi∫u th˘c toàn hÂc vi∏t tay t¯ Ênh Cụng trỡnh cıa h ˜ềc ∞t tờn là Watch, Attend and Parser vểi cỏch vi∏t ng≠n gÂn hẽn là WAP Mụ hỡnh cıa hÂs≥hÂc ∫"Watch" mẻt bi∫u th˘c toỏn hÂc t¯ Ênh và "Parse" ra chuẩi L A TEXt˜ẽng˘ng Cˆth∫, hê thậng cıa nhúm tỏc giÊ bao gÁm 2 phản chớnh là Watcher- hoĐt ẻng nh˜ mẻt encoder ∫ rỳt trớch
∞c tr˜ng t¯ Ênh bi∫u th˘c ảu vào và Parser- hoĐt ẻng nh˜ bẻ decoder nh™n ∞c tr˜ng t¯encoder và giÊi mó cho ra chuẩi L A TEXt˜ẽng ˘ng vểi bi∫u th˘c toỏn hÂc trongÊnh ảu vào Ngoài ra ∫t´ng c˜Ìng kh£ n´ng hÂc cıa decoder, nhóm tác gi£cho k∏t hÒp decoder vểi cẽ ch∏Attention[10] ∫xỏc ‡nh õu là vựngÊnh decoder nờn t™p trung vào và chuy∫n thành mẻt k˛táhay mẻt quan hê(luˇth¯a hay dòu ngo∞c cản thi∏t cỳ phỏp cıa L A TEX, ) phự hềp thay vỡ i decode toàn bẻ ∞c tr˜ng cıa Ênh Nh˜ v™y Attention úng vai trũ trong viêc tậi ˜u khÊ n´ng "segment" vựng Ênh Chi ti∏t cıa Watcher và Parser nh˜ bờn d˜Ói:
• Watcherthác chòt là mẻt mĐng nẽ-ron tớch ch™p ảy ı-FCN[11]- vểi chứgÁm cỏc lểp tớch ch™p và pooling Watcher nh™n input là mẻt bẻ gÁm 9 Ênh bao gÁm 1 Ênh nh‡ phõn cıa bi∫u th˘c và Ênh 8 h˜ểng cıaÊnh này ảu ra cıa Watcher là nh˙ng vector ∞c tr˜ng t˜ẽng˘ng vểi t¯ng pixel trong Ênh.
• Parserlà ki∏n trúc m§ng GRU[12], nh™n k∏t qu£tr£ra cıa Watcher nh˜input, k∏t hềp vểi cẽch∏attention ∫sinh ra chuẩi L A TEX Cˆth∫, cẽch∏attention giỳp Parser xỏc ‡nh ỳng vựng Ênh ∫tớnh toỏn cho ra k˛ táLatex qua t¯ng vũng l∞p.
D˜ểi õy là mụ hỡnh trác quan cıa ph˜ẽng phỏp này.
Hỡnh 1:Hỡnh minh hoĐtÍng quỏt cỏc b˜ểc thác hiên cıa ph˜ẽng phỏp Watch, Attend and Parser.
Multi-Scale Attention with Dense Encoder for Handwritten Mathe-
∫ kh≠c phˆc giểi hĐn cıa cụng trỡnh [1] trờn vòn ∑phỏt hiên và nh™n diên cỏi ậi t˜ềng cú kớch th˜ểc nh‰trongÊnh ch˘a bi∫u th˘c toỏn hÂc nh˜dòu chòm, dòu phây, nhúm tỏc giÊ ó tĐo ra 2 sáthay Íi trờn encoder và decoder Vểi encoder, hÂs˚dˆng DenseNet[13] thay vỡ CNN DenseNet ˜ềc cho là ki∏n trỳc mĐng ròt mĐnh trong vòn ∑trớch ∞c tr˜ng và cỏc bài toỏn phõn loĐi Ngoài ra, thay vỡ single-scale attention hÂhiên thác multi-scale attetion Viêc này giỳp ớch trong viêc phỏt hiên cỏc k˛ tá nh‰ Lểp pooling là cản thi∏t cho quỏ trỡnh huòn luyên, nú giỳp mĐng khỏng ˜ềc cỏc phộp xoay Ênh, tuy nhiờn Áng thèi nú cÙng làm giÊm i kớch th˜ểc cỏc feature map dđn tểi viêc giÊm resolution Hay núi cỏch khỏc càng v∑ cỏc lểp cuậi, nh˙ng ∞c tr˜ng cıa cỏc k˛ tá nh‰ càng b‡ mòt i trong khinh˙ng lểp ảu thỡ mĐng lĐi khụng hÂc ˜ềc nh˙ng ∞c tr˜ng nh‰ i∑u này dđn ∏n viêc hê thậng b‰ qua hay b‡ nhễ trong viêc phỏt hiên cỏc ậi t˜ềng cú kớch th˜ểc nh‰và nh‰hẽn ròt nhi∑u so vểi cỏc k˛ tá bờn cĐnh ∫làm ˜ềc i∑u này, nhúm tỏc giÊ ∫ xuòt multi-scale encoder vểi ki∏n trỳc nh˜ Hỡnh 2 Vểi multi-scale encoder, hê thậng cung còp ˜Òc c£ ∞c tr˜ng low-resolution và high-resolution ∞c tr˜ng low-resolutin hay còn gÂi là ∞c tr˜ng toàn cˆc s≥ mang nhi∑u ˛ nghổa khi trớch ∞c tr˜ng t¯ vựng ti∏p nh™n 10 lển trong khi ∞c tr˜ng high-resolution hay cũn gÂi là ∞c tr˜ng cˆc bẻ s≥ gi˙ lĐi thụng tin cıa cỏc k˛ tá nh‰ Nh˜ v™y ∞c tr˜ng ˜ềc qua decoder s≥ là sá k∏t hềp cıa ∞c tr˜ng
10 Thuât ng˙ ti∏ng Anh: receptive field toàn cˆc và ∞c tr˜ng cˆc bẻ.
Hỡnh 2: Hỡnh minh hoĐ tÍng quỏt ki∏n trỳc encoder cıa ph˜ẽng phỏp Multi-Scale Attention.Nhỏnh A s≥tĐo ra cỏc ∞c tr˜ng toàn cˆc và nhỏnh B s≥ úng gúp cỏc ∞c tr˜ng cˆc bẻ cho quỏ trình decode.
Handwritten mathematical expression recognition using convolutional
Nhóm tác giả đề xuất một mạng SSD [14] kết hợp một bộ lọc chú ý trên kiến trúc mạng để tăng kích thước hộp mặc định với mục đích giảm khả năng bỏ sót hộp trong quá trình phát hiện Kết quả của quá trình nhận dạng này được xây dựng như đầu vào của bộ phân tích cú pháp DRACULAE [15] để xây dựng cây biểu thức hợp lệ Từ đó làm cơ sở cho quá trình render ra chuỗi LATEX Ưu điểm của hệ thống này là hệ thống nhỏ gọn và không tốn nhiều thời gian để huấn luyện có thể cho ra kết quả có độ nhận dạng cao.
Hỡnh 3: TÍng quan hê thậng s˚ dˆng SSD ∫ phỏt hiên và nh™n dĐng k˛ tá, DRACULAE phõn tớch còu trỳc ng˙ phỏp và tĐo cõy bi∫u th˘c.
Training an end-to-end system for handwritten mathematical expres-
– cụng bậ này, nhúm tỏc giÊ t™p trung vào giểi thiêu cỏch th˘c h làm mểi d˙ liêu t¯ t™p d˙liêu sặn cú do tÍ ch˘c CROHME cung còp V∑ ki∏n trỳc hÂcÙng s˚dˆng mụ hỡnh encode, decode k∏t hềp attention Hê thậng cıa hÂkhụng phÊi là hêthậng hoĐt ẻng hiêu quÊ nhòt trong vòn ∑ giÊi quy∏t bài toỏn nh™n dĐng bi∫u th˘c toỏn hÂc vi∏t tay t¯ Ênh nh˜ng hÂcho thòy ˜ềc sá úng gúp cıa t™p d˙liêu mrẻng vào k∏t quÊnh™n dĐng cuậi cùng.
Nhúm tỏc giÊ ∑ xuòt mẻt qui trỡnh bi∏n Íi Ênh bi∫u th˘c ảu vào qua 2 bẻ ph™n ˜ềc gÂi tờn là local distortion và global distortion (bi∏n Íi cˆc bẻ và bi∏n Íi toàn cˆc). Thác chòt õy là nh˙ng phộp bi∏n Íi hỡnh hÂc ˜ềc ỏp dˆng trờn cỏc i∫mÊnh Qui trỡnh bi∏n Íi ˜ềc th∫ hiên nh˜ trong Hỡnh 4 Chi ti∏t cụng th˘c bi∏n Íi cˆc bẻ ˜ềc liêt kờ
D˜Ói ây là 2 công th˘c bi∏n Íi toàn cˆc: phép xoay (1) và phép scale (2)
Tên Mô t£ Bi∏n Íi theo x Bi∏n Íi theo y
(8) BÊng 3: Cụng th˘c bi∏n Íi cˆc bẻ.
Hình 4: Qui trình bi∏n Íi £nh bi∫u th˘c toán hÂc b¨ng các phép bi∏n Íi hình hÂc.
Mẫu để nhận diện bờ biển dựa vào đặc điểm cấu trúc dạng thẳng của bờ biển trong các chuỗi liên tiếp (Xem Hình 4) Kết quả thu được tiếp tục được dùng để nhận diện bờ biển có kích thước giảm dần, xoay hướng tạo ra ảnh bờ biển cuối cùng Kết quả này là quá trình trích lọc sử dụng như một mẫu để tập huấn.
Nhúm tỏc giÊcÙng ó làm thớ nghiêm ∫ki∫m tra băng thác nghiêm thỡ t¯1Ênh nguÁn nờn sinh bao nhiờuÊnh gậc là phự hềp H ó so sỏnh hiêu quÊcıa hêthậng dáa trờn viêc huòn luyên trờn bẻ Ênh mà t¯ 1 Ênh nguÁn sinh ra thờm 3 Ênh bi∏n Íi và bẻ Ênh ˜ềc sinh ra thờm 5 Ênh huòn luyên t¯ 1 Ênh ban ảu cıa t™p huòn luyên CROHME H k∏t lu™n răng vểi viêc sinh ra thờm 5 Ênh, hêthậng cıa h s≥th∫ hiên ẻ chớnh xỏc tật hẽn.
Ch˜ẽng 3 Mụ hỡnh ∑ xuòt
Vểi mˆc tiờu nhanh chúng tĐo ra mẻt hê thậng cú khÊ n´ng giÊi quy∏t bài toỏn mà vđn phự hềp ∫ ỏp˘ng cho viêc ỏnh giỏ hiêu quÊcıa cỏc ph˜ẽng phỏp làm giàu d˙liêuÊnh bi∫u th˘c toỏn hÂc mà nhúm ∑ xuòt, nhúm quy∏t ‡nh chÂn láa ki∏n trỳc hê thậng nh˜ công trình th˘ 3 ˜Òc ∑ c™p mˆc công trình tham kh£o.
MĐng SSD Êm nh™n nhiêm vˆ phỏt hiên và phõn loĐi ậi t˜ềng mà cˆ th∫ là cỏc k˛ tá toỏn hÂc cú trong Ênh Bẻ phõn tớch cỳ phỏp DRACULAE chuy∫n toàn bẻ k∏t quÊ nh™n dĐng t¯ SSD thành cõy bi∫u th˘c t¯ ú tĐo cẽ s cho viêc sinh chuẩi L A TEX Khỏc vểi cỏc cỏch ti∏p c™n tuản tá khỏc thỡ vểi viêc s˚ dˆng SSD, thụng tin còu trỳc cıa bi∫u th˘c toỏn s≥ ˜ềc gi˙lĐi thụng qua toĐ ẻ cỏc bounding box Hiêu quÊcıa cỏc chi∏n l˜ềc sinh d˙liêu s≥tỏc ẻng lờn khÊn´ng hÂc cıa mĐng SSD.fi t˜ng õy là n∏u mĐng SSD hÂc tật, giÊm ẻlẩi trong b˜ểc nh™n dĐng thỡ ẻlẩi cıa cÊquỏ trỡnh s≥ ˜ềc giÊm xuậng, Áng thèi t´ng khÊn´ng sinh ỳng chuẩi L A TEX cho toàn bẻ Ênh bi∫u th˘c Hay núi cỏch khỏc, ∑ tài h˜ểng ∏n mˆc tiờu tậi ˜u bẻ nh™n dĐng s˚ dˆng SSD băng cỏch biên phỏp t´ng c˜èng d˙ liêu dáa trờn t™p d˙ liêu sặn cú là CROHME.
Hỡnh 5: K∏t quÊ t¯ ch˜ẽng trỡnh demo cıa hêthậng ẫnh bờn trỏi là input, Ênh bờn phÊi là k∏t quÊ trác quan output cıa SSD và chuẩi L A TEX trờn Ênh này là k∏t quÊ cıa bẻ parser.
Tuy nhiờn ∫ phự hềp vểi mˆc tiờu cıa nhúm cho ∑ tài này, hê thậng nh™n dĐng s≥ cú mẻt sậ thay Íi so vểi phiờn bÊn ˜ềc ∑ c™p cụng trỡnh tham khÊo 2.3:
• S˚ dˆng ki∏n trỳc nguyờn gậc cıa SSD trong [14] mà khụng thờm bòt k˝ thay Íi nào.
• Thay vỡ chứ1 ng˜ễng non-maximizing suppression (nms), viêc s˚dˆng nhi∑u ng˜ễng cho nhi∑u nhúm ậi t˜ềng khỏc nhau s≥ giÊm xỏc suòt b‰ sút ậi t˜ềng và viêc tĐo ra quỏ nhi∑u dá oỏn d˜ th¯a Cˆ th∫ 1 ng˜ễng s≥ dựng cho nhúm cỏc k˛ tá sin, cos, tan,lim,log; 1 ng˜ễng cho k˛ hiêup và 1 cho cỏc k˛tákhỏc Mẻt cỏch dπhỡnh dung hẽn, vớ dˆ model phỏt hiên sin trong cụng th˘c sinx+ cosx Áng thèi cÊ i. K˛tá ikhụng mong ềi s≥dπdàng b‡loĐi b‰ tĐi thèi i∫m phỏt hiên n∏u nms băng
0 Giỏ tr‡ 0 ˜ềc hi∫u là khụng cho phộp bòt k˝ hai ậi t˜ềng nào ˜ềc chÁng lòn 11 nhau Tuy nhiờn khụng may m≠n là vểi ng˜ễng c˘ng nh˜ v™y thỡ tòt cÊnh˙ng phản t˚bờn d˜ểi dòu p s≥b‡ loĐi b‰ ú là l˛ do cản s˚dˆng nhi∑u ng˜ễng nms thay vỡ chứ 1.
Hỡnh 5 minh hoĐluÁng x˚l˛cıa hêthậng t¯lỳc nh™n input tểi k∏t quÊphỏt hiên và phõn lo§i cıa SSD và k∏t qu£ L A TEX cıa nó.
T™p d˙ liêu CROHME ˜ềc cụng bậ dĐng inkml- t˜ẽng tá ‡nh dĐng xml Trong ú thụng tin quan trÂng nhòt là cỏc trace cıa k˛távà nhón cıa nú Mẩi trace s≥là mẻt chuẩi cỏc c∞p toĐ ẻ(x, y) ˜ềc phõn tỏch nhau bi dòu phây th∫ hiên cho mẻt nột còu thành k˛ tá Nh˜v™y thụng tin toĐ ẻ cıa mẻt k˛ tá s≥ bao gÁm nhi∑u trace t˜ẽng ˘ng vểi cỏc nột v≥tĐo nờn k˛ tá ú Và cuậi cựng nhi∑u k˛ tás≥tĐo nờn mẻt bi∫u th˘c Âc vào mẻt file inkml chỳng ta s≥ bi∏t ˜ềc bi∫u th˘c mà file này mụ tÊlà gỡ, cỏc toĐ ẻ ∫còu thành nờn t¯ng k˛ tátrong bi∫u th˘c Ngoài ra trong mẩi file cũn cú thụng tin ng˜èi vi∏t, ngày vi∏t, Chớnh viêc cung còp d˙ liêu vểi ‡nh dĐng nh˜ v™y là cẽ s ∫ nhúm nghổ tểi cỏc ph˜ẽng phỏp bi∏n Íi dáa trờn toĐ ẻ.
Khụng giậng nh˜nh˙ng d˙liêu hỡnh Ênh khỏc,Ênh bi∫u th˘c toỏn hÂc cú cỏc ∞c tớnh riêng mà do ó chúng ta không th∫ áp dˆng nh˙ng phép làm giàu thông th˜Ìng nh˜ flip, random crop.A sau khi ˜ềc flip bi x thỡ khụng cũn là k˛ tá Anh˜mẻt vớ dˆ Thay vào ú chỳng ta cản ‡nh nghổa nh˙ng phộp bi∏n Íi dáa trờn toĐ ẻcıa k˛tá ∫ sau khi bi∏n Íi chỳng ta cú th∫ thu ˜ềc nh˙ng k˛ tá v∑ ˛ nghổa vđn nh˜ cÙ nh˜ng mẻt dĐng th∫ hiên khỏc Trong ng˙ cÊnh này, cỏc phộp bi∏n Íi hỡnh hÂc 12 nh˜ phộp xoay, phộp scale, phép sheer, thì phù hÒp.
Thác t∏ mẩi ng˜èi trong chỳng ta cú nh˙ng cỏch vi∏t khỏc nhau cho cựng mẻt k˛ tá hay cựng mẻt loĐi cụng th˘c Co ng˜èi vi∏t thỉng hàng ngay ng≠n, t¯ng nột ch˙ cÙng thỉng trong khi cú nh˙ng ng˜èi cú xu h˜ểng vi∏t ch˙ nghiờng và ụi khi xột nguyờn cÊ bi∫u th˘c thì không n¨m úng ˜Ìng k¥ ô v Rõ ràng trong tình huËng ó thì phép xoay cú th∫mụ ph‰ng ˜ềc Hay núi cỏch khỏc, s˚dˆng cỏc phộp bi∏n Íi hỡnh hÂc là mẻt chi∏n l˜ềc hềp l˛ ∫mrẻng t™p d˙ liêu Mˆc 3.2.1 s≥ mụ tÊ chi ti∏t hẽn v∑chi∏n l˜ềc này.
11 Thuât ng˙ ti∏ng Anh: overlap
12 Thu™t ng˙ ti∏ng Anh: geometric transform
Chi∏n l˜ềc s˚dˆng cỏc phộp bi∏n Íi hỡnh hÂc thác t∏cho k∏t quÊkhÊquan, tuy nhiờn nhúm nh™n thòy răng d˙ liêu ˜ềc cung còp sặn mòt cõn băng ròt nghiờm trÂng gi˙a cỏc class i∑u này dπhi∫u thụi vỡ thác t∏s≥cú nh˙ng k˛táthụng dˆng và phÍbi∏n hẽn phản cũn lĐi nh˜dòu cẻng, dòu tr¯, Chứ băng cỏc phộp bi∏n Íi hỡnh hÂc chỳng ta khụng th∫ thu hàp khoÊng cỏch gi˙a cỏc class m∞c dự sậl˜ềng mđu d˙liêu t´ng lờn ỏng k∫ Chớnh sá mòt cõn băng là mẻt phản tr ngĐi cho viêc model cú th∫ hÂc ˜ềc nh˙ng class hi∏m g∞p T¯ suy nghổ này, nhúm ∑ xuòt mẻt ph˜ẽng phỏp n˙a ∫ cú th∫ tĐo ra thờm nhi∑u mđu bÍ sung vào cỏc class vận dổ ớt mđu d˙ liêu T¯ ú thu hàp khoÊng cỏch gi˙a cỏc class hi∏m vểi cỏc class phÍbi∏n trờn xỏc suòt phõn bậcıa cỏc class trờn toàn t™p d˙liêu.Ph˜ẽng phỏp này s≥ ˜ềc trỡnh bày cˆth∫ mˆc 3.2.2.
Chi∏n l˜Òc 1: Bi∏n Íi hình hÂc
Dáa trờn ∑ xuòt cıa cụng trỡnh [4], ph˜ẽng phỏp bi∏n Íi hỡnh hÂc cıa nhúm bao gÁm bi∏n Íi cˆc bẻvà bi∏n Íi toàn cˆc Tuy nhiờn cú 2 i∫m thay Íi:
• S˚ dˆng chớnh xỏc cụng th˘c (5) và (6) trong bÊng 3 dđn ∏n vòn toĐ ẻ x sau khi bi∏n Íi cú giỏ tr‡ khỏ gản vểi ydáa trờn ∞c tÊ thụng sậ↵ ˜ềc cho trong [4] Trờn thác t∏, i∑u này dđn ∏n viêc tĐo ra nh˙ng mđu k˛ tá lĐ lđm 13 mà ú khụng cũn Âc ˜ềc ú là k˛ tá gỡ hay còu trỳc ng˙ phỏp cıa ng˙ phỏp khụng cũn Êm bÊo. Dáa trờn thác nghiêm, nhúm ó quy∏t ‡nh thay Íi y trong cụng th˘c bi∏n Íi x (5) thành x và xtrong công th˘c bi∏n Íi y (6) thành y.
• Trong mẻt sậcụng th˘c,100 ˜ềc dựng nh˜là cẽnh˜ng trong cụng trỡnh này nhúm s˚dˆng1000000 i∑u này ˜ềc quy∏t ‡nh và láa chÂn t¯thác nghiêm Cú l≥ i∫m khác nhau này có ˜Òc là cách nhóm ã áp dˆng bi∏n Íi hình hÂc tr˜Óc khi chu©n hoỏ và render tĐo Ênh t¯toĐ ẻ.
V∑chi ti∏t hiên thác, mẻtÊnh ˜ềc gÂi là bi∏n Íi hỡnh hÂc ảy ıkhi trÊi qua 2 b˜ểc là bi∏n Íi toàn cˆc sau khi ˜ềc bi∏n Íi cˆc bẻ theo mụ hỡnh liêt kờ Hỡnh 2.1.– giai oĐn bi∏n Íi cˆc bẻ, hê thậng láa chÂn ngđu nhiờn 1 trong 5 ph˜ẽng th˘c và thác hiên bi∏n ÍiÊnh ảu vào Trờn thác t∏chỳng ta cản láa chÂn ngđu nhiờn thờm mẻt lản n˙a ∫ quy∏t ‡nh s˚ dˆng cụng th˘c bi∏n Íi theo trˆc x hay theo trˆc y ẫnh ảu vào sau khi ˜ềc bi∏n Íi lản 1 ti∏p tˆc thác hiên chuẩi bi∏n Íi scaling và rotation õy là b˜ểc bi∏n Íi toàn cˆc Cuậi cựng render nh˙ng toĐ ẻ ó bi∏n Íi này ∫ ra ˜ềc Ênh bi∫u th˘c- cỏi phự hềp là ảu vào cıa mĐng SSD.
Trong công trình này, đã trích dẫn 1 ông vào nhóm tạo ra hơn 5 ông biên dịch khác nhau của công thức trong tiếng Anh Hình minh họa đã minh họa cho các cách biên dịch thành hình ảnh mà nhóm tác hiện Tổng quan phác họa các hệ đệ quy ẩn trong công thức nguyên sinh Việc lần theo chiều biên dịch sẽ sinh thêm 5 ông đáp án tương ứng với kết quả nghiên cứu nghiêm cẩn của công trình [4].
13 Thu™t ng˙ ti∏ng Anh: weird data
Hỡnh 6: Cỏc mđu bi∏n Íi dáa trờn chi∏n l˜ềc bi∏n Íi hỡnh hÂc ỏp dˆng cho 1Ênh nguÁn.Kớch th˜ểcÊnh bi∏n Íi ˜ềc gi˙nguyờn, khụng s˚dˆng cỏc biên phỏp co kộo ∫tĐo Ênh.
Hệ thống này lưu trữ dữ liệu khổng lồ, bao gồm 6 lần dữ liệu gốc, cùng với một nhóm gồm 5 nguồn dữ liệu mở cho phép 5 cách viết khác nhau Yếu tố này làm phong phú cho dữ liệu, đồng thời củng cố khả năng nhân diện của hệ thống.
Tuy nhiờn mẻt i∑u b´n kho´n là cú nờn sinh nhi∑u thờm n˙a băng bi∏n Íi hỡnh hÂc khụng Thác t∏ n∏u sinh thờm n˙a băng ph˜ẽng phỏp này cú th∫ dđn tểi hiêu qıa ng˜ềc khi càng sinh thờm thỡ khoÊng cỏch gi˙a lểp xuòt hiên nhi∑u và xuòt hiên ớt càng gia t´ng.Nh˜ v™y càng khó cho model hÂc trên các m®u hi∏m g∞p.
Chi∏n l˜Òc 2: Sinh mÓi công th˘c
Th™m chớ ngay cÊkhi chi∏n l˜ềc 1 cú th∫ tĐo ra mẻt t™p d˙liêu ròt lển nh˜ng v∑bÊn chòt nú khụng thay Íi ˜ềc phõn phậi cỏc mđu dáa trờn class trong toàn bẻ t™p d˙liêu Nh˜ ó ∑ c™p t¯ tr˜ểc, CROHME là t™p d˙ liêu mòt cõn băng trảm trÂng 14 Bi∏n Íi hỡnh hÂc khụng giÊi quy∏t ˜ềc tỡnh trĐng này nờn chỳng ta cản mẻt ph˜ẽng ỏn khỏc- cỏi cú th∫tỏi cõn băng d˙ liêu.
Tuy nhiờn, khụng ẽn giÊn chứlà viêc nh™n thòy class nào thi∏u k˛táthỡ bÍsung thỉng nh˙ng k˛ tá thuẻc class ú vào mà chỳng ta cản cú cỏch bÍ sung sao cho em lĐi nhi∑u
Dữ liệu giỏ hàng là thông tin có giá trị cho các hệ thống hậu cần và tuân thủ các tiêu chuẩn mã hóa của Google Mã hóa này giúp bảo vệ biểu thức nhạy cảm trong dữ liệu giỏ hàng.
Tỉ số trọng số class phản ánh tỷ lệ xuất hiện của mỗi class trong bộ dữ liệu và được sử dụng trong giai đoạn CROHME Theo công thức trên, ta thu được tỷ số trọng số cho từng class, sau đó chia cho tổng số trọng số để xác định xác suất xuất hiện của mỗi class Xác suất càng cao cho thấy class đó càng quan trọng trong tập dữ liệu Dựa vào tỷ số này, chúng ta có thể xác định class nào cần bổ sung thêm dữ liệu và class nào không còn đủ quan trọng để bổ sung thêm.
1 pi, (9) vểip i th∫hiên cho xỏc suòt thòy class i trong bẻ d˙ liêu huòn luyên.
T¯ õy nhúm xõy dáng ˜ềc mẻt bÊng tra 16 gi˙a class và trÂng sậ cıa nú Nhúm s˚ dˆng trÂng sậ này ∫ sinh ngđu nhiờn cú xỏc suòt cỏc mđu d˙ liêu Hay núi cỏch khỏc, trÂng sậ cao th∫hiên khÊn´ng class ú ˜ềc sinh ra nhi∑u hẽn nh˙ng class khỏc Trỏi lĐi, trÂng sậ thòp giểi hĐn m˘c ẻ xuòt hiên cıa cỏc class vận dổ ó phÍbi∏n trong bẻd˙liêu huòn luyên Nh˜ v™y, khoÊng cỏch gi˙a class xuòt hiên nhi∑u và hi∏m khi xuòt hiên ˜ềc thu hàp Bẻ d˙liêu mẻt cỏch t˜ẽng ậi trnờn cõn băng hẽn.
Sau khi hoàn thành quá trình xử lý, nhóm nghiên cứu đã biến đổi nội dung thành cấu trúc bảng bằng cách phân loại và thu thập các ký tự được xác định trong các file inkml của tập CROHME Kết quả đạt được là một tập hợp các ký tự đại diện cho các lớp và các cách viết ký tự của lớp đó Bước tiếp theo là xây dựng và hiển thị kết quả sau khi quá trình xử lý tạo ra biểu thức bằng cách đưa ra luật bên dưới.
Mẻt i∫m l˜u ˛ răng, nh˙ng bi∫u th˘c sinh ra phÊi Êm bÊo còu trỳc ng˙ phỏp toỏn hÂc ∫ phự hềp vểi mˆc tiờu m rẻng t™p d˙ liêu CROHME Hẽn th∏ n˙a, viêc bÍ sung Ênh bi∫u th˘c ỳng qui ‡nh toỏn mang lĐi nhi∑u ˛ nghổa cho cỏc mĐng giÊi mó hay d‡ch nh˜LSTM hẽn là chứ là mẻt k˛ tá Ngoài hÂc ∫phõn loĐi ú là k˛ tá gỡ, nh˙ng hê thậng này cũn hÂc cÊ ng˙ cÊnh cıa bi∫u th˘c Vớ dˆ, hÂc ∫ sinh ra k˛ hiêu khụng nhỡn thòy ˜ềc 17 trong bi∫u th˜c nh˜ "ˆ" là cản thi∏t ậi vểi cỏc cụng th˘c luˇ th¯a, mÙ Nh˙ng bi∫u th˘c ˜ềc sinh ra thác sá khụng th∫ là mẻt bi∫u th˘c vụ nghổa hay khụng tuõn thı các quy t≠c toán hÂc.
Dáa trờn nh˙ng tỡm hi∫u trờn cỏc loĐi bi∫u th˘c toỏn cÙng nh˜ quy t≠c vi∏t cıa bi∫u th˘c toỏn, nhúm ∑xuòt cỏc lu™t sinh bờn d˜ểi ˜ềc dựng ∫sinh ra cỏc chuẩi cụng th˘c mểi là cẽ s cho viêc tĐoÊnh cỏc cụng th˘c mểi, bÍsung cho t™p CROHME Cˆth∫:
15 Thu™t ng˙ ti∏ng Anh: categorical distribution
16 Thu™t ng˙ ti∏ng Anh: lookup table
17 Thu™t ng˙ ti∏ng Anh: invisible symbol
1 Lu™t sinh sậ: sinh ngđu nhiờn mẻt sậvểi 3 k˛ tá, 0 khụng th∫ xuòt hiên v‡ trớ
SËnày có th∫ k∏t thúc b¨ng ⇡, ! ho∞c không.
2 Lu™t sinh toỏn hĐng:mẻt toỏn hĐng cú th∫ là mẻt sậ ˜ềc sinh bi lu™t sinh sậ, k˛ táalphabet vi∏t hoa ho∞c vi∏t ho∞c mẻt k˛táLatinh Toỏn hĐng cú th∫k∏t thỳc
3 Lu™t sinh bi∫u th˘c tuy∏n tính c´n b£n:s˚dˆng lu™t sinh toán h§ng ∫t§o ra
2 toán h§ng và ˜Òc liên k∏t bi 1 toán t˚ Toán t˚ là1 trong +, , ⇥,÷, /.
4 Lu™t sinh bi∫u th˘c l˜ềng giỏc: cụng th˘c l˜ềng giỏc là sá k∏t hềp cıa sin, cos ortan vểi mẻt toỏn hĐng ˜ềc sinh bi lu™t sinh toỏn hĐng.
5 Lu™t sinh phân sË: t˚ sË là k∏t qu£ cıa lu™t sinh bi∫u th˘c tuy∏n tính c´n b£n trong khi mđu sậ là mẻt toỏn hĐng Hoàn toàn hềp l˛ ∫ thay Íi vai trũ cıa t˚ sậ và m®u sË.
6 Lu™t sinh bi∫u th˘c giểi hĐn: bi∏n và giểi hĐn bờn d˜ểi k˛ hiêu giểi hĐn là mẻt k˛ tá và mẻt sậ sinh bi lu™t sinh sậ ‡nh dĐng hàm sậ cản i tỡm giểi hĐn là (variable_operator_number) For example, limx ! 5x+ 10.
7 Lu™t sinh logarit: cẽsậ là mẻt sậ cú2 k˛ távà phản cản tớnh logarit là mẻt toỏn h§ng ˜Òc sinh bi lu™t sinh toán h§ng.
8 Lu™t sinh bi∫u th˘c Unary:nú là mẻt chuẩi cıa (! ho∞c ±) và mẻt sậ ˜ềc sinh bi lu™t sinh sË.
9 Lu™t sinh bi∫u th˘c i∑u kiên: lòy vớ dˆ 8x 2 [0,1], x > 1 Trong tr˜èng hềp này, chỳng ta cản quy∏t ‡nh 8 hay 9, chÂn mẻt ch˙ cỏi vi∏t th˜èng nh˜ là bi∏n sậ rÁi sinh ngđu nhiờn c™n trờn và c™n d˜ểi Chỳng ta cú ràng buẻc là c™n trờn phÊi lển hẽn c™n d˜ểi Cuậi cựng chỳng ta cản mẻt k˛hiêu so sỏnh trong sậ(, or 6=) và mẻt sậtheo sau ∫hoàn thành bi∫u th˘c này.
10 Lu™t sinh bi∫u th˘c ch˘a dòu giỏ tr‡ tuyêt ậi: cựng vểi k˛ hiêu cıa giỏ tr‡ tuyêt ậi, mẻt toỏn hĐng sinh bi lu™t sinh toỏn hĐng ˜ềc ũi h‰i.
Thờm vào ú, trong quỏ trỡnh thác hiên nhúm nh™n thòy răng " ." khỏ hi∏m xuòt hiên trong bẻ d˙ liêu huòn luyên nờn quy∏t ‡nh sinh thờm nh˙ng cụng th˘c cú liờn quan ∏n class này theo ‡nh dĐng t˜ẽng tá ó cú trong t™p d˙ liêu cho tr˜ểc-{letter number}, ví dˆ{x 1}.
Bi∫u th˘c cuậi cựng dựng ∫ sinh Ênh là sá k∏t hềp cıa bòt k˝ 2 lu™t sinh trờn vểi mẻt toỏn t˚ ho∞c ẽn giÊn chứlà k∏t quÊ cıa mẻt lu™t sinh.
Trong quá trình quy∏t ‡nh nên sinh nh˙ng lo§i công th˘c nào hay có nh˙ng lu™t sinh chứ quy∏t ‡nh chÂn nhđu nhiờn cỏc k˛ tá Latinh thay vỡ gÂp cÊ k˛ tá alphabet, phˆ thuẻc vào nh˙ng quy∏t ‡nh lỳc nhúm làm khÊo sỏt d˙ liêu và qui ‡nh trong toỏn cıa cỏc loĐi cụng th˘c Nhòn mĐnh lĐi răng nhúm Êm bÊo ∫ khụng rũ rứ thụng tin t™p test vào quỏ trỡnh huòn luyên Viêc chÂn láa nh˙ng lu™t sinh nh˜ ó trỡnh bày phˆ thuẻc vào ki∏n th˘c toỏn và mˆc tiờu cậ g≠ng sinh ı cỏc cụng th˘c toỏn cú sặn Trong quỏ trỡnh hiên thác thỡ lu™t sinh s≥ ˜ềc láa chÂn ngđu nhiờn băng uniform random Trong khi ú, viêc quy∏t ‡nh láa chÂn k˛ tá nào ∫ sinh ra t¯ k∏t quÊ sinh chuẩi cụng th˘c phˆthuẻc vào trÂng sậsinh cıa bÊng tra ó tĐo Quỏ trỡnh láa chÂn k˛tánày là sinh ngđu nhiờn cú trÂng sË.
Hình 7 minh ho§các m®u ˜Òc sinh bi chi∏n l˜Òc 2.
Hỡnh 7: Mđu d˙ liêu ˜ềc sinh bi chi∏n l˜ềc 2.
Ngoài nh˙ng lu™t sinh ó liêt kờ, chi∏n l˜ềc sinh d˙ liêu cıa nhúm cú th∫ tĐo ra cỏc bi∫u th˘c liên quan ∏n bi∫u th˘c luˇth¯a, bi∫u th˘c mÙ, c´n , tích phân, tÍng Tuy nhiên sau khi huòn luyên lản 1 chứ s˚ dˆng t™p d˙ liêu cú sặn, nh˙ng class này ó Đt ẻ chớnh xỏc cao, cˆth∫AP[16] xòp xứ1 trờn t™p ki∫m th˚ Vỡ v™y nhúm ó khụng thờm chỳng vào vũng huòn luyên ti∏p theo, Áng nghổa nh˙ng bi∫u th˘c liờn quan cÙng s≥ khụng ˜ềc tĐo ra Riêng vÓi lo§i bi∫u th˘c luˇ th¯a, nhóm cÙng không sinh thêm ∫ ˜a vào quá trình huòn luyên vỡ hĐn ch∏ cıa mĐng SSD Trong tr˜èng hềp ˜a vào, SSD cÙng chứhÂc ˜ềc hêsậ và cẽsậ mà thi∏u i nhõn tậ ng˙ cÊnh th∫ hiên õy là mẻt bi∫u th˘c luˇ th¯a Tuy nhiờn n∏u s˚ dˆng cỏc mĐng decode nh˜LSTM[17], viêc sinh thờm này lĐi cú giỏ tr‡ Vểi cỏc chi∏n l˜ềc sinh cıa mỡnh, nhúm h˜ểng tểi giÊi phỏp chung mà khụng phˆ thuẻc vào bòt k˝ ki∏n trỳc mĐng nào.
Hỡnh 8 minh hoĐmẻt sậmđu ˜ềc sinh bi chi∏n l˜ềc 2 tuy nhiờn khụng ˜ềc ˜a vào quỏ trỡnh huòn luyên.
Hỡnh 8: KhÊ n´ng sinh cıa chi∏n l˜ềc 2 trờn cỏc dĐng bi∫u th˘c ch˘a dòu c´n, tớch phõn, tÍng,luˇ th¯a.
Ch˜ẽng 4 Hiên thác, ỏnh giỏ
mAP
Nhúm ỏnh giỏ hiêu quÊ cıa mĐng phỏt hiên SSD ˜ềc huòn luyên riờng biêt trờn 3 t™p D1, D2 và D3 gÂi t≠t là M1, M2 và M3 băng chứ sậ mAP[16]- mẻt chứ sậ nÍi ti∏ng trong viêc ỏnh giỏ cỏc bài toỏn liờn quan phỏt hiên ậi t˜ềng 20 trongÊnh Hỡnh 11 chứra mAP cıa 3 mụ hỡnh M1, M2 và M3 cựng vểi phản tr´m cÊi thiên cıa mụ hỡnh sau so vểi mụ hình tr˜Óc.
20 Thu™t ng˙ ti∏ng Anh: object detection
Type Digit and Letter Operator Pair symbol
, ⌃, sin, cos, tan, log, lim,
BÊng 6: 101 nhón d˙liêu ˜ềc chia thành 5 nhúm.
Hỡnh 11: mAP trờn test set cıa mĐng SDD ˜ềc hÂc riờng biêt trờn cỏc bẻ d˙ liêu huòn luyên.
Vểi viêc ˜ềc huòn luyên trờn bẻ d˙ liêu D3- bao gÁm t™p d˙ liêu cẽ s CROHME
2013, các m®u ˜Òc sinh bi chi∏n l˜Òc bi∏n Íi hình hÂc và sinh công th˘c (có áp dˆng bi∏n Íi hỡnh hÂc trờn nh˙ng mđu sinh mểi này ∫ tĐo ra sá th∫ hiên a dĐng)- chứ sậ mAP ˜ềc cÊi thiên lờn ∏n 42% so vểi chứ hÂc trờn D1 và cÊi thiên 13.7% mAP n∏u so vểi D2 Nh˜v™y cỏc chi∏n l˜ềc sinh k∏t hềp bi∏n Íi ỡnh hÂc và sinh cụng th˘c ó th∫hiên sáhiêu quÊ trong viêc t´ng khÊ n´ng hÂc cıa mĐng SSD Vểi viêc huòn luyên mĐng cẽ s
SSD trờn nh˙ng bẻ d˙ liêu ˜ềc bÍ sung mđu cho thòy sá hiêu quÊ khi chứ hÂc trờn bẻ huòn luyên CROHME T¯ ú thòy ˜ềc úng gúp cıa cỏc chi∏n l˜ềc Ngoài ra, vểi bẻd˙ liêu D2, sá cÊi thiên so vểi D1 gúp phản ch˘ng minh dá hiêu quÊ cıa giÊi phỏp sinh d˙ liêu do [4] ∑xuòt.
Dáa trờn AP score cıa t¯ng class, mụ hỡnh M3 hÂc tật trờn ⌃, R
, log, lim, 1, , , 6=,=, +, 1, H,M, R, E, Phản lển chỳng cú AP trờn 0.8.
AP trên t¯ng class
Xem xột AP score cıa t¯ng class, M3 Đt ˜ềc73/101class cú AP lển hẽn băng cỏc class t˜ẽng˘ng cıa M2 và con sậnày là 92/101 khi so sỏnh vểi M1 Cú th∫thòy M3 hÂc và th∫ hiên tật hẽn nhi∑u so vểi M2 và M1 Tuy nhiờn con sậ này ch˜a phÊi 101 Áng nghổa s≥ cú nh˙ng class M2 và M1 mà AP cao hẽn n∏u so vểi M3 Trờn thác t∏sáchờnh lêch này khụng quỏ lển Bi vỡ trung bỡnh m˘c ẻ sai khỏc n∏u cú bòt k˝ class nào cıa M3 cú AP thòp hẽn M2 và M1 lản l˜ềt là 0.052 và 0.069 trong khi n∏u cú bòt k˝ class nào cıa M3 mà AP cao hẽn ho∞c băng M2, M1 thỡ khoÊng cỏch trung bỡnh s≥ là 0.101 và 0.203 Hay núi mẻt cỏch dπ hi∫u hẽn n∏u class nào cıa M3 cú AP lển hẽn cỏi t˜ẽng˘ngM2 và M1 thỡ lển hẽn nhi∑u trong khi n∏u bộ hẽn thỡ bộ hẽn khụng ỏng k∫.
Hỡnh 12: Confustion matrix cıa M3 trờn mẻt sậ class Đi diên.
Recall trên t¯ng class
Xột riờng cho M3, xòp xứ 75% cú recall 21 lển hẽn 0.5, 25%class chĐm ∏n recall ớt nhòt là 0.78 Vểi nh˙ng class mà recall cao nh˜ng ch˜a băng1, phản lển cỏc mđu ˜ềc nh™n dĐng ỳng bi M3 và lẩi sai xÊy ra chı y∏u do lẩi b‰ sút ậi t˜ềng trong lỳc phỏt hiên i∑u này t˘c là M3 không th∫ ∞t 1 bounding box cho nh˙ng Ëi t˜Òng này Trái l§i, vÓi 25% class cú recall hẽn0.46%, viêc khú kh´n trong phỏt hiên và nh™n diên k˛ tásiờu nh‰nh˜
21 Recall phÊn Ênh bao nhiờu phản tr´m mđu trong mẻt class mà hê thậng nh™n diên ỳng ˜ềc.
".", "0", là nguyờn nhõn chớnh cựng vểi sá nhảm lđn trong phõn loĐi gi˙a cỏc nhúm k˛ tána nỏ nhau chỉng hĐn: "S" và "s", "C" dπ b‡ nh™n nhảm thành "c" ho∞c"(",
Hỡnh 12 th∫hiên nh˙ng sánhảm lđn cú th∫xÊy ra khi nh™n dĐng mẻt k˛táthuẻc mẻt class cˆ th∫ Cỏc class ˜ềc chÂn xuòt hiên trờn hỡnh này dáa trờn tiờu chớ Đi diên cho cỏc nhúm k˛ tá BÊng 6 và bao phırecall t¯cao tểi thòp Dπdàng nhỡn thòynhúm cỏc class ảu, v‡ trớ ụ ™m năm ˜èng (nú và chớnh nú- khú b‡ nhảm lđn sang k˛ tá khỏc).Vểi nh˙ng k˛ tá nh‰ thỡ b‡ b‰sút là chı y∏u.
K∏t qu£ khác
M3 có độ méo sắc màu tổng thể thấp hơn đáng kể so với M1 như trong Hình 11 Ngoài ra, nhóm nghiên cứu cũng tìm ra thêm 2 ví dụ khác minh họa độ lệch màu sắc giữa M3 với M1 và M2.
1 Hỡnh 13, t¯M1 ∏n M3, sậl˜ềng false-positive (FP) giÊm (cẻt màu xanh) trong khi sậl˜ềng true-positive (TP) (cẻt màu cam) Cẻt màu xanh da trèi th∫ hiờn sậ l˜ềng mđu utrong test set Rừ ràng M3 tĐo ra ˜ềc nhi∑u dá oỏn ỳng và ớt dá oỏn sai hẽn M2 và M1 Trong ú M1 là tê nhòt.
Hình 13: TP, FP và AP score cıa "u" theo 3 mô hình.
Hình 14: TP, FP và AP score cıa " " theo 3 mô hình.
2 Hỡnh 14 là mẻt vớ dˆ t˜ẽng nh˜ cho k˛ tá M1 tĐo ra ˜ềc dá oỏn nh˜ng tòt cÊ
∑u sai trong khi th™m chớ dự chứ mẻt dá oỏn sai M2 cÙng khụng th∫thỡ tòt cÊ dá oán cıa M3 ∑u úng m∞c dù recall không cao.
Mẻt cỏch tÍng quỏt, BÊng 7 liêt kờ nh˙ng class mà M1, M2 và M3 cú th∫ phỏt hiên nh˜ng phõn loĐi hoàn toàn sai và nh˙ng class khụng ˜ềc phỏt hiên bi cỏc mụ hỡnh Nh™n thòy răng danh sỏch cỏc class này ∑u hi∏m xuòt hiên trong test set theo nh˜ ó ∑ c™p trờn trong khi ”o” and " ." thỡ dπ nh™p nhăng K˛ tá "8" trong Hỡnh 15 ˜ềc phõn loĐi thành "H" là mẻt vớ dˆ i∑u này cÙng là mẻt trong nh˙ng nguyờn nhõn dđn ∏n k∏t quÊ cıa B£ng 7.
Totally Incorrect Classified Non-recognizable M1 }, ÷, |, o, , , 0 {, 9,8, 2
BÊng 7:Nh˙ng symbol class cú phỏt hiên ˜ềc nh˜ng nh™n diên sai hoàn toàn và khụng th∫phỏt hiên ˜ềc bi M1, M2 và M3.
Mẻt sậ vớ dˆ sinh chuẩi L A TEX
Hỡnh 16 th∫ hiên k∏t quÊ cıa bẻ parser trờn nh˙ng Ênh test trong tr˜èng hềp l˛ t˜ng,sai 1 k˛tá và sai 2 k˛ tá Dá oỏn ˜ềc ∞t trờn ảu mẩiÊnh là k∏t quÊ render L A TEXsau khi bẻ phõn tớch DRACULAE nh™n output t¯ SSD và chuy∫n chỳng sang chuẩi L A TEX.Nhi∑u lẩi xÊy ra liờn quan ∏n sá nh™p nhăng trong cỏch vi∏t tay cỏc k˛ tá, bi∫u th˘c toỏn "vv0" b‡nh™n nhảm thành "w" trong Hỡnh 16 là mẻt vớ dˆ Nú khú ∫phõn loĐi n∏u khụng ˜ềc vi∏t rừ ràng hay trong ng˙cÊnh cˆ th∫ Thác t∏vđn cú nh˙ng tr˜èng hềp cÊ trong ng˙ c£nh cÙng khó ∫ phân lo§i úng Nh˙ng i∑u này t§o nên thách th˘c cıa ∑ tài này.
Hỡnh 16: Cỏc còp ẻ lẩi khỏc nhau: k∏t quÊ ảu tiờn nh™n diên trựng khểp hoàn toàn vểi input. Ti∏p theo, M3 m≠c lÈi khi phân lo§i "|" thành "1" trong khi ã có 2 lÈi x£y ra là deletion bi b‰ sút mẻt "v" và substitution bi nh™n nhảm thành "w" thay vỡ "v" trong Ênh cuậi.
Hỡnh 17 th∫hiên mẻt sậcỏc k∏t quÊ nh™n dĐng ỳng hoàn toàn bi∫u th˘c cıa parser. Vểi nh˙ng cụng th˘c ˜ềc dá oỏn L A TEX ỳng hoàn toàn cú chi∑u dài nh‰nhòt là3, trung v‡ là7 và chi∑u dài lển nhòt là 24.
Hỡnh 17: K∏t quÊ dá oỏn ỳng hoàn toàn cıa hêthậng trờn cỏc vớ dˆ cú chi∑u dài thay Íi t¯
3 ∏n 24 Prediction là k∏t quÊ render t¯ chuẩi L A TEX cú ˜ềc t¯ hêthậng.
Hỡnh 18: K∏t quÊ dá oỏn vểi 1 lẩi sai cıa hêthậng Khung màu ‰ bao lòy nh˙ng k˛ tá b‡ dá oỏn sai so vểi Ênh ảu vào.
Ngoài ra Hỡnh 18 chứ ra nh˙ng k∏t quÊ ˜ềc dá oỏn vểi 1 lẩi sai Cú th∫ thòy răng õy là nh˙ng tr˜èng hềp ròt dπ b‡ nh™p lđn, ẽn c˚nh˜ | và 1 hay b và 6 nh˜ ó ∑ c™p tr˜Óc ó.
Trong ∑tài này, nhúm ∑xuòt mẻt ph˜ẽng ỏn khÊthi trong viêc sinh d˙liêu ∞c biêt cho bài toỏn Âc hi∫u bi∫u th˘c toỏn hÂc vi∏t tay t¯ Ênh Nhúm giểi thiêu hai chi∏n l˜ềc sinh bao gÁm bi∏n Íi hình hÂc ∫mô ph‰ng nh˙ng thói quen vi∏t khác nhau cıa con ng˜Ìi và sinh mểi cụng th˘c ∫tỏi cõn băng d˙liêu K∏t hềp cÊhai chi∏n l˜ềc này lĐi cho ra nh˙ng k∏t quÊ khÊ quan Dáa trờn k∏t quÊ thác nghiêm, ph˜ẽng ỏn ∑ xuòt cıa nhúm ∫ hoĐt ẻng tật và úng gúp ỏng k∫ trong viêc cÊi thiên khÊ n´ng hÂc và nh™n dĐng cıa mĐng phỏt hiên Nhè vào ú, ẻ chớnh xỏc sau cựng cıa toàn hêthậng ˜ềc nõng lờn i∑u này ˜ềc phõn tớch rừ trong Ch˜ẽng 4, mˆc 2 So vểi viêc chứhuòn luyên trờn bẻd˙liêu cẽs ˜ềc cung còp bi tÍ ch˘c CROHME thỡ huòn luyên trờn bẻd˙ liêu ó bÍ sung cỏc mđu băng phộp bi∏n Íi hỡnh hÂc cho ra k∏t quÊtật hẽn và tật nhòt là bẻd˙liêu ˜ềc bÍsung c£ nh˙ng m®u bi∏n Íi hình hÂc và sinh mÓi công th˘c k∏t hÒp bi∏n Íi hình hÂc nh¨m tĐo ra nhi∑u sá th∫hiên a dĐng cho cụng th˘c sinh mểi. õy thác sálà nh˙ng k∏t quÊ ỏng mong ềi, ch˘ng t‰tớnh hiêu quÊcıa viêc cản thi∏t tĐo bẻd˙ liêu ılển, ı a dĐng núi chung và ph˜ẽng ỏn sinh d˙ liêu nhúm ∑xuòt núi riêng.
Tuy nhiờn i∫m hĐn ch∏cıa ∑tài năm ki∏n trỳc hêthậng Nhúm s˚ dˆng hê thậng x˚l˛ tuản tácho nờn vđn ậi m∞t vểi viêc tớch luˇ lẩi qua cỏc khõu trung quan khi khụng Áng thèi tậi ˜u ẻ lẩi dáa trờn output cuậi cựng Ngoài ra hê thậng ang s˚ dˆng cÙng khụng phỏt huy ˜ềc tậi a s˘c mĐnh cıa cỏc chi∏n l˜ềc sinh d˙ liêu cıa nhúm bi viêc ch˜a t™n dˆng tật cỏc thụng tin còu trỳc 2 chi∑u cıa bi∫u th˘c i∑u này dđn ∏n viêc tĐi thèi i∫m hiên tĐi nhúm ch˜a cụng bậ ỏnh giỏ trờn ẻ o bi∫u th˘c ∫cú th∫so sỏnh vểi cỏc cụng trỡnh t˜ẽng tá.
2 H˜ểng phỏt tri∫n t˜ẽng lai
Dáa trờn i∫m mĐnh và i∫m hĐn ch∏ ó nờutrờn, nhúm ∑ra cỏc h˜ểng ti∏p c™n trong t˜ẽng lai:
• S˚ dˆng ki∏n trúc m§ng end-to-end bao gÁm hai khËi chính là encode b¨ng CNN ho∞c DenseNet và decode băng LSTM k∏t hềp cẽ ch∏ Attention Tin răng hê thậng này s≥ tĐo nờn b˜ểc nhÊy trong khÊ n´ng nh™n diên và chuy∫n Íi Ênh bi∫u th˘c thành chuẩi L A TEX Áng thèi phỏt huy hẽn n˙a th∏ mĐnh cıa cỏc chi∏n l˜ềc sinh d˙liêu.
Nghiên cứu và tối ưu các luật biểu thức, cũng như cách thức sắp xếp và render chúng để đạt được biểu thức chặt chẽ, mượt mà, khắc phục thói quen viết khác nhau.
• ỏnh giỏ hiêu quÊ cıa viêc gia t´ng d˙ liêu huòn luyên và ki∏n trỳc mĐng trờn ẻ o bi∫u th˘c ∫ so sỏnh ˜ềc vểi cỏc cụng trỡnh t˜ẽng tá.
Danh mˆc các công trình ã công bË
1 K-N Bui, Q-K-H Nguyen, T-S Le, "Handwritten Mathematical Expression Recog- nition: An approach on data augmentation," in 15th International Conference onAdvanced Computing and Applications (ACOMP), Qui Nhon, Vietnam, IEEE, 2021
Khanh-Ngoc BUI ⇤ , Quoc-Kim-Hoang NGUYEN and Thanh-Sach LE
Ho Chi Minh City University of Technology, Vietnam
Abstract—In this paper, we propose an approach for generating
Mathematical Expression (ME) images from the CROHME dataset Our approach employs two methods The first method transforms original ME images which belong to the CROHME dataset by geometric transformations The second generates new ME images based on the dictionary of character patterns collected from the CROHME dataset The generated ME im- ages follow rules of math form Based on the combination of both two methods, we introduce a much larger dataset for handwritten math expression recognition problem compared to original CROHME That is the main contribution of this paper To evaluate, we employ a sequential system containing a module for object detection- Single Shot MultiBox Detector
(SSD)- and a module for parsing SSD’s outcome into L A TEX string- DRACULAE and focus on improving the detector We trained and evaluated the system on CROHME 2013 training set combined with and without our own generated dataset to point out the impact of our generative approach The experimental results indicate that the detector achieves 52.57% on mAP instead of 36.98% if we do not use added dataset.
Index Terms—Handwritten Mathematical Expression Recog- nition, Pattern Generation, SSD, DRACULAE
Mathematical expression (ME) recognition has been re- searched for last a half of century [1] with two main problems including online recognition and off-line one Specially in the age of digital conversion, off-line ME recognition plays a more important role It takes images capturing ME as input of system and returns the ME in the electronic document which can be stored in much less space and safer than paper documents.
Up to present, solving the problems of handwritten ME
Handwritten mathematical expression (HME) recognition confronts hurdles due to variations in input and the vast diversity of mathematical symbols and equations This complexity makes HME recognition challenging yet engaging within the broader field of optical character recognition (OCR), especially in the context of handwritten character recognition.
Regarding the off-line approach, there are two major stages to deal with, symbol recognition and structure analysis They can be handled separately or jointly The recent works [3]
[4] [5] which all achieve desired results on HME recognition followed the latter In other words, they simultaneously opti- mized symbol recognition and structural analysis They trained an end-to-end system with two modules- encoder and decoder.
The encoder is responsible for features extraction from input.
Zhang et al [3] introduced CNN as their encoder while [4] employed DenseNet [6] added their own modification LSTM [7] and GRU combined with attention [8] are usually used as decoder However, in the earlier period, the off-line recognition studies preferred separating symbol recognition from structural analysis They are summarized in the survey paper [1] Even in CROHME competition in early years, many of the competitors employed the same approach [9] [10].
Despite of the outstanding results in HME recognition of Zhang at el in [3] and [4], the system of MyScript- a team joined CROHME competition in recent years- outperforms the others One of the most important reason making the difference is their own private dataset As the CROHME organizer report [9], they trained their system in a much larger dataset than the prepared training dataset It truly indicates the efficiency of an extended training set Regardless of many new puplications , MyScript is still on top of CROHME leaderboard over the years.