1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Đọc biểu thức toán học viết tay từ ảnh

55 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

BÙI KHÁNH NGỌC

ĐỌC BIỂU THỨC TOÁN HỌC VIẾT TAY TỪ ẢNH

Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số: 8480101

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 08 năm 2021

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG –HCM Cán bộ hướng dẫn khoa học : TS Lê Thành Sách

Cán bộ chấm nhận xét 1 : TS Nguyễn Văn Sinh

Cán bộ chấm nhận xét 2 : PGS TS Huỳnh Trung Hiếu

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 05 tháng 08 năm 2021

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 Chủ tịch hội đồng: PGS TS Thoại Nam

2 Thư ký hội đồng: TS Nguyễn Lê Duy Lai 3 Cán bộ phản biện 1: TS Nguyễn Văn Sinh

4 Cán bộ phản biện 2: PGS TS Huỳnh Trung Hiếu 5 Cán bộ hướng dẫn: TS Lê Thành Sách

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: BÙI KHÁNH NGỌC MSHV: 1870446 Ngày, tháng, năm sinh: 14/02/1995 Nơi sinh: BÌNH ĐỊNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 8480101

I TÊN ĐỀ TÀI: ĐỌC BIỂU THỨC TOÁN HỌC VIẾT TAY TỪ ẢNH II NHIỆM VỤ VÀ NỘI DUNG:

1 Chuyển biểu thức toán học viết tay từ dạng hình ảnh sang chuỗi LATEX tương ứng 2 Xây dựng giải pháp làm giàu dữ liệu cho bài toán

3 Công bố bài báo khoá học cho đề tài

III NGÀY GIAO NHIỆM VỤ : 10/02/2020

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 13/06/2021 V CÁN BỘ HƯỚNG DẪN: TIẾN SĨ LÊ THÀNH SÁCH

Tp HCM, ngày 11 tháng 10 năm 2021

CÁN BỘ HƯỚNG DẪN

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

(Họ tên và chữ ký)

i

Trang 4

LÌi c£m Ïn

N∏u nh˜ lu™n v´n tËt nghiªp là th˚ thách cuËi cùng và vô cùng quan trÂng cıa ch∞ng˜Ìng 4.5 n´m trên gi£ng ˜Ìng §i hÂc cıa nh˙ng sinh viên Bách Khoa thì lu™n v´nTh§c sæ mÎt l¶n n˙a là b˜Óc ngo∞t ánh dßu cho mÎt s¸ tr˜ng thành hÏn trong ki∏n th˘cvà trong nghiên c˘u cıa không chø nh˙ng b§n hÂc viên chÂn Bách Khoa là nÏi hÂc t™p vànghiên c˘u chuyên sâu sau khi ra tr˜Ìng mà cho c£ b£n thân tôi.

i ∏n thÌi i∫m hiªn t§i, ∫ ˜Òc ngÁi vi∏t nh˙ng dòng này, tôi th¸c s¸ c£m thßy maym≠n và bi∏t Ïn ∏n nh˙ng ng˜Ìi th¶y, ng˜Ìi b§n, ng˜Ìi thân ã giúp Ô tôi trong suËt quátrình v¯a qua Và ∞c biªt c£m kích hÏn n˙a khi h không nh˙ng chø hÈ trÒ tôi trong lu™nv´n Th§c sæ này mà h cÙng ã t¯ng Áng hành vÓi tôi trong lu™n v´n tËt nghiªp §i hÂc.Tôi muËn g˚i lÌi c£m Ïn chân thành ∏n Ban giám hiªu và các th¶y cô Tr˜Ìng §i hÂcBách Khoa Thành phË HÁ Chí Minh, cách riêng cho các th¶y cô Khoa Khoa hÂc và Kˇthu™t Máy tính ã chø d®n cho tôi trong suËt nh˙ng n´m hÂc v¯a qua.

Trong quá trình th¸c hiªn lu™n v´n, tôi ã nh™n ˜Òc rßt nhi∑u s¸ hÈ trÒ v∑ m∞t chuyênmôn cÙng nh˜ nh˙ng óng góp trong vßn ∑ x˚ l˛ d˙ liªu cho ∑ tài, tËi ˜u quá trình hußnluyªn, t¯ b§n bè, Áng nghiªp và ∞c biªt là t¯ mÎt ng˜Ìi tôi rßt tin t˜ng Chính s¸giúp s˘c này ã ©y tôi b˜Óc qua nhi∑u khó kh´n và i ∏n ˜Òc viªc hoàn thiªn ∑ tài.Vì v™y tôi muËn dành s¸ c£m kích cıa mình cho hÂ.

Trên tßt c£, lÌi c£m Ïn chân thành nhßt và sâu s≠c nhßt xin ˜Òc g˚i ∏n th¶y h˜Óngd®n ∑ tài- Ti∏n sæ Lê Thành Sách- ng˜Ìi không chø mÎt l¶n mà ã là l¶n th˘ hai Ánghành cùng tôi trong nh˙ng cÎt mËc quan trÂng ∫ tËt nghiªp §i hÂc và bây giÌ là tËtnghiªp Th§c sæ C£m Ïn th¶y ã luôn theo sát, hÈ trÒ cÙng nh˜ ‡nh h˜Óng công viªc C£mÏn th¶y ã luôn t§o ra áp l¸c ∫ thúc ©y sinh viên cıa mình ti∏n v∑ phía tr˜Óc và cÙngc£m Ïn th¶y vì nh˙ng khi áp l¸c nhßt ∑u ˜Òc th¶y chia s¥.

Tôi cÙng không quên g˚i lÌi c£m Ïn ∏n các nhóm tác gi£ mà công trình cıa h tôi cótham kh£o và hÂc h‰i ∫ th¸c hiªn lu™n v´n cıa mình.

Sau cùng, vì nh˙ng h§n ch∏ v∑ m∞t thÌi gian cÙng nh˜ kh£ n´ng trong cách trình bàyvà vi∏t báo cáo nên không th∫ tránh kh‰i nh˙ng thi∏u sót, rßt mong nh™n ˜Òc s¸ thôngc£m và nh˙ng ˛ ki∏n óng góp t¯ qu˛ th¶y cô và các b§n ∫ giúp tôi và ∑ tài này hoànthiªn hÏn.

Chân thành c£m Ïn.

HÁ Chí Minh, ngày 11 tháng 07 n´m 2021HÂc viên th¸c hiªn

Bùi Khánh NgÂc

Trang 5

Tóm t≠t lu™n v´n

Lu™n v´n này trình bày mÎt ph˜Ïng án sinh £nh bi∫u th˘c toán hÂc d¸a trên t™p d¸ liªu˜Òc cung cßp sÆn NhÌ vào ph˜Ïng án này k∏t hÒp hª thËng nh™n d§ng và phân tíchcßu trúc, t¯ mÎt £nh bi∫u th˘c có th∫ sinh ra ˜Òc chuÈi LATEX Lu™n v´n này bao gÁm 5ch˜Ïng:

Ch˜Ïng 1 giÓi thiªu ∑ tài cÙng nh˜ l˛ do l¸a chÂn ∑ tài, giÓi h§n ∑ tài và quá trìnhth¸c hiªn ∫ hoàn thành lu™n v´n.

Ch˜Ïng 2 trình bày các công trình liên quan mà nhóm tham kh£o chính ∫ ‡nh h˜Ónggi£i quy∏t ∑ tài – ây s≥ ∑ c™p i∫m m§nh cıa các ph˜Ïng pháp- là nh˙ng cái xem xét

Và cuËi cùng là lÌi k∏t.

Trang 6

Thesis outline

In this thesis, we propose an approach for generating Math Expression (ME) images fromthe CROHME dataset Our approach employs two methods The first method transformsoriginal ME images which belong to the CROHME dataset by geometric transformations.The second generates new ME images based on the dictionary of character patterns col-lected from the CROHME dataset The generated ME images follow rules of math form.Based on the combination of both two methods, we introduce a much larger dataset forhandwritten math expression recognition problem compared to original CROHME one.That is the main contribution of this paper To evaluate, we employ a sequential systemcontaining a module for object detection- Single Shot MultiBox Detector (SSD)- and amodule for parsing SSD’s outcome into LATEX string- DRACULAE and focus on improv-ing the detector We trained and evaluated the system on CROHME 2013 training setcombined with and without our own generated dataset to point out the impact of ourgenerative approach The experimental results indicate that the detector achieves 52.57%

on mAP instead of 36.98%if we do not use added dataset.

The outline of this thesis is organized as follows: Section I introduces the topic, thereason why I chose it and scope limitation Section II listed related works and discussedin detail Section II describes our employed system for HME recognition in general andillustrates how we generate new HME images from available CROHME training set SectionIV presents and discusses our experimental results based on the models trained on thedifferent training sets to find out the contribution of each data augmentation approach.Finally, we concludes the paper in Section V.

Trang 7

LÌi cam oan

Lu™n v´n cıa nhóm có tham kh£o các tài liªu t¯ nhi∑u nguÁn khác nhau và các nguÁntham kh£o này ∑u ˜Òc trích d®n rõ ràng trong ph¶n tài liªu tham kh£o Ngoài nh˙ngph¶n ˜Òc trích d®n, tôi xin cam oan toàn bÎ nÎi dung báo cáo là do tôi t¸ so§n th£od¸a trên nh˙ng tìm hi∫u và k∏t qu£ th¸c t∏ do nhóm t§o ra.

Tôi s≥ hoàn toàn ch‡u x˚ l˛ theo quy ‡nh n∏u có bßt k˝ sai ph§m nào x£y ra liên quan∏n nh˙ng gì tôi ã cam oan.

HÁ Chí Minh, ngày 11 tháng 07 n´m 2021Ng˜Ìi cam oan

Bùi Khánh NgÂc

Trang 8

2 Công trình tham kh£o 7

2.1 Watch, Attend and Parse: An End-to-end Neural Network BasedApproach to Handwritten Mathematical Expression Recognition[1] 82.2 Multi-Scale Attention with Dense Encoder for Handwritten Mathe-matical Expression Recognition[2] 9

2.3 Handwritten mathematical expression recognition using convolutionalneural network[3] 10

2.4 Training an end-to-end system for handwritten mathematical sion recognition by generated patterns[4] 11

expres-Ch˜Ïng 3 Mô hình ∑ xußt 141 TÍng quan hª thËng 14

2 Chi∏n l˜Òc sinh d˙ liªu 15

2.1 Chi∏n l˜Òc 1: Bi∏n Íi hình hÂc 16

2.2 Chi∏n l˜Òc 2: Sinh mÓi công th˘c 17

Ch˜Ïng 4 Hiªn th¸c, ánh giá 221 Chu©n b‡ d˙ liªu 22

Trang 9

2 H˜Óng phát tri∫n t˜Ïng lai 31Danh mˆc các công trình ã công bË 32

Trang 10

Attend and Parser 9

2 Hình minh ho§ tÍng quát ki∏n trúc encoder cıa ph˜Ïng pháp Multi-ScaleAttention Nhánh A s≥ t§o ra các ∞c tr˜ng toàn cˆc và nhánh B s≥ ónggóp các ∞c tr˜ng cˆc bÎ cho quá trình decode 10

3 TÍng quan hª thËng s˚ dˆng SSD ∫ phát hiªn và nh™n d§ng k˛ t¸, ULAE phân tích cßu trúc ng˙ pháp và t§o cây bi∫u th˘c 11

DRAC-4 Qui trình bi∏n Íi £nh bi∫u th˘c toán hÂc b¨ng các phép bi∏n Íi hình hÂc 125 K∏t qu£ t¯ ch˜Ïng trình demo cıa hª thËng Énh bên trái là input, £nh bênph£i là k∏t qu£ tr¸c quan output cıa SSD và chuÈi LATEX trên £nh này làk∏t qu£ cıa bÎ parser 14

6 Các m®u bi∏n Íi d¸a trên chi∏n l˜Òc bi∏n Íi hình hÂc áp dˆng cho 1 £nhnguÁn.Kích th˜Óc £nh bi∏n Íi ˜Òc gi˙ nguyên, không s˚ dˆng các biªnpháp co kéo ∫ t§o £nh 17

7 M®u d˙ liªu ˜Òc sinh bi chi∏n l˜Òc 2 20

8 Kh£ n´ng sinh cıa chi∏n l˜Òc 2 trên các d§ng bi∫u th˘c ch˘a dßu c´n, tíchphân, tÍng, luˇ th¯a 21

9 TÍng quan phân phËi d˙ liªu theo class cıa D1 và D2 23

10 Ph¶n tr´m gia t´ng d˙ liªu theo t¯ng class trong s¸ so sánh D2, D3 vÓi D1 2411 mAP trên test set cıa m§ng SDD ˜Òc hÂc riêng biªt trên các bÎ d˙ liªuhußn luyªn 25

12 Confustion matrix cıa M3 trên mÎt sË class §i diªn 26

13 TP, FP và AP score cıa "u" theo 3 mô hình 27

14 TP, FP và AP score cıa " " theo 3 mô hình 27

15 M3 phân lo§i sai "8" 28

16 Các cßp Î lÈi khác nhau: k∏t qu£ ¶u tiên nh™n diªn trùng khÓp hoàn toànvÓi input Ti∏p theo, M3 m≠c lÈi khi phân lo§i "|" thành "1" trong khi ãcó 2 lÈi x£y ra là deletion bi b‰ sót mÎt "v" và substitution bi nh™n nh¶mthành "w" thay vì "v" trong £nh cuËi 29

17 K∏t qu£ d¸ oán úng hoàn toàn cıa hª thËng trên các ví dˆ có chi∑u dàithay Íi t¯ 3 ∏n 24 Prediction là k∏t qu£ render t¯ chuÈi LATEX có ˜Òct¯ hª thËng 29

18 K∏t qu£ d¸ oán vÓi 1 lÈi sai cıa hª thËng Khung màu ‰ bao lßy nh˙ngk˛ t¸ b‡ d¸ oán sai so vÓi £nh ¶u vào 30

Trang 11

2000 và các ph˜Ïng pháp ˜Òc s˚ dˆng 6

2 MÎt sË công trình tiêu bi∫u v∑ nh™n d§ng biªu th˘c toán hÂc và các ph˜Ïngpháp ˜Òc s˚ dˆng ˜Òc ghi nh™n bi tÍ ch˘c CROHME trong giai o§n2013-2016 [5][6][7] 6

3 Công th˘c bi∏n Íi cˆc bÎ 12

4 Thông tin mô t£ các bÎ d˙ liªu con gÂp thành bÎ CROHME 2013 22

5 Thông tin mô t£ các t™p d˙ liªu training và testing 23

6 101 nhãn d˙ liªu ˜Òc chia thành 5 nhóm 25

7 Nh˙ng symbol class có phát hiªn ˜Òc nh˜ng nh™n diªn sai hoàn toàn vàkhông th∫ phát hiªn ˜Òc bi M1, M2 và M3 28

Trang 12

Ch˜Ïng 1GiÓi thiªu

Khoa hÂc công nghª phát tri∫n làm thay Íi thói quen làm viªc cıa con ng˜Ìi bi l≥ conng˜Ìi ngày càng có nhu c¶u tìm ki∏m s¸ hÈ trÒ t¯ các thi∏t b‡ công nghª và h§n ch∏ dùngs˘c l¸c cıa chính mình Và ∞c biªt hÏn trong k nguyên chuy∫n Íi sË, ng˜Ìi ta "sË hoá"tßt c£ nh˙ng gì mà nghæ là có th∫ "sË hoá" ˜Òc Chuy∫n Íi sË trong cách bán hàng,chuy∫n Íi sË trong giáo dˆc và trong qu£n l˛ nhà n˜Óc, là nh˙ng ví dˆ Không n¨mngoài xu h˜Óng ó, viªc "sË hoá" gißy tÌ, các v´n b£n hành chính, giáo dˆc, các hoá Ïn, là c¶n thi∏t và ang ˜Òc thúc ©y m§nh Bi vì sao? Th¸c t∏ chúng ta ã thßy và hi∫u rßtrõ v∑ nh˙ng m∞t h§n ch∏ cıa các v´n b£n truy∑n thËng Chúng khó ∫ l˜u tr˙ theo n´mtháng khi mà các y∏u tË thÌi ti∏t theo thÌi gian s≥ làm nÎi dung cıa các v´n b£n này mÌho∞c mßt i, ch˜a k∫ ∏n lÙ lˆt, ho£ ho§n Ngoài ra vßn ∑ không gian l˜u tr˙ cÙng là y∏utË áng suy nghæ Chúng ta ã không còn xa l§ vÓi nh˙ng phòng v´n th˜, kho v´n th˜, t§imÈi Ïn v‡, cÏ quan- nÏi chßt ¶y nh˙ng gißy tÌ, th™m chí ã có nh˙ng cái mˆc nát NhÌvào nh˙ng ph˜Ïng pháp giúp chuy∫n v´n b£n t¯ d§ng truy∑n thËng sang b£n iªn t˚ cóth∫ l˜u tr˙ ˜Òc trên máy tính, hay các d‡ch vˆ l˜u tr˙ cıa Google, Microsoft, - cái màdπ dàng tìm ki∏m, truy vßn, mang i, chia s¥, nhân b£n- mà nh˙ng h§n ch∏ này s≥ khôngcòn n˙a Chúng ta còn mÎt l˜Òng lÓn v´n b£n nh˜ v™y c¶n ˜Òc sË hoá Và vßn ∑ ó hiªnnay rßt sôi nÍi, ˜Òc nhi∑u tr˜Ìng §i hÂc tham gia nghiên c˘u và óng góp gi£i pháp Bivì ây th¸c s¸ là mÎt nhu c¶u cıa xã hÎi và t¯ góc nhìn cıa nh˙ng ng˜Ìi làm viªc v∑ khoahÂc máy tính thì chúng ta có th∫ t§o ra ˜Òc gi£i pháp h˙u hiªu V™y t§i sao không th˚.

Cách riêng cho lænh v¸c toán hÂc, viªc giúp máy tính nh™n d§ng ˜Òc các công th˘c,bi∫u th˘c toán hÂc t¯ v´n b£n có th∫ t§o ra các ˘ng dˆng thi∏t th¸c sau ó, ví dˆ nh˜:h˜Óng d®n và gi£i các công th˘c l˜Òng giác, tr¸c quan hoá các hàm sË ph˘c t§p, tìm i∫mc¸c tr‡, chø b¨ng viªc Ïn gi£n là scan bi∫u th˘c toán hÂc b¨ng chi∏c iªn tho§i chØngh§n Nh˙ng ˘ng dˆng này giúp ích cho viªc gi£ng d§y cıa giáo viên ˜Òc sinh Îng và hiªuqu£ hÏn cÙng nh˜ giúp hÂc sinh có th∫ t¸ hÂc dπ dàng ch˘ không Ïn thu¶n là chuy∫n v´nb£n gißy sang iªn t˚ chø ∫ kh≠c phˆc nh˙ng h§n ch∏ cıa v´n b£n gißy.

Bi s¸ c¶n thi∏t v∑ mÎt gi£i pháp sË hoá nói chung và Âc hi∫u bi∫u th˘c toán hÂc t¯ £nhnói riêng ã trình bày  mˆc 1 là l˛ do tr¸c ti∏p thúc ©y tôi th¸c hiªn ∑ tài này Tôimong r¨ng b£n thân mình có th∫ óng góp ˜Òc gi£i pháp h˙u ích cho nhu c¶u cıa xã hÎivà t¸ th˚ thách b£n thân mình vÓi nh˙ng thách th˘c cıa bài toán nh™n d§ng bi∫u th˘ctoán hÂc vi∏t tay này Nh˙ng thách th˘c có th∫ k∫ ∏n nh˜:

• Làm sao có th∫ nh™n d§ng ˜Òc các k˛ hiªu?• Làm cách nào ∫ nh™n d§ng c£ mÎt bi∫u th˘c?

Trang 13

• Làm sao bi∏t ˜Òc ây là lo§i bi∫u th˘c gì, bi∫u th˘c l˜Òng giác hay luˇ th¯a, ?• Liªu có ch≠c ch≠n bßt k˝ nh˙ng gì mình vi∏t ra ∑u ˜Òc hi∫u úng?

• Khi mà mÈi ng˜Ìi có mÈi phong cách vi∏t cÎng vÓi hàng tr´m k˛ t¸ toán hÂc thì bàitoán Âc hi∫u này còn kh£ thi?

• Énh dùng ∫ nh™n dàng chø ch˘a bi∫u th˘c n¨m trên mÎt hàng.

• Bi∫u th˘c trong £nh nh™n diªn không b‡ xoay quá nhi∑u so vÓi ˜Ìng n¨m ngangcıa £nh.

• Chuy∫n bi∫u th˘c t¯ d§ng hình £nh sang d§ng máy có th∫ hi∫u ˜Òc (LATEX).Tuy nhiên, nh™n th˘c ˜Òc khó kh´n cıa các nhóm nghiên c˘u khi th¸c hiªn ∑ tài này óchính là không có t™p d˙ liªu ho∞c t™p d˙ liªu không ı lÓn ∫ hußn luyªn các m§ng ph˘ct§p nên ∑ tài này t™p trung xoáy sâu vào vßn ∑ làm giàu d˙ liªu cho bài toán Âc hi∫ubi∫u th˘c toán hÂc vi∏t tay và ∑ xußt mÎt ph˜Ïng pháp ∫ có th∫ ánh giá ˜Òc m˘c Îhiªu qu£ cıa các ph˜Ïng pháp làm giàu d˙ liªu mà ∑ tài này giÓi thiªu.

1Nh™n d§ng t¯ £nh ch˘a bi∫u th˘c toán hÂc.

2Nh™n d§ng tr¸c ti∏p t¯ các nét v≥ liên tˆc trên các thi∏t b‡ có hÈ trÒ vi∏t.

Trang 14

– Hi∫u ˜Òc ph˜Ïng pháp mà các nhóm tác gi£ s˚ dˆng ∫ th¸c hiªn công trìnhcıa hÂ.

– GiÓi h§n sË bài tham kh£o và chÂn lÂc ˜Òc nh˙ng bài có giá tr‡ nhßt.

– Tìm ra i∫m m§nh và iêm y∏u cıa các ph˜Ïng pháp, t¯ ó ‡nh h˜Óng gi£iquy∏t ∑ tài.

• Công viªc:

– Âc kˇ l§i bài báo ã chÂn.

– Tìm hi∫u nh˙ng ki∏n th˘c ˜Òc giÓi thiªu trong bài báo  m˘c Î có th∫ v™ndˆng ˜Òc.

– So sánh, ánh giá gi˙a nh˙ng bài liên quan Trao Íi vÓi gi£ng viên h˜Óng d®n∫ xác ‡nh mˆc tiêu và ph˜Ïng cách gi£i quy∏t cıa ∑ tài.

B˜Óc 3: ∑ xußt ph˜Ïng pháp.• Mˆc tiêu:

– Quy∏t ‡nh ph˜Ïng pháp gi£i quy∏t ∑ tài.• Công viªc:

Trang 15

– Có k∏t qu£ ánh giá và i∑u chønh ph˜Ïng pháp sao cho phù hÒp.• Công viªc:

– Hoàn thiªn luÁng th¸c hiªn t¯ hußn luyªn ∏n ki∫m th˚.

– ánh giá Î chính xác d¸a trên t™p d˙ liªu ã có sÆn và t™p d˙ liªu ˜Òc sinhra bi các ph˜Ïng pháp ∑ tài ∑ xußt.

– K∏t lu™n v∑ óng góp cıa ph˜Ïng pháp ∑ xußt.

Trang 16

Ch˜Ïng 2Công trình liên quan

Là mÎt ph¶n quan trÂng cıa hª thËng Nh™n d§ng k˛ t¸ thuÎc th‡ giác3, nh™n d§ngbi∫u th˘c toán hÂc4 ã ˜Òc nghiên c˘u trong hÏn n˚a th∏ k qua ã có rßt nhi∑ucông trình tiêu bi∫u gi£i quy∏t nh˙ng vßn ∑ xung quanh ∑ tài này Trong ch˜Ïng này,tôi s≥ trình bày tóm l˜Òc v∑ các ph˜Ïng pháp ã ˜Òc s˚ dˆng ∫ gi£i quy∏t bài toán vàs¸ thay Íi trong cách ti∏p c™n vßn ∑ cıa các tác gi£ qua thÌi gian t¯ tr˜Óc nh˙ng n´m2000 ∏n bây giÌ Và s≥ i vào chi ti∏t cıa 4 công trình cˆ th∫- là nh˙ng i∫m tham kh£ocho hª thËng nh™n d§ng bi∫u th˘c toán hÂc mà nhóm s≥ hiªn th¸c sau này.

Nh™n d§ng bi∫u th˘c toán hÂc bao gÁm 2 vßn ∑ chính: nh™n d§ng k˛ t¸5 và phân tíchcßu trúc6 Hai vßn ∑ này có th∫ ˜Òc x˚ l˛ tu¶n t¸ ho∞c k∏t hÒp Ëi vÓi h˜Óng ti∏pc™n tu¶n t¸, ¶u tiên phân tách7 £nh ch˘a bi∫u th˘c toán hÂc thành nh˙ng m£nh £nh chøch˘a các k˛ t¸ và nh™n d§ng chúng Sau ó phân tích cßu trúc 2 chi∑u cıa bi∫u th˘c toánhÂc d¸a trên k∏t qu£ phân tách và nh™n d§ng k˛ t¸  b˜Óc tr˜Óc ó Khác vÓi ph˜Ïngpháp x˚ l˛ tu¶n t¸, x˚ l˛ k∏t hÒp mong muËn th¸c hiªn 2 quá trình nh™n d§ng k˛ t¸ vàphân tích cßu trúc mÎt cách Áng thÌi ∫ h§n ch∏ lÈi tích luˇ qua các b˜Óc trung gian.Quan tâm ∏n cách gi£i quy∏t vßn ∑ nh™n d§ng bi∫u th˘c toán hÂc theo h˜Óng tu¶n t¸,b£ng bên d˜Ói liªt kê mÎt sË công trình cıa các tác gi£ và chø ra ph˜Ïng pháp h s˚ dˆngcho t¯ng giai o§n cˆ th∫ ThËng kê này ˜Òc rút trích t¯ [8] Các tác gi£ s˚ dˆng nhi∑umô hình khác nhau cho phân tách k˛ t¸ và nh™n d§ng chúng Liên quan ∏n phân tích cúpháp, mÎt sË nghiên c˘u s˚ dˆng cây và Á th‡ k∏t hÒp các lu™t sinh c£m tính8 trong khimÎt sË khác ti∏p c™n d¸a trên ng˙ pháp9 MÎt cách tÍng quát, chúng ta có hai ph˜Ïngpháp nÍi trÎi ∫ phân tích cú pháp trong thÌi k˝ là tree-based và grammar-based.

3Thu™t ng˙ ti∏ng Anh: Optical Character Recognition, vi∏t t≠t OCR.

4Thu™t ng˙ ti∏ng Anh: Mathematical Expression, vi∏t t≠t ME.

5Thu™t ng˙ ti∏ng Anh: Symbol recognition.

6Thu™t ng˙ ti∏ng Anh: Structural analysis.

7Thu™t ng˙ ti∏ng Anh: Segmentation

8Thu™t ng˙ ti∏ng Anh: heuristic rule

9Thu™t ng˙ ti∏ng Anh: formal grammar

Trang 17

Tác gi£ Nh™n d§ng k˛ t¸ Phân tích cßu trúcP.A.Chou Template matching Stochastic context-

free grammarM.Okamoto Recursive projection

và Template matching

Tree-based:xây d¸ng cây quan hªJ.Ha X-Y cut và m§ng nÏ-ron Tree-based:

xây d¸ng cây bi∫u th˘cR.J.Fateman Template matching d¸a trên

kho£ng cách Hausdorff Recursive descent parserH.-J.Lee và J.-S.Wang Kˇ thu™t rút trích ∞c tr˜ng

và gi£i thu™t nearest-neighborhood Expression Tree

B£ng 1: MÎt sË công trình tiêu bi∫u v∑ nh™n d§ng biªu th˘c toán hÂc tr˜Óc n´m 2000 và cácph˜Ïng pháp ˜Òc s˚ dˆng.

Trong vòng 10 n´m tr l§i ây, mÎt cuÎc thi khá nÍi ti∏ng v∑ lænh v¸c nh™n d§ng bi∫uth˘c toán hÂc vi∏t tay ˜Òc tÍ ch˘c th˜Ìng niên và thu hút nhi∑u nhóm nghiên c˘u cıacác tr˜Ìng §i hÂc tham gia ó chính là CROHME[9] D¸a trên t™p d˙ liªu ˜Òc cung cßpsÆn, các Îi thi s≥ cË g≠ng tËi ˜u gi£i pháp cıa mình ∫ §t ˜Òc k∏t qu£ cao nhßt trênt™p private test K∏t qu£ s≥ ˜Òc ánh giá d¸a trên kh£ n´ng nh™n d§ng úng hoàn toàn˜Òc bao nhiêu bi∫u th˘c cıa mÈi hª thËng B£ng bên d˜Ói liªt kê nh˙ng ph˜Ïng pháp ã˜Òc các Îi d¸ thi s˚ dˆng CÎt cách th˘c x˚ l˛ chø ra cách các Îi thi ã s˚ ˆng ∫ tËi˜u hai quá trình lÓn cıa bài toán nh™n d§ng bi∫u th˘c toán hÂc vi∏t tay là nh™n d§ng k˛t¸ và phân tích cßu trúc CÎt ph˜Ïng pháp chø là nh˙ng ph˜Ïng pháp ã ˜Òc s˚ dˆngcho hai quá trình này và ˜Òc phân tách nhau bi dßu "-".

Tác gi£ Cách th˘c

x˚ l˛ Ph˜Ïng phápCzech Tech.

LSTM-Univ K∏t hÒp

Template-based recursively extracting baselinesValencia

classifier-Univ K∏t hÒp

RNN-2D context-free grammarsRIT Tu¶n t¸ Adaboost+SVM-

Minimum spanning treeMy Script K∏t hÒp RNN-

statiscal language model.

B£ng 2: MÎt sË công trình tiêu bi∫u v∑ nh™n d§ng biªu th˘c toán hÂc và các ph˜Ïng pháp ˜Òcs˚ dˆng ˜Òc ghi nh™n bi tÍ ch˘c CROHME trong giai o§n 2013-2016 [5][6][7].

Trang 18

Rõ ràng trong giai o§n này, ã xußt hiªn nhi∑u công trình hÏn chÂn cách x˚ l˛ k∏thÒp nh¨m mˆc tiêu tËi ˜u Áng thÌi hai qúa trình nh™n d§ng k˛ t¸ và phân tích cßu trúc.Các ki∏n trúc m§ng phù hÒp vÓi ki∫u d˙ liªu d§ng chuÈi nh˜ LTSM, RNN cÙng ˜Òc chútrÂng s˚ dˆng.

Và 3 n´m g¶n ây, nh˙ng công trình mÓi ˜Òc công bË trên lænh v¸c này ∑u t™p trungvào ph˜Ïng pháp x˚ l˛ Áng thÌi quá trình nh™n d§ng k˛ t¸ và phân tích cßu trúc MÎtcách x˚ l˛ end-to-end t¯ input tÓi output ang là xu h˜Óng Có th∫ k∫ ∏n hai công trìnhcıa nhóm tác gi£ Zhang và các cÎng s¸ là [1] và [2] Nhóm tác gi£ ã s˚ dˆng ki∏n trúcCNN nh˜ mÎt bÎ trích ∞c tr˜ng cho £nh bi∫u th˘c ¶u vào và GRU nh˜ bÎ phân tíchcú pháp ∫ t¯ ∞c tr˜ng là k∏t qu£ cıa b˜Óc tr˜Óc cho ra chuÈi LATEXt˜Ïng ˘ng vÓi bi∫uth˘c toán hÂc trong £nh ¶u vào Áng thÌi s˚ dˆng cÏ ch∏ attention ∫ tËi ˜u kh£ n´nghÂc cıa hª thËng.

MÎt i∑u nh™n thßy r¨ng, ã có rßt nhi∑u công trình ra Ìi trên lænh v¸c này và i∑ucác tác gi£ t™p trung h˜Óng ∏n ó là làm sao ∫ t§o ra mÎt hª thËng tËi ˜u mà rßt ítcông trình ∑ c™p ∏n viªc làm giàu bÎ d˙ liªu cıa bài toán t¯ mÎt trong sË nh˙ng bÎ d˙liªu nÍi ti∏ng cho lænh v¸c này ˜Òc chính cuÎc thi CROHME cung cßp hay cách t§o ramÎt bÎ d˙ liªu t˜Ïng t¸ Vßn ∑ thi∏u d˙ liªu hay d˙ liªu không ˜Òc a d§ng t§o nênmÎt thách th˘c cho quá trình hußn luyªn m§ng MÎt minh ch˘ng rõ ràng nhßt cho chínhbài toán Âc hi∫u bi∫u th˘c toán hÂc vi∏t tay này ó là cho dù ã có rßt nhi∑u công trình˜Òc công bË vÓi nh˙ng k∏t qu£ rßt kh£ quan thì My Script- mÎt Îi d¸ thi cıa cuÎc thiCROHME nhi∑u n´m- v®n ang là state-of-the-art H b‰ xa các Îi còn l§i cıa cuÎc thivà cÙng t§o cách biªt khá lÓn Ëi vÓi nh˙ng công trình nghiên c˘u g¶n ây mà có ánhgiá trên t™p private test cıa CROHME MÎt trong nh˙ng l˛ do quan trÂng ó chính làviªc h ã s˚ dˆng mÎt bÎ d˙ liªu lên ∏n 30000 m®u thay vì con sË chø 8836 £nh do bantÍ ch˘c cung cßp [5] T™p d˙ liªu ó t§o nên i∑u khác biªt N´m 2017, nhóm tác gi£ [4]ã công bË mÎt gi£i pháp cıa h giúp làm giàu cho bÎ d˙ liªu CROHME và h cÙng ãch˘ng minh ˜Òc nó hiªu qu£.

TÍng k∏t l§i, chúng ta thßy ˜Òc xu h˜Óng gi£i quy∏t ∑ tài này có s¸ chuy∫n d‡ch theothÌi gian T¯ nh˙ng ngày ¶u ph˜Ïng th˘c x˚ l˛ tu¶n t¸, tách biªt 2 quá trình nh™n d§ngk˛ t¸ và phân tích cßu trúc ˜Òc s˚ dˆng triªt ∫ thì d¶n d¶n v∑ sau ˜Òc thay d¶n bicác cách x˚ l˛ k∏t hÒp B£ng 1 và B£ng 2 cho chúng ta thßy i∑u ó Và bây giÌ khi ngoàiki∏n trúc m§ng ra, ng˜Ìi ta ti∏p tˆc tßn công vào d˙ liªu ây cÙng là h˜Óng ti∏p c™n mànhóm h˜Óng tÓi.

D˜Ói ây là nh˙ng công trình mà nhóm tham kh£o tr¸c ti∏p ∫ hoàn thành lu™n v´n cıamình Hai công trình ¶u thiên v∑ tËi ˜u ki∏n trúc m§ng ∫ tËi ˜u hiªu qu£ và là state-of-the-art t§i thÌi i∫m ˜Òc công bË n∏u không so vÓi My Script ã ∑ c™p  trên Côngtrình th˘ ba cıa nhóm tác gi£ trong n˜Óc cÙng liên quan ∏n ki∏n trúc m§ng nh˜ng s˚dˆng d˜Ói h˜Óng ti∏p c™n tu¶n t¸ Công trình cuËi t™p trung gi£i quy∏t bài toán làm giàud˙ liªu cho ∑ tài này.

Trang 19

2.1 Watch, Attend and Parse: An End-to-end Neural Network Based proach to Handwritten Mathematical Expression Recognition[1]

Ap-Nhóm tác gi£ Zhang và các cÎng s¸ ã giÓi thiªu mÎt hª thËng ¶y h˘a hµn ∫ gi£i quy∏tvßn ∑ Âc bi∫u th˘c toàn hÂc vi∏t tay t¯ £nh Công trình cıa h ˜Òc ∞t tên là Watch,Attend and Parser vÓi cách vi∏t ng≠n gÂn hÏn là WAP Mô hình cıa h s≥ hÂc ∫ "Watch"mÎt bi∫u th˘c toán hÂc t¯ £nh và "Parse" ra chuÈi LATEXt˜Ïng ˘ng Cˆ th∫, hª thËng cıanhóm tác gi£ bao gÁm 2 ph¶n chính là Watcher- ho§t Îng nh˜ mÎt encoder ∫ rút trích∞c tr˜ng t¯ £nh bi∫u th˘c ¶u vào và Parser- ho§t Îng nh˜ bÎ decoder nh™n ∞c tr˜ngt¯ encoder và gi£i mã cho ra chuÈi LATEXt˜Ïng ˘ng vÓi bi∫u th˘c toán hÂc trong £nh ¶uvào Ngoài ra ∫ t´ng c˜Ìng kh£ n´ng hÂc cıa decoder, nhóm tác gi£ cho k∏t hÒp decodervÓi cÏ ch∏ Attention[10] ∫ xác ‡nh âu là vùng £nh decoder nên t™p trung vào và chuy∫nthành mÎt k˛ t¸ hay mÎt quan hª (luˇ th¯a hay dßu ngo∞c c¶n thi∏t cú pháp cıa LATEX, )phù hÒp thay vì i decode toàn bÎ ∞c tr˜ng cıa £nh Nh˜ v™y Attention óng vai tròtrong viªc tËi ˜u kh£ n´ng "segment" vùng £nh Chi ti∏t cıa Watcher và Parser nh˜ bênd˜Ói:

• Watcher th¸c chßt là mÎt m§ng nÏ-ron tích ch™p ¶y ı-FCN[11]- vÓi chø gÁm cáclÓp tích ch™p và pooling Watcher nh™n input là mÎt bÎ gÁm 9 £nh bao gÁm 1 £nhnh‡ phân cıa bi∫u th˘c và £nh 8 h˜Óng cıa £nh này ¶u ra cıa Watcher là nh˙ngvector ∞c tr˜ng t˜Ïng ˘ng vÓi t¯ng pixel trong £nh.

• Parser là ki∏n trúc m§ng GRU[12], nh™n k∏t qu£ tr£ ra cıa Watcher nh˜ input, k∏thÒp vÓi cÏ ch∏ attention ∫ sinh ra chuÈi LATEX Cˆ th∫, cÏ ch∏ attention giúp Parserxác ‡nh úng vùng £nh ∫ tính toán cho ra k˛ t¸ Latex qua t¯ng vòng l∞p.

D˜Ói ây là mô hình tr¸c quan cıa ph˜Ïng pháp này.

Trang 20

Hình 1: Hình minh ho§ tÍng quát các b˜Óc th¸c hiªn cıa ph˜Ïng pháp Watch, Attend and Parser.2.2 Multi-Scale Attention with Dense Encoder for Handwritten Mathematical

Expression Recognition[2]

∫ kh≠c phˆc giÓi h§n cıa công trình [1] trên vßn ∑ phát hiªn và nh™n diªn cái Ëi t˜Òngcó kích th˜Óc nh‰ trong £nh ch˘a bi∫u th˘c toán hÂc nh˜ dßu chßm, dßu ph©y, nhóm tácgi£ ã t§o ra 2 s¸ thay Íi trên encoder và decoder VÓi encoder, h s˚ dˆng DenseNet[13]thay vì CNN DenseNet ˜Òc cho là ki∏n trúc m§ng rßt m§nh trong vßn ∑ trích ∞c tr˜ngvà các bài toán phân lo§i Ngoài ra, thay vì single-scale attention h hiªn th¸c multi-scaleattetion Viªc này giúp ích trong viªc phát hiªn các k˛ t¸ nh‰ LÓp pooling là c¶n thi∏tcho quá trình hußn luyªn, nó giúp m§ng kháng ˜Òc các phép xoay £nh, tuy nhiên ÁngthÌi nó cÙng làm gi£m i kích th˜Óc các feature map d®n tÓi viªc gi£m resolution Hay nóicách khác càng v∑ các lÓp cuËi, nh˙ng ∞c tr˜ng cıa các k˛ t¸ nh‰ càng b‡ mßt i trongkhi  nh˙ng lÓp ¶u thì m§ng l§i không hÂc ˜Òc nh˙ng ∞c tr˜ng nh‰ i∑u này d®n ∏nviªc hª thËng b‰ qua hay b‡ nhÔ trong viªc phát hiªn các Ëi t˜Òng có kích th˜Óc nh‰ vành‰ hÏn rßt nhi∑u so vÓi các k˛ t¸ bên c§nh ∫ làm ˜Òc i∑u này, nhóm tác gi£ ∫ xußtmulti-scale encoder vÓi ki∏n trúc nh˜ Hình 2 VÓi multi-scale encoder, hª thËng cung cßp˜Òc c£ ∞c tr˜ng low-resolution và high-resolution ∞c tr˜ng low-resolutin hay còn gÂilà ∞c tr˜ng toàn cˆc s≥ mang nhi∑u ˛ nghæa khi trích ∞c tr˜ng t¯ vùng ti∏p nh™n10 lÓntrong khi ∞c tr˜ng high-resolution hay còn gÂi là ∞c tr˜ng cˆc bÎ s≥ gi˙ l§i thông tincıa các k˛ t¸ nh‰ Nh˜ v™y ∞c tr˜ng ˜Òc qua decoder s≥ là s¸ k∏t hÒp cıa ∞c tr˜ng

10Thuât ng˙ ti∏ng Anh: receptive field

Trang 21

toàn cˆc và ∞c tr˜ng cˆc bÎ.

Hình 2: Hình minh ho§ tÍng quát ki∏n trúc encoder cıa ph˜Ïng pháp Multi-Scale Attention.Nhánh A s≥ t§o ra các ∞c tr˜ng toàn cˆc và nhánh B s≥ óng góp các ∞c tr˜ng cˆc bÎ cho quátrình decode.

2.3 Handwritten mathematical expression recognition using convolutional ral network[3]

neu-Khác vÓi 2 công trình ã ∑ c™p  trên, công trình [3] x˚ l˛ tu¶n t¸ hai quá trình nh™nd§ng k˛ t¸ và phân tích cßu trúc ∫ nh™n d§ng k˛ t¸, nhóm tác gi£ s˚ dˆng m§ng SSD[14]k∏t hÒp mÎt sË thay Íi trên ki∏n trúc m§ng ∫ gia t´ng sË default box vÓi mˆc ích gi£mthi∫u kh£ n´ng b‰ sót k˛ t¸ trong quá trình phát hiªn K∏t qu£ cıa quá trình nh™n d§ngnày ˜Òc dùng nh˜ input cıa bÎ parser DRACULAE[15] ∫ xây d¸ng cây bi∫u th˘c phùhÒp T¯ ó làm cÏ s cho quá trình render t§o chuÈi LATEX ◊u i∫m cıa hª thËng này làhª thËng nhµ và không tËn quá nhi∑u thÌi gian ∫ hußn luyªn ã có th∫ cho ra k∏t qu£chßp nh™n Hình 3 là sÏ Á ho§t Îng cıa hª thËng.

Trang 22

Hình 3: TÍng quan hª thËng s˚ dˆng SSD ∫ phát hiªn và nh™n d§ng k˛ t¸, DRACULAE phântích cßu trúc ng˙ pháp và t§o cây bi∫u th˘c.

2.4 Training an end-to-end system for handwritten mathematical expressionrecognition by generated patterns[4]

– công bË này, nhóm tác gi£ t™p trung vào giÓi thiªu cách th˘c h làm mÓi d˙ liªu t¯t™p d˙ liªu sÆn có do tÍ ch˘c CROHME cung cßp V∑ ki∏n trúc h cÙng s˚ dˆng mô hìnhencode, decode k∏t hÒp attention Hª thËng cıa h không ph£i là hª thËng ho§t Îng hiªuqu£ nhßt trong vßn ∑ gi£i quy∏t bài toán nh™n d§ng bi∫u th˘c toán hÂc vi∏t tay t¯ £nhnh˜ng h cho thßy ˜Òc s¸ óng góp cıa t™p d˙ liªu m rÎng vào k∏t qu£ nh™n d§ng cuËicùng.

Nhóm tác gi£ ∑ xußt mÎt qui trình bi∏n Íi £nh bi∫u th˘c ¶u vào qua 2 bÎ ph™n˜Òc gÂi tên là local distortion và global distortion (bi∏n Íi cˆc bÎ và bi∏n Íi toàn cˆc).Th¸c chßt ây là nh˙ng phép bi∏n Íi hình hÂc ˜Òc áp dˆng trên các i∫m £nh Qui trìnhbi∏n Íi ˜Òc th∫ hiªn nh˜ trong Hình 4 Chi ti∏t công th˘c bi∏n Íi cˆc bÎ ˜Òc liªt kê B£ng 3.

D˜Ói ây là 2 công th˘c bi∏n Íi toàn cˆc: phép xoay (1) và phép scale (2)

x0 = x cos + y sin

y0 = y sin + x cos (1)(

x0 = kx

Trang 23

Tên Mô t£ Bi∏n Íi theo x Bi∏n Íi theo y

Sheer "a skew"

x0 = x + y tan ↵

y0 = y (3)

(x0 = x

y0 = y + x tan ↵ (4)

Shrink "becoming smaller"(

x0 = y(cos ↵ x sin ↵100 )y0 = y

x0 = x

y0 = x(cos ↵ y sin ↵100 )(6)

Perspective "a foreshortening"(

x0 = 23(x + 50 cos(4↵x 50100 ))y0 = 23y(cos ↵ y sin ↵100 )

x0 = 23x(cos ↵ x sin ↵100 )y0 = 23(y + 50 cos(4↵y 50100 ))

B£ng 3: Công th˘c bi∏n Íi cˆc bÎ.

Hình 4: Qui trình bi∏n Íi £nh bi∫u th˘c toán hÂc b¨ng các phép bi∏n Íi hình hÂc.MÈi £nh ¶u vào s≥ ˜Òc l¸a chÂn bi∏n Íi ng®u nhiên b¨ng mÎt mô hình bi∏n Íitrong nh˙ng ˜Òc liªt kê  Hình 4 K∏t qu£ ta thu ˜Òc ti∏p tˆc ˜Òc bi∏n Íi t´ng gi£mkích th˜Óc, xoay ∫ t§o ra £nh bi∏n Íi cuËi cùng Énh k∏t qu£ cıa quá trình ˜Òc s˚dˆng nh˜ mÎt m®u cıa t™p hußn luyªn.

Nhóm tác gi£ cÙng ã làm thí nghiªm ∫ ki∫m tra b¨ng th¸c nghiªm thì t¯ 1 £nh nguÁnnên sinh bao nhiêu £nh gËc là phù hÒp HÂ ã so sánh hiªu qu£ cıa hª thËng d¸a trên viªchußn luyªn trên bÎ £nh mà t¯ 1 £nh nguÁn sinh ra thêm 3 £nh bi∏n Íi và bÎ £nh ˜Òc

Trang 24

sinh ra thêm 5 £nh hußn luyªn t¯ 1 £nh ban ¶u cıa t™p hußn luyªn CROHME H k∏tlu™n r¨ng vÓi viªc sinh ra thêm 5 £nh, hª thËng cıa h s≥ th∫ hiªn Î chính xác tËt hÏn.

Trang 25

Ch˜Ïng 3Mô hình ∑ xußt

VÓi mˆc tiêu nhanh chóng t§o ra mÎt hª thËng có kh£ n´ng gi£i quy∏t bài toán mà v®nphù hÒp ∫ áp ˘ng cho viªc ánh giá hiªu qu£ cıa các ph˜Ïng pháp làm giàu d˙ liªu £nhbi∫u th˘c toán hÂc mà nhóm ∑ xußt, nhóm quy∏t ‡nh chÂn l¸a ki∏n trúc hª thËng nh˜công trình th˘ 3 ˜Òc ∑ c™p  mˆc công trình tham kh£o.

M§ng SSD £m nh™n nhiªm vˆ phát hiªn và phân lo§i Ëi t˜Òng mà cˆ th∫ là các k˛t¸ toán hÂc có trong £nh BÎ phân tích cú pháp DRACULAE chuy∫n toàn bÎ k∏t qu£nh™n d§ng t¯ SSD thành cây bi∫u th˘c t¯ ó t§o cÏ s cho viªc sinh chuÈi LATEX KhácvÓi các cách ti∏p c™n tu¶n t¸ khác thì vÓi viªc s˚ dˆng SSD, thông tin cßu trúc cıa bi∫uth˘c toán s≥ ˜Òc gi˙ l§i thông qua to§ Î các bounding box Hiªu qu£ cıa các chi∏n l˜Òcsinh d˙ liªu s≥ tác Îng lên kh£ n´ng hÂc cıa m§ng SSD fi t˜ng  ây là n∏u m§ng SSDhÂc tËt, gi£m Î lÈi trong b˜Óc nh™n d§ng thì Î lÈi cıa c£ quá trình s≥ ˜Òc gi£m xuËng,Áng thÌi t´ng kh£ n´ng sinh úng chuÈi LATEX cho toàn bÎ £nh bi∫u th˘c Hay nói cáchkhác, ∑ tài h˜Óng ∏n mˆc tiêu tËi ˜u bÎ nh™n d§ng s˚ dˆng SSD b¨ng cách biªn phápt´ng c˜Ìng d˙ liªu d¸a trên t™p d˙ liªu sÆn có là CROHME.

Hình 5: K∏t qu£ t¯ ch˜Ïng trình demo cıa hª thËng Énh bên trái là input, £nh bên ph£i là k∏tqu£ tr¸c quan output cıa SSD và chuÈi LATEX trên £nh này là k∏t qu£ cıa bÎ parser.

Tuy nhiên ∫ phù hÒp vÓi mˆc tiêu cıa nhóm cho ∑ tài này, hª thËng nh™n d§ng s≥có mÎt sË thay Íi so vÓi phiên b£n ˜Òc ∑ c™p  công trình tham kh£o 2.3:

• S˚ dˆng ki∏n trúc nguyên gËc cıa SSD trong [14] mà không thêm bßt k˝ thay Íi

Trang 26

• Thay vì chø 1 ng˜Ông non-maximizing suppression (nms), viªc s˚ dˆng nhi∑u ng˜Ôngcho nhi∑u nhóm Ëi t˜Òng khác nhau s≥ gi£m xác sußt b‰ sót Ëi t˜Òng và viªc t§ora quá nhi∑u d¸ oán d˜ th¯a Cˆ th∫ 1 ng˜Ông s≥ dùng cho nhóm các k˛ t¸ sin,

cos, tan,lim,log; 1 ng˜Ông cho k˛ hiªup

và 1 cho các k˛ t¸ khác MÎt cách dπ hìnhdung hÏn, ví dˆ model phát hiªn sin trong công th˘c sin x + cos x Áng thÌi c£ i.K˛ t¸ ikhông mong Òi s≥ dπ dàng b‡ lo§i b‰ t§i thÌi i∫m phát hiªn n∏u nms b¨ng0 Giá tr‡ 0 ˜Òc hi∫u là không cho phép bßt k˝ hai Ëi t˜Òng nào ˜Òc chÁng lßn11nhau Tuy nhiên không may m≠n là vÓi ng˜Ông c˘ng nh˜ v™y thì tßt c£ nh˙ng ph¶nt˚ bên d˜Ói dßu p

s≥ b‡ lo§i b‰ ó là l˛ do c¶n s˚ dˆng nhi∑u ng˜Ông nms thay vìchø 1.

Hình 5 minh ho§ luÁng x˚ l˛ cıa hª thËng t¯ lúc nh™n input tÓi k∏t qu£ phát hiªn và phânlo§i cıa SSD và k∏t qu£ LATEX cıa nó.

T™p d˙ liªu CROHME ˜Òc công bË  d§ng inkml- t˜Ïng t¸ ‡nh d§ng xml Trong óthông tin quan trÂng nhßt là các trace cıa k˛ t¸ và nhãn cıa nó MÈi trace s≥ là mÎt chuÈicác c∞p to§ Î (x, y) ˜Òc phân tách nhau bi dßu ph©y th∫ hiªn cho mÎt nét cßu thànhk˛ t¸ Nh˜ v™y thông tin to§ Î cıa mÎt k˛ t¸ s≥ bao gÁm nhi∑u trace t˜Ïng ˘ng vÓi cácnét v≥ t§o nên k˛ t¸ ó Và cuËi cùng nhi∑u k˛ t¸ s≥ t§o nên mÎt bi∫u th˘c Âc vào mÎtfile inkml chúng ta s≥ bi∏t ˜Òc bi∫u th˘c mà file này mô t£ là gì, các to§ Î ∫ cßu thànhnên t¯ng k˛ t¸ trong bi∫u th˘c Ngoài ra trong mÈi file còn có thông tin ng˜Ìi vi∏t, ngàyvi∏t, Chính viªc cung cßp d˙ liªu vÓi ‡nh d§ng nh˜ v™y là cÏ s ∫ nhóm nghæ tÓi cácph˜Ïng pháp bi∏n Íi d¸a trên to§ Î.

Không giËng nh˜ nh˙ng d˙ liªu hình £nh khác, £nh bi∫u th˘c toán hÂc có các ∞c tínhriêng mà do ó chúng ta không th∫ áp dˆng nh˙ng phép làm giàu thông th˜Ìng nh˜ flip,random crop.A sau khi ˜Òc flip bi x thì không còn là k˛ t¸ Anh˜ mÎt ví dˆ Thay vàoó chúng ta c¶n ‡nh nghæa nh˙ng phép bi∏n Íi d¸a trên to§ Î cıa k˛ t¸ ∫ sau khi bi∏nÍi chúng ta có th∫ thu ˜Òc nh˙ng k˛ t¸ v∑ ˛ nghæa v®n nh˜ cÙ nh˜ng  mÎt d§ng th∫hiªn khác Trong ng˙ c£nh này, các phép bi∏n Íi hình hÂc12 nh˜ phép xoay, phép scale,phép sheer, thì phù hÒp.

Th¸c t∏ mÈi ng˜Ìi trong chúng ta có nh˙ng cách vi∏t khác nhau cho cùng mÎt k˛ t¸hay cùng mÎt lo§i công th˘c Co ng˜Ìi vi∏t thØng hàng ngay ng≠n, t¯ng nét ch˙ cÙngthØng trong khi có nh˙ng ng˜Ìi có xu h˜Óng vi∏t ch˙ nghiêng và ôi khi xét nguyên c£bi∫u th˘c thì không n¨m úng ˜Ìng k¥ ô v Rõ ràng trong tình huËng ó thì phép xoaycó th∫ mô ph‰ng ˜Òc Hay nói cách khác, s˚ dˆng các phép bi∏n Íi hình hÂc là mÎt chi∏nl˜Òc hÒp l˛ ∫ m rÎng t™p d˙ liªu Mˆc 3.2.1 s≥ mô t£ chi ti∏t hÏn v∑ chi∏n l˜Òc này.

11Thuât ng˙ ti∏ng Anh: overlap

12Thu™t ng˙ ti∏ng Anh: geometric transform

Trang 27

Chi∏n l˜Òc s˚ dˆng các phép bi∏n Íi hình hÂc th¸c t∏ cho k∏t qu£ kh£ quan, tuy nhiênnhóm nh™n thßy r¨ng d˙ liªu ˜Òc cung cßp sÆn mßt cân b¨ng rßt nghiêm trÂng gi˙a cácclass i∑u này dπ hi∫u thôi vì th¸c t∏ s≥ có nh˙ng k˛ t¸ thông dˆng và phÍ bi∏n hÏn ph¶ncòn l§i nh˜ dßu cÎng, dßu tr¯, Chø b¨ng các phép bi∏n Íi hình hÂc chúng ta không th∫thu hµp kho£ng cách gi˙a các class m∞c dù sË l˜Òng m®u d˙ liªu t´ng lên áng k∫ Chínhs¸ mßt cân b¨ng là mÎt ph¶n tr ng§i cho viªc model có th∫ hÂc ˜Òc nh˙ng class hi∏mg∞p T¯ suy nghæ này, nhóm ∑ xußt mÎt ph˜Ïng pháp n˙a ∫ có th∫ t§o ra thêm nhi∑um®u bÍ sung vào các class vËn dæ ít m®u d˙ liªu T¯ ó thu hµp kho£ng cách gi˙a cácclass hi∏m vÓi các class phÍ bi∏n trên xác sußt phân bË cıa các class trên toàn t™p d˙ liªu.Ph˜Ïng pháp này s≥ ˜Òc trình bày cˆ th∫  mˆc 3.2.2.

2.1 Chi∏n l˜Òc 1: Bi∏n Íi hình hÂc

D¸a trên ∑ xußt cıa công trình [4], ph˜Ïng pháp bi∏n Íi hình hÂc cıa nhóm bao gÁmbi∏n Íi cˆc bÎ và bi∏n Íi toàn cˆc Tuy nhiên có 2 i∫m thay Íi:

• S˚ dˆng chính xác công th˘c (5) và (6) trong b£ng 3 d®n ∏n vßn to§ Î x sau khibi∏n Íi có giá tr‡ khá g¶n vÓi yd¸a trên ∞c t£ thông sË↵ ˜Òc cho trong [4] Trênth¸c t∏, i∑u này d®n ∏n viªc t§o ra nh˙ng m®u k˛ t¸ l§ l®m13 mà  ó không cònÂc ˜Òc ó là k˛ t¸ gì hay cßu trúc ng˙ pháp cıa ng˙ pháp không còn £m b£o.D¸a trên th¸c nghiªm, nhóm ã quy∏t ‡nh thay Íi y trong công th˘c bi∏n Íix (5) thành x và xtrong công th˘c bi∏n Íi y  (6) thànhy.

• Trong mÎt sË công th˘c,100 ˜Òc dùng nh˜ là cÏ nh˜ng trong công trình này nhóms˚ dˆng 1000000 i∑u này ˜Òc quy∏t ‡nh và l¸a chÂn t¯ th¸c nghiªm Có l≥ i∫mkhác nhau này có ˜Òc là cách nhóm ã áp dˆng bi∏n Íi hình hÂc tr˜Óc khi chu©nhoá và render t§o £nh t¯ to§ Î.

V∑ chi ti∏t hiªn th¸c, mÎt £nh ˜Òc gÂi là bi∏n Íi hình hÂc ¶y ı khi tr£i qua 2 b˜Óclà bi∏n Íi toàn cˆc sau khi ˜Òc bi∏n Íi cˆc bÎ theo mô hình liªt kê  Hình 2.1 – giaio§n bi∏n Íi cˆc bÎ, hª thËng l¸a chÂn ng®u nhiên 1 trong 5 ph˜Ïng th˘c và th¸c hiªnbi∏n Íi £nh ¶u vào Trên th¸c t∏ chúng ta c¶n l¸a chÂn ng®u nhiên thêm mÎt l¶n n˙a ∫quy∏t ‡nh s˚ dˆng công th˘c bi∏n Íi theo trˆc x hay theo trˆc y Énh ¶u vào sau khi˜Òc bi∏n Íi l¶n 1 ti∏p tˆc th¸c hiªn chuÈi bi∏n Íi scaling và rotation ây là b˜Óc bi∏nÍi toàn cˆc CuËi cùng render nh˙ng to§ Î ã bi∏n Íi này ∫ ra ˜Òc £nh bi∫u th˘c-cái phù hÒp là ¶u vào cıa m§ng SSD.

Trong công trình này, d¸a trên 1 £nh ¶u vào nhóm t§o ra thêm 5 £nh bi∏n Íi §idiªn cho nh˙ng cách vi∏t khác nhau cıa công th˘c trong £nh nguÁn Hình bên d˜Ói minhho§ cho các cách bi∏n Íi hình hÂc mà nhóm th¸c hiªn Tên ph˜Ïng th˘c bi∏n Íi cˆc bΘÒc ính kèm trong £nh Viªc l¸a chÂn bi∏n Íi ∫ sinh thêm 5 £nh d¸a trên k∏t qu£ th¸cnghiªm cıa công trình [4].

13Thu™t ng˙ ti∏ng Anh: weird data

Ngày đăng: 30/07/2024, 16:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w