K∏t qu£ hußn luyªn m§ng phát hiªn b£ng theo IoU- 123docz.net

2 Các nghiên c˘u liên quan

4.4 K∏t qu£ hußn luyªn m§ng phát hiªn b£ng theo IoU

B £ ng 4.5: K ∏ tq u £ hu ß n luy ª n m § ng phát hi ª n b £ ng theo Precision, R ecall và F1.

Do giÓi h§n v∑ph¶n c˘ng, tôi không th∫ chÂn các phiên b£n lÓn hÏn cıa Swin Trasformer là Swin-B và Swin-L ∫th˚nghiªm. Nhìn chung, các m§ng ∑u có th∫

x˚l˛khá tËt các b£ng nhìn rõ ràng và phát hiªn chính xác ph¶n c§nh cıa b£ng b‡

bi∏n d§ng.

Hình 4.4: MÎt sË tr˜Ìng hÒp phát hiªn b£ng tËt.

Bên nhánh phân o§n ng˙ nghæa, ki∏n trúc UperNet + Swin-S cÙng ã xßp xø

th™m chí là v˜Òt hÏn ki∏n trúc DeepLabv3+ ResNet50. Bên nhánh phân o§n cá th∫, mÎt ki∏n trúc khác s˚ dˆng Swin-S làm m§ng cÏ b£n là Cascade RCNN + Swin-S cÙng §t Î chính xác v˜Òt trÎi hÏn so vÓi các ki∏n trúc còn l§i. i∑u này ch˘ng minh s¸ hiªu qu£ cıa ki∏n trúc Transformer trong các nhiªm vˆ v∑ x˚ l˛

hình £nh. MÎt i∫m áng chú ˛ khác là dù m§ng UperNet + Swin-S cho k∏t qu£

v˜Òt trÎi v∑IoU i∫m£nh nh˜ng k∏t qu£IoU hÎp giÓi h§n thßp. i∑u này do m§ng ã oán tËt ph¶n trong cıa b£ng nh˜ng ph¶n vi∑n b£ng l§i không quáÍn ‡nh d®n

∏n ph¶n hÎp giÓi h§n b‡ m rÎng so vÓi hÎp giÓi h§n th™t s¸ cıa b£ng. Ngoài ra, các m§ng phân o§n các th∫ cho các giá tr‡ Precision thßp hÏn do chúng d¸

oán th¯a b£ng (các b£ng úng v®n ˜Òc phát hiªn chính xác). Hình 4.5 mô t£các tr˜Ìng hÒp nh˜v™y.

Hình 4.5: Các tr˜Ìng hÒp phát hiªn th¯a b£ng cıa các m§ng phân o§n cá th∫. Các tr˜Ìng hÒp này có th∫ ˜Òc kh≠c phˆc trong th¸c th∏ b¨ng logic nên k∏t qu£ phát hiªn cıa các m§ng phân o§n cá th∫ v®n xem khá Ín ‡nh. Tuy nhiên, các m§ng phân o§n ng˙ nghæa l§i có mÎt h§n ch∏ khó kh≠c phˆc hÏn. ó là các b£ng g¶n nhau s≥dπb‡phát hiªn thành mÎt b£ng và k∏t qu£d¸ oán có th∫ không

Ín ‡nh. Gi£ s˚mÎt tr˜Ìng hÒp b£ng khá rõ nét nh˜ng k∏t qu£ m∞t n§ phân o§n l§i b‡mßt trên mÎt ph¶n b£ng. i∑u này có th∫ gây£nh h˜ng ∏n ph¶n thu™t toán làm phØng b£ng.

Hình 4.6: Các tr˜Ìng hÒp phát hiªn không Ín ‡nh và dính b£ng cıa các m§ng phân o§n ng˙nghæa.

Ngoài ra, mÎt i∫m h§n ch∏ chung cıa các mô hình là k∏t qu£ phát hiªn các b£ng không có ˜Ìng vi∑n không quá chính xác. Dù có th∫phát hiªn t˜Ïng Ëi v‡

trí cıa b£ng nh˜ng ph¶n c§nh vi∑n cıa b£ng không ˜Òc phát hiªn chính xác.

Hình 4.7: Các b£ng không có ˜Ìng vi∑n ch˜a ˜Òc phát hiªn chính xác.

4.3 K∏t qu£ làm phØng b£ng trong £nh v´n b£n

Nh˜ ã trình bày trong ph¶n ph˜Ïng pháp ∑ xußt, tôi ti∏p c™n bài toán làm phØng b£ng thu ˜Òc theo 2 h˜Óng. H˜Óng th˘nhßt là phát hiªn b£ng tr˜Óc và sau ó tách riêng t¯ng ph¶n b£ng ra và th¸c hiªn làm phØng b¨ng thu™t toán. H˜Óng th˘ hai là dùng m§ng hÂc sâu ∫ làm phØng c£ tÌ gißy tr˜Óc khi th¸c hiªn phát hiªn b£ng. Ph˜Ïng pháp ánh giá là tính toán tølªb£ng ˜Òc c≠t ra khÓp vÓi v‡trí

˜Òc ánh nhãn và chø sË MS-SSIM sau khi làm phØng b£ng. K∏t qu£ cıa h˜Óng x˚l˛ th˘nhßt ˜Òc th∫hiªn trong b£ng b£ng 4.6.

B£ng 4.6: ThËng kê k∏t qu£ti∏p c™n theo h˜Óng th˘nhßt.

Tên m§ng MS-SSIM Tølª c≠t ˜Òc b£ng Cascade Mask R-CNN + Hrnet2v_32w 0.2407 0.8083

Cascade Mask R-CNN + Swin-T 0.2109 0.8417 Cascade Mask R-CNN + Swin-S 0.2753 0.9333

DeepLabv3+ + ResNet50 0.2507 0.8667 UperNet + Swin-T 0.2489 0.825 UperNet + Swin-S 0.2521 0.8667

VÓi h˜Óng x˚ l˛ th˘ 2, tôi s˚ dˆng m§ng DewarpNet ∫ làm phØng v´n b£n tr˜Óc khi ˜a vào m§ng phát hiªn b£ng. M§ng DewarpNet s˚dˆng d˙liªu 3D ∫

hußn luyªn nh˜ng rßt ti∏c tôi không có ı thi∏t b‡ ∫mô ph‰ng l§i d˙liªu. Do ó tôi s˚ dˆng phiên b£n ã ˜Òc hußn luyªn sÆn ˜Òc tác gi£ DewarpNet công bË. K∏t qu£ cıa các h˜Óng x˚l˛th˘hai ˜Òc th∫hiªn trong b£ng 4.7.

B£ng 4.7: ThËng kê k∏t qu£ ti∏p c™n theo h˜Óng th˘hai.

Tên m§ng MS-SSIM Tølª c≠t ˜Òc b£ng Cascade Mask R-CNN + Hrnet2v_32w 0.2513 0.85

Cascade Mask R-CNN + Swin-T 0.2416 0.8917 Cascade Mask R-CNN + Swin-S 0.2825 0.95

DeepLabv3+ + ResNet50 0.2721 0.8917 UperNet + Swin-T 0.2516 0.8 UperNet + Swin-S 0.2683 0.875

Tôi ã th˚ nghiªm k∏t hÒp hai h˜Óng ã ∑ xußt l§i. B∑ m∞t v´n b£n s≥ ˜Òc làm phØng vÓi m§ng Dewarp. Sau ó, thu™t toán phát hiªn b£ng ˜Òc áp dˆng ∫

tìm ra v‡ trí cıa t¯ng b£ng. Các b£ng sau ó ˜Òc tách riêng ra và ti∏p tˆc ˜Òc làm phØng b¨ng thu™t toán x˚l˛ ˜Ìng vi∑n. K∏t qu£ thu ˜Òc trong b£ng 4.8.

B£ng 4.8: ThËng kê k∏t qu£k∏t hÒp gi˙a hai h˜Óng.

Tên m§ng MS-SSIM Tølª c≠t ˜Òc b£ng Cascade Mask R-CNN + Hrnet2v_32w 0.2504 0.85

Cascade Mask R-CNN + Swin-T 0.2403 0.8917 Cascade Mask R-CNN + Swin-S 0.2672 0.95

DeepLabv3+ + ResNet50 0.2721 0.8917 UperNet + Swin-T 0.2524 0.8 UperNet + Swin-S 0.2691 0.875

TÍng k∏t l§i, ph˜Ïng pháp s˚ dˆng Cascade RCNN + Swin-S s˚ dˆng m§ng Dewarp ti∑n x˚ l˛ cho k∏t qu£ phát hiªn ˜Òc nhi∑u b£ng và gi˙l§i chi ti∏t b£ng tËt nhßt. MÎt sË k∏t qu£ b£ng ˜Òc c≠t ra tËt và ch˜a tËt ˜Òc th∫ hiªn trong các hình d˜Ói ây.

Hình 4.8: MÎt sËtr˜Ìng hÒp b£ng ã ˜Òc làm phØng (£nh k∏t qu£ và£nh chuy∫n t¯ ‡nh d§ng Word).

Hình 4.9: MÎt sËtr˜Ìng hÒp b£ng ch˜a ˜Òc làm phØng (£nh k∏t qu£ và£nh chuy∫n t¯ ‡nh d§ng Word).

4.4 K∏t qu£ hußn luyªn mô hình hÂc sâu nh™n d§ng cßu trúc b£ng

Tôi ã l¸a chÂn ki∏n trúc Cascade Mask R-CNN ∫ hußn luyªn cho nhiªm vˆ

phát hiªn các ô trong b£ng. Tôi áp dˆng thông sË hußn luyªn t˜Ïng t¸trong b£ng 4.3. Mô hình hußn luyªn ˜Òc ánh giá trên bÎ £nh 100 b£ng c≠t sát và ánh nhãn v‡trí các ô trong b£ng nh˜tôi ã trình bày trong ph¶n các bÎd˙liªu. K∏t qu£hußn luyªn ˜Òc tôi ánh giá theo các chøsË Precision, Recall và F1 Áng thÌi so sánh vÓi mÎt nghiên c˘u s˚dˆng ph˜Ïng pháp t˜Ïng t¸là CascadeTabNet [19].

B£ng 4.9: K∏t qu£ hußn luyªn các mô hình nh™n d§ng cßu trúc b£ng.

Nhìn chung, k∏t qu£hußn luyªn vÓi d˙liªu t´ng c˜Ìng cıa tôi cho k∏t qu£phát hiªn v˜Òt trÎi so vÓi mô hình CascadeTabNet trên bÎ £nh chˆp b£ng ã ˜Òc c≠t sát. Tuy nhiên, trong nhiªm vˆ phát hiªn ô, k∏t qu£ cıa ki∏n trúc Cascasde RCNN s˚dˆng 2 hai m§ng cÏ b£n là Hrnet2v_32w và Swin-S không quá chênh lªch nh˜

trong nhiªm vˆphát hiªn b£ng. Ki∏n trúc s˚dˆng Swin-S cho chøsËPrecision cao hÏn nh˜ng l§i cho chø sË Recall thßp hÏn so vÓi ki∏n trúc s˚dˆng Hrnet2v_32w và Îchênh lªch không quá lÓn. MÎt sËk∏t qu£phát hiªn ô tËt ˜Òc th∫hiªn trong hình 4.10.

Tuy nhiên, các m§ng ch˜a th∫ hiªn tËt vÓi các tr˜Ìng hÒp b£ng quá to (có quá nhi∑u ô), ô b‡mÌ ho∞c phát hiªn th¯a (có th∫ x˚l˛ b¨ng logic t˜Ïng t¸vÓi nhiªm vˆ phát hiªn b£ng). MÎt sËk∏t qu£ không tËt ˜Òc th∫ hiªn trong hình 4.11.

K∏t lu™n

Trong lu™n vń này, tôi ã trình bày ph˜Ïng pháp và th¸c nghiªm ∫ gi£i quy∏t bài toán phát hiªn và nh™n diªn cßu trúc b£ng t¯ £nh vń b£n b¨ng các mô hình hÂc sâu. Theo ó, tôi h¶u nh˜ ã xây d¸ng ˜Òc các ph˜Ïng pháp ∫ gi£i quy∏t các vßn ∑ ∞t ra t¯ ¶u lu™n vń bao gÁm:

• Xây d¸ng ˜Òc bÎ d˙mô ph‰ng £nh chˆp v´n b£n b¨ng các thi∏t b‡ghi hình b¨ng các ph˜Ïng pháp t¸ Îng.

• Hußn luyªn các mô hình phát hiªn b£ng trong£nh v´n b£n d¸a trên bÎ d˙liªu xây d¸ng ˜Òc.

• Ÿng dˆng các ph˜Ïng pháp ∫ x˚l˛ £nh tài liªu b‡bi∏n d§ng ∫ h™u x˚l˛ k∏t qu£phát hiªn b£ng thu ˜Òc.

• Hußn luyªn mô hình phát hiªn các ô trong b£ng t¯ £nh b£ng ã ˜Òc x˚ l˛

(tách riêng và làm phØng).

• Xây d¸ng và g≠n ˜Òc mÎt bÎd˙liªu £nh chˆp v´n b£n b¨ng các thi∏t b‡ghi hình b¨ng ph˜Ïng pháp thıcông ∫ ánh giá k∏t qu£.

S˚ dˆng các ph˜Ïng pháp t¸ Îng, tôi ã t§o ˜Òc bÎ d˙ liªu lÓn gÁm 22000

£nh v´n b£n và 42028 £nh b£ng ∫ hußn luyªn các mô hình hÂc sâu ∞t ra. Chßt l˜Òng bÎ d˙ liªu t˜Ïng Ëi giËng £nh chˆp v´n b£n trong th¸c t∏. Tuy nhiên, bÎ

d˙ liªu cıa tôi có h§n ch∏ là chã mô ph‰ng ˜Òc mÎt sË hiªu ˘ng cıa £nh chˆp vń b£n trong th¸c t∏nh˜viªc chi ti∏t phía sau vń b£n xußt hiªn trên v∑m∞t tr˜Óc (do gißy quá m‰ng ho∞c in ™m). Ngoài ra, tôi cÙng ã thu th™p và gán nhãn thı

t™p mÎt t™p d˙liªu th¸c t∏gÁm 100 £nh v´n b£n và 100£nh b£ng ∫ki∫m tra các mô hình ã hußn luyªn.

VÓi ph˜Ïng pháp phát hiªn b£ng, các ki∏n trúc hÂc sâu phân o§n ng˙nghæa và phân o§n cá th∫ ∑u có th∫ gi£i quy∏t tËt vßn ∑. Tuy nhiên, các ki∏n trúc phân o§n cá th∫ s≥ cho k∏t qu£ Ín ‡nh và áng tin c™y hÏn. Các ki∏n trúc phân o§n

ng˙ nghæa ôi lúc s≥ cho k∏t qu£ phát hiªn b£ng chính xác hÏn nh˜ng các k∏t qu£

này thi∏u Ín ‡nh và không tËt vÓi các b£ng quá g¶n nhau. K∏t qu£ tËt nhßt cıa các mô hình phát hiªn b£ng là chø sË IoU i∫m £nh lên ∏n 0.96 và chø sË F1 là 0.83 (khi xét các b£ng d¸ oán có IoU > 0.9 ˜Òc tính là chính xác). Ph˜Ïng pháp làm phØng b£ng cÙng cho k∏t qu£khá tËt. Cˆth∫, tølªc≠t b£ng và làm phØng b£ng thành công lên ∏n 95%. Tuy nhiên, các tr˜Ìng hÒp £nh v´n b£n b‡bi∏n d§ng quá lÓn trong t™p d˙liªu ki∫m tra v®n ch˜a ˜Òc x˚ l˛ tËt. Các tr˜Ìng hÒp này có th∫

gi£i quy∏t b¨ng các ph˜Ïng pháp làm phØng toàn bÎ vń b£n. Tuy nhiên, do h§n ch∏ v∑ d˙liªu, tôi chã th∫ hußn luyªn l§i các mô hình hÂc sâu cho nhiªm vˆlàm phØng £nh vń b£n. H§n ch∏ này cÙng có th∫ do tôi ã k˝ vÂng có th∫ gi£i quy∏t các tr˜Ìng hÒp quá khó. Khi xây d¸ng bÎ d˙liªu ki∫m tra, tôi ã chı Îng chˆp các £nh vń b£n có bi∏n d§ng lÓn. Trong th¸c t∏, khi chˆp £nh vń b£n ∫ Âc thông tin, t lª các£nh có bi∏n d§ng quá lÓn nh˜v™y là khá thßp.

VÓi ph˜Ïng pháp nh™n d§ng cßu trúc b£ng, k∏t qu£ cuËi cùng tôi §t ˜Òc tËt hÏn khi so sánh vÓi các nghiên c˘u tr˜Óc ó trên d˙ liªu £nh chˆp v´n b£n. Chø

sËF1 khi phát hiªn các ô cıa tôi là 0.76. Trên t™p d˙liªu ki∫m tra, vÓi các tr˜Ìng hÒp £nh b£ng rõ ràng, h¶u nh˜ các ô trong b£ng ∑u ˜Òc phát hiªn chính xác. Tuy nhiên, ph˜Ïng pháp tôi ã phát tri∫n có h§n ch∏ vÓi các tr˜Ìng hÒp b£ng quá to (trong khi nÎi dung các ô quá nh‰) và£nh b‡mÌ.

Thông qua lu™n v´n này, tôi ã nghiên c˘u và th¸c nghiªm các ki∏n th˘c v∑chı ∑ phát hiªn và nh™n d§ng b£ng trong £nh v´n b£n. ây là mÎt chı ∑ thi∏t th¸c và có tính˘ng dˆng cao trong thÌi §i chuy∫n Íi sË. VÓi k∏t qu£thu ˜Òc, tôi tin h˜Óng ti∏p c™n và các ph˜Ïng pháp mình phát tri∫n có th∫ ˜Òc áp dˆng trong các bài toán th¸c t∏ cˆ th∫ vÓi yêu c¶u Î chính xác cao. Trong quá trình nghiên c˘u, tôi ã c™p nh™p các ki∏n th˘c v∑mô hình Transformer cıa hÂc sâu trong x˚l˛hình

£nh. Khi ¶u, Transformer là mÎt ki∏n trúc ˜Òc phát tri∫n trong các nghiên c˘u v∑ x˚ l˛ ngôn ng˙ t¸ nhiên. G¶n ây, các mô hình m§ng ˘ng dˆng Transformer trong hÂc sâu ã ch˘ng minh ˜Òc s¸ hiªu qu£ t˜Ïng ˜Ïng các m§ng nÏ ron tích ch™p trong nhiªm vˆ x˚ l˛ hình £nh. Trong lu™n v´n này, các m§ng hÂc sâu s˚dˆng Transformer ã t‰ ra v˜Òt trÎi so vÓi các m§ng s˚ dˆng tích ch™p truy∑n thËng.

Trong t˜Ïng lai, h˜Óng nghiên c˘u cıa tôi là t™p trung gi£i quy∏t các bài toán x˚l˛ hình£nh trong th¸c t∏. N∏u có i∑u kiªn, tôi s≥ ti∏p tˆc nghiên c˘u và hoàn thiªn bài toán phát hiªn và nh™n d§ng cßu trúc b£ng trong£nh vń b£n ( ∞c biªt vÓi nhiªm vˆ làm phØng £nh vń b£n b‡ bi∏n d§ng). Ngoài b£ng, tôi cÙng s≥ nghiên c˘u ∫x˚l˛ các Ëi t˜Òng khác nh˜hình v≥, o§n vń b£n... trong£nh vń b£n.

Tài liªu tham kh£o

[1] Madhav Agarwal, Ajoy Mondal, and CV Jawahar. Cdec-net: Composite de- formable cascade network for table detection in document images. In 2020 25th International Conference on Pattern Recognition (ICPR), pages 9491– 9498. IEEE, 2021.

[2] Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, and Mita Nasipuri. Rectinet-v2: A stacked network architecture for document image dewarping, 2021.

[3] F. Cesarini, S. Marinai, L. Sarti, and G. Soda. Trainable table location in document images. In2002 International Conference on Pattern Recognition, volume 3, pages 236–240 vol.3, 2002.

[4] S. Chandran and R. Kasturi. Structural recognition of tabulated data. InPro- ceedings of 2nd International Conference on Document Analysis and Recog- nition (ICDAR ’93), pages 516–519, 1993.

[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for se- mantic image segmentation, 2018.

[6] M. Cimpoi, S. Maji, I. Kokkinos, S. Mohamed, , and A. Vedaldi. Describing textures in the wild. In Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2014.

[7] Sagnik Das, Ke Ma, Zhixin Shu, Dimitris Samaras, and Roy Shilkrot. De- warpnet: Single-image document unwarping with stacked 3d and 2d regres- sion networks. In Proceedings of International Conference on Computer Vision, 2019.

[8] Jing Fang, Xin Tao, Zhi Tang, Ruiheng Qiu, and Ying Liu. Dataset, ground- truth and performance metrics for table detection evaluation. In 2012 10th

IAPR International Workshop on Document Analysis Systems, pages 445– 449, 2012.

[9] Liangcai Gao, Yilun Huang, Hervé Déjean, Jean-Luc Meunier, Qinqin Yan, Yu Fang, Florian Kleber, and Eva Lang. Icdar 2019 competition on table detection and recognition (ctdar). In2019 International Conference on Doc- ument Analysis and Recognition (ICDAR), pages 1510–1515, 2019.

[10] Max G¨obel, Tamir Hassan, Ermelinda Oro, and Giorgio Orsi. Icdar 2013 table competition. In2013 12th International Conference on Document Anal- ysis and Recognition, pages 1449–1453, 2013.

[11] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn, 2017.

[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition, 2015.

[13] Bernhard Krupl and Marcus Herzog. Visually guided bottom-up table detection and segmentation in web documents. Proceedings of the 15th interna- tional conference on World Wide Web, 2006.

[14] Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li. Tablebank: A benchmark dataset for table detection and recognition, 2019.

[15] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030, 2021.

[16] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras. Docunet: Document image unwarping via a stacked u-net. In2018 IEEE/CVF Confer- ence on Computer Vision and Pattern Recognition, pages 4700–4709, 2018. [17] Ermelinda Oro and Massimo Ruffolo. Pdf-trex: An approach for recogniz-

ing and extracting tables from pdf documents. In 2009 10th International Conference on Document Analysis and Recognition, pages 906–910, 2009. [18] Shubham Paliwal, Vishwanath D, Rohit Rahul, Monika Sharma, and

Lovekesh Vig. Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images, 2020.

[19] Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave, and Kavita Sultanpure. Cascadetabnet: An approach for end to end table detection and structure recognition from image-based documents, 2020.

[20] Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed. Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 01, pages 1162– 1167, 2017.

[21] Asif Shahab, Faisal Shafait, Thomas Kieninger, and Andreas Dengel. An open approach towards the benchmarking of table structure recognition systems. InProceedings of the 8th IAPR International Workshop on Document Analysis Systems - DAS'10. ACM Press, 2010.

[22] Noah Siegel, Nicholas Lourie, Russell Power, and Waleed Ammar. Extract- ing scientific figures with distantly supervised neural networks. InProceed- ings of the 18th ACM/IEEE on Joint Conference on Digital Libraries. ACM,

K∏t qu£ hußn luyªn m§ng phát hiªn b£ng theo IoU

H˜Óng ti∏p c™n th˘ hai

Ki∏n trúc DewarpNet Trích [7]