2 Các nghiên c˘u liên quan
4.4 K∏t qu£ hußn luyªn m§ng phát hiªn b£ng theo IoU
B £ ng 4.5: K ∏ tq u £ hu ß n luy ª n m § ng phát hi ª n b £ ng theo Precision, R ecall và F1.
Do giÓi h§n v∑ph¶n c˘ng, tôi không th∫ chÂn các phiên b£n lÓn hÏn cıa Swin Trasformer là Swin-B và Swin-L ∫th˚nghiªm. Nhìn chung, các m§ng ∑u có th∫
x˚l˛khá tËt các b£ng nhìn rõ ràng và phát hiªn chính xác ph¶n c§nh cıa b£ng b‡
bi∏n d§ng.
Hình 4.4: MÎt sË tr˜Ìng hÒp phát hiªn b£ng tËt.
Bên nhánh phân o§n ng˙ nghæa, ki∏n trúc UperNet + Swin-S cÙng ã xßp xø
th™m chí là v˜Òt hÏn ki∏n trúc DeepLabv3+ ResNet50. Bên nhánh phân o§n cá th∫, mÎt ki∏n trúc khác s˚ dˆng Swin-S làm m§ng cÏ b£n là Cascade RCNN + Swin-S cÙng §t Î chính xác v˜Òt trÎi hÏn so vÓi các ki∏n trúc còn l§i. i∑u này ch˘ng minh s¸ hiªu qu£ cıa ki∏n trúc Transformer trong các nhiªm vˆ v∑ x˚ l˛
hình £nh. MÎt i∫m áng chú ˛ khác là dù m§ng UperNet + Swin-S cho k∏t qu£
v˜Òt trÎi v∑IoU i∫m£nh nh˜ng k∏t qu£IoU hÎp giÓi h§n thßp. i∑u này do m§ng ã oán tËt ph¶n trong cıa b£ng nh˜ng ph¶n vi∑n b£ng l§i không quáÍn ‡nh d®n
∏n ph¶n hÎp giÓi h§n b‡ m rÎng so vÓi hÎp giÓi h§n th™t s¸ cıa b£ng. Ngoài ra, các m§ng phân o§n các th∫ cho các giá tr‡ Precision thßp hÏn do chúng d¸
oán th¯a b£ng (các b£ng úng v®n ˜Òc phát hiªn chính xác). Hình 4.5 mô t£các tr˜Ìng hÒp nh˜v™y.
Hình 4.5: Các tr˜Ìng hÒp phát hiªn th¯a b£ng cıa các m§ng phân o§n cá th∫. Các tr˜Ìng hÒp này có th∫ ˜Òc kh≠c phˆc trong th¸c th∏ b¨ng logic nên k∏t qu£ phát hiªn cıa các m§ng phân o§n cá th∫ v®n xem khá Ín ‡nh. Tuy nhiên, các m§ng phân o§n ng˙ nghæa l§i có mÎt h§n ch∏ khó kh≠c phˆc hÏn. ó là các b£ng g¶n nhau s≥dπb‡phát hiªn thành mÎt b£ng và k∏t qu£d¸ oán có th∫ không
Ín ‡nh. Gi£ s˚mÎt tr˜Ìng hÒp b£ng khá rõ nét nh˜ng k∏t qu£ m∞t n§ phân o§n l§i b‡mßt trên mÎt ph¶n b£ng. i∑u này có th∫ gây£nh h˜ng ∏n ph¶n thu™t toán làm phØng b£ng.
Hình 4.6: Các tr˜Ìng hÒp phát hiªn không Ín ‡nh và dính b£ng cıa các m§ng phân o§n ng˙nghæa.
Ngoài ra, mÎt i∫m h§n ch∏ chung cıa các mô hình là k∏t qu£ phát hiªn các b£ng không có ˜Ìng vi∑n không quá chính xác. Dù có th∫phát hiªn t˜Ïng Ëi v‡
trí cıa b£ng nh˜ng ph¶n c§nh vi∑n cıa b£ng không ˜Òc phát hiªn chính xác.
Hình 4.7: Các b£ng không có ˜Ìng vi∑n ch˜a ˜Òc phát hiªn chính xác.
4.3 K∏t qu£ làm phØng b£ng trong £nh v´n b£n
Nh˜ ã trình bày trong ph¶n ph˜Ïng pháp ∑ xußt, tôi ti∏p c™n bài toán làm phØng b£ng thu ˜Òc theo 2 h˜Óng. H˜Óng th˘nhßt là phát hiªn b£ng tr˜Óc và sau ó tách riêng t¯ng ph¶n b£ng ra và th¸c hiªn làm phØng b¨ng thu™t toán. H˜Óng th˘ hai là dùng m§ng hÂc sâu ∫ làm phØng c£ tÌ gißy tr˜Óc khi th¸c hiªn phát hiªn b£ng. Ph˜Ïng pháp ánh giá là tính toán tølªb£ng ˜Òc c≠t ra khÓp vÓi v‡trí
˜Òc ánh nhãn và chø sË MS-SSIM sau khi làm phØng b£ng. K∏t qu£ cıa h˜Óng x˚l˛ th˘nhßt ˜Òc th∫hiªn trong b£ng b£ng 4.6.
B£ng 4.6: ThËng kê k∏t qu£ti∏p c™n theo h˜Óng th˘nhßt.
Tên m§ng MS-SSIM Tølª c≠t ˜Òc b£ng Cascade Mask R-CNN + Hrnet2v_32w 0.2407 0.8083
Cascade Mask R-CNN + Swin-T 0.2109 0.8417 Cascade Mask R-CNN + Swin-S 0.2753 0.9333
DeepLabv3+ + ResNet50 0.2507 0.8667 UperNet + Swin-T 0.2489 0.825 UperNet + Swin-S 0.2521 0.8667
VÓi h˜Óng x˚ l˛ th˘ 2, tôi s˚ dˆng m§ng DewarpNet ∫ làm phØng v´n b£n tr˜Óc khi ˜a vào m§ng phát hiªn b£ng. M§ng DewarpNet s˚dˆng d˙liªu 3D ∫
hußn luyªn nh˜ng rßt ti∏c tôi không có ı thi∏t b‡ ∫mô ph‰ng l§i d˙liªu. Do ó tôi s˚ dˆng phiên b£n ã ˜Òc hußn luyªn sÆn ˜Òc tác gi£ DewarpNet công bË. K∏t qu£ cıa các h˜Óng x˚l˛th˘hai ˜Òc th∫hiªn trong b£ng 4.7.
B£ng 4.7: ThËng kê k∏t qu£ ti∏p c™n theo h˜Óng th˘hai.
Tên m§ng MS-SSIM Tølª c≠t ˜Òc b£ng Cascade Mask R-CNN + Hrnet2v_32w 0.2513 0.85
Cascade Mask R-CNN + Swin-T 0.2416 0.8917 Cascade Mask R-CNN + Swin-S 0.2825 0.95
DeepLabv3+ + ResNet50 0.2721 0.8917 UperNet + Swin-T 0.2516 0.8 UperNet + Swin-S 0.2683 0.875
Tôi ã th˚ nghiªm k∏t hÒp hai h˜Óng ã ∑ xußt l§i. B∑ m∞t v´n b£n s≥ ˜Òc làm phØng vÓi m§ng Dewarp. Sau ó, thu™t toán phát hiªn b£ng ˜Òc áp dˆng ∫
tìm ra v‡ trí cıa t¯ng b£ng. Các b£ng sau ó ˜Òc tách riêng ra và ti∏p tˆc ˜Òc làm phØng b¨ng thu™t toán x˚l˛ ˜Ìng vi∑n. K∏t qu£ thu ˜Òc trong b£ng 4.8.
B£ng 4.8: ThËng kê k∏t qu£k∏t hÒp gi˙a hai h˜Óng.
Tên m§ng MS-SSIM Tølª c≠t ˜Òc b£ng Cascade Mask R-CNN + Hrnet2v_32w 0.2504 0.85
Cascade Mask R-CNN + Swin-T 0.2403 0.8917 Cascade Mask R-CNN + Swin-S 0.2672 0.95
DeepLabv3+ + ResNet50 0.2721 0.8917 UperNet + Swin-T 0.2524 0.8 UperNet + Swin-S 0.2691 0.875
TÍng k∏t l§i, ph˜Ïng pháp s˚ dˆng Cascade RCNN + Swin-S s˚ dˆng m§ng Dewarp ti∑n x˚ l˛ cho k∏t qu£ phát hiªn ˜Òc nhi∑u b£ng và gi˙l§i chi ti∏t b£ng tËt nhßt. MÎt sË k∏t qu£ b£ng ˜Òc c≠t ra tËt và ch˜a tËt ˜Òc th∫ hiªn trong các hình d˜Ói ây.
Hình 4.8: MÎt sËtr˜Ìng hÒp b£ng ã ˜Òc làm phØng (£nh k∏t qu£ và£nh chuy∫n t¯ ‡nh d§ng Word).
Hình 4.9: MÎt sËtr˜Ìng hÒp b£ng ch˜a ˜Òc làm phØng (£nh k∏t qu£ và£nh chuy∫n t¯ ‡nh d§ng Word).
4.4 K∏t qu£ hußn luyªn mô hình hÂc sâu nh™n d§ng cßu trúc b£ng
Tôi ã l¸a chÂn ki∏n trúc Cascade Mask R-CNN ∫ hußn luyªn cho nhiªm vˆ
phát hiªn các ô trong b£ng. Tôi áp dˆng thông sË hußn luyªn t˜Ïng t¸trong b£ng 4.3. Mô hình hußn luyªn ˜Òc ánh giá trên bÎ £nh 100 b£ng c≠t sát và ánh nhãn v‡trí các ô trong b£ng nh˜tôi ã trình bày trong ph¶n các bÎd˙liªu. K∏t qu£hußn luyªn ˜Òc tôi ánh giá theo các chøsË Precision, Recall và F1 Áng thÌi so sánh vÓi mÎt nghiên c˘u s˚dˆng ph˜Ïng pháp t˜Ïng t¸là CascadeTabNet [19].
B£ng 4.9: K∏t qu£ hußn luyªn các mô hình nh™n d§ng cßu trúc b£ng.
Nhìn chung, k∏t qu£hußn luyªn vÓi d˙liªu t´ng c˜Ìng cıa tôi cho k∏t qu£phát hiªn v˜Òt trÎi so vÓi mô hình CascadeTabNet trên bÎ £nh chˆp b£ng ã ˜Òc c≠t sát. Tuy nhiên, trong nhiªm vˆ phát hiªn ô, k∏t qu£ cıa ki∏n trúc Cascasde RCNN s˚dˆng 2 hai m§ng cÏ b£n là Hrnet2v_32w và Swin-S không quá chênh lªch nh˜
trong nhiªm vˆphát hiªn b£ng. Ki∏n trúc s˚dˆng Swin-S cho chøsËPrecision cao hÏn nh˜ng l§i cho chø sË Recall thßp hÏn so vÓi ki∏n trúc s˚dˆng Hrnet2v_32w và Îchênh lªch không quá lÓn. MÎt sËk∏t qu£phát hiªn ô tËt ˜Òc th∫hiªn trong hình 4.10.
Tuy nhiên, các m§ng ch˜a th∫ hiªn tËt vÓi các tr˜Ìng hÒp b£ng quá to (có quá nhi∑u ô), ô b‡mÌ ho∞c phát hiªn th¯a (có th∫ x˚l˛ b¨ng logic t˜Ïng t¸vÓi nhiªm vˆ phát hiªn b£ng). MÎt sËk∏t qu£ không tËt ˜Òc th∫ hiªn trong hình 4.11.
K∏t lu™n
Trong lu™n v´n này, tôi ã trình bày ph˜Ïng pháp và th¸c nghiªm ∫ gi£i quy∏t bài toán phát hiªn và nh™n diªn cßu trúc b£ng t¯ £nh v´n b£n b¨ng các mô hình hÂc sâu. Theo ó, tôi h¶u nh˜ ã xây d¸ng ˜Òc các ph˜Ïng pháp ∫ gi£i quy∏t các vßn ∑ ∞t ra t¯ ¶u lu™n v´n bao gÁm:
• Xây d¸ng ˜Òc bÎ d˙mô ph‰ng £nh chˆp v´n b£n b¨ng các thi∏t b‡ghi hình b¨ng các ph˜Ïng pháp t¸ Îng.
• Hußn luyªn các mô hình phát hiªn b£ng trong£nh v´n b£n d¸a trên bÎ d˙liªu xây d¸ng ˜Òc.
• Ÿng dˆng các ph˜Ïng pháp ∫ x˚l˛ £nh tài liªu b‡bi∏n d§ng ∫ h™u x˚l˛ k∏t qu£phát hiªn b£ng thu ˜Òc.
• Hußn luyªn mô hình phát hiªn các ô trong b£ng t¯ £nh b£ng ã ˜Òc x˚ l˛
(tách riêng và làm phØng).
• Xây d¸ng và g≠n ˜Òc mÎt bÎd˙liªu £nh chˆp v´n b£n b¨ng các thi∏t b‡ghi hình b¨ng ph˜Ïng pháp thıcông ∫ ánh giá k∏t qu£.
S˚ dˆng các ph˜Ïng pháp t¸ Îng, tôi ã t§o ˜Òc bÎ d˙ liªu lÓn gÁm 22000
£nh v´n b£n và 42028 £nh b£ng ∫ hußn luyªn các mô hình hÂc sâu ∞t ra. Chßt l˜Òng bÎ d˙ liªu t˜Ïng Ëi giËng £nh chˆp v´n b£n trong th¸c t∏. Tuy nhiên, bÎ
d˙ liªu cıa tôi có h§n ch∏ là ch˜a mô ph‰ng ˜Òc mÎt sË hiªu ˘ng cıa £nh chˆp v´n b£n trong th¸c t∏nh˜viªc chi ti∏t phía sau v´n b£n xußt hiªn trên v∑m∞t tr˜Óc (do gißy quá m‰ng ho∞c in ™m). Ngoài ra, tôi cÙng ã thu th™p và gán nhãn thı
t™p mÎt t™p d˙liªu th¸c t∏gÁm 100 £nh v´n b£n và 100£nh b£ng ∫ki∫m tra các mô hình ã hußn luyªn.
VÓi ph˜Ïng pháp phát hiªn b£ng, các ki∏n trúc hÂc sâu phân o§n ng˙nghæa và phân o§n cá th∫ ∑u có th∫ gi£i quy∏t tËt vßn ∑. Tuy nhiên, các ki∏n trúc phân o§n cá th∫ s≥ cho k∏t qu£ Ín ‡nh và áng tin c™y hÏn. Các ki∏n trúc phân o§n
ng˙ nghæa ôi lúc s≥ cho k∏t qu£ phát hiªn b£ng chính xác hÏn nh˜ng các k∏t qu£
này thi∏u Ín ‡nh và không tËt vÓi các b£ng quá g¶n nhau. K∏t qu£ tËt nhßt cıa các mô hình phát hiªn b£ng là chø sË IoU i∫m £nh lên ∏n 0.96 và chø sË F1 là 0.83 (khi xét các b£ng d¸ oán có IoU > 0.9 ˜Òc tính là chính xác). Ph˜Ïng pháp làm phØng b£ng cÙng cho k∏t qu£khá tËt. Cˆth∫, tølªc≠t b£ng và làm phØng b£ng thành công lên ∏n 95%. Tuy nhiên, các tr˜Ìng hÒp £nh v´n b£n b‡bi∏n d§ng quá lÓn trong t™p d˙liªu ki∫m tra v®n ch˜a ˜Òc x˚ l˛ tËt. Các tr˜Ìng hÒp này có th∫
gi£i quy∏t b¨ng các ph˜Ïng pháp làm phØng toàn bÎ v´n b£n. Tuy nhiên, do h§n ch∏ v∑ d˙liªu, tôi ch˜a th∫ hußn luyªn l§i các mô hình hÂc sâu cho nhiªm vˆlàm phØng £nh v´n b£n. H§n ch∏ này cÙng có th∫ do tôi ã k˝ vÂng có th∫ gi£i quy∏t các tr˜Ìng hÒp quá khó. Khi xây d¸ng bÎ d˙liªu ki∫m tra, tôi ã chı Îng chˆp các £nh v´n b£n có bi∏n d§ng lÓn. Trong th¸c t∏, khi chˆp £nh v´n b£n ∫ Âc thông tin, t lª các£nh có bi∏n d§ng quá lÓn nh˜v™y là khá thßp.
VÓi ph˜Ïng pháp nh™n d§ng cßu trúc b£ng, k∏t qu£ cuËi cùng tôi §t ˜Òc tËt hÏn khi so sánh vÓi các nghiên c˘u tr˜Óc ó trên d˙ liªu £nh chˆp v´n b£n. Chø
sËF1 khi phát hiªn các ô cıa tôi là 0.76. Trên t™p d˙liªu ki∫m tra, vÓi các tr˜Ìng hÒp £nh b£ng rõ ràng, h¶u nh˜ các ô trong b£ng ∑u ˜Òc phát hiªn chính xác. Tuy nhiên, ph˜Ïng pháp tôi ã phát tri∫n có h§n ch∏ vÓi các tr˜Ìng hÒp b£ng quá to (trong khi nÎi dung các ô quá nh‰) và£nh b‡mÌ.
Thông qua lu™n v´n này, tôi ã nghiên c˘u và th¸c nghiªm các ki∏n th˘c v∑chı ∑ phát hiªn và nh™n d§ng b£ng trong £nh v´n b£n. ây là mÎt chı ∑ thi∏t th¸c và có tính˘ng dˆng cao trong thÌi §i chuy∫n Íi sË. VÓi k∏t qu£thu ˜Òc, tôi tin h˜Óng ti∏p c™n và các ph˜Ïng pháp mình phát tri∫n có th∫ ˜Òc áp dˆng trong các bài toán th¸c t∏ cˆ th∫ vÓi yêu c¶u Î chính xác cao. Trong quá trình nghiên c˘u, tôi ã c™p nh™p các ki∏n th˘c v∑mô hình Transformer cıa hÂc sâu trong x˚l˛hình
£nh. Khi ¶u, Transformer là mÎt ki∏n trúc ˜Òc phát tri∫n trong các nghiên c˘u v∑ x˚ l˛ ngôn ng˙ t¸ nhiên. G¶n ây, các mô hình m§ng ˘ng dˆng Transformer trong hÂc sâu ã ch˘ng minh ˜Òc s¸ hiªu qu£ t˜Ïng ˜Ïng các m§ng nÏ ron tích ch™p trong nhiªm vˆ x˚ l˛ hình £nh. Trong lu™n v´n này, các m§ng hÂc sâu s˚dˆng Transformer ã t‰ ra v˜Òt trÎi so vÓi các m§ng s˚ dˆng tích ch™p truy∑n thËng.
Trong t˜Ïng lai, h˜Óng nghiên c˘u cıa tôi là t™p trung gi£i quy∏t các bài toán x˚l˛ hình£nh trong th¸c t∏. N∏u có i∑u kiªn, tôi s≥ ti∏p tˆc nghiên c˘u và hoàn thiªn bài toán phát hiªn và nh™n d§ng cßu trúc b£ng trong£nh v´n b£n ( ∞c biªt vÓi nhiªm vˆ làm phØng £nh v´n b£n b‡ bi∏n d§ng). Ngoài b£ng, tôi cÙng s≥ nghiên c˘u ∫x˚l˛ các Ëi t˜Òng khác nh˜hình v≥, o§n v´n b£n... trong£nh v´n b£n.
Tài liªu tham kh£o
[1] Madhav Agarwal, Ajoy Mondal, and CV Jawahar. Cdec-net: Composite de- formable cascade network for table detection in document images. In 2020 25th International Conference on Pattern Recognition (ICPR), pages 9491– 9498. IEEE, 2021.
[2] Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, and Mita Nasipuri. Rectinet-v2: A stacked network architecture for document image dewarping, 2021.
[3] F. Cesarini, S. Marinai, L. Sarti, and G. Soda. Trainable table location in document images. In2002 International Conference on Pattern Recognition, volume 3, pages 236–240 vol.3, 2002.
[4] S. Chandran and R. Kasturi. Structural recognition of tabulated data. InPro- ceedings of 2nd International Conference on Document Analysis and Recog- nition (ICDAR ’93), pages 516–519, 1993.
[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for se- mantic image segmentation, 2018.
[6] M. Cimpoi, S. Maji, I. Kokkinos, S. Mohamed, , and A. Vedaldi. Describing textures in the wild. In Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2014.
[7] Sagnik Das, Ke Ma, Zhixin Shu, Dimitris Samaras, and Roy Shilkrot. De- warpnet: Single-image document unwarping with stacked 3d and 2d regres- sion networks. In Proceedings of International Conference on Computer Vision, 2019.
[8] Jing Fang, Xin Tao, Zhi Tang, Ruiheng Qiu, and Ying Liu. Dataset, ground- truth and performance metrics for table detection evaluation. In 2012 10th
IAPR International Workshop on Document Analysis Systems, pages 445– 449, 2012.
[9] Liangcai Gao, Yilun Huang, Hervé Déjean, Jean-Luc Meunier, Qinqin Yan, Yu Fang, Florian Kleber, and Eva Lang. Icdar 2019 competition on table detection and recognition (ctdar). In2019 International Conference on Doc- ument Analysis and Recognition (ICDAR), pages 1510–1515, 2019.
[10] Max G¨obel, Tamir Hassan, Ermelinda Oro, and Giorgio Orsi. Icdar 2013 ta- ble competition. In2013 12th International Conference on Document Anal- ysis and Recognition, pages 1449–1453, 2013.
[11] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask r-cnn, 2017.
[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition, 2015.
[13] Bernhard Krupl and Marcus Herzog. Visually guided bottom-up table detec- tion and segmentation in web documents. Proceedings of the 15th interna- tional conference on World Wide Web, 2006.
[14] Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li. Tablebank: A benchmark dataset for table detection and recognition, 2019.
[15] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030, 2021.
[16] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras. Docunet: Document image unwarping via a stacked u-net. In2018 IEEE/CVF Confer- ence on Computer Vision and Pattern Recognition, pages 4700–4709, 2018. [17] Ermelinda Oro and Massimo Ruffolo. Pdf-trex: An approach for recogniz-
ing and extracting tables from pdf documents. In 2009 10th International Conference on Document Analysis and Recognition, pages 906–910, 2009. [18] Shubham Paliwal, Vishwanath D, Rohit Rahul, Monika Sharma, and
Lovekesh Vig. Tablenet: Deep learning model for end-to-end table detec- tion and tabular data extraction from scanned document images, 2020.
[19] Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave, and Kavita Sultanpure. Cascadetabnet: An approach for end to end table detection and structure recognition from image-based documents, 2020.
[20] Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed. Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 01, pages 1162– 1167, 2017.
[21] Asif Shahab, Faisal Shafait, Thomas Kieninger, and Andreas Dengel. An open approach towards the benchmarking of table structure recognition sys- tems. InProceedings of the 8th IAPR International Workshop on Document Analysis Systems - DAS'10. ACM Press, 2010.
[22] Noah Siegel, Nicholas Lourie, Russell Power, and Waleed Ammar. Extract- ing scientific figures with distantly supervised neural networks. InProceed- ings of the 18th ACM/IEEE on Joint Conference on Digital Libraries. ACM,