Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản

TR◊ÕNG ĐI H≈C CƠNG NGHõ ĐI H≈C QU»C GIA HÀ NÀI Nguyπn Hồng Anh Phát tri∫n mơ hình hÂc sâu cho bi toỏn phỏt hiên bÊng v nhn dĐng còu trúc cıa b£ng £nh vń b£n LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tính Hà NỴi - 2021 TR◊ÕNG ĐI H≈C CƠNG NGHõ ĐI H≈C QU»C GIA HÀ NÀI Nguyπn Hồng Anh Phát tri∫n mơ hình hÂc sâu cho bi toỏn phỏt hiên bÊng v nhn dĐng còu trúc cıa b£ng £nh vń b£n LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tính Gi£ng viên h˜Ĩng d®n: TS Nguyn Th Ngc Diêp H Nẻi - 2021 Túm t≠t SË hóa ang xu h˜Ĩng cıa th∏ giĨi Mẻt vớ d rừ nhòt th hiên cho xu hểng sậ húa l viêc s dng cỏc nh dĐng b£n sË nh˜ £nh vń b£n ang d¶n thay th∏ cho cỏc nh dĐng bÊn vt l nhè sá tiªn dˆng an tồn cıa chúng i kèm vĨi sá bựng n ca cụng nghê thụng tin, lềng bÊn cản x l l ròt lển v khụng th giÊi quyt băng phẽng phỏp th cụng m cản cỏc phẽng phỏp trớch xuòt thụng tin tá ẻng Trờn b£n có nhi∑u d§ng bi∫u diπn thơng tin mà b£ng l mẻt nhng dĐng cha nhiu thụng tin v ph bin nhòt Trong bÊng, cỏc d liêu thèng ềc t chc theo hng cẻt ròt c trng Vỡ vy, trớch xuòt thụng tin bÊng, bểc ảu tiờn c¶n xác ‡nh tách ˜Ịc b£ng kh‰i vń bÊn ng thèi, bÊng cú còu trỳc ròt a dĐng nên viªc s˚ dˆng thu™t tốn x˚ l˛ £nh truyn thậng phỏt hiên l ròt khú khn Tn dˆng s˘c m§nh cıa hÂc sâu, th∏ giĨi ã có nhi∑u nghiên c˘u ˘ng dˆng mơ hình hÂc sâu ∫ gi£i quy∏t tốn phát hiªn nh™n dĐng còu trỳc bÊng Ênh bÊn Trong ú, phát hiªn b£ng nhiªm vˆ tìm v‡ trí tách ˜Ịc b£ng kh‰i vń b£n cịn nh™n d§ng còu trỳc l nhiêm v xỏc nh còu trỳc biu diπn d˙ liªu b£ng M∞c dù ã có nhi∑u nghiên c˘u liên quan nhñg nghiên c˘u ã công bậ cha trung vo dĐng d liêu Ênh b£n thu ˜Ịc t¯ viªc chˆp vń b£n v™t l băng cỏc thit b ghi hỡnh Trong thác th, lềng d liêu Ênh chp bÊn l ròt lển vỡ chp Ênh l mẻt nhng cỏch nhanh nhòt ∫ sË hóa vń b£n Vì v™y, khóa lu™n này, tơi s≥ ˘ng dˆng cơng nghª hÂc sâu ∫ giÊi quyt bi toỏn phỏt hiên v nhn dĐng còu trúc b£ng £nh chˆp vń b£n ∫ gi£i quy∏t tốn ∞t ra, tơi ã phát tri∫n ph˜Ïng phỏp phỏt hiên v nhn dĐng còu trỳc bÊng dáa mơ hình hÂc sâu Ph˜Ïng pháp phát hiªn b£ng s≥ bao gÁm mơ hình hÂc sâu ˜Ịc huòn luyên phỏt hiên v trớ ca bÊng £nh vń b£n mỴt b˜Ĩc h™u x˚ l˛ ∫ làm phØng b£ng Mˆc ích cıa ph˜Ïng pháp tách ˜Ịc t¯ng b£ng kh‰i £nh vń b£n ban ¶u Sau ó, £nh b£ng ˜Ịc ã vào ph˜Ïng phỏp nhn dĐng còu trỳc bÊng Phẽng phỏp nhn dĐng cßu trúc s≥ s˚ dˆng mơ hình hÂc sâu ềc huòn luyên nhn dĐng còu i trỳc ca b£ng thơng qua viªc phát hiªn b£ng huòn luyên cỏc mụ hỡnh hc sõu xuòt, tụi ó xõy dáng mẻt phẽng phỏp tá ẻng tĐo £nh mơ ph‰ng £nh chˆp vń b£n bỴ d liêu sặn cú v Ênh chp bÊn l rßt Ph˜Ïng pháp s˚ dˆng tính tốn mụ phng v thờm cỏc hiêu ng xuòt hiên chp bÊn (bin dĐng 3D v búng) lên £nh vń b£n chuy∫n Íi t¯ ‡nh d§ng sË (PDF, Word ) S˚ dˆng ph˜Ïng pháp này, tụi ó xõy ềc bẻ d liêu bao gm 22000 £nh mơ ph‰ng £nh chˆp vń b£n ( ˜Ịc gán nhãn v‡ trí b£ng) 42028 £nh b£ng ( ˜Ịc gán nhãn v‡ trí b£ng) Ngồi ra, ∫ ánh giá Ỵ xác cıa ph˜Ïng phỏp phỏt hiên v nhn dĐng còu trỳc bÊng, tụi ó gỏn nhón th cụng mẻt bẻ d liêu thác t∏ gÁm 100 £nh chˆp vń b£n 100 £nh b£ng K∏t qu£ ci tơi §t ˜Ịc tËt cao hÏn nghiên c˘u liên quan ã công bậ ỏnh giỏ trờn bẻ d liêu thác t ã gán nhãn Cˆ th∫, ph˜Ïng pháp phát hiªn b£ng cıa cho k∏t qu£ IoU i∫m £nh lên ∏n 0.96 chø sË F1 0.83 (khi xét b£ng d¸ ốn có IoU > 0.9 ˜Ịc tính xác) VĨi ph˜Ïng pháp làm phØng b£ng, nghiên c˘u cıa tơi cho tø lª c≠t làm phØng b£ng thành cơng lên ∏n 95% VĨi ph˜Ïng pháp nh™n d§ng còu trỳc bÊng thụng qua phỏt hiên cỏc ụ b£ng, mơ hình cıa tơi cho chø sË F1 phát hiªn 0.76 ii LÌi c£m Ïn Tôi xin c£m Ïn sâu s≠c ∏n TS Nguyπn Th‡ Ngc Diêp ó tip nhn, hểng dđn, tn tỡnh b£o cÙng nh˜ Ëc thúc tơi hồn thành nghiên c˘u st thÌi gian làm lu™n vń Tơi xin g˚i lÌi c£m Ïn ∏n gi£ng viên d§y lĨp cao hc ca trèng Đi hc Cụng nghê - Đi hc Quậc gia H Nẻi ó truyn Đt kin thc cho suËt n´m làm hÂc viên cao hÂc t§i tr˜Ìng Và ci cùng, tơi xin g˚i lèi cÊm ẽn sõu sc nhòt n bậ mà - nh˙ng ng˜Ìi ã ln Áng hành Ỵng viên tơi ˜Ìng hÂc t™p iii LÌi cam oan Tơi xin cam oan lu™n vń b£n thân tá thác hiên dểi sá hểng dđn ca TS Nguyn Th‡ NgÂc Diªp MÂi thơng tin tham kh£o ˜Ịc s˚ dng lun u ềc tụi trớch dđn ảy phản ti liêu tham khÊo Tụi xin hon tồn ch‡u trách nhiªm vĨi lÌi cam oan cıa xin ch‡u mÂi hình th˘c kø lu™t theo quy ‡nh n∏u sai ph§m iv Mˆc lˆc Tóm t≠t i LÌi c£m Ïn iii LÌi cam k∏t iv Mˆc Lˆc v Danh sách b£ng vii Danh sách hình v≥ viii TÍng quan 1.1 ∞t vßn ∑ 1.2 Mô t£ toán 1.3 Ph§m vi cıa lu™n vń 1 Các nghiên c˘u liên quan 2.1 Cỏc nghiờn cu v phỏt hiên v nhn dĐng cßu trúc b£ng £nh vń b£n 2.2 Các nghiên c˘u v∑ làm phØng £nh vń b£n b‡ bi∏n d§ng Ph˜Ïng pháp xuòt 3.1 Phẽng phỏp tá ẻng tĐo d liêu tńg c˜Ìng 3.1.1 Ph˜Ïng pháp t§o bóng £nh vń b£n 3.1.2 Ph˜Ïng pháp t§o £nh vń b£n b‡ bi∏n d§ng 3.2 Ph˜Ïng pháp phát hiªn b£ng £nh chˆp vń b£n 3.2.1 Các ki∏n trúc hÂc sâu cho viªc phát hiªn b£ng 3.2.2 Các m§ng cÏ b£n ˜Ịc s˚ dˆng lu™n vń 3.2.3 Các ph˜Ïng pháp làm phØng £nh chˆp vń b£n b‡ bi∏n d§ng 12 12 14 15 18 19 24 31 v 3.3 3.4 3.5 Phẽng phỏp nhn dĐng còu trúc b£ng Ph˜Ïng pháp ánh giá 3.4.1 Ph˜Ïng pháp ánh giá Ỵ xác cıa ph˜Ïng pháp phát hiªn ph˜Ïng phỏp nhn dĐng còu trỳc bÊng 3.4.2 Ph˜Ïng pháp ánh giá Ỵ xác cıa ph˜Ïng pháp làm phØng £nh vń b£n Các framework th˜ viªn s˚ dˆng Thác nghiêm 4.1 Bẻ d liêu 4.1.1 D˙ liªu cho nhiªm vˆ phát hiªn b£ng 4.1.2 D liêu cho nhiêm v nhn dĐng còu trỳc bÊng 4.2 K∏t qu£ hußn luyªn mơ hình hÂc sâu phát hiªn b£ng £nh vń b£n 4.3 K∏t qu£ làm phØng b£ng £nh vń b£n 4.4 Kt quÊ huòn luyên mụ hỡnh hc sõu nhn dĐng cßu trúc b£ng 32 35 35 36 37 39 39 39 40 41 46 49 K∏t lu™n 51 Tài liªu tham kh£o 53 vi Danh sách b£ng 2.1 2.2 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 ThËng kê t™p d˙ liªu £nh vń b£n cho bi toỏn phỏt hiên v nhn dĐng còu trỳc b£ng H˜Óng ti∏p c™n cıa nghiên c˘u s˚ dˆng hÂc sâu cho tốn phát hiªn b£ng £nh vń b£n Bẻ d liêu tng cèng cho nhiêm v phát hiªn b£ng Bẻ d liêu tng cèng cho nhiêm v nhn dĐng còu trỳc bÊng Thụng sậ huòn luyên cıa mơ hình K∏t quÊ huòn luyên mĐng phỏt hiên bÊng theo IoU K∏t qu£ hußn luyên mĐng phỏt hiên bÊng theo Precision, Recall v F1 ThËng kê k∏t qu£ ti∏p c™n theo h˜Ĩng th˘ nhßt ThËng kê k∏t qu£ ti∏p c™n theo h˜Óng th˘ hai ThËng kê k∏t qu£ k∏t hỊp gi˙a hai h˜Ĩng K∏t qu£ hußn luyên cỏc mụ hỡnh nhn dĐng còu trỳc bÊng vii 39 41 42 42 43 46 47 47 49 Danh sách hình v≥ 1.1 2.1 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 Minh hÂa £nh vń b£n T¯ trái sang ph£i: £nh chuy∫n Íi t¯ PDF, £nh scan £nh chˆp băng mỏy Ênh iên thoĐi Hình £nh minh hÂa cách thu th™p d˙ liªu 3D cıa £nh vń b£n bi∏n d§ng Trích t¯ [7] 10 Minh quỏ trỡnh tĐo d liêu T hình £nh vń b£n gËc bên trái, thơng qua b˜Ĩc bi∏n Íi, tơi thu ˜Ịc hình £nh vń b£n mơ ph‰ng ˜Ịc chˆp th¸c t∏ MỴt sË hình £nh bỴ d˙ liªu TableBank Minh hÂa cho hª màu HSV Minh hÂa cho q trình thêm bóng vào £nh Minh hÂa cho thu™t tốn t§o £nh vń b£n b‡ bi∏n d§ng Trích t¯ [16] Minh hÂa £nh hng ca a n sá bin dĐng Trớch t [16] Hình (a) (b) mơ t£ bi∏n d§ng g™p a nh‰ a lĨn Hình (c) (d) mơ tÊ bin dĐng bƠ cong a nh v a lÓn Énh mơ ph‰ng hình n∑n bỴ d˙ liªu DTD H˜Ĩng ti∏p c™n th˘ nhßt H˜Óng ti∏p c™n th˘ hai Ki∏n trúc tÍng quan cıa DeepLabv3+ So sánh tích ch™p thơng th˜Ìng (trái) tích ch™p m rỴng (ph£i) Minh hÂa cho tích ch™p phân tách theo chi∑u sâu Ki∏n trúc UperNet Ki∏n trúc cıa Mask R-CNN Trích [11] Ki∏n trúc cıa Cascade Mask R-CNN Trích [19] KhËi d˜ m§ng ResNet Trích [12] Ki∏n trúc cıa ResNet Trích [12] Ki∏n trúc tÍng quan cıa HRNetv2 Trích [24] Ki∏n trúc chi ti∏t cıa HRNetv2 Trích [24] viii 13 14 15 15 16 17 17 18 19 20 21 22 23 24 24 25 26 26 27 BÊng 4.3: Thụng sậ huòn luyên ca cỏc mụ hình Tên ki∏n trúc Cascade Mask R-CNN Cascade Mask R-CNN Cascade Mask R-CNN DeepLabv3+ UperNet UperNet M§ng cÏ b£n Hrnet2v_32w Swin-T Swin-S ResNet50 Swin-T Swin-S Pre-trained Coco Coco Coco Ade20k Ade20k Ade20k D liêu huòn luyên D liêu tng cèng D˙ liªu tńg c˜Ìng D˙ liªu tńg c˜Ìng D˙ liªu tńg c˜Ìng D˙ liªu tńg c˜Ìng D˙ liªu tńg c˜Ìng ¶u tiên, tơi ánh giá m§ng qua chø sË trung bình cıa IoU thơng qua hai m˘c Ỵ i∫m Ênh v hẻp giểi hĐn IoU im Ênh l viêc so sỏnh kt quÊ mt nĐ phõn oĐn dá oỏn v mt nĐ phõn oĐn gỏn nhón IoU hẻp giểi hĐn l kt quÊ so sỏnh tỡm mẻt hẻp giểi hĐn (hỡnh ch nht) bao quanh khu vác phõn oĐn ca cỏc bÊng v so sỏnh vểi hẻp giểi hĐn trờn khu vác phõn oĐn gỏn nhón Kt qu£ ánh giá ˜Ịc th∫ hiªn b£ng 4.4 v 4.5 MĐng CascadeTabNet ềc tụi thác hiên ỏnh giỏ trờn d liêu kim tra tụi xõy dáng nhăm so sỏnh hiêu quÊ ca bẻ d liêu tng cèng BÊng 4.4: Kt quÊ huòn luyên mĐng phỏt hiên b£ng theo IoU 42 43 B£ng 4.5: K∏t qu£ hußn luyên mĐng phỏt hiên bÊng theo Precision, Recall v F1 Do giểi hĐn v phản cng, tụi khụng th chÂn phiên b£n lÓn hÏn cıa Swin Trasformer Swin-B v Swin-L th nghiêm Nhỡn chung, cỏc mĐng ∑u có th∫ x˚ l˛ tËt b£ng nhìn rừ rng v phỏt hiên chớnh xỏc phản cĐnh ca bÊng b bin dĐng Hỡnh 4.4: Mẻt sậ trèng hềp phỏt hiên bÊng tật Bờn nhỏnh phõn oĐn ng nghổa, ki∏n trúc UperNet + Swin-S cÙng ã xßp xø th™m chí v˜Ịt hÏn ki∏n trúc DeepLabv3+ ResNet50 Bên nhánh phõn oĐn cỏ th, mẻt kin trỳc khỏc s dng Swin-S làm m§ng cÏ b£n Cascade RCNN + Swin-S cng Đt ẻ chớnh xỏc vềt trẻi hẽn so vểi cỏc kin trỳc cũn lĐi iu ny chng minh sá hiªu qu£ cıa ki∏n trúc Transformer nhiªm vˆ v∑ x˚ l˛ hình £nh MỴt i∫m ˛ khác dù m§ng UperNet + Swin-S cho k∏t qu£ v˜Ịt trỴi v∑ IoU i∫m £nh nhñg k∏t qu£ IoU hẻp giểi hĐn thòp iu ny mĐng ó oỏn tật phản ca bÊng nhng phản vin bÊng lĐi khụng quỏ n nh dđn n phản hẻp giểi hĐn b m rẻng so vểi hẻp giểi hĐn tht sá cıa b£ng Ngồi ra, m§ng phân o§n th∫ cho cỏc giỏ tr Precision thòp hẽn chỳng dá oỏn tha bÊng (cỏc bÊng ỳng vđn ềc phỏt hiên xác) Hình 4.5 mơ t£ tr˜Ìng hỊp nh˜ v™y 44 Hình 4.5: Các tr˜Ìng hỊp phát hiªn th¯a b£ng cıa m§ng phân o§n cá th∫ Các tr˜Ìng hỊp có th∫ ˜Ịc kh≠c phˆc th¸c th∏ băng logic nờn kt quÊ phỏt hiên ca cỏc mĐng phõn oĐn cỏ th vđn xem khỏ n nh Tuy nhiờn, cỏc mĐng phõn oĐn ng nghổa lĐi cú mẻt h§n ch∏ khó kh≠c phˆc hÏn ó b£ng gản s d b phỏt hiên thnh mẻt bÊng k∏t qu£ d¸ ốn có th∫ khơng Ín ‡nh Gi£ s˚ mỴt tr˜Ìng hỊp b£ng rõ nét nhñg kt quÊ mt nĐ phõn oĐn lĐi b mòt trờn mẻt phản bÊng iu ny cú th gõy Ênh hng ∏n ph¶n thu™t tốn làm phØng b£ng Hình 4.6: Các tr˜Ìng hỊp phát hiªn khơng Ín ‡nh dính b£ng ca cỏc mĐng phõn oĐn ng nghổa Ngoi ra, mẻt i∫m h§n ch∏ chung cıa mơ hình k∏t qu£ phát hiªn b£ng khơng có ˜Ìng vi∑n khơng q xác Dù có th∫ phát hiªn t˜Ïng Ëi v 45 trớ ca bÊng nhng phản cĐnh vin ca b£ng khơng ˜Ịc phát hiªn xác Hình 4.7: Các b£ng khơng có ˜Ìng vi∑n chã ˜Ịc phát hiªn xác 4.3 K∏t qu£ làm phØng b£ng £nh vń b£n Nh˜ ã trình bày ph¶n ph˜Ïng pháp ∑ xt, tơi ti∏p c™n tốn làm phØng b£ng thu ềc theo hểng Hểng th nhòt l phỏt hiên b£ng tr˜Ĩc sau ó tách riêng t¯ng ph¶n b£ng v thác hiên lm phỉng băng thut toỏn Hểng th˘ hai dùng m§ng hÂc sâu ∫ làm phØng cÊ tè giòy trểc thác hiên phỏt hiên bÊng Ph˜Ïng pháp ánh giá tính tốn tø lª b£ng ˜Ịc c≠t khĨp vĨi v‡ trí ˜Ịc ánh nhãn chø sË MS-SSIM sau làm phØng b£ng K∏t quÊ ca hểng x l th nhòt ềc th hiên b£ng b£ng 4.6 B£ng 4.6: ThËng kê k∏t qu£ tip cn theo hểng th nhòt Tờn mĐng Cascade Mask R-CNN + Hrnet2v_32w Cascade Mask R-CNN + Swin-T Cascade Mask R-CNN + Swin-S DeepLabv3+ + ResNet50 UperNet + Swin-T UperNet + Swin-S MS-SSIM 0.2407 0.2109 0.2753 0.2507 0.2489 0.2521 Tø lª c≠t ˜Ịc b£ng 0.8083 0.8417 0.9333 0.8667 0.825 0.8667 VĨi h˜Ĩng x˚ l˛ th˘ 2, tơi s˚ dˆng m§ng DewarpNet ∫ làm phØng vń b£n tr˜Óc ã vào mĐng phỏt hiên bÊng MĐng DewarpNet s dng d liêu 3D 46 huòn luyên nhng ròt tic tụi khụng cú thit b mụ phng lĐi d liêu Do ó tơi s˚ dˆng phiên b£n ã ˜Ịc hn luyên sặn ềc tỏc giÊ DewarpNet cụng bậ Kt quÊ cıa h˜Ĩng x˚ l˛ th˘ hai ˜Ịc th∫ hiªn b£ng 4.7 B£ng 4.7: ThËng kê k∏t qu£ ti∏p c™n theo h˜Ĩng th˘ hai Tên m§ng Cascade Mask R-CNN + Hrnet2v_32w Cascade Mask R-CNN + Swin-T Cascade Mask R-CNN + Swin-S DeepLabv3+ + ResNet50 UperNet + Swin-T UperNet + Swin-S MS-SSIM 0.2513 0.2416 0.2825 0.2721 0.2516 0.2683 Tø lª c≠t ˜Ịc b£ng 0.85 0.8917 0.95 0.8917 0.8 0.875 Tơi ó th nghiêm kt hềp hai hểng ó xuòt l§i B∑ m∞t vń b£n s≥ ˜Ịc làm phØng vĨi mĐng Dewarp Sau ú, thut toỏn phỏt hiên bÊng ềc áp dˆng ∫ tìm v‡ trí cıa t¯ng b£ng Các b£ng sau ó ˜Ịc tách riêng ti∏p tc ềc lm phỉng băng thut toỏn x l èng vi∑n K∏t qu£ thu ˜Òc b£ng 4.8 B£ng 4.8: ThËng kê k∏t qu£ k∏t hỊp gi˙a hai h˜Ĩng Tên m§ng Cascade Mask R-CNN + Hrnet2v_32w Cascade Mask R-CNN + Swin-T Cascade Mask R-CNN + Swin-S DeepLabv3+ + ResNet50 UperNet + Swin-T UperNet + Swin-S MS-SSIM 0.2504 0.2403 0.2672 0.2721 0.2524 0.2691 Tø lª c≠t ˜Ịc b£ng 0.85 0.8917 0.95 0.8917 0.8 0.875 TÍng k∏t l§i, ph˜Ïng pháp s˚ dˆng Cascade RCNN + Swin-S s˚ dˆng m§ng Dewarp ti∑n x˚ l˛ cho k∏t qu£ phát hiªn ˜Ịc nhi∑u b£ng gi lĐi chi tit bÊng tật nhòt Mẻt sậ kt qu£ b£ng ˜Òc c≠t tËt chã tËt ˜Òc th∫ hiªn hình d˜Ĩi ây 47 Hình 4.8: MỴt sË tr˜Ìng hỊp b£ng ã ˜Ịc làm phØng (£nh k∏t qu£ £nh chuy∫n t¯ ‡nh d§ng Word) Hình 4.9: MỴt sË tr˜Ìng hỊp b£ng chã ˜Ịc làm phØng (£nh k∏t qu£ £nh chuy∫n t¯ ‡nh d§ng Word) 48 4.4 Kt quÊ huòn luyên mụ hỡnh hc sõu nhn dĐng còu trỳc bÊng Tụi ó láa chn kin trỳc Cascade Mask R-CNN huòn luyên cho nhiêm v phát hiªn b£ng Tơi áp dˆng thơng sậ huòn luyên tẽng tá bÊng 4.3 Mụ hỡnh huòn luyên ềc ỏnh giỏ trờn bẻ Ênh 100 bÊng c≠t sát ánh nhãn v‡ trí bÊng nh tụi ó trỡnh by phản cỏc bẻ d liêu Kt quÊ huòn luyên ềc tụi ỏnh giỏ theo chø sË Precision, Recall F1 Áng thÌi so sánh vĨi mỴt nghiên c˘u s˚ dˆng ph˜Ïng pháp tẽng tá l CascadeTabNet [19] BÊng 4.9: Kt quÊ huòn luyên cỏc mụ hỡnh nhn dĐng còu trỳc bÊng Nhỡn chung, kt quÊ huòn luyên vểi d liêu tng cèng ca tụi cho kt quÊ phỏt hiên vềt trẻi so vĨi mơ hình CascadeTabNet bỴ £nh chˆp b£ng ã ˜Ịc c≠t sát Tuy nhiên, nhiªm vˆ phát hiªn ô, k∏t qu£ cıa ki∏n trúc Cascasde RCNN s˚ dˆng hai m§ng cÏ b£n Hrnet2v_32w Swin-S khơng chênh lªch nh˜ nhiªm vˆ phát hiªn b£ng Ki∏n trúc s˚ dˆng Swin-S cho chø sË Precision cao hẽn nhng lĐi cho sậ Recall thòp hẽn so vểi kin trỳc s dng Hrnet2v_32w v ẻ chờnh lêch khụng quỏ lển Mẻt sậ kt quÊ phỏt hiên ụ tật ềc th hiên hỡnh 4.10 Hỡnh 4.10: Mẻt sË k∏t qu£ phát hiªn tËt 49 Tuy nhiên, cỏc mĐng cha th hiên tật vểi cỏc trèng hềp b£ng q to (có q nhi∑u ơ), b‡ mÌ hoc phỏt hiên tha (cú th x l băng logic tẽng tá vểi nhiêm v phỏt hiên bÊng) Mẻt sậ k∏t qu£ khơng tËt ˜Ịc th∫ hiªn hình 4.11 Hỡnh 4.11: Mẻt sậ kt quÊ phỏt hiên ụ khụng tËt 50 K∏t lu™n Trong lu™n vń này, ã trỡnh by phẽng phỏp v thác nghiêm giÊi quyt bi toỏn phỏt hiên v nhn diên còu trỳc bÊng t Ênh bÊn băng cỏc mụ hỡnh hc sõu Theo ú, tụi hảu nh ó xõy dáng ềc cỏc ph˜Ïng pháp ∫ gi£i quy∏t vßn ∑ ∞t t ảu lun bao gm: ã Xõy dáng ềc bẻ d mụ phng Ênh chp bÊn băng cỏc thit b ghi hỡnh băng cỏc phẽng phỏp tá ẻng ã Huòn luyên cỏc mụ hỡnh phỏt hiên bÊng Ênh bÊn dáa trờn bẻ d liêu xõy dáng ˜Ịc • Ÿng dˆng ph˜Ïng pháp ∫ x˚ l˛ Ênh ti liêu b bin dĐng hu x l kt quÊ phỏt hiên bÊng thu ềc ã Huòn luyên mơ hình phát hiªn b£ng t¯ £nh b£ng ã ˜Òc x˚ l˛ (tách riêng làm phØng) ã Xõy dáng v gn ềc mẻt bẻ d liêu Ênh chp bÊn băng cỏc thit b ghi hỡnh băng phẽng phỏp th cụng ỏnh giỏ kt quÊ S dng cỏc phẽng phỏp tá ẻng, tụi ó tĐo ềc bẻ d liêu lển gm 22000 Ênh bÊn v 42028 Ênh bÊng huòn luyên cỏc mụ hỡnh hc sõu t Chòt lềng bẻ d liêu tẽng Ëi giËng £nh chˆp vń b£n th¸c t∏ Tuy nhiờn, bẻ d liêu ca tụi cú hĐn ch l cha mụ phng ềc mẻt sậ hiêu ng ca Ênh chp bÊn thác t nh viêc chi tit phớa sau bÊn xuòt hiên trờn v mt trểc (do gißy q m‰ng ho∞c in ™m) Ngồi ra, tơi cÙng ã thu th™p gán nhãn thı t™p mỴt d liêu thác t gm 100 Ênh bÊn 100 £nh b£ng ∫ ki∫m tra mơ hình ó huòn luyên Vểi phẽng phỏp phỏt hiên bÊng, cỏc ki∏n trúc hÂc sâu phân o§n ng˙ nghỉa phân oĐn cỏ th u cú th giÊi quyt tật vòn ∑ Tuy nhiên, ki∏n trúc phân o§n cá th∫ s≥ cho k∏t qu£ Ín ‡nh tin c™y hÏn Các ki∏n trúc phân o§n 51 ng˙ nghỉa lúc s≥ cho k∏t qu£ phát hiªn b£ng xác hÏn nhñg k∏t qu£ thi∏u Ín ‡nh khơng tËt vĨi b£ng q g¶n K∏t qu£ tật nhòt ca cỏc mụ hỡnh phỏt hiên bÊng l chø sË IoU i∫m £nh lên ∏n 0.96 chø sË F1 0.83 (khi xét b£ng d¸ ốn có IoU > 0.9 ˜Ịc tính xác) Ph˜Ïng pháp làm phØng b£ng cÙng cho k∏t qu£ tËt Cˆ th∫, tø lª c≠t b£ng làm phØng b£ng thành cơng lên ∏n 95% Tuy nhiên, tr˜Ìng hỊp £nh vń b£n b‡ bi∏n d§ng q lĨn t™p d liêu kim tra vđn cha ềc x l tật Cỏc trèng hềp ny cú th giÊi quyt băng cỏc ph˜Ïng pháp làm phØng tồn bỴ vń b£n Tuy nhiên, hĐn ch v d liêu, tụi cha th huòn luyên lĐi cỏc mụ hỡnh hc sõu cho nhiêm v làm phØng £nh vń b£n H§n ch∏ cÙng có th∫ tơi ã k˝ vÂng có th∫ gi£i quy∏t cỏc trèng hềp quỏ khú Khi xõy dáng bẻ d liêu kim tra, tụi ó ch ẻng chp cỏc Ênh bÊn cú bin dĐng lển Trong thác t, chˆp £nh vń b£n ∫ Âc thơng tin, t lª £nh có bi∏n d§ng q lĨn nh˜ v™y khỏ thòp Vểi phẽng phỏp nhn dĐng còu trỳc bÊng, k∏t qu£ ci tơi §t ˜Ịc tËt hÏn so sánh vĨi nghiên c˘u tr˜Ĩc ó d˙ liªu £nh chˆp vń b£n Chø sË F1 phát hiªn cıa tơi 0.76 Trên t™p d˙ liªu ki∫m tra, vĨi tr˜Ìng hỊp £nh b£ng rõ ràng, h¶u nh˜ b£ng ∑u ˜Ịc phát hiªn xác Tuy nhiên, ph˜Ïng pháp tơi ã phát tri∫n có h§n ch∏ vĨi tr˜Ìng hỊp b£ng q to (trong nỴi dung q nh‰) £nh b‡ mÌ Thơng qua lu™n vń này, tơi ã nghiờn cu v thác nghiêm cỏc kin thc v ch phỏt hiên v nhn dĐng bÊng Ênh bÊn õy l mẻt ch thit thác v cú tính ˘ng dˆng cao thÌi §i chuy∫n Íi sË VĨi k∏t qu£ thu ˜Ịc, tơi tin h˜Ĩng ti∏p c™n ph˜Ïng pháp phát tri∫n có th∫ ˜Ịc áp dˆng tốn th¸c t∏ cˆ th∫ vểi yờu cảu ẻ chớnh xỏc cao Trong quỏ trỡnh nghiên c˘u, ã c™p nh™p ki∏n th˘c v∑ mơ hình Transformer cıa hÂc sâu x˚ l˛ hình Ênh Khi ảu, Transformer l mẻt kin trỳc ềc phỏt tri∫n nghiên c˘u v∑ x˚ l˛ ngôn ng˙ tá nhiờn Gản õy, cỏc mụ hỡnh mĐng ng dng Transformer hc sõu ó chng minh ềc sá hiêu qu£ t˜Ïng ˜Ïng m§ng nÏ ron tích ch™p nhiªm vˆ x˚ l˛ hình £nh Trong lu™n vń này, m§ng hÂc sâu s˚ dˆng Transformer ã t‰ vềt trẻi so vểi cỏc mĐng s dng tớch chp truy∑n thËng Trong t˜Ïng lai, h˜Ĩng nghiên c˘u cıa tơi t™p trung gi£i quy∏t toán x˚ l˛ hỡnh Ênh thác t Nu cú iu kiên, tụi s≥ ti∏p tˆc nghiên c˘u hồn thiªn tốn phỏt hiên v nhn dĐng còu trỳc bÊng Ênh vń b£n ( ∞c biªt vĨi nhiªm vˆ làm phØng £nh vń b£n b‡ bi∏n d§ng) Ngồi b£ng, tơi cÙng s≥ nghiên c˘u ∫ x˚ l˛ Ëi t˜Òng khác nh˜ hình v≥, o§n vń b£n £nh vń b£n 52 Tài liªu tham kh£o [1] Madhav Agarwal, Ajoy Mondal, and CV Jawahar Cdec-net: Composite deformable cascade network for table detection in document images In 2020 25th International Conference on Pattern Recognition (ICPR), pages 9491– 9498 IEEE, 2021 [2] Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, and Mita Nasipuri Rectinet-v2: A stacked network architecture for document image dewarping, 2021 [3] F Cesarini, S Marinai, L Sarti, and G Soda Trainable table location in document images In 2002 International Conference on Pattern Recognition, volume 3, pages 236–240 vol.3, 2002 [4] S Chandran and R Kasturi Structural recognition of tabulated data In Proceedings of 2nd International Conference on Document Analysis and Recognition (ICDAR ’93), pages 516–519, 1993 [5] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam Encoder-decoder with atrous separable convolution for semantic image segmentation, 2018 [6] M Cimpoi, S Maji, I Kokkinos, S Mohamed, , and A Vedaldi Describing textures in the wild In Proceedings of the IEEE Conf on Computer Vision and Pattern Recognition (CVPR), 2014 [7] Sagnik Das, Ke Ma, Zhixin Shu, Dimitris Samaras, and Roy Shilkrot Dewarpnet: Single-image document unwarping with stacked 3d and 2d regression networks In Proceedings of International Conference on Computer Vision, 2019 [8] Jing Fang, Xin Tao, Zhi Tang, Ruiheng Qiu, and Ying Liu Dataset, groundtruth and performance metrics for table detection evaluation In 2012 10th 53 IAPR International Workshop on Document Analysis Systems, pages 445– 449, 2012 [9] Liangcai Gao, Yilun Huang, Hervé Déjean, Jean-Luc Meunier, Qinqin Yan, Yu Fang, Florian Kleber, and Eva Lang Icdar 2019 competition on table detection and recognition (ctdar) In 2019 International Conference on Document Analysis and Recognition (ICDAR), pages 15101515, 2019 [10] Max Găobel, Tamir Hassan, Ermelinda Oro, and Giorgio Orsi Icdar 2013 table competition In 2013 12th International Conference on Document Analysis and Recognition, pages 1449–1453, 2013 [11] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick Mask r-cnn, 2017 [12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun Deep residual learning for image recognition, 2015 [13] Bernhard Krupl and Marcus Herzog Visually guided bottom-up table detection and segmentation in web documents Proceedings of the 15th international conference on World Wide Web, 2006 [14] Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li Tablebank: A benchmark dataset for table detection and recognition, 2019 [15] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo Swin transformer: Hierarchical vision transformer using shifted windows arXiv preprint arXiv:2103.14030, 2021 [16] Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, and Dimitris Samaras Docunet: Document image unwarping via a stacked u-net In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4700–4709, 2018 [17] Ermelinda Oro and Massimo Ruffolo Pdf-trex: An approach for recognizing and extracting tables from pdf documents In 2009 10th International Conference on Document Analysis and Recognition, pages 906–910, 2009 [18] Shubham Paliwal, Vishwanath D, Rohit Rahul, Monika Sharma, and Lovekesh Vig Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images, 2020 54 [19] Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave, and Kavita Sultanpure Cascadetabnet: An approach for end to end table detection and structure recognition from image-based documents, 2020 [20] Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed Deepdesrt: Deep learning for detection and structure recognition of tables in document images In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 01, pages 1162– 1167, 2017 [21] Asif Shahab, Faisal Shafait, Thomas Kieninger, and Andreas Dengel An open approach towards the benchmarking of table structure recognition systems In Proceedings of the 8th IAPR International Workshop on Document Analysis Systems - DAS '10 ACM Press, 2010 [22] Noah Siegel, Nicholas Lourie, Russell Power, and Waleed Ammar Extracting scientific figures with distantly supervised neural networks In Proceedings of the 18th ACM/IEEE on Joint Conference on Digital Libraries ACM, May 2018 [23] Ana Costa e Silva Learning rich hidden markov models in document analysis: Table location In 2009 10th International Conference on Document Analysis and Recognition, pages 843–847, 2009 [24] Ke Sun, Yang Zhao, Borui Jiang, Tianheng Cheng, Bin Xiao, Dong Liu, Yadong Mu, Xinggang Wang, Wenyu Liu, and Jingdong Wang Highresolution representations for labeling pixels and regions, 2019 [25] Yuandong Tian and Srinivasa G Narasimhan Rectification and 3d reconstruction of curved document images In CVPR 2011 IEEE, June 2011 [26] Vinh Quang Tran and Diep Thi-Ngoc Nguyen Automatic building of a large and straightforward dataset for image-based table structure recognition, 2021 [27] Adrian Ulges, Christoph H Lampert, and Thomas Breuel Document capture using stereo vision In Proceedings of the 2004 ACM symposium on Document engineering - DocEng '04 ACM Press, 2004 [28] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin Attention is all you need, 2017 55 [29] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, and Jian Sun Unified perceptual parsing for scene understanding, 2018 [30] A Yamashita, A Kawarago, T Kaneko, and K.T Miura Shape reconstruction and image restoration for non-flat surfaces of documents with a stereo vision system In Proceedings of the 17th International Conference on Pattern Recognition, 2004 ICPR 2004 IEEE, 2004 [31] Xu Zhong, Elaheh ShafieiBavani, and Antonio Jimeno Yepes Imagebased table recognition: data, model, and evaluation arXiv preprint arXiv:1911.10683, 2019 56 ... hÂc sâu cho nhiªm vˆ phát hiªn b£ng £nh bÊn băng cỏc d liêu ó tĐo Cỏc mụ hình hÂc sâu ˜Ịc s˚ dˆng s≥ mơ hình liên quan ∏n viªc phát hiªn Ëi t˜Ịng Ênh mểi nhòt ềc cp nhp tĐi thèi im nghiờn c˘u Trong. .. còu trúc b£ng £nh chˆp vń b£n ∫ gi£i quy∏t tốn ∞t ra, tơi ã phát tri∫n ph˜Ïng phỏp phỏt hiên v nhn dĐng còu trỳc bÊng dáa mơ hình hÂc sâu Ph˜Ïng pháp phát hiªn b£ng s≥ bao gÁm mơ hình hÂc sâu. .. th∏ cho DeepLabv3+ viªc s˚ dˆng tích ch™p phân tách theo chi∑u sâu Hãy tham kh£o hình 3.12 21 Hình 3.12: Minh hÂa cho tích ch™p phân tách theo chi∑u sâu Hi∫u Ïn gi£n, mỴt b£n Á ∞c trñg cıa hình

Tiêu đề	Phát Triển Mô Hình Học Sâu Cho Bài Toán Phát Hiện Bảng Và Nhận Dạng Cấu Trúc Của Bảng Trong Ảnh Văn Bản
Tác giả	Nguyễn Hoàng Anh
Người hướng dẫn	TS. Nguyễn Thái Ngọc Diệp
Trường học	Trường Đại Học Công Nghệ Quốc Gia Hà Nội
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	67
Dung lượng	13,59 MB

Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản

H˜Óng ti∏p c™n th˘ hai

Ki∏n trúc DewarpNet Trích [7]