Ki∏n trúc UperNet

Một phần của tài liệu Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản (Trang 34 - 38)

2 Các nghiên c˘u liên quan

3.13 Ki∏n trúc UperNet

Ph¶n ¶u cıa UperNet là mÎt m§ng phân o§n ng˙ nghæa thông th˜Ìng. Uper- Net s˚ dˆng ki∏n trúc m§ng kim t¸ tháp ∞c tr˜ng (Feature Pyramid Network). ây là ki∏n trúc cÏ b£n cho phép tÍng hÒp các ∞c tr˜ng cıa £nh nhi∑u cßp Î

nên rßt thích hÒp vÓi nhiªm vˆ phân o§n ng˙nghæa. Sau ó, mang s˚dˆng nhi∑u khËi phân lo§i ∫phân biªt các ∞c tr˜ng thu ˜Òc t¯kim t¸tháp ∞c tr˜ng thành các Ëi t˜Òng trong t¯ng chı ∑ riêng (bËi c£nh, chßt liªu, Ëi t˜Òng...).

Ki∏n trúc hÂc sâu phân o§n cá th∫

Phân o§n cá th∫ là mÎt nhiªm vˆ không chø ánh nhãn cho mÎt i∫m £nh và còn ph£i xác ‡nh i∫m £nh ó thuÎc v∑ cá th∫ nào trong £nh. Gi£ s˚ trong £nh có 3 qu£ bóng sát nhau. Phân o§n ng˙nghæa s≥ xác ‡nh c£ 3 qu£ bóng ó thuÎc mÎt vùng phát hiªn và mang nhãn bóng. Trong khi ó, phân o§n cá th∫ l§i ph£i xác ‡nh ra 3 vùng mang nhãn bóng riêng biªt cho mÈi qu£bóng. Nh≠c ∏n phân o§n cá th∫, ki∏n trúc nÍi ti∏ng và truy∑n thËng nhßt chính là Mask R-CNN [11]. G¶n ây, Mask R-CNN ã ˜Òc phát tri∫n và có mÎt bi∏n th∫ có hiªu sußt cao và ã ˜Òc s˚dˆng trong mÎt nghiên c˘u liên quan ∏n viªc phát hiªn b£ng ó chính là Cascade Mask R-CNN (s˚ dˆng trong CascadeTabNet [19]). Vì v™y, tôi quy∏t

‡nh chÂn Cascade Mask R-CNN là ki∏n trúc cho nhiªm vˆ phát hiªn b£ng b¨ng phân o§n cá th∫. ∫hi∫u Cascade Mask R-CNN, tr˜Óc h∏t chúng ta ph£i xem xét l§i ki∏n trúc cıa Mask R-CNN.

Hình 3.14: Ki∏n trúc cıa Mask R-CNN. Trích [11].

Mask R-CNN là mÎt ki∏n trúc m§ng hai giai o§n. Trong giai o§n mÎt, m§ng s≥dùng m§ng cÏb£n ∫trích xußt ∞c tr˜ng cıa £nh. Sau ó, m§ng RPN (Region Proposal NetworkR) ˜Òc s˚ dˆng ∫ oán v‡ trí các Ëi t˜Òng trong b£n Á ∞c tr˜ng (th∫ hiªn b¨ng các hÎp phát hiªn giÓi h§n). Sau ó, vùng ∞c tr˜ng t§i các hÎp phát hiªn giÓi h§n này ˜Òc x˚ l˛ trong giai o§n 2 ∫ oán ra vùng phân o§n và nhãn cıa Ëi t˜Òng bên trong. Bây giÌ, chúng ta hãy nhìn sang mô hình cıa m§ng Cascade Mask R-CNN trong hình 3.15

Hình 3.15: Ki∏n trúc cıa Cascade Mask R-CNN. Trích [19].

Nhìn chung, ki∏n trúc cıa Cascade Mask R-CNN v®n là hai giai o§n t˜Ïng t¸

nh˜Mask R-CNN. i∫m khác biªt n¨m viªc Mask R-CNN chøs˚dˆng RPN ∫

d¸ oán các hÎp phát hiªn giÓi h§n cıa các Ëi t˜Òng mÎt l¶n nh˜ng  Cascade Mask R-CNN là 4 l¶n. Viªc tinh chønh nhi∑u l¶n liên ti∏p giúp cho k∏t qu£ cuËi cùng cıa m§ng có Î chính xác cao hÏn so vÓi m§ng Mask R-CNN cÏ b£n.

3.2.2 Các m§ng cÏ b£n ˜Òc s˚ dˆng trong lun v´n

M§ng cÏ b£n (hay backbone) là nh˙ng ki∏n trúc hÂc sâu ˜Òc s˚dˆng ∫trích xußt ∞c tr˜ng hình£nh trong các ki∏n trúc hÂc sâu. Chúng th˜Ìng xußt phát i∫m là nh˙ng m§ng hÂc sâu nh˜ng ˜Òc lo§i b‰các lÓp d¸ oáncuËi cùng. ∞c i∫m cıa các m§ng này là ã ˜Òc hußn luyªn trên nh˙ng bÎd˙liªu rßt lÓn và chúng ã

hÂc ˜Òc cách ∫ bi∫u diπn ∞c tr˜ng cıa hình £nh tËt nhßt. Trong lu™n v´n này, tôi ã s˚dˆng 3 m§ng cÏ b£n là ResNet50 [12], HRNet [24] và Swin Transformer [15].

Resnet50

ResNet - Residual Network là mÎt m§ng phân biªt hình £nh ˜Òc giÓi thiªu bi Microsoft t¯n´m 2015. ây là mÎt trong nh˙ng m§ng cÏ b£n ˜Òc ˘ng dˆng nhi∑u nhßt trong th∏giÓi hÂc sâu. ResNet cÙng là mÎt m§ng nÏron tích ch™p bình th˜Ìng s˚dˆng các khËi tích ch™p, pooling, kích ho§t và k∏t nËi ¶y ı. Tính cách m§ng cıa ResNet là viªc áp dˆng khËi d˜(Residual Block) vào trong m§ng nÏron tích ch™p. Hình 3.16 mô t£ ki∏n trúc cıa khËi d˜.

Hình 3.16: KhËi d˜trong m§ng ResNet. Trích [12].

i∫m ∞c biªt cıa khËi d˜ là viªc thêm vào mÎt k∏t nËi t≠t xuyên qua các lÓp thông th˜Ìng cıa m§ng nÏ ron tích ch™p. T§i thÌi i∫m ó, các nhà nghiên c˘u th˜Ìng tìm cách thêm các lÓp thông th˜Ìng làm m§ng nÏ ron tr lên "sâu hÏn" và t´ng kh£ n´ng hÂc. Tuy nhiên, viªc thêm quá nhi∑u lÓp vào m§ng gây ra hiªn t˜Òng §o hàm bi∏n mßt. i∑u này x£y ra khi các giá tr‡ §o hàm qua nhi∑u phép toán trnên quá nh‰. H™u qu£là các lÓp ¶u m§ng không ˜Òc c™p nh™p và hiªu sußt cıa m§ng b‡gi£m. Viªc thêm mÎt k∏t nËi t≠t xuyên qua các lÓp thông th˜Ìng giúp ResNet gi£i quy∏t ˜Òc vßn ∑ này. Các lÓp n¨m gi˙a k∏t nËi s≥ ˜Òc hußn luyªn theo xu h˜Óng hÂc thêm ˜Òc mÎt ph¶n t¯các ∞c tr˜ng ¶u vào (ph¶n d˜). N∏u chúng hÂc ˜Òc, ∞c tr˜ng sau khi ra kh‰i khËi s≥ tËt hÏn. Còn n∏u chúng không hÂc ˜Òc, k∏t nËi t≠t s≥ £m b£o cho gradient v®n ˜Òc gi˙và truy∑n ng˜Òc l§i các lÓp tr˜Óc và tránh ˜Òc hiªn t˜Òng §o hàm bi∏n mßt. NhÌ có ∞c i∫m này mà khi ra m≠t, ResNet ã tr nên v˜Òt trÎi hoàn toàn so vÓi các m§ng hÂc sâu cùng thÌi i∫m nhÌ viªc có th∫ thêm vào m§ng tÓi 152 lÓp tích ch™p. Ki∏n trúc cıa ResNet ˜Òc th∫ hiªn trong b£ng 3.17.

Hình 3.17: Ki∏n trúc cıa ResNet. Trích [12].

HRNet

HRNetv2 - High-Resolution Net hay m§ng Îphân gi£i cao không ph£i là mÎt ki∏n trúc m§ng cÏ b£n thông th˜Ìng. ây là mÎt ki∏n trúc m§ng cho nhiªm vˆ

phân o§n ng˙nghæa. Tuy nhiên, trong khuôn khÍlu™n v´n này, HRNetv2 ˜Òc s˚

dˆng làm m§ng cÏ b£n cho ki∏n trúc Cascade Mask R-CNN. Ki∏n trúc cıa m§ng

˜Òc th∫ hiªn trong hình 3.18 và 3.19.

Hình 3.19: Ki∏n trúc chi ti∏t cıa HRNetv2. Trích [24].

Nhìn chung, HRNetv2 là mÎt m§ng bËn giai o§n. T§i mÈi giai o§n, HRNetv2 l§i s˚ dˆng ∞c tr˜ng t¯ nh˙ng cßp Î khác nhau ∫ tÍng hÒp thông tin cıa £nh. SË cßp Î ∞c tr˜ng s˚ dˆng trong mÈi giai o§n t˜Ïng ˘ng vÓi th˘ t¸ cıa giai o§n ó. Giai o§n mÎt m§ng s˚ dˆng 1 cßp ∞c tr˜ng. Giai o§n hai m§ng s˚

dˆng 2 cßp Î ∞c tr˜ng. Giai o§n ba m§ng s˚dˆng 3 cßp và giai o§n bËn m§ng s˚dˆng 4 cßp ∞c tr˜ng. NhÌki∏n trúc này mà m§ng có th∫ hÂc các ∞c tr˜ng cıa

£nh rßt tËt và ˜Òc ˘ng dˆng làm m§ng cÏ b£n trong các ki∏n trúc phát hiªn Ëi t˜Òng ho∞c phân o§n cá th∫.

Swin Transformer

Transformer là t¯ khóa rßt nóng trong th∏ giÓi hÂc sâu g¶n ây. Khi nguÁn là các kˇ thu™t và mô hình s˚ dˆng trong x˚ l˛ ngôn ng˙ t¸ nhiên. Transformer ã d¶n ˜Òc ˘ng dˆng trong rßt nhi∑u ki∏n trúc hÂc sâu cıa x˚l˛ £nh. Khác vÓi các m§ng nÏ ron tích ch™p truy∑n thËng vÓi phép tích ch™p là cËt lõi, Transformer s˚

dˆng các khËi MSA (Multi-Head Self Attention) làm cËt lõi. Hình 3.20 mô t£khËi MSA.

Một phần của tài liệu Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản (Trang 34 - 38)

Tải bản đầy đủ (PDF)

(67 trang)