2 Các nghiên c˘u liên quan
3.13 Ki∏n trúc UperNet
Ph¶n ¶u cıa UperNet là mÎt m§ng phân o§n ng˙ nghæa thông th˜Ìng. Uper- Net s˚ dˆng ki∏n trúc m§ng kim t¸ tháp ∞c tr˜ng (Feature Pyramid Network). ây là ki∏n trúc cÏ b£n cho phép tÍng hÒp các ∞c tr˜ng cıa £nh nhi∑u cßp Î
nên rßt thích hÒp vÓi nhiªm vˆ phân o§n ng˙nghæa. Sau ó, mang s˚dˆng nhi∑u khËi phân lo§i ∫phân biªt các ∞c tr˜ng thu ˜Òc t¯kim t¸tháp ∞c tr˜ng thành các Ëi t˜Òng trong t¯ng chı ∑ riêng (bËi c£nh, chßt liªu, Ëi t˜Òng...).
Ki∏n trúc hÂc sâu phân o§n cá th∫
Phân o§n cá th∫ là mÎt nhiªm vˆ không chø ánh nhãn cho mÎt i∫m £nh và còn ph£i xác ‡nh i∫m £nh ó thuÎc v∑ cá th∫ nào trong £nh. Gi£ s˚ trong £nh có 3 qu£ bóng sát nhau. Phân o§n ng˙nghæa s≥ xác ‡nh c£ 3 qu£ bóng ó thuÎc mÎt vùng phát hiªn và mang nhãn bóng. Trong khi ó, phân o§n cá th∫ l§i ph£i xác ‡nh ra 3 vùng mang nhãn bóng riêng biªt cho mÈi qu£bóng. Nh≠c ∏n phân o§n cá th∫, ki∏n trúc nÍi ti∏ng và truy∑n thËng nhßt chính là Mask R-CNN [11]. G¶n ây, Mask R-CNN ã ˜Òc phát tri∫n và có mÎt bi∏n th∫ có hiªu sußt cao và ã ˜Òc s˚dˆng trong mÎt nghiên c˘u liên quan ∏n viªc phát hiªn b£ng ó chính là Cascade Mask R-CNN (s˚ dˆng trong CascadeTabNet [19]). Vì v™y, tôi quy∏t
‡nh chÂn Cascade Mask R-CNN là ki∏n trúc cho nhiªm vˆ phát hiªn b£ng b¨ng phân o§n cá th∫. ∫hi∫u Cascade Mask R-CNN, tr˜Óc h∏t chúng ta ph£i xem xét l§i ki∏n trúc cıa Mask R-CNN.
Hình 3.14: Ki∏n trúc cıa Mask R-CNN. Trích [11].
Mask R-CNN là mÎt ki∏n trúc m§ng hai giai o§n. Trong giai o§n mÎt, m§ng s≥dùng m§ng cÏb£n ∫trích xußt ∞c tr˜ng cıa £nh. Sau ó, m§ng RPN (Region Proposal NetworkR) ˜Òc s˚ dˆng ∫ oán v‡ trí các Ëi t˜Òng trong b£n Á ∞c tr˜ng (th∫ hiªn b¨ng các hÎp phát hiªn giÓi h§n). Sau ó, vùng ∞c tr˜ng t§i các hÎp phát hiªn giÓi h§n này ˜Òc x˚ l˛ trong giai o§n 2 ∫ oán ra vùng phân o§n và nhãn cıa Ëi t˜Òng bên trong. Bây giÌ, chúng ta hãy nhìn sang mô hình cıa m§ng Cascade Mask R-CNN trong hình 3.15
Hình 3.15: Ki∏n trúc cıa Cascade Mask R-CNN. Trích [19].
Nhìn chung, ki∏n trúc cıa Cascade Mask R-CNN v®n là hai giai o§n t˜Ïng t¸
nh˜Mask R-CNN. i∫m khác biªt n¨m viªc Mask R-CNN chøs˚dˆng RPN ∫
d¸ oán các hÎp phát hiªn giÓi h§n cıa các Ëi t˜Òng mÎt l¶n nh˜ng Cascade Mask R-CNN là 4 l¶n. Viªc tinh chønh nhi∑u l¶n liên ti∏p giúp cho k∏t qu£ cuËi cùng cıa m§ng có Î chính xác cao hÏn so vÓi m§ng Mask R-CNN cÏ b£n.
3.2.2 Các m§ng cÏ b£n ˜Òc s˚ dˆng trong lu™n v´n
M§ng cÏ b£n (hay backbone) là nh˙ng ki∏n trúc hÂc sâu ˜Òc s˚dˆng ∫trích xußt ∞c tr˜ng hình£nh trong các ki∏n trúc hÂc sâu. Chúng th˜Ìng xußt phát i∫m là nh˙ng m§ng hÂc sâu nh˜ng ˜Òc lo§i b‰các lÓp d¸ oáncuËi cùng. ∞c i∫m cıa các m§ng này là ã ˜Òc hußn luyªn trên nh˙ng bÎd˙liªu rßt lÓn và chúng ã
hÂc ˜Òc cách ∫ bi∫u diπn ∞c tr˜ng cıa hình £nh tËt nhßt. Trong lu™n v´n này, tôi ã s˚dˆng 3 m§ng cÏ b£n là ResNet50 [12], HRNet [24] và Swin Transformer [15].
Resnet50
ResNet - Residual Network là mÎt m§ng phân biªt hình £nh ˜Òc giÓi thiªu bi Microsoft t¯n´m 2015. ây là mÎt trong nh˙ng m§ng cÏ b£n ˜Òc ˘ng dˆng nhi∑u nhßt trong th∏giÓi hÂc sâu. ResNet cÙng là mÎt m§ng nÏron tích ch™p bình th˜Ìng s˚dˆng các khËi tích ch™p, pooling, kích ho§t và k∏t nËi ¶y ı. Tính cách m§ng cıa ResNet là viªc áp dˆng khËi d˜(Residual Block) vào trong m§ng nÏron tích ch™p. Hình 3.16 mô t£ ki∏n trúc cıa khËi d˜.
Hình 3.16: KhËi d˜trong m§ng ResNet. Trích [12].
i∫m ∞c biªt cıa khËi d˜ là viªc thêm vào mÎt k∏t nËi t≠t xuyên qua các lÓp thông th˜Ìng cıa m§ng nÏ ron tích ch™p. T§i thÌi i∫m ó, các nhà nghiên c˘u th˜Ìng tìm cách thêm các lÓp thông th˜Ìng làm m§ng nÏ ron tr lên "sâu hÏn" và t´ng kh£ n´ng hÂc. Tuy nhiên, viªc thêm quá nhi∑u lÓp vào m§ng gây ra hiªn t˜Òng §o hàm bi∏n mßt. i∑u này x£y ra khi các giá tr‡ §o hàm qua nhi∑u phép toán trnên quá nh‰. H™u qu£là các lÓp ¶u m§ng không ˜Òc c™p nh™p và hiªu sußt cıa m§ng b‡gi£m. Viªc thêm mÎt k∏t nËi t≠t xuyên qua các lÓp thông th˜Ìng giúp ResNet gi£i quy∏t ˜Òc vßn ∑ này. Các lÓp n¨m gi˙a k∏t nËi s≥ ˜Òc hußn luyªn theo xu h˜Óng hÂc thêm ˜Òc mÎt ph¶n t¯các ∞c tr˜ng ¶u vào (ph¶n d˜). N∏u chúng hÂc ˜Òc, ∞c tr˜ng sau khi ra kh‰i khËi s≥ tËt hÏn. Còn n∏u chúng không hÂc ˜Òc, k∏t nËi t≠t s≥ £m b£o cho gradient v®n ˜Òc gi˙và truy∑n ng˜Òc l§i các lÓp tr˜Óc và tránh ˜Òc hiªn t˜Òng §o hàm bi∏n mßt. NhÌ có ∞c i∫m này mà khi ra m≠t, ResNet ã tr nên v˜Òt trÎi hoàn toàn so vÓi các m§ng hÂc sâu cùng thÌi i∫m nhÌ viªc có th∫ thêm vào m§ng tÓi 152 lÓp tích ch™p. Ki∏n trúc cıa ResNet ˜Òc th∫ hiªn trong b£ng 3.17.
Hình 3.17: Ki∏n trúc cıa ResNet. Trích [12].
HRNet
HRNetv2 - High-Resolution Net hay m§ng Îphân gi£i cao không ph£i là mÎt ki∏n trúc m§ng cÏ b£n thông th˜Ìng. ây là mÎt ki∏n trúc m§ng cho nhiªm vˆ
phân o§n ng˙nghæa. Tuy nhiên, trong khuôn khÍlu™n v´n này, HRNetv2 ˜Òc s˚
dˆng làm m§ng cÏ b£n cho ki∏n trúc Cascade Mask R-CNN. Ki∏n trúc cıa m§ng
˜Òc th∫ hiªn trong hình 3.18 và 3.19.
Hình 3.19: Ki∏n trúc chi ti∏t cıa HRNetv2. Trích [24].
Nhìn chung, HRNetv2 là mÎt m§ng bËn giai o§n. T§i mÈi giai o§n, HRNetv2 l§i s˚ dˆng ∞c tr˜ng t¯ nh˙ng cßp Î khác nhau ∫ tÍng hÒp thông tin cıa £nh. SË cßp Î ∞c tr˜ng s˚ dˆng trong mÈi giai o§n t˜Ïng ˘ng vÓi th˘ t¸ cıa giai o§n ó. Giai o§n mÎt m§ng s˚ dˆng 1 cßp ∞c tr˜ng. Giai o§n hai m§ng s˚
dˆng 2 cßp Î ∞c tr˜ng. Giai o§n ba m§ng s˚dˆng 3 cßp và giai o§n bËn m§ng s˚dˆng 4 cßp ∞c tr˜ng. NhÌki∏n trúc này mà m§ng có th∫ hÂc các ∞c tr˜ng cıa
£nh rßt tËt và ˜Òc ˘ng dˆng làm m§ng cÏ b£n trong các ki∏n trúc phát hiªn Ëi t˜Òng ho∞c phân o§n cá th∫.
Swin Transformer
Transformer là t¯ khóa rßt nóng trong th∏ giÓi hÂc sâu g¶n ây. Khi nguÁn là các kˇ thu™t và mô hình s˚ dˆng trong x˚ l˛ ngôn ng˙ t¸ nhiên. Transformer ã d¶n ˜Òc ˘ng dˆng trong rßt nhi∑u ki∏n trúc hÂc sâu cıa x˚l˛ £nh. Khác vÓi các m§ng nÏ ron tích ch™p truy∑n thËng vÓi phép tích ch™p là cËt lõi, Transformer s˚
dˆng các khËi MSA (Multi-Head Self Attention) làm cËt lõi. Hình 3.20 mô t£khËi MSA.