Mô hình SËchi∑u ¶u ra SË l˜Òng tham sË Î chính xác trên
bÎ d˙ liªu ImageNet
DINO ViT-S/16 384 21M 74,5
DINO ViT-S/8 384 21M 78,3
DINO ViT-B/16 768 85M 76,1
DINO ViT-B/8 768 85M 74,4
Qua các ánh giá th˚nghiªm ˜Òc nêu trong Ch˜Ïng 4cho thßy ph˜Ïng pháp này em l§i hiªu qu£ cao nhßt trên t™p d˙ liªu ánh giá. Khi ˜Òc so sánh vÓi các mô hình hÂc có giám sát ˜Òc tinh chønh l§i b¨ng cách hußn luyªn vÓi bÎ d˙ liªu các
Ëi t˜Òng Á hÂa thì mô hình DINO v®n có k∏t qu£ tËt hÏn.
CÏ ch∏ cıa DINO là hÂc t¸giám sát vÓi trên t¯ng b˘c £nh nên s≥ hÂc ∞c tr˜ng
t¯ng d˙ liªu khác vÓi cách hÂc ∫ tìm ra các ∞c tr˜ng trên t¯ng lÓp nh˜ các mô hình hÂc có gi£m sát khác. Các i∫m m§nh cıa viªc s˚dˆng mô hình DINO ViT-S/16 trong b˜Óc trích xußt thuÎc tính cıa £nh ó là tái s˚ dˆng l§i các trÂng sË ã ˜Òc hußn luyªn sÆn và véc tÏ ∞c tr˜ng ¶u ra cıa mô hình không b‡ quá lÓn gây khó kh´n trong vßn ∑ l˜u tr˙.
3.1.3 Phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp
Chúng tôi th˚ nghiªm các ph˜Ïng pháp khác nhau nh˜ máy véc tÏ hÈ trÒ (support vector machine - SVM), k láng gi∑ng g¶n nhßt (k-nearest neighbors - KNN), r¯ng ng®u nhiên (random forest), phân lÓp tuy∏n tính (linear classifier) và k∏t hÒp các ph˜Ïng pháp này l§i vÓi nhau s˚ dˆng ph˜Ïng pháp k∏t hÒp (ensemble method). Các ph˜Ïng pháp này ˜Òc cài ∞t trong bÎ th˜ viªn sklearn.
3.2 Hª thËng tìm ki∏m Ëi t˜Òng Á hÂa
Mô hình chung cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa s≥ tuân theo các hai b˜Óc nh˜ ˜Òc mô t£trong nghiên c˘u [39] chúng tôi ã tóm t≠t l§i nh˜Hình 3.7. Trong ó hª thËng s≥ chu©n b‡ sÆn các bÎd˙ liªu ∫ tr£ v∑ k∏t qu£cho ng˜Ìi dùng các £nh trong các bÎ d˙ liªu này s≥ ˜Òc trích xußt ra các ∞c tr˜ng và ˜Òc l˜u tr˙ t§i các cÏ s d˙ liªu. Khi hª thËng nh™n ˜Òc mÎt £nh ¶u vào, các £nh ó s≥ cÙng s≥ ˜Òc trích xußt thuÎc tính và s˚ dˆng các ph˜Ïng pháp ∫ tính toán m˘c Ît˜Ïng t¸gi˙a thuÎc tính cıa£nh ¶u vào và các£nh trong cÏ s d˙liªu ∫ tr£v∑ các k∏t qu£ phù hÒp nhßt.
VÓi hª thËng tìm ki∏m các Ëi t˜Òng ÁhÂa s≥ có i∫m khác biªt là chø tìm ki∏m các Ëi t˜Òng Á hÂa trong £nh v´n b£n nên chúng tôi ã thêm vào mô hình ho§t
Îng mÎt b˜Óc ti∑n x˚ l˛ ó là xác ‡nh các Ëi t˜Òng Á hÂa. Các b˜Óc ho§t Îng cıa hª thËng ˜Òc mô t£nh˜trong Hình 3.8. Chi ti∏t các b˜Óc ˜Òc mô t£nh˜sau:
– Các £nh v´n b£n sau khi ˜Òc thu th™p t¯ các nguÁn khác nhau s≥ ˜Òc ©y vào hª thËng ∫ x˚l˛ qua b˜Óc xác ‡nh v‡ trí Ëi t˜Òng Á hÂa trong v´n b£n.
– ây chúng tôi s˚ dˆng mô hình YOLOv3.
– Các Ëi t˜Òng s≥ ˜Òc qua b˜Óc trích xußt thuÎc tính, chúng tôi s˚ dˆng mô hình DINO ViT-S/16. Các véc tÏ thuÎc tính s≥ ˜Òc l˜u tr˙ l§i trong cÏ s d˙
liªu b¨ng các tªp tin d§ng numpy.
Hình 3.7: Mô hình chung cıa các hª thËng tìm ki∏m £nh d¸a trên nÎi dung
∫ trích xußt thuÎc tính và tính toán Î t˜Ïng t¸ vÓi toàn bÎ các véc tÏ trong cÏ s d˙ liªu. Chúng tôi s˚dˆng Î o cô-sin ∫ tính toán m˘c Î t˜Ïng t¸.
– ∫ t´ng tËc Î tính toán m˘c Î t˜Ïng t¸ chúng tôi s˚ dˆng th˜ viªn faiss ∫
có th∫ t™n dˆng kh£ n´ng cıa bÎ x˚ l˛ Á hÂa GPU ∫ tính toán.
– K∏t qu£ ¶u ra cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa là danh sách các v´n b£n ch˘a các Ëi t˜Òng Á hÂa ˜Òc s≠p x∏p theo Î t˜Ïng t¸ t¯lÓn ∏n nh‰.
Ch˜Ïng 4
Th¸c nghiªm và k∏t qu£
4.1 BÎ d˙ liªu th¸c nghiªm