Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng

Một phần của tài liệu NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP (Trang 47 - 51)

Î hÁi t˜ng (Recall)

Î chính xác

(Precision) mAP@.5 mAP@.5:.95 IIIT-AR-13k

(Validation) 0.9678 0.9657 0.978 0.8609 IIIT-AR-13k

(Test) 0.964 0.969 0.977 0.868

(a) ˜Ìng cong chính xác (b) ˜Ìng cong hÁi t˜ng (c) ˜Ìng cong F1

(d) Hàm mßt mát (e) Hàm mßt mát vÓi Box (f) Î o mAP

Hình 4.5: Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng Ïnnhãn nhãn

B£ng 4.7: BÎ d˙ liªu phân lo§i hình £nh

Tên lÓp Hußn luyªn ánh giá

B£ng 30 2222 Énh minh ho§ 30 481 Énh th™t 30 438 Bi∫u t˜Òng 30 67 Ch˙ k˛ 30 108 TÍng cÎng 150 3316 B£ng 4.8: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp Mô hình trích xußt thuÎc tính K-NN Linear classifier SVM Random forest Ensemble method TËt nhßt DINO ViT-S/16 0.8496 0.8940 0.8868 0.9037 0.9077 0.9077 ViT-S/16 0.8321 0.8481 0.8651 0.8629 0.8693 0.8693 Resnet 18 0.8462 0.8959 0.8775 0.8643 0.8840 0.8959 Resnet 50 0.8516 0.8727 0.8621 0.8621 0.8749 0.8749 Efficientnet b2 0.8360 0.9034 0.8292 0.8824 0.8990 0.9034 B£ng 4.9: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp tinh chønh mô hình

Mô hình phân lo§i Î chính xác trung bình

Resnet 18 84.25

Resnet 50 83.83

Efficientnet b2 83.97

4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Òng Á hÂa

Sau b˜Óc nh™n d§ng Ëi t˜Òng Ëi t˜Òng Á hÂa trên chúng ta s≥ thu ˜Òc các £nh nh‰ ˜Òc c≠t ra t¯ v‡ trí các Ëi t˜Òng và s˚ dˆng các ph˜Ïng pháp phân lo§i hình

£nh ∫ tìm ra nhãn cıa Ëi t˜Òng Á hÂa. BÎ d˙ liªu ˜Òc s˚ dˆng ∫ hußn luyªn mô hình phân lo§i bao gÁm 30 £nh mÈi lÓp Ëi t˜Òng. BÎ d˙ liªu ánh giá cıa mô

hình là các£nh ˘ng vÓi t¯ng lÓp  cıa bÎ d˙liªu IIIT-AR-13k (Validation). Chi ti∏t sË l˜Òng £nh các lÓp ˜Òc mô t£ trong B£ng 4.7. Chúng tôi ã th˚ nghiªm vÓi hai ph˜Ïng pháp phân lo§i khác nhau:

– Ph˜Ïng pháp th˘nhßt s˚dˆng các mô hình trích xußt thuÎc tính ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet bao gÁm (DINO ViT-S/16 , ViT- S/16, Resnet18, Resnet50 và Efficientnet b2) và s˚ dˆng các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest và k∏t hÒp tßt c£ các ph˜Ïng pháp ó l§i vÓi nhau (ensemble method). K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.8, chi ti∏t các k∏t qu£vÓi cách i∑u chønh thông sË khác nhau ˜Òc mô t£ trong ph¶n phˆ lˆc. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình DINO ViT-S/16 vÓi Î chính xác phân lo§i trung bình §t 90,77%.

– Ph˜Ïng pháp th˘hai chúng tôi th˚nghiªm ó là s˚dˆng các mô hình Resnet18, Resnet50 và Efficientnet b2 ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet và tinh chønh l§i b¨ng cách hußn luyªn l§i trên bÎ d˙ liªu các lÓp Ëi t˜Òng, các mô hình ˜Òc . K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.9. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình Resnet18 vÓi Î chính xác phân lo§i trung bình §t 84,25%.

4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp phân lo§i hình £nh

T¯ k∏t qu£ cıa hai ph˜Ïng pháp phân lo§i hình £nh ã ˜Òc mô t£ trong ph¶n trên chúng tôi l¸a chÂn ph˜Ïng pháp th˘ nhßt vÓi viªc s˚ dˆng DINO ViT-S/16 làm mô hình trích xußt thuÎc tính và k∏t hÒp các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest ∫ áp dˆng cho bài toán nh™n d§ng Ëi t˜Òng ÁhÂa. Các k∏t qu£ thu ˜Òc khi áp dˆng ph˜Ïng pháp phân lo§i £nh sau b˜Óc nh™n diªn Ëi t˜Òng ÁhÂa Ïn nhãn ˜Òc tÍng hÒp trongB£ng 4.10 Î o ˜Òc s˚dˆng là mAP@.5 §t các k∏t qu£:

B£ng 4.10: K∏t qu£ nh™n d§ng Ëi t˜Òng ÁhÂa Ïn nhãn k∏t hÒp vÓi phân lo§i hình

£nh

IIIT-AR-13k (Validation) IIIT-AR-13k (Test)

B£ng 0.9338 0.9338 Énh minh ho§ 0.5600 0.5605 Énh th™t 0.8097 0.8097 Bi∫u t˜Òng 0.5067 0.4490 Ch˙ k˛ 0.9219 0.9219 Trung bình 0.7464 0.7350 – 73,50% vÓi bÎ IIIT-AR-13k (Test) Ta có th∫ thßy vÓi b£ng, £nh th™t và ch˙k˛ có Î chính xác khá cao do các lÓp này có m˘c Î ∞c tr˜ng lÓn, trái l§i lÓp bi∫u t˜Òng có Î chính xác không cao do nh™p nh¨ng khi phân biªt gi˙a các bi∫u Á và b£ng và nh™p nh¨ng gi˙a bi∫u t˜Òng và£nh minh hÂa.

4.3.5 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu v´n b£n hành chính

Chúng tôi có thu th™p thêm mÎt bÎ d˙ liªu là các báo cáo tài chính, báo cáo h¨ng n´m cıa 30 công ty có vËn hóa lÓn trong bÎ chø sË ˜Òc niêm y∏t t§i s giao d‡ch Ch˘ng Khoán – TPHCM (HOSE). BÎ d˙ liªu bao gÁm 2207 £nh v´n b£n d§ng scan và £nh chˆp có Î nhiπu lÓn và 613 £nh v´n b£n d§ng kˇ thu™t sË có Î nhiπu nh‰. Chúng tôi có s˚ dˆng ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu này và xem xét các k∏t qu£. BÎd˙liªu này hiªn t§i ch˜a ˜Òc gán nhãn ¶y ınên chúng tôi chø nêu ra mÎt vài các ví dˆ mà không nêu ra các sË liªu cˆ th∫. MÎt vài nh˙ng tr˜Ìng hÒp nh™n d§ng Ëi t˜Òng Á hÂa chính xác trong Hình 4.6. Và các tr˜Ìng hÒp nh™n d§ng chÂn ch˜a chính xác trong Hình 4.7.

lÂt ánh sáng khi scan s≥ gây nên nh¶m l®n cho mô hình khi nh™n d§ng nh˙ng vùng ó là b£ng.

Một phần của tài liệu NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP (Trang 47 - 51)