K∏t qu£ nh™n d§ng Ëi t˜Òn ga nhãn so sánh vÓi bài báo [1]

Một phần của tài liệu NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP (Trang 43)

BÎ d˙ liªu ki∫m tra Lo§i Ëi t˜Òng Faster R-CNN Mask R-CNN YOLOv3

mAP@.5 mAP@.5 mAP@.5

IIIT-AR-13k (Validation) B£ng 0.9554 0.9761 0.9880 Énh minh ho§ 0.8103 0.8391 0.9390 Énh th™t 0.8803 0.9174 0.9620 Bi∫u t˜Òng 0.6217 0.6434 0.7310 Ch˙ k˛ 0.9135 0.9391 0.9580 Trung bình 0.8362 0.8630 0.9150 IIIT-AR-13k (Test) B£ng 0.9392 0.9654 0.9840 Énh minh ho§ 0.8332 0.8686 0.9290 Énh th™t 0.8445 0.8945 0.9490 Bi∫u t˜Òng 0.4330 0.4699 0.5150 Ch˙ k˛ 0.8981 0.9115 0.9310 Trung bình 0.7896 0.8220 0.8620

K∏t qu£ khi th˚ nghiªm mô hình YOLOv3 khi ˜Òc hußn luyªn vÓi bÎ d˙ liªu IIT-AR-13k (training) sau 200 vòng và ˜Òc th˚ nghiªm trên 2 t™p d˙ liªu IIT-AR- 13k (validation) và IIT-AR-13k (test) trongB£ng 4.3. Î o dùng trong thí nghiªm là mAP@.5, k∏t qu£ thu ˜Òc khi em so sánh vÓi hai ph˜Ïng pháp khác là Faster R-CNN và Mask R-CNN. Trong ó k∏t qu£ cıa 2 ph˜Ïng pháp Faster R-CNN và Mask R-CNN ˜Òc lßy ra t¯ bài báo [1] cho thßy ph˜Ïng pháp YOLOv3 tËt hÏn 2 ph˜Ïng pháp cÙ.

B£ng 4.4: K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh các ph˜Ïng pháp khác

BÎ d˙ liªu ki∫m tra Tên lÓp YOLOv3 YOLOv4 YOLOv5 DETR

mAP mAP mAP mAP

IIIT-AR-13k (Validation) B£ng 0.9880 0.9890 0.9820 0.9733 Énh minh ho§ 0.9390 0.9300 0.8700 0.793 Énh th™t 0.9620 0.9540 0.8910 0.8531 Bi∫u t˜Òng 0.7310 0.8190 0.4840 0.345 Ch˙ k˛ 0.9580 0.9890 0.9350 0.5436 Trung bình 0.9150 0.9360 0.8320 0.7016 IIIT-AR-13k (Test) B£ng 0.9840 0.9830 0.9730 0.9735 Énh minh ho§ 0.9290 0.9350 0.8640 0.8131 Énh th™t 0.9490 0.9300 0.8650 0.8369 Bi∫u t˜Òng 0.5150 0.5130 0.4620 0.153 Ch˙ k˛ 0.9310 0.9290 0.9030 0.4683 Trung bình 0.8616 0.8580 0.8130 0.6489 Chúng tôi cÙng th˚ nghiªm hußn luyªn thêm các mô hình khác nh˜ YOLOv4, YOLOv5 và DETR [56] các k∏t qu£ tÍng hÒp trong B£ng 4.4 và các k∏t qu£ chi ti∏t hÏn ˜Òc ∑ c™p trong Hình 4.4. T¯ ó có th∫ ˜a ra các k∏t lu™n sau

– k∏t qu£ cıa YOLOv4 và YOLOv5 không cao hÏn quá nhi∑u so vÓi YOLOv3.

– Mô hình DETR s˚ dˆng mÎt ki∏n trúc mÓi là transformer cho bài toán nh™n d§ng Ëi t˜Òng ch˜a em l§i k∏t qu£ th¸c s¸ cao.

Do v™y trong lu™n v´n này chúng tôi l¸a chÂn YOLOv3 làm mô hình nh™n d§ng Ëi t˜Òng Á hÂa.

Hình 4.4: Chi ti∏t so sánh YOLOv3 YOLOv4 YOLOv5 và DETR

Th˚ nghiªm vÓi các bÎ d˙ liªu khác. Chúng tôi s˚ dˆng thêm 2 bÎ d˙ liªu khác là ICDAR-19 [16] và ICDAR-2017 [15], hai bÎ d˙ liªu này chø bao gÁm các b£ng. S˚

B£ng 4.5: K∏t qu£ nh™n d§ng b£ng khi so sánh vÓi các bÎ d˙ liªu khác

Tên bÎ

d˙liªu

Mask R-CNN YOLOv3 YOLOv4

R P F mAP R P F mAP R P F mAP ICDAR-19 (test) - - - - 0.7760 0.9100 0.8380 0.8100 0.6870 0.9240 0.7880 0.8260 ICDAR-19 (train) - - - - 0.8030 0.9220 0.8580 0.8620 0.6600 0.9150 0.7670 0.8390 ICDAR-19 (all) 0.8097 0.8224 0.8161 0.7478 0.7940 0.9180 0.8520 0.8450 0.6680 0.9180 0.7730 0.8390 ICDAR-17 (train) 0.8675 0.6311 0.7493 0.7509 0.8830 0.8490 0.8650 0.9070 0.8970 0.7140 0.7950 0.8890

ánh giá, k∏t qu£ ˜Òc mô t£ trong B£ng 4.5

4.3.2 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn

Qua các k∏t qu£ ˜Òc th˚ nghiªm trong bài toán nh™n d§ng Ëi t˜Òng a nhãn 

ph¶n trên chúng tôi thßy r¨ng mô hình YOLOv3 hiªu qu£ trong các bài toán nh™n d§ng Ëi t˜Òng Á hÂa. Áp dˆng mô hình YOLOv3 vào bài toán chính ó là nh™n d§ng Ëi t˜Òng Ïn nhãn trong ph¶n này chúng tôi coi tßt c£ các lÓp Ëi t˜Òng ∑u chø là mÎt lo§i duy nhßt là “ Ëi t˜Òng Á hÂa”.

Mô hình khi ˜Òc hußn luyªn vÓi bÎd˙ liªu IIT-AR-13k (training) sau 150 vòng và ˜Òc th˚ nghiªm trên 2 t™p d˙ liªu IIT-AR-13k (validation) và IIT-AR-13k (test) chi ti∏t quá trình hußn luyªn ˜Òc mô t£ trong B£ng 4.6 và Hình 4.5 . Î o dùng trong thí nghiªm là Î hÁi t˜ng (Recall), Î chính xác (Precision), mAP@.5 và mAP@.5:.95 thu ˜Òc Î chính xác khi nh™n d§ng §t xßp xø 97,7%.

B£ng 4.6: K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn

Î hÁi t˜ng (Recall)

Î chính xác

(Precision) mAP@.5 mAP@.5:.95 IIIT-AR-13k

(Validation) 0.9678 0.9657 0.978 0.8609 IIIT-AR-13k

(Test) 0.964 0.969 0.977 0.868

(a) ˜Ìng cong chính xác (b) ˜Ìng cong hÁi t˜ng (c) ˜Ìng cong F1

(d) Hàm mßt mát (e) Hàm mßt mát vÓi Box (f) Î o mAP

Hình 4.5: Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng Ïnnhãn nhãn

B£ng 4.7: BÎ d˙ liªu phân lo§i hình £nh

Tên lÓp Hußn luyªn ánh giá

B£ng 30 2222 Énh minh ho§ 30 481 Énh th™t 30 438 Bi∫u t˜Òng 30 67 Ch˙ k˛ 30 108 TÍng cÎng 150 3316 B£ng 4.8: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp Mô hình trích xußt thuÎc tính K-NN Linear classifier SVM Random forest Ensemble method TËt nhßt DINO ViT-S/16 0.8496 0.8940 0.8868 0.9037 0.9077 0.9077 ViT-S/16 0.8321 0.8481 0.8651 0.8629 0.8693 0.8693 Resnet 18 0.8462 0.8959 0.8775 0.8643 0.8840 0.8959 Resnet 50 0.8516 0.8727 0.8621 0.8621 0.8749 0.8749 Efficientnet b2 0.8360 0.9034 0.8292 0.8824 0.8990 0.9034 B£ng 4.9: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp tinh chønh mô hình

Mô hình phân lo§i Î chính xác trung bình

Resnet 18 84.25

Resnet 50 83.83

Efficientnet b2 83.97

4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Òng Á hÂa

Sau b˜Óc nh™n d§ng Ëi t˜Òng Ëi t˜Òng Á hÂa trên chúng ta s≥ thu ˜Òc các £nh nh‰ ˜Òc c≠t ra t¯ v‡ trí các Ëi t˜Òng và s˚ dˆng các ph˜Ïng pháp phân lo§i hình

£nh ∫ tìm ra nhãn cıa Ëi t˜Òng Á hÂa. BÎ d˙ liªu ˜Òc s˚ dˆng ∫ hußn luyªn mô hình phân lo§i bao gÁm 30 £nh mÈi lÓp Ëi t˜Òng. BÎ d˙ liªu ánh giá cıa mô

hình là các£nh ˘ng vÓi t¯ng lÓp  cıa bÎ d˙liªu IIIT-AR-13k (Validation). Chi ti∏t sË l˜Òng £nh các lÓp ˜Òc mô t£ trong B£ng 4.7. Chúng tôi ã th˚ nghiªm vÓi hai ph˜Ïng pháp phân lo§i khác nhau:

– Ph˜Ïng pháp th˘nhßt s˚dˆng các mô hình trích xußt thuÎc tính ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet bao gÁm (DINO ViT-S/16 , ViT- S/16, Resnet18, Resnet50 và Efficientnet b2) và s˚ dˆng các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest và k∏t hÒp tßt c£ các ph˜Ïng pháp ó l§i vÓi nhau (ensemble method). K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.8, chi ti∏t các k∏t qu£vÓi cách i∑u chønh thông sË khác nhau ˜Òc mô t£ trong ph¶n phˆ lˆc. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình DINO ViT-S/16 vÓi Î chính xác phân lo§i trung bình §t 90,77%.

– Ph˜Ïng pháp th˘hai chúng tôi th˚nghiªm ó là s˚dˆng các mô hình Resnet18, Resnet50 và Efficientnet b2 ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet và tinh chønh l§i b¨ng cách hußn luyªn l§i trên bÎ d˙ liªu các lÓp Ëi t˜Òng, các mô hình ˜Òc . K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.9. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình Resnet18 vÓi Î chính xác phân lo§i trung bình §t 84,25%.

4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp phân lo§i hình £nh

T¯ k∏t qu£ cıa hai ph˜Ïng pháp phân lo§i hình £nh ã ˜Òc mô t£ trong ph¶n trên chúng tôi l¸a chÂn ph˜Ïng pháp th˘ nhßt vÓi viªc s˚ dˆng DINO ViT-S/16 làm mô hình trích xußt thuÎc tính và k∏t hÒp các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest ∫ áp dˆng cho bài toán nh™n d§ng Ëi t˜Òng ÁhÂa. Các k∏t qu£ thu ˜Òc khi áp dˆng ph˜Ïng pháp phân lo§i £nh sau b˜Óc nh™n diªn Ëi t˜Òng ÁhÂa Ïn nhãn ˜Òc tÍng hÒp trongB£ng 4.10 Î o ˜Òc s˚dˆng là mAP@.5 §t các k∏t qu£:

B£ng 4.10: K∏t qu£ nh™n d§ng Ëi t˜Òng ÁhÂa Ïn nhãn k∏t hÒp vÓi phân lo§i hình

£nh

IIIT-AR-13k (Validation) IIIT-AR-13k (Test)

B£ng 0.9338 0.9338 Énh minh ho§ 0.5600 0.5605 Énh th™t 0.8097 0.8097 Bi∫u t˜Òng 0.5067 0.4490 Ch˙ k˛ 0.9219 0.9219 Trung bình 0.7464 0.7350 – 73,50% vÓi bÎ IIIT-AR-13k (Test) Ta có th∫ thßy vÓi b£ng, £nh th™t và ch˙k˛ có Î chính xác khá cao do các lÓp này có m˘c Î ∞c tr˜ng lÓn, trái l§i lÓp bi∫u t˜Òng có Î chính xác không cao do nh™p nh¨ng khi phân biªt gi˙a các bi∫u Á và b£ng và nh™p nh¨ng gi˙a bi∫u t˜Òng và£nh minh hÂa.

4.3.5 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu v´n b£n hành chính

Chúng tôi có thu th™p thêm mÎt bÎ d˙ liªu là các báo cáo tài chính, báo cáo h¨ng n´m cıa 30 công ty có vËn hóa lÓn trong bÎ chø sË ˜Òc niêm y∏t t§i s giao d‡ch Ch˘ng Khoán – TPHCM (HOSE). BÎ d˙ liªu bao gÁm 2207 £nh v´n b£n d§ng scan và £nh chˆp có Î nhiπu lÓn và 613 £nh v´n b£n d§ng kˇ thu™t sË có Î nhiπu nh‰. Chúng tôi có s˚ dˆng ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu này và xem xét các k∏t qu£. BÎd˙liªu này hiªn t§i ch˜a ˜Òc gán nhãn ¶y ınên chúng tôi chø nêu ra mÎt vài các ví dˆ mà không nêu ra các sË liªu cˆ th∫. MÎt vài nh˙ng tr˜Ìng hÒp nh™n d§ng Ëi t˜Òng Á hÂa chính xác trong Hình 4.6. Và các tr˜Ìng hÒp nh™n d§ng chÂn ch˜a chính xác trong Hình 4.7.

lÂt ánh sáng khi scan s≥ gây nên nh¶m l®n cho mô hình khi nh™n d§ng nh˙ng vùng ó là b£ng.

Hình 4.6: Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng úng

4.4 K∏t qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

Bô d˙ liªu dùng trong các thí nghiªm gÁm 2 ph¶n nh˜ sau:

– BÎd˙liªu dùng ∫ tìm ki∏m: bao gÁm toàn bÎcác £nh là Ëi t˜Òng ÁhÂa ˜Òc c≠t ra t¯ các hÎp giÓi h§n trong bÎ d˙ liªu IIT-AR-13k(validation) và IIT-AR- 13k(test). Các v‡ trí cıa hÎp giÓi h§n là các nhãn chu©n cıa d˙ liªu. Các £nh nh‰này s≥ ˜Òc gán tên lÓp chính là tên cıa v´n b£n ch˘a £nh ó.

– BÎ d˙ liªu dùng ∫ cho vào cÏ s d˙ liªu ˜Òc chu©n b‡ nh˜ sau.

– ˜a toàn bÎ các £nh trong hai t™p d˙ liªu IIT-AR-13k(validation) và IIT- AR-13k(test) vào trong mô hình YOLOv3 ã ˜Òc hußn luyªn ∫ nh™n ra các Ëi t˜Òng ÁhÂa. – ây chính là mô hình ˜Òc báo cáo trong ph¶n k∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn.

– ¶u ra cıa mô hình YOLOv3 này chính là v‡ trí cıa các hÎp giÓi h§n. T¯

các v‡ trí ó chúng tôi c≠t ra các £nh và ˜a qua các lo§i mô hình trích xußt thuÎc tính khác nhau bao gÁm: DINO, ViT, Resnet18, Resnet50, và Efficientnet b2.

Chi ti∏t v∑ k∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

˜Òc mô t£ trong B£ng 4.11. Trong ó ta có th∫ thßy khi s˚ dˆng DINO làm mô hình trích xußt thuÎc tính hình £nh thì k∏t qu£ tìm ki∏m §t ˜Òc cao nhßt recall top 3 §t 93,07%

B£ng 4.11: K∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m vÓi các mô hình tríchxußt thuÎc tính xußt thuÎc tính Recall top k B£ng Énh minh ho§ Énh th™t Bi∫u t˜Òng Ch˙ k˛ Trung bình t¯ng lÓp Trung bình t¯ng £nh DINO 1 0.8348 0.7966 0.9608 0.7612 0.9300 0.8567 0.8462

3 0.9305 0.8867 0.9866 0.8458 0.9800 0.9259 0.9307 5 0.9471 0.9078 0.9866 0.8507 0.9850 0.9354 0.9452 10 0.9651 0.9248 0.9888 0.8657 0.9850 0.9459 0.9604 50 0.9836 0.9470 0.9922 0.9005 0.9850 0.9617 0.9775 ViT 1 0.5992 0.6674 0.9474 0.7065 0.7950 0.7431 0.6610 3 0.7414 0.8061 0.9821 0.8259 0.9450 0.8601 0.7887 5 0.7864 0.8432 0.9821 0.8557 0.9600 0.8855 0.8257 10 0.8371 0.8941 0.9843 0.8706 0.9850 0.9142 0.8685 50 0.9292 0.9417 0.9888 0.9005 0.9900 0.9500 0.9393 Resnet18 1 0.8225 0.7871 0.9586 0.796 0.885 0.84984 0.8360 3 0.9193 0.8941 0.9832 0.8607 0.975 0.92646 0.9239 5 0.9421 0.9174 0.9854 0.8706 0.975 0.9381 0.9432 10 0.9585 0.9322 0.9866 0.8756 0.985 0.94758 0.9569 50 0.9819 0.9523 0.991 0.9055 0.99 0.96414 0.9771 Resnet50 1 0.8533 0.7638 0.9597 0.7562 0.9050 0.8476 0.8535 3 0.9330 0.8591 0.9854 0.8507 0.9750 0.9206 0.9286 5 0.9500 0.8867 0.9877 0.8607 0.9900 0.9350 0.9449 10 0.9624 0.9163 0.9888 0.8706 0.9900 0.9456 0.9577 50 0.9807 0.9460 0.9899 0.8856 0.9900 0.9584 0.9748 Efficientnet b2 1 0.8369 0.8061 0.9630 0.7512 0.8600 0.8434 0.8469 3 0.9205 0.8972 0.9810 0.8259 0.9650 0.9179 0.9236 5 0.9373 0.9206 0.9821 0.8358 0.9900 0.9332 0.9393 10 0.9552 0.9322 0.9832 0.8507 0.9900 0.9423 0.9537 50 0.9807 0.9544 0.9877 0.8905 0.9900 0.9607 0.9757

Ch˜Ïng 5

K∏t lu™n

Chuy∫n Íi sË, sË hóa v´n b£n ã em l§i nh˙ng lÒi ích vô cùng to lÓn cho các doanh nghiªp ó là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc. Các quy∏t ‡nh bây giÌ ˜Òc ˜a ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáo thông suËt k‡p thÌi, và tËi ˜u hóa ˜Òc n´ng sußt làm viªc cıa nhân viên. Trong các doanh nghiªp sË l˜Òng các v´n b£n báo cáo hàng ngày c¶n ph£i gi£i quy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u cıa ng˜Ìi dùng ngày giÌ ây không còn chø d¯ng l§i  viªc tìm ki∏m t¯ nÎi dung v´n b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡ và bi∫u Á.

Các hª thËng tìm ki∏m ÁhÂa muËn ho§t Îng tËt thì b˜Óc ¶u tiên ó là qu£n l˛ và t§o ra chø mˆc các Ëi t˜Òng Á hÂa trong v´n b£n. ∫ có th∫ ánh chø mˆc các Ëi t˜Òng ÁhÂa thì tr˜Óc h∏t chúng ta c¶n ph£i nh™n d§ng và phát hiªn các Ëi t˜Òng này. a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong

£nh v´n b£n hiªn nay muËn §t ˜Òc các k∏t qu£ tËt thì c¶n ph£i ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıa Ëi t˜Òng ÁhÂa. Công s˘c ∫ gán nhãn cho các bÎ d˙liªu này là không h∑ nh‰hÏn n˙a thÌi gian b‰ra cÙng rßt lÓn. Do v™y trong lu™n v´n này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫ t™n dˆng bÎ d˙ liªu không ¶y ı v∑ tên nhãn cıa các lÓp ∫ nh™n d§ng các Ëi t˜Òng

Á hÂa. Nh˙ng óng góp chính cıa lu™n v´n bao gÁm.

v‡ Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n.

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á

hÂa vÓi bÎ d˙liªu có sË l˜Òng £nh mÈi lÓp h§n ch∏.

– Xây d¸ng và phát tri∫n hª thËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂa trong £nh v´n b£n.

Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa trong £nh v´n b£n ˜Òc trình bày trong lu™n v´n ã ˜Òc th˚ nghiªm và §t k∏t qu£ xßp xø 74% trên các bÎ d˙ liªu ki∫m th˚ và ánh giá. Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hª thËng tìm ki∏m và truy xußt các v´n b£n t¯ các Ëi t˜Òng Á hÂa cÙng §t ˜Òc các k∏t qu£ Î hÁi t˜ng §t 93,3%.

M∞c dù các k∏t qu£trên bÎd˙liªu có Îhiªu qu£tËt nh˜ng khi áp dˆng ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa trên các v´n b£n có Înhiπu lÓn và có n∏p gßp khó nh˜ £nh chˆp ho∞c £nh scan v´n b£n thì ph˜Ïng pháp v®n ch˜a ho§t Îng hiªu qu£. Do v™y h˜Óng nghiên c˘u trong t˜Ïng lai là c¶n c£i thiªn Î chính xác vÓi các v´n b£n có Î nhiπu lÓn nh˜ các £nh chˆp và £nh scan.

Tài liªu tham kh£o

[1] Ajoy Mondal, Peter Lipps, and CV Jawahar. Iiit-ar-13k: a new dataset for graph- ical object detection in documents. In International Workshop on Document Analysis Systems, pages 216–230. Springer, 2020.

[2] Mingxing Tan and Quoc Le. Efficientnet: Rethinking model scaling for convolu- tional neural networks. In International Conference on Machine Learning, pages 6105–6114. PMLR, 2019.

[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[4] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and har- nessing adversarial examples. arXiv preprint arXiv:1412.6572, 2014.

[5] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28:91–99, 2015.

Một phần của tài liệu NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP (Trang 43)