K∏t qu£ nh™n d§ng Ëi t˜Òn ga nhãn so sánh vÓi bài báo [1]

Một phần của tài liệu NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP (Trang 43)

BÎ d˙ liªu ki∫m tra Lo§i Ëi t˜Òng Faster R-CNN Mask R-CNN YOLOv3

mAP@.5 mAP@.5 mAP@.5

IIIT-AR-13k (Validation) B£ng 0.9554 0.9761 0.9880 Énh minh ho§ 0.8103 0.8391 0.9390 Énh th™t 0.8803 0.9174 0.9620 Bi∫u t˜Òng 0.6217 0.6434 0.7310 Ch˙ k˛ 0.9135 0.9391 0.9580 Trung bình 0.8362 0.8630 0.9150 IIIT-AR-13k (Test) B£ng 0.9392 0.9654 0.9840 Énh minh ho§ 0.8332 0.8686 0.9290 Énh th™t 0.8445 0.8945 0.9490 Bi∫u t˜Òng 0.4330 0.4699 0.5150 Ch˙ k˛ 0.8981 0.9115 0.9310 Trung bình 0.7896 0.8220 0.8620

K∏t qu£ khi th˚ nghiªm mô hình YOLOv3 khi ˜Òc hußn luyªn vÓi bÎ d˙ liªu IIT-AR-13k (training) sau 200 vòng và ˜Òc th˚ nghiªm trên 2 t™p d˙ liªu IIT-AR- 13k (validation) và IIT-AR-13k (test) trongB£ng 4.3. Î o dùng trong thí nghiªm là mAP@.5, k∏t qu£ thu ˜Òc khi em so sánh vÓi hai ph˜Ïng pháp khác là Faster R-CNN và Mask R-CNN. Trong ó k∏t qu£ cıa 2 ph˜Ïng pháp Faster R-CNN và Mask R-CNN ˜Òc lßy ra t¯ bài báo [1] cho thßy ph˜Ïng pháp YOLOv3 tËt hÏn 2 ph˜Ïng pháp cÙ.

B£ng 4.4: K∏t qu£ nh™n d§ng Ëi t˜Òng a nhãn so sánh các ph˜Ïng pháp khác

BÎ d˙ liªu ki∫m tra Tên lÓp YOLOv3 YOLOv4 YOLOv5 DETR

mAP mAP mAP mAP

IIIT-AR-13k (Validation) B£ng 0.9880 0.9890 0.9820 0.9733 Énh minh ho§ 0.9390 0.9300 0.8700 0.793 Énh th™t 0.9620 0.9540 0.8910 0.8531 Bi∫u t˜Òng 0.7310 0.8190 0.4840 0.345 Ch˙ k˛ 0.9580 0.9890 0.9350 0.5436 Trung bình 0.9150 0.9360 0.8320 0.7016 IIIT-AR-13k (Test) B£ng 0.9840 0.9830 0.9730 0.9735 Énh minh ho§ 0.9290 0.9350 0.8640 0.8131 Énh th™t 0.9490 0.9300 0.8650 0.8369 Bi∫u t˜Òng 0.5150 0.5130 0.4620 0.153 Ch˙ k˛ 0.9310 0.9290 0.9030 0.4683 Trung bình 0.8616 0.8580 0.8130 0.6489 Chúng tôi cÙng th˚ nghiªm hußn luyªn thêm các mô hình khác nh˜ YOLOv4, YOLOv5 và DETR [56] các k∏t qu£ tÍng hÒp trong B£ng 4.4 và các k∏t qu£ chi ti∏t hÏn ˜Òc ∑ c™p trong Hình 4.4. T¯ ó có th∫ ˜a ra các k∏t lu™n sau

– k∏t qu£ cıa YOLOv4 và YOLOv5 không cao hÏn quá nhi∑u so vÓi YOLOv3.

– Mô hình DETR s˚ dˆng mÎt ki∏n trúc mÓi là transformer cho bài toán nh™n d§ng Ëi t˜Òng ch˜a em l§i k∏t qu£ th¸c s¸ cao.

Do v™y trong lu™n v´n này chúng tôi l¸a chÂn YOLOv3 làm mô hình nh™n d§ng Ëi t˜Òng Á hÂa.

Hình 4.4: Chi ti∏t so sánh YOLOv3 YOLOv4 YOLOv5 và DETR

Th˚ nghiªm vÓi các bÎ d˙ liªu khác. Chúng tôi s˚ dˆng thêm 2 bÎ d˙ liªu khác là ICDAR-19 [16] và ICDAR-2017 [15], hai bÎ d˙ liªu này chø bao gÁm các b£ng. S˚

B£ng 4.5: K∏t qu£ nh™n d§ng b£ng khi so sánh vÓi các bÎ d˙ liªu khác

Tên bÎ

d˙liªu

Mask R-CNN YOLOv3 YOLOv4

R P F mAP R P F mAP R P F mAP ICDAR-19 (test) - - - - 0.7760 0.9100 0.8380 0.8100 0.6870 0.9240 0.7880 0.8260 ICDAR-19 (train) - - - - 0.8030 0.9220 0.8580 0.8620 0.6600 0.9150 0.7670 0.8390 ICDAR-19 (all) 0.8097 0.8224 0.8161 0.7478 0.7940 0.9180 0.8520 0.8450 0.6680 0.9180 0.7730 0.8390 ICDAR-17 (train) 0.8675 0.6311 0.7493 0.7509 0.8830 0.8490 0.8650 0.9070 0.8970 0.7140 0.7950 0.8890

ánh giá, k∏t qu£ ˜Òc mô t£ trong B£ng 4.5

4.3.2 K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn

Qua các k∏t qu£ ˜Òc th˚ nghiªm trong bài toán nh™n d§ng Ëi t˜Òng a nhãn 

ph¶n trên chúng tôi thßy r¨ng mô hình YOLOv3 hiªu qu£ trong các bài toán nh™n d§ng Ëi t˜Òng Á hÂa. Áp dˆng mô hình YOLOv3 vào bài toán chính ó là nh™n d§ng Ëi t˜Òng Ïn nhãn trong ph¶n này chúng tôi coi tßt c£ các lÓp Ëi t˜Òng ∑u chø là mÎt lo§i duy nhßt là “ Ëi t˜Òng Á hÂa”.

Mô hình khi ˜Òc hußn luyªn vÓi bÎd˙ liªu IIT-AR-13k (training) sau 150 vòng và ˜Òc th˚ nghiªm trên 2 t™p d˙ liªu IIT-AR-13k (validation) và IIT-AR-13k (test) chi ti∏t quá trình hußn luyªn ˜Òc mô t£ trong B£ng 4.6 và Hình 4.5 . Î o dùng trong thí nghiªm là Î hÁi t˜ng (Recall), Î chính xác (Precision), mAP@.5 và mAP@.5:.95 thu ˜Òc Î chính xác khi nh™n d§ng §t xßp xø 97,7%.

B£ng 4.6: K∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn

Î hÁi t˜ng (Recall)

Î chính xác

(Precision) mAP@.5 mAP@.5:.95 IIIT-AR-13k

(Validation) 0.9678 0.9657 0.978 0.8609 IIIT-AR-13k

(Test) 0.964 0.969 0.977 0.868

(a) ˜Ìng cong chính xác (b) ˜Ìng cong hÁi t˜ng (c) ˜Ìng cong F1

(d) Hàm mßt mát (e) Hàm mßt mát vÓi Box (f) Î o mAP

Hình 4.5: Chi ti∏t quá trình hußn luyªn mô hình YOLOv3 nh™n d§ng Ëi t˜Òng Ïnnhãn nhãn

B£ng 4.7: BÎ d˙ liªu phân lo§i hình £nh

Tên lÓp Hußn luyªn ánh giá

B£ng 30 2222 Énh minh ho§ 30 481 Énh th™t 30 438 Bi∫u t˜Òng 30 67 Ch˙ k˛ 30 108 TÍng cÎng 150 3316 B£ng 4.8: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hÒp Mô hình trích xußt thuÎc tính K-NN Linear classifier SVM Random forest Ensemble method TËt nhßt DINO ViT-S/16 0.8496 0.8940 0.8868 0.9037 0.9077 0.9077 ViT-S/16 0.8321 0.8481 0.8651 0.8629 0.8693 0.8693 Resnet 18 0.8462 0.8959 0.8775 0.8643 0.8840 0.8959 Resnet 50 0.8516 0.8727 0.8621 0.8621 0.8749 0.8749 Efficientnet b2 0.8360 0.9034 0.8292 0.8824 0.8990 0.9034 B£ng 4.9: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp tinh chønh mô hình

Mô hình phân lo§i Î chính xác trung bình

Resnet 18 84.25

Resnet 50 83.83

Efficientnet b2 83.97

4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Òng Á hÂa

Sau b˜Óc nh™n d§ng Ëi t˜Òng Ëi t˜Òng Á hÂa trên chúng ta s≥ thu ˜Òc các £nh nh‰ ˜Òc c≠t ra t¯ v‡ trí các Ëi t˜Òng và s˚ dˆng các ph˜Ïng pháp phân lo§i hình

£nh ∫ tìm ra nhãn cıa Ëi t˜Òng Á hÂa. BÎ d˙ liªu ˜Òc s˚ dˆng ∫ hußn luyªn mô hình phân lo§i bao gÁm 30 £nh mÈi lÓp Ëi t˜Òng. BÎ d˙ liªu ánh giá cıa mô

hình là các£nh ˘ng vÓi t¯ng lÓp  cıa bÎ d˙liªu IIIT-AR-13k (Validation). Chi ti∏t sË l˜Òng £nh các lÓp ˜Òc mô t£ trong B£ng 4.7. Chúng tôi ã th˚ nghiªm vÓi hai ph˜Ïng pháp phân lo§i khác nhau:

– Ph˜Ïng pháp th˘nhßt s˚dˆng các mô hình trích xußt thuÎc tính ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet bao gÁm (DINO ViT-S/16 , ViT- S/16, Resnet18, Resnet50 và Efficientnet b2) và s˚ dˆng các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest và k∏t hÒp tßt c£ các ph˜Ïng pháp ó l§i vÓi nhau (ensemble method). K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.8, chi ti∏t các k∏t qu£vÓi cách i∑u chønh thông sË khác nhau ˜Òc mô t£ trong ph¶n phˆ lˆc. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình DINO ViT-S/16 vÓi Î chính xác phân lo§i trung bình §t 90,77%.

– Ph˜Ïng pháp th˘hai chúng tôi th˚nghiªm ó là s˚dˆng các mô hình Resnet18, Resnet50 và Efficientnet b2 ã ˜Òc hußn luyªn sÆn trên các bÎ d˙ liªu lÓn là ImageNet và tinh chønh l§i b¨ng cách hußn luyªn l§i trên bÎ d˙ liªu các lÓp Ëi t˜Òng, các mô hình ˜Òc . K∏t qu£ ˜Òc tÍng hÒp trong B£ng 4.9. K∏t qu£ tËt nhßt thu ˜Òc khi s˚ dˆng mô hình Resnet18 vÓi Î chính xác phân lo§i trung bình §t 84,25%.

4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa Ïn nhãn k∏t hÒp phân lo§i hình £nh

T¯ k∏t qu£ cıa hai ph˜Ïng pháp phân lo§i hình £nh ã ˜Òc mô t£ trong ph¶n trên chúng tôi l¸a chÂn ph˜Ïng pháp th˘ nhßt vÓi viªc s˚ dˆng DINO ViT-S/16 làm mô hình trích xußt thuÎc tính và k∏t hÒp các ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest ∫ áp dˆng cho bài toán nh™n d§ng Ëi t˜Òng ÁhÂa. Các k∏t qu£ thu ˜Òc khi áp dˆng ph˜Ïng pháp phân lo§i £nh sau b˜Óc nh™n diªn Ëi t˜Òng ÁhÂa Ïn nhãn ˜Òc tÍng hÒp trongB£ng 4.10 Î o ˜Òc s˚dˆng là mAP@.5 §t các k∏t qu£:

B£ng 4.10: K∏t qu£ nh™n d§ng Ëi t˜Òng ÁhÂa Ïn nhãn k∏t hÒp vÓi phân lo§i hình

£nh

IIIT-AR-13k (Validation) IIIT-AR-13k (Test)

B£ng 0.9338 0.9338 Énh minh ho§ 0.5600 0.5605 Énh th™t 0.8097 0.8097 Bi∫u t˜Òng 0.5067 0.4490 Ch˙ k˛ 0.9219 0.9219 Trung bình 0.7464 0.7350 – 73,50% vÓi bÎ IIIT-AR-13k (Test) Ta có th∫ thßy vÓi b£ng, £nh th™t và ch˙k˛ có Î chính xác khá cao do các lÓp này có m˘c Î ∞c tr˜ng lÓn, trái l§i lÓp bi∫u t˜Òng có Î chính xác không cao do nh™p nh¨ng khi phân biªt gi˙a các bi∫u Á và b£ng và nh™p nh¨ng gi˙a bi∫u t˜Òng và£nh minh hÂa.

4.3.5 K∏t qu£ nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu v´n b£n hành chính

Chúng tôi có thu th™p thêm mÎt bÎ d˙ liªu là các báo cáo tài chính, báo cáo h¨ng n´m cıa 30 công ty có vËn hóa lÓn trong bÎ chø sË ˜Òc niêm y∏t t§i s giao d‡ch Ch˘ng Khoán – TPHCM (HOSE). BÎ d˙ liªu bao gÁm 2207 £nh v´n b£n d§ng scan và £nh chˆp có Î nhiπu lÓn và 613 £nh v´n b£n d§ng kˇ thu™t sË có Î nhiπu nh‰. Chúng tôi có s˚ dˆng ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa trên bÎ d˙ liªu này và xem xét các k∏t qu£. BÎd˙liªu này hiªn t§i ch˜a ˜Òc gán nhãn ¶y ınên chúng tôi chø nêu ra mÎt vài các ví dˆ mà không nêu ra các sË liªu cˆ th∫. MÎt vài nh˙ng tr˜Ìng hÒp nh™n d§ng Ëi t˜Òng Á hÂa chính xác trong Hình 4.6. Và các tr˜Ìng hÒp nh™n d§ng chÂn ch˜a chính xác trong Hình 4.7.

lÂt ánh sáng khi scan s≥ gây nên nh¶m l®n cho mô hình khi nh™n d§ng nh˙ng vùng ó là b£ng.

Hình 4.6: Các ví dˆ v∑ tr˜Ìng hÒp nh™n d§ng úng

4.4 K∏t qu£ cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

Bô d˙ liªu dùng trong các thí nghiªm gÁm 2 ph¶n nh˜ sau:

– BÎd˙liªu dùng ∫ tìm ki∏m: bao gÁm toàn bÎcác £nh là Ëi t˜Òng ÁhÂa ˜Òc c≠t ra t¯ các hÎp giÓi h§n trong bÎ d˙ liªu IIT-AR-13k(validation) và IIT-AR- 13k(test). Các v‡ trí cıa hÎp giÓi h§n là các nhãn chu©n cıa d˙ liªu. Các £nh nh‰này s≥ ˜Òc gán tên lÓp chính là tên cıa v´n b£n ch˘a £nh ó.

– BÎ d˙ liªu dùng ∫ cho vào cÏ s d˙ liªu ˜Òc chu©n b‡ nh˜ sau.

– ˜a toàn bÎ các £nh trong hai t™p d˙ liªu IIT-AR-13k(validation) và IIT- AR-13k(test) vào trong mô hình YOLOv3 ã ˜Òc hußn luyªn ∫ nh™n ra các Ëi t˜Òng ÁhÂa. – ây chính là mô hình ˜Òc báo cáo trong ph¶n k∏t qu£ nh™n d§ng Ëi t˜Òng Ïn nhãn.

– ¶u ra cıa mô hình YOLOv3 này chính là v‡ trí cıa các hÎp giÓi h§n. T¯

các v‡ trí ó chúng tôi c≠t ra các £nh và ˜a qua các lo§i mô hình trích xußt thuÎc tính khác nhau bao gÁm: DINO, ViT, Resnet18, Resnet50, và Efficientnet b2.

Chi ti∏t v∑ k∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m Ëi t˜Òng Á hÂa

˜Òc mô t£ trong B£ng 4.11. Trong ó ta có th∫ thßy khi s˚ dˆng DINO làm mô hình trích xußt thuÎc tính hình £nh thì k∏t qu£ tìm ki∏m §t ˜Òc cao nhßt recall top 3 §t 93,07%

B£ng 4.11: K∏t qu£ Î o recall top k cıa hª thËng tìm ki∏m vÓi các mô hình tríchxußt thuÎc tính xußt thuÎc tính Recall top k B£ng Énh minh ho§ Énh th™t Bi∫u t˜Òng Ch˙ k˛ Trung bình t¯ng lÓp Trung bình t¯ng £nh DINO 1 0.8348 0.7966 0.9608 0.7612 0.9300 0.8567 0.8462

3 0.9305 0.8867 0.9866 0.8458 0.9800 0.9259 0.9307 5 0.9471 0.9078 0.9866 0.8507 0.9850 0.9354 0.9452 10 0.9651 0.9248 0.9888 0.8657 0.9850 0.9459 0.9604 50 0.9836 0.9470 0.9922 0.9005 0.9850 0.9617 0.9775 ViT 1 0.5992 0.6674 0.9474 0.7065 0.7950 0.7431 0.6610 3 0.7414 0.8061 0.9821 0.8259 0.9450 0.8601 0.7887 5 0.7864 0.8432 0.9821 0.8557 0.9600 0.8855 0.8257 10 0.8371 0.8941 0.9843 0.8706 0.9850 0.9142 0.8685 50 0.9292 0.9417 0.9888 0.9005 0.9900 0.9500 0.9393 Resnet18 1 0.8225 0.7871 0.9586 0.796 0.885 0.84984 0.8360 3 0.9193 0.8941 0.9832 0.8607 0.975 0.92646 0.9239 5 0.9421 0.9174 0.9854 0.8706 0.975 0.9381 0.9432 10 0.9585 0.9322 0.9866 0.8756 0.985 0.94758 0.9569 50 0.9819 0.9523 0.991 0.9055 0.99 0.96414 0.9771 Resnet50 1 0.8533 0.7638 0.9597 0.7562 0.9050 0.8476 0.8535 3 0.9330 0.8591 0.9854 0.8507 0.9750 0.9206 0.9286 5 0.9500 0.8867 0.9877 0.8607 0.9900 0.9350 0.9449 10 0.9624 0.9163 0.9888 0.8706 0.9900 0.9456 0.9577 50 0.9807 0.9460 0.9899 0.8856 0.9900 0.9584 0.9748 Efficientnet b2 1 0.8369 0.8061 0.9630 0.7512 0.8600 0.8434 0.8469 3 0.9205 0.8972 0.9810 0.8259 0.9650 0.9179 0.9236 5 0.9373 0.9206 0.9821 0.8358 0.9900 0.9332 0.9393 10 0.9552 0.9322 0.9832 0.8507 0.9900 0.9423 0.9537 50 0.9807 0.9544 0.9877 0.8905 0.9900 0.9607 0.9757

Ch˜Ïng 5

K∏t lu™n

Chuy∫n Íi sË, sË hóa v´n b£n ã em l§i nh˙ng lÒi ích vô cùng to lÓn cho các doanh nghiªp ó là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc. Các quy∏t ‡nh bây giÌ ˜Òc ˜a ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáo thông suËt k‡p thÌi, và tËi ˜u hóa ˜Òc n´ng sußt làm viªc cıa nhân viên. Trong các doanh nghiªp sË l˜Òng các v´n b£n báo cáo hàng ngày c¶n ph£i gi£i quy∏t và l˜u tr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u cıa ng˜Ìi dùng ngày giÌ ây không còn chø d¯ng l§i  viªc tìm ki∏m t¯ nÎi dung v´n b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡ và bi∫u Á.

Các hª thËng tìm ki∏m ÁhÂa muËn ho§t Îng tËt thì b˜Óc ¶u tiên ó là qu£n l˛ và t§o ra chø mˆc các Ëi t˜Òng Á hÂa trong v´n b£n. ∫ có th∫ ánh chø mˆc các Ëi t˜Òng ÁhÂa thì tr˜Óc h∏t chúng ta c¶n ph£i nh™n d§ng và phát hiªn các Ëi t˜Òng này. a ph¶n các ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong

£nh v´n b£n hiªn nay muËn §t ˜Òc các k∏t qu£ tËt thì c¶n ph£i ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıa Ëi t˜Òng ÁhÂa. Công s˘c ∫ gán nhãn cho các bÎ d˙liªu này là không h∑ nh‰hÏn n˙a thÌi gian b‰ra cÙng rßt lÓn. Do v™y trong lu™n v´n này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫ t™n dˆng bÎ d˙ liªu không ¶y ı v∑ tên nhãn cıa các lÓp ∫ nh™n d§ng các Ëi t˜Òng

Á hÂa. Nh˙ng óng góp chính cıa lu™n v´n bao gÁm.

v‡ Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n.

– ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á

hÂa vÓi bÎ d˙liªu có sË l˜Òng £nh mÈi lÓp h§n ch∏.

– Xây d¸ng và phát tri∫n hª thËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂa trong £nh v´n b£n.

Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa trong £nh v´n b£n ˜Òc trình bày trong lu™n v´n ã ˜Òc th˚ nghiªm và §t k∏t qu£ xßp xø 74% trên các bÎ d˙ liªu ki∫m th˚ và ánh giá. Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hª thËng tìm ki∏m và truy xußt các v´n b£n t¯ các Ëi t˜Òng Á hÂa cÙng §t ˜Òc các k∏t qu£ Î hÁi t˜ng §t 93,3%.

M∞c dù các k∏t qu£trên bÎd˙liªu có Îhiªu qu£tËt nh˜ng khi áp dˆng ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng ÁhÂa trên các v´n b£n có Înhiπu lÓn và có n∏p gßp khó nh˜ £nh chˆp ho∞c £nh scan v´n b£n thì ph˜Ïng pháp v®n ch˜a ho§t Îng hiªu qu£. Do v™y h˜Óng nghiên c˘u trong t˜Ïng lai là c¶n c£i thiªn Î chính xác vÓi các v´n b£n có Î nhiπu lÓn nh˜ các £nh chˆp và £nh scan.

Tài liªu tham kh£o

[1] Ajoy Mondal, Peter Lipps, and CV Jawahar. Iiit-ar-13k: a new dataset for graph- ical object detection in documents. In International Workshop on Document Analysis Systems, pages 216–230. Springer, 2020.

[2] Mingxing Tan and Quoc Le. Efficientnet: Rethinking model scaling for convolu- tional neural networks. In International Conference on Machine Learning, pages 6105–6114. PMLR, 2019.

[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[4] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and har- nessing adversarial examples. arXiv preprint arXiv:1412.6572, 2014.

[5] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28:91–99, 2015.

Một phần của tài liệu NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP (Trang 43)

Tải bản đầy đủ (PDF)

(62 trang)