NHẬN DẠNG đối TƯỢNG đồ họa TRONG ẢNH văn bản sử DỤNG MẠNG nơ RON TÍCH CHẬP

ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHừ Nguyn Tuòn Anh NHọN DẹNG ằI TNG ô HA TRONG ÉNH VãN BÉN S€ D÷NG MĐNG NÃ RON TÍCH CHäP LN VãN THĐC Sû Ngành: Khoa hÂc máy tính HÀ NÀI - 2021 ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ĐI H≈C CƠNG NGHõ Nguyπn Tn Anh NHäN DĐNG ằI TNG ô HA TRONG ẫNH VóN BẫN S DữNG MĐNG NÃ RON TÍCH CHäP LN VãN THĐC Sû Ngành: Khoa hc mỏy tớnh Cỏn bẻ hểng dđn: TS Nguyn Th Ngc Diêp H NI - 2021 TểM TỗT Chuyn Íi sË sË hóa vń b£n ã em l§i nh˙ng lỊi ích vơ to lĨn cho doanh nghiªp c≠t gi£m chi phí v™n hành, tńg hiªu qu£ làm viªc, quy∏t ‡nh bây giÌ ˜Ịc ã nhanh chóng xác hÏn nhÌ thậng bỏo cỏo thụng suật kp thèi i lĐi, sË l˜Ịng vń b£n báo cáo c¶n ph£i gi£i quyt v lu tr ngy mẻt lển dđn n bi toỏn tỡm kim ngy mẻt phc tĐp Nhu cảu giè õy khụng cũn dng lĐi viêc tỡm kim t nẻi dung bÊn m cũn cản tỡm kim Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡ Cỏc thậng tỡm kim muận hoĐt ẻng hiêu quÊ thỡ cản cú bểc nhn dĐng v phỏt hiên cỏc ậi tềng ny a phản cỏc phẽng phỏp mơ hình nh™n diªn Ëi t˜Ịng Á hÂa Ênh bÊn hiên ang ềc huòn luyên trờn mẻt bẻ d liêu cú hai phản l v trí tên nhãn cıa Ëi t˜Ịng Á hÂa Cơng s˘c thÌi gian ∫ gán nhãn cho bỴ d liêu ny l ròt lển Do vy lun ny chỳng tụi xuòt mẻt phẽng phỏp cú th tn dng bẻ d liêu khụng ảy v tên nhãn cıa lĨp ∫ nh™n d§ng Ëi t˜Ịng Á hÂa Nh˙ng óng góp cıa lu™n vń bao gm xuòt phẽng phỏp s dng mĐng nÏ ron tích ch™p YOLO cho tốn ‡nh v‡ ậi tềng vểi bẻ d liêu bao gm cỏc v trớ ca hẻp giểi hĐn xuòt phẽng phỏp s dng mĐng hc sõu tá giỏm sỏt DINO cho bểc trớch xuòt thuẻc tớnh hỡnh Ênh dùng tốn phân lo§i lĨp Ëi t˜Ịng vểi bẻ d liêu cú sậ lềng Ênh mẩi lểp hĐn ch Xõy dáng v phỏt trin thậng tỡm kim v truy xuòt cỏc ậi tềng Á hÂa £nh vń b£n Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa £nh vń b£n ˜Òc trình bày lu™n vń ã ˜Ịc th˚ nghiªm Đt kt quÊ xòp xứ 74% trờn cỏc bẻ d liªu ki∫m th˚ ánh giá Áp dˆng ph˜Ïng phỏp trờn vo xõy dáng nờn thậng tỡm ki∏m truy xußt vń b£n t¯ Ëi tềng Đt ềc kt quÊ ẻ hi tng §t 93,3% T¯ khóa: nh™n d§ng Ëi t˜Ịng, phân lo§i hình £nh, Ëi t˜Ịng Á hÂa ABSTRACT Digital transformation and digitization of documents have greatly benefited businesses as they can cut operating costs and increase working efficiency Decisions are now made quickly and accurately through timely and transparent reporting systems In turn, the number of report documents that need to be processed and stored increases, leading to an increasingly complex search problem The need now is not just to search from the textual content but also to look for graphic objects such as tables and graphs For visual search systems to work effectively, there is a need to recognize and detect these objects Most of the methods and models for recognizing graphic objects in-text images are currently being trained on a dataset with two parts, the location and the label name of the graphical object The effort to label these datasets is not tiny, and the time spent is also considerable Therefore, in this thesis, we propose a method that can use the incomplete data set of label names of classes to identify graphic objects The main contributions of the thesis include – We propose using a convolutional neural network (YOLO) to locate graphic objects with a dataset that includes only the bounding box’s locations – We propose a method to use a self-supervised deep learning network (DINO) for the feature extraction step used to classify graphic objects with a dataset with a limited number of images per class – Building and developing a system for searching and retrieving graphic objects in text images The method of recognizing graphic objects in text images presented in this thesis has been tested and achieved approximately 74% results on test and evaluation datasets Applying the above methods to build a system for searching and retrieving documents from graphic objects also achieved the top recall results of 93.3% Keywords: object recognition, image classification, graphic object LÕI CÉM ÃN LÌi ¶u tiên cho tơi xin ˜Ịc g˚i lÌi c£m Ïn chân thành v sõu sc nhòt tểi TS Nguyn Th Ngc Diêp ngèi ó hểng dđn v bÊo tn tỡnh nhòt cho tơi st q trình hồn thành lu™n vń Tơi xin ˜Ịc g˚i lÌi c£m Ïn tĨi tồn bẻ cỏc thảy giỏo, cụ giỏo ca trèng hc Cụng Nghê - Đi Đi hc Quậc Gia H Nẻi nhng ngèi ó tĐo iu kiên tật nhòt tụi cú th∫ hÂc t™p, nghiên c˘u hÏn c£ ã truy∑n thˆ cho tơi nh˙ng hành trang ki∏n th˘c ¶y ı nhßt Tơi cÙng xin g˚i lÌi c£m Ïn chân thnh nhòt tểi nhng ngèi bĐn ngèi anh, ch ó giúp Ơ tơi hồn thiªn c£ v∑ ki∏n th˘c chun môn kˇ nńg hÂc t™p nghiên c˘u CuËi khơng th∫ thi∏u ó lÌi c£m Ïn tĨi bậ mà v ch tụi v c biêt l bĐn Dung Phùng nh˙ng ng˜Ìi ã ln bên c§nh tơi giúp ễ v ẻng viờn c v tinh thản tụi nh˙ng lúc khó khń nhßt Tơi xin chân thành c£m Ïn! Hà NỴi, ngày 10 tháng 10 n´m 2021 Sinh viên Nguyπn Tn Anh i LÕI CAM OAN Tơi xin cam oan tồn bỴ lu™n vń v∑ ph˜Ïng pháp nh™n d§ng Ëi t˜Ịng Á hÂa £nh vń b£n s˚ dˆng m§ng nÏ ron tích ch™p tơi thác hiên dểi sá hểng dđn ca TS Nguyn Th Ngc Diêp Tòt cÊ cỏc cụng trỡnh nghiờn cu, bi báo, khóa lu™n, tài liªu cıa tác gi£ khác ˜Ịc tơi s˚ dˆng khóa lu™n ∑u ˜Ịc trích d®n t˜Ìng minh ∑u có danh sách ti liêu tham khÊo H Nẻi, ngy 10 thỏng 10 n´m 2021 Sinh viên Nguyπn Tußn Anh ii Mˆc lˆc Mˆc lˆc iii Danh sách k˛ hiªu ch˙ vi∏t t≠t vi Danh sách b£ng vii Danh sách hình v≥ viii Ch˜Ïng GiĨi thiªu 1.1 BËi c£nh nghiên c˘u 1.2 Mơ t£ tốn ∞t vßn ∑ 1.3 Mˆc tiêu nghiên c˘u 1.4 óng góp cıa lu™n vń 1.5 Cßu trúc lu™n vń Ch˜Ïng Các nghiên c˘u liên quan 2.1 Cỏc bẻ d liêu v nhn dĐng ậi t˜Òng Á hÂa 2.2 Các phẽng phỏp trớch xuòt thuẻc tớnh ca Ênh 2.2.1 Trớch xuòt thuẻc tớnh ca Ênh s dˆng m§ng tích ch™p Các nghiên c˘u v∑ phát hiªn Ëi t˜Ịng Á hÂa £nh vń b£n 10 2.3.1 12 2.3 Faster R-CNN iii 2.4 2.3.2 Mask R-CNN 13 2.3.3 Ph˜Ïng pháp tip cn dáa trờn lp trỡnh ẻng 14 Hª thËng tỡm kim hỡnh Ênh dáa trờn nẻi dung 14 Ch˜Ïng Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa £nh vń b£n 3.1 16 Ph˜Ïng pháp nh™n d§ng Ëi t˜Ịng Á hÂa Ïn nhãn 3.1.1 3.2 16 Ph˜Ïng pháp s˚ dˆng m§ng tích ch™p cho b˜Ĩc phát hiªn Ëi t˜Ịng Á hÂa £nh vń b£n 18 3.1.2 Trớch xuòt thuẻc tớnh ca Ênh s dng m§ng transformer 20 3.1.3 Phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hỊp 24 Hª thËng tìm ki∏m Ëi t˜Òng Á hÂa 24 Chẽng Thác nghiêm v kt quÊ 27 4.1 Bẻ d liêu thác nghiêm 27 4.2 Ph˜Ïng pháp ánh giá 28 4.3 Kt quÊ thác nghiêm 30 4.3.1 K∏t qu£ nh™n d§ng Ëi t˜Ịng a nhãn 30 4.3.2 K∏t qu£ nh™n d§ng Ëi t˜Ịng Ïn nhãn 33 4.3.3 K∏t qu£ phân lo§i £nh Ëi t˜Ịng Á hÂa 35 4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Ịng Á hÂa Ïn nhãn k∏t hỊp phân lo§i hình £nh 4.3.5 4.4 36 K∏t qu£ nh™n d§ng Ëi t˜Ịng Á hÂa bẻ d liêu bÊn hnh chớnh 37 K∏t qu£ cıa hª thËng tìm ki∏m Ëi t˜Ịng Á hÂa 39 Ch˜Ïng K∏t lu™n 41 iv Tài liªu tham kh£o 43 v Acronyms CNN Convolutional Neural Network PCA Principal Component Analysis RGB Red, green, blue SVC Support Vector Classification SVM Support-vector machine vi B£ng 4.7: BỴ d liêu phõn loĐi hỡnh Ênh Tờn lểp Huòn luyên ánh giá B£ng 30 2222 Énh minh ho§ 30 481 Énh th™t 30 438 Bi∫u t˜Òng 30 67 Ch˙ k˛ 30 108 TÍng cỴng 150 3316 B£ng 4.8: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp k∏t hỊp Mụ hỡnh trớch xuòt thuẻc tớnh K-NN DINO ViT-S/16 0.8496 Linear classifier SVM Random Ensemble forest method TËt nhßt 0.8940 0.8868 0.9037 0.9077 0.9077 ViT-S/16 0.8321 0.8481 0.8651 0.8629 0.8693 0.8693 Resnet 18 0.8462 0.8959 0.8775 0.8643 0.8840 0.8959 Resnet 50 0.8516 0.8727 0.8621 0.8621 0.8749 0.8749 Efficientnet b2 0.8360 0.9034 0.8292 0.8824 0.8990 0.9034 B£ng 4.9: K∏t qu£ phân lo§i hình £nh s˚ dˆng ph˜Ïng pháp tinh chønh mơ hỡnh Mụ hỡnh phõn loĐi 4.3.3 ẻ chớnh xỏc trung bình Resnet 18 84.25 Resnet 50 83.83 Efficientnet b2 83.97 K∏t qu£ phân lo§i £nh Ëi t˜Ịng Á hÂa Sau b˜Ĩc nh™n d§ng Ëi t˜Ịng Ëi t˜Ịng Á hÂa  s≥ thu ˜Òc £nh nh‰ ˜Òc c≠t t¯ v‡ trí Ëi t˜Ịng s˚ dˆng ph˜Ïng pháp phân lo§i hình £nh ∫ tìm nhón ca ậi tềng Bẻ d liêu ềc s dng huòn luyên mụ hỡnh phõn loĐi bao gÁm 30 £nh mÈi lĨp Ëi t˜Ịng BỴ d˙ liªu ánh giá cıa mơ 35 hình £nh ng vểi tng lểp ca bẻ d liêu IIIT-AR-13k (Validation) Chi ti∏t sË l˜Ịng £nh lĨp ˜Ịc mơ t£ B£ng 4.7 Chúng tơi ã th˚ nghiªm vĨi hai ph˜Ïng pháp phân lo§i khác nhau: – Ph˜Ïng pháp th nhòt s dng cỏc mụ hỡnh trớch xuòt thuẻc tớnh ó ềc huòn luyên sặn trờn cỏc bẻ d liªu lĨn ImageNet bao gÁm (DINO ViT-S/16 , ViTS/16, Resnet18, Resnet50 Efficientnet b2) s˚ dˆng ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest v kt hềp tòt cÊ cỏc phẽng phỏp ú lĐi vĨi (ensemble method) K∏t qu£ ˜Ịc tÍng hỊp B£ng 4.8, chi ti∏t k∏t qu£ vÓi cách i∑u chønh thơng sË khác ˜Ịc mơ t£ ph¶n phˆ lˆc K∏t qu£ tËt nhßt thu ˜Ịc s˚ dˆng mơ hình DINO ViT-S/16 vĨi Ỵ xác phân lo§i trung bình §t 90,77% – Ph˜Ïng pháp th˘ hai chúng tơi th˚ nghiªm ó s˚ dˆng mơ hỡnh Resnet18, Resnet50 v Efficientnet b2 ó ềc huòn luyên sặn trờn cỏc bẻ d liêu lển l ImageNet v tinh chứnh lĐi băng cỏch huòn luyên lĐi trờn bẻ d˙ liªu lĨp Ëi t˜Ịng, mơ hình ˜Ịc K∏t qu£ ˜Ịc tÍng hỊp B£ng 4.9 K∏t qu£ tËt nhßt thu ˜Ịc s˚ dˆng mơ hình Resnet18 vểi ẻ chớnh xỏc phõn loĐi trung bỡnh Đt 84,25% 4.3.4 K∏t qu£ nh™n d§ng Ëi t˜Ịng Á hÂa Ïn nhãn k∏t hỊp phân lo§i hình £nh T¯ k∏t qu£ cıa hai ph˜Ïng pháp phân lo§i hình £nh ã ềc mụ tÊ phản trờn chỳng tụi láa chn phẽng phỏp th nhòt vểi viêc s dng DINO ViT-S/16 lm mụ hỡnh trớch xuòt thuẻc tớnh v kt hềp ph˜Ïng pháp phân lo§i nh˜ K-NN, Linear classifier, SVM, Random forest ∫ áp dˆng cho tốn nh™n d§ng Ëi t˜Òng Á hÂa Các k∏t qu£ thu ˜Òc áp dˆng ph˜Ïng pháp phân lo§i £nh sau b˜Ĩc nh™n diªn Ëi t˜Ịng Á hÂa Ïn nhãn ˜Ịc tÍng hỊp B£ng 4.10 Ỵ o ˜Ịc s˚ dˆng mAP@.5 §t k∏t qu£: – 74,64% vĨi bỴ IIIT-AR-13k (Validation) 36 B£ng 4.10: K∏t qu£ nh™n d§ng Ëi t˜Ịng Á hÂa Ïn nhãn k∏t hỊp vĨi phân lo§i hình £nh IIIT-AR-13k (Validation) IIIT-AR-13k (Test) B£ng 0.9338 0.9338 Énh minh ho§ 0.5600 0.5605 Énh th™t 0.8097 0.8097 Bi∫u t˜Òng 0.5067 0.4490 Ch˙ k˛ 0.9219 0.9219 Trung bình 0.7464 0.7350 – 73,50% vểi bẻ IIIT-AR-13k (Test) Ta cú th thòy vểi bÊng, £nh th™t ch˙ k˛ có Ỵ xác cao lĨp có m˘c Ỵ ∞c trñg lển, trỏi lĐi lểp biu tềng cú ẻ chớnh xỏc khụng cao nhp nhăng phõn biêt gia cỏc biu v bÊng v nhp nhăng gia biu tềng £nh minh hÂa 4.3.5 K∏t qu£ nh™n d§ng Ëi tềng trờn bẻ d liêu bÊn hnh Chúng tơi có thu th™p thêm mỴt bỴ d˙ liêu l cỏc bỏo cỏo ti chớnh, bỏo cỏo hăng n´m cıa 30 cơng ty có vËn hóa lĨn bẻ sậ ềc niờm yt tĐi s giao dch Chng Khoỏn TPHCM (HOSE) Bẻ d liêu bao gm 2207 £nh vń b£n d§ng scan £nh chˆp có Ỵ nhiπu lĨn 613 £nh vń b£n d§ng kˇ thu™t sË có Ỵ nhiπu nh‰ Chúng tơi có s˚ dˆng ph˜Ïng pháp nh™n d§ng Ëi t˜Ịng Á hÂa bẻ d liêu ny v xem xột cỏc kt quÊ Bẻ d liêu ny hiên tĐi cha ềc gỏn nhón ¶y ı nên chúng tơi chø nêu mỴt vài ví dˆ mà khơng nêu sË liªu c th Mẻt vi nhng trèng hềp nhn dĐng ậi t˜Ịng Á hÂa xác Hình 4.6 Và tr˜Ìng hỊp nh™n d§ng chÂn chã xác Hình 4.7 Vểi cỏc Ênh dĐng scan cú ẻ nhiu lển hoc cỏc èng kƠ sc xuòt hiên 37 lt ỏnh sỏng scan s gõy nờn nhảm lđn cho mơ hình nh™n d§ng nh˙ng vùng ó b£ng Hình 4.6: Các ví dˆ v∑ tr˜Ìng hỊp nh™n d§ng úng Hình 4.7: Các ví dˆ v∑ tr˜Ìng hỊp nhn dĐng sai 38 4.4 Kt quÊ ca thậng tìm ki∏m Ëi t˜Ịng Á hÂa Bơ d˙ liªu dùng cỏc thớ nghiêm gm phản nh sau: Bẻ d liêu dựng tỡm kim: bao gm ton bỴ £nh Ëi t˜Ịng Á hÂa ˜Ịc c≠t t cỏc hẻp giểi hĐn bẻ d liêu IIT-AR-13k(validation) v IIT-AR13k(test) Cỏc v trớ ca hẻp giểi hĐn l cỏc nhón chuân ca d liêu Cỏc Ênh nh s≥ ˜Ịc gán tên lĨp tên cıa bÊn cha Ênh ú Bẻ d liêu dựng cho vo cẽ s d liêu ềc chuân b nh˜ sau – ã tồn bỴ £nh hai t™p d˙ liªu IIT-AR-13k(validation) IITAR-13k(test) vào mơ hình YOLOv3 ó ềc huòn luyên nhn cỏc ậi t˜Ịng Á hÂa – ây mơ hình ˜Ịc bỏo cỏo phản kt quÊ nhn dĐng ậi tềng Ïn nhãn – ¶u cıa mơ hình YOLOv3 chớnh l v trớ ca cỏc hẻp giểi hĐn T v‡ trí ó chúng tơi c≠t £nh v a qua cỏc loĐi mụ hỡnh trớch xuòt thuẻc tính khác bao gÁm: DINO, ViT, Resnet18, Resnet50, Efficientnet b2 Chi ti∏t v∑ k∏t qu£ Ỵ o recall top k cıa hª thËng tìm ki∏m Ëi t˜Ịng Á hÂa ˜Ịc mơ t£ B£ng 4.11 Trong ó ta có th∫ thßy s˚ dˆng DINO làm mơ hình trớch xuòt thuẻc tớnh hỡnh Ênh thỡ kt quÊ tỡm kim Đt ềc cao nhòt recall top Đt 93,07% B£ng 4.11: K∏t qu£ Ỵ o recall top k cıa thậng tỡm kim vểi cỏc mụ hỡnh trớch xuòt thc tính Recall top k B£ng Énh Énh Bi∫u minh ho§ th™t t˜Ịng Ch˙ k˛ Trung bình Trung bình t¯ng lÓp t¯ng £nh 0.8567 0.8462 DINO 0.8348 0.7966 0.9608 0.7612 39 0.9300 0.9305 0.8867 0.9866 0.8458 0.9800 0.9259 0.9307 0.9471 0.9078 0.9866 0.8507 0.9850 0.9354 0.9452 10 0.9651 0.9248 0.9888 0.8657 0.9850 0.9459 0.9604 50 0.9836 0.9470 0.9922 0.9005 0.9850 0.9617 0.9775 ViT 0.5992 0.6674 0.9474 0.7065 0.7950 0.7431 0.6610 0.7414 0.8061 0.9821 0.8259 0.9450 0.8601 0.7887 0.7864 0.8432 0.9821 0.8557 0.9600 0.8855 0.8257 10 0.8371 0.8941 0.9843 0.8706 0.9850 0.9142 0.8685 50 0.9292 0.9417 0.9888 0.9005 0.9900 0.9500 0.9393 Resnet18 0.8225 0.7871 0.9586 0.796 0.885 0.84984 0.8360 0.9193 0.8941 0.9832 0.8607 0.975 0.92646 0.9239 0.9421 0.9174 0.9854 0.8706 0.975 0.9381 0.9432 10 0.9585 0.9322 0.9866 0.8756 0.985 0.94758 0.9569 50 0.9819 0.9523 0.991 0.99 0.96414 0.9771 0.9055 Resnet50 0.8533 0.7638 0.9597 0.7562 0.9050 0.8476 0.8535 0.9330 0.8591 0.9854 0.8507 0.9750 0.9206 0.9286 0.9500 0.8867 0.9877 0.8607 0.9900 0.9350 0.9449 10 0.9624 0.9163 0.9888 0.8706 0.9900 0.9456 0.9577 50 0.9807 0.9460 0.9899 0.8856 0.9900 0.9584 0.9748 Efficientnet b2 0.8369 0.8061 0.9630 0.7512 0.8600 0.8434 0.8469 0.9205 0.8972 0.9810 0.8259 0.9650 0.9179 0.9236 0.9373 0.9206 0.9821 0.8358 0.9900 0.9332 0.9393 10 0.9552 0.9322 0.9832 0.8507 0.9900 0.9423 0.9537 50 0.9807 0.9544 0.9877 0.8905 0.9900 0.9607 0.9757 40 Ch˜Ïng K∏t lu™n Chuy∫n Íi sË, sË hóa vń b£n ã em l§i nh˙ng lỊi ích vơ to lĨn cho doanh nghiªp ó c≠t gi£m chi phí v™n hành, tńg hiªu qu£ làm viªc Các quy∏t ‡nh bây giÌ ˜Ịc ã nhanh chóng xác hÏn nhÌ hª thËng báo cáo thơng st k‡p thÌi, tËi ˜u hóa ˜Ịc nńg suòt lm viêc ca nhõn viờn Trong cỏc doanh nghiêp sË l˜Ịng vń b£n báo cáo hàng ngày c¶n phÊi giÊi quyt v lu tr ngy mẻt lển dđn n bi toỏn tỡm kim ngy mẻt phc tĐp Nhu c¶u cıa ng˜Ìi dùng ngày giÌ ây khơng cịn chø dng lĐi viêc tỡm kim t nẻi dung b£n mà cịn c¶n tìm ki∏m Ëi t˜Ịng Á hÂa nh˜ b£ng bi∫u, Á th‡ bi∫u Á Các thậng tỡm kim muận hoĐt ẻng tật thỡ bểc ảu tiờn ú l quÊn l v tĐo chø mˆc Ëi t˜Òng Á hÂa vń b£n ∫ có th∫ ánh chø mˆc Ëi t˜Ịng Á hÂa tr˜Ĩc h∏t c¶n ph£i nh™n dĐng v phỏt hiên cỏc ậi tềng ny a phản ph˜Ïng pháp mơ hình nh™n diªn Ëi t˜Ịng Ênh bÊn hiên muận Đt ềc cỏc kt quÊ tật thỡ cản phÊi ềc huòn luyên trờn mẻt bẻ d liêu cú hai phản v‡ trí tên nhãn cıa Ëi t˜Ịng Á hÂa Cơng s˘c ∫ gán nhãn cho bỴ d˙ liªu khơng h∑ nh‰ hÏn n˙a thÌi gian b‰ cÙng rßt lĨn Do v™y lu™n vń ny chỳng tụi xuòt mẻt phẽng phỏp cú th tn dng bẻ d liêu khụng ảy v tờn nhãn cıa lĨp ∫ nh™n d§ng Ëi t˜Ịng Á hÂa Nh˙ng óng góp cıa lu™n vń bao gm xuòt phẽng phỏp s dng mĐng nẽ ron tích ch™p YOLO cho tốn ‡nh 41 v‡ ậi tềng vểi bẻ d liêu bao gm cỏc v trớ ca hẻp giểi hĐn xuòt phẽng phỏp s dng mĐng hc sõu tá giỏm sỏt DINO cho bểc trớch xuòt thuẻc tớnh hỡnh Ênh dùng tốn phân lo§i lĨp Ëi t˜Ịng vểi bẻ d liêu cú sậ lềng Ênh mẩi lểp hĐn ch Xõy dáng v phỏt trin thậng tỡm kim v truy xuòt cỏc ậi tềng Á hÂa £nh vń b£n Ph˜Ïng pháp nh™n d§ng Ëi t˜Òng Á hÂa £nh vń b£n ˜Òc trình bày lu™n vń ã ˜Ịc th˚ nghiªm Đt kt quÊ xòp xứ 74% trờn cỏc bẻ d liªu ki∫m th˚ ánh giá Áp dˆng ph˜Ïng phỏp trờn vo xõy dáng nờn thậng tỡm ki∏m truy xußt vń b£n t¯ Ëi tềng cng Đt ềc cỏc kt quÊ ẻ hÁi t˜ng §t 93,3% M∞c dù k∏t qu£ bẻ d liêu cú ẻ hiêu quÊ tật nhng áp dˆng ph˜Ïng pháp nh™n d§ng Ëi t˜Ịng Á hÂa vń b£n có Ỵ nhiπu lĨn có n∏p gßp khó nh˜ £nh chˆp ho∞c £nh scan bÊn thỡ phẽng phỏp vđn cha hoĐt ẻng hiêu qu£ Do v™y h˜Óng nghiên c˘u t˜Ïng lai cản cÊi thiên ẻ chớnh xỏc vểi cỏc bÊn có Ỵ nhiπu lĨn nh˜ £nh chˆp £nh scan 42 Tài liªu tham kh£o [1] Ajoy Mondal, Peter Lipps, and CV Jawahar Iiit-ar-13k: a new dataset for graphical object detection in documents In International Workshop on Document Analysis Systems, pages 216–230 Springer, 2020 [2] Mingxing Tan and Quoc Le Efficientnet: Rethinking model scaling for convolutional neural networks In International Conference on Machine Learning, pages 6105–6114 PMLR, 2019 [3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016 [4] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy Explaining and harnessing adversarial examples arXiv preprint arXiv:1412.6572, 2014 [5] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun Faster r-cnn: Towards real-time object detection with region proposal networks Advances in neural information processing systems, 28:91–99, 2015 [6] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick Mask r-cnn In Proceedings of the IEEE international conference on computer vision, pages 2961–2969, 2017 [7] Jonathan Long, Evan Shelhamer, and Trevor Darrell Fully convolutional networks for semantic segmentation In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431–3440, 2015 43 [8] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi You only look once: Unified, real-time object detection In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016 [9] Joseph Redmon and Ali Farhadi Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767, 2018 [10] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al An image is worth 16x16 words: Transformers for image recognition at scale arXiv preprint arXiv:2010.11929, 2020 [11] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin Emerging properties in self-supervised vision transformers arXiv preprint arXiv:2104.14294, 2021 [12] Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, and Ming Zhou Docbank: A benchmark dataset for document layout analysis arXiv preprint arXiv:2006.01038, 2020 [13] Max Găobel, Tamir Hassan, Ermelinda Oro, and Giorgio Orsi Icdar 2013 table competition In 2013 12th International Conference on Document Analysis and Recognition, pages 1449–1453 IEEE, 2013 [14] Xu Zhong, Jianbin Tang, and Antonio Jimeno Yepes Publaynet: largest dataset ever for document layout analysis In 2019 International Conference on Document Analysis and Recognition (ICDAR), pages 1015–1022 IEEE, 2019 [15] Liangcai Gao, Xiaohan Yi, Zhuoren Jiang, Leipeng Hao, and Zhi Tang Icdar2017 competition on page object detection In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 1417– 1422 IEEE, 2017 [16] Liangcai Gao, Yilun Huang, Hervé Déjean, Jean-Luc Meunier, Qinqin Yan, Yu Fang, Florian Kleber, and Eva Lang Icdar 2019 competition on table de- 44 tection and recognition (ctdar) In 2019 International Conference on Document Analysis and Recognition (ICDAR), pages 1510–1515 IEEE, 2019 [17] Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li Tablebank: Table benchmark for image-based table detection and recognition In Proceedings of the 12th Language Resources and Evaluation Conference, pages 1918–1925, 2020 [18] Asif Shahab, Faisal Shafait, Thomas Kieninger, and Andreas Dengel An open approach towards the benchmarking of table structure recognition systems In Proceedings of the 9th IAPR International Workshop on Document Analysis Systems, pages 113–120, 2010 [19] Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner Gradient-based learning applied to document recognition Proceedings of the IEEE, 86(11):2278– 2324, 1998 [20] Karen Simonyan and Andrew Zisserman Very deep convolutional networks for large-scale image recognition arXiv preprint arXiv:1409.1556, 2014 [21] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna Rethinking the inception architecture for computer vision In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2818– 2826, 2016 [22] Jwalin Bhatt, Khurram Azeem Hashmi, Muhammad Zeshan Afzal, and Didier Stricker A survey of graphical page object detection with deep neural networks Applied Sciences, 11(12):5344, 2021 [23] Xiaohan Yi, Liangcai Gao, Yuan Liao, Xiaode Zhang, Runtao Liu, and Zhuoren Jiang Cnn based page object detection in document images In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 230235 IEEE, 2017 [24] Philipp Krăahenbă uhl and Vladlen Koltun Efficient inference in fully connected 45 crfs with gaussian edge potentials Advances in neural information processing systems, 24:109–117, 2011 [25] Ross Girshick Fast r-cnn In Proceedings of the IEEE international conference on computer vision, pages 1440–1448, 2015 [26] Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed Deepdesrt: Deep learning for detection and structure recognition of tables in document images In 2017 14th IAPR international conference on document analysis and recognition (ICDAR), volume 1, pages 1162–1167 IEEE, 2017 [27] Matthew D Zeiler and Rob Fergus Visualizing and understanding convolutional networks In European conference on computer vision, pages 818–833 Springer, 2014 [28] Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman The pascal visual object classes (voc) challenge International journal of computer vision, 88(2):303–338, 2010 [29] Nguyen D Vo, Khanh Nguyen, Tam V Nguyen, and Khang Nguyen Ensemble of deep object detectors for page object detection In Proceedings of the 12th International Conference on Ubiquitous Information Management and Communication, pages 1–6, 2018 [30] Ranajit Saha, Ajoy Mondal, and CV Jawahar Graphical object detection in document images In 2019 International Conference on Document Analysis and Recognition (ICDAR), pages 51–58 IEEE, 2019 [31] Madhav Agarwal, Ajoy Mondal, and CV Jawahar Cdec-net: Composite deformable cascade network for table detection in document images In 2020 25th International Conference on Pattern Recognition (ICPR), pages 9491–9498 IEEE, 2021 [32] Zhaowei Cai and Nuno Vasconcelos Cascade r-cnn: High quality object detection and instance segmentation IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019 46 [33] Alexander Neubeck and Luc Van Gool Efficient non-maximum suppression In 18th International Conference on Pattern Recognition (ICPR’06), volume 3, pages 850–855 IEEE, 2006 [34] N Jhanwar, Subhasis Chaudhuri, Guna Seetharaman, and Bertrand Zavidovique Content based image retrieval using motif cooccurrence matrix Image and Vision Computing, 22(14):1211–1220, 2004 [35] Kinh Tieu and Paul Viola Boosting image retrieval International Journal of Computer Vision, 56(1):17–36, 2004 [36] Thomas Deselaers, Daniel Keysers, and Hermann Ney Features for image retrieval: an experimental comparison Information retrieval, 11(2):77–107, 2008 [37] Chuen-Horng Lin, Rong-Tai Chen, and Yung-Kuan Chan A smart content-based image retrieval system based on color and texture feature Image and Vision Computing, 27(6):658–665, 2009 [38] Zhaofan Qiu, Yingwei Pan, Ting Yao, and Tao Mei Deep semantic hashing with generative adversarial networks In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 225–234, 2017 [39] R Rani Saritha, Varghese Paul, and P Ganesh Kumar Content based image retrieval using deep learning process Cluster Computing, 22(2):4187–4200, 2019 [40] Alaaeldin El-Nouby, Natalia Neverova, Ivan Laptev, and Hervé Jégou Training vision transformers for image retrieval arXiv preprint arXiv:2102.05644, 2021 [41] Po-Whei Huang and SK Dai Image retrieval by texture similarity Pattern recognition, 36(3):665–679, 2003 [42] Alex Krizhevsky and Geoffrey E Hinton Using very deep autoencoders for content-based image retrieval In ESANN, volume 1, page Citeseer, 2011 [43] Yoonseop Kang, Saehoon Kim, and Seungjin Choi Deep learning to hash with multiple representations In 2012 IEEE 12th International Conference on Data Mining, pages 930–935 IEEE, 2012 47 [44] Pengcheng Wu, Steven CH Hoi, Hao Xia, Peilin Zhao, Dayong Wang, and Chunyan Miao Online multimodal deep similarity learning with application to image retrieval In Proceedings of the 21st ACM international conference on Multimedia, pages 153–162, 2013 [45] Jiang Wang, Yang Song, Thomas Leung, Chuck Rosenberg, Jingbin Wang, James Philbin, Bo Chen, and Ying Wu Learning fine-grained image similarity with deep ranking In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1386–1393, 2014 [46] Socratis Gkelios, Yiannis Boutalis, and Savvas A Chatzichristofis Investigating the vision transformer model for image retrieval tasks arXiv preprint arXiv:2101.03771, 2021 [47] Herve Jegou, Matthijs Douze, and Cordelia Schmid Hamming embedding and weak geometric consistency for large scale image search In European conference on computer vision, pages 304–317 Springer, 2008 [48] James Philbin, Ondrej Chum, Michael Isard, Josef Sivic, and Andrew Zisserman Lost in quantization: Improving particular object retrieval in large scale image databases In 2008 IEEE conference on computer vision and pattern recognition, pages 1–8 IEEE, 2008 [49] Isaak Kavasidis, Sergio Palazzo, Concetto Spampinato, Carmelo Pino, Daniela Giordano, Danilo Giuffrida, and Paolo Messina A saliency-based convolutional neural network for table and chart detection in digitized documents arXiv preprint arXiv:1804.06236, 2018 [50] Joseph Redmon and Ali Farhadi Yolo9000: better, faster, stronger In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7263– 7271, 2017 [51] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao Yolov4: Optimal speed and accuracy of object detection arXiv preprint arXiv:2004.10934, 2020 48 [52] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin Attention is all you need In Advances in neural information processing systems, pages 5998–6008, 2017 [53] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova Bert: Pretraining of deep bidirectional transformers for language understanding arXiv preprint arXiv:1810.04805, 2018 [54] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al Language models are unsupervised multitask learners OpenAI blog, 1(8):9, 2019 [55] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou Training data-efficient image transformers & distillation through attention In International Conference on Machine Learning, pages 10347–10357 PMLR, 2021 [56] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko End-to-end object detection with transformers In European Conference on Computer Vision, pages 213–229 Springer, 2020 49 ... QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHừ Nguyn Tuòn Anh NHọN DẹNG ằI TNG ô HA TRONG ÉNH VãN BÉN S€ D÷NG MĐNG NÃ RON TÍCH CHäP LN VãN THĐC Sû Ngành: Khoa hÂc máy tính Cỏn bẻ hểng dđn: TS Nguyn Th... trng dáa trờn mĐng transformer Trong báo [40], tác gi£ ã giÓi thiªu mơ hình (Image Retrieval Transformers - IRT) ó có so sánh cách th˘c khác s˚ dˆng model ViT Trong ó mơ hình IRTR vĨi ∞c trñg... qu£ hª thËng tìm ki∏m hình £nh chúng tơi s˚ dˆng Ỵ o Recall top k Trong ó k sË l˜Ịng £nh ˜Ịc tr£ v∑ có nhãn vĨi £nh ˜Ịc tìm ki∏m Trong tốn hª thËng tìm ki∏m Ëi t˜Ịng Á hÂa vń b£n £nh ¶u vào Ëi

Định dạng
Số trang	62
Dung lượng	11,05 MB