ứng dụng phát hiện nhận dạng văn bản trong các cảnh chụp cho người khiếm thị và hướng dẫn du lịch

Table des matières Table des matières i Liste des tableaux vi Table des figures vii Introduction générale 1.1 Contexte et Cadre d’étude 1.2 Problématiques 1.3 Domaine d’application 1.4 Objectifs du stage 1.5 Travaux Réaliser 1.6 Planification des tâches 1.7 Organisation du rapport État de l’art 2.1 2.2 2.3 Les approches basées sur des régions 2.1.1 Maximally Stable Extremal Regions (MSER) 2.1.2 Sliding Window Les approches basées sur les composants connexes 2.2.1 Stroke Width Transform (SWT) 2.2.2 Les propriétés géométriques Les méthodes de classification de composants connexes 2.3.1 Méthode de classification en cascade 2.3.2 Machine vecteurs de support (SVM) 2.4 Réseaux de neurones convolutifs (CNN) 2.5 Réseaux de neurones convolutifs profond (DCNN) 2.6 Les approches hybrides 10 2.7 Tableau de synthèse des articles étudiés 11 Solution proposée 3.1 3.2 13 Description des différentes phases de mise en place du pipeline 13 3.1.1 Module : Lecture d’image 13 3.1.2 Module : le pré-traitement 14 3.1.3 Module : Extraction des composants connexes 14 3.1.4 Module : Filtrage des composants connexes 14 3.1.5 Module : Étape de groupage 14 3.1.6 Module : Affichage des boites englobantes ( Bounding Boxes) 14 3.1.7 Tableau récapitulatif des entrées / sorties des modules du pipeline 14 Environnement de travail 14 i 3.3 3.2.1 Environnement matériel 15 3.2.2 Environnement logiciel 15 Implémentation du pipeline 16 3.3.1 Pré-traitement 16 3.3.2 L’extraction des composants connexes 17 3.3.3 Filtrage des composants connexes 17 3.3.4 Description des données 18 3.3.5 Validation du modèle 19 3.3.6 Étape de formation des mots (Grouping) 20 3.4 3.3.7 Affichage des boites englobantes 22 Présentation de quelques résultats obtenus 22 3.5 Analyse des résultats obtenus 22 Apport et contribution novatrice : Extraction des composants connexes couleurs 25 4.1 Description de l’extraction des composants couleurs 25 4.2 Chne de couleur RGB 25 4.3 4.4 Extraction des composants sur la chaine Bleu,Vert, Rouge 26 Fusion des composants de la chne Bleu,Vert et Rouge 26 Conclusion générale et perspective 28 5.1 Conclusion 28 5.2 Perspectives 28 5.3 Activités annexes au laboratoire L3i 28 Bibliographie 30 ii Remerciements La réalisation de ce document qui couronne la fin de notre formation de Master, n’aurait été possible sans l’appui direct ou indirect de personnes et d’institutions auxquelles nous tenons ici exprimer nos sincères remerciements Il s’agit de : — L’Agence Universitaire de la Francophonie (AUF), pour nous avoir donné l’opportunité de poursuivre nos études de Master l’IFI travers une bourse — L’Institut Francophone International (IFI) et de tous les professeurs, pour les nombreuses connaissances acquises durant notre formation — Mes encadrants du stage au laboratoire Informatique, Image et Interaction de la Rochelle ( Dr Nayef NIBAL et Dr Muhammad Muzzamil LUQMAN ) pour m’avoir accueilli au sein de leur équipe et pour leur suivi et implication personnelle dans la réalisation de mes travaux — Tous ceux qui de près ou de loin m’ont apporté leur soutien durant notre formation iii Résumé L’extraction de texte base d’images est l’un des domaines de recherche les plus dynamiques dans le domaine de la technologie multimédia de nos jours L’extraction de texte partir d’images complexes ou plus colorées est un problème difficile, or les données textuelles présentes dans les images contiennent des informations utiles pour l’explication habituelle, l’indexation et la structuration des images L’extraction de ces informations implique la détection, la localisation, et la reconnaissance du texte partir d’une image donnée Pour extraire rapidement du texte partir d’images, nous avons mis en place, au cours de ce stage, un pipeline complet de traitement basé sur des composants connexes qui identifient plus précisément les textes dans l’image Notre pipeline de détection de texte commence par un module de pré-traitement de l’image d’entrée Ensuite, dans un autre module, nous extrayons les composants connexes (binaires /couleurs) Puis dans un autre nous filtrons ces composants connexes avec l’algorithme d’apprentissage supervisé SVM pour ne garder que les composants textuels En fin dans le dernier module nous avons mis en place un algorithme pour regrouper les composants textuels en mots en nous basant sur certains paramètres tel que : la distance euclidienne entre les caractères, les positions rectilignes et nous affichons le résultat la sortie du pipeline Les résultats expérimentaux démontrent que la performance de notre pipeline est supérieure certaines approches de la littérature Mots clés : Détection de texte de scène, reconnaissance de texte de scène, OCR, accessibilité au texte pour les malvoyants iv abstract Image-based text extraction is one of the most dynamic areas of research in the field of multimedia technology today Extracting text from complex or more colorful images is a difficult problem, but the textual data in the images contain useful information for the usual explanation, indexing and structuring of images Extracting this information involves detecting, locating, and recognizing text from a given image To quickly extract text from images, we have set up, during this internship, a complete pipeline of processing based on connected components that more precisely identifies small or large texts in the image Our text detection pipeline begins with a pre-processing module of the input image Then, in another module we extract the related components (binaries / colors) Then we filter these related components with the supervised learning algorithm SVM to keep that textual components Finally in the last we have implemented an algorithm to group the textual components into words based on certain parameters such as : the Euclidean distance between the characters, the rectilinear positions and we display the result at the exit of the pipeline Experimental results demonstrate that the performance of our pipeline is superior to some state-of-the-art approaches Key Words : Scene text detection, scene text recognition, OCR, text accessibility for the visually impaired v Liste des tableaux 1.1 Planning prévisionnel des tâches du stage 2.1 Tableau de synthèse des articles étudiés(1/2) 11 2.2 Tableau de synthèse des articles étudiés(2/2) 12 3.1 Tableau récapitulatif des entrées / sorties des modules du pipeline 15 3.2 Tableau de validation du modèle 19 vi Table des figures 1.1 Accessibilité du texte dans les scènes naturelles pour les malvoyants 2.1 Illustration de SWT 2.2 Représentation de suppression de composant par la taille de son aire ( source : https ://imagej.net/MorphoLibJ) 2.3 Structure de la classification en cascade [1] 2.4 2.5 Structure de la classification en cascade et SVM [1] Processus de mise en place de SVM [2] 8 2.6 Architecture de CNN pour la classification text/non-text [3] 2.7 Architecture de DCNN pour la classification text/non-text [4] 10 2.8 Architecture 3D de VGG-16 (source :https ://goo.gl/ogqbau) 10 3.1 Architecture du Pipeline proposée 13 3.2 image : originale 16 3.3 image : Binarisation d’Otsu 16 3.4 image originale 16 3.5 image Binarisation d’Otsu 3.6 Coordonnées des boites englobantes des composants 17 3.7 Illustration de la classification avec SVM 18 3.8 Illustration des distances pour le groupage[5] 21 3.9 Illustration des distances pour le groupage 21 16 3.10 Illustration de l’affichage des boites englobantes 23 3.11 -Résultat de détection de texte image 23 3.12 -Résultat de détection de texte image 23 3.13 -Résultat de détection de texte image 23 3.14 -Résultat de détection de texte image 23 3.15 -Résultat de détection de texte image 24 3.16 -Résultat de détection de texte image 24 4.1 Illustration de l’extraction des composants couleurs 4.2 originale 26 25 4.3 chne bue 4.4 image chne verte 26 4.5 chne rouge 4.6 originale 27 4.7 chne bue 4.8 image chne verte 27 4.9 chne rouge 26 26 27 27 4.10 Illustration de la fusion des composants de chaque chne de couleurs vii 27 Figure 3.6 – Coordonnées des boites englobantes des composants 3.3.2 L’extraction des composants connexes Pour extraire les composants connexes , nous avons utilisé la fonction cv2.connectedComponentsWithStats de la librairie OpenCV Cette fonction prend en paramètre l’image binaire et renvoi est sortie plusieurs données de l’image savoir : — le nombre de composants dans l’image , — la matrice de chaque composant , — les coordonnées du centroïde de chaque composant (X,Y) et — les données statistique de chaque composants Les données statistiques sont les coordonnées de la boite englobante, ce sont : — X et Y , du point haut-gauche (Top-Left) , — la largeur (w) , — la hauteur (h) et — l’aire (Area) 3.3.3 Filtrage des composants connexes - Filtrage par l’aire Dans la phase de filtrage des composants extraite , la première idée été d’implémenter un algorithme (Algorithme 1) qui permettait de supprimer les composants ayant de petite taille dans l’ensemble ainsi que ceux ayant de grande taille Avec cette algorithme nous avons obtenu, de bon résultat Cependant un notre algorithme avait des limites En effet, pour chaque image, il est obligé, de trouver un seul minimal et maximal auquel on pourrait extraire que les textes parmi les composants extraire de l’image Nous avons constaté que cette tache devenait pénible, et notre algorithme n’était pas dynamique Alors face ce problème que nous venons d’évoquer nous avons opté a des solution meilleurs pour filtrer les composants en utilisant SVM 17 Algorithm 1: Filtrage des composants connexes par l’aire NombreComponent ; CCs ; AreaOfComponent, minArea ; maxArea ; TextComponent ; NonTextComponent ; for i ← to NombreComposant if (AreaOfComponent ≤ maxArea)&(AreaOf Component ≥ maxArea) then TextComponent ← CCs else NonTextComponent ← CCs end end - Classification des composants connexes par SVM Notre deuxième solution dans cette étape de filtrage consister utiliser un algorithme de classification Notre choix c’est porté sur les machines vecteur support (SVM) Ce choix des SVM a été motivé par ses performants résultats dans les récents travaux de la littérature et aussi par sa simplicité d’utilisation La figure 3.7 donne un aperỗu de notre idộe Figure 3.7 Illustration de la classification avec SVM Les caractéristiques utilisées Pour faire la classification nous nous sommes basé sur cinq caractéristiques significatives Le choix de ces caractéristiques été motivé par les travaux leurs résultats dans la recherche bibliographique Ce sont : occupation ratio ; - Euler number ; - aspectRatio ; - convex hull / bbox_area ; - histogram of gradient (HOG) 3.3.4 Description des données les données que nous avons utilisé viennent des jeux de données Char74K [18] et CIFAR10 [19] 18 - Jeu de données Char74K : ce jeu de donnée est composée des caractères de l’alphabet latin (à l’exclusion des accents) Il comprend : — 64 classes (0-9, AZ, az) — 7705 caractères obtenus partir d’images naturelles — 3410 caractères dessinés la main — 62992 caractères dans les différentes polices La sommes de ces différents caractères font plus de Soixante-quatorze mille d’où le nom Char74 - Jeu de données CIFAR10 : ce jeu de données est composé des images non-texte ( voiture , avion, chat ) Il comprend dix(10) classes avec 6000 images par classe Pour la mise en place de notre modèle, nous avons utilisé 705 images de chaque jeu de données puis fusionné pour constituer une nouvelle base qui comporte désormais plus de 15000 images Après la formation de la nouvelle base, nous avons utilisé 2/3 pour l’apprentissage et 1/3 pour le test Par la suite notre modèle a été entrné cinquante (50) fois et nous avons utilisé le modèle qui a eu le meilleur taux de précision Le modèle obtenu, donne deux classes : texte ou non-texte Il faut noté que plusieurs caractéristiques vues dans la recherche bibliographique tel que, euler number occupation ratio histogramme de gradient etc , ont été utilisés : 3.3.5 Validation du modèle Pour valider notre modèle nous nous sommes basé sur les métriques suivantes : — Précision : Précision i = le nombre de composants correctement attribues la classe i le nombre de composants attribues la classe i — Rappel : Rappel i = le nombre de composants correctement attribues la classe i le nombre de comoposants appartenant la classe i — F-score : F-score i = X P recision i x Rappel i P recision i + Rappel i Après exécution du programme nous avons enregistré la meilleure performance dans le tableau 3.2 Bien, vrai que les auteurs de la littérature n’ont pas utilisé les même données que nous, nous avons obtenu, un bon taux de précision au vu des résultats des articles de la littérature base Train set Précision(%) 89.00 Rappel(%) 83.00 F-mesure(%) 85.89 Test set 88.00 87.00 87.49 Table 3.2 – Tableau de validation du modèle 19 3.3.6 Étape de formation des mots (Grouping ) Cette étape a été question de reconstitution des mots de l’image en entrée du programme avec les composants connexes filtrés Nous avons proposé un algorithme (Algorithme ) qui regroupe les composants Nous considérons que deux composants sont sur la même ligne et dans le même mots que (1) et (2) sont respectés - d ≤ × mean(d(i, j)) - d < max (h1 , h2) (1) (2) Algorithm 2: Groupage des composants connexes Result: Bounding Box of Words detectbreak=True ; findgroup=True ; list_points ; last_group=[] ; while findgroup findgroup=False for i ← to list_points detectbreak=False for j ← i + to list_points calcul distance d ; calcul la moyenne des distances mean_d ; calcul max (h1, h2) ; if (d ; ≤ × mean(d(i, j)) then fusionner composants i et j ;; enregistrer composant i et j fusionnés dans la liste last_group ; supprime composant i ; supprime composant j ; findgroup=True ; detectbreak=True ; break ; end end if ((detectbreak)) then break ; end end end 20 Figure 3.8 – Illustration des distances pour le groupage[5] Figure 3.9 – Illustration des distances pour le groupage 21 3.3.7 Affichage des boites englobantes L’affichage des résultats consiste affiche les boites englobante (Bounding Boxes) autour des texte présent dans les image de scène naturelles que nous passons a l’entrer du programme Pour ce faire, nous avons étudier deux fonctions différentes de la libraire qui résout le mémé problème mais différemment - cv2.boundingRect() : cette fonction affiche un rectangle rectiligne, elle ne tient pas compte de la rotation de l’objet Donc, la surface du rectangle englobant n’est pas minimale (voir figure 3.10 rectangle vert) - cv2.minAreaRect () : Ici, le rectangle de délimitation est dessiné avec une surface minimale, il prend donc également en compte la rotation (voir figure 3.10 rectangle rouge) Il faut noté lors de l’affichage des boites englobantes, nous avons appliqué une technique qui s’appelle Overlapping En effet, cette technique nous a permit de fusionner toutes les boites qui se chevauche 3.4 Présentation de quelques résultats obtenus Les figures ci-après représentent les résultats obtenus la sortie du pipeline de détection de texte d’image de scène naturelle 3.5 Analyse des résultats obtenus Les images ci-dessus présentent les résultats de notre pipeline Nous avons fait le test sur certaines images de la base ICDAR 2015 Dataset [20] (Figure 3.11 , 3.13 , 3.14 , 3.15), ainsi que sur des images que nous avons capturé partir de notre téléphone portable (Figure 3.12) Notre programme marche bien, sur des images pré-traitées pour des conférences sur la détection de texte et sur nos propres images Le pipeline détection des images mono-ligne (Figure :3.16) ainsi que les images sur multi-lignes (Figure :3.12) Cette capacité de détecter les textes mono et multi-ligne valide notre algorithme mit en place dans la phase de groupe de caractère et valide également le choix de notre paramètre de distance Le pipeline est robuste la variation de l’éclairage Cependant il n’est pas adapté au texte écrit verticalement dans les images de scènes naturelles Au terme, de cette analyse, nous pouvons dire que ce pipeline produit, lors de notre stage a de nombreux points forts Cependant le pipeline mise en place possède des limites face aux textes inclinés ou les textes écrits de manière verticale 22 Figure 3.10 – Illustration de l’affichage des boites englobantes Figure 3.12 – -Résultat de détection de texte image Figure 3.11 – -Résultat de détection de texte image Figure 3.14 – -Résultat de détection de texte image Figure 3.13 – -Résultat de détection de texte image 23 Figure 3.15 – -Résultat de détection de texte image Figure 3.16 – -Résultat de détection de texte image 24 Chapitre Apport et contribution novatrice : Extraction des composants connexes couleurs Dans ce chapitre nous présentons notre apport au cours de ce stage Cette contribution novatrice intervient tout particulièrement dans le module du pipeline En effet nous proposons dans cette partie l’extraction des composants couleurs 4.1 Description de l’extraction des composants couleurs La figure 4.1 illustre cette nouvelle d’idée Dans cette implémentation nous avons extrait les composants connexes sur chaque chne de couleur (Rouge, Vert et Bleu) Cette technique nous permet de ne pas omettre d’autre composants dans le traitement, car certains composants sont visible sur une chne par contre d’autre ne le sont pas Après avoir séparé, l’image d’entrée sur les trois chnes de couleur, nous extrayons et effectuons la classification des composants connexes sur ces différentes chnes et nous fusionnons les composants classé texte l’aide de la fonction Opencv cv2.merge Après l’étape de la fusion nous procédons de la même manière pour regrouper les composants textes et nous affichons les boites englobantes 4.2 Chne de couleur RGB L’implémentation de l’extraction des composants couleurs a été effectué sur la chne de couleur RGB (Red, Green, Blue ) Il est important de noter qu’il y a plusieurs chnes de couleur (HSV, YUV, CMYK) Nous avons Figure 4.1 – Illustration de l’extraction des composants couleurs 25 Figure 4.2 – originale Figure 4.3 – chne bue Figure 4.4 – image chne verte Figure 4.5 – chne rouge choisi cette chne dans un premier temps pour l’implémention, ensuite nous comptons l’étendre sur les autres chnes de couleur afin faire une étude comparative pour prendre le meilleur résultats Les images ci-dessous nous présentent les résultats obtenus lorsque nous separons l’image originale sur les trois chnes.Nous avons obtenus ce résultat en utilisant la fonction Split d’opencv, la librairie que nous avons utilisé au cours de ce stage La fonction prend en entrée un image couleur et renvoi en sortie des images sur les différentes chnes 4.3 Extraction des composants sur la chaine Bleu,Vert, Rouge La suite du traitement consiste extraire les composants connexes de chaque image des différentes chnes de couleur Pour cette image d’expérimentation (Figure 4.6), nous constatons effectivement que nous avons des composants qui sont visibles sur certaines chne, par contre d’autres ne le sont pas Les figures ci-dessous présente les résultats Nous observons effectivement que sur les différentes chne de couleurs seul, certaines composants classés texte sont visibles Sur la chne bleu nous observons deux petits composants non texte qui sont visible La présence de ces deux composant démontre qu’il y a des composants classés en faux positif, ils ont été considéré comme des composants texte par notre modèle SVM alors qu’ils ne le sont pas Sur les deux autres chne de couleurs nous apercevons les composants textes Nous remarquons dans cette expérimentation également que la visibles des composants sur une chne donnée est fonction de plusieurs facteurs tel que la couleur du fond, la luminosité 4.4 Fusion des composants de la chne Bleu,Vert et Rouge La dernière étape de cette étude consiste fusionner les composants extraits de chaque chne de couleur Pour implémenter cette méthode nous avons exploité utilisé une fonction appelé Merge de la librairie utilisée au cours de notre stage Cette fonction prend en paramètre les images des différentes chnes de couleurs et en retour nous renvoi une image fusion des composants de chaque chne La figure 4.10 présente le résultat obtenu 26 Figure 4.6 – originale Figure 4.7 – chne bue Figure 4.8 – image chne verte Figure 4.9 – chne rouge Figure 4.10 – Illustration de la fusion des composants de chaque chne de couleurs 27 Chapitre Conclusion générale et perspective 5.1 Conclusion Au cours de notre stage, nous avons travaillé sur une partie importante du projet AUDIMN de l’équipe image et contenus : la détection de texte dans les images de scènes naturelles Notre travail a consisté mettre en place un pipeline complet de détection de texte dans les images de scènes naturelles Pour ce faire, nous avons subdivisé le travail en deux parties principales savoir une partie théorique et une pratique Dans la partie théorique, nous avons effectué une analyse et une étude bibliographique qui nous ont permis d’avoir une large compréhension de notre sujet Nous avons ainsi pu étudier quelques travaux en rapport avec notre sujet d’étude Au cours de cette étude, nous avons regroupé les méthodes étudiés en trois approches savoir : les approches basées sur les régions , les approches basées sur les composants connexes, et les approches hybrides Cette étude a été particulièrement menée sur les travaux des papiers [1] ; [3] ; [4] Par la suite, nous avons approfondi notre compréhension travers d’autres travaux Suite cette étude bibliographique, nous avons proposé une solution pour la détection de texte Dans la partie pratique, nous avons mis en place un pipeline Ce pipeline comporte six(6) modules, chaque module traite un problème particulier de la détection de texte vu dans la littérature, allant de la segmentation l’affichage des boites englobantes en passant par la classification des composants connexes et la reconstruction des mots avec les caractères Après avoir testé notre pipeline, comme contribution, nous avons proposé l’extraction des composants dans les chnes couleurs Cette proposition vient pour améliorer la performance de notre pipeline surtout dans la phase d’extraction des composants connexes ou il y a eu des limites 5.2 Perspectives En perspective pour la suite des travaux, nous proposons d’abord l’intégration du pipeline dans une application mobile, temps réel et son adaptation au vidéo pour le rendre plus efficace Ensuite nous proposons également l’adaptation du pipeline aux textes orientés de manière verticale dans certains textes Enfin, nous proposons l’extension des caractéristiques utilisés pour améliorer la performance de notre modèle de classification 5.3 Activités annexes au laboratoire L3i Au cours de ce stage j’ai participé plusieurs activités Nous avons eu la chance de participé aux activités du 25 ème anniversaire de notre laboratoire d’accueil Au cours de cette fête, anniversaire nous avons assisté plusieurs présentations de travaux qui sont menés par les chercheurs du laboratoire Ces présentations nous ont vraiment instruit et constituent une source de motivation pour notre futur dans le domaine de la recherche 28 Figure 5.1 – Photos de l’anniversaire Au coté de cela nous avons participé a plusieurs séminaires de formation donc le plus capital était le séminaire sur le Deep learning Au cours de ce séminaire, les chercheurs du domaine, après une phase théorique nous ont démontré la mise en place d’un réseau profond dans la pratique Figure 5.2 – Affiche séminaire sur le Deep learning Nous avons également pu participer la soutenance de plusieurs thèses dans de nombreux domaines de l’informatique (https ://l3i.univ-larochelle.fr/) 29 Bibliographie [1] Jiang, R., Qi, F., Xu, L and Wu, G Detecting and segmenting text from natural scenes with 2-stage classification Intelligent Systems Design and Applications, 2006 ISDA’06 Sixth International Conference on IEEE 2006, vol 819–824 [2] Guttedar, P N and Pushpalata, S Scene Text Recognition in Mobile Application using K-Mean Clustering and Support Vector Machine [3] Khlif, W., Nayef, N., Burie, J.-C., Ogier, J.-M and Alimi, A Learning Text Component Features via Convolutional Neural Networks for Scene Text Detection 2018 13th IAPR International Workshop on Document Analysis Systems (DAS) IEEE 2018 79–84 [4] Wang, C., Yin, F and Liu, C.-L Scene Text Detection with Novel Superpixel Based Character Candidate Extraction Document Analysis and Recognition (ICDAR), 2017 14th IAPR International Conference on IEEE 2017, vol 929–934 [5] Rigaud, C., Karatzas, D., Van de Weijer, J., Burie, J.-C and Ogier, J.-M Automatic text localisation in scanned comic books 9th International Conference on Computer Vision Theory and Applications 2013 [6] Yin, X.-C., Yin, X., Huang, K and Hao, H.-W Robust text detection in natural scene images IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013 (1) : [7] Nistér, D and Stewénius, H Linear time maximally stable extremal regions European Conference on Computer Vision Springer 2008 183–196 [8] Huang, W., Qiao, Y and Tang, X Robust scene text detection with convolution neural network induced mser trees European Conference on Computer Vision Springer 2014 497–511 [9] Wang, T., Wu, D J., Coates, A and Ng, A Y End-to-end text recognition with convolutional neural networks Pattern Recognition (ICPR), 2012 21st International Conference on IEEE 2012 3304–3308 [10] Tian, S., Pan, Y., Huang, C., Lu, S., Yu, K and Lim Tan, C Text flow : A unified text detection system in natural scene images Proceedings of the IEEE international conference on computer vision 2015 4651–4659 [11] Huang, W., Lin, Z., Yang, J and Wang, J Text localization in natural images using stroke feature transform and text covariance descriptors Proceedings of the IEEE International Conference on Computer Vision 2013 1241–1248 [12] Matas, J., Chum, O., Urban, M and Pajdla, T Robust wide-baseline stereo from maximally stable extremal regions Image and vision computing, 2004 22(10) : 761–767 [13] Epshtein, B., Ofek, E and Wexler, Y Detecting text in natural scenes with stroke width transform Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on IEEE 2010 2963–2970 [14] Wang, X., Song, Y and Zhang, Y Natural scene text detection with multi-channel connected component segmentation Document Analysis and Recognition (ICDAR), 2013 12th International Conference on IEEE 2013 1375–1379 [15] Chen, K., Yin, F., Hussain, A and Liu, C.-L Efficient text localization in born-digital images by local contrast-based segmentation 2015 13th International Conference on Document Analysis and Recognition (ICDAR) IEEE 2015 291–295 30 [16] L3i, L GitLab scene text detection - stage Olivier K https://git2017.univ-lr.fr/users/sign_in, 2018 [crée depuis le 19-Mar-2018] [17] Overleaf Plateforme Overleaf https:https://www.overleaf.com, 2018 [consulté le 19-Mar-2018] [18] char74k char74k dataset http://www.ee.surrey.ac.uk/CVSSP/demos/chars74, 2018 [consulté le 20-Mai-2018] [19] cifar10 cifar10 dataset https://www.cs.toronto.edu/~kriz/cifar.html, 2018 [consulté le 20-Mai2018] [20] icdar2015 icdar2015 dataset http://rrc.cvc.uab.es/, 2018 [consulté le 20-Mai-2018] 31 ... avons utilisé lors du stage 14 Modules du Pipeline Données en Input Données en Output Module - Image - Image Module - Image - Image binaire et redimensionnée Module - Image binaire et redimensionnée... entrées / sorties des modules du pipeline 15 3.2 Tableau de validation du modèle 19 vi Table des figures 1.1 Accessibilité du texte dans les scènes... rendre compte du travail effectuộ durant le stage Le premier chapitre introduit le contexte et le cadre d’étude de notre stage Il présente les éléments nécessaires la compréhension du sujet d’étude

Định dạng
Số trang	42
Dung lượng	5,96 MB