Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
3,11 MB
Nội dung
Département de Système d’information Faculté des Technologies de l’information et de la communication Université de Cantho Constructiond'unlogicieldereconnaissanced'écrituresmanuscritecursivesenligneenutilisantMSINK HUYNH Quang Nghi Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique Mai 2010 HUYNH Quang Nghi, 2010 Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK REMERCIEMENTS Je remercie sincèrement Monsieur TRAN Cao De pour leur aide chaleureuse et leurs conseils pertinents qui m’ont permis d’achever mon travail Je remercie tous les professeurs et les membres du Département de Système d’information, faculté des Technologies de l’information et de la communication de l’Université de Can Tho de m’avoir donné des connaissances spécialisées pendant mes études et d’avoir crée des conditions favorables mon travail Je prie aussi les membres de l’AUF de trouver ici l’expression des mes remerciements pour leur soutien durant mes études Je tiens remercier mes amis de la promotion 32 pour leur aide durant le temps de la réalisation de ce travail Enfin, je voudrais exprimer avec tout mon coeur mes sentiments et mes respects ma famille qui m’aime et m’encourage mes études pendant ans l’Université de Can Tho et durant ma vie -2- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK RÉSUMÉ La reconnaissance d’écritures cursives est un grand problème Elle offre la possibilité de saisir de données automatique qui permet de réduire le coût d’opération des system d’information Dans cette recherche, nous intéressons au problème dereconnaissance d’écritures manuscrites cursives, y compris la reconnaissance des caractères isolées, la reconnaissance des mots cursifs et la construction d’un démonstration dereconnaissance d’écritures cursivesen basant sur Microsoft Ink (MS Ink) C’est un projet en group de trois étudiants L’objectif de ce mémoire est d’étudier le logiciel libre et de créer une démonstration dereconnaissance d’écritures manuscrites MSInk fourni des APIs qui managent et reconnaissent les manuscrites numériques acquises par la tablette Notre travail se concentre sur l’ingénierie du logiciel, c'est-à-dire l’utilisation MSInk comme le noyau dereconnaissance Notre logiciel fonction avec l’écriture manuscrit sauvegardé en format SVG Le logiciel peut lire le fichier SVG, éditer le contenue du fichier, puis reconntre des écritures et afficher le résultat (texte) en un format convenable Nous développons aussi des outils pour améliorer la performance dereconnaissanceenutilisant les Factoids ou Wordlist pour les spéciaux documents Mot clés : reconnaissance d’écritures cursives, signal en ligne, SVG, MS ink, l’ingénierie du system informatique -3- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Tableaux de content Tableaux de content Chapitre INTRODUCTION 1.1 PROBLÈME DE TRAITEMENT DES MANUSCRITS 1.2 CHALLENGES 11 1.3 SOMMAIRE DU SYSTÈME DERECONNAISSANCE 12 Chapitre RÉSULTAT DU SYSTÈME DERECONNAISSANCE BASÉ SUR SVM ET HMM 15 2.1 MÉTHODE DERECONNAISSANCEDE CARACTÈRES .15 2.2 RÉSULTAT DU RECONNAISSANCEDE CARACTÈRES 15 2.3 RÉSULTAT DU RECONNAISSANCEDE MOTS 16 Chapitre SPÉCIFICATION DU LOGICIEL ET LES EXIGENCES DU SYSTÈME 18 3.1 SPÉCIFICATION DU LOGICIEL .18 3.2 EXIGENCES DU SYSTÈME 19 3.2.1 Les fonctions .19 3.2.2 Configuration requise 20 Chapitre MICROSOFT INK 21 4.1 INTRODUCTION MS INK: 21 4.1.1 Tablette PC 21 4.1.2 Microsoft Ink 21 4.1.3 Classes Microsoft Ink .22 4.1.4 Conversion d’encre en texte .24 Chapitre CONCEPTION DU LOGICIEL 27 5.1 DIAGRAMME DE CAS D’UTILISATION 27 -4- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK 5.1.1 Diagramme 27 5.1.2 Description des cas d’utilisation principaux .28 5.2 CONCEPTION DES CLASSES 31 5.3 CONCEPTION DES PROCESSUS 33 5.4 CONCEPTION DES INTERFACES 35 5.4.1 Interface frmMain 35 5.4.2 Interface frmChild .37 Chapitre INSTALLATION ET EXAMINATION 38 6.1 INSTALLATION 38 6.1.1 Tablette PC SDK version 1.7 .38 6.1.2 Office XP Handwriting 38 6.1.3 Window Tablette Recognizer Pack 2005 39 6.2 EXAMINATION 40 6.2.1 Reconnaissance sans amélioration .40 6.2.2 Reconnaissance avec Factoid et Wordlist 40 6.2.3 Remarque 42 Chapitre CONCLUSION 43 7.1 LES RÉSULTATS 43 7.1.1 Sur le mémoire 43 7.1.2 Personnelle 43 7.2 LIMITATIONS – CAUSES 43 7.2.1 Limitations 43 7.2.2 Causes .43 7.3 DÉVELOPPEMENT .43 RÉFÉRENCES .44 -5- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK LISTE DES FIGURES Figure 1-1 Système enligne (à gauche) et hors ligne (à droit) Figure 1-2 Signaux d’entré du système enligne (à gauche) et hors ligne (à droit) 10 Figure 1-3 Classification deReconnaissance l’écriture par Leedham(1994) 10 Figure 1-4 Classification deReconnaissance du Plamondon et Lorette (1989) 11 Figure 1-5 Constraintes Graffiti sur Palm 12 Figure 1-6 Modèle du système dereconnaissance l’écriture manuscrite [1] (trang 8) 13 Figure 4-7 Collecte, gestion des données, et la reconnaissance 22 Figure 4-8 Structure d’un fenêtre d’encre compatible 24 Figure 5-9 Diagramme de cas d’utilisation 27 Figure 5-10 Diagramme des classes avec les propriétés 31 Figure 5-11 Diagramme des classes avec les méthodes 32 Figure 5-12 Diagramme séquence processus “New Project” et “New File” 33 Figure 5-13 Diagramme séquence processus “Import File”, “Remove File”, “Save File” 34 Figure 5-14 Diagramme séquence processus “Change language”, “Add Hints” 34 Figure 5-15 Diagramme séquence processus “Recognize”, “Save Text” 35 Figure 5-16 Interface du frmMain 35 Figure 5-17 Interface du frmChild 37 Figure 6-18 Installation de Tablette PC SDK 38 Figure 6-19 Installation de Tablette Recogginzer Pack 39 Figure 6-20 Reconnaissance sans d’outils d’amélioration 40 Figure 6-21 Reconnaissance avec Factoid et Wordlist 41 Figure 6-22 Reconnaissance avec Factoid et Wordlist (cas 2) 42 Figure 6-23 Reconnaissance avec Factoid et Wordlist (cas 3) 42 -6- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK LISTE DES TABLEAUX Tableau 2-1 Résultat du reconnaissancede caractères du SVM 15 Tableau 2-2 Résultats de référence des documents (Abdul Rahim AHMAD, Thèse Université de Nantes 2008) 16 Tableau 2-3 Le vocabulaire utilisé pour le système dereconnaissancede mots 16 Tableau 2-4 Résultats du reconnaissancede l’écriture manuscrite 16 Tableau 2-5 Résultats du reconnaissance avec d’algorithme avancé 16 Tableau 2-6 Résultats de référence du reconnaissance (Abdul Rahim AHMAD, Thèse Université de Nantes 2008) 17 Tableau 4-7 Les classes deMSInk 23 Tableau 4-8 Factoids Tablet PC Support 25 Tableau 4-9 Méthodes du InkAnalyser 26 Tableau 5-10 Liste des acteurs 27 Tableau 5-11 Liste des cas d’utilisation 28 Tableau 5-12 Liste des classe principaux 33 -7- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Chapitre INTRODUCTION 1.1 PROBLÈME DE TRAITEMENT DES MANUSCRITS L’écriture manuscrite est l’une des plus anciens et plus important méthode de communication Elle est utilisée depuis Néolithique, grâce aux signes qui est gravé dans ordre sur les roches pour exprimer des informations Puis, l’homme a inventé papier et stylo L’écriture manuscrite est utilisée pour des intérêts personnels, tels que la rédaction des notes, des lettres, rapports, dépêches,… Peu peu elle est utilisée pour communiquer entre les hommes L’écriture de chaque personne est unique car le progrès d’écriture est un progrès physique qui est combiné d’esprit, squelette et muscle par le control du cerveau Si, elle peut aussi différent par état d’âme du l’homme Le script des différents groupes ethniques (europộennes et asiatiques ou en franỗais, et le Vietnam) avec des conditions différentes et comment la formation dans le développement de la disparité diffère… En fait les deux mêmes groupes ethniques ont écriture différente ou pas de deux personnes ont la même écriture Au début, quand l'ordinateur appart, l'interaction entre les personnes et les ordinateurs sont principalement par le clavier Comme les ordinateurs deviennent de plus en plus populaire, ils ont besoin d'un moyen d'interaction plus naturelle La solution peut être considéré comme la parole et l'écriture La capacité dereconnaissance vocale et d'écriture seront construits pour la machine pour simplifier la saisie des données, avant d'être traités enutilisant le clavier L'écriture semble plus pratique que la reconnaissance vocale pour le fait que la pièce ou un lieu public, des gens ne peuvent pas parler librement leurs ordinateurs des raisons de sécurité ou de nature personnelle des données Une autre raison est que cela peut être ennuyeux pour d'autres personnes si quelqu'un parle votre ordinateur Le systốme a reỗu peu d'ộcriture dans le combinộ, tandis que le système dereconnaissance vocale n'est pas adapté pour une utilisation avec les appareils portable En revanche, la limite de vitesse de saisie des données, la parole est évidemment plus rapide et elle est beaucoup plus facile de donner une meilleure indication qu'il est écrit Populaires stylos sur les appareils numériques sont de plus en plus important pour l'interface de l'ordinateur l'avenir PDA (Personal Digital Assistant) est un système de poche utilisant un stylo et reconnaissancede l'écriture comme méthode de saisie Avec Tablette PC (stylet-pad) un stylo est parfois utilisé pour remplacer la capacité de souris lourde pour reconntre l'écriture manuscrite -8- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK La reconnaissancede l'écriture manuscrite est pour copier les données sur le texte écrit la main en format numérique pour le traitement informatique On a été étudiée depuis les années 1950 Dans ces dernières années, il y a un grand progrès et des succès de travaux de recherche dans ce domaine La reconnaissance des manuscripts sont classés en deux types: - Reconnaissanceen ligne: traitement pour chaque tracé - Reconnaissance hors ligne: traitement avec le file d’attente Pour la reconnaissanceen ligne, les signaux sont enregistrés sous former des trajectoire des tracés sur panneau d’écrit La sortie est de texte de ces écritures Avec la reconnaissance hors ligne, l’image statique du mot utilisé pour les signaux d’entrée Le système enligne nécessite rapide et immédiat, alors que le système hors ligne peut être fonctionner avec des contraintes de temps plus confort D’autre part, le système enligne utilise des fichiers stocké signaux comme l’entré Les signaux enligne sont des ensemble de points sur trajectoire du tracé, comprennent les coordonnées XY, la pression du stylus, tandis que les signaux hors ligne sont des images statiques enregistrées sous format de photo tiff ou jpeg Figure 1-1 Système enligne (à gauche) et hors ligne (à droit) -9- Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Figure 1-2 Signaux d’entré du système enligne (à gauche) et hors ligne (à droit) Un autre type de classification par Leedham (1994): reconntre l’écriture manuscrite et analyser l’écriture manuscriteReconnaissance compris de formule mathématique (identifier des numéros, des lettres et des symboles), de caractères imprimés, d’écriture manuscrite (identifier des mots, caractères simple ou complexe) Analyse l’écriture, d’autre part, vise au domaine d’authentification comme: authentifier signature, auteur, détecter les faux et d’écriture déguisée Reconnaissance l’écriture Reconntre l’écriture Formule Mathématique Analyse Écriture Authentifier signature Authenfier author Caractères imprimés Écriture manuscrite Détecter erreurs Détecter déguisation Figure 1-3 Classification deReconnaissance l’écriture par Leedham(1994) - 10 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Changer LCID du fichier actuel 5.1.2.7 “Add Hints” o Résumé: Ajouter indices pour reconnaissance o Flux d’événement: Utilisateur clique sur menu “Add Hints” Utilisateur choisit le région d’indices sur le fichiers actuel avec l’aide de souris Choisir le type de Factoid, entrer des mot de Wordlist Sauvegarder les indice du fichier actuel 5.1.2.8 “Remove Hints” o Résumé: Supprimer indices dereconnaissance o Flux d’événement: Utilisateur double-clique sur l’indices Supprimer le Factoid et le Wordlist 5.1.2.9 “Recognize” o Résumé: Faire la reconnaissancede l’encre o Flux d’événement: Utilisateur clique sur menu “Recognize” Reconnaitre l’encre avec des indices crées Présente le résultat en texte pour éditer 5.1.2.10 “Save text” o Résumé: Sauvegarder le texte édité en o Flux d’événement: Utilisateur clique sur menu “Save text” Dialogue des fichiers apparaissent pour entrer le nom du fichier Sauvegarder fichier - 30 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK 5.2 CONCEPTION DES CLASSES Figure 5-10 Diagramme des classes avec les propriétés - 31 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Figure 5-11 Diagramme des classes avec les méthodes - 32 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Nombre Classe Type Description frmMain Form Control Classe principal, l’interface de mdiparent form, gestion des frmChild frmChild Form Control Classe d’enfants, represent un fichier de l’encre frmSize Form Control Classe secondaire, gestion la taille d’un fichier de l’encre Myfunc C# Class Contient quelque fonction commun Tableau 5-12 Liste des classe principaux 5.3 CONCEPTION DES PROCESSUS Figure 5-12 Diagramme séquence processus “New Project” et “New File” - 33 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Figure 5-13 Diagramme séquence processus “Import File”, “Remove File”, “Save File” Figure 5-14 Diagramme séquence processus “Change language”, “Add Hints” - 34 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Figure 5-15 Diagramme séquence processus “Recognize”, “Save Text” 5.4 CONCEPTION DES INTERFACES Programme contient deux interfaces principaux : 5.4.1 Interface frmMain Figure 5-16 Interface du frmMain - 35 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK 5.4.1.1 Menu principal: File o New – Project/File: Créer nouveau fichier ou projet o Open: Ouvrir fichier éxisté o Save: Sauvegarder fichier actuel o Save As: Sauvegarder avec un nom différent o Exit: Quitter programme Edit o Resize: Redimensionner la taille de l’encre du fenêtre actuel View o Project Explorer: Activer/Déactiver le panneau Project Recognizers: Change la langue dereconnaissance Windows: Des fenêtre existant 5.4.1.2 Barre d’outils: : Créer nouveau projet : Ouvrir fichier : Sauvegarder fichier : Recognize fenêtre actuel : Mode de Souris pour selectionner l’encre : Mode d’éditer avec l’encre compatible : Sélionner couleur de l’encre : Mode d’effacer d’encre : Mode des Hints - 36 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK 5.4.2 Interface frmChild Figure 5-17 Interface du frmChild Sur le barre d’outils, il y a des button pour éditer, imprimer et sauvegarder le texte En fin du barre, on met la langue actuel de ce fichier - 37 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Chapitre INSTALLATION ET EXAMINATION 6.1 INSTALLATION Pour marche ce logiciel, on doit installé Tablette PC SDK, HandWriting module dans Office XP ou supérieur, et le Window Tablette Recognizer Pack 6.1.1 Tablette PC SDK version 1.7 Marche le fichier tabletPcSDKsetup.exe pour installer Figure 6-18 Installation de Tablette PC SDK 6.1.2 Office XP Handwriting Cliquez sur Démarrer, cliquez sur Panneau de configuration, puis cliquez sur Ajouter ou supprimer des programmes Cliquez sur Modifier ou supprimer des programmes, cliquez sur Microsoft Office XP, puis cliquez sur Modifier Cliquez sur Ajouter ou supprimer des composants, puis cliquez sur Suivant - 38 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Dans la liste Composants installer, développez Composants partagés de Office Entrée d'utilisateur alternative d'Expand Cliquez sur la case gauche de l'écriture manuscrite, puis cliquez sur Exécuter partir du Poste de travail Cliquez sur Update Lorsque vous êtes invité, insérez le CD de Microsoft Office XP dans le lecteur CD-ROM de votre ordinateur-ROM ou de DVD-ROM, ou cliquez sur Parcourir pour localiser les fichiers d'installation Office XP, puis cliquez sur OK 6.1.3 Window Tablette Recognizer Pack 2005 Marche le fichier TRPSetup.exe pour installer Figure 6-19 Installation de Tablette Recogginzer Pack - 39 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK 6.2 EXAMINATION Pour tester la capacité deMS Ink, on va passer quelque examin suivant: 6.2.1 Reconnaissance sans amélioration Dans ce cas, le programme effectuer la reconnaissance avec deux écriture manuscrite cursive Ces deux écriture sont confuse Figure 6-20 Reconnaissance sans d’outils d’amélioration 6.2.2 Reconnaissance avec Factoid et Wordlist D’abord, on ajoute un Factoid de type “WORDLIST” pour le premier écriture avec le vocabulaire {“a”, “s”}; et un Factoid de type “SYSDICT” avec le vocabulaire {“n”} pour le deuxième - 40 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Figure 6-21 Reconnaissance avec Factoid et Wordlist On remarque que le premier écriture est pressé de reconnaitre le mot “s” dans le vocabulaire crée Tandis que la deuxième utilisé encore le dictionnaire du système Puis, on change le type de la deuxième Factoid “UPPERCHAR” Et le résultat: - 41 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Figure 6-22 Reconnaissance avec Factoid et Wordlist (cas 2) Enfin, on change le type de la deuxième Factoid “WORDLIST” Figure 6-23 Reconnaissance avec Factoid et Wordlist (cas 3) 6.2.3 Remarque D’aprè un petit examination, il démontre la capacité dereconnaissance du noyeau MSInk Il fournit des outils très efficace pour améliorer le résultat dans certains contexte - 42 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK Chapitre CONCLUSION 7.1 LES RÉSULTATS 7.1.1 Sur le mémoire Rencontrer les exigences principaux du sujet Approcher avec un domain populaire de l’informatique Rechercher et étudier un nouveau technique Utiliser successivement le noyeau MSInk pour construire un logiciel qui peut être appliquer immédiatement 7.1.2 Personnelle Appliquer les connaissances apprises l'école en pratique Accumulé une expérience de programmation Savoir comment accéder la recherche scientifique Améliorer la compréhension de lecture en anglais et franỗais 7.2 LIMITATIONS CAUSES 7.2.1 Limitations Bien que le logiciel a construit, les algorithm utilisé ne sont pas plus amélioré Ne pas appliquer tous les outils deMSInk pour avoir une meilleur résultat 7.2.2 Causes Temps limite Les documents en anglais et ne sont pas centralisé N’avoir pas beaucoup expérience dans ce domain 7.3 DÉVELOPPEMENT Ajouter le Gesture pour les indices Ajouter des outils d’éditer le texte, et imprimmé directement Améliorer l’interface du logiciel Améliorer les algorithmes pour augmenter la vitesse dereconnaissance - 43 - Constructiond'unlogicieldereconnaissanced'écrituresmanuscriteenligneenutilisantMSINK RÉFÉRENCES [1] Abdul Rahim Ahmad: "Reconnaissance de l’écriture manuscrite en-ligne par approche combinant systèmes vastes marges et modèles de Markov cachés" Thèse Université de Nantes, 2008 [2] Abdul Rahim Ahmad, Christian Viard-Gaudin, Marzuki Khalid, Rubiyah Yusof: "Online Handwriting Recognition using Support Vector Machine" 8-2004 [3] V Jagadeesh Babu, L Prasanth, R Raghunath Sharma, G.V Prabhakara Rao: "HMM-based Online Handwriting Recognition System for Telugu Symbols ".5-72007 [4] Xin Dong, Wu Zhao-hui, Pan Yun-he: "Probability output of multi-class support vector mechines" 6-2002 [5] Lance C Pérez: "Hidden Markov Model and the Baum-Welch Algorithm" IEEE Information Theory Society Newsletter, 12-2003 [6] Microsoft Ink http://msdn.microsoft.com/en-us/magazine/cc163869.aspx [7] InkAnalyser http://msdn.microsoft.com/fr-fr/library/microsoft.ink.inkanalyzer.aspx - 44 - ... de la zone de dessin, la taille de toute - 25 - Construction d'un logiciel de reconnaissance d'écritures manuscrite en ligne en utilisant MS INK boite de guide dessiné, avec des information des... un existant fenêtre de l’application - 22 - Construction d'un logiciel de reconnaissance d'écritures manuscrite en ligne en utilisant MS INK PenInputPanel Une fenêtre d’entrée de l’encre supporte... capacité de souris lourde pour reconntre l'écriture manuscrite -8- Construction d'un logiciel de reconnaissance d'écritures manuscrite en ligne en utilisant MS INK La reconnaissance de l'écriture manuscrite