THESE / UNIVERSITE DE BRETAGNE-SUD sous le sceau de lUniversitộ Bretagne Loire pour obtenir le titre de DOCTEUR DE LUNIVERSITE DE BRETAGNE-SUD Mention : Informatique Ecole doctorale SICMA Prộsentộe par VU Hai Hieu Prộparộe dans lộquipe EXPRESSION Laboratoire IRISA Thốse soutenue le 29 janvier 2016 devant le jury composộ de : Indexation alộatoire et similaritộ inter-phrases appliquộes au rộsumộ automatique Pierre-Franỗois MARTEAU Professeur, universitộ de Bretagne Sud / directeur de thốse Jeanne VILLANEAU MCF, universitộ de Bretagne Sud / co-directrice de thốse Farida SAẽD MCF, universitộ de Bretagne Sud / co-directrice de thốse Sophie ROSSET Chercheuse, LIMSI CNRS / rapporteuse Emmanuel MORIN Professeur, universitộ de Nantes / rapporteur Gwộnolộ LECORVẫ MCF, universitộ de Rennes / examinateur UNIVERSITE DE BRETANGE-SUD Resume IRISA EXPRESSION Docteur en informatique Indexation al eatoire et similarit e inter-phrases appliqu ees au r esum e automatique par VU Hai Hieu Face a` la masse grandissante des donnees textuelles presentes sur le Web, le resume automatique dune collection de documents traitant dun sujet particulier est devenu un champ de recherche important du Traitement Automatique des Langues Les experimentations decrites dans cette th`ese sinscrivent dans cette perspective Levaluation de la similarite semantique entre phrases est lelement central des travaux realises Notre approche repose sur la similarite distributionnelle et une vectorisation des termes qui utilise lencyclopedie Wikipedia comme corpus de reference Sur la base de cette representation, nous avons propose, evalue et compare plusieurs mesures de similarite textuelle ; les donnees de tests utilisees sont celles du defi SemEval 2014 pour la langue anglaise et des ressources que nous avons construites pour la langue franácaise Les bonnes performances des mesures proposees nous ont amenes `a les utiliser dans une tache de resume multidocuments, qui met en oeuvre un algorithme de type PageRank Le syst`eme a ete evalue sur les donnees de DUC 2007 pour langlais et le corpus RPM2 pour le franácais Les resultats obtenus par cette approche simple, robuste et basee sur une ressource aisement disponible dans de nombreuses langues, se sont averes tr`es encourageants Remerciements Je tiens a` remercier, en tout premier lieu, mon directeur et mes co-directeurs de th`ese, Monsieur le Professeur Pierre-Franácois MARTEAU, Mesdames Jeanne VILLANEAU et Farida SAăID pour mavoir accueilli, guide et mis dans les meilleures conditions pour preparer ma th`ese au sein de lequipe EXPRESSION du Laboratoire IRISA, lUniversite de Bretagne-Sud Je tiens `a leur exprimer ma gratitude pour leurs qualites pedagogiques et scientifiques, leur franchise, leur sympathie, leur confiance Jai appris beaucoup aupr`es deux Je leur suis egalement reconnaissant pour leur ecoute, leur partage et leur soutien dans les moments difficiles Jai pris un grand plaisir a` travailler sous leur direction Je voudrais aussi remercier les rapporteurs de cette th`ese : Madame Sophie ROSSET, Directrice de Recherche du Laboratoire LIMSI, CNRS et Monsieur le Professeur Emmanuel MORIN au Laboratoire dInformatique de Nantes-Atlantique, lUniversite de Nantes pour linteret quils ont porte a` mon travail de Mes remerciements sadressent egalement a` Monsieur Gwenole LECORVE lUniversite de Rennes pour avoir accepte dexaminer mon travail et de participer au jury Je souhaite remercier tous les membres du laboratoire IRISA, Lab-STICC, ENSIBS : les enseignants, techniciens, administratifs et doctorants qui mont aide et accompagne dans mon travail durant ces quatre annees en France Je noublie pas non plus tous les amis de France qui nous ont aides, ma famille et moi : Brigitte ENQUEHARD, Evelyne BOUDOU, Alain BOUDOU, Lucien MOREL, Gildas TREGUIER, Sylvain CAILLIBOT , les etudiants vietnamiens et les familles vietnamiennes de Lorient Pour terminer, je remercie du fond du cur mes beaux-parents NONG Quoc Chinh - TRAN Thi 2.2.2 VSM et types de similarite 2.3 Traitements mathematiques des VSM 2.3.1 Construction de la matrice des frequences brutes 2.3.2 Ponderation des frequences brutes 2.3.3 Lissage de la matrice 2.3.4 Comparaison des vecteurs 2.3.5 Algorithmes aleatoires 2.4 Notre approche pour la representation des mots WikiRI et similarit e entre phrases : evaluations 5.1 Evaluations du calcul de similarites entre phrases : langue anglaise 5.1.1 Les corpus SemEval 5.1.2 Etude des param`etres et (WikiRI1 ) Introduction du param`etre 5.1.3 Resultats obtenus par les dierentes versions de WikiRI sur les corpus de SemEval 2014 5.2 Evaluations du calcul de similarites entre phrases : langue franácaise 5.2.1 Les corpus devaluation 5.2.2 Resultats obtenus par les dierentes versions de WikiRI sur les corpus de langue franácaise WikiRI sur selection darticles Comparaison entre WikiRI1 et WikiRI2 5.3 Conclusion 