Dans le troisième chapitre, nous décrirons pas à pas l'élaboration de l'approche sémantique latente, en commençant par décrire la série de traitements que subissent les documents, puis l
Trang 1Département de Génie logiciel Faculté des Technologies de l’information et de la communication
Université de Cantho
Détection du plagiat en utilisant la technique de
l’indexation sémantique latente
Bui Vo Quoc Bao
Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique
Juillet 2011
© Bui Vo Quoc Bao, 2011
Trang 3Résumé
Cette thèse de fin d'études suggère une méthode de déterminer si un document est copié d'une collection de documents enregistrés Malgré qu'il existe déjà des solutions informatiques différentes destinées à résoudre ce problème, ces méthodes fonctionnent seulement bien sur la copie de façon exacte (mot par mot) Elles ne sont pas capable de détecter effectivement la copie sémantique, c'est-à-dire
la copie avec un peu de modifications, ex le remplacement de synonymes, le changement de l'ordre de mots, ou la reconstruction de phrases Afin de surmonter cette faiblesse, la méthode proposée utilise la technique de l'indexation sémantique latente qui est basée sur le modèle vectoriel et la décomposition en valeurs singulières d'une matrice Grâce à cette technique, nous pouvons mesurer la similarité sémantique latente entre les paragraphes et puis entre les documents Les expérimentations montrent que l'approche sémantique latente fonctionne effectivement Un document qui est copié sémantiquement d'autres peut être identifié
Mots clés: détection du plagiat/de la copie textuelle, indexation sémantique latente, recherche sémantique, mesure de similarité, indexation textuelle
Trang 4This graduate thesis suggests a method for determining whether a document
is copied from a collection of registered documents Although there are already some different informatics solutions destined to solve this problem, these methods only work well on the exact (word for word) copying They aren't able to detect efficiently the semantic copying, that is the fact of copying with a few modifications, i.e synonym replacement, word order changing, or sentence restructuring In order to overcome this weakness, the proposed method uses the latent semantic indexing technique which is based on the vector space model and the singular value decomposition of a matrix Due to this technique, we can measure the latent semantic similarity between the paragraphs and then between the documents The experimentations show that the latent semantic approach works efficiently A document that is a semantic copy from others can be identified
Key words: plagiarism/text copying detection, latent semantic indexing, semantic search, similarity measure, text indexing
Trang 5Table des matières
Liste des figures 3
Liste des tableaux 4
Remerciements 5
Introduction 6
Chapitre 1 : Problème de détection du plagiat 8
1.1 Solutions actuelles 8
1.1.1 Prévention du plagiat 8
1.1.2 Détection du plagiat 8
1.2 Proposition d’une méthode avec l’approche sémantique latente 11
Chapitre 2 : Recherche d’information 13
2.1 Concepts de base de la recherche d’information 13
2.1.1 Indexation 14
2.1.2 Modèle vectoriel 18
2.2 Analyse sémantique latente 20
2.2.1 Décomposition en valeurs singulières 21
2.2.2 Computation de quantité des comparaisons fondamentales 22
2.2.3 Illustration de la LSI 23
Chapitre 3 : Application de l’indexation sémantique latente à la détection du plagiat 26
3.1 Prétraitement de textes 26
3.1.1 Segmentation en mots dans un document textuel en vietnamien 27
3.1.2 Indexation de paragraphes 31
3.2 Modèle de documents 33
Trang 63.2.1 Modèle pour les composants de la SVD 33
3.2.2 Modèle pour le vocabulaire 34
3.2.3 Problème de mise à jour du modèle 35
3.3 Mesures de similarité et de degré de copie 36
Chapitre 4 : Expérimentation 39
4.1 Conception des ensembles de test 39
4.2 Résultats de test 40
4.3 Discussion des résultats 41
Conclusions et suggestions 43
Références 45
Trang 7Liste des figures
Figure 1.1 : Le document avec filigrane 9
Figure 1.2: Un serveur de détection de la copie textuelle 10
Figure 2.1: Les vecteurs des documents et de la requête 19
Figure 2.2: Les similarités cosinus entre les documents et le requête 20
Figure 2.3: Les vecteurs représentant les documents et la requête 23
Figure 2.4: La SVD de la matrice A 24
Figure 2.5: Les matrices composantes de la matrice A2 24
Figure 2.6: La représentation de la requête q dans l’espace à 2 dimensions 25
Figure 3.1: Le processus de prétraitement de textes 27
Figure 3.2: La structure de base de données utilisée 31
Figure 3.3: L’exemple de la structure du fichier stockant la SVD 33
Figure 3.4: L’exemple de la structure du fichier stockant le vocabulaire 34
Figure 3.5: La représentation mathématique du fait d’incorporer p paragraphes 36
Figure 3.6: La représentation mathématique du fait d’incorporer t termes 36
Trang 8Liste des tableaux
Tableau 2.1: Quelques approches connues pour évaluer le poids global 16
Tableau 2.2: Quelques approches populaires pour évaluer le poids local 17
Tableau 3.1: L’implémentation du tableau Documents 31
Tableau 3.2: L’implémentation du tableau Paragraphs 32
Tableau 3.3: L’implémentation du tableau PostingList 32
Tableau 3.4: Les valeurs de similarité données 37
Tableau 3.5: La longueur de T et ses paragraphes 38
Tableau 4.1: Quatre ensembles de test 40
Tableau 4.2: Les résultats de l’ensemble 1 – 100% 40
Tableau 4.3: Les résultats de l’ensemble 1 – 80% 41
Tableau 4.4: Les résultats de l’ensemble 1 – 50% 41
Tableau 4.5: Les résultats de l’ensemble 1 – 00% 41
Trang 9Remerciements
Je tiens à exprimer ma reconnaissance et ma gratitude à monsieur Tran Cao
De, mon tuteur de thèse Merci pour sa confiance, son aide et sa patience
Je remercie les professeurs de faculté des Technologies de l'information et de
la communication qui non seulement m'ont guidé avec l'enthousiasme dans mes études en informatique, mais aussi m'ont donné des conseils précieux Grâce à leur aide, je peux accomplir bien mon programme d'études en complétant cette thèse Je les souhaite de la santé et du succès dans la vie
Mes remerciements vont également à mes colocataires de cité universitaire, mes amis de ma classe qui m'ont accompagné au cours de mes années d'études à l'Université de Cantho J'ai une pensée pour vous et les années passées ensembles
Je dédie cette thèse à ma famille, mes parents et mon petit frère
Trang 10Introduction
Avec le développement de l’Internet, une personne peut facilement trouver des documents désirés, par exemple, via un moteur de recherche et fait des copies au lieu d’écrire elle-même Cela cause le problème du plagiat lorsque l’on recopie un travail fait par quelqu’un d’autre sans en mentionner la source [plagiarism.org] Malheureusement, ce phénomène est de plus en plus répandu dans notre société et cause des problèmes sérieux à plusieurs domaines différents Ainsi, la duplication des documents dégrade l’efficacité du processus de recherche d’information Au point de vue de commerce électronique, celle des matériaux de copyright cause la perte de revenus aux détenteurs de copyright Pour l’éducation et la formation universitaire, le plagiat dégrade l’esprit scientifique chez des étudiants et des chercheurs, les habitue à violer le droit d’auteur, etc Détecter efficacement le contenu en double est important pour le succès à long terme de librairies digitales, l’Internet et le média distribué numériquement en général L’objectif de ce mémoire
de fin d’études est d’étudier les méthodes les plus répandues pour le problème de détection du plagiat et de proposer une méthode qui est basée sur la mesure de la similarité entre les documents textuels La dernière est mesurée par la sémantique latente entre deux documents
Copier un texte à partir d’un peu de documents dans une librairie digitale est très facile Est-il facile de détecter un document copié d’autres dans une librairie digitale ? Comment déterminer si un texte est copié ou collecté à certains autres documents ou non ? Si l’on n’effectue pas de copie de façon exacte (mot par mot), comment déterminer le degré de copie ? Ce sont les questions que nous essayons à répondre au cours de notre recherche
Cette thèse est composée de quatre chapitres Les deux premiers abordent les aspects théoriques de base et les deux derniers traitent la méthode proposée et les expérimentations effectuées
Le premier chapitre introduira des méthodes et des utiles informatiques pour
le problème de plagiat Les mécanismes de détecter un document textuel qui est copié d’une collection de documents sont aussi décrits Cette collection peut être issue d’une source fermée telle qu’une librairie digitale ou d’une source ouverte librement comme les documents sur l’Internet
Trang 11Dan le second chapitre, nous introduirons les concepts de base de la recherche d'information (RI) au travers de la description du processus de RI Ce processus consiste à déterminer la liste des documents qui sont pertinents pour la requête utilisateur Nous décrirons ici les étapes de l'indexation traditionnelle des données textuelles, le modèle vectoriel qui est utilisé pour représenter les documents
et la requête Enfin, nous présenterons la technique de l'indexation sémantique latente (LSI) qui est un élément important de notre recherche
Dans le troisième chapitre, nous décrirons pas à pas l'élaboration de l'approche sémantique latente, en commençant par décrire la série de traitements que subissent les documents, puis la façon d'appliquer le modèle vectoriel et la technique LSI à la détection du plagiat Enfin, nous présenterons la méthode de déterminer la similarité entre les documents, et de mettre à jour le modèle vectoriel préexistant
Le quatrième chapitre est consacré aux expérimentations Nous décrirons notre façon d'évaluer l'approche proposée, présenterons les résultats obtenus et nous discuterons sur ces résultats
Enfin, nous conclurons et proposerons différentes pistes de recherche
Trang 12Chapitre 1 : Problème de détection du plagiat
Dans ce premier chapitre, nous présentons des méthodes courantes pour le problème de plagiat, y compris des systèmes de détection du plagiat couramment utilisés Les caractéristiques de chaque méthode sont examinées A partir de ces analyses, nous allons proposer une autre approche avec l’intention de surmonter des points faibles de ces méthodes et de détecter plus efficacement la copie textuelle
1.1 Solutions actuelles
Les solutions destinées à résoudre le problème de plagiat sont étudiées depuis longtemps Il y a deux philosophies principales pour le traitement du problème: la prévention et la détection [3] La première rend difficile ou impossible l’utilisation non autorisée de documents tant que la dernière rend facile la découverte de tel acte
1.1.1 Prévention du plagiat
La prévention du plagiat inclut l’isolation physique des informations (ex., en les plaçant sur un système autonome de CD-ROM), l’utilisation des matériels spécialisés pour l’autorisation et les documents actifs, c’est-à-dire, les documents encapsulés par un programme spécial Toutefois, ces techniques sont évaluées d’être embarrassantes (l’utilisation des matériels et logiciels spéciaux), restrictives (la limitation d’accès aux documents) et de ne pas être toujours en sécurité (les documents peuvent être recordés en utilisant un programme d’émulateur) [3, 12] En réalité, dans l’industrie logicielle, des mécanismes de protection peuvent faire diminuer les ventes logicielles [3, 13]
1.1.2 Détection du plagiat
L’autre approche est d’utiliser des techniques de détection des copies illégales Dans cette approche, on assume que la plupart des utilisateurs sont honnêtes, alors on les autorise à accéder aux documents On concentrera seulement sur la détection des personnes qui violent les règles Les stratégies de détection peuvent être classifiées en deux catégories : celle basée sur l’enregistrement et celle basée sur la signature [12] La première répond à la question: Est-ce qu’un document est une copie illégale de certains documents dans une collection ? Et la dernière répond à la question: Si le document est une copie illégale, qui est l’initiateur de cette affaire ?
Trang 13Figure 1.1 : Le document avec filigrane
Avec la technique basée sur la signature, une signature unique (ex., le filigrane, voir la figure 1.1) est ajoutée à un document quand il est assigné à un utilisateur ou quand il est produit par l’auteur Lorsqu’une copie illégale est trouvée, cette signature peut être utilisée afin d’en découvrir la source et l’auteur de document Cependant, cette méthode rencontre un point faible majeur: les signatures peuvent souvent être enlevées automatiquement et elles ne sont pas utiles pour détecter des copies partiales [12, 4] Pour ces raisons, les méthodes basées sur un serveur d’enregistrement sont préférentielles Dans ces méthodes, les utilisateurs (tels que les auteurs, les éditeurs) enregistrent leurs documents digitaux au serveur Ces documents sont divisés en des unités primitives telles que des mots, des phrases, des paragraphes, etc qui sont stockées dans un entrepôt Quand on vérifie
si un document est une copie ou non, on coupe le document en unités primitives de même façon des documents enregistrés dans l’entrepôt Les unités du document vérifié sont ensuite comparées avec celles dans l’entrepôt pour la vérification du plagiat Si la similarité obtenue via cette comparaison est supérieure à un seuil prédéfini, le document vérifié est considéré comme une reproduction des documents enregistrés Si non, le document n’en est pas compté comme une copie
Trang 14Figure 1.2: Un serveur de détection de la copie textuelle
La figure 1.2 donne l’architecture générale d’un serveur de détection de la copie textuelle avec un entrepôt de documents enregistrés Des méthodes différentes varient en fonction d’unité primitive utilisée et de façon de déterminer la similarité entre les documents via la comparaison des unités Deux systèmes connus utilisant
le serveur d’enregistrement sont COPS [3, 4] (Copy Protection System) et SCAM [12, 13, 11, 4] (Stanford Copy Analysis Mechanism)
1.1.1.1 COPS
COPS utilise un tableau de hachage pour stocker l’ensemble des phrases extraites à partir des documents enregistrés Alors, une unité est une phrase au sens normal Afin de vérifier si un document est copié des autres, chaque phrase de ce document est recherchée dans le tableau de hachage Si le ratio entre le nombre de phrases trouvées et celui de phrases du document est grand, le document est marqué comme une copie Une faiblesse de COPS est la collision dans le tableau de hachage: plusieurs phrases peuvent avoir la même valeur de hachage Un autre problème de cette méthode est l’identification de phrase Détecter et analyser une phrase anglaise est un travail assez compliqué [3]
Flot de documents Coupeur
Enregistre r Comparer Insérer
Documents enregistrés
Trang 151.1.1.2 SCAM
SCAM est basé sur les théories de la recherche d’information Les documents vérifiés et ceux enregistrés sont modelés dans un modèle vectoriel Chaque document est considéré comme un vecteur de termes dans un ensemble fermé de termes (ou vocabulaire) La valeur de chaque élément est la fréquence de terme dans
le document Par exemple, suppose que le vocabulaire est {a, b, c, d, e}, le document D = {a d c a} D est modelé comme un vecteur {1/2, 0, 1/4, 1/4, 0} Dans plusieurs cas examinés, SCAM est meilleur que COPS, mais il produit aussi plus de fautes positives ó des fautes positives sont des paires de documents qui sont annoncées comme des cas possibles de plagiat, mais cela n’est pas correct (ex deux documents sont différents) La faiblesse de SCAM est que la mesure de la similarité est mal définie Quelquefois, il peut donner un résultat incorrect [4]
1.2 Proposition d’une méthode avec l’approche sémantique latente
Le problème de détection de la copie peut être formalisé comme suit:
Soit T est un document textuel, appelé document vérifié C'est le document utilisé pour la vérification du plagiat Soit L est un ensemble de documents textuels, appelé la source qui peut être considérée comme une librairie digitale fermée Le problème est de déterminer le degré de similarité entre T et un document dans L Si
la similarité entre T et quelques documents dans L est grande (supérieure à un seuil prédéfini), T est considéré comme une copie de L (un ou certains documents dans L) Note qu'il n'est pas nécessaire d'exister un document D qui est similaire à T Autrement dit, T pourrait ne pas être une copie de façon mot par mot d’un seul document D T est susceptible d'être une collection de quelques documents dans L avec un peu de modifications Au cas ó nous évaluons seulement la similarité entre deux documents, nous pouvons détecter la copie d'un seul document, mais nous ne pouvons pas vérifier si un texte est une collection d'autres
En réalité, il est très difficile de vérifier et de détecter le plagiat à cause de ses diversités La difficulté réside non seulement dans l’algorithme de la détection mais aussi dans le consensus sur le terme “plagiat” Comment définissons-nous un plagiat, et comment déterminons-nous le degré de copie ou plagiat ? Les méthodes existantes fonctionnent efficacement au cas le plus simple de plagiat, c’est-à-dire, au cas ó l’on effectue une copie mot par mot Cependant, elles ont des difficultés à vérifier et détecter le plagiat dans lequel l’on a remplacé certains mots par ses
Trang 16synonymes, restructuré quelques phrases, changé l’ordre de mots… En d’autres termes, ce n’est pas une copie exacte, mais c’est une copie d’idée ou sémantique
Nous proposons une solution destinée à détecter le plagiat au sens restreint Nous n’avons pas l’intention de définir le plagiat La copie sémantique utilisée ici signifie une copie avec un peu de modifications comme le replacement de synonymes, la reconstruction de phrases (en changeant l’ordre de mots ou en réécrivant une phrase composée au lieu de deux phrases simples) La méthode proposée est basée sur l’indexation sémantique latente (LSI) [7, 9, 1, 2] Un document est modelé comme un ensemble de segments textuels, chaque segment est modelé comme un vecteur, et ensuite, les similarités sémantiques entre deux segments sont le cosinus de deux vecteurs correspondants En d’autres termes, le modèle vectoriel [1, 2, 5] est utilisé afin de modeler les documents et la LSI est utilisée pour calculer les similarités sémantiques entre deux segments textuels Nous espérons que les caractéristiques de la LSI, qui faites émerger la structure sémantique sous-jacente du modèle vectoriel de documents, vont bien nous aider à détecter la copie sémantique
Un corpus contenant 33 documents au format texte en UTF-8 en vietnamien
a été construit pour tester la solution proposée Chaque document contient un ou plusieurs articles à partir du site www.chungta.com et d’autres sites en fonction de leur longue et de leur sujet Afin d’éviter la duplication de contenus, nous choisissons les sujets assez différents pour les documents L’expérimentation sur ce corpus montre que notre méthode fonctionne efficacement Un document qui est copié sémantiquement d’autres documents peut être identifié Dans certains cas, la précision obtenue est presque 100%
Trang 17Chapitre 2 : Recherche d’information
Notre recherche est basée sur la théorie de la recherche d’information (RI)
Ce chapitre a donc pour objectif de familiariser le lecteur d’une part avec le vocabulaire de la RI et d’autre part avec des théories de base utilisées dans notre travail
Dans la première partie est décrit le processus de la RI, des différents traitements pouvant être effectués sur les données textuelles, ainsi que le modèle vectoriel utilisé pour représenter ces données
Dans la deuxième partie nous présentons la technique de l’analyse sémantique latente et son application dans le système de recherche d’information – l’indexation sémantique latente destinée à améliorer le processus de la RI
2.1 Concepts de base de la recherche d’information
La RI concerne les méthodes et mécanismes qui permettent la création et l’utilisation d’une base d’information Une base d’information est un système documentaire permettant d’exploiter une collection de documents La gestion concerne principalement le stockage des documents, ainsi que leur recherche et leur présentation en vue d’une utilisation (consultation par exemple)
Un système de recherche d’information (SRI) est un ensemble logiciel permettant d’effectuer l’ensemble des tâches nécessaires à la RI Un SRI possède trois fonctions fondamentales qui définissent le modèle de recherche : représenter le contenu des documents, représenter le besoin de l’utilisateur et comparer ces deux représentations La représentation des documents et de la requête dans le système se fait à l’issue d’une phase appelée indexation qui consiste à choisir les termes représentatifs des documents et à les ajouter à un index qui à chaque terme associe
le document dans lequel il se trouve avec éventuellement des informations additionnelles comme la fréquence d’apparition du terme dans le document Le modèle doit mettre en correspondance les représentations des documents et la représentation du besoin de l’utilisateur exprimé sous la forme d’une requête afin de retourner à celui-ci les documents en rapport avec sa requête Généralement, cela se fait à l’aide d’un calcul de similarité L’opération de comparaison des représentations est fondamentale en RI Elle constitue le cœur du modèle de recherche Les modèles de recherche s’appuient sur des théories mathématiques qui
Trang 18offrent des opérations pour comparer les représentations des documents de la collection et la représentation de la requête de l’utilisateur Généralement, le calcul
de similarité qui est effectué exploite les termes communs aux documents comparés pour évaluer leur ressemblance Par exemple, dans le modèle vectoriel les documents et la requête sont représentés comme des vecteurs dans l’espace des termes indexés, le SRI retourne les documents qui sont “à proximité” de la requête dans cet espace
2.1.1 Indexation
Dans un SRI, dont l’objectif final est de retourner une liste de documents pertinents par rapport à une requête utilisateur, il est nécessaire de pouvoir rechercher les documents de la collection dont le contenu ressemble ou correspond
au contenu de la requête Afin de réduire la complexité des documents et les rendre plus facile à manipuler, le document doit être transformé La recherche implique une méthode de tri et la comparaison de contenu implique une analyse à défaut de pouvoir directement comparer les concepts véhiculés dans le document à ceux présents dans la requête Les mots sont les unités linguistiques porteuses de sens les plus souvent utilisées dans les systèmes actuels pour représenter ces concepts
Indexer un document c’est élire ses termes représentatifs afin de générer la liste des termes d’indexation et ajouter à l’index de la collection, pour chacun de ces termes, la liste des références de chaque document le contenant Ces références donnent un moyen de retrouver de façon non ambiguë des documents ou un document ou une partie de document ó le terme apparaỵt L’indexation des documents est une étape primordiale car elle détermine de quelle manière les connaissances contenues dans les documents fournis sont représentées Elle a lieu à chaque ajout d’un document dans l’ensemble des documents étudiés
L’indexation automatique implique une analyse automatique du contenu de chaque document de la collection Cette analyse comprend plusieurs étapes, le but étant d’extraire les termes représentatifs du contenu et d’évaluer leur pourvoir de représentation du contenu ainsi que leur pouvoir de caractérisation du document dans lequel ils apparaissent Voici la suite des opérations traditionnellement effectuées sur les données textuelle lors de l’indexation :
Trang 192.1.1.1 Analyse lexicale
L’analyse lexicale est l’étape qui permet de transformer un document textuel
en un ensemble de termes Pendant cette phrase, la ponctuation, la casse, et la mise
en page sont supprimées Pour le vietnamien, cette étape est plus difficile à achever que d’autres langues comme l’anglais ou le français à cause de la frontière obscure des mots Un mot vietnamien est constitué par un ou plusieurs unités linguistiques appelées syllabes, séparées par des espaces vides lors de l’écriture, par exemple,
“may vi tinh” (ordinateur), “cong nhan” (employée) Cela rend difficile le fait de déterminer les mots du vietnamien
Dans notre recherche, nous utilisons le système de MMSEG [15] (Maximum Matching Segmentation) adapté à la segmentation du vietnamien pour extraire des termes à partir des documents textuels dans la collection
2.1.1.2 Sélection de termes
Afin de ne garder que les termes importants, plusieurs techniques peuvent être mise en œuvre Parmi celles-ci, l’on utilise souvent un anti-dictionnaire qui permet de ne pas conserver les mots moins importants, c'est-à-dire ne reflétant pas le contenu informationnel des documents C’est une liste de mots qui contient généralement les articles, pronoms, prépositions, les mots outils, ainsi que les mots athématiques, c'est-à-dire présents dans le document pour l’introduire ou le présenter mais n’ayant pas de réel rapport avec le sujet traité
Le traitement lié à un anti-dictionnaire est très simple Quand un mot est rencontré dans un texte à indexer, s’il apparaît dans l’anti-dictionnaire, il n’est pas considéré comme un index
2.1.1.3 Utilisation de radicaux
Dans plusieurs langues, un mot peut avoir des variantes morphologiques, qui ont la plupart du temps un sens très proche Par exemple, il peut être utile de trouver des documents contenant les mots “transmission”, “transmettrons”, “transmetteur”,
“transmet”, “transmis”, à partir d’une requête comportant le mot “transmettre” Il est donc nécessaire de représenter plusieurs variantes d’un mot sous une forme
unique appelée racine ou radical (ex “transm”) en utilisant des algorithmes de
radicalisation L’utilisation de radicaux non seulement réduit le besoin de stockage
en diminuant le nombre de termes d’indexation maintenus, mais aussi rend plus efficace la recherche d’information
Trang 202.1.1.4 Pondération de termes
La pondération d’un terme d’indexation est l’association de valeurs numériques appelées poids à ce terme de manière à représenter son pouvoir de discrimination pour chaque document de la collection Cette caractérisation est liée
au pouvoir informatif du terme pour le document donné Ainsi, un terme qui apparaît dans tous les documents n’est pas discriminant, c'est-à-dire qu’il ne permet pas de distinguer un document des autres documents Un poids faible sera affecté à
ce terme
j ij
tf 2 1
GFIDF (Global Frequency-Inverse
i
df gf
IDF (Inverse Document Frequency) ççèæ ÷÷øö
i df
ndocs
p p
df : le nombre de documents dans lesquels le terme i apparaît
ndocs : le nombre de documents dans le corpus
Tableau 2.1: Quelques approches connues pour évaluer le poids global
La pondération d’un terme i dans un document j dépend généralement de deux facteurs : l’importance du terme dans le document (pondération locale Lij) et celle du terme dans la collection (pondération globale Gi) Il existe plusieurs possibilités pour calculer chacune de ces pondérations Les tableaux 2.1 et 2.2 donnent des approches connues afin d’évaluer la pondération locale et la
Trang 21pondération globale Des autres fonctions et des discussions approfondies peuvent être trouvées dans [6, 10] Le poids du terme i dans le document j s’écrit sous la forme:
tf : la fréquence du terme i dans le document j.
Tableau 2.2: Quelques approches populaires pour évaluer le poids local 2.1.1.5 Illustration des étapes d’indexation
- Document original:
The present study is a history of the DEWEY Decimal Classification The first edition of the DDC was published in 1876, the eighteenth edition in 1971, and future editions will continue to appear
as needed
- Après analyse lexicale:
the present study is a history of the dewey decimal classification the first edition of the ddc was published in 1876 the eighteenth edition in 1971 and future editions will continue to appear as needed
- Après suppression des mots moins importants:
present study history dewey decimal classification edition ddc published 1876 eighteenth edition
1971 future editions continue needed
d ®avec ti le terme d’indice i dans le vocabulaire et aij son poids dans le document dj
Trang 22L’entrée de l’index correspondant au document au-dessus avec la pondération TF est:
d1 ® {{edit, 3}; (dewey, 1}; {decim, 1}; {classif, 1}; {present, 1}; {studi, 1}; {histori, 1}; {publish, 1}; {ddc, 1}; {eighteenth, 1}; {futur, 1}; {continu, 1}; {need, 1}}
2.1.2 Modèle vectoriel
L’indexation choisit les termes pour représenter le contenu d’un document ou d’une requête, le modèle permet de donner une interprétation des termes choisis pour représenter le contenu d’un document Etant donné un ensemble de termes pondérés issus de l’indexation, le modèle remplit deux fonctions La première est de créer une représentation interne pour un document ou pour une requête basée sur ces termes La deuxième est de définir une méthode de comparaison entre une représentation de document et une représentation de requête afin de déterminer leur degré de correspondance (ou similarité)
Le modèle vectoriel est un modèle algébrique ó l’on représente les documents et les requêtes par des vecteurs dans un espace multidimensionnel dont les dimensions sont les termes issus de l’indexation La comparaison de la requête
au document est effectuée en comparant leurs vecteurs respectifs On ramène ainsi une proximité sémantique à une mesure de distance géométrique
Soit R l’espace vectoriel défini par l’ensemble des termes: <t1, t2,…, tn>
Un document d et une requête q peuvent être représentés par des vecteurs de poids comme suit:
d ® <wd1, wd2,…, wdn>
q ® <wq1, wq2,…, wqn>
wdi et wqi correspondent aux poids du terme ti dans le document di et dans la requête
q et n correspond au nombre de termes de l’espace
Etant donnés ces deux vecteurs, leur degré de correspondance est déterminé par leur similarité Plus d’approches peuvent être utilisées pour déterminer la similarité en fonction de l’application Une mesure très utilisée est la similarité cosinus, qui consiste à quantifier la similarité entre le document et la requête en calculant le cosinus entre leurs vecteurs:
Trang 23qi di
w w
w w q
d Sim
2 2
*
* )
,
Les documents ayant les plus hauts degrés de correspondance sont retournés
en réponse à la requête
Voici un exemple illustrant l’approche vectorielle [17] qui permet de ramener
un problème complexe de comparaison de documents à un problème de comparaison de mesures de similarité ou de distances
Suppose qu’une collection contenant cinq documents suivants est
questionnée par la requête utilisateur latent semantic indexing (q):
d1 = LSI tutorials and fast tracks
d2 = Books on semantic analysis
d3 = Learning latent semantic indexing
d4 = Advances in structures and advances in indexing
d5 = Analysis of latent structures
La figure ci-dessous montre des vecteurs représentant les documents et la requête après l’indexation sans radicalisation, la pondération TF-IDF pour les documents et la pondération TF pour la requête:
Figure 2.1: Les vecteurs des documents et de la requête
Afin de trouver des documents correspondant à la requête, l’on calcule le cosinus entre le vecteur représentant la requête et celui de chaque document via la formule (2.2):
Trang 24Figure 2.2: Les similarités cosinus entre les documents et le requête
L’ordre des documents correspondant à la requête selon les résultats au
dessus est: d3 > d5 > d2 > d4 > d1 Si l’on choisit le seuil 0.5 pour déterminer quels documents retournés à la requête, seulement le document d3 y est retourné
2.2 Analyse sémantique latente
L’analyse sémantique latente (LSA : Latent semantic analysis), ou l’indexation sémantique latente (LSI : Latent semantic indexing) dans le contexte de
la RI, est un procédé de traitement des langues naturelles, qui s’appuie sur une représentation multidimensionnelle de la signification sous-jacente des termes et des documents dans le corpus Grâce à une analyse statistique, le sens de chaque terme est caractérisé par un vecteur dans un espace à grande dimension, avec la propriété que la proximité entre deux vecteurs (leur cosinus) correspond à la proximité de sens des termes qu’ils représentent L’expérimentation montre que l’application de
la LSI traite efficacement deux défauts fondamentaux de la RI courante: le problème
de synonyme, un concept donné pouvant être décrite par plusieurs termes différents,
et celui de polysémie, un terme ayant plusieurs significations distinctes [7]
Pour la LSI, deux termes peuvent être considérés sémantiquement proches s’ils sont utilisés dans des contextes similaires Le contexte d’un terme est ici défini comme l’ensemble des termes qui apparaissent conjointement à lui dans un texte Ainsi, les mots “vélo” et “bicyclette” sont considérés comme sémantiquement proches puisqu’ils apparaissent tous les deux avec des mots tels que “guidon”,
“pédaler”, etc et ils n’apparaissent que rarement avec des mots comme
“ordinateur”, “bouilloire”, etc Cette notion de cooccurrence est statistique : la méthode fonctionne si un nombre suffisant de textes est utilisé Mais il ne s’agit pas simplement de comptage, il faut aussi disposer d’une procédure pour établir les liaisons sémantiques Cette procédure repose en effet sur la décomposition en valeurs singulières (SVD : Singular value decomposition) de la matrice
La LSA se fait en deux étapes Dans un premier temps, le modèle vectoriel est construit pour représenter le corpus Il s’agit d’une matrice dont les lignes représentent les termes et les colonnes représentent les documents L’élément (i, j)
de la matrice correspond ainsi à la pondération appliquée du terme i dans le
Trang 25document j L’étape suivante consiste à décomposer la matrice en trois autres matrices à forme très spéciale via la SVD Ces matrices reflètent une analyse statistique transformant des relations originales en des components linéairement indépendants ou facteurs Beaucoup de ces components sont très petits, et peuvent être ignorés Cela conduit à un modèle approximatif ayant moindre de dimensions que le précédent Dans ce modèle réduit, toutes les similarités terme-terme, document-document et terme-document sont maintenant estimées via des valeurs dans ce moindre nombre de dimensions Dans le contexte de la RI, la SVD peut être considérée comme une technique dérivant de la matrice terme-document un ensemble de variables index non corrélatifs ou facteurs Chaque terme et document sont ensuite représentés par leur vecteur de facteurs
2.2.1 Décomposition en valeurs singulières
Soit A une matrice m x n, la décomposition en valeurs singulières de A est définie comme suit :
T
USV
ó U est la matrice orthogonale m x m dont les colonnes sont les vecteurs singuliers
de gauche de A, S est la matrice diagonale m x n dans laquelle les valeurs singulières si ³s2 ³ ³smin(m n)de A est ordonnées sur sa diagonale et V est la matrice orthogonale n x n dont les colonnes sont les vecteurs singuliers de droite de
A La SVD est unique et existe toujours pour n’importe quelle matrice rectangulaire
T k k k
k U S V