UN
OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS
J. CHAUCHE
Laboratoire de Traitement de l'Information
I.U.T. LE HAVRE Place Robert Schuman - 76610 LE HAVRE FRANCE
& C.E.L.T.A. 23, Boulevard Albert let - 54000 NANCY FRANCE
RESUME :
Le traitement automatique du discours suppose
un traitement algorithmique et informatique. Plu-
sieurs m~thodes permettent d'appr~hender cet as-
pect.
L'utilisation d'un langage de programmation
g~n~ral (par exemple PL/I) ou plus orient~ (par
exemple LISP) repr~sente la premiere approche. A
l'oppos~, l'utilisation d'un logiciel sp~cialis~
permet d'~viter l' ~tude algorithmlque n~cessaire
dana le premier cas et de concentrer cette ~tude
sur les aspects r~ellement sp~cifiques de ce trai-
tement. Lea choix qui ont conduit ~ la d~finition
du syst~ne SYGI4ART sont exposes ici. L'aspect mul-
tldimensionnel eat analys~ du point de rue concep-
tuel et permet de situer cette r~alisation par
rapport aux diff~rents syst~mes existants.
INTRODUCTION :
Un iogiciel sp~cifique de traitement automati-
que du discours comporte plusieurs ~l~ments : en
premier lieu la description des objets manipul~s
permet de d~finir l'univers de travail du r~alisa-
teur. En second lieu la mani~re de manipuler ces
oh jets rend compte des potentialit~s de r~alisa-
tion d'application diverses. 11 eat n~cessaire au
pr~alable de d~finir la nature du module sous-
jacent par rapport aux theories existantes. Dana
le present article on exposera donc successivement
une approche du module th~orique, une description
des objets manipul~s et enfln, lea outils de mani-
pulations. L'exemple du syst~me SYGMART montre une
r~alisation concrete des choix pr~c~de,=,ent expo-
ses.
Le module transformationnel.
Du point de rue formel lea outils utilis~s pour
le traitement automatique des langues naturelles
peuvent se diviser en deux grandes categories :
-
le module g~n~ratif d~finissant un processus
formel engendrant un langage. L'analyse consiste
alors ~ retrouver le processus d~ductif condulsant
la phrase ou au texte ~tudi~. C'est dana ce
cadre que sont effectu~es la plupart des r~alisa-
tions actuelles. L'exemple le plus important
eat sans doute la d~finitlon des grammaires
syntagmatiques et des analyseurs associ~s. Nous
pouvons sch~natiser une r~alisation par le graphe
suivant :
Gr~-,-,ire Algorithme d' analyse
syntagnmtique > / associ~
structure g~n~rative texte
du texte
Beaucoup de points s'opposent h
cette
d~marche.
Lea principales dlfficult~s sont :
Existe-t-il une gr,m,mlre compl~te des textes
traiter ?
Quel algorithme d'analyse mettre en oeuvre si
lea restrictions formelles sont trop contrai-
gnantes ?
Dana le cas du traitement des langues naturel-
lea, l'slgorithme utilis~ est-il suffisa-~ent
souple pour permettre une adaptabilit~ cons-
tante
?
- Le module transformationnel qui d~finit une
fonction d'un espace (textuel) dana un autre
espace (relationnel) ou une fonctiou de l'espa-
ce relationnel sur lui-m~me.
Le schema eat alors le suivant :
D~flnition du module > Algorithme de simula-
transformationnel tion du modAle
structure
imag~ ~~'~'~ te!te
Lea princlpales questions sont alors lea
suivantes :
Analyse : comment d~finir un accepteur d'un
langage donn~ ?
Preuve que la fonction transformationnelle eat
partout d~finie.
Existe-t-il un algorithme transformationnel
acceptable
et
co~ment le d~crire ?
Des r~alisations out d~j~ ~t~ effectu~es suivant
cet aspect formel, nota-,-ent lea syst~nes Q,
CETA puis ROBEA. Le but du present article eat
d'exposer une ~volution de cette approche et en
particulier l'approche multirelationnelle ou
multidlmensionnelle.
La s~paration relation ~tiquette ou structure at
signification.
Lorsque l'on utilise ~mod~le pour une appli-
cation donn~e, on projette une signification sur
un objet rowel. Pour cette raison chaque ~l~ent
de la structure eat affect~ d'une ~tiquette ayant
un sens particulier.
Ex~ple
:
11
Cette approche a l'inconv~nient de rassembler deux
~ldments distincts par leurs natures et leurs si-
gnifications : la structure et les ~tiquettes.
GN ART SUB le livre
structure ~tiquettes
Sans cette s~paration chaque point posskde une
seule identit~ et la structure doit alors r~pon-
dre ~ au moins deux objectifs :
-les liaisons ou relations syntaxiques
• -les liaisons ou relations qualltatives
Noun aurons dana le premier can :
GN
d~finissant le groupe nominal
/~ composd d'un article et d'un
ART SUB substantlf
dens le second can :
ART ddfinissant
l'article
comme
/
d~fini
SINGle
singul ier
DEF
La plupart des modules transformationnels ont
dt~ d~finis avec un multi-~tiquetage.
GN
ART DEF SUB MAS
SING MAS
1 ivre
Cette approche importante d~termine les objets qui
seront manipul~s de fa~on abstraite (th~orique) ou
concrete (progr ,e). Ainsi les syst~nes Q par
exemple op~rent sur des Q-graphes dont chaque bran-
che est ~tiquet~e par une arborescence slmplement
~tiquet~e. Le syst~me CETA op~re sur des arbores-
cences multi-~tlquet~es. Dana ces deux can l'ana-
lyse du discours consiste & rechercher une struc-
ture qui repr~sentera alors la compr~henslou du
syst~ne pour ce texte. L'exploitation de cette
structure d~finira alors t'application. Une ~tude
approfondie conduit h d~flnir comme objet de base
un triplet : structure, multi-~tiquette, fonction
d' association.
1 A : GN i ÷ A
/k k B : ART DEF SING MAS 2 ÷ B
2 4 C : le 3 "," C
I ~
D :
SUB HAS
4
÷ D
3
E : livre 5
"*
E
structure mul ti-~tiquettes fonction
d' association
La fonction d'associetion n'est pas n~cessairement
injective. Cette propri~t~ permet de mieux disso-
cier structure et contenu :
Exemple : Le grand et le petit arbre.
I
/ ~ A : COORD II : grand
2' 3 B : GN I : DEF
A
A\ "°"
D : DEF K : SUB
4 5 6 7 8 9 E : GA L : le
G : le N : arbre
i0 II 12 13 14 15
I÷A 8÷J
2÷B 9÷K
3÷C IO÷G
4÷D II÷H
5+E 12÷N
6÷F 13÷L
7÷I 14÷M
15÷N
L'ellipse du mot 'arbre" n'existe pan dana la
structure et existe par la d~finition de la fonc-
tion d'~tiquetage. Ce qui correspond sch~matique-
ment au graphe suivant :
\.
le grand le petit arbre
La d~finitlon pr~c~dente permet de d~finir des al-
gorithmes de traitements slmples et efficaces
alors que pour ce dernler type de graphe lea trai-
tements comporteront des algorlthmes complexes.
Elements structures.
Un ~l~ment structur~ est par d~finition un ob-
jet multidimensionnel ou multichamp. La structure
pr~c@dente eat issue de l'~tude syntaxique des
textes. Elle permet de d~finir une forme @labor~e
du texte et d'avoir un acc~s h ses diff~rentes
composantes en rapport avec leurs fonctions. Pour
le traitement des langues naturelles il est bien
sQr ~vident que cette analyse ne suffit pas. Cela
ne signifie pan que tousles probl~mes li~s
cette analyse soient r~solus mais que la levde
des obstacles, de l'analyse syntaxique ou autre,
suppose une ~tude plus approfondie. Lorsqu'une
r~alisation utilise le m~ne espece d~finitionnel
pour representer le seas et la forme les probl~-
mes ~voquds pr~cddemment sur les difficultds li~es
la confusion strueture-~tiquette se multiplient
et se transportent au niveau structurel. Comment
representer deux structures d'un texte donn~ sous
forme arborescente sices deux arborescences sont
contradictoires ? Ce probl~me eat insoluble dens
le cadre arborescent classique. On peut bien sQr
d~finir plusieurs types d'analyses, obtenir plu-
sieurs arborescences du m~me texte. Dans ce cas
la liaison entre ces diff~rentes arborescences
sera tr~s difficile sinon impossible h formaliser
et ~ mettre en oeuvre. El est donc n~cessaire d'
avoir un module de representation qui permette de
d~finir plusieurs structures sur le m@me ensemble
de points, chacun de ces points ~tant associ~
une multi-~tlquette suivant une fonction quelcon-
que. Cette d4finition correspond ~ la d~finition
des ~l~ments structurds dont l'approche formelle
eat la suivante :
Un ~l~ment structur~ est d~fini par un
quadruplet
(P,S,E,F) o~ :
P :est un ensemble fini de points
S :est un ensemble fini de structures arbores-
centes sur les points de Pet tel que chaque
point de P appartient ~ au moins une structu-
re
de S.
E :est un ensemble fini de multi-~tiquettes.
12
F : est une application surjective de P sur E.
Exemple : ~ ~ 6
34 715
{E 1, E2, E3, E4} { 1~E4, 2-~E1,3~E1,4+E4,5÷E3,6~E2,
7-+E
1,8-~E3 }
)
la representation graphique d'un tel objet est plus
facile lorsque l'on regarde une seule structure
(une seule dimension ou champ). La synth~se gra-
phique de cet exemple donne la figure suivante :
.
.\., ',
\\ LI I ",,,:" ',
Le problime classique de l'analyse textuelle,
(ddfinir une grau.naire syntagmatlque engendrant
un langage), est transform~ et devient : d~finir
pour chaque ~l~ment du langage un ~l~nent struc-
tur~ associ~. Le probl~me qui se pose alors est
similaire ~ celui obtenu dans le cadre des gram-
maires syntagmatiques : la d~finition de l'image
structurelle recouvre-t-elle l'ensemble du langa-
ge ? On peut remarquer que le cas des grammaires
syntagumtiques est un cas particulier de cette
approche. L'association est alors la suivante :
on affecte ~
chaque
~l~ment du langage engendr~
par la gr nire la structure syntaxique de cet
~l~ment.
Cette approche permet de ddfinir une associa-
tion plus complexe par la multlplicitd des struc-
tures assocides au m~me ensemble de points. On
aura donc associd ~ chaque texte ses structures
syntaxiques, sdmantiques, logiques, etc En
pratique le nombre de champs ou dimensions est
limit~ (par exemple 16 dans le cas du syst~me
SYGMART).
Rdseau transformationnel :
Un objet formel est intdressant dans la mesure
o~ il existe un moyen de le manipuler. Cet aspect
algorithmique est n~cessaire ~ route r~allsation
et limite la complexitd des objets ddfinis. Le
module
op~ratoire pour les ~l~ments structures
d~finis ci-dessus est r~alis~ par un r~seau trans-
formatlonnel. Chaque point du r~seau est consti-
tu~ d'une grammaire transformationnelle et chaque
arc partant d'un point de ce r~seau est ~tiquet~
d'une condition bas~e sur la presence d'un schema.
Exemple :
~.,~'
G2 /~
Le r~sultat de l'application du r~seau transfor-
mationnel est d~fini par l'~l~ment structur~ obte-
nu apr~s le parcours de ce r~seau d'un point
d'entr~e E ~ un point de 9ortie S. Le r~seau
d~finit donc une application de l'ensemble des
~l~ments structures dans lui-mSme. Le parcours
de ce r~seau peut @tre simple ou r~cursif sulvant
la nature des r~gles appliqu~es dans les gr ,-i-
res ~l~mentalres. Une gram,mire transformationnel-
le ~l~mentaire a donc pour but de d~finir une
transformation de l'~l~ment structure. Cette
transformation est r~alis~e par un ensemble de
r~gles transformationnelles ordonn~es. Chaque
r~gle d~finie un module de remplacement permet-
rant une modification d'un ~l~ment structur~
quelconque. Cette r~gle pouvant @tre simple ou
r~cursive et dans ce dernier cas falre appel
au r~seau pour son execution. Le point central
d'une graummire ~l~mentaire est donc constitu~
par une r~gle ~l~mentaire. Une r~gle ~l~mentaire
est d~finie par un ensemble de transformations
d'arhorescences, chacunede ces transformations
devant s'appliquer sur un champ simultan~ment
aux autres transformations des autres champs. Des
contraintes correspondant ~ des points communs
inter-champs peuvent ~tre d~finies. On peut remar-
quer que le syst~me CETA constitue dans ce cadre
un cas particulier de traitement sur un seul
champ. La transformation dans un champ est une
extension des d~finitlons de transformations
d'arbre d~finies par Gladkij et Melcuk [ 7 3. One
gra~maire 41~mentaire poss~de ~galement un mode
d'application permettant de limiter l'applicabi-
lit4 des rAgles, cecl afin de d~finir un proces-
sus transformationnel fini. L'ensemble des r~gles
d'une grammaire ~l~mentaire est ordonn~ et d~finl
un algorithme de Markov ~ 8 ~ ~tendu aux ~l~ments
structures. La d~finition d'un modAle de recon-
naissance s'effectue suivant un processus analo-
gue k la recherche d'un programme d~finlssant une
fonctlon donn~e. Les objets trait~s sont des ob"
jets non classiques en progra~Ination et les modi-
fications de ces objets ne s'effectuent pas
travers un parcours de l'objet traitS, mais par
la d~finition de transformations oumodiflcatlons
de sous-objets.
Solt par exemple la d~finitlon de l'analyse d'une
phrase par Wang Huilln [ 9 ~ :
phrase : "sur ces donn~es, l'ordinateur dolt
effectuer certains calculs sulvant un programme
d~termin~."
Structure recherch~e :
• ULF~A
I
~ol ~ ~in .
o,a"
I
13
Par convention le texte est projetd suivant la
fomne d'dldment structurd la plus proche du texte:
L'dcriture du r4seau de grammaire va d~finir un
processus de transformations pour obtenir la
structure souhait~e. Pour des raisons ~videntes
nous avons simplifi4 la representation dans eat
exemple en d~finissant sur chaque point une par-
tie
de l'ensemble des valeurs de
l'dtiquette
as-
socide et an ne consld~rant qu'un seul champ.
La premiare grammnlre
dolt
permettre
une distinc-
tion entre phrase au cas o~ le texte en comporte-
rait plusieurs (bien s~r ~galement dans le cas o~
l'analyse a dt~ choisie phrase par phrase). Ceci
s'effectue en trois ~tapes
:
initialisation •
> ~
A
r~.le n.rique /y~
'~ /~
X . X . PH
•
oA
• y ~
r~gle finale •
#A X
La structure recherch~e est d~duite de la structu-
re syntaxique qui dana ce cas eat la suivante :
^~~
La r~gle
suivante
(rgnfl
dans ~ 9
]
~st
utilis~e
pour obtenir les regroupements GN :
Cette r~gle appliqu~e sur le texte pr~cddent donne
par exemple :
"I '" "or dinar eur" "i ' " " "
ordlnateur"
Cet exemple utilise deux r~seaux de grammaires
enchain4es, le premier correspondant ~ la recher-
che de la structure syntaxique, le second, ~ la
construction de la structure choisie (grammaire
FI2 et FI3 dans[ 9 3).
La s~paratlon structure-~tlquette induit une pro-
pri~t~ importante par rapport ~ la puissance de
d~finition d'une r~gle :
La g~n~ralit~ des transformations peut se d4finir
en deux 4tapes : d~finition structurelle et d~fi-
nltion sdmantlque. La d4finition structurelle est
tr~s g~n~rale et la d~finition s~mantique tr~s
sp~cifique. La r~gle est alors applicable si la
d~finition s4mantique adapt4e ~ la d~finition
structurelle correspond ~ une rdallsation effec-
tive clans l'~l~ment structur4 trait4. Nous avons
le ach~na fonctionnel suivant :
I base
de
.connaissance
[
d~finition structurelle • r~gle produite
Si par example on veut d~finir la transformation :
apprendre quelque chose ~ quelqu'un ~ enseigner
quelque chose ~ quelqu'un.
la base de connaissance pr~cisera : apprendre
÷ enseigner
et la r~gle structurelle :
l/O~3 i/O~3 dans ce cas prdcis il n'y
a pas de modification struc-
I ~ I I turelle, la structure est
2 4 2 4 n~ar~moins n~cessaire
Avecla mame r~gle nous pouvons avoir dans la
base de connaissance la transformation :
offrir ~ ÷
donner &
permettant la transformation :
offrir quelque chose h quelqu'un ÷ donner
quelque chose ~ quelqu'un.
hbus avons ainsi avec une seule r~gle structurelle
d~fini deux r~gles potentiellement applicables.
L'avantage d'une telle ddfinltion est 4vident :
factorisatlon des r~gles, ind~pendance de la
grammaire par rapport aux lexique, possibilitd de
d~finir un
comportement
sp4cifique pour chaque
~1~ment du lexique sans avoir h d~flnir une gram-
.mire de transformations structurelles trop im-
portante.
Le syst~me SYGMART :
Le syst~me SYGMART est un syst~me op4ratlonnel
simulant un module transformationnel d'~l~ments
structur4s. II est compos~ de trois sous-syst~mes
OPALE, TELESI et AGATE, chacun de ces sous-syst~-
mes correspondant aux diff~rentes fonctions essen-
tielles de
traitement
d'un texte :
OPALE effectue le passage texte 414ment struc-
ture.
TELESI effectue la
transformation
d'~l~ments
structur4s.
AGATE effectue le passage d'41~nent structur~
texte.
La forme g4n4rale de l'applicatlon d'un sous
syst~me est la suivante :
l
donn~es compil~ donn~es
programmes compil4es
texte , I simulationl , image
14
Les donn4es programes comportent deux ~l~ments :
un dictionnaire d~finissant la base de connaissan-
ce et une grammaire d~finissant le processus
transformationnel.
Le sous-syst~me OPALE :
Ce sous-syst~me permet de d~finir un ~14ment
structur4 ~ partir d'un texte. Chaque champ com-
portera la
m~me
structure et chaque point de
cette structure sera associ4 h une 4tiquette
correspondant au r~sultat d'une analyse d'un
mot suivant ce sous-syst~me. Cette analyse est
bas4e sur un automate d'4tats finis permettant
une lecture d'un dictionnaire avec segmentation.
Au cours de cette segmentation diff~rents
renseignements sont ~valu4s et m~moris~s dans
l'~tiquette r~sultante de l'analyse.
Le sous-syst~me TELESI
:
Ce
sous-syst~me d~finit le processus central
du syst~nne SYCMART. Ii permet de d~finlr un
r4seau transformationnel. Ce r~seau est compos~
de grammaires comportant un ensemble (4ventuel-
lement vide) de r~gles. Chaque gra~snaire d~finit
une transformation d'414ments structures et le
r~sultat de cette grannnaire d4finit le parcours
du r~seau. Chaque granm~aire poss~de un mode d'ap-
plication, le plus complexe ~tant le mode r~cursif
qui
permet
de d4finir un parcours de l'objet
transformS. Le r~seau d~finit lui-m~me une trans-
formation d'41~ments structures. L'entr4e du sys-
t~me est
compos~ soit du
r~sultat
du sous-syst~me
OPALE soit du r~sultat de l'application de ce
sous-syst~me lui-m~me. Le dictionnaire associ4
au sous-syst~me TELESI d~finit la base de con-
naissances h associer auX r~gles de transforma-
tions. Cette application du contenu du dictionnai-
re par rapport aux r~gles de transformations,
s'effectue de mani~re dynamique.
Le sous-syst~me AGATE :
Ce dernier sous-syst~me d~finit la transfor-
mation ~l~ment structur~ texte. Cette transfor-
mation est n~cessaire dans beaucoup d'application
et s'effectue par le parcours canonique d'une
arborescence d'un champ d~termin~. Chaque ~tiquet-
te associ~e ~ un point de ce parcours permet de
d~finir un mot ~ l'alde d'un automate d'~tats
finis de synth~se, mirolr du sous-syst~me OPALE.
La forme g~n~rale de l'application du syst~me
SYGMART est la suivante :
'~TELESI
OPALE .
~l&nent
AGATE )
texte
texte structur~
Du point
de rue
pratique, le syst~me SYGMART
existe en trois versions. Deux versions PL/I et
une version C. Les versions PL/I sont d~flnies
sous les syst~nes IBM OS/MVS et Honeywell Multics.
La version C est d~finie sous le syst~me UNIX et
fonctionne sons un syst~me ~ base du microproces-
seur MC680OO. Une r~alisatlon sur une traduction
automatique Espagnol-Frangals effectu~e au CELTA
avec le syst~me SYGMART donne un exemple du temps
d'ex~cution n~cessaire : la traduction d'un texte
de 800 mots trait~s ensembles (et non phrase par
phrase, ce qui implique la manipulation d'arbo-
rescences et d'~l~ments structures de plus d'un
millier de points) a ~t~ r~alis~e sur un Amdahl
470/V7 en 33 mn 38 s (soit 14 106 op~rations/mots)
La version micro-ordinateur n~cessite une m~moire
d'au moins 756 Ko et un dlsque dur d'au moins 20
Mo. Les trois exemples sulvants sont extraits de
trois r~alisations distlnctes et repr4sentent des
parties de gra*mnaires TELESI :
1) extrait de la grammaire d'analyse de l'espa-
gnol C. VIGROUX CELTA France.
2) extrait de la grammaire d'analyse du Chinois
WANG HUIN LIN Institut de Linguistique
Pekin Chine.
3) extrait de la grammaire d'analyse du
N~erlandais P. ROLF Universit~ Catholique
de Nim~gue Hollande.
~ m = ~= = = = = -~=-
REFERENCES :
[ 1 ] : BOITET
C.,
GUILLAUME P., QUEZEL-AMBRUNAZ M
Manipulation d'arborescences et parall~lis-
me : syst~me ROBRA, COLING 1978.
[ 2 U : ~UORE 3.
Transducteurs et arborescences
Th~se, Grenoble 1975.
[ 3 ]
:
c CHE
j
Le Syst~me SYGMART
Document privisoire, Le Havre 1980.
[ 4 ] : CHAUCHE J., CHEBOLDAEFF V., JATTEAU M.,
LESCOEUR R.
Specification d'un syst~me de traduction
assist~e par ordinateur.
[ 5
] : COU'~E~UER A.
Les syst~mes Q, Universit~ de Montreal
1970.
[ 6 ] : n.a~ A,
BOURQUIN Me, ATTALI
A.,
I~COMTE J.
Les probl~mes li~s au passage de la
structure
de surface vers la structure d'interface.
CELTA Nancy, 1981.
[ 7
]
: GLADKIJ
A.V.,
MEL'CUK
I.A.
Tree grammars, Linguistics Mouton 1975.
[
8
] : MENDELSON
Introduction to mathematical logic
VAN NOSTRAND 1964
[9] : WANG H.
La place de la modalit~ dans un syst~me de
traduction automatique trilingue
Fran~ais-Anglals-Chinois.
Thase, NANCY 1983
15
. UN
OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS
J. CHAUCHE
Laboratoire. approche du module th~orique, une description
des objets manipul~s et enfln, lea outils de mani-
pulations. L'exemple du syst~me SYGMART montre une
r~alisation