1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo khoa học: "UN OUTIL MULTIDIMENSIONNEL" pdf

5 186 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 378,94 KB

Nội dung

UN OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS J. CHAUCHE Laboratoire de Traitement de l'Information I.U.T. LE HAVRE Place Robert Schuman - 76610 LE HAVRE FRANCE & C.E.L.T.A. 23, Boulevard Albert let - 54000 NANCY FRANCE RESUME : Le traitement automatique du discours suppose un traitement algorithmique et informatique. Plu- sieurs m~thodes permettent d'appr~hender cet as- pect. L'utilisation d'un langage de programmation g~n~ral (par exemple PL/I) ou plus orient~ (par exemple LISP) repr~sente la premiere approche. A l'oppos~, l'utilisation d'un logiciel sp~cialis~ permet d'~viter l' ~tude algorithmlque n~cessaire dana le premier cas et de concentrer cette ~tude sur les aspects r~ellement sp~cifiques de ce trai- tement. Lea choix qui ont conduit ~ la d~finition du syst~ne SYGI4ART sont exposes ici. L'aspect mul- tldimensionnel eat analys~ du point de rue concep- tuel et permet de situer cette r~alisation par rapport aux diff~rents syst~mes existants. INTRODUCTION : Un iogiciel sp~cifique de traitement automati- que du discours comporte plusieurs ~l~ments : en premier lieu la description des objets manipul~s permet de d~finir l'univers de travail du r~alisa- teur. En second lieu la mani~re de manipuler ces oh jets rend compte des potentialit~s de r~alisa- tion d'application diverses. 11 eat n~cessaire au pr~alable de d~finir la nature du module sous- jacent par rapport aux theories existantes. Dana le present article on exposera donc successivement une approche du module th~orique, une description des objets manipul~s et enfln, lea outils de mani- pulations. L'exemple du syst~me SYGMART montre une r~alisation concrete des choix pr~c~de,=,ent expo- ses. Le module transformationnel. Du point de rue formel lea outils utilis~s pour le traitement automatique des langues naturelles peuvent se diviser en deux grandes categories : - le module g~n~ratif d~finissant un processus formel engendrant un langage. L'analyse consiste alors ~ retrouver le processus d~ductif condulsant la phrase ou au texte ~tudi~. C'est dana ce cadre que sont effectu~es la plupart des r~alisa- tions actuelles. L'exemple le plus important eat sans doute la d~finitlon des grammaires syntagmatiques et des analyseurs associ~s. Nous pouvons sch~natiser une r~alisation par le graphe suivant : Gr~-,-,ire Algorithme d' analyse syntagnmtique > / associ~ structure g~n~rative texte du texte Beaucoup de points s'opposent h cette d~marche. Lea principales dlfficult~s sont : Existe-t-il une gr,m,mlre compl~te des textes traiter ? Quel algorithme d'analyse mettre en oeuvre si lea restrictions formelles sont trop contrai- gnantes ? Dana le cas du traitement des langues naturel- lea, l'slgorithme utilis~ est-il suffisa-~ent souple pour permettre une adaptabilit~ cons- tante ? - Le module transformationnel qui d~finit une fonction d'un espace (textuel) dana un autre espace (relationnel) ou une fonctiou de l'espa- ce relationnel sur lui-m~me. Le schema eat alors le suivant : D~flnition du module > Algorithme de simula- transformationnel tion du modAle structure imag~ ~~'~'~ te!te Lea princlpales questions sont alors lea suivantes : Analyse : comment d~finir un accepteur d'un langage donn~ ? Preuve que la fonction transformationnelle eat partout d~finie. Existe-t-il un algorithme transformationnel acceptable et co~ment le d~crire ? Des r~alisations out d~j~ ~t~ effectu~es suivant cet aspect formel, nota-,-ent lea syst~nes Q, CETA puis ROBEA. Le but du present article eat d'exposer une ~volution de cette approche et en particulier l'approche multirelationnelle ou multidlmensionnelle. La s~paration relation ~tiquette ou structure at signification. Lorsque l'on utilise ~mod~le pour une appli- cation donn~e, on projette une signification sur un objet rowel. Pour cette raison chaque ~l~ent de la structure eat affect~ d'une ~tiquette ayant un sens particulier. Ex~ple : 11 Cette approche a l'inconv~nient de rassembler deux ~ldments distincts par leurs natures et leurs si- gnifications : la structure et les ~tiquettes. GN ART SUB le livre structure ~tiquettes Sans cette s~paration chaque point posskde une seule identit~ et la structure doit alors r~pon- dre ~ au moins deux objectifs : -les liaisons ou relations syntaxiques • -les liaisons ou relations qualltatives Noun aurons dana le premier can : GN d~finissant le groupe nominal /~ composd d'un article et d'un ART SUB substantlf dens le second can : ART ddfinissant l'article comme / d~fini SINGle singul ier DEF La plupart des modules transformationnels ont dt~ d~finis avec un multi-~tiquetage. GN ART DEF SUB MAS SING MAS 1 ivre Cette approche importante d~termine les objets qui seront manipul~s de fa~on abstraite (th~orique) ou concrete (progr ,e). Ainsi les syst~nes Q par exemple op~rent sur des Q-graphes dont chaque bran- che est ~tiquet~e par une arborescence slmplement ~tiquet~e. Le syst~me CETA op~re sur des arbores- cences multi-~tlquet~es. Dana ces deux can l'ana- lyse du discours consiste & rechercher une struc- ture qui repr~sentera alors la compr~henslou du syst~ne pour ce texte. L'exploitation de cette structure d~finira alors t'application. Une ~tude approfondie conduit h d~flnir comme objet de base un triplet : structure, multi-~tiquette, fonction d' association. 1 A : GN i ÷ A /k k B : ART DEF SING MAS 2 ÷ B 2 4 C : le 3 "," C I ~ D : SUB HAS 4 ÷ D 3 E : livre 5 "* E structure mul ti-~tiquettes fonction d' association La fonction d'associetion n'est pas n~cessairement injective. Cette propri~t~ permet de mieux disso- cier structure et contenu : Exemple : Le grand et le petit arbre. I / ~ A : COORD II : grand 2' 3 B : GN I : DEF A A\ "°" D : DEF K : SUB 4 5 6 7 8 9 E : GA L : le G : le N : arbre i0 II 12 13 14 15 I÷A 8÷J 2÷B 9÷K 3÷C IO÷G 4÷D II÷H 5+E 12÷N 6÷F 13÷L 7÷I 14÷M 15÷N L'ellipse du mot 'arbre" n'existe pan dana la structure et existe par la d~finition de la fonc- tion d'~tiquetage. Ce qui correspond sch~matique- ment au graphe suivant : \. le grand le petit arbre La d~finitlon pr~c~dente permet de d~finir des al- gorithmes de traitements slmples et efficaces alors que pour ce dernler type de graphe lea trai- tements comporteront des algorlthmes complexes. Elements structures. Un ~l~ment structur~ est par d~finition un ob- jet multidimensionnel ou multichamp. La structure pr~c@dente eat issue de l'~tude syntaxique des textes. Elle permet de d~finir une forme @labor~e du texte et d'avoir un acc~s h ses diff~rentes composantes en rapport avec leurs fonctions. Pour le traitement des langues naturelles il est bien sQr ~vident que cette analyse ne suffit pas. Cela ne signifie pan que tousles probl~mes li~s cette analyse soient r~solus mais que la levde des obstacles, de l'analyse syntaxique ou autre, suppose une ~tude plus approfondie. Lorsqu'une r~alisation utilise le m~ne espece d~finitionnel pour representer le seas et la forme les probl~- mes ~voquds pr~cddemment sur les difficultds li~es la confusion strueture-~tiquette se multiplient et se transportent au niveau structurel. Comment representer deux structures d'un texte donn~ sous forme arborescente sices deux arborescences sont contradictoires ? Ce probl~me eat insoluble dens le cadre arborescent classique. On peut bien sQr d~finir plusieurs types d'analyses, obtenir plu- sieurs arborescences du m~me texte. Dans ce cas la liaison entre ces diff~rentes arborescences sera tr~s difficile sinon impossible h formaliser et ~ mettre en oeuvre. El est donc n~cessaire d' avoir un module de representation qui permette de d~finir plusieurs structures sur le m@me ensemble de points, chacun de ces points ~tant associ~ une multi-~tlquette suivant une fonction quelcon- que. Cette d4finition correspond ~ la d~finition des ~l~ments structurds dont l'approche formelle eat la suivante : Un ~l~ment structur~ est d~fini par un quadruplet (P,S,E,F) o~ : P :est un ensemble fini de points S :est un ensemble fini de structures arbores- centes sur les points de Pet tel que chaque point de P appartient ~ au moins une structu- re de S. E :est un ensemble fini de multi-~tiquettes. 12 F : est une application surjective de P sur E. Exemple : ~ ~ 6 34 715 {E 1, E2, E3, E4} { 1~E4, 2-~E1,3~E1,4+E4,5÷E3,6~E2, 7-+E 1,8-~E3 } ) la representation graphique d'un tel objet est plus facile lorsque l'on regarde une seule structure (une seule dimension ou champ). La synth~se gra- phique de cet exemple donne la figure suivante : . .\., ', \\ LI I ",,,:" ', Le problime classique de l'analyse textuelle, (ddfinir une grau.naire syntagmatlque engendrant un langage), est transform~ et devient : d~finir pour chaque ~l~ment du langage un ~l~nent struc- tur~ associ~. Le probl~me qui se pose alors est similaire ~ celui obtenu dans le cadre des gram- maires syntagmatiques : la d~finition de l'image structurelle recouvre-t-elle l'ensemble du langa- ge ? On peut remarquer que le cas des grammaires syntagumtiques est un cas particulier de cette approche. L'association est alors la suivante : on affecte ~ chaque ~l~ment du langage engendr~ par la gr nire la structure syntaxique de cet ~l~ment. Cette approche permet de ddfinir une associa- tion plus complexe par la multlplicitd des struc- tures assocides au m~me ensemble de points. On aura donc associd ~ chaque texte ses structures syntaxiques, sdmantiques, logiques, etc En pratique le nombre de champs ou dimensions est limit~ (par exemple 16 dans le cas du syst~me SYGMART). Rdseau transformationnel : Un objet formel est intdressant dans la mesure o~ il existe un moyen de le manipuler. Cet aspect algorithmique est n~cessaire ~ route r~allsation et limite la complexitd des objets ddfinis. Le module op~ratoire pour les ~l~ments structures d~finis ci-dessus est r~alis~ par un r~seau trans- formatlonnel. Chaque point du r~seau est consti- tu~ d'une grammaire transformationnelle et chaque arc partant d'un point de ce r~seau est ~tiquet~ d'une condition bas~e sur la presence d'un schema. Exemple : ~.,~' G2 /~ Le r~sultat de l'application du r~seau transfor- mationnel est d~fini par l'~l~ment structur~ obte- nu apr~s le parcours de ce r~seau d'un point d'entr~e E ~ un point de 9ortie S. Le r~seau d~finit donc une application de l'ensemble des ~l~ments structures dans lui-mSme. Le parcours de ce r~seau peut @tre simple ou r~cursif sulvant la nature des r~gles appliqu~es dans les gr ,-i- res ~l~mentalres. Une gram,mire transformationnel- le ~l~mentaire a donc pour but de d~finir une transformation de l'~l~ment structure. Cette transformation est r~alis~e par un ensemble de r~gles transformationnelles ordonn~es. Chaque r~gle d~finie un module de remplacement permet- rant une modification d'un ~l~ment structur~ quelconque. Cette r~gle pouvant @tre simple ou r~cursive et dans ce dernier cas falre appel au r~seau pour son execution. Le point central d'une graummire ~l~mentaire est donc constitu~ par une r~gle ~l~mentaire. Une r~gle ~l~mentaire est d~finie par un ensemble de transformations d'arhorescences, chacunede ces transformations devant s'appliquer sur un champ simultan~ment aux autres transformations des autres champs. Des contraintes correspondant ~ des points communs inter-champs peuvent ~tre d~finies. On peut remar- quer que le syst~me CETA constitue dans ce cadre un cas particulier de traitement sur un seul champ. La transformation dans un champ est une extension des d~finitlons de transformations d'arbre d~finies par Gladkij et Melcuk [ 7 3. One gra~maire 41~mentaire poss~de ~galement un mode d'application permettant de limiter l'applicabi- lit4 des rAgles, cecl afin de d~finir un proces- sus transformationnel fini. L'ensemble des r~gles d'une grammaire ~l~mentaire est ordonn~ et d~finl un algorithme de Markov ~ 8 ~ ~tendu aux ~l~ments structures. La d~finition d'un modAle de recon- naissance s'effectue suivant un processus analo- gue k la recherche d'un programme d~finlssant une fonctlon donn~e. Les objets trait~s sont des ob" jets non classiques en progra~Ination et les modi- fications de ces objets ne s'effectuent pas travers un parcours de l'objet traitS, mais par la d~finition de transformations oumodiflcatlons de sous-objets. Solt par exemple la d~finitlon de l'analyse d'une phrase par Wang Huilln [ 9 ~ : phrase : "sur ces donn~es, l'ordinateur dolt effectuer certains calculs sulvant un programme d~termin~." Structure recherch~e : • ULF~A I ~ol ~ ~in . o,a" I 13 Par convention le texte est projetd suivant la fomne d'dldment structurd la plus proche du texte: L'dcriture du r4seau de grammaire va d~finir un processus de transformations pour obtenir la structure souhait~e. Pour des raisons ~videntes nous avons simplifi4 la representation dans eat exemple en d~finissant sur chaque point une par- tie de l'ensemble des valeurs de l'dtiquette as- socide et an ne consld~rant qu'un seul champ. La premiare grammnlre dolt permettre une distinc- tion entre phrase au cas o~ le texte en comporte- rait plusieurs (bien s~r ~galement dans le cas o~ l'analyse a dt~ choisie phrase par phrase). Ceci s'effectue en trois ~tapes : initialisation • > ~ A r~.le n.rique /y~ '~ /~ X . X . PH • oA • y ~ r~gle finale • #A X La structure recherch~e est d~duite de la structu- re syntaxique qui dana ce cas eat la suivante : ^~~ La r~gle suivante (rgnfl dans ~ 9 ] ~st utilis~e pour obtenir les regroupements GN : Cette r~gle appliqu~e sur le texte pr~cddent donne par exemple : "I '" "or dinar eur" "i ' " " " ordlnateur" Cet exemple utilise deux r~seaux de grammaires enchain4es, le premier correspondant ~ la recher- che de la structure syntaxique, le second, ~ la construction de la structure choisie (grammaire FI2 et FI3 dans[ 9 3). La s~paratlon structure-~tlquette induit une pro- pri~t~ importante par rapport ~ la puissance de d~finition d'une r~gle : La g~n~ralit~ des transformations peut se d4finir en deux 4tapes : d~finition structurelle et d~fi- nltion sdmantlque. La d4finition structurelle est tr~s g~n~rale et la d~finition s~mantique tr~s sp~cifique. La r~gle est alors applicable si la d~finition s4mantique adapt4e ~ la d~finition structurelle correspond ~ une rdallsation effec- tive clans l'~l~ment structur4 trait4. Nous avons le ach~na fonctionnel suivant : I base de .connaissance [ d~finition structurelle • r~gle produite Si par example on veut d~finir la transformation : apprendre quelque chose ~ quelqu'un ~ enseigner quelque chose ~ quelqu'un. la base de connaissance pr~cisera : apprendre ÷ enseigner et la r~gle structurelle : l/O~3 i/O~3 dans ce cas prdcis il n'y a pas de modification struc- I ~ I I turelle, la structure est 2 4 2 4 n~ar~moins n~cessaire Avecla mame r~gle nous pouvons avoir dans la base de connaissance la transformation : offrir ~ ÷ donner & permettant la transformation : offrir quelque chose h quelqu'un ÷ donner quelque chose ~ quelqu'un. hbus avons ainsi avec une seule r~gle structurelle d~fini deux r~gles potentiellement applicables. L'avantage d'une telle ddfinltion est 4vident : factorisatlon des r~gles, ind~pendance de la grammaire par rapport aux lexique, possibilitd de d~finir un comportement sp4cifique pour chaque ~1~ment du lexique sans avoir h d~flnir une gram- .mire de transformations structurelles trop im- portante. Le syst~me SYGMART : Le syst~me SYGMART est un syst~me op4ratlonnel simulant un module transformationnel d'~l~ments structur4s. II est compos~ de trois sous-syst~mes OPALE, TELESI et AGATE, chacun de ces sous-syst~- mes correspondant aux diff~rentes fonctions essen- tielles de traitement d'un texte : OPALE effectue le passage texte 414ment struc- ture. TELESI effectue la transformation d'~l~ments structur4s. AGATE effectue le passage d'41~nent structur~ texte. La forme g4n4rale de l'applicatlon d'un sous syst~me est la suivante : l donn~es compil~ donn~es programmes compil4es texte , I simulationl , image 14 Les donn4es programes comportent deux ~l~ments : un dictionnaire d~finissant la base de connaissan- ce et une grammaire d~finissant le processus transformationnel. Le sous-syst~me OPALE : Ce sous-syst~me permet de d~finir un ~14ment structur4 ~ partir d'un texte. Chaque champ com- portera la m~me structure et chaque point de cette structure sera associ4 h une 4tiquette correspondant au r~sultat d'une analyse d'un mot suivant ce sous-syst~me. Cette analyse est bas4e sur un automate d'4tats finis permettant une lecture d'un dictionnaire avec segmentation. Au cours de cette segmentation diff~rents renseignements sont ~valu4s et m~moris~s dans l'~tiquette r~sultante de l'analyse. Le sous-syst~me TELESI : Ce sous-syst~me d~finit le processus central du syst~nne SYCMART. Ii permet de d~finlr un r4seau transformationnel. Ce r~seau est compos~ de grammaires comportant un ensemble (4ventuel- lement vide) de r~gles. Chaque gra~snaire d~finit une transformation d'414ments structures et le r~sultat de cette grannnaire d4finit le parcours du r~seau. Chaque granm~aire poss~de un mode d'ap- plication, le plus complexe ~tant le mode r~cursif qui permet de d4finir un parcours de l'objet transformS. Le r~seau d~finit lui-m~me une trans- formation d'41~ments structures. L'entr4e du sys- t~me est compos~ soit du r~sultat du sous-syst~me OPALE soit du r~sultat de l'application de ce sous-syst~me lui-m~me. Le dictionnaire associ4 au sous-syst~me TELESI d~finit la base de con- naissances h associer auX r~gles de transforma- tions. Cette application du contenu du dictionnai- re par rapport aux r~gles de transformations, s'effectue de mani~re dynamique. Le sous-syst~me AGATE : Ce dernier sous-syst~me d~finit la transfor- mation ~l~ment structur~ texte. Cette transfor- mation est n~cessaire dans beaucoup d'application et s'effectue par le parcours canonique d'une arborescence d'un champ d~termin~. Chaque ~tiquet- te associ~e ~ un point de ce parcours permet de d~finir un mot ~ l'alde d'un automate d'~tats finis de synth~se, mirolr du sous-syst~me OPALE. La forme g~n~rale de l'application du syst~me SYGMART est la suivante : '~TELESI OPALE . ~l&nent AGATE ) texte texte structur~ Du point de rue pratique, le syst~me SYGMART existe en trois versions. Deux versions PL/I et une version C. Les versions PL/I sont d~flnies sous les syst~nes IBM OS/MVS et Honeywell Multics. La version C est d~finie sous le syst~me UNIX et fonctionne sons un syst~me ~ base du microproces- seur MC680OO. Une r~alisatlon sur une traduction automatique Espagnol-Frangals effectu~e au CELTA avec le syst~me SYGMART donne un exemple du temps d'ex~cution n~cessaire : la traduction d'un texte de 800 mots trait~s ensembles (et non phrase par phrase, ce qui implique la manipulation d'arbo- rescences et d'~l~ments structures de plus d'un millier de points) a ~t~ r~alis~e sur un Amdahl 470/V7 en 33 mn 38 s (soit 14 106 op~rations/mots) La version micro-ordinateur n~cessite une m~moire d'au moins 756 Ko et un dlsque dur d'au moins 20 Mo. Les trois exemples sulvants sont extraits de trois r~alisations distlnctes et repr4sentent des parties de gra*mnaires TELESI : 1) extrait de la grammaire d'analyse de l'espa- gnol C. VIGROUX CELTA France. 2) extrait de la grammaire d'analyse du Chinois WANG HUIN LIN Institut de Linguistique Pekin Chine. 3) extrait de la grammaire d'analyse du N~erlandais P. ROLF Universit~ Catholique de Nim~gue Hollande. ~ m = ~= = = = = -~=- REFERENCES : [ 1 ] : BOITET C., GUILLAUME P., QUEZEL-AMBRUNAZ M Manipulation d'arborescences et parall~lis- me : syst~me ROBRA, COLING 1978. [ 2 U : ~UORE 3. Transducteurs et arborescences Th~se, Grenoble 1975. [ 3 ] : c CHE j Le Syst~me SYGMART Document privisoire, Le Havre 1980. [ 4 ] : CHAUCHE J., CHEBOLDAEFF V., JATTEAU M., LESCOEUR R. Specification d'un syst~me de traduction assist~e par ordinateur. [ 5 ] : COU'~E~UER A. Les syst~mes Q, Universit~ de Montreal 1970. [ 6 ] : n.a~ A, BOURQUIN Me, ATTALI A., I~COMTE J. Les probl~mes li~s au passage de la structure de surface vers la structure d'interface. CELTA Nancy, 1981. [ 7 ] : GLADKIJ A.V., MEL'CUK I.A. Tree grammars, Linguistics Mouton 1975. [ 8 ] : MENDELSON Introduction to mathematical logic VAN NOSTRAND 1964 [9] : WANG H. La place de la modalit~ dans un syst~me de traduction automatique trilingue Fran~ais-Anglals-Chinois. Thase, NANCY 1983 15 . UN OUTIL MULTIDIMENSIONNEL DE L'ANALYSE DU DISCOURS J. CHAUCHE Laboratoire. approche du module th~orique, une description des objets manipul~s et enfln, lea outils de mani- pulations. L'exemple du syst~me SYGMART montre une r~alisation

Ngày đăng: 08/03/2014, 18:20