Analyse & modélisation smantique.pdf

  • Upload
    abbes18

  • View
    247

  • Download
    0

Embed Size (px)

Citation preview

  • 8/10/2019 Analyse & modlisation smantique.pdf

    1/122

    1

    Ecole Nationale Suprieure des Mines de Paris

    Travail doption

    effectu

    lATILF (Nancy, CNRS)

    Analyse et modlisation smantiques

    partir de ressources lexico-smantiques

    Reutenauer Coralie

    Anne 2008

  • 8/10/2019 Analyse & modlisation smantique.pdf

    2/122

    2

    Remerciements

    Mes remerciements sadressent avant tout mes quatre tuteurs. Merci infiniment Evelyne

    Jacquey qui ma consacr temps et nergie sans compter, dont les conseils clairs mont permis de

    progresser chaque nouvelle tape et dont le dynamisme inpuisable a su me stimuler en permanence.

    Merci Mathieu Valette qui ma fait dcouvrir les terres inconnues de la smantique, ma permis

    davoir des changes extrmement enrichissants et qui a toujours su tre attentif mes interrogations

    et ma progression. Merci Jean-Marie Pierrel, pour lintrt quil a manifest pour mon projet tout

    au long de mon stage et pour mavoir ouvert non seulement les portes de son laboratoire, mais aussi

    celles dun univers extraordinaire, et qui a ainsi russi me communiquer la passion de la recherche.

    Merci Pierre Chauvet, sans lequel je naurais pu faire ce stage, tant pour les efforts quil a dploys

    afin de satisfaire mes demandes que pour son extrme disponibilit, louverture dont il a fait preuve ettout ce quil a mis en uvre pour maccompagner dans ma progression.

    Je tiens aussi remercier Etienne Petitjean qui ma permis de faire dimmenses progrs en Java et

    sans lequel mon programme naurait probablement pas fonctionn ; Mick Grzesitchak, qui a su

    mapporter son secours sur nombre de questions informatiques et ma initie Smy ; Bertrand Gaiffe,

    qui a su mclairer plus dune occasion et a fait avancer mes rflexions par ses remarques

    pertinentes ; Sandrine Ollinger pour sa prsence, son aide sur des points problmatiques et lintrt

    quelle a manifest pour mon travail.

    Je souhaite enfin exprimer ma reconnaissance lATILF et ses membres qui ont su si bien

    maccueillir et, plus largement, tous ceux qui se sont intresss mon projet et mont soutenue pour

    le mener bien.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    3/122

    3

    Table des matires

    REMERCIEMENTS ............................................................... ............................................................ ................. 2 TABLE DES MATIERES................................................................ ............................................................. ....... 3 I) OBJECTIFS : BATIR UN MODELE INTEGRANT DES ELEMENTS DUNE SEMANTIQUE DECORPUS ....................................................... ........................................................... .............................................. 5 II) CADRE GENERAL : LETUDE DES LANGUES NATURELLES, EN PARTICULIER DUFRANAIS............................................................ ........................................................... ..................................... 6

    2.1) LE TRAITEMENT AUTOMATIQUE DES LANGUES ...................................................... ..................................... 6 2.2) ETABLISSEMENT D ACCUEIL : LATILF......................................................... .............................................. 6

    III) VERS LA MODELISATION : CADRE THEORIQUE, RESSOURCES ET OUTILS DISPONIBLES................................................... ........................................................... ........................................................... ....... 8

    3.1) THEORIE LINGUISTIQUE : LA SEMANTIQUE INTERPRETATIVE OU SEMANTIQUE TEXTUELLE .......................... 8 3.1.1 Une smantique des pratiques.............................................................................................................. 8 3.1.2 Formalisation de cette thorie : les traits smantiques ou smes......................................................... 9 3.1.3 Phnomnes observs........................................................................................................................... 9

    3.2) THEORIES MATHEMATIQUES POUR L ANALYSE LINGUISTIQUE .................................................... ............... 10 3.2.1) De la statistique linguistique tf-idf ................................................................................................. 11 3.2.2) Modles rcents : mtriques et distances smantiques...................................................................... 13

    3.2.2.1) Modlisation de polysmie lexicale par Bernard Victorri ..................... ....................... ....................... ........ 13 3.2.2.2) Le modle LSA ...................... ...................... ...................... ...................... ...................... ...................... ....... 13 3.2.2.3) Une tentative dexploitation de plusieurs modles : travaux de Mauceri ...................... ...................... ........ 15

    3.2.3) Autres perspectives............................................................................................................................ 17 3.3) R ESSOURCES INFORMATISEES ET OUTILS DE TRAITEMENT .......................................................... ............... 17

    3.3.1) Premire ressource informatise : un dictionnaire, le TLFi............................................................. 17 3.3.2) Bases textuelles ................................................................................................................................. 18

    3.3.2.1) Frantext, une base de textes littraires............. ....................... ...................... ..................... ....................... ... 18 3.3.2.2) LEst Rpublicain, corpus de textes journalistiques........... ...................... ...................... ...................... ....... 19

    3.3.2.3) Wikisource, des contes parmi un vaste panel de textes .................... ...................... ....................... .............. 19 3.3.2.4) Corpus constitu partir du web par le biais de loutil Pompadoc.................. ...................... ...................... 19

    3.3.3) Deux outils rcemment dvelopps pour la smantique textuelle : regroupements morphologiques etSmy ............................................................................................................................................................ 20

    3.3.3.1) Regroupements morphologiques ..................... ....................... ...................... ....................... ..................... ... 20 3.3.3.2) Smy .................... ...................... ...................... ...................... ...................... ...................... ...................... ... 21

    IV) MODELE OPTIMAL......................................................... .......................................................... ............... 24 4 .1) DEMARCHE GLOBALE ...................................................... ........................................................... ............... 24 4.2) CHOIX DES MATERIAUX DE BASE ......................................................... ...................................................... 27 4.3) PRE-TRAITEMENTS ........................................................... ........................................................... ............... 29

    4.3.1) Dcoupage du corpus........................................................................................................................ 29 4.3.1.1) Multiplicit des chelles smantiques .................... ....................... ...................... ...................... .................. 30 4.3.1.2) Ordre : conservation ou non ? .................... ...................... ..................... ...................... ..................... ........... 31 4.3.2) Affectation des traits smantiques..................................................................................................... 31 4.3.2.1) Source des traits smantiques...................... ...................... ....................... ...................... ...................... ....... 31 4.3.2.2) Filtrage et regroupement des smes.................... ....................... ...................... ...................... ...................... 33

    4.3.3) Pondration des traits smantiques................................................................................................... 34 4.4) TRAITEMENTS MATHEMATIQUES .......................................................... ...................................................... 35

    4.4.1) Matrice du corpus : du nombre doccurrences la significativit des cooccurrences..................... 35 4.4.1.1) Point de dpart : dcompte des occurrences....... ....................... ...................... ....................... ..................... 35 4.4.1.2) Transformations matricielles........ ...................... ....................... ...................... ...................... ...................... 35

    4.4.1.2.1) Frquence et significativit : dans le sillage de Zipf ....................... ....................... ..................... ........ 35 4.4.1.2.2) Reprage de la surreprsentation et sous-reprsentation ...................... ....................... ........................ 36 4.4.1.2.3) Psycho-linguistique et gestion de la multiplicit de sens ....................... ....................... ...................... 36 4.4.1.2.4) Des occurrences aux cooccurrences ...................... ...................... ...................... ....................... ........... 37 4.4.1.2.5) Ordre dapplication des transformations ...................... ...................... ...................... ........................ ... 38 4.4.1.2.6) Interprtation du produit final ...................... ...................... ...................... ..................... ...................... 38

    4.4.2) Du global au local : reprsentation du mot et de son cotexte........................................................... 38

  • 8/10/2019 Analyse & modlisation smantique.pdf

    4/122

    4

    4.4.2.1) Le mot ...................... ...................... ...................... ...................... ...................... ..................... ...................... 38 4.4.2.2) Le cotexte........ ...................... ...................... ...................... ...................... ....................... ...................... ....... 39

    V) EXPERIMENTATIONS................................................................ ......................................................... ...... 41 5.1) AUTOMATISATION DES TRANSFORMATIONS : PROGRAMMATION EN JAVA ................................................. 41

    5.1.2) Architecture....................................................................................................................................... 41

    5.1.2) Justification des choix effectus ........................................................................................................ 43 5.1.3) Limites et difficults rencontres....................................................................................................... 44 5.2) PARAMETRES DES TESTS EFFECTUES .................................................... ...................................................... 44

    5.2.1) Les supports de rfrence.................................................................................................................. 44 5.2.2) Oprations mathmatiques appliques.............................................................................................. 45

    5.3) TESTS ET ANALYSE DES RESULTATS ..................................................... ...................................................... 47 5.3.1) Mthodes danalyse mathmatiques.................................................................................................. 47

    5.3.1.1) Visualisation des matrices : logiciel PermutMatrix.... ...................... ...................... ...................... ............... 47 5.3.1.2) Analyse de moyennes et carts-types. ...................... ....................... ...................... ................... ................... 47

    5.3.2) Tests raliss : observations des activations et inhibitions............................................................... 47 5.3.2.1) Analyse n1 : influence de la transformation mathmatique ...................... ....................... ...................... .... 48

    Cooccurrences simples, sans autre transformation .................... ...................... ...................... ....................... ....... 48 Mthode tf-id........................ ...................... ...................... ...................... ...................... ..................... .................. 49 Mthode adapte de LSA ................... ...................... ...................... ...................... ..................... ...................... .... 50 Mthode adapte du (applique la matrice de cooccurrences) ..................... ....................... ...................... ... 51 Calcul des cosinus...... ...................... ..................... ...................... ..................... ...................... ...................... ....... 52

    5.3.2.2) Influence des cotextes ................... ...................... ...................... ...................... ...................... ...................... 53 Analyse n1 : comparaison des cotextes par PermutMatrix et indicateurs de valeurs centrales et dispersion..... 53 Analyse n2 : effets de cotextes de taille et de nature diffrentes............................... ....................... .................. 55 Analyse n3 : explication de la faible influence des cotextes par lcart-type.............................. ....................... 56

    5.3.2.3) Analyse n4 : mesure des variations fines ...................... ...................... ....................... ..................... ........... 58 5.3.3) Conclusion sur les expriences ......................................................................................................... 60

    CONCLUSION ET PERSPECTIVES ....................................................... ....................................................... 62 GLOSSAIRE ......................................................... ............................................................. ................................. 63 BIBLIOGRAPHIE...................................... ................................................................ ........................................ 65

    ANNEXES ..................................................... ........................................................... ........................................... 67 A1) CODE INFORMATIQUE , ELEMENTS PRINCIPAUX DU PROGRAMME REALISE EN JAVA .................................... 67

    Classe principale (sans le main) : ReprSem0.............................................................................................. 67 Classe SemEtDistri...................................................................................................................................... 73 Classe Matrice............................................................................................................................................. 74

    A2) SEMEME DE POLLEN , SABLE , ECLAT ET OR ..................................................... ............................................ 84 Smme de pollen ........................................................................................................................................ 84 Smme du mot sable................................................................................................................................... 86 Smme du mot clat ................................................................................................................................... 91 Smme du mot or ....................................................................................................................................... 99 Smme du mot or ....................................................................................................................................... 99

    A3) COTEXTES DU CORPUS DE CONTES ....................................................... .................................................... 110 1er cotexte : nacre (1289 familles de traits smantiques) ................... ...................... ...................... ............... 110 2e cotexte : nacre et sable (1329 familles de traits smantiques)....................... ........................ .................. 110 3e cotexte : sable (1119 familles de traits smantiques) ..................... ...................... ...................... ............... 110 4e cotexte : sable (510 familles de traits smantiques) .................... ...................... ...................... .................. 110 5e cotexte : pollen (559 familles de traits smantiques) ...................... ...................... ...................... ............... 110 6e cotexte : rose (739 familles de traits smantiques)....... ...................... ...................... ...................... ........... 110 7e cotexte : rose (1123 familles de traits smantiques). ...................... ...................... ...................... ............... 110 8e cotexte : rose (500 familles de traits smantiques)........... ...................... ...................... ...................... ....... 111 9e cotexte : rose (568 familles de traits smantiques)....... ...................... ...................... ...................... ........... 111 10e cotexte : clat et or (660 familles de traits smantiques) .................... ...................... ...................... ........ 111 11e cotexte : clat (435 familles de traits smantiques) ...................... ...................... ...................... ............... 111 12e cotexte : fer (602 familles de traits smantiques)........ ...................... ...................... ...................... ........... 111 13e cotexte : fer (1654 familles de traits smantiques)...... ...................... ...................... ...................... ........... 111

    A4) COMPARAISON DE TRANSFORMATIONS MATHEMATIQUES : EXEMPLE D ECLAT DANS LE COTEXTE N 10.. 112 A5) COMPARAISON DE COTEXTES : INDICATEURS DE VALEURS CENTRALES ET DE DISPERSION DU MOT SABLE 115 A6) MOYENNES DE TRAITS SEMANTIQUES DE ROSE RELATIVES AU TRAIT /EGLISE /......................................... 119

  • 8/10/2019 Analyse & modlisation smantique.pdf

    5/122

    5

    I) Objectifs : btir un modle intgrant des lments dunesmantique de corpus

    Les langues naturelles, outils quotidiens de communication, apparaissent plusieurs gards comme

    un ensemble structur, avec ses rgles syntaxiques ou encore ses rgularits morphologiques. Le sensquelles vhiculent constitue, de mon point de vue, une de leurs raisons dtre majeure. La smantique,discipline de la linguistique qui a pour objet ltude du sens, sattaque donc un aspect fondamentaldu langage et constituera le socle de mon stage.

    Le sens est, par essence, subjectif. Linterprtation dun texte, le texte constituant une forme particulire de lusage de langues naturelles, varie selon les individus, lpoque et, de manire plusgnrale, lenvironnement de ce texte. Pourtant, nous nous comprenons. Ce consensus pourrait donctre considr comme le reflet dune convergence smantique. Les linguistes tentent de comprendreles mcanismes qui rgissent cette convergence et daller au-del de leur intuition linguistique. Pour cefaire, ils collectent des donnes relles. Cependant, la masse de donnes gnres est trs importante et,

    pour la synthtiser et lexploiter, le recours une modlisation mathmatique des phnomnes de

    convergence et de variation smantiques en prsence savre ncessaire.Cette modlisation, un des enjeux majeurs du stage effectu, met en jeu des disciplines jeunes la

    croise de la linguistique, de linformatique et des mathmatiques : le traitement automatique deslangues, la statistique linguistique et la smantique textuelle. Ces sciences abordent le fonctionnementdes langues naturelles, en particulier leur fonctionnement smantique, diffrents niveaux : le niveaulexical, cest--dire le niveau du mot, supra-lexical, fond sur des units langagires plus tendues quele mot (phrase, paragraphe, texte) et infra-lexical, sappuyant sur des units plus petites que le mot. Cedernier niveau, niveau central de mon tude, repose sur le principe suivant : tout mot peut treaffect un ensemble dunits de sens minimales, appeles traits smantiques ou smes. Les traitssmantiques qui composent un mot peuvent tre partags par dautres mots, comme par exemple lidede mouvement ou encore lopposition entre concret et abstrait. Ils interagissent et dterminent ainsinotre perception du sens.

    Par ailleurs, mon travail se fonde sur lhypothse suivante : le sens nest pas intrinsque maisdpend de son environnement, environnement que nous appellerons le cotexte dans le cadre duntexte donn. Ainsi, les relations entre traits smantiques et lmergence du sens reposent sur lusage.Le sens nest pas fig comme dans les ressources encyclopdiques, il est vivant, mouvant et voluedans le temps. Il est dpendant des situations, des interlocuteurs, tout comme les usages 1.

    Cette approche linguistique du sens, reprsente notamment par la smantique interprtative outextuelle, permet dtudier les tendances smantiques globales dun texte, mais aussi les variationsfines plus petite chelle, notamment par rapport un mot, cest--dire au niveau lexical. Lesrecherches dveloppes au cours de mon stage et prsentes dans ce rapport se centrent sur ce dernier

    point : le mot et ltude de ses variations locales en tudiant les variations au niveau infra-lexical parlintermdiaire des traits smantiques ou smes.

    Pour mesurer les dplacements smantiques, je me suis efforce de rechercher des modles pertinents dans des domaines semblables au mien, dadapter ces modles et dtudier leur qualit.Cette qualit a t estime laune de mes objectifs, savoir obtenir une reprsentation mathmatiqueglobale du contenu smantique dun texte ou corpus de textes et observer les variations du contenusmantique dun mot en un point du texte.

    1 Nous rappelons cependant que la prsente tude sintresse essentiellement linfluence des usages reprsents

    par les textes. En effet, les linguistes nont pas les outils thoriques ncessaires la modlisation des situationscomme celle des interlocuteurs en tant quindividus.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    6/122

    6

    II) Cadre gnral : ltude des langues naturelles, enparticulier du franais

    2.1) Le Traitement Automatique des langues

    Avec lmergence des NTIC et la ncessit de grer linformation, lingnierie des langues a prisune dimension majeure, dont les enjeux et avances sont dcrits dans [Pierrel, 1997]. Elle sest en

    particulier concrtis travers le TAL, Traitement Automatique des Langues, aussi appel TALN(Traitement Automatique du Langage Naturel),

    Le TAL est n vers le milieu du XXe sicle aux Etats-Unis. Il a pour objet le traitementautomatique partir doutils informatiques, linguistiques et formels de donnes textuelles (textes critsou oraux ou encore units linguistiques).

    Comme le soulignent [Cori & Lon, 2002], les frontires du TAL ne sont pas clairement dfinies. Il balance entre science et technologie, oscille entre vises thoriques et industrielles. Sa dlimitation est

    donc dlicate. Quelques lments permettent cependant de saisir globalement ce quil reprsente.Le TAL repose sur quatre disciplines principales : la linguistique, linformatique, lesmathmatiques et les sciences cognitives. N dans une optique de traduction automatique, il voit sonchamp dinvestigation stendre rapidement pour recouvrir des domaines trs varis. Selon [Miller &Torris, 1990] cit par [Cori & Lon, 2002], il sintresse la linguistique thorique, quil cherche dcrire explicitement ; linformatique thorique pour loptimisation des algorithmes et programmesmis en place ; ltude mathmatique des proprits formelles des outils de traitement et thorieslinguistiques ([Miller & Torris, 1990], p.15) ; lintelligence artificielle et aux thories cognitives.

    Sur le plan linguistique, il se situe diffrents niveaux dobservation : le niveau morpho-lexical,qui sattache ltude de la structure des mots (morphologie) et la classification et au recensementdes formes dune langue (lexicologie) ; le niveau syntaxique (par exemple, pour les grammaires dunelangue) ; smantique (tude du sens) ; pragmatique (contextualisation). Ces diffrentes approches sont

    complmentaires, souvent imbriques, comme par exemple les dmarches sintressant linterfacesyntaxe / smantique.

    Lexistence du TAL se justifie par deux raisons principales : il permet dune part danalyser degrands corpus de textes et dautre part de mettre en place et analyser des modles formels.

    Dans le vaste champ dinvestigation du TAL, mon travail se positionne au niveau smantique.Le TAL a de nombreux domaines dapplication : la recherche dinformation, la traduction

    automatique, la classification de textes, le filtrage dinformation, la correction automatique, lagnration automatique de textes (rsum par exemple) ou encore la comprhension automatique destextes. Les domaines dapplication de mon sujet sont principalement la recherche dinformation et laclassification de textes.

    2.2) Etablissement daccueil : lATILF

    Le laboratoire ATILF (Analyse et Traitement de la Langue Franaise) au sein duquel jai effectumon stage est une unit mixte de recherche du CNRS (dpartement Homme et Socit) et de NancyUniversit, Campus Lettres et Sciences Humaines et Universit Henri Poincar. Il est issu durapprochement de lINALF (Institut National de la Langue Franaise) et de lquipe daccueil deluniversit LANDISCO (Langue, discours, cognition universit Nancy 2). Ses champsdinvestigation se situent la croise de diffrentes disciplines : linguistique, informatique etmathmatiques.

    Le projet phare de lATILF est le Trsor de la Langue Franaise informatis (TLFi). Le Trsor dela Langue Franaise (TLF), dont le TLFi est la version informatise, est un dictionnaire de languefranaise des XIXe et XXe sicles en 16 volumes et un supplment. TLF et TLFi sont le fruit duntravail de plus de quarante ans, dbut sous la direction de Paul Imbs en 1957. La version actuelle duTLFi est disponible sur le web en accs libre (site http://www.atilf.fr/tlfi.htm ) et sur CD-Rom. Ce

  • 8/10/2019 Analyse & modlisation smantique.pdf

    7/122

    7

    dictionnaire informatis se distingue par les fonctionnalits de recherche quil propose : recherchesimple avec affichage de larticle et outils de visualisation des diffrents lments de larticle(dfinition, exemples, ), recherche assiste et requtes complexes.

    LATILF ne se limite pas au TLFi : dautres projets denvergure ont t mens. Citons laralisation de Frantext, base textuelle constitue de prs de 4000 textes littraires franais denviron1000 auteurs du XVIe au XXIe sicle. Les textes peuvent y tre consults par recherches simples oucomplexes. Une version partielle de Frantext est accessible librement ladressehttp://www.atilf.fr/frantext.htm . Mentionnons galement les nombreuses tudes portant sur lancienfranais et ayant conduit au DMF (Dictionnaire du Moyen Franais, accessible en ligne partir deladresse www.atilf.fr/dmf), autre produit phare de lATILF contenant prs de 120000 articles sur lalangue franaise de 1330 1500. Enfin, le Franzsisches Etymologisches Wrterbuch (FEW),dictionnaire tymologique du moyen franais, offre une approche approfondie du galloroman, avecune description du gascon, de loccitan, du francoprovenal et de dialectes dol. Celle-ci est taye

    par toutes les donnes accumules de la lexicographie franaise et recense les volutionsmorphologiques et smantiques du galloroman au cours des sicles.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    8/122

    8

    III) Vers la modlisation : cadre thorique, ressources etoutils disponibles

    3.1) Thorie linguistique : la smantique interprtative ousmantique textuelle

    La smantique interprtative, dveloppe partir des annes 80 par Franois Rastier (1987, 1991,2001), est une thorie unifie visant dcrire tous les paliers de la textualit, du mot au texte, partirdes mmes outils conceptuels. Parmi ceux-l, le sme (ou trait smantique), hrit de la traditionstructuraliste (Saussure, Greimas, Pottier), prsente un intrt tout particulier pour notre propos.

    3.1.1 Une smantique des pratiques

    Deux traditions fondent la smantique daujourdhui : la tradition rhtorique-hermneutique quitraite de textes et la tradition logico-grammaticale. Cette seconde approche, courant dominant dans lacommunaut linguistique, a construit la smantique sur de petites chelles : tude du sens au niveau dumot ou encore de la phrase. Lapport des cotextes et contextes y a alors t sous-estim et nglig. Parcotexte, nous entendons lensemble des units smantiques qui ont une influence sur une unit donneet sur lequel elle-mme a une incidence. Le contexte renvoie lenvironnement extralinguistique. Lestextes et, dans une certaine mesure, les contextes matrialisent la notion dusage. La smantiqueinterprtative sattache ltude dun sens non pas ontologique, cest--dire dun sens par essence,intrinsque au mot, mais dune varit de sens associe aux textes et aux usages.

    Lenvironnement (textes, contextes,) influence le sens des mots sur plusieurs plans. Le genre estun premier cadre dinfluence. En effet, celui-ci met en jeu un univers smantique dans lequel les unitsde sens mobilises sinscriront. Par exemple, les units de sens actives pour le mot essence seront,

    dans le cas gnral, plutt relies au ptrole et des notions conomiques dans un corpus journalistique, alors quelles feront cho ltre et lexistence dans des traits de philosophie.Lpoque a galement un impact smantique : les pratiques sociales changent au cours des sicles,ainsi que le sens des mots. Considrons le groupe nominal le mari du : dans des conversations duXXIe sicle, on imaginera plutt un chec de lpouse sur un terrain quelconque (championne sportivedtrne, rle de reprsentation mal tenu, ) et le mari affect par lincapacit de sa femme satisfaire ses attentes ; dans du Molire, cette expression voquera le mari tromp par sa femme. De

    plus, la smantique interprtative fait lhypothse que les discours et genres textuels refltent le cadresocio-culturel, ce qui influera galement sur les units de sens actives. Enfin, la taille des cotextes

    joue aussi un rle important : les units de sens mergentes ne seront pas toujours les mmes si on se borne une phrase, un paragraphe, quon stend un chapitre, un texte ou encore un corpus detextes. Un concept bien connu illustrant cet aspect est celui de lintertextualit : celle-ci ne peut tre

    active que si le lecteur se place non pas simplement au niveau du texte quil lit mais se place dans ununivers smantique constitu de lectures antrieures.

    Une notion-cl sinscrit dans ce cadre de lusage : le parcours interprtatif. Rastier, dans songlossaire repris par [Missire, 2006], dfinit le parcours interprtatif comme une suite doprations

    permettant dassigner un ou plusieurs sens un passage ou un texte . En clair, cela signifie quechacun construira sa propre approche du sens selon diffrents paramtres : son milieu dorigine, sonpoque, sa culture, le moment et la situation dans laquelle il est confront au texte, Ainsi,linterprtation est influence par de multiples paramtres, variables selon les individus.

    Enfin, soulignons que lapproche textuelle prend le contre-pied des rfrences dictionnairiques ouencyclopdiques. Au mot au sens fig par ces ressources soppose un mot au sens volutif selon lescontextes (situation dnonciation ou de production du texte). Les cotextes lis ces situations

    permettent alors non seulement de dsambiguser un mot polysmique mais aussi dintroduire desvariations smantiques pour un mot monosmique.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    9/122

    9

    3.1.2 Formalisation de cette thorie : les t raits smantiques ou smes

    Lintroduction dentits particulires, les traits smantiques ou smes, a permis de formaliser les principes exposs ci-dessus. Cette dmarche sinscrit dans un cadre infra-lexical qui considre que lesmots sont dcomposables en units de sens plus petites. Les traits smantiques ou smes constituentles units de sens minimales. Chaque mot comprend un smme, ensemble structur de traitssmantiques.

    Les traits smantiques dun smme peuvent tre classs en diffrentes catgories. Ainsi, les smes peuvent tre gnriques ou spcifiques. Des smes gnriques sont des smes qui indiquentlappartenance une classe, une famille plus vaste, comme le domaine auquel le mot appartient. Aucontraire, les smes spcifiques sont les smes permettant de distinguer le mot par rapport aux autresmots des mmes domaines ou classes. Par exemple, pour le mot poirier, le trait smantique /arbre/ est un sme gnrique qui ramne une famille plus vaste ; le trait smantique /poire/ est enrevanche un sme spcifique, propre au mot poirier.

    Ces diffrentes catgories de traits ont leur importance dans le cadre mathmatique o nous nous plaons. Ainsi, de bonnes mesures de distance entre mots devraient reflter la structure en traits

    gnriques et spcifiques. Les smes gnriques seraient facteurs de rapprochement smantique entredeux mots et les smes spcifiques facteurs dloignement. Lanalyse linguistique, avec rpartition dessmes en smes gnriques et spcifiques, ouvre des perspectives sur le mode de validation dunmodle mathmatique.

    Par ailleurs, deux statuts peuvent tre affects aux smes : le statut de sme inhrent et celui desme affrent. Un sme est dit inhrent sil est hrit dun mot, par exemple le sme /noir/ pourcorbeau. Il est au contraire dit affrent sil est greff un mot du fait dun cotexte particulier. Parexemple, cheval aura pour sme affrent /jouet/ dans lexpression cheval de bois. Cette notion desmes affrent et inhrent soulve un problme majeur dune modlisation idale : celle-ci doitconsidrer un mot non comme un ensemble structur de taille fixe, susceptible dvoluer uniquementau niveau de sa structure interne, mais comme un ensemble de taille variable, auquel peuvent tre

    ajouts des lments quelconques de lunivers (espace constitu de lensemble des points ; dans notrecas, il sagirait de lensemble des traits smantiques de la langue franaise).

    Ajoutons aux notions abordes celle de forme smantique et de molcule smique. Une formesmantique est un groupement stable de smes spcifiques articuls par des relations structurales. Unemolcule smique est un cas particulier de forme smantique. Je napprofondirai pas les diffrencesentre forme smantique et molcule smique, approche dtaille qui sort de mon champ decomptences et mcarte de lobjet de ce travail de stage lintrieur duquel il mest actuellement

    possible dutiliser indiffremment lun pour lautre, approximation que le lecteur voudra bien me pardonner. Ce concept de molcule smique ma paru important car il implique la structuration dusmme et fait cho la notion de clusterisation en mathmatiques. Il ouvre donc des pistes derflexion intressantes sur la modlisation.

    3.1.3 Phnomnes observs

    Les traits smantiques sont soumis divers phnomnes en contexte, illustrs dans [Valette, 2004]et [Valette & Grabar, 2004] : lactivation, la virtualisation, la domanialisation et ddomanialisation ;ils peuvent se regrouper en noyau smique ou tre lorigine disotopies et enrichir le smme dunmot.

    Tout dabord, les traits smantiques peuvent tre activs ou au contraire virtualiss, cest--direinhibs en contexte. Par exemple, dans lexpression Un verre de rouge, le trait smantique /alcool/ est activ dans le mot rouge. En revanche, dans un chat siamois, le trait smantique /jumeaux/ dumot siamois est inhib.

    Un autre phnomne est celui de la domanialisation : le sens dun un mot peut se voir rattach undomaine particulier dans un contexte donn. A linverse, un mot peut tre ddomanialis, cest--dire

  • 8/10/2019 Analyse & modlisation smantique.pdf

    10/122

    10

    quun sme gnrique qui le caractrise peut tre inhib en contexte. Les deux exemples cits ci-dessous , tirs de [Valette & Rastier, 2008], illustrent ces notions de domanialisation etddomanialisation.

    Considrons le premier exemple :Si l ' on devi ent de pl us en pl us r i che, on r empl acer a peut - t r e

    pr ogr essi vement l e McDo quot i di en par des t oast s au cavi ar, duhomard, des omel et t es aux t r uf f es bl anches et d' aut r es chosesencor e pl us appt i ssant es et aussi r af f i nes que cot euses( For um du si t e teleologie.org , 3. 03. 2001)

    Le mot caviar connat dans cet exemple une domanialisation gastronomique (prsence dun trait /gastronomie/ ). Inversement, dans la presse sportive, lutilisation de caviar pour qualifier une belle passe est lillustration mme, sur le plan smantique, dune ddomanialisation accompagne duneredomanialisation. Le domaine dans lequel caviar se situe nest plus la gastronomie ou le luxe mais lefootball (allocation dun trait smantique /sport/ ).

    Lisotopie recouvre une ralit assez diffrente des deux prcdentes. Il sagit dun effet de la

    rcurrence dun sme qui se traduit par la prsence rpte dudit sme dans un texte intervallesrguliers. Le mot correspondant lunit de sens isotopique peut tout fait tre rare dans le texte,voire absente.

    Par ailleurs, dans les textes, on peut assister des regroupements de traits smantiques plus oumoins variables. Ces regroupements varient mais semblent parfois prsenter des lments communsrcurrents : le noyau smique. Soulignons que lexistence dun noyau smique, pour lensemble desmots ou, plus vraisemblablement, certaines catgories de mots, na pas encore t dmontre. Unemodlisation du phnomne et des tudes statistiques des rsultats permettrait de rpondre, ou deformuler un dbut de rponse cette question ouverte. Ces questions de regroupements smantiquesont au demeurant dj fait lobjet dtudes (voir [Valette, Estacio-Moreno, Petitjean & Jacquey, 2006]).

    Enfin, un dernier phnomne mentionner est lenrichissement du smme. Cette questiondenrichissement nest pertinente que si lon considre que le smme dun mot est, un instant donn,

    un ensemble fini de traits smantiques structurs. Ce smme constitue le smme de rfrence.Ltude du mot dans une srie de cotextes peut faire merger que certains traits smantiques manquentdans le smme de rfrence, tandis que dautres peuvent sembler prsents tort. Le smme derfrence peut alors tre enrichi ou appauvri. Le nouveau smme peut alors tre considr commeune nouvelle reprsentation du mot relative une classe de cotextes possdant des caractristiquescommunes. En ritrant ltude sur plusieurs classes de cotextes, il sera possible de gnrer dessmmes profils en fonction dusages (ceux reprsents par la classe de cotextes choisis).Lenrichissement met donc en lumire des mcanismes fins quune approche mathmatique pourraitaider normaliser.

    Dans mes dmarches, je me suis efforce de faire merger par des mthodesmathmatiques certains de ces phnomnes ou tats : lactivation et linhibition de traits smantiques ;lexistence ou non dun noyau smique ; la structuration en molcules smiques dans un contextedonn. Pour des questions de temps, je nai pu approfondir la question de lenrichissement du smme.Ltude de lisotopie, envisage dans un premier temps, a t carte puisquelle ne sinscrivait pasdans la dmarche consistant aller du global (texte, corpus) au local (mot).

    3.2) Thories mathmatiques pour lanalyse linguistique

    Lanalyse linguistique pourrait, certes, tre exclusivement du ressort des linguistes qui possdent la fois la connaissance des mcanismes de langue et une intuition qui semble difficilement quantifiable.La question de la modlisation est dailleurs trs dbattue : certains soutiennent quelle est impossible.Si le recours des mtriques nest peut-tre pas mme de traiter finement toutes les subtilits dulangage, il peut cependant faire merger des tendances, mettre jour des mcanismes caractriss par

  • 8/10/2019 Analyse & modlisation smantique.pdf

    11/122

    11

    certaines rgularits. De plus, il ouvre des perspectives sur le traitement et lanalyse de grandes massesde donnes (celles de corpus par exemple), opration qui dpasse les capacits humaines.

    Diffrents modles et procds mathmatiques ont retenu mon attention, depuis [Muller, 1968] ou[Habert & Nazarenko, 1997] [Victorri, 2005 & 1994], [Venant, 2004] ou [Landauer, Foltz & Laham,1998] : ils paraissaient robustes, transposables au moins sur certains plans et certains de leurs rouagesappropris aux outils que je souhaitais dvelopper pour les analyses smantiques envisages.

    3.2.1) De la statisti que linguist ique tf-idf

    La plupart des supports mathmatiques dvelopps en linguistique puisent leur source dans unescience fonde en France dans les annes soixante par Charles Muller (cf [Muller, 1968]) : lastatistique linguistique.

    Cette discipline dveloppe les outils danalyse de la linguistique. Elle tudie par exemple lastructure et ltendue du vocabulaire, la pertinence de distributions en frquence de certains mots oucatgories grammaticales, etc. Elle utilise divers outils statistiques : indicateurs moyens, indicateurs dedispersion, coefficient de corrlation, tests statistiques types. Un test statistique utilis avec succsdans diverses tudes est celui du , dont on trouvera les dtails dans [Hatchuel & Tonneau, 1996].Celui-ci seffectue de la manire suivante :

    Soit un tableau constitu de m lignes et p colonnes. Le nombre de degrs de libert est de

    ( ) ( )1 1n p . On note ijn , 1 ,1i m j p , in la somme des coefficients de la ligne i, jn lasomme des coefficients de la ligne j, n la somme totale des coefficients.

    Ltape suivante consiste tablir une valeur thorique moyenne ijm sous lhypothse

    dindpendance des lignes et colonnes pour chaque coefficient :i j

    ijn n

    mn

    = . On calcule ensuite la

    valeur observe de la variable de test :( )22

    1 ,1

    ij ij

    i m j p

    n mn

    = .

    Cette valeur est ensuite compare avec un tableau de distribution du tabul en degrs de libert.Chaque colonne correspond au seuil de probabilit au-del duquel lhypothse de dpart (dans notrecadre, hypothse dquirpartition ou encore de rpartition non significative des occurrences oucooccurrences) est rejete. Cette mthode est intressante, bien que le stade consistant sommer les

    carts au carr entre valeurs relles et valeurs thoriques fasse perdre linformation apporte parchaque coefficient. Elle est la source de certaines transformations que jai effectues.

    [Muller, 1968] propose une synthse des connaissances accumules sur les lois lexicales existanteset, travers des tudes statistiques, discute de leur validit. La loi de Zipf a particulirement retenumon attention. Considrons les mots dun texte classs par ordre de frquence dcroissant. Soit n lerang dun mot, ( ) f n sa frquence. La loi de Zipf est, daprs [Lemire 2008] et [Muller, 1968], de la

    forme ( ) K f n n= , K constante. Cette loi, dite loi empirique, reflte une tendance gnrale du lexique,

    affirmation taye par de nombreuses tudes. Au niveau des phnomnes linguistiques en jeu, elleindique que le comportement gnral de la distribution des occurrences nest pas uniforme : il existeun petit nombre de mots trs frquents et un grand nombre de mots trs rares.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    12/122

    12

    De cette loi dcoule une mthode mathmatique assez utilise en recherche dinformation : lamthode tf-idf. Elle sappuie galement sur deux autres constatations. Premire constatation : les motstrs prsents, statistiquement prsents dans une forte proportion de documents constituant un corpus,ne sont pas discriminants. Deuxime constatation : les mots les plus frquents napportent que peudinformation smantique.

    La mthode tf-idf sappuie sur le nombre doccurrences ou sur la frquence dun mot (tf : termfrequency) et sur la distribution de ce mot dans diffrents textes, paragraphes ou autres unitstextuelles (idf : inverse document frequency) Considrons un corpus constitu de documents. Soit D

    le nombre de documents du corpus et idf le nombre de documents contenant le mot i. idf D

    correspond

    donc la proportion de documents contenant le mot i.

    ( ) ln idf idf i D

    =

    Notons lutilisation du logarithme. Celle-ci trouve ses sources dans la thorie de linformation : la

    quantit dinformation I relative un vnement e i ayant la probabilit doccurrences pi est :( )2( ) logi i I e p= (voir [Rouchaleau, 2008] p.17). La probabilit est ici remplace par la frquence

    dapparition (en termes de prsence / absence, sans dcompte multiple des occurrences) dans lesdocuments.

    La fonction idf permet de reprsenter le poids du mot dans le corpus. Elle accorde un poidsimportant aux termes rares et un poids faible aux termes trs frquents, avec une dcroissance du poidsde plus en plus lente.

    ( , )tf i j =frquence du mot i dans le document j.Cette fonction reprsente le poids du mot lintrieur dun document. Ce poids crot

    proportionnellement au nombre doccurrences du mot.La formule gnrale de tf-idf dfinit le coefficient suivant : ( ), ( , ) ( )tfidf i j tf i j idf i= . Ce

    coefficient peut sinterprter comme un coefficient de significativit : les termes qui ont une fortesignificativit pour un document donn sont trs prsents dans ce document, mais rares dans les autres

    documents. Des termes trs prsents dans le document considr mais galement dans tous les autres

    10

    logi

    Ddf

    [ ]% 0;1idf n x D

    = =

  • 8/10/2019 Analyse & modlisation smantique.pdf

    13/122

    13

    documents ont une significativit relativement faible (termes non discriminants, donc napportant que peu de valeur ajoute).

    La transformation tf-idf, considre comme une rfrence par les scientifiques en linguistique, a tretenue pour certaines des expriences menes au cours de ce stage. Insistons cependant sur un point :la loi de Zipf ainsi que la transformation tf-idf ont t mises en place et testes au niveau lexical, cest--dire au niveau des mots. Les tudes au niveau infra-lexical, laide des traits smantiques dans lecadre de ce travail, sont rcentes et encore au stade exploratoire. . Il nest donc pas carter que lesrsultats des mmes lois doivent tre interprts un peu diffremment au niveau infra-lexical.

    3.2.2) Modles rcents : mtriques et distances smantiques

    3.2.2.1) Modlisation de polysmie lexicale par Bernard Victorri

    [Victorri, 2005] dveloppe un modle pour dsambiguser le sens dun mot ayant plusieurs sens possibles, cest--dire trouver le sens appropri dun terme polysmique, partir dun dictionnaire desynonymes constitu au pralable. La mthode utilise comporte deux tapes.

    La premire tape se droule comme suit : choix dun adjectif dsambiguser ; dtermination dela liste des synonymes de cet adjectif ; constitution de cliques, cest--dire de regroupements ouclusters de synonymes partir du dictionnaire de synonymes ; calcul de distances entre les cliques

    partir dune matrice value en fonction de la prsence (valeur 1) ou de labsence (valeur 0) dunsynonyme dans une clique.

    La deuxime tape se dcompose ainsi :slection des diffrents noms dont ladjectif de rfrence est pithte dans un corpus de textesconstitution dune matrice dont les lignes correspondent aux noms voqus ci-dessus, les colonnes

    aux synonymes de ladjectif de rfrence et les valeurs prises en entres au nombre de cooccurrences(cest--dire dapparition conjointe) du couple (mot ; adjectif synonyme).

    partir dune hypothse dquiprobabilit des distributions, calcul de coefficients thoriques selonle mme procd que dans le test du .

    application dune fonction linaire par morceau (nulle, croissante, puis constante) au rapport ijij

    mn ,

    o m ij est la valeur thorique et n ij la valeur relle, pour tous les couples (i,j) correspondant auxcouples (mot ; synonyme). La valeur prise par la fonction, comprise entre 0 et 1, est qualifie de degrdaffinit par Victorri.

    Cette deuxime tape ma paru particulirement pertinente dans le cadre de mes travaux. Elle prsente en effet plusieurs intrts : elle drive dun test statistique de rfrence ; elle part decooccurrences observes en cotexte, dans un corpus de textes ; elle affecte tout couple de la matriceun coefficient daffinit, contrairement au test du qui additionne tous les carts entre valeurs relleet thorique et ne retourne quun coefficient global pour lensemble de la matrice ; le coefficient

    daffinit repose sur la valeur relative du coefficient rel au thorique et saffranchit de la valeurabsolue (bien que la fonction choisie, linaire par morceau dans ce cas, ne soit pas un lmentindiscutable du modle).

    Nanmoins, soulignons quelques points importants : le cadre dapplication du modle de Victorriest trs diffrent de celui dans lequel jvolue. En effet, il se situe au niveau des mots, cest--dire auniveau lexical. La notion de cooccurrence correspond la relation nom adjectif pithte. Dans mesdmarches, la cooccurrence ne reposera pas sur la syntaxe mais sur la prsence au sein dune mmeunit textuelle. Cependant, cette diffrence prs, le cadre dans lequel je me placerai sera similaire.

    3.2.2.2) Le modle LSA

    Le modle LSA (analyse smantique latente), dvelopp par [Landauer, Foltz & Laham, 1998], est

    une thorie et mthode dextraction et reprsentation du sens des mots en contexte par des traitementsstatistiques appliqus de larges corpus de textes. Lide qui le sous-tend est que les contraintesmutuelles exerces entre mots dans des cotextes suffisent faire merger le sens. Ses objectifs se

  • 8/10/2019 Analyse & modlisation smantique.pdf

    14/122

    14

    situent deux niveaux : dune part, il cherche tablir une similarit entre mots, par exemple pourdterminer si un mot peut tre substitu un autre ; dautre part, il constitue un modle de la rflexionet des dmarches de la pense pour acqurir et utiliser la connaissance.

    LSA ne se construit que par analyse de textes. Son point de dpart est un grand corpus, de troismillions de mots environ. Dans ce corpus, les mots sont assimilables aux points dun espacesmantique de grande dimension (entre 50 et 1500). Les phrases ou encore les paragraphes, cest--dire les cotextes choisis, correspondent aux dimensions de cet espace smantique. Ces cotextesconstituent des expressions unitaires de sens, pour lesquelles lordre nest pas pris en compte : nilordre des mots au sein du cotexte, ni lordre des cotextes entre eux. Seule compte la prsence dunmot dans un cotexte. Elle se traduit mathmatiquement par la frquence. Celle-ci subit un

    prtraitement, qui sappuie sur la distribution du mot dans les cotextes o il est utilis,indpendamment de ses corrlations avec dautres mots et est transforme en une mesure delinformation quelle apporte. Ltape suivante, mcanisme cl de LSA, repose sur la rduction de ladimension des relations entre mots et cotextes. Enfin, une mesure de similarit entre deux mots estintroduite.

    Dtaillons lapproche mathmatique des tapes dcrites ci-dessus :Soit un corpus constitu de n mots ,1i i nm et p cotextes ,1 j j pc .Soit f ij la frquence dapparition du mot m i dans le cotexte c j.Soit M la matrice des frquences dapparition des mots par cotexte :

    :

    ...

    j

    i ij

    c

    M m f =

    Soit p ij la probabilit dapparition du mot i dans le cotexte j, P la matrice des p ij.Pour pondrer les coefficients en fonction de leur significativit, on applique la fonction

    ( )

    ( )ln 10

    : , ln( )0 0

    f si p

    f p p psi p

    +

    =a tous les couples ( )1 ,1,ij ij i n j p f p .

    On note ( ),ij ij ij f p = et la matrice des ij .La rduction du nombre de degrs de libert seffectue par dcomposition en valeurs singulires de

    la matrice : T UDV = , ( )1 2 1 2, ,..., , 0,..., 0 , ...q q D diag = diagonale dedimension (p,p) et de rang q, U orthogonale de dimension (n,p) et V orthogonale de dimension (p,p).

    On souhaite se ramener un sous-espace de dimension k, k q .Soit ( )2 1 2, ,..., , 0,...0k D diag = et 2 2 T UD V = .Lopration effectue correspond en fait une projection sur k directions principales. Le

    mcanisme de pense correspondant cette transformation serait le suivant : lesprit humain ne peutgrer la trop grande multiplicit de sens. Cest pourquoi il se ramne des grandes lignes, cest--dire des directions principales de sens. Les coefficients de 2 sont donc des coefficients designificativit des mots aprs transformation par lesprit humain des textes.

    La mesure de similarit est calcule partir du cosinus des angles entre vecteurs-lignes de lamatrice 2 .

    La dmarche de LSA est intressante plusieurs points de vue. Tout dabord, elle sappuie sur descorpus, donc du texte vivant et non une ressource dictionnairique ou encyclopdique fige. Par ailleurs,elle sappuie sur des mthodes et thories mathmatiques solides : elle drive de lACP, trs utilise enanalyse des donnes, et, avec lintroduction de lentropie ( ln( ) p p ), elle sappuie sur la thorie delinformation.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    15/122

    15

    Toutefois, lanalyse smantique latente nest pas parfaite et quelques points mritent attention. Ellese situe, comme les autres modles mentionns, au niveau lexical. Le modle de rflexion humainesemble cohrent et rejoint une branche de la linguistique, la linguistique de linteraction, pour laquellelapprentissage de la langue seffectuerait travers les changes, les dialogues, la confrontation dessituations. Mais la thorie pose des problmes de validation : elle na pour linstant donn lieu qudes expriences petite chelle, trs cibles et donc loignes des interactions relles.

    3.2.2.3) Une tentative dexploitation de plusieurs modles : travaux de Mauceri[Mauceri, 2007a et 2007b] utilise un modle qui intgre diffrentes mthodes et thories prcites.

    Il se place dans une optique dindexation de textes recourant des rapprochements entre diffrentstextes et sappuie sur le reprage disotopies. Il se place ainsi dans le cadre de la smantique textuelle.Pour quantifier son approche, il introduit une mtrique dont langle dobservation est celui descooccurrences, cest--dire de lapparition commune de deux traits smantiques.

    Le modle quil btit puise ses sources dans une approche vectorielle, le modle de Salton. Celui-cidcrit les cotextes comme des vecteurs dans lespace des mots. La reprsentation matricielle desvecteurs est, de manire analogue au modle dcrit au paragraphe prcdent une matrice dont leslignes sont les mots, les colonnes sont les cotextes et lentre en position (i,j) de la matrice le nombredoccurrences du mot i dans le cotexte j. Mauceri souligne ensuite les failles de ce modle et proposediffrentes manires dy remdier. Il choisit en particulier de ne conserver que les motssmantiquement pleins 2. Une des mthodes quil propose ensuite est la transformation tf-idf applique la matrice doccurrences. Il complte cette transformation par des oprations similaires celles deLSA. Il obtient ainsi une matrice dont les coefficients refltent non plus les occurrences, mais desoccurrences pondres par leur significativit, avec prise en compte de la loi de Zipf et sesrpercussions, ainsi que du modle cognitif de LSA.

    Il se ramne ensuite un espace indpendant du dcoupage initial en textes ou cotextes. Pour cefaire, il gnre une matrice de cooccurrences en multipliant la matrice prcdente par sa transpose.Les nouveaux coefficients ne conservent certes quune partie de linformation lie au dcoupage encotextes mais permettent de saffranchir du texte pour se placer dans un espace ne dpendant plus que

    des interactions entre mots.Enfin, Mauceri pointe du doigt le problme de la significativit statistique limite des coefficientset propose une mthode de filtrage. Celle-ci limine les coefficients statistiquement non significatifs etrajuste les autres coefficients selon quils sont plus ou moins significatifs statistiquement. Pour cela,il sappuie sur le test de Fisher.

    Considrons le tableau de contingence suivant :

    La classe A (resp. B) est constitue de a (resp. b) individus, la population totale est de n individus.x individus appartiennent A et B, a-x (resp. b-x) A (resp. B) seulement, n-a-b+x aucune des deuxclasses.

    Sous lhypothse H0 dindpendance des lignes et des colonnes, la distribution suit une loihypergomtrique :

    2 Les mots pleins smantiquement sont des mots voluant extrmement rapidement dans le temps. Ils se rfrent des situations, des vnements, des objets ou des individus et portent donc une partie essentielle du sens des

    phrases et des textes. Ce sont souvent des noms, adjectifs, verbes, parfois aussi des adverbes. Ils sopposent aux

    mots dits mots grammaticaux ou mots outils , qui eux voluent peu dans le temps. Dans les phrases, cesmots se situent autour des mots smantiquement pleins, ils servent de lien entre eux. Il sagit de prpositionscomme ou de , des dterminants, des pronoms, etc.

    arg

    arg

    A A m e B x b x b B a x n a b x n b

    m e a n a n

    +

  • 8/10/2019 Analyse & modlisation smantique.pdf

    16/122

    16

    ( )

    ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )

    ! !( )!( )!, , ,

    ! !( )!( )!( )!

    1 1 1 11 1 1 1 1

    a n a x b x a b n b n a f x a b n

    n n x b x a x n a b xb

    a b n b n an x b x a x n a b x

    = =

    + + + + +=

    + + + + + +

    , o ( ), , , f x a b n est

    la probabilit davoir x individus appartenant aux classes A et B de taille respectives a et b dans une population de n individus.

    La probabilit davoir plus de individus appartenant A et B est :( )( ) ( ), , , , , , ,

    x p T x a b n x f x a b n

    = Si lon se replace dans le cadre linguistique, le tableau de contingence considr est maintenant de

    la forme :

    1c

    ic

    nc

    1c jc pc

    ijc

    1c

    ic

    nc

    1c jc pc

    ijc

    cij est le nombre de cooccurrences des mots i et j.

    ci. (resp. c .j) est le nombre de cooccurrences du mot i (resp. j) avec lensemble des autres motsc est le nombre total de cooccurrences : i ji j

    c c c = =

    Lhypothse H0 est que tous les couples de mots sont indpendants. La probabilit dobserver c ijcooccurrences entre les mots i et j sachant que le mot i cooccurre c i. fois et le mot j c .j fois est de :

    ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )1 1 1 1

    , , ,1 1 1 1 1

    i j j iij i j

    ij j ij i ij i j ij

    c c c c c c f c c c c

    c c c c c c c c c c

    + + + +=

    + + + + + +

    La probabilit davoir plus de c ij cooccurrences entre les mots i et j est :

    ( )( ) ( ), , , , , , ,ij i j i j x

    p p T x c c c x f x c c c

    = = Une cooccurrence sera considre comme non significative si ij p , o est le seuil de

    cooccurrences. La matrice des coefficients filtres aura pour valeur ij pij c

    en position (i,j)

    si ij p et 0 sinon.La mthode de Mauceri ma intresse plusieurs points de vue et je men suis inspire dans mes

    propres dmarches. Tout dabord, elle traite les problmes suivants : celui des termes trop frquents et peu significatifs (mthode tf-idf) ; celui de la significativit statistique. Elle applique LSA et se placeainsi dans la mouvance du modle cognitif quil propose. Elle opte pour une approche encooccurrences plutt quen occurrences, choix qui donne une marge de libert par rapport au supportde cotextes choisis et lextension dautres cotextes.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    17/122

    17

    Notons cependant que, si chaque transformation considre indpendamment des autres parat pertinente et interprtable sur le plan linguistique, lenchanement des transformations a des effets plusdifficiles se reprsenter au niveau linguistique.

    3.2.3) Autres perspectives

    Il existe de nombreux modles mathmatiques qui ont t mis en uvre pour de la linguistique oudont dcoulent certaines transformations prcdemment cites. Parmi elles, mentionnons lACP,intressante pour son approche multidimensionnelle ; les chanes de Markov, dont la dynamique ouvredes perspectives intressantes (mais pose aussi le problme de la divergence) ; les rseaux deneurones ; des modles de graphes entre synonymes, mots darticles ou dfinitions de dictionnaire, Je nai pas approfondi ces pistes fort potentiel pour deux raisons : un temps trop court et un risquedparpillement.

    Retenons de tous les modles et transformations dcrits que chacun prsente des atouts sduisants,mais que, dans mes choix, jai donn la prfrence des modles plutt rcents et qui mont paru le

    plus mme de rpondre au cadre de mon tude. Dans tous les cas, il est ncessaire de faire la part deschoses : si la thorie semble cohrente et donne des rsultats probants dans un champ bien dtermin,mon cadre dapplication (niveau infra-lexical et recours aux traits smantiques) est diffrent, viergedexprimentation et exige certainement des adaptations que seule lexprience pourra mettre enlumire.

    3.3) Ressources informatises et outi ls de traitement

    La rflexion thorique et llaboration de modles sont des dmarches riches et constructives.Cependant, pour valider le thorique et orienter les pistes de rflexion, il est ncessaire de seconfronter la pratique. Or lexprimentation requiert des ressources et des moyens techniques.

    LATILF proposait diffrents outils informatiss et diffrentes ressources informatises susceptiblesdtre exploits. Je prsente ci-dessous des outils intressants par rapport mon sujet, janalyse leur pertinence et jexplique pourquoi je les ai retenus ou non pour les expriences de ces quatre mois destage.

    3.3.1) Premire ressource informatise : un dictionnaire, le TLFi

    Le TLFi contient de la matire pour gnrer des donnes et prsente une structure favorable audveloppement doutils dexploitation. Il constitue donc un support fondamental sur le plan pratique,que jai exploit dans mes expriences.

    Tout dabord, il peut tre considr comme un rservoir de traits smantiques, autrement dit, dansce projet, le smme de tout mot est assimil lensemble des mots smantiquement pleins de sadfinition (noms, verbes, adjectifs, adverbes). Cette hypothse repose sur les arguments suivants. Unmot peut tre considr comme un ensemble de traits smantiques. Les termes smantiquement pleinsde sa dfinition servent faire merger le sens de ce mot, on peut donc lgitimement supposer quilsappartiennent son smme. Par ailleurs, la dfinition doit permettre dapprhender le sens dun motinconnu quel que soit son contexte dapparition. Le smme est donc inclus dans les units de sensvhicules par les termes dfinitoires. Certes, le jeu sur le double niveau, lexical et infra-lexical, posele problme des imbrications multiples : un terme de la dfinition peut tre vu comme trait smantiquemais galement comme mot, auquel cas il est lui-mme compos dun ensemble de traits smantiquesqui, eux-mmes pris comme mots, sont constitus de traits smantiques, etc. Nous partirons delhypothse que les termes de la dfinition forment le smme en premire approximation.

    Par ailleurs, le TLFi est un outil riche, relativement fiable et structur. La richesse apparat travers

    la grande diversit lexicale (100000 mots, 270000 dfinitions) et lobjectif fix dexhaustivit sur lesmots du XIXe et XXe sicle. Soulignons des lacunes sur le vocabulaire de la fin du XXe sicle. Sur ce point, des modifications sont actuellement en cours avec la ralisation du supplment du TLF mais ne

  • 8/10/2019 Analyse & modlisation smantique.pdf

    18/122

    18

    sont pas encore intgres. A la diversit lexicale sajoute une richesse du contenu des entres. Celles-ci comportent la dfinition mme, mais galement dautres rubriques : exemples, titres, dates etauteurs dexemples, constructions, syntagmes, domaines techniques, synonymes et antonymes, sources.Dans les expriences menes, seules les dfinitions ont servi constituer le smme affect un mot,mais lexistence des autres rubriques ouvre des perspectives denrichissement de ce smme.

    Dautre part, concernant la fiabilit et la structuration, le TLFi a t rdig par des lexicographes pendant trente ans. Il est donc le fruit du travail approfondi de personnes qualifies. La question de lacomptence des rdacteurs nest pas problmatique comme dans le cas des wiki (site web enrichi etmodifi par des utilisateurs).

    Enfin, les informations du TLFi peuvent tre facilement rcupres et exploites. En effet, uneversion simplifie du TLFi, appele SEMEME, est issue de lexploitation du codage XML du TLFiainsi que de ltiquetage grammatical des mots apparaissant dans les dfinitions. Lencodage XML deSEMEME permet daccder aisment au contenu comme la structure. Cette ressource comportenotamment lensemble des mots smantiquement pleins (noms, verbes, adjectifs, adverbes) composantune dfinition. Soulignons nanmoins que toutes les fonctionnalits ne sont pas contenues dans cetteversion XML. En particulier, la fonctionnalit de mots apparents nest pas conserve. Cettefonctionnalit permet de retrouver les mots susceptibles de correspondre une entre non identifie,

    par exemple le singulier dun pluriel (le mot apparent dsastres est dsastre ), le remplaant potentiel dun mot mal orthographi ( hagard , agar ou agare pour lentre agard ).

    3.3.2) Bases textuelles

    Les bases textuelles sont des supports essentiels car ce sont elles qui fournissent la matire pourconstituer et procurent des cotextes dun mot donn. Les bases textuelles prsentes ci-dessous sontdiverses, aussi bien en contenu quen structure informatique. Nous aborderons dabord Frantext, basede textes littraires, puis la base journalistique de lEst Rpublicain, ensuite Wikisource, base de texteslibres de droit disponible en ligne et enfin un outil capable de gnrer des corpus partir du web :Pompadoc.

    3.3.2.1) Frantext, une base de textes littraires

    Linterface web de Frantext (voir 2.3 ) permet de slectionner des textes en fonction de ses besoinset ainsi de constituer des corpus. Les textes sont accessibles par auteur, titre genre et dates. Unerecherche peut tre effectue dans les textes par mots, mais aussi par critres plus sophistiqus :lemmes, expressions, liste de mots, entits catgorises, squence de mots, mots spars par un certainintervalle, Cette recherche complexe permet la constitution relativement fine de corpus, du moins sicelle-ci slabore autour dun ou plusieurs mots ou expressions.

    Frantext prsente donc une indniable richesse et un mode de gnration de corpus intressant. Soncontenu est littraire, ce qui garantit une certaine qualit de construction des textes. La probabilitdavoir dans les crits des relations smantiques penses et non fruits dune maladresse est plus grande

    quen langue parle ou des textes rcuprs sur des blogs. En revanche, Frantext prsente desinconvnients assez srieux. La mise en forme des textes de Frantext respecte la disposition doriginedes textes dans les ouvrages. Ainsi, les textes saisis sont baliss en fins de ligne : celles-ci sont lesmmes que celles des ouvrages dorigine. Au contraire, phrases et paragraphes ne sont pas baliss. Or,

    par rapport mon axe dapproche, la structuration du texte en units smantiques et non lexicales estfondamentale. Autre problme, en partie li au prcdent : une recherche centre sur un mot permet devisualiser un cotexte de ce mot qui nest pas ncessairement de taille approprie. Ce cotexte a en effetune taille indpendante de la structuration en paragraphe ou autre unit smantique laquelle ilappartient. De plus, sur le plan pratique, la rcupration du cotexte nest pas automatique maismanuelle (copie du cotexte apparaissant lcran dans un nouveau document texte). Ajoutons enfinque les genres de Frantext ne sont pas clairement dfinis, problme actuellement en cours detraitement au sein de lATILF. Cette faiblesse influe sur lhomognit et la qualit du corpus

    constitu.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    19/122

    19

    Frantext a dans un premier temps t le candidat principal la constitution de corpus pour mesexpriences, mais les raisons techniques mentionnes ci-dessus lont relgu au second plan.

    3.3.2.2) LEst Rpublicain, corpus de textes journalistiques

    LATILF dispose dun corpus journalistique constitu darticles de lEst Rpublicain. Ce corpuscomporte lensemble des articles parus en 1999, 2002 et 2003. Il est disponible au format TEI (la TEI,Text Encoding Initiative, est une norme de balisage, de notation et dchange de corpus). La structureinterne comporte notamment un balisage en articles dcomposs en une accroche, un titre et le corpsde larticle ainsi quun balisage en paragraphes, non systmatique mais assez frquent.

    Un des avantages de ce corpus est quil est ancr dans lactualit et correspond une pratiquesociale bien dtermine savoir celle du discours journalistique. De plus, son contenu est trs diffrentdes textes littraires de Frantext. Il permet donc une approche complmentaire particulirement utile.En effet, des rsultats concluants dun modle mathmatique sur un corpus de textes ne garantissent

    pas luniversalit de ce modle. La comparaison des rsultats obtenus dans des corpus de naturediffrente permet de faire merger des failles du modle ou dentriner sa robustesse.

    Signalons quelques points critiques. Les articles disponibles lATILF ne sont pas les versionsdfinitives et comportent parfois des commentaires des rdacteurs certains emplacements. De plus,les informations ne sont pas toujours dans la bonne catgorie. Par ailleurs, il est actuellementimpossible deffectuer une slection darticles par mot-cl.

    Malgr lapproche intressante de la langue quil offre, lEst Rpublicain na pas servi de supportdans la phase exprimentale. Outre les questions techniques mentionnes ci-dessus, il prsente unautre inconvnient, li au choix du TLFi comme ressource de rfrence. En effet, le vocabulaire delEst Rpublicain est celui des annes 2000. Or le TLFi nintgre pas le vocabulaire rcent et sarrtevers les annes 90. Lintroduction au Supplment du TLFi doit remdier ce problme mais nest pasencore effective. Il paraissait donc plus judicieux de diffrer lexploitation de lEst Rpublicain lamise en place du Supplment.

    3.3.2.3) Wikisource, des contes parmi un vaste panel de textesWikisource ( http://fr.wikisource.org/wiki/Accueil ) est une bibliothque libre en ligne. Elle est

    constitue denviron 10000 textes de 1700 auteurs. Ces textes sont sous licence libre ou passs dans ledomaine public et se rpartissent en diffrentes catgories : littrature, sciences humaines, exactes etsciences de la nature, religion, arts. Les textes sont accessibles par genre, poque, auteurs, livres,courants, thmes ou encore mots-cls.

    Les textes mis disposition par Wikisource prsentent plusieurs intrts : ils offrent de la varit,sont libres de droits et dj mis en forme.

    Ils prsentent toutefois quelques inconvnients. Ainsi, les outils de slection des textes sont moinsdvelopps que ceux de Frantext. En outre, les textes sont rcuprables par des moyens manuels(copier-coller) mais ne sont pas disponibles en XML. Cette situation est grable pour un corpus detextes de taille limite, mais est plus problmatique pour de grands corpus. Enfin, Wikisource est un

    wiki, donc modifiable par tout utilisateur, cest--dire trs volutive. On peut certes supposer que sastabilit est plus importante que celle des pages web accessibles par les moteurs de recherche.Cependant, lvolution des textes (ajout, suppression, modification de la mise en forme comme parexemple le dcoupage en paragraphes) nest pas contrlable. La reproductibilit dune exprience peutdonc de ce fait tre mise mal.

    En raison de ses atouts forts et malgr les bmols signals, jai opt pour des textes, plus prcisment des contes de Wikisource dans mes applications. En effet, les contes mont paru un genre particulirement favorable lanalyse ( Les contes4.2).

    3.3.2.4) Corpus constitupartir du web par le biais de loutil Pompadoc

    La Pompadoc, dveloppe au sein de lATILF, prototype par Jrmie Ceintrey et Yorick Petey et

    maintenue par Sandrine Ollinger, est un outil daspiration et de stockage de pages web partir demoteurs de recherche (actuellement Yahoo et Google).

  • 8/10/2019 Analyse & modlisation smantique.pdf

    20/122

    20

    Elle slectionne les pages web partir de mots-cls, aprs diverses spcifications : langue des sites,nombre de pages aspirer, taille minimale ou maximale en mots des pages, liminations des pages endouble et ventuellement nom du domaine au sein duquel effectuer la recherche. Sur Google, il estgalement possible de prciser lemplacement o le mot doit tre localis : adresse URL, titre ou texte.Une fois les pages slectionnes, elles sont rcupres au format HTML et converties au formatXHTML. Lopration suivante vise conserver et structurer les informations ad hoc, puis rcuprerces informations sous format XML/TEI. Elle sappuie sur lutilisation de feuilles de style. Par exemple,

    pour des sites de presse rgionale et nationale, larticle principal, le titre et lauteur sont rcuprs etles commentaires dutilisateur, les images ou encore la publicit limins.

    Un tel outil apparat comme extrmement prcieux dans une optique de constitution de corpus.Son champ dinvestigation est vaste, il peut collecter des pages web issues de la presse aussi bien quede blogs ou de sites officiels.

    Toutefois, une critique essentielle peut tre formule lencontre de Pompadoc. Elle concerne lafluctuation des informations disponibles sur la Toile : le web est en volution permanente et les pagesaspires aussi bien que leur contenu peuvent changer dun jour lautre. Ceci soulve le problme dela reproductibilit des expriences, critre fondamental en sciences.

    3.3.3) Deux outil s rcemment dvelopps pour la smantique textuelle :regroupements morphologiques et Smy

    3.3.3.1) Regroupements morphologiques

    Franois Rastier propose danalyser le sens suivant trois paliers : microsmantique (mot),msosmantique (du syntagme la priode, unit regroupant plusieurs syntagmes et infrieure au texte)et macrosmantique (texte).

    [Ramdani, 2007] sattache regrouper les traits smantiques partir danalyses microsmantiques.Elle constitue des familles de traits smantiques partir de leur structure morphologique interne. Elledtermine des critres thoriques de regroupements et met en place un outil informatique les ralisant.

    Les regroupements se fondent sur diffrentes mthodes. La mthode fondamentale repose surlanalogie graphique de mots, cest--dire sur des rapprochements partir de la similarit de lasquence de lettres composant le mot. Ainsi, banane et bananier prsentent une analogie graphique, demme que retranscrire et transcription ou angle et anglais. Pour viter des regroupementsmalencontreux, comme le dernier exemple mentionn, elle recourt au TLFi. Son hypothse est lasuivante : un mot graphiquement proche dun autre mot et ayant un lien smantique avec celui-ci auratendance apparatre dans sa dfinition. Elle ajoute dautres mthodes celle-ci, afin daugmenter lerappel (rapport du nombre dlments pertinents slectionns sur le nombre total dlments

    pertinents) : elle utilise le lexique morphologique Verbaction qui un verbe associe les noms dactioncorrespondants et exploite les rsultats de lanalyseur morphologique DriF qui travaille sur lessuffixes (-tion, -able par exemple), prfixes (re-, in-,) et effectue des conversions adjectif verbe.

    Les regroupements morphologiques effectus permettent de passer dun peu plus de 40000 smes

    plus de 7000 familles et prs de 22000 smes non regroups. Voici un exemple de famille obtenue :Famille du sme /bicyclette/ : cyclisme ,NOM cyclotourisme ,NOM bicyclette ,NOMcyclotourisme ,NOM cyclable ,ADJcycliste ,ADJbicycliste ,NOMbicycle ,NOMcycliste ,NOM

    Ces regroupements prsentent un intrt majeur : ils rduisent le nombre dlments distincts, cequi permet de lutter contre une forme de dispersion et vite dobtenir des matrices encore plus creusesque celles obtenues lors des expriences menes au cours de ce stage.

    Cependant, les regroupements ne sont pas tous satisfaisants et doivent tre manipuls avec prcaution. En effet, si la plupart des regroupements paraissent appropris, dautres sont trop larges ounon pertinents, gnrant des familles dont le cur smantique est parfois difficile dgager. Citons

    par exemple la famille de /forme/ qui comporte 182 items, parmi lesquels informatique, effort,rforme, formule ou encore formaliste. Dautres regroupements, plus petits et moins htrognes, nen

  • 8/10/2019 Analyse & modlisation smantique.pdf

    21/122

    21

    sont pas moins problmatiques. Lhomonymie 3 et la polysmie en sont lorigine, comme dans le casde /chanter/ , dont le regroupement comportera aussi bien chantage que chanteur , ou action regroupant actionnaire et activisme. Ces problmes ont t reprs, leur cause analyse et unedescription thorique de regroupements plus fins existe, du moins partiellement, mais elle na pas tmise en uvre informatiquement.

    Mon quipe de travail, tout en ayant conscience des limites, sest accorde pour conserver lesregroupements la fois pour les avantages quils prsentaient et pour des raisons techniques despacemmoire insuffisant. Lutilisation des regroupements actuels est une solution temporaire qui exige, terme, un travail daffinage.

    3.3.3.2) Smy

    Smy est une plateforme dannotation en traits smantiques. Il sagit dun programme informatiquecrit en Python ralis par [Grzesitchak, 2007] dans le cadre de la smantique textuelle. Il associe des units de textes (mots, phrases, paragraphes) les traits smantiques correspondants et leur nombredoccurrences.

    Voici une brve description de son mode de fonctionnement. Le point de dpart est un textedcoup en units (paragraphe, phrase, fentre de mots, ). On souhaite connatre les traitssmantiques prsents dans le texte et leur distribution, cest--dire leur nombre doccurrences par unitde dcoupage. Smy prend en entre un fichier texte o est crit le texte de rfrence. Ce fichiercomporte une unit (paragraphe, ) par ligne. Pour chaque ligne du texte, Smy dtermine lacatgorie grammaticale et la forme lemmatise 4 des mots de cette ligne grce TreeTagger, systmeautomatique dtiquetage grammatical et de lemmatisation. Il trie ensuite les lemmes : seuls sontconservs les noms, verbes, adjectifs et adverbes : les autres catgories sont cartes pour le moment.Les lemmes sont ensuite recherchs dans SEMEME, la version simplifie du TLFi. Certains, nonidentifis, soit cause dun mauvais tiquetage de TreeTagger, soit parce quils sont absents deSEMEME, sont considrs comme invalides et limins. A chaque lemme restant sont affects lesmots smantiquement pleins de la ou des dfinition(s) de SEMEME correspondante(s), considrscomme les traits smantiques. Smy se base en effet sur lhypothse que les traits smantiquement

    pleins de la dfinition constituent le smme de lentre du dictionnaire choisie. Il peut regrouperensuite les traits smantiques en familles morphologiques ( voir paragraphe prcdent ), puis tablit ladistribution des traits smantiques.

    Schma illustrant le fonctionnement de Smy :

    3 Relation entre plusieurs formes linguistiques ayant le mme signifiant graphique et/ ou phonique et dessignifis totalement diffrents. Ex : avocat (magistrat et fruit) ; mre et mer.4 La lemmatisation dune forme est la mise sous forme conventionnelle de celle-ci, son lemme, et correspond son entre dans un lexique (par exemple, la forme lemmatise dun verbe conjugu sera son infinitif ; le lemme

    dun adjectif au fminin pluriel, comme sucres, sera le masculin singulier, sucr ).

  • 8/10/2019 Analyse & modlisation smantique.pdf

    22/122

    22

    unit (paragraphe, mot, phrase, ) n0unit (paragraphe, mot, phrase, ) n1

    unit (paragraphe, mot, phrase, ) nk

    unit (paragraphe, mot, phrase, ) np

    Dieu La voix spulcrale

    NOM NOMDET ADJ

    Des Djinns ... - Quel bruit ils font

    NOM VER DET PRO PRO NOM

    dieu la voix spulcral

    du Djinns quel bruit il faire

    Etiquetage (TreeTagger) :

    Catgorie grammaticaleForme lemmatise

    Catgorie grammaticale

    Forme lemmatise

    Mots invalides ou hors tude Mots valides

    dieu voix spulcralbruit faire

    ladu Djinns quel il

    spulcral

    TLFi : recherche des traits smantiques

    { /spulcre/ /lampe/ /lanterne/ /allumer/ /tombeau/ /mort/ /voquer//lugubre/ /triste/ /sinistre/ /aspect/ /spectral/ /fantomatique/}

    Distributions/spulcre/ {0:1}/allumer/ {0:1 ; 4:2 ; 5:1}/marche/ {3:1}

    prsence une fois dans lunit 0 prsence une fois dans lunit 0, 2 fois dans la 4, 1 fois dans la 5 prsence une fois dans lunit 3

    unit (paragraphe, mot, phrase, ) n0unit (paragraphe, mot, phrase, ) n1

    unit (paragraphe, mot, phrase, ) nk

    unit (paragraphe, mot, phrase, ) np

    Dieu La voix spulcrale

    NOM NOMDET ADJ

    Des Djinns ... - Quel bruit ils font

    NOM VER DET PRO PRO NOM

    dieu la voix s pulcral

    du Djinns quel bruit il faire

    Etiquetage (TreeTagger) :

    Catgorie grammaticaleForme lemmatise

    Catgorie grammaticale

    Forme lemmatise

    Mots invalides ou hors tude Mots valides

    dieu voix spulcralbruit faire

    ladu Djinns quel il

    spulcral

    TLFi : recherche des traits smantiques

    { /spulcre/ /lampe/ /lanterne/ /allumer/ /tombeau/ /mort/ /voquer//lugubre/ /triste/ /sinistre/ /aspect/ /spectral/ /fantomatique/}

    Distributions/spulcre/ {0:1}/allumer/ {0:1 ; 4:2 ; 5:1}/marche/ {3:1}

    prsence une fois dans lunit 0 prsence une fois dans lunit 0, 2 fois dans la 4, 1 fois dans la 5 prsence une fois dans lunit 3

    5

    En sortie, Smy retourne plusieurs fichiers : des fichiers annexes sur ltiquetage de TreeTagger etles termes limins (la liste des mots hors tude, des mots invalides, des mots tiquetsgrammaticalement et lemmatiss ou encore des mots conservs) et des fichiers centraux, avec en

    particulier un fichier aux formats csv et html qui indique les familles de traits smantiques apparusdans le texte, un indice qui leur est affect arbitrairement et la distribution de la famille de traits parunit.

    5 Schma fictif dont la vocation est purement pdagogique.

    indice

    famille de traits smantiques

    distribution

  • 8/10/2019 Analyse & modlisation smantique.pdf

    23/122

    23

    Smy possde un certain nombre doptions et dextensions qui nont pas t exploites maismritent dtre mentionnes. Une premire option consiste choisir entre un dcompte simple(prsence / absence : 1 ou 0) ou multiple des occurrences par dfinition. Ainsi, si le trait /allumer/ apparat deux fois dans la dfinition de lampe et une fois dans la dfinition d teindre, le nombredoccurrences sera de deux en dcompte simple (1+1) et de trois (2 +1) en dcompte multiple danslunit Dj steint ma lampe. Autre option propose par Smy : effectuer ou non les regroupementsmorphologiques de [Ramdani, 2007]. Le programme a toujours t utilis en mode regroupement dansles expriences menes pour les raisons invoques au paragraphe prcdent. Par ailleurs, Smy peut

    prendre en compte un double dcoupage, par exemple dcoupage dun corpus en textes eux-mmesdcoups en paragraphes. Pour signaler le double dcoupage, il faut constituer autant de fichiers .txtquil y a de textes et organiser les fichiers .txt comme dcrit prcdemment, avec un paragraphe parligne. Smy retourne alors un fichier comportant la distribution des traits smantiques par textes etinterne chaque texte. Supposons que le fichier de sortie indique une distribution de la forme{0 :{0 :1 ; 2 :1} ; 1 :{0 :3} ; 2 :{1 :4}} pour le trait smantique /cornaline/ : cette notation signifieque le trait est prsent deux fois dans le texte n 0 (une fois au paragraphe 0 et une fois au paragraphen2), trois fois dans le texte n 1 (dans le paragraphe 0), quatre fois dans le texte n 2 (au paragraphe

    n1). Cette fonctionnalit na pas t exploite mais est riche de perspectives si on se place dans uneoptique de dcoupages imbriqus. Par ailleurs, Smy ne se contente pas de dterminer desdistributions, il tablit galement certains calculs statistiques, savoir moyenne et cart-type calculs

    partir des distributions.Signalons enfin une caractristique actuelle de Smy : pour linstant, le smme affect partir du

    TLFi est non rflexif, autrement dit le mot qui sert dentre nest pas intgr son propre smme.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    24/122

    24

    IV) Modle optimal

    4 .1) Dmarche globale

    Notre objectif est dans un premier temps de parvenir une image mathmatique globale, obtenue partir dun corpus de textes. Cette image doit reflter les affinits entre traits smantiques. Il sagitdans un deuxime temps dextraire de cette reprsentation mathmatique globale une image locale,cest--dire centre sur un mot de rfrence et le cotexte proche de celui-ci. Nous qualifierons cettedmarche de modlisation et prions le lecteur de ne pas voir derrire le terme de modle des

    prtentions plus ambitieuses.

    mot mot

    dcoupagedu corpus

    affectation

    des traitssmantiques

    M s m e s

    sous-units

    M s m e s

    sous-units

    M s m e ssous-units

    M s m e ssous-units

    transformationsmathmatiques(tf-idf, LSA,)

    mot

    s1

    s2

    s3

    s1

    s2

    s3Espace de smes

    slection dessmes s1

    s2

    s3

    s1

    s2

    s3

    CCC

    mot en contexte

    affectationdes traits

    smantiques

    {smes du contexte} CCslection des

    smes s1

    s2

    s3

    s1

    s2

    s3

    matrice

    doccurrences

    cooccurrencessignificatives

    s m e s

    C

    smes

    s m e s

    C

    smes

    affectationdes traits

    smantiques

    Ltape pralable est la slection dunits textuelles appropries ( partie 4.2 )). Elle correspond auchoix dun corpus de textes, du mot dont on souhaite tudier les variations smantiques et du cotextedapparition de ce mot. Le choix du corpus, du mot de rfrence et du cotexte est conditionn par lesexpriences que lon souhaite effectuer.

    mot mot contextecorpus

    elle rcoltait le pollen desfleurs et s'en nourrissait, etelle buvait la rose qui taittous les matins sur lesfeuilles

    pollen

    mot mot mot contextecorpus

    elle rcoltait le pollen desfleurs et s'en nourrissait, etelle buvait la rose qui taittous les matins sur lesfeuilles

    pollen

    Les units textuelles sont ensuite mises un format standard ( partie 4.3 ) : le corpus doit trestructur, cest--dire dcoup en sous-units. Chaque unit et sous-unit textuelle est ensuitetranspose du plan lexical au plan infra-lexical : son smme lui est affect.

  • 8/10/2019 Analyse & modlisation smantique.pdf

    25/122

    25

    sous-unit 1

    sous-unit 2

    sous-unit 3

    corpus

    dcoupage ensous-units

    1

    2

    3

    sous-unit 1

    sous-unit 2

    sous-unit 3

    cor puscor pus

    dcoupage ensous-units

    1

    2

    3

    chapeau

    miel grain

    sous-unit 1

    sous-unit 2

    sous-unit 3

    /coiffure/ /matire//forme/ /homme/

    /femme/ /bord/ /casque/

    /matire/ /ruche/ /fleur//abeille/ /nourriture/

    /fruit/ /vgtal//semence/ /comestible/

    /petit/ /contenir/

    smme/coiffure/ /matire//forme/ /homme/

    /femme/ /bord/ /casque/

    /coiffure/ /matire//forme/ /homme/

    /femme/ /bord/ /casque/

    /matire/ /ruche/ /fleur//abeille/ /nourriture/

    /matire/ /ruche/ /fleur//abeille/ /nourriture/

    /fruit/ /vgtal//semence/ /comestible/

    /petit/ /contenir/

    /fruit/ /vgtal//semence/ /comestible/

    /petit/ /contenir/

    smme

    affectation des smmes

    traits smantiques de la sous-unit

    Au stade suivant ( partie 4.4 ), limage du corpus obtenue par passage du niveau lexical au