13
1 Vers une nouvelle approche de la correction grammaticale automatique Agnès Souque Doctorante, Laboratoire Lidilem, Université Stendhal – Grenoble 3 Doctorante – conseil auprès de Linagora

Vers une nouvelle approche de la correction grammaticale automatique

Embed Size (px)

Citation preview

Page 1: Vers une nouvelle approche de la correction grammaticale automatique

1

Vers une nouvelle approche de la correction grammaticale automatique

Agnès SouqueDoctorante, Laboratoire Lidilem,Université Stendhal – Grenoble 3

Doctorante – conseil auprès de Linagora

Page 2: Vers une nouvelle approche de la correction grammaticale automatique

2

Qui suis-je...

Une "Taliste"– TAL : Traitement Automatique des Langues– Traitement informatique des données

langagières– Intégration de modèles linguistiques dans des

applications informatiques

– => correction orthographique, grammaticale

Page 3: Vers une nouvelle approche de la correction grammaticale automatique

3

● Existant● Amélioration du correcteur LanguageTool● Les limites● Reconsidération du problème

Sommaire

Page 4: Vers une nouvelle approche de la correction grammaticale automatique

4

ExistantPrécédents travaux

● Correction grammaticale ≠ orthographique

● Pas de correcteur grammatical générique libre pour le français

● Projet de correcteur grammatical français libre pour OpenOffice.org – Travaux de M. Lechelt sur An Gramadóir

Page 5: Vers une nouvelle approche de la correction grammaticale automatique

5

TAGGING

Désambi-guïsation

Étiquetagemorpho-

syntaxiquetexte étiqueté

ExistantStructure des correcteurs grammaticaux

➔ Segmentation du texte en phrases, puis en tokens (mots + ponctuations)

➔ Étiquetage des mots avec les informations sur leurs catégories et sous-catégories.

➔ Réduction du nombre d'étiquettes (tags) par mot.

➔ Segmentation à un niveau intermédiaire entre la phrase et le mot.

➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle.

CHUNKING

texte étiquetédésambiguïsé

DÉTECTIONDES FAUTES

règles d'erreurs

ou de grammaire

Texte corrigé

Phrasessegmentéesen chunks

TOKENISATION

Texte àvérifier

phrases ettokens

Page 6: Vers une nouvelle approche de la correction grammaticale automatique

6

TAGGING

Désambi-guïsation

Étiquetagemorpho-

syntaxique

ExistantCorrecteur grammatical libre LanguageTool

CHUNKING

texte étiquetédésambiguïsé

DÉTECTIONDES FAUTES

règles d'erreurs

ou de grammaire

Texte corrigé

Phrasessegmentéesen chunks

TOKENISATION

Texte àvérifier

phrases ettokens

● Créé par Daniel Naber pour l'anglais● Extension d'OpenOffice.org● Structure :

– Pas de désambiguïsation, ni de chunking– Règles d'erreurs en XML

<rule name="ma (m'a)" id="MA"><pattern>

<token>ma</token><token postag_regexp="yes" postag="V.*"/>

</pattern><message>Vouliez-vous écrire m'a ?</message><example type="correct">Il m'a répondu</example><example type="incorrect">Il ma répondu</example>

</rule>

Désambi-guïsation

CHUNKINGPhrases

segmentéesen chunks

texte étiquetédésambiguïsé

texte étiqueté

Page 7: Vers une nouvelle approche de la correction grammaticale automatique

7

TAGGING

Désambi-guïsation

Étiquetagemorpho-

syntaxique

Améliorations de LanguageTool

CHUNKING

DÉTECTIONDES FAUTES

règles d'erreurs

ou de grammaire

Texte corrigé

Phrasessegmentéesen chunks

TOKENISATION

Texte àvérifier

phrases ettokens

● Ajout de la désambiguïsation :– Règle : "sa + verbe = faux"

Sa porte est fermée => faux car porte est ambigu (nom, mais aussi verbe)

● Ajout de la segmentation en chunks :– Délimitation de groupes de mots

* [Les enfants] [en situation] [de blocage] [vont utilisé] [le code restreint]

● Ajout de l'unification :– détermine si bons accords dans les chunks

ou pas

Désambi-guïsation

CHUNKINGPhrases

segmentéesen chunks

texte étiqueté

texte étiquetédésambiguïsétexte étiquetédésambiguïsé

Page 8: Vers une nouvelle approche de la correction grammaticale automatique

8

Améliorations de LanguageTool

● Nouvelles règles de corrections :– Règles créées pour Gramadóir réécrites en XML :

● généralisations, regroupements => 450 règles sur les groupes nominaux au départ, réduites à 4

– Création de règles à partir de l'analyse d'un corpus de fautes (corpus COVAREC – Lidilem Grenoble 3)

● Erreurs détectées par LanguageTool :– Confusion d'homophones : ça/sa, a/à, son/sont, etc.– Accords au sein des groupes nominaux:*des formule– Erreurs au sein des groupes verbaux : * j'ai trouver– Accords sujet-verbe : * on devrez

Page 9: Vers une nouvelle approche de la correction grammaticale automatique

9

Les limites

Pattern-matching rigide :– Prévoir toutes les contextes de fautes possibles

● Travail très coûteux,● à refaire pour chaque langue● Explosion combinatoire des

règles dans les groupes nominaux

– Silence/bruit (orthographe, étiquetage, etc.)– Limitation au contexte immédiat

Page 10: Vers une nouvelle approche de la correction grammaticale automatique

10

Reconsidération du problèmeNouvelle approche de la correction grammaticale

● Sortir de l'approche en couches "top-down":1)Segmentation2)Étiquetage3)Correction

● Sortir du cercle vicieux de cette approche :➢ Pas d'erreur > bon étiquetage > bonne détection

● Sortir de l'approche énumérative et déclarative des fautes

Page 11: Vers une nouvelle approche de la correction grammaticale automatique

11

Reconsidération du problèmeNouvelle approche de la correction grammaticale

Nouvelle approche "left-right"

– Analyse morpho-syntaxique et correction grammaticale au fur et à mesure de la lecture

* Les premiers linguistes on donc d'abord écouté[

GN----------------------][ erreur

=> problème d'attendu à droite du groupe nominal

– Détection d'incohérences, déclaration de ce qui est attendu, au lieu des fautes

Page 12: Vers une nouvelle approche de la correction grammaticale automatique

12

Reconsidération du problèmeNouvelle approche de la correction grammaticale

● Reconsidération complète du formalisme et du traitement

● Conception d'un analyseur morpho-syntaxique robuste

● Constitution d'un corpus d'erreurs– Définition d'une typologie des erreurs– Validation de l'analyseur

● Formalisme de description générique

Page 13: Vers une nouvelle approche de la correction grammaticale automatique

13

Merci de votre attention

[email protected]