Upload
guest3be047
View
2.052
Download
5
Embed Size (px)
Citation preview
1
Vers une nouvelle approche de la correction grammaticale automatique
Agnès SouqueDoctorante, Laboratoire Lidilem,Université Stendhal – Grenoble 3
Doctorante – conseil auprès de Linagora
2
Qui suis-je...
Une "Taliste"– TAL : Traitement Automatique des Langues– Traitement informatique des données
langagières– Intégration de modèles linguistiques dans des
applications informatiques
– => correction orthographique, grammaticale
3
● Existant● Amélioration du correcteur LanguageTool● Les limites● Reconsidération du problème
Sommaire
4
ExistantPrécédents travaux
● Correction grammaticale ≠ orthographique
● Pas de correcteur grammatical générique libre pour le français
● Projet de correcteur grammatical français libre pour OpenOffice.org – Travaux de M. Lechelt sur An Gramadóir
5
TAGGING
Désambi-guïsation
Étiquetagemorpho-
syntaxiquetexte étiqueté
ExistantStructure des correcteurs grammaticaux
➔ Segmentation du texte en phrases, puis en tokens (mots + ponctuations)
➔ Étiquetage des mots avec les informations sur leurs catégories et sous-catégories.
➔ Réduction du nombre d'étiquettes (tags) par mot.
➔ Segmentation à un niveau intermédiaire entre la phrase et le mot.
➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle.
CHUNKING
texte étiquetédésambiguïsé
DÉTECTIONDES FAUTES
règles d'erreurs
ou de grammaire
Texte corrigé
Phrasessegmentéesen chunks
TOKENISATION
Texte àvérifier
phrases ettokens
6
TAGGING
Désambi-guïsation
Étiquetagemorpho-
syntaxique
ExistantCorrecteur grammatical libre LanguageTool
CHUNKING
texte étiquetédésambiguïsé
DÉTECTIONDES FAUTES
règles d'erreurs
ou de grammaire
Texte corrigé
Phrasessegmentéesen chunks
TOKENISATION
Texte àvérifier
phrases ettokens
● Créé par Daniel Naber pour l'anglais● Extension d'OpenOffice.org● Structure :
– Pas de désambiguïsation, ni de chunking– Règles d'erreurs en XML
<rule name="ma (m'a)" id="MA"><pattern>
<token>ma</token><token postag_regexp="yes" postag="V.*"/>
</pattern><message>Vouliez-vous écrire m'a ?</message><example type="correct">Il m'a répondu</example><example type="incorrect">Il ma répondu</example>
</rule>
Désambi-guïsation
CHUNKINGPhrases
segmentéesen chunks
texte étiquetédésambiguïsé
texte étiqueté
7
TAGGING
Désambi-guïsation
Étiquetagemorpho-
syntaxique
Améliorations de LanguageTool
CHUNKING
DÉTECTIONDES FAUTES
règles d'erreurs
ou de grammaire
Texte corrigé
Phrasessegmentéesen chunks
TOKENISATION
Texte àvérifier
phrases ettokens
● Ajout de la désambiguïsation :– Règle : "sa + verbe = faux"
Sa porte est fermée => faux car porte est ambigu (nom, mais aussi verbe)
● Ajout de la segmentation en chunks :– Délimitation de groupes de mots
* [Les enfants] [en situation] [de blocage] [vont utilisé] [le code restreint]
● Ajout de l'unification :– détermine si bons accords dans les chunks
ou pas
Désambi-guïsation
CHUNKINGPhrases
segmentéesen chunks
texte étiqueté
texte étiquetédésambiguïsétexte étiquetédésambiguïsé
8
Améliorations de LanguageTool
● Nouvelles règles de corrections :– Règles créées pour Gramadóir réécrites en XML :
● généralisations, regroupements => 450 règles sur les groupes nominaux au départ, réduites à 4
– Création de règles à partir de l'analyse d'un corpus de fautes (corpus COVAREC – Lidilem Grenoble 3)
● Erreurs détectées par LanguageTool :– Confusion d'homophones : ça/sa, a/à, son/sont, etc.– Accords au sein des groupes nominaux:*des formule– Erreurs au sein des groupes verbaux : * j'ai trouver– Accords sujet-verbe : * on devrez
9
Les limites
Pattern-matching rigide :– Prévoir toutes les contextes de fautes possibles
● Travail très coûteux,● à refaire pour chaque langue● Explosion combinatoire des
règles dans les groupes nominaux
– Silence/bruit (orthographe, étiquetage, etc.)– Limitation au contexte immédiat
10
Reconsidération du problèmeNouvelle approche de la correction grammaticale
● Sortir de l'approche en couches "top-down":1)Segmentation2)Étiquetage3)Correction
● Sortir du cercle vicieux de cette approche :➢ Pas d'erreur > bon étiquetage > bonne détection
● Sortir de l'approche énumérative et déclarative des fautes
11
Reconsidération du problèmeNouvelle approche de la correction grammaticale
Nouvelle approche "left-right"
– Analyse morpho-syntaxique et correction grammaticale au fur et à mesure de la lecture
* Les premiers linguistes on donc d'abord écouté[
GN----------------------][ erreur
=> problème d'attendu à droite du groupe nominal
– Détection d'incohérences, déclaration de ce qui est attendu, au lieu des fautes
12
Reconsidération du problèmeNouvelle approche de la correction grammaticale
● Reconsidération complète du formalisme et du traitement
● Conception d'un analyseur morpho-syntaxique robuste
● Constitution d'un corpus d'erreurs– Définition d'une typologie des erreurs– Validation de l'analyseur
● Formalisme de description générique