Upload
marian-maire
View
102
Download
0
Embed Size (px)
Citation preview
Extraction de la terminologie dans un processus global
de fouille de textes
Mathieu RocheEquipe Inférence et Apprentissage - LRI
11 février 2005Laboratoire CLIPS - Grenoble
2
La fouille de textes
Objectifs, exemples :– Recherche des pages pertinentes sur le Web.– Traitement automatique des courriels (spams, réponses
automatisées aux courriels, etc.).– Recherche des informations précises dans des textes
techniques (médecine, biologie, etc.).– Conception de systèmes de questions/réponses.
Approches : – méthodes linguistiques – méthodes statistiques – méthodes mixtes
3
Le processus global en fouille de textes [Kodratoff et al., JDS'03 ; Roche et al., IIPWM'04]
- - - - -
- - - - -
- - - - -
Corpus brut
- - - - -
- - - - -
- - - - -
Corpus normalisé
- - - - -
- - - - -
- - - - -
Corpus étiqueté
- - - - -
- - - - -
- - - - -
TermesClassification conceptuelle
- Règles d’association
- extraction d’informations par patrons d’extraction
Normalisation Étiqueteur
Extraction des "termes"
Détection des traces de concepts
Extraction d’informations
Acquisition
4
Les corpus étudiés
Tests de psychologie - Ressources Humaines (Société PerformanSe) - 3784 Ko (en français).
Curriculum Vitæ (Groupe VediorBis) - 2470 Ko (en français).
Introductions d’articles sur la Fouille de Données (acquisition par un expert) - 369 Ko (en anglais).
Résumés d’articles sur la Biologie Moléculaire (acquisition par une base de données spécialisée) - 9424 Ko (en anglais).
=> Corpus journalistique de TREC'04 (Text REtrieval Conferences)
5
Problème spécifique étudié :les termes (1/2)
Importance de la caractérisation des termes
– Exemple : traduction automatique
Constitution européenne, article III-10 :
The right to vote and to stand as a candidate in elections...
Le droit de vote et d'éligibilité aux élections ...
6
Problème spécifique étudié : les termes (2/2)
Collocation (candidat-terme) : groupe de mots dont le sens global est déductible des unités composant le groupe [Clas 1994].
– Exemple, "maire de Paris"
Terme : collocation ayant des propriétés syntaxiques + trace linguistique de concepts pour une tâche en cours.
– Exemples, "intelligence artificielle" et "génie logiciel" sont des termes
– Exemple, "chalon sur saône" est-il un terme ?
7
Plan de l'exposé
1. Contexte
2. État de l'art
3. Système EXIT (EXtraction Itérative de la Terminologie)
4. Extraction de la terminologie : une approche d'apprentissage supervisé
8
État de l'art (1/5)
Systèmes linguistiques statistiques références
TERMINO X [David et Plante 1990]
LEXTER X [Bourigault 1993]
FASTR X [Jacquemin 1996]
INTEX X [Silberztein1994 ; Ibekwe-SanJuan 2001]
ANA X [Enguehard 1993]
MANTEX X [Frath et al. 2000]
XTRACT X X [Smadja 1993]
ACABIT X X [Daille 1994]
CLARIT X X [Evans et Zhai 1996]
TERMIGHT X X [Dagan et Church 1997]
C/NC VALUE X X [Frantzi et al. 2000]
SYNTEX X X [Bourigault et Fabre 2000]
WASPBENCH X X [Kilgarriff et Tugwel 2001]
FIPS X X [Nerima et al. 2003]
ESATEC X X [Biskri et al. 2004]
9
État de l'art (2/5)
Exemple de système linguistique : FASTR [Jacquemin 1996]
Entrée : termes de base (congé de formation) Sortie : termes variants (congé annuel de formation). 3 types de règles (linguistiques) :
Limite : nécessite de considérer une fenêtre plus grande [Ville-Ometz et al. 2004].Exemple : thymus gland thymus and adrenal gland
contexte : rat thymus and adrenal gland
coordinations association rule association and classification rules
insertions MRI image MRI brain image
permutations knowledge discovery discovery of knowledge
10
État de l'art (3/5)
Exemple de système statistique : ANA [Enguehard 1993]
Module Familiarisation qui initialise la liste de bootstrap. – Exemple : {chef, contrat, rayon, etc.}
Module Découverte qui construit de manière incrémentale une liste de termes fréquents en utilisant les mots du bootstrap.Exemple : chef de rayon Entrée : {chef, contrat, rayon, etc.}Sortie : {chef, contrat, chef de rayon, etc.}
11
État de l'art (4/5)
Exemple de système mixte : ACABIT [Daille 1994]
Extraction de collocations respectant des patrons d'extraction simples Nom-Nom, Nom-Préposition-Nom, Nom-Adjectif, etc.
Les termes variants sont détectés grâce à des règles morpho-syntaxiques (par exemple, centre de formation centre régional de formation).
Comptabilisation de tous les couples de mots en collocation notés par exemple (centre, formation).
Classement statistique des couples de mots.
12
État de l'art (5/5)
Systèmes linguistiques statistiques références
TERMINO X [David et Plante 1990]
LEXTER X [Bourigault 1993]
FASTR X [Jacquemin 1996]
INTEX X [Silberztein1994 ; Ibekwe-SanJuan 2001]
ANA X [Enguehard 1993]
MANTEX X [Frath et al. 2000]
XTRACT X X [Smadja 1993]
ACABIT X X [Daille 1994]
CLARIT X X [Evans et Zhai 1996]
TERMIGHT X X [Dagan et Church 1997]
SYNTEX X X [Bourigault et Fabre 2000]
C/NC VALUE X X [Frantzi et al. 2000]
WASPBENCH X X [Kilgarriff et Tugwel 2001]
FIPS X X [Nerima et al. 2003]
ESATEC X X [Biskri et al. 2004]
Coopératif
Itératif
EXIT X X [Roche et al. 2004]
13
Plan de l'exposé
1. Contexte
2. État de l'art
3. Système EXIT (EXtraction Itérative de la Terminologie)
4. Extraction de la terminologie : une approche d'apprentissage supervisé
14
Présentation du système EXIT (EXtraction Itérative de la Terminologie)
Système mixte (linguistique et statistique)
Système itératif
Système coopératif
Extension du TF X IDF aux termes
15
3.1. Processus itératif (1/3) [Roche, EGC'03 ; Roche et al., IIPWM'04 ; Roche et al., JADT'04]
Processus itératif pour extraire les termes nominaux, adjectivaux et adverbiaux.
- - - - -
- - - - -
- - - - -
Corpus normalisé
- - - - -
- - - - -
- - - - -
Corpus étiqueté
- - - - -
- - - - -
- - - - -
Termes
Exemple :
1ère itération : assistant de gestion
2ème itération : assistant-de-gestion de production
ETIQ [Amrani et al. 04]
Extraction
Introduction des termes avec "-"
16
3.1. Processus itératif (2/3)
Extraction des collocations typées
– Adjectif-Adjectif– Adverbe-Adverbe– Adverbe-Adjectif– Adjectif-Nom– Nom-Nom– ...
collocations de modifieurs
(adjectif et adverbe)
collocations nominales
exploitation des itérations
+ connaissances de l'expert
17
3.1. Processus itératif (3/3)
Paramètre CIP (Coefficient Itérations Précédentes)
But : utiliser les connaissances de l’expert
CIP privilégie les collocations – avec des mots inclus dans les collocations pertinentes
des itérations précédentes.– avec des mots absents des collocations non pertinentes
des itérations précédentes.
=> pourcentage de collocations pertinentes amélioré
(+2% à +16%).
18
Plan de l'exposé
1. Contexte
2. État de l'art
3. Système EXIT (EXtraction Itérative de la Terminologie)3.1. Processus itératif3.2. Mesures statistiques
3.2.1. État de l'art des mesures statistiques3.2.2. Évaluation expérimentale des mesures existantes3.2.3. Proposition de mesures hybrides
3.3. Extension du TF X IDF aux termes3.4. L'interface d'EXIT
4. Extraction de la terminologie : une approche d'apprentissage supervisé
19
3.2. Mesures statistiques[Roche et al., JFT'03 ; Roche et al., INFORSID'04]
Rang Collocations Nb
1
2
3
4
...
43
...
67
...
74
...
144
...
Rang Collocations Nb
1
2
3
4
...
50
...
63
64
...
69
...
...
mise en place 111
traitement de textes 57
assistante de direction 60
hôtesse de caisse 28
mise en place 111
traitement de textes 57
assistante de direction 60
hôtesse de caisse 28
Rapport de Vraisemblance Information Mutuelle
chalon sur saône 4chalon sur saône 4
jéjunum de rat 3 jéjunum de rat 3
beurre de karité 3 beurre de karité 3
puy en velay 3 puy en velay 3
20
3.2.1. État de l'art des mesures statistiques (1/4)
Exemples de mesures fondées sur l'Information Mutuelle
Information Mutuelle [Church et Hanks 1990]
Information Mutuelle au Cube [Daille 1994]
))(log())(log()),((log.3),( 23 ynbxnbyxnbyxI
)()(
),(log),( 2 yPxP
yxPyxIM
))(log())(log()),((log),( 2 ynbxnbyxnbyxI
21
3.2.1. État de l'art des mesures statistiques (2/4)
Mesure d’Association [Jacquemin 1997] : – isobarycentre des valeurs normalisées de l’information
mutuelle et du nombre d’occurrences.
),(min),,(max
),(min),,(max
),(
2
1),(
2
1),(
qpnbm
nbqpnbM
nb
qpImIqpI
MI
nbnb
yxnb
II
yxIyxAss
mMmM
22
3.2.1. État de l'art des mesures statistiques (3/4)
Rapport de Vraisemblance [Dunning, 1993]
y y' avec y' y
x a b
x' avec x' x c d
RV (x,y) = a.log(a) + b.log(b) + c.log(c) + d.log(d) - (a+b).log(a+b) - (a+c).log(a+c) - (b+d).log(b+d) - (c+d).log(c+d)
+ (a+b+c+d).log(a+b+c+d)
23
3.2.1. État de l'art des mesures statistiques (4/4)
Mesures Références
I Information Mutuelle [Church et Hanks 1990]
I3 Information Mutuelle au Cube [Daille 1994]
Ass Mesure d'Association [Jacquemin 1997]
Dice Coefficient de Dice [ Smadja et al. 1996]
RV Rapport de Vraisemblance [Dunning 1993]
Khi 2 Khi 2 [Manning et Scütze 1999; Curran et Moens 2002]
Ttest T-test [Manning et Scütze 1999; Curran et Moens 2002]
SeSc Sebag - Schoenauer [Sebag et Schoenauer 1988]
J J-mesure [Goodman et Smyth 1988]
Conv Conviction [Brin et al. 1997]
MC Moindre Contradiction [Azé et Kodratoff 2003]
Mul Multiplicateur de Cote [Lallich et Teytaud 2004]
TALN
Règles d'association
24
3.2.2. Évaluation expérimentale des mesures existantes (1/6)
Objectif : Choix d'une mesure pour une tâche en cours
Critères de performance :– Précision– Courbe d'élévation ("lift chart")– Rappel– Fscore– Courbes ROC
25
3.2.2. Évaluation expérimentale des mesures existantes (2/6)
Corpus de Fouille de Données (FD), des Ressources Humaines (RH) et des CVs.
Nb collocations Nb collocations
après élagage (3)
FD RH CV FD RH CV
Nom-Prep-Nom 313 4703 3634 7 1268 307
Nom-Nom 2070 98 1781 223 11 162
Adjectif-Nom 2411 1260 1291 176 478 103
Nom-Adjectif X 5768 3455 X 1628 448
Exemples :emploi solidarité
action communication
fichier client
service achat
…
26
3.2.2. Évaluation expérimentale des mesures existantes (3/6)
Les résultats présentés portent sur le corpus FD (relation Nom-Nom).
Sur ce corpus, 1074 termes sont associés à un concept par l'expert du domaine.
Protocole expérimental :– Expérimentations sur la tâche d’extraction des collocations
pertinentes pour la classification conceptuelle.– 12 mesures de qualité expérimentées.
27
3.2.2. Évaluation expérimentale des mesures existantes (4/6)
I I3 Ass Dice RV Khi 2 Ttest SeSc J Conv MC Mul
20% 59.0 75.0 70.4 68.1 88.6 70.4 70.4 65.9 84.0 59.0 77.2 61.3
40% 66.2 73.0 66.2 73.0 75.2 69.6 69.6 65.1 79.7 65.1 65.1 60.6
60% 60.1 67.6 63.9 66.1 69.9 65.4 65.4 65.4 71.4 63.9 62.4 62.1
80% 58.9 63.4 60.6 61.7 62.3 61.7 61.7 60.5 65.1 62.9 62.3 59.6
Précision (en %) sur le corpus de FD avec les collocations Nom-Nom.
28
3.2.2. Évaluation expérimentale des mesures existantes (5/6)
Courbes d'élévation avec le corpus FD.
29
3.2.2. Évaluation expérimentale des mesures existantes (6/6)
Résultats similaires avec les 3 autres corpus – CV – Ressources Humaines– Biologie
Bon comportement global des mesures suivantes :– Rapport de Vraisemblance– Information Mutuelle au Cube– J-mesure
30
3.2. Proposition de mesures hybrides (1/2) [Roche et al., INFORSID'04]
Motivations d'utiliser une nouvelle mesure. Ajout de λ à la mesure d’association :
Problème d'optimisation avec λ.=> λ* = 0
mMmM nbnb
yxnb
II
yxIyxAss
),()1(
),(),(
=> Mise en place de la mesure OccRV
- classement selon le nombre d'occurrences
- classement des collocations ayant le même
nombre d'occurrences avec RV
31
3.2. Proposition de mesures hybrides (2/2)
[Roche et al., INFORSID'04]
Courbes d'élévation avec le corpus FD.
32
Plan de l'exposé
1. Contexte
2. État de l'art
3. Système EXIT3.1. Processus itératif3.2. Mesures statistiques3.3. Extension du TF X IDF aux termes3.4. L'interface d'EXIT
4. Extraction de la terminologie : une approche d'apprentissage supervisé
33
N
i
yxnb
ji
i jyxnbyxDiffTextes
1
1),(
1
)10
),(),(
texteiledansprésenteestncollocatiouneoùfoisdenombrenb
corpusdutextesdetotalnombreNème
i :
.:
Paramètre privilégiant les collocations présentes dans des textes différents.
Paramètre DiffTextes
– Exemple : nombre de collocations : 3 nombre de textes : 1
Paramètre TF/IDF
DiffTextes = 2.7 ( 3-(3/10) )
3.3. Extension du TFXIDF pour les termes (1/2) [Roche, EGC'03 ; Roche et al., JADT'04]
34
3.3. Extension du TFXIDF pour les termes (2/2)
Expérimentation du paramètre DiffTextes sur le corpus FD.
I3 RV J OccRV
20% +1.7 +4.4 +4.3 +4.4
40% +0.5 +2.9 +1.9 -0.3
60% +1.6 -1.5 +0.1 +2.5
80% +2.6 +0.9 +4.4 +2.1
Amélioration globale de la précision
35
3.4. L'interface d'EXIT [Roche et al., JADT'04; Heitz et al., EGC'05]
36
Plan de l'exposé
1. Contexte
2. État de l'art
3. Système EXIT
4. Extraction de la terminologie : une approche d'apprentissage supervisé
37
Approche supervisée pour apprendre une mesure [Roche et al., ROCAI'04 ; Azé et al., ICCI'04]
Entrée : quelques collocations étiquetées (positives ou négatives).
Sortie : fonction de rang [Cohen et al. 1999]
Évaluation d’une fonction de rang : somme des rangs des exemples positifs.
Minimiser la somme des rangs des exemples positifs maximiser l'aire sous la courbe ROC
rangs = 25h2 : +++-+++---
AUC
rangs = 21
h1: ++++++----
AUCArea Under the Curve
38
Protocole expérimental (1/2)
Données utilisées
# collocations% collocations
pertinentes
% collocations
non pertinentes
CV, fréquents 376 85.7 14.3
CV, rares 2822 56.6 43.4
Biologie 1028 90.9 9.1
39
Protocole expérimental (2/2)
Critères statistiques
AUCcollocations fréquentes
corpus de CVs
AUCcollocation fréquentes
corpus de Biologie
OccRV - Occurrence + RV [Roche et al. 2004] 0.58 0.57
RV - Rapport de Vraisemblance [Dunning 1993] 0.43 0.42
I3 - Information Mutuelle au cube [Daille et al. 1998] 0.40 0.35
Dice - Coefficient de Dice [Smadja et al. 1996] 0.39 0.31
I - Information Mutuelle [Church and Hanks 1990] 0.31 0.30
Combinaison de mesures
40
Algorithme ROGER (ROC based GEnetic learneR) (1/2)
Approche linéaireh(Coll) = wi x mesi (Coll) avec (Coll, +/-)
Approche non linéaireh(Coll) = wi x | mesi (Coll) - ci | avec (Coll, +/-)
Hypothèses : Aire sous la courbe ROCh (rang(Coll), Etiq(Coll))classer les exemples par rangs croissants
++++-+---++-----+++-----------
+ : collocation pertinente- : collocation non pertinente
rang
41
Algorithme ROGER (2/2)
Protocole expérimental
– 90% Apprentissage, 10% Test, 10 validations croisées
– 21 exécutions indépendantes
– Soit h1,...,hT les meilleurs hypothèses retenues à partir de T (T=21) exécutions indépendantes de ROGER.
)..1),(()( TtxhMédianexBh t
42
Algorithme ROGER (2/2)
Validation expérimentale sur les ensembles tests
Bagged-Roger Bagged-SVM
OccRV Linéaire Non linéaire Linéaire Gaussien Quadratique
Biologie, fréquents 0.57 0.61 0.04 0.67 0.05 0.51 0.13 0.54 0.12 0.32 0.07
CV, fréquents 0.58 0.59 0.10 0.61 0.11 0.46 0.13 0.42 0.14 0.52 0.07
Etude de généralité– différents domaines– différentes langues– différentes fréquences des collocations
43
Étude de généralité (1) : apprentissage CVs / application Biologie (fréquents)
AUCCollocation fréquentes
Corpus de Biologie
OccRV 0.57
RV 0.42
I3 0.35
Dice 0.31
I 0.30
SVM Bagged-ROGER
Linéaire Linéaire Non Linéaire
0.59 0.63 0.71
Autres noyaux donnent des résultats plus faibles
taux de faux positifs
tau
x d
e vr
ais
po
siti
fs
44
Étude de généralité (2) : apprentissage Biologie / validation CVs (fréquents)
AUCCollocations fréquentes
Corpus de CVs
OccRV 0.58
RV 0.43
I3 0.40
Dice 0.39
I 0.31
SVM Bagged-ROGER
Linéaire Linéaire Non Linéaire
0.65 0.64 0.63taux de faux positifs
tau
x d
e vr
ais
po
siti
fs
45
Étude de généralité (3) : apprentissage coll. fréquentes / application coll. rares (CVs)
AUCCollocations rares
Corpus de CVs
OccRV 0.37
Dice 0.32
RV 0.30
I3 0.30
I 0.29
SVM Bagged-ROGER
Linéaire Linéaire Non Linéaire
0.56 0.67 0.70
tau
x d
e vr
ais
po
siti
fs
taux de faux positifs
46
Conclusions
La méthode supervisée proposée donne de bons résultats.
– bonne généralisation selon les langues, les domaines et la fréquence des collocations.
Principales caractéristiques d'EXIT :– Approche itérative– Approche coopérative– Ajout de paramètres
CIP (Coefficient Itérations Précédentes) critères statistiques DiffTextes
47
Perspectives
Apprentissage actif : demander à l'expert de valider un nombre restreint de collocations à chaque exécution de ROGER.
Étude approfondie de la terminologie verbale.
Étude du bruit et du silence.
Étude de la terminologie à partir d'autres langues.
48
DEFT'05
Le but du défi DEFT (DEfi Fouille de Textes) consiste à supprimer les phrases non pertinentes dans un corpus de discours politiques en français.
Page Web : http://www.lri.fr/ia/fdt/DEFT05/
N'hésitez pas à participer...
49
Annexe
50
Méthode (1/2)
Utilisation des courbes ROC (Receiver Operating Characteristic): courbe dont le taux de vrais positifs est représenté en ordonnées et le taux de faux positifs est représenté par l'axe des abscisses.
Avantage : pas de sensibilité dans le cas d'un déséquilibre entre les classes.
But : optimiser l'aire sous les courbes ROC (AUC) [Sebag et al. 2003].
0 1
1
taux de faux positifs
taux devrais positifs
51
Méthode (2/2)
Etape d'optimisationmaximiser l'aire sous la courbe ROC
minimiser la somme des rangs des exemples positifs
rangs = 21 rangs = 25 rangs = 26
h1: ++++++---- h2 : +++-+++--- h3 : ++-+-++-+-
52
Exemple
Type de collocations : adj3 adj2 adj1 nom1 et adj3 adj2 adj1 nom2
Elagage : élagage 1 à la première itération et 2 à la deuxième
Extraction :
1. Type Adjectif-Adjectif
Itération 1 : adj3 adj2 (2 fois)
Itération 2 : adj3-adj2 adj1 (2 fois)
2. Type Adjectif-Nom
Itération 1 : adj3-adj2-adj1 nom1 (1 fois)
adj3-adj2-adj1 nom2 (1 fois)
Extraction :
1. Type Adjectif-Nom
Itération 1 : adj1 nom1 (1 fois)
adj1 nom2 (1 fois)
2. Type Adjectif-Adjectif
Itération 1 : adj3-adj2 (2 fois)
adj3-adj2-adj1-nom1
et adj3-adj2-adj1-nom1 non extraites
Exemple : latent semantic analysis
latent semantic indexing