13
EQUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

Embed Size (px)

Citation preview

Page 1: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

EQUIPE TaToo

Extraction de connaissances dans les bases de données :

motifs séquentiels et ontologie

LIRMM - CNRS - Université Montpellier II

Page 2: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

EQUIPE TaToo 8 Permanents (3 Pr, 5 MCF dont 1 HDR),

2 Associés, 7 Doctorants

Thèmes de recherche :

Fouille de donnéesTextes (Text Mining), Arborescentes (Schema - Web Structure Mining) Multidimensionnelles (Cube - Web Usage Mining) Flots (Stream Mining)

Ontologie Annotation, Indexation, Modélisation, Mise-à-jour

Motifs séquentiels2

Page 3: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

3

PROBLEMEFouille dedonnées

CONNAISSANCES

aux DECISIONS

Visualisation

EXPERTISE

Des DONNEESReprésentation

Traitement

Vers un nouveau processus

Page 4: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

Résultats récents 6 thèses soutenues 2008-2007 (Jurys prestigieux : Jian Pei, Toon

Calders, Osmar Zaiäne …)

Publications (co-publications) avec CL sur 2008 (2007) : 5 (3) RI - 28 (14) CI

DMKD, IEEE Transaction on Fuzzy Sets, ODBASE, CIKM, PAKDD, PKDD, DASFAA, BDA …

Comités de Programme, Relecteur

ICDM, PKDD, DEXA, IEEE TKDE, …

4

Page 5: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

Domaines d’application

Web Mining, Text Mining, Schema Mining, Tree Mining, Stream Mining …

Santé : • 3 partenariats forts (Inserm Bordeaux, Montpellier I et II)• 2 Programmes Exploratoires Pluridisciplinaires 2008

PEPS ST2I « GeneMining » PEPS STI-SHS    « Langage, Mémoire et Alzheimer »

Environnement …. 5

Page 6: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

Outils de visualisation Demon

6

Page 7: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

Transferts de technologie•Axiliance (Région LR) (30K)

Filtrage de requêtes à risque

•EDF (R&D Paris) (80K)

Recherche de comportements temporels atypiques

•ANR Midas avec ENST, INRIA, EDF R&D, Orange R&D

Modélisation et fouille dans les flots de données

•We are cloud

Calcul dans les cubes de données

•En cours (PIKKO, Spotter)

7

Page 8: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

Conclusion Ambition (Equipe – Séminaire)

Forte implication au sein de l’Université (Présidence, Direction adjointe UFR Info, Direction Dept IG, Responsable de Parcours …), de la région (IBM, cluster INTS, journées MIPS)

Mais Affectation des ressources

8

Page 9: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

9

Le Processus d’Extraction de Connaissances

Page 10: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

10

Panier de la ménagère

Produits achetés

Identification

Date, heure

Localisation

Page 11: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

11

Règles d’Association vs Motifs Séquentiels

Corrélation entre les produits (RA) Les personnes qui achètent des couches achètent de la bière

Comportement des clients au cours du temps (MS) Les personnes qui achètent des couches achètent trois jours après de la bière

Page 12: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

Extraction de Motifs Séquentiels

C1 t1

t2

a,b,c,d

a,b

C2 t3 a,b

C3 t1

t4

b,c,d

a,b

Considérons la base de données D suivante avec I = {a,b,c,d} :

<(a,b)> séquence fréquente

[Agrawal & Srikant, 95]

[Srikant & Agrawal, 96]GSP

[Masseglia et al., 98]PSP

[Zaki., 01]SPADE

[Ayres et al. 02]SPAM

[Han et al.., 00]FreeSpan

[Pei et al.., 01]PrefixSpan

[Zaki, 07]PRIMAL

Par niveau Pattern-Growth

Par niveau, représentation

Page 13: E QUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II

13

Des constats

Quid • des nouvelles données ? • des quantités ?• des contraintes temporelles ? • des données plus complexes ?• des connaissances plus riches ?