Upload
adalard-da-silva
View
102
Download
0
Embed Size (px)
Citation preview
Extraction des connaissances dans les Extraction des connaissances dans les bases de donnéesbases de données
Ansaf SALLEB
Laboratoire d ’Informatique Fondamentale d ’Orléans (LIFO)
en collaboration avec:
Bureau des Recherches Géologiques et Minières (BRGM)&
La Région Centre
Ansaf SALLEB Sciences en Sologne 2000 2
Description du problèmeDescription du problème
• Volume de données collectées est en croissance continue
• Experts dépassés par les volumesIl y en a beaucoupIl y en a beaucoup
trop !trop !
Ansaf SALLEB Sciences en Sologne 2000 3
Solution Solution
Extraction des connaissances dans les Bases de données
Volume de données Connaissances
BD
Sélection
Pré traitement
Transformation
Fouille de données
Interprétation/Evaluation
Connaissances
Modèles
Données transformées
Données prétraitées
Données sélectionnées
Etapes d’un processus ECD (Fayyad et al. 1996)
Ansaf SALLEB Sciences en Sologne 2000 4
SolutionSolution
Fouille de données
(Data Mining)
=
Extraction de connaissances implicites, non connues à
l'avance dans des entrepôts de données
STAT
BD
RN
VISU
ASA
ADFD
Ansaf SALLEB Sciences en Sologne 2000 5
Tâches de fouille de donnéesTâches de fouille de données
• Description : Généralise, résume et compare des données
• Classification: Catégorise les données en classes
• Regroupement: Identifie des groupes homogènes de données
• Association: Extrait des corrélations entre les données
• Prédiction: Prédit des données manquantes
• etc.
Ansaf SALLEB Sciences en Sologne 2000 6
Extraction des AssociationsExtraction des Associations
• Définition (Agrawal et al. 1993) Découverte de relations de corrélation ou d’association parmi un
ensemble d’objets (items).
I = ensemble d'items, T = ensemble de transactions (BD)
X Y (s%, c%) / X et Y ensembles d'items
• Support s% Pourcentage des transaction de T qui contiennent X et Y
• Confidence c% Pourcentage de transactions de T qui contiennent Y parmi celles qui contiennent X.
Ansaf SALLEB Sciences en Sologne 2000 7
Exemple: Exemple: Analyse du panier de la ménagèreAnalyse du panier de la ménagère % 100 %, 50 , ) , ( , ,thé x Achat confiture x Achat pain x Achat Clients x % 100 %, 50 , ) , ( , ,thé x Achat confiture x Achat pain x Achat Clients x
Ansaf SALLEB Sciences en Sologne 2000 8
SIG Gestion données spatiales relatives à la géographie
- Objets: points, lignes,
polygones
- Couches thématiques
Systèmes d ’information géographiquesSystèmes d ’information géographiques
Ansaf SALLEB Sciences en Sologne 2000 9
ExempleExemple
FaillesFailles
GisementsGisements
GéologieGéologie
Ansaf SALLEB Sciences en Sologne 2000 10
Extraction des associations dans les SIGExtraction des associations dans les SIG
• Recherche de liens possibles entre couches thématiques :
- Proximités spatiales (intersection, inclusion, …)
- Caractéristiques non-spatiales de ces objets
Exemple
Gisement(x) Geology(y) Code(y, TertiaireVolcanique)
inclus(x,y) SubstancePrinc(x, Ag) (4.43%, 40.56%)
Ansaf SALLEB Sciences en Sologne 2000 11
Conclusion et perspectivesConclusion et perspectives
• Intêret du Data Mining et des associations:» Marketing
» Systèmes bancaires
» SIG
» Bio-Informatique
» Médecine
» Télécommunication
» …
• Plusieurs systèmes existent déjà tels que: Kefir, Skicat, Quest, Clementine, …
• Travaux en cours: Data Mining dans BD Spatiales, Temporelles,
MultiMédia, WebMining, TextMining, ...