21
30/12/2011 1 Introduction à la fouilles de données Partie 1 1 Informatique décisionnelle é é Chargement périodique des données Pas de modifications des données Interrogations non régulières, planifiées, parfois longues des systèmes d’information décisionnels Exemples de questions: Quelles sont les ventes du produit X pendant le i Ad l' é Bd l éi C? trimestre A de l'année B dans la région C ? Comment se comporte le produit X par rapport au produit Y? Quel type de client peut acheter le produit X? Exemple: OLAP (Codd) 2

Cours fouille de donn+®es part1

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Cours fouille de donn+®es part1

30/12/2011

1

Introduction à la fouilles de données

Partie 1

1

Informatique décisionnelle

é éChargement périodique des donnéesPas de modifications des donnéesInterrogations non régulières, planifiées, parfois longues des systèmes d’information décisionnels Exemples de questions:

Quelles sont les ventes du produit X pendant le i A d l' é B d l é i C ?trimestre A de l'année B dans la région C ?

Comment se comporte le produit X par rapport au produit Y?Quel type de client peut acheter le produit X?

Exemple: OLAP (Codd)2

Page 2: Cours fouille de donn+®es part1

30/12/2011

2

Exempleshttp://www amazon frhttp://www.amazon.frLe panier de la ménagèreConnaissez-vous?

3

QuestionsEst-ce une bonne idée de faire de la publicitéEst ce une bonne idée de faire de la publicité de musique rap dans des magazines pour personnes âgées?Est-ce que vous saviez que les compagnies de cartes de crédit peuvent suspecter un vol de carte, même si le propriétaire de la carte n’est pas encore au courant?n’est pas encore au courant?Est-ce que vous savez pourquoi les entreprises liées à la bourse sponsorisent les tournois de golfs télévisés?

4

Page 3: Cours fouille de donn+®es part1

30/12/2011

3

Plan et objectifs

Comprendre ce qu’est la FDD?KDDModèlesApplications de la FDDpp ca o s de aRecherche en FDD

5

Plan et objectifs

Définition du Data MiningPourquoi le Data Mining ?Description du processus KDD (Knowledge Data Discovery)ApplicationsTâches et Techniques du Data Mining

6

Page 4: Cours fouille de donn+®es part1

30/12/2011

4

Données et informationLes entreprises produisent des quantitésLes entreprises produisent des quantités énormes de données

Sources: affaires, science, géographie, environnement…

Les données sont des ressources de valeurBesoin de techniques pour analyser les d é t t i d i f ti /données et extraire des informations / connaissances automatiquement

Données = faitsInformation = modèle / motif (pattern) dans les données

7

Fouille de données (FDD)Fouille / découverte de connaissances dansFouille / découverte de connaissances dans les données ou création d’un modèle des donnéesProcessus qui emploie des techniques d’apprentissage automatiques et intelligentes pour analyser et extraire des connaissances, de grandes quantités de donnéesde grandes quantités de données 98% de ce que les humains apprennent proviennent de reconnaissance des formes [Kurzwell]

8

Page 5: Cours fouille de donn+®es part1

30/12/2011

5

Pourquoi la FDD maintenant?Des machines plus puissantesDes machines plus puissantesExistence d’algorithmes de fouille de donnéesCollections et sauvegardes des données amélioréesDomaine à la confluence de différents domaines: base de données, statistiques, , q ,intelligence artificielle, visualisation, parallélisme…Domaine pluridisciplinaire

9

KDD*Découverte de connaissances dans lesDécouverte de connaissances dans les données (KDD)Application de méthodes scientifiques à la fouille de donnéesLe processus de KDD est composé de:

Sélection des donnéesPré-traitement des donnéesTransformation des donnéesLa fouille de donnéesInterprétation et évaluation des modèles

10

Page 6: Cours fouille de donn+®es part1

30/12/2011

6

Systèmes pour la FDD*Composition:Composition:

Bases de données, entrepôts de données…Serveurs de bases de données ou d’entrepôts de donnéesBases de connaissancesEngins de fouille de donnéesModules d’évaluation du modèleInterfaces graphiques pour l’utilisateur

11

ApprendreApprendre quelque chose de nouveauFaits (vrais ou faux)Concepts

Ensembles de symboles, objets et évènements groupés parce qu’ils partagent les mêmes caractéristiques

Procéduresé é é éCours d’actions réalisées étape par étape pour

atteindre un butPrincipes

Plus haut niveau d’abstractionRègles ou vérités qui sont les bases pour d’autres vérités 12

Page 7: Cours fouille de donn+®es part1

30/12/2011

7

Apprentissage superviséModèle inductif où l’apprenant considère unModèle inductif où l apprenant considère un ensemble d’exemples, et infère l’appartenance d’un objet à une classe en considérant les similarités entre l’objet et les éléments de la classeLes classes sont étiquetées préalablement (sports et loisirs art et culture )(sports et loisirs, art et culture…)La plupart des algorithmes (classification, estimation, prédiction) utilisent l’apprentissage supervisé

13

Apprentissage non superviséConstruction d’un modèle et découverte desConstruction d un modèle et découverte des relations dans les données sans référence àd’autres donnéesOn ne dispose d'aucune autre information préalable que la description des exemplesLa segmentation le regroupement (cluster)La segmentation, le regroupement (cluster), la méthode des k-moyennes et les associations sont des méthodes d’apprentissage non supervisées

14

Page 8: Cours fouille de donn+®es part1

30/12/2011

8

Concepts / ModèlesLes concepts sont les résultats de la fouille deLes concepts sont les résultats de la fouille de donnéesIls montrent les relations dans les données ou groupent des éléments fondés sur leur ressemblance Structures:

Arbres de décisionRèglesRèglesRéseaux de neuronesÉquations mathématiques…

Parfois, pas de réelles structuresExemples / InstancesRegroupements (clusters) 15

Exemples de modèlesVue classique:Vue classique:

Si salaire annuel >= 30,000 et années de service >= 5 et propriétaire = vrai alors risque de défaut de paiement = fauxAge(X, “jeune”) et Salaire(X,”élevé”) ⇒Classe(X,”A”)Classe(X, A )

Vue probabilistique:La plupart des personnes qui ont un bon crédit sont propriétaires

16

Page 9: Cours fouille de donn+®es part1

30/12/2011

9

Exemples de modèlesVue exemplaire:Vue exemplaire:

Un exemple est déterminé comme une instance d’un conceptLes exemples suivants sont considérés comme ayant un bon crédit:

é éSalaire = 32,000, années = 6, propriétaireSalaire = 52,000, années = 16, locataire

17

Exemples de modèles Les exemples peuvent être présentés parLes exemples peuvent être présentés par des tables:

Age Salaire Classe TotalJeune Elevé A 1402

Jeune Bas B 1038

Agé Elevé C 786

18

Page 10: Cours fouille de donn+®es part1

30/12/2011

10

Exemples de modèles

Diagrammes:HistogrammeCamembert

A b d dé i iArbre de décision Cube de données

19

Applications: Grande Distribution

Vente par Définition deVente par correspondance

Définition de profils des

clientsAnalyse du

panier de la ménagère

Prédiction des taux de réponses à des listes de diffusionsOptimisation des g

Analyse des données liées au paiement (adresse, sexe…)

préapprovisionnementsPropositions spécifiques

de services à des individus profilésÉlimination des

“mauvais” clients20

Page 11: Cours fouille de donn+®es part1

30/12/2011

11

Application: AssurancesAssurances Définition desAssurances Définition des

profils des clients

Analyse des données personnelles (sexe, age, profession…)Analyse des données

Élimination des “mauvais” clientsTarification du Analyse des données

sur les éléments àassurer (type de voiture, puissance…)Analyse des sinistres

contratÉvaluation des

risquesDétection des

fraudes21

Application: BanquesBanques Définition desBanques Définition des

profils des clients

Analyse de la situation bancaire (solde, produits

Élimination des “mauvais” clientsAutorisation de

bancaires …)Analyse de données

supplémentaires (sexe, profession, situation familiale…)

crédits aux “bons” clientsPropositions

spécifiques de services

22

Page 12: Cours fouille de donn+®es part1

30/12/2011

12

Application: BanquesBanques Détection desBanques Détection des

évolutions de profils

Analyse de la situation bancaire (solde, produits bancaires possédés…)Analyse des données

Détection de la lassitude d’un client (possibilité de trouver de nouvelles propositions plusAnalyse des données

supplémentaires (situation familiale, profession…)

propositions plus adaptées)Détection de

l’amélioration ou de la détérioration de la situation bancaire

23

Application: BanquesBanques Détection deBanques Détection de

comportements particuliers

Analyse de la situation bancaire (solde, produits bancaires possédés…)Analyse des données

Détection des fraudes (utilisationAnalyse des données

supplémentaires (situation familiale, profession…)

(utilisation anormale des systèmes de paiement)

24

Page 13: Cours fouille de donn+®es part1

30/12/2011

13

Application: Bourse

Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de transactions boursièresde transactions boursières

25

Application: Production Industrielle

Production Prédiction etProduction industrielle

Prédiction et détection

Analyse du fonctionnement de la chaîne de productionAnalyse des produitsAnalyse des ventes

Optimisation de la productionAdéquation au marchéAnticipation des défautsDi ti dAnalyse des ventes

Analyse de questionnaires (prospectifs, satisfaction…)

Diagnostics de pannes

26

Page 14: Cours fouille de donn+®es part1

30/12/2011

14

Application: InternetInternet Détermination

d’un thème, d’un sujet

Analyse automatique de sites toile

Aide à l’organisation des messages reçusMoteur de

recherche évoluéAnalyse

automatique du courrier électronique

recherche évolué(design des systèmes)Décision de

marketingEspionnage 27

Application: Sport

Le système SCOUT d’IBM analyse les matches de baskets de la NBA pour faire gagner les Knicks de New York

28

Page 15: Cours fouille de donn+®es part1

30/12/2011

15

FDD: Sur quelles données? (1)Base de données relationnellesBase de données relationnellesBase de données transactionnelles Base de données orientées objetsBase de données relationnelles objetsB d d é t llBase de données temporelles

Exemple: Bourse

29

FDD: Sur quelles données? (2)Base de données spatialesBase de données spatiales

Exemples: Images provenant de satellites, cartes géographiques

Base de données hétérogènesBase de données “héréditaires”Entrepôts de données*pBase de données textuelles

Les données sont décrites par des motsExemples: La toile, le courrier électronique, les pages html/xml

30

Page 16: Cours fouille de donn+®es part1

30/12/2011

16

FDD: Sur quelles données? (3)Base de données multimédiaBase de données multimédia

Des techniques de recherche et de stockage avancées sont nécessaires

La toile / InternetBesoins de techniques particulières àBesoins de techniques particulières àchaque type de données pour la fouille de données

31

On ne peut pas tout faire…et tout n’est pas de la FDDLa FDD offre des outils et des méthodologiesLa FDD offre des outils et des méthodologies qui peuvent aider à comprendre les données et faire des prédictionsMais:

Il n’y a pas de solution générale et complètement automatiqueL t h i d i t êt d té blèLes techniques doivent être adaptées au problème considéréLa FDD doit être compriseLa FDD ne remplace pas les experts, mais les assiste

32

Page 17: Cours fouille de donn+®es part1

30/12/2011

17

FDD: Vrai ou faux?

Liste des produits vendus pendant le premierListe des produits vendus pendant le premier semestre 2011 par le supermarché «Carrefour»Total des ventes de produits de «Carrefour» en 2011Les personnes qui achètent un ordinateur achètent parfois une imprimante en même ac ète t pa o s u e p a te e ê etempsLes personnes de moins de 25 ans répondent aux offres «A» avec une probabilité de 90%

33

Les fonctions de la FDD: Classification et Prédiction

Classification et prédictionpDiviser / grouper les instances dans des classes spécifiques pour des prédictions futuresPrédire des valeurs (classes) inconnues ou manquantes

Exemples: Les clients loyaux / les clients non-loyauxLes transactions frauduleuses / les transactions générales

é é àPrédire les taux de réponses à une offre Algorithmes:

Arbres de décision, règles de classification, classification Bayésienne, algorithmes génétiques, algorithme des k plus proches voisins, l’approche Rough Sets, régression linéaire et non linéaire

34

Page 18: Cours fouille de donn+®es part1

30/12/2011

18

Les fonctions de la FDD: Regroupement (Cluster)

é éRegroupement d’éléments de proche en proche fondé sur leur ressemblanceLes classes sont inconnues, et sont donc crééesExemple:

Segmentation du marchéSegmentation du marchéAlgorithmes:

K-moyennesRéseaux neuronaux

35

Les fonctions de la FDD:Associations

éMise en relation des donnéesExemples:

Le panier de la ménagère:Les personnes qui achètent des chips achètent aussi du coca-cola

Age(X, “20…29”) et Salaire(X, “20000…29000”) ⇒A h (X ”PC”) [ 2% fidAchete(X,”PC”) [ support = 2%, confidence = 60%]

L’algorithme A Priori pour obtenir des règles d’association

36

Page 19: Cours fouille de donn+®es part1

30/12/2011

19

Les fonctions de la FDD: Caractérisation et Discrimination

C té i ti Gé é li l d é d’Caractérisation: Généralise les données d’une classeExemple:

Général profil des régions pluvieuses Discrimination: Compare les données d’une classe avec une ou plusieurs classes (declasse avec une ou plusieurs classes (de comparaison)

Gestion des anomaliesExemple:

Les ventes de logiciels qui ont augmenté de 10% par rapport à celles qui ont augmente de 30% 37

LogicielsLogiciels très sophistiquésLogiciels très sophistiquésWekaDBMinerXLMinerSQL SSQL Server…

38

Page 20: Cours fouille de donn+®es part1

30/12/2011

20

Recherche en FDD (1)Méthodologies de FDD et interaction avecMéthodologies de FDD et interaction avec l’utilisateur:

Découvrir différentes sortes de connaissances dans les donnéesLa FDD interactiveIncorporation d’un ensemble de connaissances particulièresparticulièresLangage de FDD (tel que SQL, DMQL)Présentation et visualisation des résultatsTraitement du bruit et des données incomplètesÉvaluation du modèle

39

Recherche en FDD (2)PerformancePerformance

Efficacité et adaptabilité des algorithmes de FDDAlgorithmes incrémentaux et parallèles

Diversité des types de donnéesypDonnées relationnelles et données complexesBases de données hétérogènes…

40

Page 21: Cours fouille de donn+®es part1

30/12/2011

21

RéférencesJ Han and M Kamber Data MiningJ. Han, and M. Kamber. Data MiningConcepts and Techniques. MorganKaufmann Publishers, 2006.Ian H. Witten and Eibe Frank. Data Mining:Practical Machine Learning Tools andTechniques, Morgan Kaufmann Publishers,20062006.

41