Transcript
Page 1: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Analyse exploratoire de données

Fabrice Rossi

Télécom ParisTech

Page 2: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

PlanIntroduction

ExplorationModélisationModèle des données

Analyses univariéesVariables numériques

HistogrammeBoxplot et statistiques

Variables nominales

Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction

2 / 41 F. Rossi

Page 3: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

PlanIntroduction

ExplorationModélisationModèle des données

Analyses univariéesVariables numériques

HistogrammeBoxplot et statistiques

Variables nominales

Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction

3 / 41 F. Rossi Introduction

Page 4: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Exploiter des données

Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?

recensement32561personnes15 attributspar personne

Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)

4 / 41 F. Rossi Introduction

Page 5: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Exploiter des données

Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?

recensement32561personnes15 attributspar personne

Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)

4 / 41 F. Rossi Introduction

Page 6: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Exploiter des données

Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?

recensement32561personnes15 attributspar personne

Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)

4 / 41 F. Rossi Introduction

Page 7: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Outils d’exploitation

Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste

Deux grandes classes d’outils :1. exploration

• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,

etc.)

2. modélisation

• idée précise sur les données• construction de modèles prédictifs

outil utilisé : R (http://R-project.org/)

5 / 41 F. Rossi Introduction

Page 8: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Outils d’exploitation

Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste

Deux grandes classes d’outils :1. exploration

• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,

etc.)2. modélisation

• idée précise sur les données• construction de modèles prédictifs

outil utilisé : R (http://R-project.org/)

5 / 41 F. Rossi Introduction

Page 9: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Outils d’exploitation

Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste

Deux grandes classes d’outils :1. exploration

• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,

etc.)2. modélisation

• idée précise sur les données• construction de modèles prédictifs

outil utilisé : R (http://R-project.org/)

5 / 41 F. Rossi Introduction

Page 10: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Outils d’exploitation

Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste

Deux grandes classes d’outils :1. exploration

• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,

etc.)2. modélisation

• idée précise sur les données• construction de modèles prédictifs

outil utilisé : R (http://R-project.org/)

5 / 41 F. Rossi Introduction

Page 11: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Analyse exploratoireObjectifs :

• obtenir une vision globale d’un jeu de données• découvrir des formes de régularité

Moyens :• représentations visuelles (et interactives) des données• recherche automatique de régularités :

• corrélation et dépendance entre variables• groupes homogènes (classification)• schémas fréquents

020

4060

8010

0

Hei

ght

−6 −4 −2 0 2 4

−20

24

6

PC1

PC

2

6 / 41 F. Rossi Introduction

Page 12: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Analyse exploratoireObjectifs :

• obtenir une vision globale d’un jeu de données• découvrir des formes de régularité

Moyens :• représentations visuelles (et interactives) des données• recherche automatique de régularités :

• corrélation et dépendance entre variables• groupes homogènes (classification)• schémas fréquents

020

4060

8010

0

Hei

ght

−6 −4 −2 0 2 4

−20

24

6

PC1

PC

2

6 / 41 F. Rossi Introduction

Page 13: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

ModélisationObjectifs :

• inférer des informations inconnues• prédire l’évolution des données

Moyens :• données d’apprentissage :

• connaître l’évolution d’une grandeur dans le passé pourprédire son évolution future (données historiques)

• connaître une propriété de certains objets (par exemple lesalaire de certains clients) pour inférer sa valeur pour lesautres objets

• méthodes d’apprentissage : construire un modèle à partirdes données d’apprentissage

Stratégie :• analyse exploratoire• formulation d’hypothèses• construction de modèles pour valider les hypothèses

7 / 41 F. Rossi Introduction

Page 14: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

ModélisationObjectifs :

• inférer des informations inconnues• prédire l’évolution des données

Moyens :• données d’apprentissage :

• connaître l’évolution d’une grandeur dans le passé pourprédire son évolution future (données historiques)

• connaître une propriété de certains objets (par exemple lesalaire de certains clients) pour inférer sa valeur pour lesautres objets

• méthodes d’apprentissage : construire un modèle à partirdes données d’apprentissage

Stratégie :• analyse exploratoire• formulation d’hypothèses• construction de modèles pour valider les hypothèses

7 / 41 F. Rossi Introduction

Page 15: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Modèle mathématique

On a N observations, les zi ∈ ZModèle statistique/probabiliste

• il existe une distribution PZ sur Z inconnue• les zi sont des réalisations de variables aléatoires avec

cette distribution• les variables aléatoires sont indépendantes (en général)

En général• Z = ΠP

p=1Zp : P variables pour décrire chaque objet• quand Zp ⊂ R : variable numérique (ou ordonnée)• quand Zp = {a, b, . . .} : variable nominale (un nombre fini

de valeurs possibles non ordonnées)

8 / 41 F. Rossi Introduction

Page 16: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Modèle mathématique

On a N observations, les zi ∈ ZModèle statistique/probabiliste

• il existe une distribution PZ sur Z inconnue• les zi sont des réalisations de variables aléatoires avec

cette distribution• les variables aléatoires sont indépendantes (en général)

En général• Z = ΠP

p=1Zp : P variables pour décrire chaque objet• quand Zp ⊂ R : variable numérique (ou ordonnée)• quand Zp = {a, b, . . .} : variable nominale (un nombre fini

de valeurs possibles non ordonnées)

8 / 41 F. Rossi Introduction

Page 17: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

PlanIntroduction

ExplorationModélisationModèle des données

Analyses univariéesVariables numériques

HistogrammeBoxplot et statistiques

Variables nominales

Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction

9 / 41 F. Rossi Analyses univariées

Page 18: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Analyses élémentairesPremière étape d’une analyse exploratoire

• travailler variable par variable• numériquement et graphiquement

Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot

Variable âge : numérique

Histogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0

10 / 41 F. Rossi Analyses univariées

Page 19: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Analyses élémentairesPremière étape d’une analyse exploratoire

• travailler variable par variable• numériquement et graphiquement

Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot

Variable âge : numérique

Histogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0

10 / 41 F. Rossi Analyses univariées

Page 20: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Analyses élémentairesPremière étape d’une analyse exploratoire

• travailler variable par variable• numériquement et graphiquement

Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot

Variable âge : numérique

Histogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0

10 / 41 F. Rossi Analyses univariées

Page 21: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :

• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)

• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles

• représentation par des barres de surfaces proportionnellesaux décomptes

Attention aux intervalles de longueurs différentes

11 / 41 F. Rossi Analyses univariées

Page 22: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :

• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)

• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles

• représentation par des barres de surfaces proportionnellesaux décomptes

Attention aux intervalles de longueurs différentes

Histogram of dummy.unif

dummy.unif

Den

sity

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

Histogram of dummy.unif

dummy.unif

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

050

150

11 / 41 F. Rossi Analyses univariées

Page 23: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :

• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)

• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles

• représentation par des barres de surfaces proportionnellesaux décomptes

Attention aux intervalles de longueurs différentes

Histogram of dummy.unif

dummy.unif

Den

sity

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.4

0.8

Histogram of dummy.unif

dummy.unif

Fre

quen

cy

0.0 0.2 0.4 0.6 0.8 1.0

020

060

0

11 / 41 F. Rossi Analyses univariées

Page 24: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

IntérêtsHistogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0Histogramme des heures travaillées par semaine

Heures

Fre

quen

cy

0 20 40 60 80 100

050

0010

000

1500

0

Âge Temps de travailHistogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

Idée générale de ladistribution“irrégularités”distribution complètementatypique

Plus values

12 / 41 F. Rossi Analyses univariées

Page 25: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

IntérêtsHistogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0Histogramme des heures travaillées par semaine

Heures

Fre

quen

cy

0 20 40 60 80 100

050

0010

000

1500

0

Âge Temps de travailHistogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

Idée générale de ladistribution

“irrégularités”distribution complètementatypique

Plus values

12 / 41 F. Rossi Analyses univariées

Page 26: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

IntérêtsHistogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0Histogramme des heures travaillées par semaine

Heures

Fre

quen

cy

0 20 40 60 80 100

050

0010

000

1500

0

Âge Temps de travailHistogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

Idée générale de ladistribution“irrégularités”

distribution complètementatypique

Plus values

12 / 41 F. Rossi Analyses univariées

Page 27: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

IntérêtsHistogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0Histogramme des heures travaillées par semaine

Heures

Fre

quen

cy

0 20 40 60 80 100

050

0010

000

1500

0

Âge Temps de travailHistogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

Idée générale de ladistribution“irrégularités”distribution complètementatypique

Plus values

12 / 41 F. Rossi Analyses univariées

Page 28: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Limitations

Histogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

presque aucune information :• presque toutes les valeurs sont négatives• quelques valeurs très grandes

comparaisons difficiles (cf la suite)

13 / 41 F. Rossi Analyses univariées

Page 29: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Limitations

Histogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

presque aucune information :• presque toutes les valeurs sont négatives• quelques valeurs très grandes

comparaisons difficiles (cf la suite)

13 / 41 F. Rossi Analyses univariées

Page 30: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Boxplot

a.k.a. boîte à moustaches ou boîte àpattesReprésentation compacte d’unedistribution

• ligne centrale : médiane• ligne basse : premier quartile• ligne haute : troisième quartile• moustaches :

• le max du min et de la médiane - 1.5l’intervalle interquartile

• le min du max et de la médiane + 1.5l’intervalle interquartile

• points atypiques (outliers) : au delàdes moustaches

2040

6080

Âge

14 / 41 F. Rossi Analyses univariées

Page 31: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Comparaison

Histogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0

2040

6080

Âge

plus d’informationinférence moins précise

plus dépouilléquelques informationstrès précises

15 / 41 F. Rossi Analyses univariées

Page 32: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Comparaison

Histogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0

2040

6080

Âge

plus d’information

inférence moins précise

plus dépouillé

quelques informationstrès précises

15 / 41 F. Rossi Analyses univariées

Page 33: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Comparaison

Histogram of age

age

Den

sity

0 20 40 60 80 100

0.00

00.

010

0.02

0

2040

6080

Âge

plus d’informationinférence moins précise

plus dépouilléquelques informationstrès précises

15 / 41 F. Rossi Analyses univariées

Page 34: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Statistiques

Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile

Histogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0• meilleurs choix ici :

• 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % négative

• puis statistiques sur les deux groupes (par ex., pertemédiane 1887)

16 / 41 F. Rossi Analyses univariées

Page 35: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Statistiques

Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile

Histogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0

• meilleurs choix ici :• 87 % des personnes ont une plus value nulle, 8.3 % positive

et 4.7 % négative• puis statistiques sur les deux groupes (par ex., perte

médiane 1887)

16 / 41 F. Rossi Analyses univariées

Page 36: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Statistiques

Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile

Histogramme des plus values

Plus values

Fre

quen

cy

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

050

0015

000

2500

0

Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0• meilleurs choix ici :

• 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % négative

• puis statistiques sur les deux groupes (par ex., pertemédiane 1887)

16 / 41 F. Rossi Analyses univariées

Page 37: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Sens des statistiques

La pertinence de la statistiquedépend de la distributionExemple :

• blogs politiques• graphe des liens entre les

blogs (blogroll)• distribution des degrés des

noeuds

Degree distribution

degree

Fre

quen

cy

0 100 200 300 400

020

040

060

0

µ = 27.36, σ = 38.42

m = 13, δ = 33

loi puissance : P(x) ' x−α

sans échelle : la moyenneinforme peu

ici α ' 1.27

17 / 41 F. Rossi Analyses univariées

Page 38: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Sens des statistiques

La pertinence de la statistiquedépend de la distributionExemple :

• blogs politiques• graphe des liens entre les

blogs (blogroll)• distribution des degrés des

noeuds

0 50 100 150 200 250 300 350

0.00

0.02

0.04

0.06

0.08

0.10

degree

prob

abili

ty

Degree distribution

degree

Fre

quen

cy

0 100 200 300 400

020

040

060

0

µ = 27.36, σ = 38.42

m = 13, δ = 33

loi puissance : P(x) ' x−α

sans échelle : la moyenneinforme peu

ici α ' 1.27

17 / 41 F. Rossi Analyses univariées

Page 39: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Sens des statistiques

La pertinence de la statistiquedépend de la distributionExemple :

• blogs politiques• graphe des liens entre les

blogs (blogroll)• distribution des degrés des

noeuds

1 2 5 10 20 50 100 200

0.00

10.

005

0.02

00.

050

degree

prob

abili

ty

Degree distribution

degree

Fre

quen

cy

0 100 200 300 400

020

040

060

0

µ = 27.36, σ = 38.42

m = 13, δ = 33

loi puissance : P(x) ' x−α

sans échelle : la moyenneinforme peu

ici α ' 1.27

17 / 41 F. Rossi Analyses univariées

Page 40: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Sens des statistiques

La pertinence de la statistiquedépend de la distributionExemple :

• blogs politiques• graphe des liens entre les

blogs (blogroll)• distribution des degrés des

noeuds

1 2 5 10 20 50 100 200

0.00

10.

005

0.02

00.

050

degree

prob

abili

ty

Degree distribution

degree

Fre

quen

cy

0 100 200 300 400

020

040

060

0

µ = 27.36, σ = 38.42

m = 13, δ = 33

loi puissance : P(x) ' x−α

sans échelle : la moyenneinforme peu

ici α ' 1.27

17 / 41 F. Rossi Analyses univariées

Page 41: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Sens des statistiques

La pertinence de la statistiquedépend de la distributionExemple :

• blogs politiques• graphe des liens entre les

blogs (blogroll)• distribution des degrés des

noeuds

1 2 5 10 20 50 100 200

0.00

10.

005

0.02

00.

050

degree

prob

abili

ty

Degree distribution

degree

Fre

quen

cy

0 100 200 300 400

020

040

060

0

µ = 27.36, σ = 38.42

m = 13, δ = 33

loi puissance : P(x) ' x−α

sans échelle : la moyenneinforme peu

ici α ' 1.27

Adapter les statistiquesaux données

17 / 41 F. Rossi Analyses univariées

Page 42: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Trois points de vue

Histogramme des heures travaillées par semaine

Heures

Fre

quen

cy

0 20 40 60 80 100

050

0010

000

1500

0

Moyenne : 40.44, Écart-type : 12.35

Médiane : 40, Interquartile : 5

Compléments :• 47 % = 40 heures• 29 % > 40 heures• 24 % < 40 heures

18 / 41 F. Rossi Analyses univariées

Page 43: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Trois points de vue

Histogramme des heures travaillées par semaine

Heures

Fre

quen

cy

0 20 40 60 80 100

050

0010

000

1500

0

Moyenne : 40.44, Écart-type : 12.35

Médiane : 40, Interquartile : 5

Compléments :• 47 % = 40 heures• 29 % > 40 heures• 24 % < 40 heures

18 / 41 F. Rossi Analyses univariées

Page 44: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinale

représentation par un diagramme à bâtons :• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal

Female Male

050

0010

000

2000

0

Divorced Married−civ−spouse Never−married Widowed

040

0080

0012

000

Genre Statut marital

19 / 41 F. Rossi Analyses univariées

Page 45: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinalereprésentation par un diagramme à bâtons :

• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal

Female Male

050

0010

000

2000

0

Divorced Married−civ−spouse Never−married Widowed

040

0080

0012

000

Genre Statut marital

19 / 41 F. Rossi Analyses univariées

Page 46: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinalereprésentation par un diagramme à bâtons :

• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal

Female Male

050

0010

000

2000

0

Divorced Married−civ−spouse Never−married Widowed

040

0080

0012

000

Genre Statut marital

19 / 41 F. Rossi Analyses univariées

Page 47: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

LisibilitéDéséquilibre

? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam

050

0015

000

2500

0

Grand nombre de modalités

? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam

010

020

030

040

050

060

0

20 / 41 F. Rossi Analyses univariées

Page 48: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

LisibilitéDéséquilibre

? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam

050

0015

000

2500

0

Grand nombre de modalités

? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam

010

020

030

040

050

060

0

20 / 41 F. Rossi Analyses univariées

Page 49: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Camembert

Armed−ForcesPriv−house−servProtective−serv

Tech−supportFarming−fishingHandlers−cleanersTransport−moving

?

Machine−op−inspct

Other−service

Sales

Adm−clerical Exec−managerial

Craft−repair

Prof−specialty

représentation très classiqueversions “créatives” (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles

010

0020

0030

0040

00

Armed

−For

ces

Priv−h

ouse

−ser

v

Prote

ctive

−ser

v

Tech

−sup

port

Farm

ing−f

ishing

Handle

rs−c

leane

rs

Trans

port−

mov

ing ?

Mac

hine−

op−in

spct

Other

−ser

vice

Sales

Adm−c

lerica

l

Exec−

man

ager

ial

Craft−

repa

ir

Prof−

spec

ialty

21 / 41 F. Rossi Analyses univariées

Page 50: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Camembert

Armed−ForcesPriv−house−servProtective−serv

Tech−supportFarming−fishingHandlers−cleanersTransport−moving

?

Machine−op−inspct

Other−service

Sales

Adm−clerical Exec−managerial

Craft−repair

Prof−specialty

représentation très classiqueversions “créatives” (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles

010

0020

0030

0040

00

Armed

−For

ces

Priv−h

ouse

−ser

v

Prote

ctive

−ser

v

Tech

−sup

port

Farm

ing−f

ishing

Handle

rs−c

leane

rs

Trans

port−

mov

ing ?

Mac

hine−

op−in

spct

Other

−ser

vice

Sales

Adm−c

lerica

l

Exec−

man

ager

ial

Craft−

repa

ir

Prof−

spec

ialty

21 / 41 F. Rossi Analyses univariées

Page 51: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

PlanIntroduction

ExplorationModélisationModèle des données

Analyses univariéesVariables numériques

HistogrammeBoxplot et statistiques

Variables nominales

Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction

22 / 41 F. Rossi Analyses multivariées

Page 52: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Analyses conjointes

Relativement peu d’information dans chaque variableAnalyse croisée nécessaireDifficultés :

• vision humaine limitée (2D ou 3D, formes et couleurs)• beaucoup de combinaisons possibles• variables incompatibles

Solutions :• outils de la visualisation de l’information (interaction)• outils de l’apprentissage automatique (automatisation)

23 / 41 F. Rossi Analyses multivariées

Page 53: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Diagramme de dispersion

Deux variables numériques : l’une en fonction de l’autrescatter plot

Superposition : alpha blending

24 / 41 F. Rossi Analyses multivariées

Page 54: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

DécorationCompléments du diagramme :

• couleur en fonction d’une autre variable• symbole en fonction d’une autre variable

Assez limité

25 / 41 F. Rossi Analyses multivariées

Page 55: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Matrice de diagrammes

matrice dediagrammes dedispersion

tous les couples devariables numériques

limités à quelquesvariables (croissancequadratique)

décorations possibles

ici : 7 types de verredécrits par 9 variables

26 / 41 F. Rossi Analyses multivariées

Page 56: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Corrélations

Recherche de corrélationsReprésentation graphique dela matrice de corrélation :

• rouge : forte corrélationpositive

• bleu : forte corrélationnégative

Ici :• RI corrélé avec Ca• Mg anti-corrélé avec Al• RI anti-corrélé avec Si• Aucun lien entre Al et Si

RI Na Mg Al Si K Ca Ba Fe

Fe

Ba

Ca

K

Si

Al

Mg

Na

RI

27 / 41 F. Rossi Analyses multivariées

Page 57: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Corrélations

Recherche de corrélationsReprésentation graphique dela matrice de corrélation :

• rouge : forte corrélationpositive

• bleu : forte corrélationnégative

Ici :• RI corrélé avec Ca• Mg anti-corrélé avec Al• RI anti-corrélé avec Si• Aucun lien entre Al et Si

RI Na Mg Al Si K Ca Ba Fe

Fe

Ba

Ca

K

Si

Al

Mg

Na

RI

27 / 41 F. Rossi Analyses multivariées

Page 58: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Corrélation RI et Ca

1.515 1.520 1.525 1.530

68

1012

1416

Corrélation = 0.811

RI

Ca

28 / 41 F. Rossi Analyses multivariées

Page 59: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Corrélation RI et Si

1.515 1.520 1.525 1.530

7071

7273

7475

Corrélation = −0.539

RI

Si

29 / 41 F. Rossi Analyses multivariées

Page 60: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Corrélation Al et Si

0.5 1.0 1.5 2.0 2.5 3.0 3.5

7071

7273

7475

Corrélation = −0.0162

Al

Si

30 / 41 F. Rossi Analyses multivariées

Page 61: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Corrélation Mg et Al

0 1 2 3 4

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Corrélation = −0.48

Mg

Al

31 / 41 F. Rossi Analyses multivariées

Page 62: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mg et AlHistogramme de Mg

Mg

Fre

quen

cy

0 1 2 3 4

020

4060

80

32 / 41 F. Rossi Analyses multivariées

Page 63: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mg et AlHistogramme de Mg

Mg

Fre

quen

cy

0 1 2 3 4

020

4060

80Histogramme de Al

Al

Fre

quen

cy

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

020

4060

8010

0

32 / 41 F. Rossi Analyses multivariées

Page 64: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mg et AlHistogramme de Mg

Mg

Fre

quen

cy

0 1 2 3 4

020

4060

80Histogramme de Al

Al

Fre

quen

cy

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

020

4060

8010

0

Histogramme de Al

Al

Fre

quen

cy

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

020

4060

8010

0

32 / 41 F. Rossi Analyses multivariées

Page 65: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mg et AlHistogramme de Mg

Mg

Fre

quen

cy

0 1 2 3 4

020

4060

80

0 1 2 3 4

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Corrélation = −0.367

Mg

Al

Histogramme de Al

Al

Fre

quen

cy

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

020

4060

8010

0

Histogramme de Al

Al

Fre

quen

cy

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

020

4060

8010

0

32 / 41 F. Rossi Analyses multivariées

Page 66: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mg et AlHistogramme de Mg

Mg

Fre

quen

cy

0 1 2 3 4

020

4060

80

0 1 2 3 4

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Corrélation = −0.48

Mg

Al

Histogramme de Al

Al

Fre

quen

cy

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

020

4060

8010

0

Histogramme de Al

Al

Fre

quen

cy

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

020

4060

8010

0

32 / 41 F. Rossi Analyses multivariées

Page 67: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Vision globale

33 / 41 F. Rossi Analyses multivariées

Page 68: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Vision globale

RI Na Mg Al Si K Ca Ba Fe

Fe

Ba

Ca

K

Si

Al

Mg

Na

RI

34 / 41 F. Rossi Analyses multivariées

Page 69: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mosaic plotÉquivalent du scatter plot pour les variables qualitatives

050

0015

000

2500

0

Amer−Indian−Eskimo

Asian−Pac−IslanderBlack

OtherWhite

découpage récursifsurfaceproportionnelle à lafréquence

significativitéplus de 2 variables

adults

gender

ethn

icity

Female MaleAmer−Indian−EskimoAsian−Pac−Islander

Black

Other

White

Female Male

050

0010

000

2000

0

35 / 41 F. Rossi Analyses multivariées

Page 70: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mosaic plotÉquivalent du scatter plot pour les variables qualitatives

050

0015

000

2500

0

Amer−Indian−Eskimo

Asian−Pac−IslanderBlack

OtherWhite

découpage récursifsurfaceproportionnelle à lafréquencesignificativité

plus de 2 variables

Sta

ndar

dize

dR

esid

uals

:<

−4

−4:

−2

−2:

00:

22:

4>

4

adults

gender

ethn

icity

Female MaleAmer−Indian−EskimoAsian−Pac−Islander

Black

Other

White

Female Male

050

0010

000

2000

0

35 / 41 F. Rossi Analyses multivariées

Page 71: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mosaic plotÉquivalent du scatter plot pour les variables qualitatives

050

0015

000

2500

0

Amer−Indian−Eskimo

Asian−Pac−IslanderBlack

OtherWhite

découpage récursifsurfaceproportionnelle à lafréquencesignificativitéplus de 2 variables

adults

gender

ethn

icity

Female MaleAmer−Indian−EskimoAsian−Pac−Islander

Black

Other

White

<=50K >50K <=50K >50K

Female Male

050

0010

000

2000

0

<=50K >50K

050

0015

000

35 / 41 F. Rossi Analyses multivariées

Page 72: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Mosaic plotÉquivalent du scatter plot pour les variables qualitatives

050

0015

000

2500

0

Amer−Indian−Eskimo

Asian−Pac−IslanderBlack

OtherWhite

découpage récursifsurfaceproportionnelle à lafréquencesignificativitéplus de 2 variables

Sta

ndar

dize

dR

esid

uals

:<

−4

−4:

−2

−2:

00:

22:

4>

4

adults

gender

ethn

icity

Female MaleAmer−Indian−EskimoAsian−Pac−Islander

Black

Other

White

<=50K >50K <=50K >50K

Female Male

050

0010

000

2000

0

<=50K >50K

050

0015

000

35 / 41 F. Rossi Analyses multivariées

Page 73: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Coordonnées parallèlesMéthode proposée en 1985 par A. Inselberg

un axe vertical par variableun objet devient une ligne brisée(x1, . . . , xp) est représenté par la ligne brisée passant par(1, x1), (2, x2), . . ., (p, xp)

1 2 3 4 5 6

1x

x 2

x 3

x 6

x 5

x 4

36 / 41 F. Rossi Analyses multivariées

Page 74: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Données Iris

Sepal.Length

2.0 2.5 3.0 3.5 4.0

●●

●●

●●

● ●

●● ●

●●

●●

●●

● ●

● ●

● ●

● ●

●●

●● ●

●●

●●

●●

●●

● ●

●●●

●●

●● ●

● ●●

●●

●●

● ●

●●

●●

● ●

●●

●●●

●●

●●●

● ●●

●●

●●

● ●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

●● ●

●●

●●

●●

●●

● ●

●●●

●●

●● ●

●●●

●●

● ●

●●

● ●

● ●

●●

●●

●●●

●●

●●

●●●

●●

0.5 1.0 1.5 2.0 2.5

4.5

5.5

6.5

7.5

●●●●

●●

● ●

●● ●●●

●●

●●

●●

● ●

●●

●●

●●

●● ●

●●

●●

●●

●●● ●

●●●

●●

●●●

●● ●

●●

●●

● ●

●●

● ●

●●

●●

●●●

●●

●●

● ●●

●●

2.0

3.0

4.0

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

●●

●● ●

●●

● ●

● ●●

●●

●●

●●

●● ●

●●

Sepal.Width●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●●

●●

● ●

● ●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●

●●

●●●

●●

●●

●●

● ●●

●●

●●●● ●

●● ●● ● ●●

●● ●

●●●

●●

●●

●●

●● ●●●● ●● ●●

● ●●●●

●●●●

●●

● ●●

●●

●●●

●●

●●

●●●

●●

● ●●

●●●

● ●●

●●●

●●

●●● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●● ●

●●●● ● ●●

●● ●

●●●

●●

●●

●●

● ● ●●●● ● ● ●●● ● ●●

●●● ●●

●●

● ●●

●●

●●●

●●

●●

●●●

●●

● ●●

●●●

● ●●

●●●

●●

● ●●●

●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

Petal.Length

12

34

56

7

●●●●●

●●●●● ●●●

● ●●●●

●●

●●

●●● ●●●●● ●● ●●●●

● ●●

●●●●

●●●●●

●●●

●●●

●●

●●

● ●●

●●

● ●●

●●●

● ●●

●●●

●●

●● ●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

0.5

1.5

2.5

●●●● ●

●●

●●●

●●●●

●●● ●●

● ●

●●●●

●●●● ●

●● ●

●●●

●●

●● ●●

●● ●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●●●

●●● ●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

●● ●● ●

●●●●

●●●

●●●

●●● ●●

●●

●●●●

●●● ● ●

●● ●

●●●

●●

●● ●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

1 2 3 4 5 6 7

●●● ●●

●●●●●●●

●●●

●●● ●●

●●

●● ●●

●●●●●●

● ●●●●

●●

●●●●

●● ●

●●

●●

●●

●●● ●

●●

●●●

●●●●

●●●●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

Petal.Width

Anderson's/Fisher's Iris

4+1 variables, 150 objets

37 / 41 F. Rossi Analyses multivariées

Page 75: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Données Iris

Anderson's/Fisher's Iris

Sepal.Length Sepal.Width Petal.Length Petal.Width

38 / 41 F. Rossi Analyses multivariées

Page 76: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Données Iris

Anderson's/Fisher's Iris

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

38 / 41 F. Rossi Analyses multivariées

Page 77: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Attention à l’ordreAnderson's/Fisher's Iris

Sepal.Length Sepal.Width Petal.Length Petal.Width

Les variables Petal sont elles corrélées ?

39 / 41 F. Rossi Analyses multivariées

Page 78: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Attention à l’ordreAnderson's/Fisher's Iris

Petal.Length Sepal.Length Sepal.Width Petal.Width

Les variables Petal sont elles corrélées ?

39 / 41 F. Rossi Analyses multivariées

Page 79: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

Interaction

problèmes :• surcharge de l’écran• surcharge cognitive

solution par interaction :• zoom• vues multiples• sélection et lien :

• sélection d’une zone (brushing)• affichage des résultats sur toutes les vues (linking)

en R• iplots• ggobi et rggobi

40 / 41 F. Rossi Analyses multivariées

Page 80: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

iplots

41 / 41 F. Rossi Analyses multivariées

Page 81: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

iplots

41 / 41 F. Rossi Analyses multivariées

Page 82: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

iplots

41 / 41 F. Rossi Analyses multivariées

Page 83: Fabrice Rossi Télécom ParisTech - apiacoa.orgapiacoa.org/publications/teaching/data-mining/exploratoire-slides.pdf · Histogramme Boxplot et statistiques Variables nominales Analyses

iplots

41 / 41 F. Rossi Analyses multivariées


Recommended