Upload
oda-portal
View
105
Download
2
Embed Size (px)
Citation preview
Analyses typologiques
But :But :Classer en groupes (les plus homogènes possibles)
des unités statistiques en partant d’un ensemble de variables.
Supposition préalable :Supposition préalable :Les regroupements existent ou peuvent exister.
Deux grands types deméthodes typologiques :
Méthodes non-hiérarchiques
Méthodes hiérarchiques
Remarque :Remarque :La typologie, une fois constituée, peut devenir
un nouveau critère de description et/ou d’analyse.
La Classification Hiérarchique
Méthode « descendante » Méthode « ascendante »
Les différents regroupements peuvent être représentésgraphiquement à l’aide d’un dendrogramme.
Représenter les individus par un ensemblede parties hiérarchiquement emboîtées.
Des individus au groupeDu groupe aux individus
Classification Hiérarchique
Méthode « descendante »
Méthode « ascendante »
Classification HiérarchiqueMéthode « ascendante »
1
3
4
2
5
1
3
4
2
5
1
3
4
2
5
1
3
4
2
5
1
3
4
2
5
Etape n°1 Etape n°2 Etape n°3
Etape n°4 Etape n°5
Classification Hiérarchique
Remarque : le nombre d’individus doit au moins être deux fois supérieur au nombre de variables.
On ne définit pas a priori le nombre de classes
Utilisation du dendrogramme
Exemple élémentaire
•1 •2
•3
•4
•5
Cinq points dans un plan
Iintra = 0
1 2 3 4 5
1 0 16 1 9 10
2 0 17 25 2
3 0 4 9
4 0 13
5 0
Distances euclidiennes
Regroupement : 1 et 3Nouvel individu 6
•6
Iintra = 1
2 4 5 6
2 0 25 2 12
4 0 13 6
5 0 7
6 0
Regroupement 2 et 5
Distances euclidiennes
Regroupement : 2 et 5Nouvel individu 7
•1 •2
•3
•4
•5•6 •7
Iintra = 0 Iintra = 2
Regroupement 4 et 6
Distances euclidiennes
Regroupement : 4 et 6Nouvel individu 8
4 6 7
4 0 6 19
6 0 9
7 0
•1 •2
•3
•4
•5•6 •7
Iintra = 2 Iintra = 6
•8
Regroupement 7 et 8 et dendrogramme
•1 •2
•3
•4
•5•6 •7
Iintra = 6 Iintra = 13
•8
1 3 4 2 5
6
7
8
9
1
2
6
13
I m d g g m d g xqq
q i q ii Qq
²( , ) ²( , )
INERTIE TOTALE = INERTIE INTER + INERTIE INTRA
mx m x
m m
' '
'Si on regroupe x (de poids m) et x’ (de poids m’) en y =
m x g m x g m x y m x y m m y g 2 2 2 2 2
' ' ' ' ( ' )perte d'inertie
m m
m mx x
'
'' 2
m x z m x zmm
m mx x m m y z
2 2 2 2
' ''
'' ( ' )
y zm m
m x z m x zmm
m mx x
2 2 2 21
( ' )' '
'
''
Contribution du couple x x’ à l’inertie
Contribution de y à l’inertie
4 individus : A B C D
4 variables : V1 V2 V3 V4
V1 V2 V3 V4
A 5 10 13 4
B 16 7 6 1
C 8 15 14 3
D 9 2 11 12
4 POINTS dans un espace de dimension 4
Coordonnées du centre de gravité du nuage :
Inertie totale :
Carré de la distance entre A et B : 188188
9,5 8,5 11 59,5 8,5 11 5
262262
11² + 3² + 7² + 3²
Perte d’inertie consécutive au regroupement de A et B :
94941881111
Poids de A Poids de B
EXEMPLEEXEMPLE
4,5²+1,5²+2²+1²6,5²+1,5²+5²+4²
1,5²+6,5²+3²+2²
0,5²+6,5²+0²+7²
DISTANCES A B C D
A 0 188 36 148
B 188 0 196 220
C 36 196 0 260
D 148 220 260 0
PERTES D’INERTIE
A B C D
A 0 94 18 74
B 94 0 98 110
C 18 98 0 130
D 74 110 130 0
On regroupe A et C en une classe notée E de poids 2
V1 V2 V3 V4
A 5 10 13 4
B 16 7 6 1
C 8 15 14 3
D 9 2 11 12
E : 6,5 12,5 13,5 3,5
DISTANCES B D E
B 0 220 183
D 220 0 195
E 183 195 0
PERTES B D E
B 0 110 122
D 110 0 130
E 122 130 0
F : 12,5 4,5 8,5 6,5
Carré de la distance entre E et F : 134
On regroupe E et F en G
Perte d’inertie : 134
0 26 52 78 104
130
156
Dissimilarité
Dendrogramme
D
B
C
A
18 110 134
92 24
1
2
3
CLASSIFICATION NON HIERARCHIQUECLASSIFICATION NON HIERARCHIQUE
Méthode des « nuées dynamiques »
Agrégation autour de centres mobiles
Dans cette méthode, on définit au préalable le nombre de classes qu’on veut obtenir dans la partition finale
EXEMPLEEXEMPLE 6 individus (ABCDEF) et 2 variables
A B C D E F
Var 1 2 3 6 8 7 9
Var 2 1 2 5 7 6 6
On décide d’une partition en 22 classes
On choisit au hasard les deux premiers « centres » : CC et FF
A B C D E F
Var 1 2 3 6 8 7 9
Var 2 1 2 5 7 6 6
Carré de la distance à C
Carré de la distance à F
Centre le + proche
A
B
C
D
E
F
32
18
0
8
2
10
74
52
10
2
4
0
CC
CC
CC
CC
FF
FF
ABCE
DF
Poids :4
Poids :2
G1 : 4,5 3,5
G2 : 8,5 6,5
Carré de la distance à G1
Carré de la distance à G2
12,5
4,5
4,5
24,5
12,5
26,5
72,5
50,5
8,5
0,5
2,5
0,5
GG11
GG11
GG11
GG22
GG22
GG22
Centres initiaux : C et F
ABC Poids :3 G’1
DEF Poids :3 G’2
Et ainsi de suite…Et ainsi de suite…