16
Analyses typologiques But : But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition préalable : Supposition préalable : Les regroupements existent ou peuvent exister. Deux grands types de méthodes typologiques : Méthodes non-hiérarchiques Méthodes hiérarchiques Remarque : Remarque : La typologie, une fois constituée, peut devenir un nouveau critère de description et/ou d’analyse.

Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Embed Size (px)

Citation preview

Page 1: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Analyses typologiques

But :But :Classer en groupes (les plus homogènes possibles)

des unités statistiques en partant d’un ensemble de variables.

Supposition préalable :Supposition préalable :Les regroupements existent ou peuvent exister.

Deux grands types deméthodes typologiques :

Méthodes non-hiérarchiques

Méthodes hiérarchiques

Remarque :Remarque :La typologie, une fois constituée, peut devenir

un nouveau critère de description et/ou d’analyse.

Page 2: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

La Classification Hiérarchique

Méthode « descendante » Méthode « ascendante »

Les différents regroupements peuvent être représentésgraphiquement à l’aide d’un dendrogramme.

Représenter les individus par un ensemblede parties hiérarchiquement emboîtées.

Des individus au groupeDu groupe aux individus

Page 3: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Classification Hiérarchique

Méthode « descendante »

Méthode « ascendante »

Page 4: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Classification HiérarchiqueMéthode « ascendante »

1

3

4

2

5

1

3

4

2

5

1

3

4

2

5

1

3

4

2

5

1

3

4

2

5

Etape n°1 Etape n°2 Etape n°3

Etape n°4 Etape n°5

Page 5: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Classification Hiérarchique

Remarque : le nombre d’individus doit au moins être deux fois supérieur au nombre de variables.

On ne définit pas a priori le nombre de classes

Utilisation du dendrogramme

Page 6: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Exemple élémentaire

•1 •2

•3

•4

•5

Cinq points dans un plan

Iintra = 0

1 2 3 4 5

1 0 16 1 9 10

2 0 17 25 2

3 0 4 9

4 0 13

5 0

Distances euclidiennes

Regroupement : 1 et 3Nouvel individu 6

•6

Iintra = 1

Page 7: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

2 4 5 6

2 0 25 2 12

4 0 13 6

5 0 7

6 0

Regroupement 2 et 5

Distances euclidiennes

Regroupement : 2 et 5Nouvel individu 7

•1 •2

•3

•4

•5•6 •7

Iintra = 0 Iintra = 2

Page 8: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Regroupement 4 et 6

Distances euclidiennes

Regroupement : 4 et 6Nouvel individu 8

4 6 7

4 0 6 19

6 0 9

7 0

•1 •2

•3

•4

•5•6 •7

Iintra = 2 Iintra = 6

•8

Page 9: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

Regroupement 7 et 8 et dendrogramme

•1 •2

•3

•4

•5•6 •7

Iintra = 6 Iintra = 13

•8

1 3 4 2 5

6

7

8

9

1

2

6

13

Page 10: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

I m d g g m d g xqq

q i q ii Qq

²( , ) ²( , )

INERTIE TOTALE = INERTIE INTER + INERTIE INTRA

mx m x

m m

' '

'Si on regroupe x (de poids m) et x’ (de poids m’) en y =

m x g m x g m x y m x y m m y g 2 2 2 2 2

' ' ' ' ( ' )perte d'inertie

m m

m mx x

'

'' 2

m x z m x zmm

m mx x m m y z

2 2 2 2

' ''

'' ( ' )

y zm m

m x z m x zmm

m mx x

2 2 2 21

( ' )' '

'

''

Contribution du couple x x’ à l’inertie

Contribution de y à l’inertie

Page 11: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

4 individus : A B C D

4 variables : V1 V2 V3 V4

V1 V2 V3 V4

A 5 10 13 4

B 16 7 6 1

C 8 15 14 3

D 9 2 11 12

4 POINTS dans un espace de dimension 4

Coordonnées du centre de gravité du nuage :

Inertie totale :

Carré de la distance entre A et B : 188188

9,5 8,5 11 59,5 8,5 11 5

262262

11² + 3² + 7² + 3²

Perte d’inertie consécutive au regroupement de A et B :

94941881111

Poids de A Poids de B

EXEMPLEEXEMPLE

4,5²+1,5²+2²+1²6,5²+1,5²+5²+4²

1,5²+6,5²+3²+2²

0,5²+6,5²+0²+7²

Page 12: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

DISTANCES A B C D

A 0 188 36 148

B 188 0 196 220

C 36 196 0 260

D 148 220 260 0

PERTES D’INERTIE

A B C D

A 0 94 18 74

B 94 0 98 110

C 18 98 0 130

D 74 110 130 0

On regroupe A et C en une classe notée E de poids 2

Page 13: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

V1 V2 V3 V4

A 5 10 13 4

B 16 7 6 1

C 8 15 14 3

D 9 2 11 12

E : 6,5 12,5 13,5 3,5

DISTANCES B D E

B 0 220 183

D 220 0 195

E 183 195 0

PERTES B D E

B 0 110 122

D 110 0 130

E 122 130 0

F : 12,5 4,5 8,5 6,5

Carré de la distance entre E et F : 134

On regroupe E et F en G

Perte d’inertie : 134

Page 14: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

0 26 52 78 104

130

156

Dissimilarité

Dendrogramme

D

B

C

A

18 110 134

92 24

1

2

3

Page 15: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

CLASSIFICATION NON HIERARCHIQUECLASSIFICATION NON HIERARCHIQUE

Méthode des « nuées dynamiques »

Agrégation autour de centres mobiles

Dans cette méthode, on définit au préalable le nombre de classes qu’on veut obtenir dans la partition finale

EXEMPLEEXEMPLE 6 individus (ABCDEF) et 2 variables

A B C D E F

Var 1 2 3 6 8 7 9

Var 2 1 2 5 7 6 6

On décide d’une partition en 22 classes

On choisit au hasard les deux premiers « centres » : CC et FF

Page 16: Analyses typologiques But : Classer en groupes (les plus homogènes possibles) des unités statistiques en partant d’un ensemble de variables. Supposition

A B C D E F

Var 1 2 3 6 8 7 9

Var 2 1 2 5 7 6 6

Carré de la distance à C

Carré de la distance à F

Centre le + proche

A

B

C

D

E

F

32

18

0

8

2

10

74

52

10

2

4

0

CC

CC

CC

CC

FF

FF

ABCE

DF

Poids :4

Poids :2

G1 : 4,5 3,5

G2 : 8,5 6,5

Carré de la distance à G1

Carré de la distance à G2

12,5

4,5

4,5

24,5

12,5

26,5

72,5

50,5

8,5

0,5

2,5

0,5

GG11

GG11

GG11

GG22

GG22

GG22

Centres initiaux : C et F

ABC Poids :3 G’1

DEF Poids :3 G’2

Et ainsi de suite…Et ainsi de suite…