61
Chapitre 4: ACP: Analyse en Composante Principale 28/04/2014 1 Pr. MERBOUHA Analyse des données Economie/Gestion

Ch4 andoneco [mode de compatibilité]

Embed Size (px)

DESCRIPTION

cours Analyse en Composantes Principales

Citation preview

Page 1: Ch4 andoneco [mode de compatibilité]

Chapitre 4:

ACP: Analyse en Composante Principale

28/04/2014 1Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 2: Ch4 andoneco [mode de compatibilité]

I. IntroductionL’analyse en composante principale

(ACP) est une méthode statistiqueessentiellement descriptive: sonobjectif est de présenter, sous uneforme graphique, le maximum del’information contenue dans un tableaude données.

28/04/2014 2Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 3: Ch4 andoneco [mode de compatibilité]

Ce tableau doit être constitué, en ligne,par des individus:

(animaux, clients, ménage … etc ) surlesquels sont mesurées des variablesqualitatives ou pouvant êtreconsidérées comme telles (rendement,chiffre d’affaire etc … ) disposées encolonne.

28/04/2014 3Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 4: Ch4 andoneco [mode de compatibilité]

Si sont lesvariables et n le nombred’individus. X est unematrice rectangulaire à nlignes et p colonnes:

28/04/2014 4Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 5: Ch4 andoneco [mode de compatibilité]

28/04/2014 5Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 6: Ch4 andoneco [mode de compatibilité]

VariableUne colonne du tableau

IndividuUne ligne du tableau

28/04/2014 6Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 7: Ch4 andoneco [mode de compatibilité]

Le choix des individus doit être enaccord avec les objectifs désirés. Ilsseraient issus d’une population commeil peuvent être diversifiés.

Le choix des variables à introduiredevront caractériser aussi bien quepossible les phénomènes qu’on veutétudier

28/04/2014 7Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 8: Ch4 andoneco [mode de compatibilité]

1 Les problèmes qui peuvent être abordés par l’ACP:

L’ACP sert à:

a. Expliquer le rendement d’une culture; du chiffred’affaire d’une entreprise, PIB d’un pays, etc ….

b. Sélectionner les variables sensées expliquer unphénomène à l’étude.

c. Constituer des groupes d’individus qui se ressemblentaux vues d’un certain nombre de variablesquantitatives, pour caractériser les individus demêmes groupes.

28/04/2014 8Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 9: Ch4 andoneco [mode de compatibilité]

L’ACP permet d’obtenir des graphiques où l’on peutobserver, aussi objectivement que possible, lesressemblances et dissemblances des individus,

L’ACP est utilisée pour savoir

- Comment se structurent les variables.

- Et/ou comment se répartissent les individus.

28/04/2014 9Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 10: Ch4 andoneco [mode de compatibilité]

2. Principe de l’ACPSi un tableau de données a p variables quantitatives, on

dira que les individus peuvent être représentés dans unespace de dimension p.

Si p > 3, il est difficile voir impossible de voir ladiposition des individus dans un tel espace.

Le but de l’ACP est de trouver des espaces de dedimensions plus petites dans lesquels il soit possibled’y observer ‘« au mieux » les individus.

28/04/2014 10Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 11: Ch4 andoneco [mode de compatibilité]

Pour des raisons évidentes de facilité devisualisation, les espaces retenus serontà une dimension (c’est-à-dire desdroites) ou, et ce sera le cas le plusfréquent, à deux dimensions (c’est-à-dire des plans)

28/04/2014 11Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 12: Ch4 andoneco [mode de compatibilité]

C’est ce qui se passe lorsque nous réalisonsdes photographies: on passe d’un espace dedimension 3 « où nous vivons » à un espaceà deux dimensions: la photos que nousréalisons.

Ce pendant, selon l’angle sous lequel, onprend notre sujet, toutes nos photosn’apporteront pas la même information surcelui-ci;

28/04/2014 12Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 13: Ch4 andoneco [mode de compatibilité]

Exemple 1Un autre exemple est celui des couleurs des photos:Nous avons tous des milliers de photos sur nos PCs etcela prend beaucoup de place sur nos disques. Cela esten partie du au fait que chaque image est en couleur:rouge ,vert, bleu (RGB). Chaque pixel, chaque site(x,y), contient une information couleur sur l'intensitédu rouge, l'intensité du vert, l'intensité du bleu. Il estdonc possible de diviser par trois la taille d'une image,en ne conservant qu'un seul canal.

28/04/2014 13Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 14: Ch4 andoneco [mode de compatibilité]

Figure: L'image dont on veut réduire l'espace couleur

28/04/2014 14Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 15: Ch4 andoneco [mode de compatibilité]

(a) (b) (c)Figure: (a) : Image projetée sur l’axe « rouge ». (b) Image projetée sur l’axe « vert ».(c) Image projetée sur l'axe « bleu ».

28/04/2014 15Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 16: Ch4 andoneco [mode de compatibilité]

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 16

Page 17: Ch4 andoneco [mode de compatibilité]

- Les droites et les plans d’une ACP sont réalisés avecdes combinaisons linéaire des variables initialesqu’on appelle indices synthétiques.

- Parmi tous les indices synthétiques, l’ACPrecherche d’abord celui qui permet au mieux devoir les individus i.e celui pour lequel la variancedes individus est maximale: cet indice est appelépremière composante principale, ou encorepremier axe principale. Une certaine proportion dela variation totale des individus est expliquée (ouvisible) par cette composante principale.

28/04/2014 17Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 18: Ch4 andoneco [mode de compatibilité]

Ensuite, une deuxième composanteprincipale est recherchée, et cecisous deux conditions:

- Avoir une corrélation nulle avec lapremière

- Avoir à son tour, la plus grandevariance.

28/04/2014 18Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 19: Ch4 andoneco [mode de compatibilité]

Le processus continue jusqu’à l’obtention dela p ème composante principale, les partsd’information expliquées par chacune d’ellesdevenant de plus en plus faible.En résumé, la phase essentielle de l’ACP,

consiste à transformer les p variablesquantitatives initiales, toutes plus ou moinscorrélées entre elles, en p nouvelles variablesquantitatives, non corrélées, appeléescomposantes principales.

28/04/2014 19Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 20: Ch4 andoneco [mode de compatibilité]

3. Présentation des résultats de l’ACP

Tout logiquement, c’est le plan engendrépar les axes 1 et 2 qui sera examiné enpremier: par construction, c’est le plansur lequel le maximum del’information est visible, il est appelé le«plan principal» ou «plan 1-2».

28/04/2014 20Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 21: Ch4 andoneco [mode de compatibilité]

Selon la part d’information prise encompte par ce plan, il sera nécessaireou non d’en examiner d’autres.

Sur ces plans, il sera nécessaire dereporter les directions des variablesinitiales, afin de connaitre celles quiont joué un rôle prépondérant dans laconstitution des composantesprincipales.

28/04/2014 21Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 22: Ch4 andoneco [mode de compatibilité]

Mais il faudrait se méfier; deux individusproches sur un plan, pourraient ne pasl’être dans la réalité.

Il serait extrêmement utile de regarderquelque indicateurs complémentaires,calculé par tout bon logiciel et quipermet de juger de la qualité de lareprésentation de ces individus.

28/04/2014 22Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 23: Ch4 andoneco [mode de compatibilité]

4. Type de tableau pouvant êtretraités par l’ACP

Les variables doivent être quantitatives ou pouvantêtre considérées comme telles.

Selon la nature de ces variables, on peut distinguertrois grands types de tableaux:

28/04/2014 23Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 24: Ch4 andoneco [mode de compatibilité]

a. Les tableaux de mesures: les variables sontobtenues à partir de comptage (nombresd’enfants par ménage, nombre d’épis, … etc)ou sont obtenues à partir d’appareils de mesure(balance, humidimètre, … etc).

b. Les tableaux de notes: (note par exemple entre 0et 20) d’intensité d’une maladie, de niveau desatisfaction d’un produit … etc. ce sont desvariables aléatoires ordinales mais qui peuventêtre généralement assimilées à des variablesaléatoires continues.

28/04/2014 24Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 25: Ch4 andoneco [mode de compatibilité]

c. Les tableaux de rangs: Les variablessont des rangs; les n individus sontclassés de 1 à n, du meilleur au plusmauvais, du plus rapide au plus longpar exemple.

28/04/2014 25Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 26: Ch4 andoneco [mode de compatibilité]

Remarque importante:En pratique, Les tableaux à analyser sont le

plus souvent de différentes natures (mixte);et c’est les variables les plus dispersées quiengendre les premières composantes. Pourremédier à cet inconvénient, il estrecommandé de donner la mêmeimportance à toute les variables en lesréduisant.

28/04/2014 26Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 27: Ch4 andoneco [mode de compatibilité]

L’ACP est réalisé soit:- sur les données centrées, les

variables qui sont les plusdispersées auront plus de poids.

- sur les données centrées et réduitespour donner la même importance àtoutes les variables

28/04/2014 27Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 28: Ch4 andoneco [mode de compatibilité]

28/04/2014 28Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 29: Ch4 andoneco [mode de compatibilité]

Attention

Si l’opération de réduction diminuel’importance des variables les plusdispersées, elle peut inversement,augmenter l’importance des variablespeu dispersées.

Une variable qui aurait à peu près lamême valeur, se verrait attribuer unpoids important, alors que le bon sensconduirait à l’éliminer.

28/04/2014 29Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 30: Ch4 andoneco [mode de compatibilité]

Les matrices à considérer pour une ACP sont alors lamatrices de variance-covariance V ou la matrice decorrélations R.

où V est la matrice de variance-covariance

28/04/2014 30Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 31: Ch4 andoneco [mode de compatibilité]

et

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 31

Page 32: Ch4 andoneco [mode de compatibilité]

Exemple 2: BDD SPSS caractéristiques des dentifrices

Il s’agit d’une étude qui porte sur les avantagesfondamentaux recherchés par les consommateurslors de l’achat d’un dentifrice. Le sondage estréalisé dans 1 centre commercial auprès d’unéchantillon de 30 personnes, qui ont donné leuravis sur les affirmations suivantes, sur 1 échelle de 1(en total désaccord) à 7 (entièrement d’accord) même nombre d’échelons

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 32

Page 33: Ch4 andoneco [mode de compatibilité]

-V1 : Il est important d’utiliser un dentifrice qui

prévient la formation des caries.

- V2 : Un dentifrice doit rendre les dents brillantes.

- V3 : Un dentifrice doit renforcer les gencives.

- V4 : Un dentifrice doit rafraîchir l’haleine.

- V5 : La prévention des caries n’est pas un avantage

important du dentifrice (sic).

- V6 : Un dentifrice doit avant tout donner de belles

dents

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 33

Page 34: Ch4 andoneco [mode de compatibilité]

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 34

Page 35: Ch4 andoneco [mode de compatibilité]

II. Lexique d’interprétation des paramètres

Pour transformer les p variables initialesinter-corrélées en p nouvelles variablesnon corrélées, appelées composantesprincipales, on procède en deux étapes:

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 35

Page 36: Ch4 andoneco [mode de compatibilité]

- La première consiste à élaborer:

- soit la matrice de variance covariance- soit la matrice de corrélation

La deuxième étape est la diagonalisation: Cetteopération impossible à exécuter à la main, fournitessentiellement deux matrices:

- Une matrice de vecteurs propres.- Une matrice diagonale de valeurs propres rangées dans

le sens dégressives:

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 36

Page 37: Ch4 andoneco [mode de compatibilité]

Facteurs principaux:

Pour une ACP sur données centrées et réduites: Lamatrices à considérer est la matrice de corrélation R devecteurs propres appelés facteurs principaux:

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 37

Page 38: Ch4 andoneco [mode de compatibilité]

Utilisation de l’information fournie par les valeurs propres:

On montre que qu’une valeur proprereprésente la variance des individus sur l’axecorrespondant. Chaque valeur propre peutêtre exprimée en valeur relative de lavariance totale est qui est donc la sommedes ces valeurs propres:

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 38

Page 39: Ch4 andoneco [mode de compatibilité]

Remarque

Dans le cas d’une ACP sur des donnéescentrées et réduites, chaque variable a pardéfinition une variance égale à un, donc lasomme des variances est égale au nombre deces variables initiales. Par conséquent, lerapport de chaque valeur propre à lasomme de toutes les valeurs propresfournit un renseignement intéressant: lapart de toute l’information initiale visiblesur chaque axe.

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 39

Page 40: Ch4 andoneco [mode de compatibilité]

Puis ce que les valeurs sont classées de la plusgrande à la plus petite, c’est sur le premieraxe principale que sera visible le maximumd’information en comparaison avecn’importe quel autre axe.

Etant donné que le deuxième axe principal estchoisi avec une corrélation nulle avec lepremier, c’est le plan principale que seravisible le maximum de l’information dunuage de point en comparaison avecn’importe quel autre plan.

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 40

Page 41: Ch4 andoneco [mode de compatibilité]

Quant à la matrice des vecteurs propres,elle est formée en colonne par lesvecteurs propres de la matrice MV, c’estles axes principaux.

Ces vecteurs propres contiennent lescoefficient des combinaisons linéaires:

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 41

Page 42: Ch4 andoneco [mode de compatibilité]

Les composantes principales sont alors les vecteursde

avec

Y étant le tableau des données centrées et D lamatrice diagonale:

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 42

Page 43: Ch4 andoneco [mode de compatibilité]

C’est-à-dire

Les sont les données centrées ou centrées etréduites

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 43

Page 44: Ch4 andoneco [mode de compatibilité]

On montre que le vecteur propreassocié à la plus grande valeur propreexplique le maximum de toutel’information du nuage de points (lesdonnées) parmi tout les autres axes.

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 44

Page 45: Ch4 andoneco [mode de compatibilité]

Puis ce que les valeurs sont classées de la plusgrande à la plus petite, c’est sur le premier axeprincipale que sera visible le maximum del’information totale en comparaison avecn’importe quel autre axe.

Lorsque le deuxième axe principal est choisiavec une corrélation nulle avec le premier,c’est sur le plan principale que sera visible lemaximum de l’information du nuage de pointen comparaison avec n’importe quel autreplan.

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 45

Page 46: Ch4 andoneco [mode de compatibilité]

Nombre d’axe à retenir:

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 46

Dimension de l'espace des individus L'ACP visant a réduire ladimension de l'espace des individus, on veut conserver aussipeu d'axes que possible. Il faut pour cela que les variablesd'origine soient raisonnablement corrélées entre elles. Les seulscritères utilisables sont empiriques.

Interprétation des axeson s'efforce de ne retenir que des axes a propos desquels uneforme d'interprétation est possible (soit directement, soit enterme des variables avec lesquels ils sont très corrélées).

Critère de Kaiser (variables centrées réduites)on ne retient que les axes associes a des valeurs propressupérieures a 1, c'est-à-dire dont la variance est supérieure acelle des variables d'origine.Une autre interprétation est que la moyenne des valeurs propresétant 1, on ne garde que celles qui sont supérieures a cettemoyenne.

Page 47: Ch4 andoneco [mode de compatibilité]

Éboulis des valeurs propresAutre façon de choisir le nombre de classes est dechercher un coude dans le graphe des valeurspropres

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 47

Page 48: Ch4 andoneco [mode de compatibilité]

Retour à l’exemple 2,

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 48

Dans notre exemple 2, si l’on retient les valeurs propres > 1, alors nous devrionsretenir 2 axes factoriels.

Page 49: Ch4 andoneco [mode de compatibilité]

Corrélation entre composantes et variables initiales

Quand on travaille sur les variables centrées-réduites, lacorrélation entre une composante principale ck et unevariable zj est

et donc le vecteur des corrélations de ck avec Z est

Commeon a finalement

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 49

Page 50: Ch4 andoneco [mode de compatibilité]

Le cercle des corrélations r(zj;c2). Qu'est-ce que c'est?

c'est une représentation ou, pour deux composantes principales, par exemple c1et c2, on représente chaque variable zj par un point d'abscisse r(zj; c1) etd'ordonnée r(zj;c2).

Effet « taille »cela arrive quand toutes les variables sont corrélées positivement avec lapremière composante principale. Cette composante est alors appelée facteur detaille, la seconde facteur de forme.

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 50

Page 51: Ch4 andoneco [mode de compatibilité]

Les coefficients de corrélation entre variablesinitiales et facteurs (également appeléspoids factoriels ou loadings) : plus lacorrélation entre une variable et un facteurest élevée, plus cette variable apporte dusens au facteur. Idéalement pourl’interprétation, une variable contribuefortement à un facteur (valeur > à 0,5 ou 0,6en v.a.) et faiblement aux autres facteurs(valeurs < 0,3 en v.a).

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 51

Page 52: Ch4 andoneco [mode de compatibilité]

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 52

Un dentifrice semble a priori être acheté pour 2 raisons principales : soit« santé » (caries/gencives) soit pour des attentes plus « sociales »(brillance/belles dents ou haleine fraîche).

Le facteur 2 est représenté par lesvariables brillance, haleine et bellesdents.

Le facteur 1 oppose caries/gencivesà prévention caries (qui est codéedans l’autre sens).

Page 53: Ch4 andoneco [mode de compatibilité]

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 53

Représentation graphique des variables :

Page 54: Ch4 andoneco [mode de compatibilité]

Représentation des individus sur le plan principal

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 54

Page 55: Ch4 andoneco [mode de compatibilité]

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 55

Dans notre exemple 2, ceci présente peu d’intérêt. Cependant, si l’on avaitété renseigné sur la marque consommée par ces différents individus, cegraphe complémentaire aurait été beaucoup plus intéressant. Ajoutons 1colonne « conso » censée représentée la marque de dentifrice consomméepar l’individu interrogée. On code (affichage des variables valeurs)

1:Sanogyl

2:parogencyl

3:fluocaril

4:tonigencil

5:colgate

6:signal

7:rembrandt

8:ultrabrite

On réalise un nouveau graph, mais cettefois on va étiqueter les observations parmarque consommée.

Remarque : on peut de la même manièrefaire apparaître les variables de notre choixsur la graph.

Page 56: Ch4 andoneco [mode de compatibilité]

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 56

Marques

sociales

Marques santéMarques

généralistes

Page 57: Ch4 andoneco [mode de compatibilité]

Les données considérées sont centrées, elles ne sont pas réduites.

Matrice de variance-covariance:

Matrice de vecteurs propres:

Matrice des valeurs propres

28/04/2014 57

Page 58: Ch4 andoneco [mode de compatibilité]

On a

La proportion de l’information totale visible sur l’axeprincipale dépasse 90%.

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 58

Page 59: Ch4 andoneco [mode de compatibilité]

28/04/2014Pr. MERBOUHA Analyse des donnéesEconomie/Gestion 59

(a) (b) (c)

Figure: (a) : Image originale. (b) Image projetée sur le plan pricipal del'ACP. (c) Image projetée sur le premier axe principale.

Page 60: Ch4 andoneco [mode de compatibilité]

VI. Variables supplémentaires et Individus supplémentaires.

a. Variables supplémentairesL’utilisation de variables supplémentaires s’imposent

quand on veut chercher s’l y a des liens (linéaires) entre unevariable qui représente un intérêt particulier, et d’autresvariables censées «l’expliquer».Une variable supplémentaire est donc une variable«à expliquer». Elle ne participe pas à la construction desaxes. Ce n’est qu’à cette condition que l’observation desliaisons entre la variable à expliquer et les variables activesest objective.

28/04/2014 60Pr. MERBOUHA Analyse des donnéesEconomie/Gestion

Page 61: Ch4 andoneco [mode de compatibilité]

b. Individus supplémentairesLes individus supplémentaires ne participent pas à laconstruction des axes. Mais peuvent être représentéssur les plans principaux.Ces individus serviront d'échantillon test pourvérifier les hypothèses tirées de l'ACP sur lesindividus actifs.

28/04/2014 61Pr. MERBOUHA Analyse des donnéesEconomie/Gestion