Upload
phungdieu
View
213
Download
0
Embed Size (px)
Citation preview
Équations Structurelles :
Le mariage de la psychométrie et de
l’économétrie
Jean-Louis Chandon
Matinale INSEEC - RITME 24 Mars 2016
Une méthode utilisés dans de
nombreux domaines scientifiques
• Psychologie
• Sociologie
• Ressources Humaines
• Marketing
• Généralisant la régression multiple, les
analyses de la variance et les analyses
factorielles
6 apports des équations
structurelles
1. Estimer simultanément plusieurs relations
2. Incorporer les erreurs de mesure
3. Introduire les variables latentes
4. Introduire des variables médiatrices
5. Introduire des variables modératrices
6. Évaluer globalement et localement un modèle
7. Exemple
Les analyses suivantes sont des cas
particuliers des équations structurelles
• Analyses factorielles exploratoires et confirmatoires
• Analyses de régression
• Anova, Anacova, Manova, Manacova
• Path analysis
• Analyse canonique
• Modèles de croissance
Les équations structurelles (SEM) sont une méthode très générale et très flexible
Distinction PLS vs FIML
• PLS (Partial Least Square) On peut utiliser les moindres
carrés partiels pour estimer des équations structurelles
Les principales différences avec la méthode d’estimation
classique FIML (Full Information Maximum Likelihhod)
sont :
• FIML utilise toutes les informations contenues dans la
matrice des variances covariance entre les variables
observées.
• PLS utilise uniquement les informations nécessaires à
l’estimation d’un modèle
• PLS produit des estimateurs biaisés.
Les règles du jeu
• Des rectangles : les mesures (observées)
• Des ovales : les concepts latents (postulés)
• Des cercles : les erreurs de mesure
• Des flèches qui ont un sens
– Des concepts vers les mesures (le concept se
reflète dans ses mesures)
– Entre les concepts (selon la théorie proposée)
Des flèches à double sens (corrélations entre
concepts)
Variable latente
• Une variable latente est un construit abstrait, non directement observable, qui nécessite de disposer de plusieurs indicateurs pour le mesurer
• Exemple : l’intelligence, la satisfaction, l’attachement, l’engagement, la personnalité, etc.
• Modéliser un construit par une variable latente, c’est reconnaître la nécessité de plusieurs indicateurs et l’existence d’erreurs de mesure
• La relation entre le construit et ses indicateurs peut être réflexive ou formative.
Comment choisir ?
Critères conceptuels de différenciation des construits:
12
Modèle réflexif Modèle formatif
Sens de causalité Du construit vers les indicateurs
Des indicateurs vers le construit
Interchangeabilité indicateurs/items
Si suppression d’1 indicateur
=> Pas d’ altération du domaine conceptuel du
construit
Indicateurs nécessairement interchangeables
Si suppression d’1 indicateur => altération du domaine conceptuel du construit
Indicateurs pas nécessairement interchangeables
Covariance entre les indicateurs
Nécessaire
Pas Nécessaire
Réseau nomologique
Ne doit pas différer
Peut différer
Le processus
Le chercheur spécifie un modèle basé sur la théorie à valider, puis il choisit
des mesures pour les construits, collecte des données et examine, au
moyen d’un logiciel SEM, la qualité de l’ajustement entre la matrice des
covariance observée S et la matrice des covariance ∑ basée sur les
restrictions imposées par le modèle.
Le chercheur spécifie un modèle basé sur la théorie à valider, puis il choisis
des mesures pour les construits, collecte des données et examine, au
moyen d’un logiciel SEM, la qualité de l’ajustement entre la matrice des
covariance observée et la matrice des covariance basées sur les
restrictions imposées par le modèle.
Measures
Fit ?
Le processus
Conventions graphiques
• Les ovales représentent les variables latentes ou les
erreurs de mesure
• Les rectangles représentent les variables observées
• Les corrélations et covariances sont représentées
par des flèches bidirectionnelles courbées
• Les flèches simples représentent la direction de la
causalité
• Les flèches qui portent le poids 1 fixent l’échelle de
mesure
Faisons les comptes
• 7 mesures observées : Amabilité, Compétence,
Mieux, Facile, Bao, CAP, ADV.
• 11 variables latentes dont 7 erreurs de mesure, 3
concepts (2 exogènes et 1 endogène), 1 erreur de
prévision.
• 17 paramètres à estimer dont quatre lambda et 2
Bêta, 10 variances (dont 8 d’erreurs et 2 pour les
concepts exogènes) et une covariance
• 28 (7*8/2) observations dans la matrice de
covariance moins 17 paramètres à estimer, il reste
11 degrés de liberté.
Peut-on estimer séparément
le modèle de mesure et le modèle complet ?
• Oui, c’est recommandé.
• L’ajustement du modèle complet est nécessairement inférieur à celui du modèle de mesure.
• En cas de mauvais ajustement, il convient d’examiner d’abord le modèle de mesure.
• Le modèle de mesure n’est autre que celui d’une analyse factorielle oblique.
• SEM = mariage de la Psychométrie et de l’Econométrie
• La psychométrie traite les erreurs de mesure mais sans model de causalité.
• L’économétrie modélise mais sans tenir compte des erreurs de mesure
Conditions d’utilisation
• Entre 5 et 15 observations par variable
• Continuité et Multi normalité
• Absence de valeurs extrêmes
• Identification
• Taille d’échantillon minimum = 200
• Davantage si les 3 premières conditions ne sont pas remplies
• Pour des variables ordinales, utilisez STATA, MPLUS ou AMOS sur corrélations polychoriques
Que faire si les conditions d’applications ne sont pas remplies ?
• Continuité ? Au moins 5 niveaux sinon utiliser MPLUS, si pas disponible, calculer d’abords les corrélations polychoriques avec STATA, SEMPLIS ou FACTOR 9,2
• Normalité ? Test du kurtosis généralisé de Mardia < 3. Le modèle a plus de chance d’être rejeté en cas de non normalité. Essayer estimation par GLS ? Non. Conserver ML ? Oui ou utiliser ADF si N>1000 ou encore « Robust Adjusted X² » dans EQS ou encore Bootstrap pour calculer le seuil de risque dans AMOS et STATA.
• Identification ? Il faut plus d’équations que de paramètres à estimer, donc DL>0. AMOS, STATA, LISREL réalisent des test d’identification et détectent la plupart des cas de non identification. Il faut alors re-spécifier le modèle.
Exemple de sous
identification • Nb de paramètres à estimer ?
contribution de F1 à I2 +
Variance de F1 +
Variances de e1 et e2 = 4
• Observations disponibles ?
Variance I1, I2, Cov(I1,I2) = 3
• Conclusion ?
Non identifié, donc il faut au
moins 3 indicatrices si une
seule variable latente
Observations disponibles ?
4*5/2 = 10
Nb de paramètres à estimer
4 variances d’erreur +
2 variances pour F1 et F2 +
2 contributions factorielles
F1=>I2 et F2=>I4 +
1 covariance entre F1 et F2 =
9 paramètres à estimer
Le modèle est ?
Identifié ou pas identifié ?
Observations disponibles ?
4*5/2 = 10
Nb de paramètres à estimer
4 variances d’erreur +
2 variances pour F1 et F2 +
2 contributions factorielles
F1=>I2 et F2=>I4 +
1 covariance entre F1 et F2 =
9 paramètres à estimer
Le modèle est identifié
Identifié ou pas identifié ?
Identifié
Valeurs manquantes
• Listwise ? NO
• Pairwise ? NO
• Mean substitution ? NO
• Amos, STATA use maximum likelihood to estimate SEM with missing data
• On peut aussi estimer les valeurs manquantes avant de lancer AMOS avec module MVA de SPSS ou syntaxe Hot Deck
Estimations aberrantes
• Variances négatives ou nulles
• Coefficient standardisés supérieur à 1
• Causes :
– Erreurs de spécification
– Échantillon trop faible
– Pas assez d’indicateurs par variable latente
– Présence de valeurs extrêmes
– Non normalité
– Multi collinéarité excessive
SEM = Causal Model?
• Un modèle d’équations structurelles ne peut jamais
être accepté.
• Il peut tout juste ne pas être refusé par les données
• Des modèles équivalents peuvent exister
• Avoir un ou deux modèles concurrents est une
bonne stratégie de recherche, spécialement si ces
modèles sont enchâssés les uns dans les autres
• La causalité est spécifié par la théorie. Un bon
ajustement d’un modèle ne prouve pas la causalité.
Limites du modèle de régression
• Une seule variable à expliquer
• Pas de variables médiatrices ou modératrices
• Chaque variable explicative est supposée mesurée sans erreur (rectangle)
• La multicollinéarité entre les variables explicatives rend les estimations des paramètres instables
• Les 3 premières limitations disparaissent avec les équations structurelles
Exemple marketing
• L’ intention de rachat est mesurée par :
– L’émission d’un bouche à oreille positif
– Le consentement à payer
– La consultation des annonces de la marque
• La satisfaction avec le vendeur est mesurées par :
– La compétence du vendeur
– L’amabilité du vendeur
• La satisfaction avec le produit est mesurée par :
– La facilité d’utilisation
– Une meilleure performance que le produit précédent
Qualité de l’ajustement
• Pour chaque indice de qualité, on trouve
trois lignes :
• Default: c’est le modèle analysé
• Saturated: autant de paramètres que
d’informations disponibles, aucune
restriction
• Independence: n’estime que les variances
mais aucune des relations
Qualité de l’ajustement :
Les indices absolus
• Le modèle (mesures + structure) reproduit-il les données ?
• X², plus il est petit et mieux cela vaut. Si les données étaient produites par le modèle, la valeur attendue serait égale aux degrés de liberté. X² croit avec la taille de l’échantillon. Si l’hypothèse de multi normalité est violée, utiliser le X² est déconseillé.
• P, seuil de risque. Si p>5% alors accepter le modèle. Mais X² croît avec la taille de l’échantillon et p diminue. Donc avec un gros échantillon X² refuse tous les modèles et avec un petit échantillon X² accepte tous les modèles
Qualité de l’ajustement :
Les indices absolus suite
• GFI, part de la variance totale expliquée par le
modèle. Minimum acceptable = 0.9 Qualité > 0.95
• AGFI, ajusté par le rapport du nombre de variables
aux degrés de liberté. Minimum acceptable = 0.9
qualité > 0.95
• RMR si matrice des corrélations, sinon SRMR,
donne la moyenne quadratique des résidus < 0.08
• RMSEA, différence moyenne, par degré de liberté,
dans la population. Acceptable < 0.08 qualité <0.05
Qualité de l’ajustement :
Les indices incrémentaux
• Comparent le modèle analysé au modèle
indépendant (absence de relations structurelles)
• TLI acceptable > 0.9; qualité > 0.95 mesure
l’amélioration relative, par degré de liberté du
modèle analysé par rapport au modèle indépendant
CFI > 0.9; qualité > 0.95
Qualité de l’ajustement :
Les indices de parcimonie
• X² normé = X²/DL, le plus faible possible. Entre 1 et
3 modèle acceptable, entre 3 et 5 douteux, au delà
de 5 rejeter le modèle (mais croit avec N)
• Préférer Pclose > 0.05 acceptable, proche de 1
qualité
• AIC = X²-2*DL
• CAIC = X² - {ln(N+1)}DL
• Les 2 derniers indices doivent être le plus petit
possible et peuvent être utilisés pour comparer des
modèles concurrents non hiérarchiques
Quels indices présenter ?
• Rmsea, Pclose, CFI, Intervalle de
confiance de Rmsea, Srmr.
• Gerbing & Anderson (1981), Chin (2008)
suggèrent de décomposer le fit global en
deux parties :
– Fit du modèle de mesure
– Fit du modèle structurel
Attitude vis-à-vis de l’agent virtuel
1 J'aime le personnage animé présent dans ce site
2 Le personnage animé m'a laissé une bonne impression
3 J'aime les personnes qui se comportent comme le personnage animé
4 J'ai une bonne impression d'une personne qui ressemble au personnage animé
11 Ce personnage animé me détend
12 Ce personnage animé est très divertissant
13 Le personnage animé me donne envie de venir en ligne et d'acheter
5 Le visage de ce personnage animé est attirant
6 La forme de ce personnage animé attire mon attention
7 La tenue vestimentaire de ce personnage animé attire mon attention
8 La forme de ce personnage animé me plaît
9 La tenue vestimentaire de ce personnage animé me plaît
10 Le personnage animé donne toujours l'impression qu'il est prêt à vous aider dans la navigation
F1
.53
AAVI13e1
.73.62
AAVI12e2
.78
.64
AAVI11e3
.80
.53
AAVI4e4.73
.63
AAVI3e5 .79
.92
AAVI2e6
.96
.89
AAVI1e7
.94
F2
.70
AAVI9e8
.74
AAVI8e9
.55
AAVI7e10
.54
AAVI6e11
.57
AAVI5e12
.84
.86
.74
.73
.76
.67
Quelle est la différence entre
EFA et CFA?
• L’analyse factorielle exploratoire (EFA) utilise les
données pour estimer la structure factorielle sous
jacente (nombre de dimensions et affectations des
items aux dimensions).
• Dans l’analyse factorielle confirmatoire (CFA) le
chercheur spécifie la structure factorielle sur la
base d’une théorie, puis confronte cette structure
avec les données pour savoir si la théorie peut être
conservée ou doit être rejetée.
EFA et CFA se complètent
• On peut commencer par une analyse
exploratoire EFA sur un premier échantillon
• Confronter le résultat et les théories
existantes.
• Tester la nouvelle théorie sur un second
échantillon
• La méthode ESEM (Exploratory Structural
Equation Modeling) permet une EFA avec
tous les tests d’une CFA
PLSc Consistent PLS
• PLSc provides as good a picture of the all-important
structural parameters as FIML.
• In addition, the unrestricted correlations allow proper
estimation.
• There are grounds to believe that a correct test-of-fit is well
within reach.
• The loadings are more difficult to estimate accurately,
which gives FIML a definite advantage.
• Consistent and asymptotically normal PLS estimators for
linear structural equations by Theo K. Dijkstra a, Jörg
Henseler, Computational Statistics and Data Analysis
(2015) 10–23.
Historique des analyses factorielles
Charles Spearman Louis Léon Thurstone R.B. Cattel B.O. Muthén