46
Le Sphinx Plus 2 Manuel de référence Logiciel de traitement d’enquêtes et d’analyse de données 2 0 0 0 Le Sphinx Développement 7, rue Blaise Pascal - 74600 Seynod Tél. : 04 50 69 82 98 Fax : 04 50 69 82 78 Internet : http://lesphinx-developpement.fr

2 0 0 0 Le Sphinx - univ-montp3.fr · de savoir ce que l’on recherche et d’avoir une idée de l’intérêt de l’étude. Connaître les données dont on a besoin permet de concevoir

  • Upload
    vantu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Le SphinxPlus2

Manuel de référence

Logiciel de traitement d’enquêteset d’analyse de données

2 0 0 0

Le Sphinx Développement 7, rue Blaise Pascal - 74600 SeynodTél. : 04 50 69 82 98 Fax : 04 50 69 82 78 Internet : http://lesphinx-developpement.fr

2

Copyright © Sphinx Développement 1986 – 1999.

Tous droits réservés

Le Sphinx Développement

7, rue Blaise Pascal74600 Seynod

Téléphone : 04 50 69 82 98Fax : 04 50 69 82 78

e-mail : [email protected] : http://lesphinx-developpement.fr

Sphinx 2000 Avant de commencer 3

Avant proposCe manuel accompagne la nouvelle version du Sphinx quevous venez d'acquérir : Le Sphinx 2000. Nous vous enfélicitons.

Ce logiciel s’appuie très fortement sur les interfaces et lesprotocoles de Windows. Vous retrouverez ainsi leshabitudes que vous avez déjà acquises par l’expérience dece système (gestion des fichiers, menus, dialogues, listesdéroulantes, raccourcis…). Nous nous sommes efforcés detoujours respecter ces conventions bien établies. C’estpour cela que vous parviendrez très facilement à l’utiliser.

Vous serez également guidé par votre connaissance dutravail des enquêtes, des études et de la statistique. Nousutilisons le langage de ces métiers et avons structuré lelogiciel par rapport aux grandes étapes d’une étude :questionnaire, saisie, dépouillement, analyse… Notre souciconstant est de faciliter votre compréhension devantl’écran. A cette fin, de nombreux commentaires sontaffichés pour vous aider à vous situer et à comprendre lesmenus, boutons de commande, options… Pour lesopérations les plus complexes, vous êtes pris en chargepar un assistant. Enfin, lorsque le sens d’un article ou d’unbouton vous échappe, il vous suffira d’essayer pourcomprendre très vite son utilité.

Pour toutes ces raisons, vous n’aurez aucune difficulté àvous servir de votre logiciel et peut-être pourrez-vousmême vous passer du manuel. Mais vous risquez alors dele sous-utiliser ou de vous compliquer inutilement la vie. Eneffet, toutes les possibilités qu'il offre ne sont paségalement visibles ni toujours très compréhensibles aupremier abord et vous risquez de passer à côté defonctions très utiles.

Le premier objectif de ce manuel est de vous fairedécouvrir tout ce que vous pourrez faire avec le logiciel. Acette fin, il est organisé en doubles pages développant unetâche, une fonction, un résultat que vous pourrezentreprendre ou réaliser.

La partie de droite vous montre le logiciel, ses écrans, sesmenus, ses dialogues et les états (tableaux, graphiques)qu’il permet de produire.

La partie de gauche situe ce que fait le logiciel en terme definalité, d’utilité et de méthodes mises en œuvre. Vous ytrouverez également une explication détaillée des modesopératoires.

Si vous êtes déjà utilisateur du Sphinx, vous pourrezrapidement identifier les nombreuses nouveautés et vousretrouverez facilement vos habitudes.

Si vous découvrez ce logiciel, vous comprendrezfacilement son organisation et son système defonctionnement. La visite guidée que nous vous proposonsen tout début du manuel vous accompagnera dans vospremiers pas. En vous reportant ensuite au manuel vousapprendrez à vous en servir complètement et deviendrezdes experts.

En vous souhaitant un bon travail.

Yves Baulac, Jean Moscarola

4

SommaireAvant de commencer ............................ 91. Installation - Désinstallation .................... 102. L'organisation du Sphinx et les

différents logiciels.................................... 12A l'intention des utilisateurs d'une

version antérieure du Sphinx .................. 14

Le Sphinx en quelques pages............ 171. Bref parcours initiatique .......................... 182. L’élaboration du questionnaire................ 223. La saisie des réponses ........................... 254. Les traitements........................................ 275. Analyser des données textuelles ............ 346. Utiliser toutes les possibilités du

Sphinx ..................................................... 37

Elaborer le questionnaire ................... 411. Pour commencer votre travail ................. 422. Les modèles de questionnaire ................ 443. Création d’une nouvelle enquête ............ 464. Rédaction des questions......................... 485. Bibliothèque de questions....................... 506. Questions à réponses fermées............... 527. Questions ouvertes ................................. 548. Codes, dates et QCM.............................. 569. Organiser le questionnaire...................... 5810.Groupes de questions............................. 6011.Renvois – Restrictions ............................ 6212.Modifier le questionnaire pendant et

après la saisie ......................................... 6413.Mettre en page le questionnaire

papier ...................................................... 6614.Options de mise en page ........................ 6815.Impression du questionnaire................... 7016.Exporter le questionnaire ........................ 72

Saisir les réponses.............................. 751. Les différentes sources de données....... 76

2. Saisie des réponses ................................783. Consultation et modification ....................804. Options et contrôles de saisie .................825. Rassembler / Fusionner ..........................846. Importer des réponses* ...........................867. Gestion de panels* ..................................888. Documenter depuis le panel....................909. Scanner et Internet ..................................9210.Redresser un échantillon.........................9411.Changer d’unité statistique – Eclater

des observations* ....................................9612.Changer l’unité statistique –

Regrouper des observations* ..................9813.Outils complémentaires sur les

réponses*...............................................100

Produire des résultats ...................... 1031. Dépouiller...............................................1042. Environnements de dépouillement et

d’analyse................................................1063. Naviguer dans les tableaux de

résultats .................................................1084. Tableaux récapitulatifs...........................1105. Utiliser les strates ..................................1126. Filtres de sélection.................................1147. Produire automatiquement un rapport

complexe (Plan de dépouillement) ........1168. Produire des listes .................................1189. Caractériser les cellules d'un tableau....120

Modifier les données en lesrecodant ............................................. 1231. Questions et variables ...........................1242. Recoder .................................................1263. Tableaux de listes : codes et dates .......1284. Calculer un barème ...............................1305. Transformer une variable ......................1326. Calculer une nouvelle variable* .............1347. Recalculer une variable et utiliser les

modèles*................................................1368. Combiner des variables* .......................1389. Modifier des variables* ..........................14010.Décrire des observations en cours

d’analyse................................................142

Sphinx 2000 Avant de commencer 5

Analyse univariée, les tableaux àplat...................................................... 1451. Les différents niveaux d’analyse............1462. Tableaux à plat des questions

nominales...............................................1483. Mettre en forme les tableaux à plat .......1504. Les graphiques à plat.............................1525. Tris à plat : tests sur les variables

nominales...............................................1546. Tableaux à plat des questions

numériques et échelles ..........................1567. Tableaux à plat : tests sur les

variables numériques.............................1588. Dépouiller les questions "Autre,

précisez" ................................................160

Analyses bivariées, les tableauxcroisés................................................ 1631. Croiser 2 variables .................................1642. Mettre en forme un tableau croisé .........1663. Tableaux croisés : les graphiques .........1684. Tableaux croisés : tests statistiques

et AFC....................................................1705. Tableaux de moyennes .........................1726. Graphes de dispersion...........................1747. Graphiques "2 critères" ..........................1768. Réduction des dimensions d'un

tableau de moyennes (carte ACP).........1789. Présentation des cartes factorielles.......18010.Corrélation et nuage de points...............18211.Typologies et scores par rapport à 2

dimensions.............................................18412.Reprendre des analyses........................18613.Déterminer une analyse.........................188

Tableaux et graphiques desynthèse............................................. 1911. Les analyses synthétiques.....................1922. Les tableaux de groupes et tableaux

accolés...................................................1943. Les tableaux croisés multiples...............1964. Les tableaux de caractéristiques ...........1985. Elaborer un tableau de

caractéristiques......................................200

6. Les tableaux de modalitésspécifiques* ...........................................202

7. Les tableaux composés* .......................2048. Les baromètres......................................2069. Les dépouillements généralisés*...........20810.Importance et Performance...................210

Analyses multivariées* .................... 2131. Approfondir ............................................2142. Classification automatique ....................2163. Analyser une classification ....................2184. Analyse de la variance à 2 facteurs

(MANOVA).............................................2205. Corrélation et régression multiple..........2226. Corrélation multiple et graphe de

positionnement ......................................2247. Analyse en composantes principales ....2268. Analyse factorielle multiple....................2289. Présentation des cartes factorielles ......23010.Calcul des facteurs et choix du plan

factoriel ..................................................23211.Construire interactivement une

typologie ................................................234

Traitement simple des questionstextes.................................................. 2371. Etudier les textes ...................................2382. Faire du verbatim...................................2403. Tableau de réponses ouvertes..............2424. Analyse de contenu...............................244

L'analyse lexicale en bref ................. 2471. Les interfaces ........................................2482. Du texte aux formes graphiques -

l’approximation lexicale .........................2503. Du texte aux structures linguistiques :

la statistique lexicale..............................2524. L’atelier lexical en bref...........................2545. Les indicateurs lexicaux ........................256

La construction des lexiques........... 2591. Caractères séparateurs et

environnement.......................................260

6

2. Rechercher et marquer des élémentsdans le lexique ...................................... 262

3. Réduire les lexiques.............................. 2644. Groupements automatiques.................. 2665. La gestion des dictionnaires ................. 2686. Les différents types de dictionnaires..... 270

Navigation lexicale et recherchede contexte ........................................ 2731. Du lexique au corpus : la navigation

lexicale .................................................. 2742. Production d'extraits.............................. 2763. Résumé des différentes manières de

produire des extraits.............................. 278

Codification automatique destextes.................................................. 2811. Créer de nouvelles variables

d’origine lexicale.................................... 2822. Codification lexicale .............................. 2843. Mesures lexicales.................................. 2864. Modification du contenu d'une

variable texte......................................... 2885. Fractionner une variable texte .............. 290

Travailler avec le Sphinx .................. 2931. Enregistrements et fichiers ................... 2942. Imprimer, publier, préparer les

rapports ................................................. 2963. Inclure dans le rapport .......................... 2984. Aperçu rapide........................................ 3005. Préférences........................................... 3026. Accélérateurs et raccourcis................... 3047. Travailler avec des données externes .. 3068. Ouvrir un fichier de données................. 308

Eurêka ! le compagnon du Sphinx... 3111. Améliorer la communication grâce

aux modules complémentaires ............. 3122. Mettre en forme les questionnaires

« Papier ».............................................. 3143. Enquêtes "Internet et Email" ................. 3164. Enquêtes "Disquette ou Réseau".......... 318

5. Communiquer les résultats....................320

Méthodologie..................................... 323Rappel des principes de l’enquête par

questionnaire .........................................324Les différentes formes d'enquêtes..............326Un modèle pour concevoir un bon

questionnaire .........................................328Des questions qu'on se pose aux

questions qu'on pose.............................330La manière de poser les questions.............332L'art du questionnaire : la logique de

l'entretien ...............................................334L'art du questionnaire : la logique de

l'analyse .................................................335Théorie des sondages et estimation

statistique...............................................336Définir le bon échantillon ............................338Les formes de l'analyse de données ..........340L'analyse univariée .....................................342L'analyse bivariée .......................................344L’analyse bivariée : Chi2 et AFC ................346L'analyse bivariée : corrélation ...................348L'analyse bivariée : analyse de la

variance .................................................350Analyse multivariée : objectifs et

méthodes ...............................................352L'analyse factorielle : les principes .............354L'analyse factorielle : interpréter les

résultats .................................................356Corrélation et régression multiple...............358Classification automatique..........................360

Table des matières détaillée............. 363

Bibliographie ..................................... 375

Sphinx 2000 Méthodologie 323

Méthodologie

324

Rappel des principes de l’enquêtepar questionnaireDans la plupart des cas, l’enquête par sondage est unevoie de recherche très efficace pour obtenir desinformations. C’est l’outil le plus utilisé dans les étudesqualitatives et quantitatives, dans les enquêtes et lessondages.Mais pour être fiable et efficace, cet instrument doit êtremené avec précaution. Il est donc nécessaire dedéterminer les objectifs de l’étude avant de définir sa miseen œuvre. A cet égard, plusieurs étapes sont alors àenvisager.

Définition des objectifsLa première phase d’une étude consiste à définirprécisément le problème qui doit être traité. Afin de tirer lemeilleur profit des résultats de l’étude, il est indispensablede savoir ce que l’on recherche et d’avoir une idée del’intérêt de l’étude.Connaître les données dont on a besoin permet deconcevoir un instrument capable de les produire. C’estdonc grâce à la détermination préalable des objectifs del’enquête que des moyens appropriés pourront être définis.

La détermination des échantillonsLa réalisation d’un sondage s’effectue sur une partie de lapopulation appelée échantillon. Mais la détermination del’échantillon doit être calculée afin de fournir desinformations et des résultats cohérents avec ceux quiseraient obtenus si toute la population était interrogée. Ilfaut donc d’abord définir la population mère pour être enmesure d’interroger un échantillon fiable et représentatif.C’est tout le problème de l’échantillonnage qui consiste àse poser plusieurs questions : Qui interroger ? Combien depersonnes ? Quel échantillon retenir et comment lesélectionner (échantillon représentatif ou non, tiragealéatoire ou respect de quotas) ? Dans quelle mesure lesrésultats de cet échantillon sont-ils fiables ? Etc. Même siles contraintes budgétaires et les techniques employéesfournissent des éléments de réponses, la théorie dessondages nous apporte des enseignements précis fondéssur des hypothèses contraignantes concernant la sélectiondes échantillons. Néanmoins, le savoir-faire et l’expérienceguident souvent fortement la détermination de l’échantillonà interroger et les logiciels Sphinx proposent une aide àl’échantillonnage.

Les différentes formes d’enquêtesLorsque les objectifs de l’étude, la population mère etl’échantillon sont fixés, il s’agit de définir les moyens mis enœuvre pour l’étude. Si on envisage que l’enquête sera laméthode d’observation et de recueil des informations, ondoit alors opter pour une technique d’enquête.Or celles-ci sont très diversifiées. Parmi les plusrépandues, nous retiendrons l’enquête par voie postale,l’entretien téléphonique, le questionnaire sur Minitel,l’enquête sur Internet et l’entretien en face-à-face. Cesderniers peuvent se dérouler à domicile, sur le lieu detravail, dans la rue, à proximité des points de vente...Le questionnaire est le seul lien, dans les enquêtes parcourrier ou par Internet, entre l’enquêteur et la populationinterrogée. Dans le cas des entretiens téléphoniques ou enface-à-face, la communication entre l’interviewé etl’interviewer passe par le dialogue et le questionnairedevient alors un guide d’entretien ou une grilled’observation où il est possible d’enregistrer les réponses.

Le questionnaireLe questionnaire est donc destiné à capter, dans lapopulation interrogée, les éléments de réponses auxquestions que l’on se pose. Il a alors deux objectifs :provoquer une réaction chez les interviewés et servir desupport à l’interviewer qui pourra y enregistrer sesinformations de façon complète et précise. La rédaction duquestionnaire est à soigner dans ce sens.Le questionnaire incorpore non seulement les questions àposer mais également les plages de réponses. Il estsouvent bon d’indiquer un titre ainsi qu’un commentaireévocateur pour la population interrogée.C’est un instrument très flexible du fait de la grande variétédes questions qui peuvent être posées. L’élaboration d’unbon questionnaire requiert une très grande compétence etpeut être intégrée dans des logiciels spécialisés en analysestatistique. C’est le cas du Sphinx qui propose une gammevariée de fonctions destinées à la conception duquestionnaire.

Le pré-testLa phase de conception d’une enquête s’achève engénéral par le test d’une enquête pilote qui permet devalider, sur un nombre restreint de personnes, les choixeffectués dans le cadre de l’étude.Ce test permet de découvrir si le protocole d’étude estréaliste, si le contenu et la forme des questions sontadaptés aux objectifs de l’étude.

Sphinx 2000 Méthodologie 325

C’est aussi souvent l’occasion de découvrir des erreursgrossières et des oublis, ou encore de vérifier la nécessitéde chaque question posée et d’écarter éventuellementcelles qui ne répondent pas directement aux objectifs del’étude.Le test d’une enquête présente donc l’intérêt de rechercherla meilleure adaptation entre les objectifs de l’étude, lesmoyens alloués et les méthodes choisies.

Le recueil des donnéesQuoique fastidieuse, cette phase ne présente aucunedifficulté particulière, même si selon les techniquesd’enquêtes utilisées, les enquêteurs doivent posséder descompétences plus ou moins importantes.Cette étape nécessite néanmoins une bonne organisationdu travail et peut être effectuée dans des logiciels degestion de données, de traitement d’enquêtes ou d’analysestatistique.Actuellement, l’amélioration des communications entre ceslogiciels permet d’échanger les bases de données trèsfacilement et de reprendre des données existantes commes’il s’agissait d’informations obtenues par questionnaires.Dans ce domaine, le Sphinx présente une fonctiond’importation des données depuis des traitements detextes, des tableurs ou toute base de données externes.

Le dépouillement et l’analyse dedonnées

Une fois les réponses saisies, on s’intéresse aux résultatsqui vont ressortir de cette étude. On peut alors distinguerplusieurs niveaux d’analyse : on commencera par leconstat des réponses données par les interviewés, c’est-à-dire le dépouillement. Cette phase sera complétée par descalculs ou des tests statistiques et par unapprofondissement des analyses pour parvenir auxrésultats significatifs de l’enquête, ce qui permettrad’adapter les décisions et les actions aux conclusions del’étude.Le dépouillement des résultats donne rapidement unaperçu de l’ensemble des résultats de l’enquête enproduisant des tableaux ou graphiques de résultats et deslistes de réponses données. Il est d’abord conseillé deprendre connaissance des résultats des variablesconsidérées indépendamment les unes des autres et deprocéder ensuite à la mise en relation de plusieursvariables.La phase d’analyse permet d’effectuer des tests et descalculs sur les résultats extraits du dépouillement. Elle apour objectif d’analyser les résultats de façon précise etd’aider à l’interprétation et à la décision.

Il est souvent nécessaire, après analyse, de revenir sur ladéfinition initiale d’une ou plusieurs variables pour modifieret enrichir la base initiale de données. A ce niveau, on peuttransformer le contenu d’une variable en procédant à desregroupements ou à la suppression de modalités deréponses, mais on peut également créer ou calculer denouvelles variables.

La présentation des résultatsLa présentation des résultats significatifs de l’enquête estparfois une tâche complexe : elle nécessite de prendreconnaissance des analyses de données pour nesélectionner que les plus caractéristiques et les plussynthétiques.Les résultats retenus pour le rapport d’étude sontégalement ceux qui sont susceptibles de conduire auxprises de décisions et aux actions. Il s’agit ensuite de lesprésenter dans un rapport d’étude qui, par sa mise enpage, ses commentaires, ses graphiques..., mettra envaleur les résultats significatifs.Dans cet objectif, le Sphinx propose des fonctionsadaptées qui permettent de présenter un rapport organiséselon un plan de dépouillement, de synthétiser et résumerles résultats dans des tableaux construits à cet effet etcomplétés par des commentaires générésautomatiquement par le Sphinx.Des fonctions de mise en forme des tableaux et graphiquesde résultats permettent également de distinguer lesrésultats les plus significatifs dans l’ensemble desinformations ressortant de l’étude réalisée dans le logiciel.Enfin, les nombreuses possibilités d’échange avec lesautres logiciels offrent une grande souplesse lors de laréalisation du rapport d’étude.

La communicationLe travail d'enquête et d'étude s'apparente à un travail decommunication :• communication amont pour la transmission du

questionnaire, l'exposé des questions, le recueil desréponses ;

• communication avale pour la diffusion des résultats, letravail d'argumentation et d'aide à la décision.

Les nouvelles technologies offrent de nouvellesopportunités de mise en page, de présentation, d'illustrationpar des couleurs ou des images, d'interactivité dans leséchanges avec les répondants ou le destinataire durapport. Avec l'évolution des logiciels, le chargé d'étudespeut ainsi de mieux en mieux maîtriser cet aspect importantde son travail.

326

Les différentes formes d'enquêtesL'observation directe

L'observation directe consiste à mener une observationsans solliciter la participation consciente des personnesobservées. Ceci pose bien sûr des questions d'ordre moral: a-t-on le droit de procéder à l'insu de ceux qu'on observe? Tout dépend de l'usage qui sera fait des informationsrecueillies.

Il existe aussi des obstacles d'ordre pratique. En effet,beaucoup d'informations sont inaccessibles par cetteméthode. D'autre part, les dispositifs concrets permettantd'assurer ce type d'observation (camouflage, glace sanstain, caméra vidéo) sont coûteux et difficiles à mettre enœuvre. Notons cependant les nombreuses possibilitésoffertes par Internet. L'analyse des traces (origine, pagesvisitées, temps passé, clic...) laissées par l'internaute estune modalité de l'observation directe.

Entretien en face-à-faceLes protagonistes de l'entretien se font face et peuventainsi dialoguer en utilisant toutes les ressources de lacommunication interpersonnelle. Les circonstances de cetype d'entretien - communication de sujet à sujet -présentent des avantages certains. L'enquêteur solliciteactivement le répondant tout en interagissant avec lui pourréguler l'entretien dans sa durée. Des questions peuventêtre précisées ou expliquées, l'interprétation des réponsespeut être vérifiée, au risque cependant d'influencer ou debiaiser l'observation.

Cette méthode n'est pas exclusive de l'observation directe.L'enquêteur peut, en cours ou à l'issue de l'entretien, noterles caractéristiques du comportement de son interlocuteur.Durée de l'entretien, perception de l'assurance, de lasincérité de l'interlocuteur, présence ou absence decertains indices sur les lieux de l'interview, decomportement a priori définis.

Entretien téléphoniqueC'est une autre forme d'entretien. La communication ydispose de moins de ressources. Les protagonistes ne sevoient pas, l'enquêteur ignore le cadre dans lequel setrouve le répondant. L'interaction reste possible, mais labonne compréhension de l'interlocuteur est privée desinformations gestuelles. La pression du temps s'exercedifféremment.

Enquête par voie postaleLe questionnaire est, dans ce cas, l'unique lien entrel'observateur et la population. Le répondant est seul, librede répondre ou non, dans l'ordre qui lui convient, sanssubir d'autre influence que celle des indications etquestions que le questionnaire expose. Il a tout le tempsqu'il souhaite pour réfléchir à ses réponses.

L'observateur s'est exprimé une fois pour toutes enélaborant des questions qu'il ne peut plus ni modifier niexpliquer. De même n'a-t-il aucun recours auprès durépondant pour vérifier le sens de ses réponses.

Enquête via InternetCe type d'enquête se développe avec l'usage de l'Internet.Le questionnaire est accessible sur un site, le répondant litles réponses sur son écran et entre directement lesréponses. L'avantage de ce procédé est de supprimer enaval la saisie informatique. D'autre part, ce moyen permetde gérer la séquence des questions. Une nouvelle questionn'apparaît à l'écran que lorsque la question précédente areçu une réponse. C'est un avantage par rapport auxenquêtes par courrier dans lesquelles il est impossible dedévoiler progressivement les questions. Cette approche estde plus en plus fréquente pour la consultation des panels.Elle reste encore limitée pour le grand public par le faibletaux de connexion des ménages.

Enquête en laboratoire et panelLa situation expérimentale consiste à mettre l'individu dansun contexte contrôlé par l'expérimentateur. Il est possibleainsi, en construisant des plans d'expérience, d'isoler leseffets de chacune des actions envisagées.

Avec les panels, on professionnalise l'échantillon enrecrutant dans une population considérée, des individus quiacceptent de répondre aux consultations dont ils serontl'objet. Ils sont en général rémunérés et formés au rôle quiest le leur : répondre le plus objectivement possible auxquestions qui leur sont périodiquement posées par l'institutqui gère le panel.

Sphinx 2000 Méthodologie 327

AVANTAGES INCONVENIENTS

Enquêtetéléphonique

- Objectivité dans l’observation desfaits ou comportements.

- Perturbation minimum du fait del’enquêteur.

- Impossibilité d’observer desopinions ou attitudes.- Difficulté de mise en œuvrepratique (condition de l’observation,formation de l’enquêteur).- Problème déontologique. Onobserve des gens à leur insu.

- Coûteux.

- L’enquêteur influence lerépondant.

- Tout dépend de la qualité desenquêteurs, de leur formation àl’enquête, et de leur sérieux surle terrain.

- Permet l’observation des attitudes etcomportements.- Bon contrôle de l’échantillon sondé :les personnes contactées sont« contraintes » de répondre.- Possibilité de dévoilerprogressivement les objectifs del’enquête.- Souplesse liée à l’enquêteur :adaptation du vocabulaire,interprétation des réponses,précisions apportées.- Possibilité d’entretiens plus longs.

- Moins coûteux que face-à-face.

- Moins d’influence liée à l’enquêteur.

- Coût moindre surtout avec Internet.- Le répondant ne subit pasl’influence de l’enquêteur.- Le répondant a le temps de laréflexion, ce qui permet une meilleureapproche des questions d’opinion.

- Difficulté à poser correctementdes questions à réponsesassistées.- Impossibilité de passer desquestionnaires trop longs.

- Faible taux de réponse.- Absence de contrôle a priori del’échantillon.- Forte influence liée auquestionnaire et à sa logique.

Enquête parcourrier postalou électronique

Enquête enface à face

Enquête parobservation

directe

328

Un modèle pour concevoir un bonquestionnaireCelui qui rédige un questionnaire peut toujours ramener lesquestions qu'il envisage à l'un des 4 grands thèmessuivants. Ceux-ci peuvent être étudiés indépendammentles uns des autres, mais la richesse de l'enquête naîtra dela manière dont on est capable de les relier dans unsystème.

Les grands thèmes d'une enquêteLes quatre grands thèmes suivants peuvent s'appliquer àl'étude de tout type de population. Le 4ème thème neconcerne que les populations humaines.• Identité : qui interroge-t-on? Quels objets observe-t-

on?• Comportement : Que font ceux qu'on interroge,

comment agissent - ils? Quelles sont les propriétés desobjets observés ?

• Motifs contraintes: quelles sont les raisons quiguident les comportement, expliquent les actions ? Aquelles contraintes, mécanismes sont soumis les objetsétudiés ?

• Opinions et valeurs : quelle signification les sujetsaccordent-ils à leur comportements, sur quelles valeursse fondent leurs motifs d'action ?

Concevoir le questionnaire comme unsystème

Les thèmes qui structurent le questionnaire peuvent êtreenvisagés comme un système situant les questions lesunes par rapport aux autres. Ainsi, l'explication d'uncomportement peut être recherchée dans des facteursd'identité suivant les modèles du déterminisme social oudans la prise en considération des motifs en référence aumodèle de décision rationnelle. Toutes les relationsenvisageables entre les différents thèmes peuvent fairesens en renvoyant aux grandes théories du domaineétudié.

Raisonner ainsi sur les relations entre les questions permetd'affiner le questionnaire en anticipant sur les analyses quise révéleront utiles au moment de l'analyse des résultats.

Utiliser le modèle identité,comportement, motifs, opinion etvaleurs

Quel que soit votre domaine d'étude, il vous sera utile derevenir sur votre questionnaire en l'analysant du point devue de ce modèle. Tous les thèmes sont-ils abordés, lesmanques correspondent-ils à un choix délibéré ou à unoubli ?

Quelles sont les relations envisageables entre questions ?A quel type de théorie renvoient-elles ? ....

Sphinx 2000 Méthodologie 329

Identité

Comportement

Motifs

Opinions valeurs

Qui ?

Fait quoi ?

Pourquoi ?

Quel senscela a ?

Identité Comportement

Motifs

Opinions valeurs

Le questionnaire comme liste

Le questionnaire comme système

Qui fait quoi ?

Quels motifs expliquent lescomportements ?

Quel sens accorder au comportement ?

Qui pense quoi ?

Les actionsenvisagées

Les questionsqu’on se pose

Les questionsqu’on pose

330

Des questions qu'on se pose auxquestions qu'on posePièce maîtresse de toute enquête, le questionnaire est àl'articulation du modèle conceptuel, expression deshypothèses et du mode opératoire, instrumentd'observation et de recueil de l'information. De la théorie àl'observation, du concept à la variable, le questionnaireorganise, par l'intermédiaire des questions posées et desréponses obtenues, la confrontation des idées auxphénomènes du terrain.

Quelle que soit la sophistication des traitements effectuéset le sérieux des chiffres, c'est sur le sens des mots quereposent finalement les contributions de l'étude.

La question qu'on se poseToute question posée dans un questionnaire renvoie à uneou plusieurs questions que s'est posée celui qui fait l'étude.Ainsi, derrière toute question qu'on pose, il y a unequestion qu'on se pose : une hypothèse. Celle-ci renvoie àune ou plusieurs théories, connaissances préalablesdégagées dans une phase préliminaire d'étudedocumentaire et de réflexion. La qualité du questionnairerepose sur la clarté de ce travail initial.

La question qu'on poseSa fonction est de susciter une réponse, donc deprovoquer une réaction. Mais pas n'importe quelle réaction.On recherche en fait la réponse à la question qu'on se poseet on veut la connaître avec une objectivité maximale. Ilfaut donc perturber le moins possible l'authenticité de cequ'est celui qu'on interroge, ce qu’il fait, sait, ressent, penseet à tout prix, éviter de provoquer une réponse quiserait influencée par les circonstances de l'interrogation.

Neutralité, objectivité, mais aussi clarté. Que le sens de laquestion soit le même pour celui qui la pose que pour celuiqui l'entend. La qualité des réponses dépend de celle de lacompréhension entre questionneur et répondant.

La réponse qu'on enregistreLa finesse de l'observation dépend du procédéd'enregistrement de la réponse. Répondre en choisissantparmi une liste de modalités prédéfinie fait perdre la variétéet les nuances que permet l'enregistrement d'une réponselibrement formulée. Il en va différemment lorsqu'il s'agitd'une grandeur ou d'un nombre. Il suffit alors d'enregistrertel quel le chiffre annoncé pour saisir dans l'unitéconsidérée toutes les nuances de la réponse. Dans tousles autres cas, la mesure dépend de l'étalonnage del'instrument. Choix de l'unité, définition a priori d'unsystème de codification : dès la conception duquestionnaire, il faut imaginer les réponses. Ce travailsuppose une connaissance a priori sur les phénomènesabordés. Sans hypothèses, pas d'observation.

Rédiger un bon questionnaireRéaliser un bon questionnaire nécessite de la méthode etbeaucoup de métier.

La méthode : respecter les étapes de la démarche :• Formuler des hypothèses claires, les questions qu'on

se pose.• Traduire ces hypothèses sous forme de questions à

poser en tenant compte des caractéristiques despopulations interrogées, de leur langage et descirconstances de l'interrogation.

• Tester le questionnaire en l'administrant en situation.Cette phase fait ressortir les problèmes de langage, lesdifficultés de compréhension, elle permet d'évaluer ladurée de l'entretien...

• Dépouiller et analyser les réponses obtenues au coursdu test. On pourra ainsi constater que telle question n'estpas vraiment utile, que telle autre manque, que lamanière d'enregistrer les réponses n'est pas la pluspratique. On est ainsi conduit à tenir compte, dès laconception du questionnaire, des traitements que l'onsouhaite faire.

Le métier : il s'acquiert avec l'expérience. Formuler un bonquestionnaire est une tâche difficile qui exige de trouver lemeilleur compromis entre les impératifs de laconceptualisation, du terrain et des méthodes statistiques.A cet égard, si vous êtes néophyte, vous gagnerezbeaucoup de temps et obtiendrez de bien meilleursrésultats en faisant appel aux conseils d'experts. C'est ceque nous vous proposons au travers du service Le Sphinxen direct. Consultez-nous pour bénéficier de notreexpérience.

Sphinx 2000 Méthodologie 331

0Non réponse 1Oui 2Non

0Non réponse 1FR.INTER 2Europe 3RMC 4RTL5Ville 6Horizon 7Antenne 8Sud 9Musica

LAMETHODE

D'OBSERVATION

L'INDICATEUR

LA VARIABLE

L'HYPOTHESELa question qu'on se pose

Les réponsesqu'on

enregistre

Les résultats qu'on obtient

Avez vous écouté la radio hier ou aujourd'hui ?

Si oui, laquelle ?

Quelle est la radio locale que vous écoutez le plus souvent ? 0Non réponse 1Ville 2Horizon 3Antenne 4Sud5Musica

Les questionsqu'onpose

Guide d'entretien Formulaired'enregistrement

Quelle radio vient en tête , ou :Combien de personnes écoutent journellement telle radio ?

Taux d'écoute: Nombre de personnes ayant cité telle radio à la question 2sur Nombre de personnes interrogées

De ce que l'enquêteurprononce à ce que lerépondant comprend

De ce que le répondant dità ce que l'enquêteur

enregistre

Le questionnaire est au centredu dispositif d’enquête

332

La manière de poser les questionsEntretien libre : Question ouverte,réponse spontanée

Une question est à réponse spontanée lorsque aucuneindication n'est apportée au répondant sur la manière deformuler sa réponse. Même s'il s'agit d'une question àréponse fermée - dont la réponse sera codée par rapport àdes modalités préétablies - la nomenclature préconçue nelui est pas communiquée. Par exemple, la profession estdemandée sans que la classification en CSP ne soitfournie. Le répondant est donc entièrement libre de saréponse.

Entretien semi ouvert : Questionouverte, réponse fermée

La réponse librement obtenue n'est pas nécessairementenregistrée telle quelle. L'enquêteur peut interpréter laréponse pendant l'entretien, ou à réception desquestionnaires expédiés par courrier. Il applique pour cefaire la codification dérivée des modalités de réponsesdéfinies avec la question.

Procéder ainsi suppose :• En face-à-face, que l'enquêteur prenne garde de ne

pas dévoiler la liste des modalités qu'il a sous les yeux ;• Par courrier ou Internet, que les modalités de réponses

aux questions qui doivent rester ouvertes, ne figurent passur le questionnaire expédié, bien qu'elles aient étépréconçues et doivent servir ultérieurement à lacodification.

Comme le montre le tableau ci-contre, l'entretien est ditouvert si la réponse est libre et enregistrée telle qu'elle estdonnée. Il est semi-ouvert si la réponse est libre, mais laréponse enregistrée suivant la codification préétablie.

Entretien fermé : Question assistéeLa question est fermée ou à réponse assistée si la liste desmodalités de réponses est communiquée au répondant. Onl'aide à répondre en lui proposant de choisir parmi une liste.

• Dans les enquêtes par courrier ou Internet, lesquestions sont généralement assistées. Trèscouramment utilisé, ce procédé simplifieconsidérablement le traitement. On évite ainsi tout letravail d'interprétation engendré par le système semi-ouvert.

• Dans les enquêtes en face-à-face, l'enquêteur peuténumérer la liste, la faire lire sur son document ou utiliserdes panneaux écrits en grosses lettres à cet effet. Cettedernière méthode est de loin la meilleure.

Au téléphone, l'énumération est le seul moyen d'assister laquestion. Cela ne va pas sans poser quelques difficultés sila liste est trop longue.

Procéder ainsi a l'avantage de la facilité pour ceux qui fontl'enquête. Mais cette méthode comporte également desrisques.

• Le répondant est fortement poussé à répondre. Il fautdonc bien préciser que la réponse n'est pas obligatoire etprévoir une rubrique la rubrique "autre précisez"

• L'ordre dans lequel sont énumérées les questions etles modalités de réponses a une influence sur le choix.Lorsque la liste est longue, les dernières modalités sontsurvolées ou trop rapidement énoncées par l'enquêteur.L'attention se fixe alors sur les premières citations. Si deplus, celles-ci sont des réponses évidentes, lephénomène est amplifié : il faut donc éviter de placer cesmodalités en tête de liste.

Pour éviter les autres effets d'ancrage sur le début de laliste, il peut être intéressant de soumettre l'échantillon àdes énumérations différentes obtenues par permutation.On neutralise ainsi les éventuelles influences en faisantvarier la position des termes.

La manière de poser une question peuten affecter le sens

Suivant que la question est assistée ou non, l'informationrecueillie n'a pas la même signification. Nous reviendronsultérieurement sur ce point. Notons pour l'instant que cettedécision affecte le fond de l'enquête et ne doit pas êtreprise à la légère. Son application correcte par lesenquêteurs doit donc être soigneusement contrôlée.

Sphinx 2000 Méthodologie 333

Manière de poser la question.Manière d'enregistrer la réponse.

Question Ouverte:

à réponse spontanée.

Question Fermée

à réponse assistée. Fermée

Réponses selon Modalités

prédéterminées.

Ouverte:

Réponse

telle qu'elle.

Le répondant ne peut

se satisfaire des

réponses proposées.

Préciser la catégorie "Autre

II

III IV

I Question: Possédez vous une automobile,

si oui quelle en est la marque ?

Réponse du répondant Citroën

Enregistrement réponse

0 Non réponse 1Non 2Française

3Allemande 4Italienne 5Japon

6Améric. 7Autre

2

Question: Parmi les qualités`suivantes : co

sécurité, puissance, robustesse, vitess

faible consommation, faible coût achat quel

les 3 plus importantes à vos yeux?

Réponse du répondant: Confort, Vitesse

Enregistrement réponse

0 Non réponse 1Confort 2Sécurité

3Puissance 4Robustes. 5Vitesse

6Consomm. 7Prix 8Autre

1

Question: Combien de kilomètres

parcourez vous dans l'année avec

votre automobile

Réponse du répondant 25400

Enregistrement réponse 25400

Question: Possédez vous une automobile,

si oui quelle en est la marque ?

Réponse du répondant Citroën

Enregistrement réponse Citroën

ou:

ENTRETIEN SEMI-OUVERT

ENTRETIEN OUVERT

ENTRETIEN FERME

5

Poser les questions et enregistrer les réponses

334

L'art du questionnaire : la logiquede l'entretienQuelques principes fondamentaux doivent êtrescrupuleusement respectés.

Introduire le questionnaireCourrier ou media électronique

Un texte bref situe l'organisme qui réalise l'enquête etdonne quelques indications sur les buts poursuivis ainsique sur la manière de remplir le questionnaire.

Il est important de prévoir une incitation à répondre :explication des buts de l'enquête, proposition detransmettre les résultats, ou cadeau. Tout dépend dubudget mais la force de l'incitation peut affecter beaucouple taux de réponse.

Plus le questionnaire est long, plus faible est l'incitation àrépondre. Il doit être clairement rédigé, aéré et occuper unnombre de pages le plus réduit possible.

Les possibilités graphiques et d'animation des médiasélectroniques peuvent être utilisés comme des incitations àrépondre. Mais attention à ne pas surcharger les pages etallonger ainsi le temps de réponse.

Face-à-face

Tout le processus repose sur la qualité des relations quel'enquêteur parvient à établir. Sa mise, son expression, sesattitudes doivent être adaptées au public qu'il interroge.Ces paramètres doivent être adaptés aux circonstances del’enquête (dans la rue, à domicile...).

Téléphone

Il n'y a pas de différence fondamentale entre la prise decontact en face-à-face et au téléphone mais le téléphoneexige une concision et une clarté d'expression encore plusgrande. Si le répondant se déclare indisponible, il est plusaisé d'obtenir un rendez-vous téléphonique. Le simple faitde le solliciter permet parfois de faire tomber l'objection.

Respecter les usages de laconversation

Un entretien a sa logique propre. Comme uneconversation, il évolue de propos généraux vers desquestions plus précises. En face-à-face ou au téléphone, ilfaut en tenir compte.

Les questions gênantes ou difficiles doivent être reportéesen fin d'interview.

Il faut éviter de faire débuter un questionnaire en face-à-face par des questions d'identité. Ce qui se justifie du pointde vue de l'analyse risquerait de transformer l'entretien eninterrogatoire de police. Il faut prévoir des questionsd'introduction ou de transition. Peut être inutiles pourl'analyse, elles ont pour but de rendre l'entretien plus facile.

Enfin, l'ordre des questions doit tenir compte des effetsperturbateurs de l'entretien. Les questions à réponsespontanée doivent précéder les questions assistées. Dansle même esprit, il faut révéler le plus tard possible le butprécis du questionnaire. En effet, certaines réponsesrisquent d'être influencées par celui-ci. Même par courrier,il faut respecter cette règle. On veillera également à ce queles questions dont les réponses peuvent être liées figurentsur des pages différentes.

Longueur du questionnairePlus un questionnaire est long, plus il est difficile àadministrer. Cette contrainte joue en particulier pour lesenquêtes par courrier et téléphoniques.

Eviter les questionnairesorganigrammes

Il faut éviter de multiplier les questions-renvois. Ellescompliquent beaucoup l'entretien et ne se justifient pastoujours. On risque en effet d'imposer au répondant unelogique qui n'est pas la sienne et de biaiser ainsil'observation. Il faut donc se garder de construire unquestionnaire comme on conçoit un organigramme etlimiter les questions-renvois aux impossibilités strictes derépondre.

Sphinx 2000 Méthodologie 335

L'art du questionnaire : la logiquede l'analyseLa difficulté consiste à rédiger un questionnaire qui passebien et qui permette par la suite les analyses les plus richespossibles.

Ne poser que des questions utilesC'est une évidence qu'il faut rappeler car la rédaction faitsouvent oublier les objectifs initiaux. En confrontant la listedes questions que se pose le demandeur à celle desquestions rédigées dans le questionnaire, il faut vérifier querien n'a été oublié et que tout est nécessaire.

Deux cas peuvent alors se présenter :• Une question du demandeur de l'étude reste sans

réponse. Il faut compléter le questionnaire ou constaterqu'il est impossible de répondre sérieusement à l'objectiffixé.

• Une question du questionnaire ne peut être rattachéeà aucune des questions du demandeur. Il faut lasupprimer ou ajouter aux objectifs telle contributioninitialement non prévue. Mais assurons-nous alors quec'est une connaissance susceptible d'affecter l'action dudemandeur.

Adapter le questionnaire auxtraitements et aux analyses projetés

Nomenclatures et analyse par strate

La qualité des résultats est fonction de la taille del'échantillon. Ainsi, découper un petit échantillon en stratestrop nombreuses conduit à des résultats sans signification.

Il faut par conséquent adapter à la taille de l'échantillon, lesmodalités des questions définissant les strates. Si N estl'effectif total et si le nombre de modalités dépasse N/30ces modalités définiront au moins une strate nonexploitable. Ainsi, utiliser une nomenclature de C.S.P. en12 postes en n'interrogeant que 200 personnes nousobligera à regrouper des catégories entre elles pour obtenirdes strates significatives.

Type de variables

Suivant le type de questions, les réponses obtenuesqualifient des états possibles (variables qualitatives), oumesurent des grandeurs (variables quantitatives).

Les variables quantitatives sont plus riches et autorisentdes traitements plus complexes : calculs de moyennes,d'écarts types, corrélations, régressions, analyse encomposantes principales. Ces indicateurs ou méthodespermettent des analyses plus fines et plus puissantes quecelles autorisées par l'usage des variables qualitatives.

Il faut donc être capable, dès la conception duquestionnaire, de définir les traitements envisagés, pourrecueillir les informations nécessaires selon le bon format.Ce choix consiste à déterminer le format de la réponse(texte, codée, fermée, échelle, numérique) en fonction desanalyses envisagées.

Dès la conception du questionnaire,tenir compte de l'analyse des données

Certains choix effectués au moment de la rédaction duquestionnaire conditionnent fortement les possibilitésultérieures d'analyse. Ainsi, s'il est toujours possible detransformer une réponse numérique en variable qualitative,l'inverse n'est pas toujours possible. Si d'autre part, aucunequestion ouverte n'a été prévue, le questionnaire nepermettra aucune véritable découverte, et sans numérique,aucune mesure n'est facilement réalisable.

Question à réponse numérique

Question à réponse échelle

Question à réponse fermée unique

Question à réponse fermée multiple

Variablequantitative

Variable

qualitative

Que siles modalités sont

dans le bon ordre

Toujourspossible

Le questionnaireLes traitements

Expliquer

Relier

Mesurer

Classifier

Mettre encorrespondance

Evaluer

Décrire

Explorer

Question à réponse texte

336

Théorie des sondages et estimationstatistiqueRéaliser un sondage, c'est substituer à l'étude d'unepopulation entière (la population mère), l'observation d'unepartie de cette population, l'échantillon. La théorie dessondages permet de :• définir les conditions selon lesquelles on peut estimer

les propriétés de la population totale à partir desobservations faites dans l'échantillon.

• qualifier l'estimation en indiquant le degré d'erreur oude risque qu'elle comporte.

Le sondage aléatoireL'estimation statistique ne peut être effectuée que sous lesconditions d'un sondage aléatoire. Celles-ci impliquent quela population soit de très grande taille par rapport à cellede l'échantillon et que chaque individu de la population aitexactement la même chance de faire partie de l'échantillon.Sous ces conditions, le calcul de probabilité montre qu'onobtient un échantillon dont la composition est voisine decelle de la population mère.

L'estimation statistiqueDans l'hypothèse du sondage aléatoire, on peut calculer, àpartir d'un résultat observé dans l'échantillon, l'intervalledans lequel doit normalement se situer la valeurcorrespondante dans la population totale. Cette fourchetteappelée intervalle de confiance indique ainsi la marged'imprécision que comporte toute estimation. On al'habitude de la distinguer du risque d'erreur pris enacceptant cette fourchette comme valide. Plus on souhaiteréduire le risque, plus la fourchette sera large et lesrésultats imprécis, au contraire, on peut désirer afficher desrésultats plus précis mais avec un risque d'erreur plusgrand. La seule manière d'améliorer la précision sansaugmenter le risque d'erreur est d'augmenter la taille del'échantillon.

Attention: la qualité de l'estimation ne dépend que de lataille de l'échantillon, sous réserve que le tirage est bienaléatoire. Si l'interrogation porte sur une population entière,les résultats sont exacts et il n'y a plus lieu de parlerd'estimation.

Si l'exhaustivité n'est pas atteinte, quelle que soitl'importance du taux de réponse, l'estimation n'est possibleque si les réponses obtenues sont le fait du hasard. Saqualité ne dépend que du nombre de répondants.

Les paramètres influençant la qualitéd'une estimation

L'intervalle de confiance dépend essentiellement de la taillen de l'échantillon. Par exemple, pour l'estimation d'uneproportion p, on le calcule en application de la formule ci-contre. Il est important de constater que l'intervalle deconfiance décroît avec la racine carrée de la taille del'échantillon, ce qui signifie que plus l'échantillon est grand,plus le gain en précision sera faible.

D'autre part, le produit p*(1-p) est de valeur maximumquand p est égal à 0,5 ; ce qui signifie qu'il sera beaucoupplus difficile d'estimer la victoire d'un candidat de deuxièmetour au soir des élections (il faudra examiner près de 3000bulletins) que l'élimination d'un petit candidat au premiertour. Une centaine de bulletins suffisent pour prévoirl'échec d'un candidat rassemblant 10% des suffrages.

La pratique des sondagesLes conditions théoriques du sondage aléatoire sont trèsdifficiles à réaliser pratiquement. Aucun protocole concretne permet d'assurer la stricte équivalence des chancesd'être interrogé. Même si les numéros de téléphone sonttirés au hasard, la présence ou l'absence au moment del'appel introduit un biais lié au mode de vie...

Pour cette raison, il est toujours utile de vérifier la qualitéd'un échantillon en contrôlant, sur des caractères connusdans la population totale, que les résultats sur l'échantillonsont conformes. Sinon, on dit que l'échantillon est biaisé.Plutôt que d'avoir à le redresser a posteriori, on peut fixerun plan de sondage par quota pour assurer a priori laproportionnalité de l'échantillon. Les limites de cetteméthode tiennent à la connaissance de la population àinterroger et aux possibilités pratiques de recueillir desréponses à partir de plans de sondage multi-critères trèsfins. Interroger tant d'hommes, ouvriers, de plus de 50ans...

Dans la pratique, on combine souvent la méthode desquotas avec une procédure libre pour trouver les individuscorrespondant aux quotas prédéfinis.

Sphinx 2000 Méthodologie 337

Tirage aléatoire et estimation statistique

Effet taille de l’échantillon

Taille

Erreur

Les grands échantillonssont plus précis

Effet de l’ordre de grandeur du phénomène

0%

100%

50%

Les phénomènes «grossiers»sontplus faciles à décrire

précisément

Population mère Echantillon

Sondage

Estimation

p [p-t, p+t]

t=1,96. p.(1-p)/n

Intervalle de confiancedans la population

Proportiondans l’échantillon

n=100n=300

n=1000n=3000

p

[p-t, p+t]

338

Définir le bon échantillonLa théorie des sondages nous apprend que l'estimationstatistique n'est possible que si l'échantillon est aléatoire ets'il est suffisamment important. L'estimation est interdite sil'échantillon est trop petit : n<30.

Outre les difficultés pratiques du tirage aléatoire, ladétermination de la taille de l'échantillon nécessite le choixd'un bon compromis entre la précision attendue et le coûtde collecte des données.

Echantillons homogènesOn est dans cette situation lorsque les analyses ne portentque sur l'échantillon total. On cherchera dans ce cas àsélectionner l'échantillon le plus grand possible comptetenu des moyens disponibles. Plus l'échantillon est grand,plus il faudra interroger de personnes supplémentairespour gagner en précision. A partir d'un certain seuil, lesgains en précision ne justifient plus le coût supplémentaireque cela implique.

Tout dépend en fait du type de décision à prendre et de lamarge d'incertitude tolérable. Ainsi, on sera beaucoup plusexigeant pour évaluer l'audience d'un média en vue de fixerdes tarifs publicitaires que pour une étude de satisfaction.Dans le premier cas, on s'orientera vers de grandséchantillons (1000 à 2000 sondés), dans le second, onpourra se contenter d'échantillons plus modestes (200 à300).

Echantillons hétérogènesCette situation correspond au cas où l’on souhaite établirdes résultats sur des sous-ensembles de l'échantillon. Sil'échantillon est aléatoire, on obtiendra des effectifs trèsfaibles pour les catégories peu représentées ; ce qui risqued'interdire toute estimation sur les strates correspondantes.Ainsi, pour analyser la strate d'une catégorie représentant2% de la population totale, il faut un échantillon contenantau moins 30 personnes dans cette catégorie ; ce quinécessite l'interrogation de 1500 personnes. Mais ceteffectif ne se justifie pas pour étudier la population dansson ensemble. Il faudra donc trancher entre renoncer àanalyser toutes les strates ou supporter le coûtd'interrogation de 1500 personnes.

Une solution de compromis consiste à définir un échantillonstratifié dans lequel on alloue le budget disponible àchacune des strates. Si on dispose d'un budget de 500personnes et si la population se compose de 5 strates, oninterrogera aléatoirement 100 personnes de chaquecatégorie. On est ainsi assuré d'avoir une précisionconvenable pour l'analyse de chaque strate. Mais on nepourra rien tirer de l'analyse de l'échantillon total danslequel certaines strates seront sur-représentées et d'autressous-représentées.

Redressement d'échantillonDans le cas précédent, on redressera l'échantillon totalpour composer un nouvel échantillon dans lequel chaquecatégorie sera représentée à proportion de son poids dansla population totale.

Procéder ainsi conduit, au niveau de l'analyse, à travaillersur les échantillons propres à chaque strate et sur unéchantillon redressé pour analyser la population totale.

Sphinx 2000 Méthodologie 339

AB

C

D

Redresserune solution économique

Il est très coûteux de bienreprésenter les strates de faibles effectifs

AB

C

E

D

A BC

ED

AB

CE

D

Sondage par quota

Sondage aléatoire

E

Taille del’échantillon

200300

20003000

Tauxd’erreur

6,93%5,65%

2,19%1,79%

Intervalle de confiancepour p=50%

[43,07% , 56,93%][44,34% , 55,65%]

[47,81% , 52,19%][48,21% , 51,79%]

Choisir la taille de l’échantillon

340

Les formes de l'analyse dedonnéesLes méthodes de l'analyse de données sont multiples etrépondent à des objectifs variés :• dépouillement visant à restituer les réponses de

manière individuelle ou synthétique ;• transformation des données originales par

recodification ou calcul ;• analyses statistiques visant à décrire, expliquer ou

classifier.

Elles peuvent concerner une ou plusieurs variables, un seulindividu, tous les individus de l'échantillon ou un sous-ensemble appelé strate.

Le niveau d'analyseLes dépouillements peuvent se faire à différents niveaux :• Au niveau de l'individu. On s'intéresse aux données

de détail en vue d'entreprendre des actions individuelles.Les traitements se ramènent alors à restituer tout ou unepartie de l'information propre à chaque observation. Lesrésultats sont produits sous forme de listes plus ou moinsétendues et structurées selon le nombre d'individusdécrits. Ces extractions peuvent être effectuées au stadede la saisie (Consulter un profil d'individus), ou austade du dépouillement en produisant des listes.

• Au niveau de la population entière. On cherche àsynthétiser les informations décrivant chaque individupour traiter la population comme un tout. Ceci revient àgommer les variations individuelles pour décrire chaquevariable par un ou plusieurs indicateurs synthétiques :valeur moyenne pour les variables numériques,fréquence relative des modalités d'une variable nominale.

• Au niveau d'un sous-ensemble de la population.On analyse des catégories particulières d'individus pourtenir compte de l'hétérogénéité de la population. Endéfinissant les conditions auxquelles doit répondre lesous ensemble étudié, on construit la strate qui sesubstitue alors à l'examen de l'échantillon total. Lafonction Changer de strate permet ainsi d'analysercomme un tout n'importe quel sous-ensemble d'individus.

De l'univarié au multivariéOn peut distinguer 3 grandes problématiques auxquellesrépondent 3 manières d'aborder l'analyse :

• L'analyse univariée : on décrit la population enexaminant une seule variable à la fois. C'est la manière laplus simple de restituer l'information et de faire del’estimation statistique.

• L'analyse bivariée : on s'intéresse aux relationsexistant entre 2 variables à des fins d'explication et/ou deprédiction. Cette approche nécessite la formulation d'unehypothèse que la statistique permettra d'infirmer ou deconfirmer.

• L'analyse multivariée : on aborde la complexitérésultant de la multiplicité des variables.

Dans une approche descriptive, on cherche à réduire lenombre de variables (analyses factorielles) ou à agrégerles individus en catégories homogènes (typologies).

Dans une approche explicative, on cherche à intégrer lapluralité des causes et des effets d'interaction (régressionmultiple et analyse de la variance multiple – manova -).

La recodificationLes données disponibles ne se trouvent pas toujours dansun format adéquat. La recodification permet de générer denouvelles variables mieux appropriées à l'analyse. On peutdistinguer :• La recodification d'une seule variable : mettre en

classes une variable numérique, agréger les modalitésd'une variable nominale, recoder une variable texte enfonction de son contenu.

• La recodification de plusieurs variables : calculer unscore à partir des données de plusieurs variablesnominales, calculer une nouvelle variable en applicationd'une formule en faisant intervenir plusieurs variables,créer de nouvelles variables calculées en applicationd'une analyse multivariée (scores factoriels,classifications...).

Sphinx 2000 Méthodologie 341

Analyser la population comme un tout: synthétiser

Variables j

Individus iOn s’intéresse aux variables

Analyser les données individuelles: détailler

On s’intéresse aux individus

Analyser les sous ensembles de la population: segmenterOn s’intéresse aux strates

Analyse univariée

Décrire une variable à la fois

Analyse multivariée

Analyser simultanémentplusieurs variables, synthétiser

Analyse bivariée

Mettre en relations 2 variables, expliquer

Les niveaux d’analyses

Les problématiques

342

L'analyse univariéeL'analyse univariée consiste à donner une descriptionsynthétique de l'ensemble des individus observés ou d'unde ses sous-ensembles. La manière d'effectuer cesdescriptions dépend de la nature statistique des variablesen jeu. Dans le cas d'étude par sondage, on peutégalement se livrer à l'estimation des propriétés de lapopulation mère.

DécrireOn analyse chaque variable pour parvenir à un énoncésynthétique du type :• " Il y a ......." : Il y a tant d'hommes, tant de femmes

qui connaissent notre produit, il y a chez les acheteurstant d'ouvriers...

• " ........... est (sont).... " : Le revenu moyen desménages acheteurs est de.., la qualité est le premiercritère de choix...

• "...........fait (font)....." X% de l'échantillon faitconfiance à......

Ces énoncés spécifient l'état d'une variable par un effectif(tant d'hommes), un pourcentage (X% de la population fait)une grandeur moyenne (le revenu moyen des ménagesacheteurs est...) ou un rang (le premier critère de choix estla qualité). L'importance du phénomène considéré setrouve ainsi chiffrée. L'analyste peut, sur cette base,exercer son jugement pour décider. Si la précision lepermet, il pourra effectuer des calculs et des prévisions.

Dans le cas d'une variable texte, la description consiste àrestituer le texte sous forme de liste ou lexique indiquant lafréquence des termes utilisés. Dans tous les cas, il faudralire et interpréter ces éléments dont le sens n'est pas,comme pour les autres variables, fixé a priori.

Les indicateurs selon le type devariable

Selon le type de variable, la nature de l'informationrecueillie n'est pas de même nature et n'autorise pas lesmêmes traitements. A chaque cas correspondent desindicateurs de résultats différents.

Dans le tableau ci-contre, on passe d'une information trèsbien structurée (variables numériques) à une informationfloue et ambiguë (variables textes), les opérationsauxquelles elles se prêtent vont du calcul algébrique(variables numériques) à la quête du sens (variablestextes). En conséquence, la qualité des indicateursrésultant et le "rendement" des méthodes mises en œuvreva décroissant. Ces propriétés déterminent des techniquesde calcul ou de traitement de l'information, elles devraientégalement guider, dès la conception du questionnaire, lechoix des questions.

Extrapoler à la population totaleSi l'échantillon répond aux conditions du sondage aléatoire(tous les individus de la population ont exactement lamême chance d'être sélectionnés) et s'il comporte aumoins 30 individus, on peut estimer à partir des indicateurscalculés sur l'échantillon, les propriétés de la populationtotale. La valeur de l'écart-type (numérique) et celle del'intervalle de confiance (nominale) donnent les fourchettesde l'estimation.

Attention, dans le cas d'une strate, c'est l'effectif de lastrate qu'il faut considérer et non pas celui de l'échantillon.

Sphinx 2000 Méthodologie 343

Le type de variable détermine les possibilités d’analyse

344

L'analyse bivariéeL'analyse bivariée commence par la formulation d'unehypothèse orientée par la signification des variables et sepoursuit par la mise en œuvre d'une méthode résultant dela nature des variables.

La sémantique : explication etrelations causales

L’analyse bivariée conduit à formuler un énoncé de typeSi..V1.. Alors V2… postulant l'hypothèse d'une relationcausale entre 2 variables. A ce stade, c'est la sémantiquequi guide l'analyse : la signification des variables conduit àformuler une théorie justifiant la relation et son sens. Lastatistique peut confirmer ou invalider son existence maisseule la théorie en donne le sens. Ainsi, on peut établirstatistiquement un lien entre le niveau d'éducation et lerevenu. Mais c'est en fonction d'une théorie qu'oninterprétera cette relation pour dire que le revenuconditionne l'éducation (théorie du coût) ou que l'éducationdétermine le revenu (théorie du rendement).

L'anlayse bivariée commence donc par la formulation deshypothèses que la statistique permettra de tester. Lemodèle ci-contre peut orienter la réflexion : parmi toutes lesrelations envisageables, 3 renvoient à des théories trèsgénérales du comportement humain :• 1 - Le déterminisme sociologique : l’action obéit aux

habitudes et aux contraintes.• 2 - La décision et la rationalité : l’action résulte des

choix et des calculs.• 3 - Les psychologismes : l’action est modalité

d’expression.

On peut bien sûr faire l'économie de la réflexion préalableet essayer toutes les relations envisageables. Ellespeuvent être très nombreuses et perdre l'analyste dans unequête aveugle. D'autre part, le fait de constater une relationstatistique ne suffit pas à établir une connaissanceargumentante. Les exemples sont nombreux dans lesétudes, de coïncidences inexpliquées ou fortuites...

Avant de commencer toute analyse bivariée, il convientdonc d’établir une stratégie de recherche, en mobilisant lesexpériences, intuitions, croyances, théories, toutesconnaissances préalables que l’on confrontera auxinformations contenues dans la base de données. Ondéterminera ainsi quelles variables mettre en relation.

La statistique conduira à rejeter l’hypothèse si on ne peutpas montrer que la relation recherchée existe. Dans le casinverse, la qualité de l’interprétation du fait statistique nedépendra que de celle de la théorie utilisée.

La statistique : mettre en œuvre laméthode adaptée

La méthode à mettre en œuvre pour tester l'existence d'unerelation dépend de la nature des variables en présence.

Le tableau ci-contre identifie les 3 cas possibles selon lanature des variables (nominales ou numériques).

Pour les variables échelles, on se ramène à l'un des casprécédents selon qu'on les considère comme des variablesnumériques ou comme des variables nominales.

Le cas des variables textuelles peut également êtreramené à l’un des 3 cas précédents :• En faisant une analyse de contenu par recodification

de la variable, on est ramené au cas du croisement avecune variable nominale.

• En utilisant les méthodes de l’analyse lexicale :construction d’un tableau lexical qui décompte le nombre

d’occurrences des mots de la variable texteanalysée, pour les modalités d’une variablenominale. On est ramené au traitement d’un tableaude contingence analogue à ceux des tris croisés,

création de nouvelles variables d’origine lexicale :nominales (fermées sur les mots du lexique) ounumériques (longueur, banalité, intensité...)susceptibles d’être mises en relation entre elles ouavec les variables de contexte) ; ce qui ramène àl’un des cas précédents.

Sphinx 2000 Méthodologie 345

La sémantique : la signification des variables guide la formulation des hypothèses

1 Tris croisés

2 Corrélation3 Analyse de la variance

3 Analyse de la variance

Identité Comportements

Motifs

Opinions Valeurs

1

2

3

La statistique : la nature des variables détermine la méthode

346

L’analyse bivariée : Chi2 et AFCAfin de déterminer s’il existe un lien entre 2 variablesnominales, on compare les effectifs du tableau à ceuxqu'on aurait obtenus si les effectifs étaient répartisproportionnellement. Si tel est le cas, quelle que soit lamodalité considérée d’une des variables, la répartition desmodalités de l’autre reste la même. Il y a alorsindépendance entre les 2 variables.

Le calcul du Chi2

Le test du Chi² consiste à déterminer si le tableau étudiécorrespond à cette hypothèse. S’il s’en écarte beaucoup,on présume l’existence d’un lien d’autant plus significatifque l’écart est grand. Le Chi² est la mesure de cet écart.

A partir d'un tableau de contingence à L lignes Li et Ccolonnes Cj, on détermine d’abord, pour chaquecase, l’effectif théorique. C'est le produit du total de sa ligne(Li,.) par le total de sa colonne (C.,j) divisé par le totalgénéral (n) soit (Li,.*C.,j/n). On calcule ensuite la sommedes carrés des écarts entre effectif réel et effectif théorique.Plus l’écart est grand, plus le Chi² est élevé, et plus on a dechances d’être en présence d’un lien significatif.

Cette appréciation dépend bien sûr de la dimension dutableau, c’est-à-dire du nombre de degrés de liberté : ddl =(L-1)* (C-1). Plus il y a de cases, plus la somme risqued’être élevée. Si la valeur du Chi² permet d’indiquerl’existence d’un lien, il faut, pour le qualifier, examinercomment celui-ci est composé.

Contribution au Chi² et interprétationdes correspondances

Sur quelles cases observe-t-on les écarts les plusimportants ? Sur quelles autres les effectifs sont sanssurprise ?

On examine pour cela les contributions de chaque case àla somme du Chi², elles mettent en évidence l'importancede l'excès ou du déficit observable dans chaque cellule.Les cases contribuant le plus fortement sont encadrées debleu ou de rouge selon que l'effectif réel excède ou estinférieur à l'effectif théorique.

Ainsi, c’est l’examen des contributions au Chi² et descorrespondances qu’elles révèlent qui permetvéritablement de qualifier la relation.

Construction et lecture d’une carted’AFC

On peut donner une représentation plus visuelle des écartsà l’indépendance par la technique de l’analyse factorielledes correspondances. Elle conduit à tracer une carte quidispose les modalités des 2 variables en fonction desécarts à la situation d’indépendance.

Par défaut, chaque modalité est représentée par un pavéde surface proportionnelle à son effectif. Leurs positions lesunes par rapport aux autres s’interprètent ainsi :

• 2 modalités lignes et colonnes seront d’autant plusproches que les effectifs du tableau sont en excès parrapport à l’indépendance : attraction.

• Les modalités lignes et colonnes seront d’autant pluséloignées que les effectifs du tableau sont en déficit parrapport à l’indépendance : répulsion.

• Les modalités lignes ou colonnes situées à lapériphérie de la carte signalent des profils originaux. Aucontraire, une position centrale interdit tout commentaire(profils sans originalité ou point mal représenté dans lesystème d’axes de la carte).

Le bien fondé de ces interprétations dépend de :• L’intensité du lien entre les 2 variables, mesuré par le

Chi².• La quantité d’informations restituée par la carte,

indiquée par le pourcentage de variance expliquée (oud’écart à l’indépendance) par les axes. La qualité de lareprésentation est d’autant meilleure que cespourcentages sont élevés.

• L’interprétation des axes à partir des oppositions qu’ilsmettent en évidence doit tenir compte du pourcentage devariance restituée. S’il est faible, il faut se garderd’insister sur des phénomènes qui ne représententqu’une petite partie des caractéristiques du tableau.

Sphinx 2000 Méthodologie 347

348

L'analyse bivariée : corrélationLorsque les variables sont numériques, on dispose d'uneinformation très riche autorisant la recherche d'une formulemathématique pour qualifier la relation.

Nuage de points et droite derégression

La recherche d’une relation entre 2 variables numériques xet y peut se faire de 2 manières différentes :• D’une manière graphique, en représentant chaque

observation par ses coordonnées x et y selon 2 axes. Onobtient alors un nuage de points plus ou moins bienalignés.

• D’une manière algébrique, en recherchant l’existenced’une relation linéaire entre ces 2 variables y = ax + b.On obtient des valeurs calculées y plus ou moins prochesdes valeurs observées.

Selon que la forme du nuage est plus ou moins proched’une droite (la droite de régression), ou que les valeurscalculées à partir de l’équation (de régression) sont plus oumoins proches des observations réelles, on dira que lacorrélation entre les 2 variables est bonne ou mauvaise. Lecoefficient de corrélation mesure la qualité de l’ajustemententre les valeurs y et x réelles et le modèle de la relationreprésenté par l’équation y = ax + b ou par la droitecorrespondante. En référence à une interprétation causaledu modèle, y est appelée variable à expliquer et x variableexplicative.

Coefficient de corrélationLe coefficient de corrélation (r) établit la qualité del’ajustement entre deux variables V1 et V2. Sa valeurabsolue (ou r2) est comprise entre 0 et 1.

Elle est égale à 1 si l’ajustement est parfait : il existe unefonction V1=axV2+b dont le résultat donne toujoursexactement la valeur observée de V1 : on peut alors direque V1 dépend exactement de V2.

Elle est égale à 0 si quelle que soit la fonction considérée,la valeur calculée de V1 est également éloignée de savaleur observée. V1 est indépendante de V2.

L’usage est de considérer qu’à partir d’un coefficient decorrélation de valeur absolue supérieure à 0.8, il existe unebonne relation entre les 2 variables.

Le coefficient de corrélation est également affecté d’unsigne. Il indique le sens de la relation. Elle est croissante sile signe est positif, décroissante sinon. Ce signe est aussicelui de a, le coefficient de régression dans l’équationV1=axV2+b.

V1

V2

V1

V2

Pas de relation r2 <0.1

Relation décroissante, a<0, r2>0.8Relation croissante, a>0, r2>0.8

V1

V2

Dans le cas d’une régression multiple, on cherche à établirune relation du type V1=axV2+bxV3+cxV4. On calculealors un coefficient de régression multiple. Il indiqueégalement la qualité de l’ajustement effectué par le modèleet s’interprète comme un coefficient de corrélation simple.

Modèle linéaire et non linéaireLe calcul du coefficient de corrélation se fait par rapport aumodèle linéaire de l'équation du premier degré à laquellecorrespond la droite de régression. On peut tester larelation par référence à un modèle non linéaire. Il faudrapour cela transformer la valeur de la variable expliquée enla recalculant par rapport au modèle à tester. Par exemple,pour tester un modèle logarithmique, on calculera unenouvelle variable égale au log de la variable explicative :log(x) pour ensuite tester l'equation y=a.logx+b.

Sphinx 2000 Méthodologie 349

350

L'analyse bivariée : analyse de lavarianceL'analyse de la variance s'applique au cas où les variablessont de natures différentes : l'une est nominale et définitdes catégories d'individus, l'autre, numérique, permet demesurer une propriété de ces individus. On pourra ainsi parexemple savoir si, selon le sexe, le revenu variesignificativement.

Tableau de valeurs moyennesLa construction d’un tableau de valeurs moyennes, établit,pour les modalités d'une variable nominale, les valeursmoyennes d'une ou plusieurs variables numériques. Onpeut ainsi comparer ces valeurs entre elles et conclure àl’existence d’une relation si les variations de la moyennemettent en évidence des différences significatives surl’ensemble des modalités.

On utilise pour cela le test de l’analyse de la variance.

Analyse de la varianceSon but est d’établir si, au regard des valeurs de la variablenumérique, les groupes d’individus correspondant auxmodalités de la variable nominale sont significativementdifférents les uns des autres. Elle met en œuvre lesprincipes suivants :• Pour chaque modalité de la variable nominale, la

moyenne de la variable numérique dissimule unedispersion autour de cette moyenne. La variance (le carréde l’écart-type) mesure cette dispersion appeléevariance interne.

• D’une modalité à l’autre, la moyenne varie et révèleune hétérogénéité, plus ou moins grande, mesurée parun autre calcul de variance : la variance entremodalités.

Le test d’analyse de variance porte sur le rapport entre lavariance entre modalités et la moyenne des variancesinternes. Il a pour but de vérifier si l’hétérogénéité entremodalités est plus grande que l’hétérogénéité à l’intérieurdes modalités. Si ce rapport noté F est suffisamment élevé,on dit que la variable numérique discrimine les modalitésde la variable nominale.

Ce jugement global s’applique à la répartition de lapopulation totale en catégories définies par chacune desmodalités. On peut le compléter en comparant les valeursmoyennes de chaque modalité à la moyenne établie surl’ensemble de la population.

Critères discriminants et valeurssignificatives

Les tests d’analyse de la variance et de comparaison demoyennes apportent une information très utile permettantd'identifier les variables pour lesquelles les catégories de lavariable nominale font apparaître des différencesdiscriminantes :• Les variables dont le nom est encadré de bleu

discriminent les modalités de la variable nominale. Pources variables, le test de Fisher est significatif (par défautau risque de 5 %).

• Les cellules encadrées dans le tableau signalent unemoyenne significativement différente de la moyenne surl’ensemble de l’échantillon. Le test de comparaison demoyennes est significatif (par défaut au risque de 5 %).

Représentation graphique de ladispersion

L'analyse d'un tableau de moyennes est facilitée par lareprésentation graphique de la dispersion des variablesnumériques selon les modalités de la nominale.

Analyse de la variance à plusieursfacteurs

On peut mener une analyse de la variance en considérant2 variables nominales et une numérique. On cherche alors,par la comparaison de tous les cas définis par lesnominales les influences directes et croisées qu'ellespeuvent avoir sur la valeur de la numérique. Cette méthodedite analyse de la variance multiple (Manova) fait partie desméthodes multivariées. Elle n'est disponible que dansPlus2.

Sphinx 2000 Méthodologie 351

352

Analyse multivariée : objectifs etméthodesL’analyse multidimensionnelle des données consiste àanalyser simultanément plus de deux variables à la foisdans un but de synthèse ou d’analyse.

SynthétiserIl s'agit de résumer la masse des informations concernantun grand nombre d’individus décrits par de nombreusesvariables.

On cherche à décrire les données par une expression pluséconomique afin d’en rendre compte plus simplement.Deux voies sont envisageables :• La classification ou la typologie : elle consiste à

regrouper les individus de la base de données en classes(ou types) d’individus selon les similarités qui permettentde les rassembler. Par exemple : décrire une populationen identifiant différentes classes de styles de vie.

• La réduction des dimensions d’analyse : elleconsiste à réduire un grand nombre de variables àquelques dimensions communes. Par exemple, ramenerla variété des opinions exprimées par les réponses àvingt questions différentes, à 2 dimensions opposantd’une part, le sentiment à la raison, et d’autre part, latradition au changement.

AnalyserOn cherche les influences de plusieurs variables entre ellespour mettre en évidence comment celles-ci se déterminentles unes et les autres.

On cherche à expliquer en construisant des modèlespermettant d’expliquer une variable par les variations deplusieurs autres, en cherchant ainsi des liens de causalitéplus complexes que la simple relation entre deux variables.

Les méthodesLes méthodes disponibles sont nombreuses :

Certaines sont directes. Elles peuvent consister à :• combiner entre elles plusieurs variables pour calculer

une nouvelle variable qui les résume (une somme, unemoyenne, un score...).

• marquer des individus selon leur appartenance à tellestrate ou selon qu’ils répondent à tel profil et constituerainsi des groupes a priori.

D’autres sont indirectes. Elles reposent sur une analysepréalable de la structure des données orientant la synthèseen fonction des propriétés révélées. On peut distinguer cesméthodes selon le type de variables auxquelles elless'appliquent :

- Pour les variables quantitatives, il s’agit de :• La corrélation multiple : elle permet de construire la

matrice de corrélation qui met en évidence l’ensembledes relations existant entre plusieurs variables.

• L’analyse en composantes principales : à partir despropriétés de la matrice de corrélation, elle permet desubstituer aux variables de départ un plus petit nombrede dimensions qui les résument au mieux. Dans cetespace réduit, on peut alors définir une typologie enregroupant les individus en classes homogènes.

• La régression multiple : à partir des propriétés de lamatrice de corrélation, elle permet de bâtir un modèleexplicatif donnant la meilleure expression de l’une desvariables - variable à expliquer - en fonction des autres -variables explicatives -.

• La classification automatique : cette méthodeconsiste à répartir les individus d’une population en unnombre de classes déterminé a priori. En fonction de lastructure des données, la méthode consiste à améliorerune partition initiale des individus.

- Pour les variables qualitatives, il s’agit de :• L’analyse factorielle des correspondances

multiples : à partir d’une analyse des distances entreindividus, définie par rapport à leur description sur ungrand nombre de variables qualitatives, on détermine unsous-ensemble de dimensions, des facteurs conservantau mieux les distances de départ. Dans cet espaceréduit, on peut alors définir une typologie en regroupantles individus en classes homogènes.

• La classification automatique appliquée à desvariables qualitatives.

Toutes ces méthodes sont accessibles par le menuApprofondir. On peut pour mémoire y rajouter desméthodes de même nature, ne portant pas sur les individusmais sur des tableaux d’effectifs ou des tableaux demoyennes. Le tableau ci-dessous résume les méthodesdisponibles.

Sphinx 2000 Méthodologie 353

Expliquer V1

V2

V3

V3

Synthétiser

Classifier

Régression multiple : n variables numériquesManova : 2 variables nominales et 1 numérique

Analyse factorielle multiple (AFCM) : n variables nominalesAnalyse en composantes principales (ACP) : n variables numériquesAnalyse factorielle des correspondances (AFC) : 2 nominalesAnalyse en composantes principalesd’un tableau de moyennes (ACP) : 1 nominale n numériques

Classification automatique : n numériquesTypologie AFCM : n nominalesTypologie ACP : n numériques

Réduire le nombre desdimensions d’analyse :cartes factorielles, scoresfactoriels.

Regrouper les individus enclasses homogènes.Classification automatique,typologie à vue.

Etablir un modèle des relations entrevariables. Il exprime ces relations sous formede fonction mathématique.

354

L'analyse factorielle : les principesLes méthodes d'analyse factorielle peuvent porter sur desdonnées de dimensions modestes, tableaux croisés,tableaux de moyennes… ou sur des ensembles de grandedimension lorsqu'en ligne, on trouve tous les individus de lapopulation. Dans ce dernier cas, la recherche des facteurspeut se prolonger par la construction d'une typologie.

AFCM et ACPLes deux méthodes dont on présente ici les principesportent sur ce type de données comportant autant delignes que l'échantillon ou la strate compte d'individus.

Quant aux colonnes, ce sont :• soit des variables numériques ou critères (questions

ouvertes numériques ou échelles), auquel cas, il s'agitd'un tableau de valeurs (chaque case est la valeurdonnée par l'individu en réponse à la question posée) etl'analyse est une Analyse en Composantes principalesou ACP sur individus.

• soit des variables qualitatives (questions ferméesuniques ou multiples), auquel cas, elles représentent lesmodalités. Le tableau est alors un tableau binaire necomportant que des 1 ou des 0, selon que l'individu a citéou non la modalité en question. Un tel tableau binairepeut être assimilé à un tableau d'effectifs et peut êtresoumis comme tel à l'Analyse factorielle descorrespondances multiples ou AFC sur individus.

Bien qu’elles concernent des variables de naturesdifférentes, ces deux méthodes mettent en œuvre lesmêmes principes et la même démarche. Nous lesdécrivons d’une manière commune dans ce qui suit, pourillustrer plus en détail ensuite l’Analyse en composantesprincipales et situer enfin, par différence, les spécificitésde l’Analyse factorielle multiple.

Les données individus / variablesLe tableau de i lignes, représentant les individus, et de ccolonnes, représentant les dimensions, correspond àl’univers à analyser. Il forme un hyper-espace de cdimensions dans lequel se situent les i individus.

Les techniques qui nous intéressent ont pour but deramener cet espace à de plus modestes dimensions.

L’idéal est de le réduire aux deux dimensions d’un plan.Cette configuration permet en effet de visualiser lesindividus et de mettre en évidence ce qui les distingue. Cesdeux dimensions, appelées facteurs, résument l’ensembledes variables de départ et peuvent conduire à uneinterprétation plus synthétique de la structure des données.

A partir de ces mêmes informations, on peut regrouper lesindividus en classes de proximité pour définir ainsi unetypologie.

Cette démarche est illustrée par le schéma ci-contre.

Trouver les facteurs pour réduire lenombre des variables d’analyse

La réduction de l’espace de départ se fait par la recherchedes facteurs résumant l’ensemble des données.

Pour l’Analyse en composantes principales - cas desdonnées quantitatives -, on cherche les combinaisonslinéaires des variables qui conservent le mieux la structuredes données. On s’appuie pour cela sur l’analyse de lamatrice de corrélation.

Pour l’Analyse factorielle des correspondances – casdes données qualitatives -, on procède par une analyse dela distance du Chi² en vue de déterminer les facteurs quirestituent au mieux les écarts entre individus. On s’appuiepour cela sur le tableau des effectifs ou tableau de Burt.

Agréger les individus : construire unetypologie

La détermination des facteurs résumant l'information dedépart permet, par projection, de représenter les individusdans un plan. Les individus apparaissent ainsi sous laforme d'un nuage de points mettant en évidence différenteszones. On peut regrouper les individus en catégories selonleur disposition sur la carte et définir ainsi une typologie.

Scores factoriels et typologieL'enregistrement des coordonnées des individus parrapport aux axes factoriels (score factoriels) et leurappartenance à l'une des catégories de la typologie permetde résumer l'information de départ.

Sphinx 2000 Méthodologie 355

Réduire lesdimensions

Regrouperles individus

Synthèse

Variables numériques : Analyse en composantes principales

Variables nominales : Analyse factorielle multiple

On enrichit la base de départ en créantde nouvelles variables correspondant aux :

Scores factoriels Classes typologiques

Données initiales

356

L'analyse factorielle : interpréterles résultats

Qualité de la réduction par l’analysefactorielle

Les algorithmes utilisés consistent à rechercher les npremiers facteurs. Chacun d’eux restitue une partie del’information du tableau de départ. Le premier facteur enrestitue le plus et ainsi de suite, selon l’ordre décroissantde la quantité d’informations.

La qualité de l’analyse dépend ainsi de l’informationrestituée par les deux premiers facteurs. Plus celle-ci estélevée, meilleure sera l’analyse effectuée dans le planqu’ils définissent. Lorsque celle-ci est trop faible, il peut êtrenécessaire de la compléter par l’analyse des planssuivants.

La quantité d’informations restituée par un facteur (ou axefactoriel) est indiquée par le pourcentage de varianceexpliquée par le facteur (AFC) ou la composante (ACP).

Interpréter les facteursL’interprétation des facteurs peut se faire par l’examen duplan factoriel ou à partir du tableau des contributions. Lescontributions indiquent dans quelle mesure les axesrestituent l'information contenue dans les variables dedépart.

Visuellement, on peut raisonner comme si, par leur positionéloignée du centre, les variables (ACP) ou les modalités(AFCM) « tiraient les axes factoriels en leur donnant leurspropriétés ». Au contraire, lorsqu’elles se trouvent près ducentre, elles n’ont pas ou peu d’influence.

Dans le cas de l'ACP, les coordonnées des variables sontégales au coefficient de corrélation de la variable avecchacun des axes. Pour l'AFCM, elles sont un indicateur dela contribution des modalités à chacun des axes.

Trouver une typologie pour grouperles individus en classes homogènes

Par projection, on peut représenter les individus dans leplan factoriel, mais selon leur position dans l’espaced’origine, ils seront plus ou moins bien représentés. S’ilssont éloignés du plan de projection, ils se projetteront aucentre du plan et leur position fera illusion.

Dans le cas de l'ACP, les coordonnées des variables sontégales au coefficient de corrélation de la variable avecchacun des axes. Pour l'AFCM, elles sont un indicateur dela contribution des modalités à chacun des axes.

Ainsi dans la figure suivante, les individus C et A semblentproches alors qu’ils sont en fait éloignés. A est malreprésenté car très éloigné du plan factoriel avec lequel ilforme un angle presque droit.

La projection est déformante, il convient donc de procéderavec prudence, par exemple en ignorant les points malprojetés (ceux qui font un angle élevé avec le plan) et enconcentrant l’analyse sur les groupes de points éloignés ducentre.

Ces précautions étant prises, il est alors possible deregrouper les individus, selon leur proximité dans le planfactoriel, en construisant ainsi une typologie à vue. Cettepossibilité est une des originalités du Sphinx. Elle estaccessible à partir du bouton Typologie figurant en regarddes cartes d’analyses factorielles.

Sphinx 2000 Méthodologie 357

A

B

C

DE

F

C1

C2

C3

C4

C5

C6F1

F2Le schéma ci-contre conduit à interpréter lefacteur F1 comme la dimension sur laquelles’opposent les critères C1 et C4, alors que surle facteur F2, C3 et C5 s’opposent à C2.Les variations du critère C6 sont malreprésentées par ce plan factoriel.

L’examen du tableau des contributionsassocié à cet exemple confirmerait cesinterprétations. Par exemple, on pourrait yvérifier que C6 ne contribue que pour un trèsfaible pourcentage à chacun des axes.

Interpréter les axes

D

A

B

CE

Vue dans l’espace

F

Vue dans le plan factoriel

Projection des individus dans le plan factoriel

358

Corrélation et régression multipleL'objectif de la régression multiple est de mettre en relationune variable, la variable expliquée avec plusieurs autres lesvariables explicatives, dans le but de définir l'équation quiles relie. On pourra ainsi, connaissant les variablesexpliquées, déterminer les valeurs de la variable explicative: V1=axV2+bxV3+cxV4. On calcule alors un coefficient derégression multiple. Il indique la qualité de l’ajustementeffectué par le modèle et s’interprète comme un coefficientde corrélation simple.

L'exemple ci-contre, tiré d'une étude de satisfaction, montrecomment on peut expliquer la satisfaction globale en larapportant à l'évaluation des différents attributs du serviceconsidéré. Les coefficients de régression partielle (ai)donnent une indication sur la manière dont la perception dechaque attribut intervient dans la formation de lasatisfaction globale.

Equation de régression linéairemultiple et paramètres d’ajustement

On calcule l’équation linéaire qui ajuste le mieux la variableexpliquée par rapport aux variables explicatives. Lesrésultats sont communiqués sous la forme de l’équation derégression multiple.

La qualité de l'ajustement s'apprécie principalement à lavaleur du coefficient de corrélation. Plus sa valeur absolueest élevée, plus faible est l'écart entre les valeurs calculéeset observées (cet écart est aussi appelé résidu).

L'effet de chaque variable explicative dépend descoefficients de régression figurant dans l’équation. Pluscelui-ci est grand, plus la variable explicative considéréeinfluence la variable expliquée. Mais il faut également tenircompte de l’écart-type de chacun de ces coefficients. Plusil est élevé, moins nette est l’influence de la variableconsidérée.

Enfin, l’indicateur F est un autre moyen d'apprécier laqualité de l'estimation. Si sa valeur est supérieure au seuild'une table de Fisher, l'estimation est considérée commetrès significative (à 95%) ou peu significative (entre 80 et95%), sinon, elle ne l'est pas du tout.

Les variations de F peuvent conduire à reconsidérer lesvariables intervenant dans le modèle. En effet, lasuppression ou l'ajout de variables supplémentaires peutaffecter la qualité de l'ajustement (coefficient de corrélation)mais dégrader celle de l'estimation. On observe alors unedécroissance de F.

Procédure de régression pas à pasLes variables explicatives interviennent dans le calcul, dansl’ordre de leurs corrélations respectives avec la variable àexpliquer. L’algorithme s’arrête quand la qualité del’ajustement n’augmente plus de manière significative.

Indépendance des variablesexplicatives

L'examen de la matrice des coefficients de corrélationpermet de vérifier que les variables explicatives intervenantdans l'équation sont indépendantes. On peut, en outre,tester la sensibilité de la régression en supprimant ourajoutant des variables. On peut alors suivre l’évolution ducoefficient de corrélation multiple.

Régression non linéaireIl est tout à fait possible de tester des modèles nonlinéaires. Il faut pour cela au préalable transformer lesvariables intervenant dans le modèle en utilisant lafonction.

Sphinx 2000 Méthodologie 359

V1V2V3

Vn

V0

Variables explicatives

Variable expliquée

Vo = a1xV1 + a2xV2 + a3xV3… + anxVn

Equation de régression multiple

Note Evaluations

note globaleRestauration

ConfortHygiène

InformationsSoins rapiditéCompétenceDisponibilité

RéconfortAccueil

ServicesSoins qualité

note_glo

Restaura

Confort

Hygiène

Informati

Soins_ra

Compéte

Disponib

Réconfo

Accueil

Services

Soins_q

1,00 0,42 1,00 0,35 0,17 1,00 0,26 0,33 0,09 1,00 0,23 0,12 0,05 0,12 1,00 0,15 0,22 0,16 0,19 0,17 1,00 0,15 0,22 0,25 0,08 0,08 0,17 1,00 0,14 0,26 0,17 0,22 0,22 0,31 0,15 1,00

-0,00 0,15 0,18 0,29 0,12 0,18 0,14 0,20 1,00 -0,06 -0,04 -0,02 -0,03 0,02 -0,09 -0,00 -0,06 0,03 1,00 -0,06 0,04 -0,03 0,18 -0,00 0,03 -0,02 0,04 0,00 0,02 1,00 -0,14 0,15 0,10 -0,04 0,07 0,09 0,08 0,08 0,01 -0,04 0,04 1,00

note_globale = +0.970 * Restauration +0.891 * Confort -0.652 * Soins_qualité+0.639 * Informations -0.510 * Réconfort +0.390 * Hygiène -0.219 * Services+9.709

Coefficients d’importance relative

Matrice de corrélation

360

Classification automatiqueLa classification automatique répond à l’objectif suivant :regrouper les individus d’une population en classes formantune partition. C’est-à-dire que tout individu appartient à uneclasse et à une seule. La partition est l’ensemble desclasses.

Différentes approches de classificationIl existe plusieurs manières d’opérer une classification :• effectuer le tri à plat ou croisé d’une ou plusieurs

variables fermées uniques. Chaque classe est forméedes individus ayant en commun une modalité (tri à plat)ou un couple de modalités (tri croisé). Toute variablefermée unique (ou toute combinaison de variablesfermées uniques) définit ainsi une classification ;

• construire une typologie à vue à partir de l’examend’un plan factoriel : on définit la variable fermée sur latypologie qui, comme toute variable fermée, définit uneclassification.

Dans le premier cas, la classification est la traductionexacte des données. Mais si on veut la construire à partirde plusieurs variables, on risque d’obtenir un nombrebeaucoup trop grand de classes, ce qui fait perdre toutintérêt à la classification.

Dans le deuxième cas, on peut fixer un nombre réduit declasses ou types, pour capter les individus apparaissantdans un plan factoriel mais le procédé d’affectation peutparaître trop subjectif et approximatif.

La procédure de classification automatique proposée estun compromis pour éviter les inconvénients qui viennentd’être signalés. Elle repose sur la mise en oeuvre de laméthode dite des centres mobiles ou des nuéesdynamiques.

Il existe bien d’autres méthodes (classificationshiérarchiques ascendantes ou descendantes) mais celleque nous proposons peut s’appliquer à de très grandseffectifs et permet de contrôler a priori le nombre declasses.

Définir une classificationLes étapes de la méthode sont les suivantes :• Fixer les objectifs de la classification ;

• Définir la population : tous les individus de la base ouune strate seulement ;

• Sélectionner les variables par rapport auxquelles onsouhaite définir une partition de la population ;

• Fixer le nombre de classes désirées ou une partitionde départ définie par la variable fermée unique de sonchoix ;

Il est tout à fait possible de choisir pour variable de départune typologie définie à partir d’une analyse encomposantes principales ou une analyse factoriellemultiple. On pourra ainsi affiner les agrégations effectuéesdans le plan factoriel.

La méthode des centres mobilesCet algorithme met en oeuvre le principe suivant : onaméliore progressivement la partition de départ encalculant, pour chaque classe, un individu fictif moyen. Ondéfinit alors une nouvelle classification, par agrégation auxindividus fictifs moyens résultant de la classificationprécédente. On répète l’opération tant que la nouvelleclassification diffère de la précédente.

L’individu fictif moyen est calculé comme le barycentre dela classe, l’agrégation se fait en fonction de la moindredistance.

Analyser la classification obtenueLa classification résultant de l’algorithme dépend de lapartition de départ. Elle est fixée d’une manière aléatoire sion se borne à indiquer le nombre de classes désirées,sinon, elle dépend de la variable choisie.

Il peut alors être intéressant de rechercher plusieursclassifications pour les comparer entre elles. On peut pourcela considérer :• la répartition des effectifs conduisant à des classes

plus ou moins équilibrées ;• le pouvoir discriminant de la classification. On

cherchera pour cela à comparer les classes du point devue des variables à partir desquelles on les adéterminées : analyse de la variance ou test du Chi²selon qu’il s’agit de variables quantitatives ou qualitatives.

Sphinx 2000 Méthodologie 361

362