LES SONDAGES LES TECHNIQUES DE SONDAGES PASCAL ARDILLY EDITION TECHNIP 2006.pdf

  • Upload
    baraka

  • View
    137

  • Download
    6

Embed Size (px)

Citation preview

  • 81Courrier des statistiques n 11-1, mai-dcembre 007

    lire, voir lire, voir lire, voir lire, voir lire, voir lire, voir lire, voir lire, voir lire, voir lire, voir

    Les sondages : cest pas sorcier

    propos de louvrage Les techniques de sondage , de Pascal Ardilly, paru aux ditions Technip en 2006

    !ricLesage*

    de sondage alatoire simple est sou-vent utilis en premire approche. De mme, le cas unidimensionnel est expliqu avant le cas multidimen-sionnel.

    Le plan

    Le livre de Pascal Ardilly contient une trentaine de parties regroupes en cinq grands chapitres. Le premier, introductif, prsente le contexte des sondages et les notions de base (50 pages). Le deuxime chapitre pr-sente les plans de sondage classi-ques (00 pages). Le troisime traite de la correction de la non-rponse et du redressement des poids dchan-tillonnage (00 pages aussi). Le qua-trime chapitre met un coup de pro-jecteur sur quelques aspects parti-culiers des sondages (100 pages).

    Enfin, le dernier chapitre prsente des mthodes destimation de la variance dans le cas des plans de sondage complexes (100 pages).

    Premier chapitre

    Les questions fondamentales du son-deur sont la slection de lchantillon, lestimation de grandeurs (souvent socio-conomiques) dfinies sur len-semble de la population et la mesure de la prcision de ces estimations. Une mise au point intressante est faite sur la diffrence entre les estima-teurs sur population finie (estimation de vraies valeurs) et les estimateurs de la statistique classique (esti-mation de paramtres dun modle). Dans le cas des sondages, lala rside dans le choix des individus ; dans le cas de la statistique infren-tielle classique, lala est dans la ra-lisation de la variable observe.

    Dans ce chapitre, lauteur dcrit la place des enqutes par sondage dans la socit actuelle, ainsi que les acteurs et les diffrentes tapes des enqutes. Il mentionne notamment le contrle de la collecte et de la qualit des donnes saisies.

    Les notions de probabilits sont intro-duites par des exemples. Le lecteur non statisticien devra absolument lire

    Douze ans aprs la parution de son ouvrage Les techniques de sondage 1, Pascal Ardilly en a ralis une version actualise et aug-mente en 006. Deux cent cinquante pages supplmentaires lui ont permis dincorporer les derniers dveloppe-ments de la thorie des sondages et de la mthodologie denqute.

    Cet ouvrage de rfrence, en lan-gue franaise, est principalement un manuel du mthodologue denqute ; il sadresse des professionnels de terrain, y compris ceux nayant pas suivi de formation pousse dans le domaine des sondages (ou en ayant suivi une il y a fort longtemps !). Ce nest pas un cours de thorie des sondages, au sens dun ouvrage mathmatique abstrait et synthtique qui sinscrirait dans un cursus de for-mation statistique.

    Les mthodes sont prsentes clairement et rigoureusement. Les dmonstrations mathmatiques, parce quelles intressent davantage les thoriciens que les praticiens, sont relgues au second plan (voire renvoyes en annexe) et lauteur privi-lgie les explications littrales. Il rend son propos accessible et compr-hensible par lutilisation dexemples, de simulations et de prsentations de cas concrets quil a rencontrs dans le cadre de son activit lInsee. Des indications sur la mise en uvre informatique des mthodes sont pro-poses.

    Lorsque cest possible, lauteur pr-sente un cas simple avant de pr-senter le cas gnral. Ainsi, le plan

    * ric Lesage est directeur adjoint de lcole nationale de la statistique et de lanalyse de linformation (Ensai), charg de la direction des tudes.1. Voir ce sujet la fiche de lecture critique rdige par Jean-Claude Deville, intitule Les techniques de sondage, de Pascal Ardilly , parue dans le Courrier des statistiques n 67-68, dcembre 199, p. 59 [NDLR].

    Sou

    rce

    :

    diti

    ons

    Tech

    nip

  • 8

    ric Lesage

    ce premier chapitre ; il dcouvrira les notions de variable alatoire, des-prance mathmatique, de variance et de densit de probabilit dans le cadre spcifique dune population finie.

    Enfin, on trouve un point trs int-ressant sur la notion de base de sondage et sur les diffrents types derreurs (dchantillonnage, dobser-vation, de dfaut de couverture, de non-rponse).

    Deuxime chapitre

    Ce chapitre prsente les plans de sondage classiques avec, pour cha-cun deux, les algorithmes de tirage recommands, la mthode desti-mation sans biais du total et de la moyenne et le calcul de prcision associ.

    Lauteur commence par prsen-ter le tirage alatoire simple. Il men-tionne la possibilit dutiliser la Proc Surveyselect de SAS pour program-mer lalgorithme de tirage. On trouve dans cette mme partie une discus-sion intressante sur la fiabilit de lin-tervalle de confiance (lui-mme estim) et sur la prise en compte des contrain-tes budgtaires par le mthodologue. Le cas particulier de lestimation de proportions est trait. Il est rappel, pour fixer les ides, quune estimation points prs de la proportion de femmes dans la population franaise ncessite le tirage de 500 enquts, mais que la mme estimation, 0,5 point prs, requiert 40 000 sonds !

    La partie suivante prsente la notion fondamentale de stratification. Cette mthode, qui ncessite lutilisation dinformation auxiliaire, apporte un

    gain de prcision important ; cest une technique simple et tout bnfice .

    Le sondage deux degrs pallie quant lui deux inconvnients du sondage alatoire : le besoin dune base de sondage complte et les cots de collecte importants engen-drs par la dispersion gographique des enquts. La contrepartie en est une perte de prcision, bien connue sous le nom deffet de grappe.

    La partie sur le sondage proba-bilits ingales permet de poser un cadre gnral thorique en prsentant notamment lestimateur de Horvitz-Thompson (le -estimateur). Lauteur met en garde ses lecteurs contre les effets nfastes de ces plans de son-dage (dont les risques de dtriora-tion de la prcision et les difficults de calcul de variance). Le cas favorable du plan deux degrs auto-pondr est tudi, notamment une mthode destimation de la variance appro-che (et simplifie). Dans ce cas, les units primaires dchantillonnage sont tires proportionnellement leur taille. Cette partie est galement loc-casion daborder le tirage en deux phases, le partage des poids, le plan de sondage entropie maximum et la modlisation de la non-rponse.

    La cinquime partie prsente la rcente technique de lchantillon-nage quilibr, qui est en quelque sorte la version probabiliste des son-dages par quota. La mthode du cube propose par J-C. Deville et Y. Till est un algorithme gnral qui fonctionne dans un contexte de tirage probabilits ingales. cette occa-sion, lauteur attire lattention des pra-ticiens sur limportance de la matrise de la phase datterrissage . Une macro SAS appele Macro Cube effectue ce tirage. Les deux dernires parties de ce chapitre abordent les enqutes par quota et le cas pratique des enqutes auprs des mnages de lInsee. Lauteur conclut en men-tionnant que linformation auxiliaire est un facteur important damliora-tion de la prcision des estimateurs, mais quil est de fait impossible de trouver un plan de sondage opti-mum pour lensemble des variables dintrt dune enqute.

    Troisime chapitre

    Ce chapitre traite du redressement des poids de sondage effectu dans le but de construire des estimateurs qui estiment sans erreur (en particu-lier avec variance nulle) le total dune ou de plusieurs variables auxiliaires. Le redressement renvoie lutilisation dinformation auxiliaire au moment de lestimation (aprs collecte) par opposition lutilisation dinformation auxiliaire au moment de lchantillon-nage. Le redressement nest avan-tageux que si la variable dintrt est bien explique par les variables auxiliaires.

    Lauteur passe en revue plusieurs mthodes de redressement, en prci-sant pour chacune dentre elles quels sont les nouveaux poids, si lestima-teur est biais et si la prcision est meilleure que dans le cas o lon ne redresse pas. On est souvent dans le cas simplifi dun plan de sondage alatoire simple ou dun sondage de taille fixe probabilits gales. Est dabord prsente la post-stratifica-tion univarie , qui conduit un estimateur lgrement biais mais toujours plus prcis que lestimateur non redress dans le cas du sondage alatoire simple. Le raking-ratio est ensuite introduit comme une version multidimensionnelle de la post-stra-tification.

    Lestimateur par le ratio est faible-ment biais, mais peut tre moins prcis que le -estimateur si la cor-rlation entre la variable auxiliaire et la variable dintrt est insuffisante. Il est intressant en particulier dans le cas des tirages deux phases ou deux degrs.

    Lestimateur par la rgression est lestimateur vedette qui gnralise les estimateurs par le ratio et post-stratifi. Dans le cas dun sondage alatoire simple, cet estimateur est toujours plus prcis que lestimateur non redress. Il faut noter la faci-lit de mise en uvre du calcul de la prcision en utilisant les formules de variance des estimateurs classi-ques non redresss (HT) dans les-quelles on remplace la variable din-trt par les rsidus de la rgression

    . Dans la plupart des cas, les marges qui sont imposes ne peuvent pas tre rigoureusement gales. On distingue alors deux phases dans lalgorithme de tirage. La premire est la phase de vol : les individus slectionns un par un laissent prsager que lchantillon final redon-nera les bonnes marges. La seconde phase survient lorsque la phase de vol est interrompue avant que lchantillon complet ne soit tir, cest--dire quand lalgorithme ne trouve plus, parmi les individus restants, un groupe qui per-mette de respecter les marges. La mthode du cube offre alors trois options pour finir le tirage de lchantillon. Cet chantillon ne redonnera quapproximativement les marges imposes.

  • 8

    Les sondages : cest pas sorcier propos de louvrage Les techniques de sondage de Pascal Ardilly

    Courrier des statistiques n 11-1, mai-dcembre 007

    linaire de la variable dintrt sur les variables auxiliaires. La prcision de lestimateur par la rgression est galement celle que lon obtient pour les sondages quilibrs ou lorsquon procde un redressement, do son importance.

    La cinquime partie de ce troisime chapitre traite du calage gnralis, qui constitue une approche globale du problme du redressement. Le calage ncessite que lon sintresse aux poids : lobjectif est de dtermi-ner une nouvelle variable de poids ( pas trop loin de la variable de poids initiale) qui permette de bien estimer le vrai total, connu, de lin-formation auxiliaire. Les diffrentes fonctions de distance utilisables en option sont tudies, ainsi que le cas particulier du calage simultan aux niveaux du mnage et de lindividu (ou aux niveaux de lentreprise et de ltablissement). Des mises en uvre avec la macro SAS de calage (Calmar) sont prsentes.

    La sixime partie aborde le sujet compliqu du traitement de la non-rponse qui ncessite de se pencher sur le comportement des personnes interroges. La non-rponse introduit du biais (qui ne diminue pas avec la taille de lchantillon) et une perte de prcision. Lauteur prsente les deux grandes familles de traitement : les mthodes de repondration et les mthodes dimputation. Il insiste sur le fait que labsence de biais repose sur lhypothse forte que le modle de rponse est exact ; il souligne aussi que le cas dangereux est celui o le mcanisme de non-rponse est li la variable dintrt (cas dit non ignorable ).

    Pour appliquer les mthodes de repondration, on peut utiliser selon les circonstances le calage gnralis ou le calage que lauteur dnomme super gnralis , qui traitent la non-rponse et effectuent le redres-sement en mme temps.

    Limputation repose sur la prdic-tion des valeurs manquantes laide dun modle de comportement. Il existe deux familles de mthodes dimputation : les mthodes dtermi-

    nistes (imputation par la rgression et mthode des plus proches voisins) et les mthodes alatoires (hot-deck, mthode des rsidus simuls, impu-tation de variables qualitatives par modlisation explicite et imputation multiple). On trouve ensuite une com-paraison de lefficacit respective des imputations par la moyenne et par hot-deck, un exemple de mthode utilisable pour traiter le cas de non-rponse non-ignorable et un calcul de variance qui prend en compte, en plus de lala dchantillonnage, lala du mcanisme de non-rponse et ventuellement du modle alatoire dimputation.

    Cette partie se conclut par une trs bonne synthse dans laquelle on trouve notamment les taux de rponse de certaines grandes enqu-tes de lInsee et leur volution dans le temps. Le chapitre finit par un cas pratique.

    Quatrime chapitre

    Ce chapitre aborde quelques aspects particuliers des sondages. Le premier concerne lestimation sur un domaine (cest--dire une sous-population). Dans ce cas de figure trs cou-rant, la taille alatoire de lchan-tillon recoupant le domaine dtude entrane des difficults techniques de calcul de biais et de prcision. Lauteur passe ensuite en revue les principaux estimateurs utiliss dans le cadre des petits domaines : estimateurs synthtiques, par la pr-diction, estimateurs composites et estimateurs reposant sur une mod-lisation explicite (en particulier une modlisation linaire mixte). Le deuxime aspect particulier concerne les questions pratiques et le calcul de prcision dans le cas du tirage dindi-vidus dans un mnage.

    La troisime partie aborde lchan-tillonnage dans le temps en distin-guant lapproche longitudinale et lap-proche transversale. Dans chaque cas de figure, on peut envisager essentiel-lement trois types dchantillonnage : un panel pur, un chantillonnage rotatif combinant diffrents panels ou encore un systme dchantillons tirs indpendamment chaque date.

    Pour des tudes longitudinales, le panel permet daccrotre la prcision des mesures dvolution. Dans le cas de lapproche transversale, il faut en revanche tenir compte des naissan-ces . En prsence de panlisation, une des mthodes ddies ce pro-blme difficile est la mthode gn-ralise du partage des poids .

    La fin de cette partie aborde lchan-tillonnage de dates denqute et les enqutes par vague.

    Ce chapitre se termine sur une par-tie trs intressante consacre lapproche modle qui, dans luni-vers des sondages, fait rfrence au concept de modle de superpopu-lation . En sondage, le nombre de paramtres inconnus est N, cest--dire la taille du vecteur de la variable dintrt observe sur la population. Lapproche modle permet de passer de ces N inconnues un nombre de paramtres inconnus considrable-ment plus petit. Les variables din-trt relatives aux N individus de la population sont alors considres comme des variables alatoires dont les lois dpendent dun petit nombre de paramtres. Cette approche per-met de construire des estimateurs optimaux et de comparer les prci-sions de diffrents plans de sondage complexes.

    Cinquime chapitre

    Ce chapitre traite de lestimation de variance dans le cas de plans de sondage complexes. Il existe deux approches principales permettant destimer des variances : une appro-che analytique et une approche par des mthodes de rplication dchan-tillon. Une troisime approche utili-sant le Design effect (effet de plan) est mentionne.

    Dans le cadre de lapproche analyti-que, lauteur donne des estimateurs approchs et simplifis de calcul de variance dans le cas (problmatique) du tirage probabilits ingales. cette occasion, il revient sur la notion de plan de sondage entropie maxi-male. Pour ce qui concerne les esti-mateurs non linaires, il propose luti-lisation de technique de linarisation

  • 84

    ric Lesage

    afin de construire des expressions analytiques approches de variance.

    Les techniques de rplication dchan-tillon sont bien matrises pour les cas simples, mais leur extension aux plans complexes est difficile for-maliser. Lauteur prsente les deux mthodes gnrales du Jackknife et du bootstrap puis la mthode particu-lire des demi-chantillons.

    Ce chapitre se termine sur quatre cas dapplication, dont un traite de la mise en uvre du logiciel Poulpe

    de lInsee dans le cadre de lenqute Emploi.

    Louvrage se termine par une biblio-graphie douvrages de rfrence comments et classs en cinq rubri-ques et par un lexique dans lequel les diffrents termes techniques ont leur traduction en anglais.

    Mon avis

    Ce manuel est un formidable tat de lart vulgaris, trs prcis, trs clair, avec des explications bien rdiges et sans digressions.

    Je recommande ce livre aux mtho-dologues denqute de lInsee (et au-del, de la statistique publique), ceux des instituts denqutes de marketing et aux chercheurs qui tra-vaillent sur les sondages et leurs applications.

    Les concepteurs denqutes et les chargs dtudes y trouveront ga-lement des informations utiles. Enfin, jinvite les statisticiens et les cono-mistes lire les parties sur lapproche modle et lestimation de vraies valeurs . n

    Avant-propos

    I. Aspects universels, principes de base

    1. Gnralits. Formalisation et vocabulaire de base. Loi dun estimateur et intervalle de confiance4. Principe des estimateurs en chane 5. Bases de sondage6. Diffrents types derreurs rencontrs dans les

    enqutes7. Principales tapes dune enqute

    II. Prsentation des plans de sondage classiques

    1. Sondage alatoire simple. Sondage stratifi. Sondage plusieurs degrs4. Sondage probabilits ingales5. chantillonnage quilibr6. Sondages empiriques7. Cas pratique : lchantillonnage des enqutes-

    mnages de lInsee dans les chantillons-matres 90 et 99

    8. Synthse

    III. Amlioration des estimateurs (redressements, correction de non-rponse)

    1. Post-stratification simple. Post-stratification sur plusieurs critres. Estimateur par le ratio (ou par le quotient)4. Estimateur par la rgression5. Une approche gnrale du problme : calage gn-

    ralis et application Calmar 6. Traitement des non-rponses

    7. Cas pratique : lenqute biens durables ameuble-ment

    IV. Quelques aspects particuliers des sondages

    1. Estimation sur des domaines. Tirage dindividus dans un mnage. chantillonnage dans le temps4. Introduction lapproche modle

    V. Plans de sondages complexes : lments pour estimer les prcisions

    1. Problmes poss et gnralits sur les types de traitements

    . Deux mthodes gnrales destimation de prci-sion : le bootstrap et le jackknife

    . Une mthode particulire destimation de prci-sion : les demi-chantillons

    4. Cas dapplication 1 : mise en uvre du logiciel Poulpe dans le cadre de lenqute emploi de lInsee

    5. Cas dapplication : mthode de calcul de prci-sion des enqutes-mnages tires dans lchan-tillon-matre 8

    6. Cas dapplication : prcision de lindice trimestriel des loyers

    7. Cas dapplication 4 : prcision anticipe des enqutes-mnages tires dans lchantillon-matre 90

    Conclusion

    Bibliographie

    Lexique

    Index

    Table des matires