23
Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte d’Azur Département STID 6 Janvier 2006 Dipartimento di Fisica Università degli Studi di Genova Via Dodecaneso 33, 16146 Genova 0039 010 3536 207

Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Embed Size (px)

Citation preview

Page 1: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

SondagesCorso di campionamento

Sandro SquarciaStatistica Matematica e Trattamento

Informatico dei Dati (SMID)

IUT Nice – Côte d’AzurDépartement STID

6 Janvier 2006

Dipartimento di FisicaUniversità degli Studi di Genova

Via Dodecaneso 33, 16146 Genova0039 010 3536 207

[email protected]

Page 2: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Scopo del corso

Familiarizzarsi con la terminologia e i diversi tipi di campionamento

Costruire un piano di campionamento

Stimare i parametri di una popolazione a partire dai risultati di un campionamento

Valutare gli errori del campionamento

Determinare i livelli di “attendibilità” che a partire dal sondaggio effettuato si possono attribuire alla popolazione in esame

Page 3: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Indagine statistica

Ogni indagine statistica può essere realizzata tramite due differenti rilevazioni:

rilevazione censuaria o totale ossia realizzata studiando completamente il fenomeno in oggetto (censimento)

rilevazione campionaria o parziale osservando solo una parte della totalità (sample survey)

In questo corso ci occuperemo solo dell’indagine campionaria trattando il “campionamento da popolazioni finite”

Page 4: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Rilevazione censuariaPer indagine totale si intende una rilevazione di tutte le unità (universo o popolazione target) che presentano le caratteristiche che si intendono studiare

Ne sono esempi i censimenti e le indagini in cui la popolazione target è costituita da poche unità molto importanti (perché caratteristiche)

Si ottengono misure esatte, ma con alti costi di rilevazione e trattamento dei dati e con possibile incompletezza dovuta all’incapacità materiale di raggiungere tutte le singole unità

Page 5: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Premessa storica

Fin dai secoli XVII e XVIII si trovano studi e analisi che si fondano su rilevazioni parziali:

Laplace nel 1802 stimò la popolazione della Francia tramite censimento in 30 dipartimenti

Marx (1880) inviò un questionario a 25000 operai francesi per studiare il fenomeno delle sfruttamento da parte dei datori di lavoro

I sondaggi di opinione sono diffusi negli USA già dal 1834 per prevedere i risultati delle elezioni presidenziali

Page 6: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Situazione attualeDall’inizio del 1900 si è cercato di stabilire la validità delle indagini campionarie arrivando a creare una vera e propria teoria dei campioni, basata su solide fondamenta matematiche

Le tecniche di campionamento sono una delle tematiche più importanti della statistica applicata

…e la loro conoscenza è diventata essenziale di fronte alla sempre maggior richiesta di sondaggi di opinione e indagini di mercato richiesti quotidianamente dai mezzi di comunicazione

Page 7: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Indagini campionarie

Alla luce di questi problemi si ricorre spesso alle indagini campionarie anche se questo implica minor precisione

Notevole risparmio di mezzi, e più in generale un minor impiego di risorse materiali e umane

• accrescere il numero delle indagini

• abbreviare la cadenza di quelle periodiche

• maggiore tempestività (importante se si vuole avere il “polso del mercato o della situazione”)

Page 8: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Campionamento

Si definisce campionamento il procedimento attraverso cui: dall’insieme di unità costituenti l’oggetto dello studio si estrae un numero ridotto di casi scelticon criteri tali da consentire la generalizzazione dei risultati all’intera popolazioneRisulta necessario che il campione rappresenti correttamente ed efficientemente l’universo: le statistiche devono essere una buona stima dei parametri della “popolazione di riferimento”

Page 9: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

SondaggioPOPOLAZIONE: finita (N) o infinita

Tecniche campionarie

CAMPIONE (n osservazioni)

Rilevamento ed elaborazione dei dati

Stime campionarie (media m e deviazione standard s)

INFERENZA STATISTICA

Parametri della popolazione (media e deviazione standard )

Valore vero valore atteso = m ± (s / √n)

Page 10: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Le fasi della ricerca

La ricerca si articola in diverse fasi, nelle quali si evidenziano: i compiti, le responsabilità, i tempii costi di ogni singola operazione

Le fasi caratteristiche sono sette: Una preliminare di progettazione Tre di raccolta dei dati Due di analisi dei dati Una di “comunicazione”

Page 11: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

1: Progettazione

Consiste nel definire:• gli obiettivi dello studio,• la popolazione a cui si vuol fare riferimento,• i costi e i tempi dello studio, • la definizione del piano di campionamento,• le caratteristiche del questionario o della indagine che si intende utilizzare, (questa parte sarà un particolare l’oggetto di questo corso)• …. tutto quanto sarà necessario per la buona riuscita dello studio

Page 12: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

2: Rilevazione dei dati

Nella prima fase della raccolta dei dati sono specificate le modalità di rilevazione dei dati

La presa dei dati può avvenire tramite: questionari, che possono essere:

• cartacei• informatici

intervistatori, che agiscono in via diretta: • contatto personale • inchiesta telefonica• inchiesta via e-mail• mediante internet ….

Page 13: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

3: Registrazione

La seconda fase della raccolta dei dati è la registrazione che consiste nel trasferimento dei dati stessi su un supporto magnetico, in modo che siano elaborabili Questa fase è importantissima e strettamente legata alla precedente e alla successivaSe il questionario è “libero” sarà molto difficile “incasellare” correttamente i datiSe il questionario è “troppo vincolante” si rischia di perdere informazioni importanti che saranno riportate in modo scorretto

Page 14: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

4: Revisione e codifica

La terza fase della raccolta dei dati è la revisione ossia: il controllo di adeguatezza dei dati ovvero la validazione dei dati raccolti la codifica dei dati stessi (in questo punto risulta evidente se vi sono stati degli “errori di registrazione” nella fase precedente la scelta e la messa a punto delle procedure di elaborazione (software specializzati o creati dal ricercatore) che dipendono fortemente da come i dati stessi sono stati codificati

Page 15: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

5: Elaborazione dei dati

La prima fase dell’analisi dei dati è l’elaborazione statistica propriamente dettaMediante l’utilizzo di “pacchetti statistici” (EXCEL, SAS, SPSS, STATA….) vengono prodotti tabelle e rapporti statistici Questi rappresentano l’estrapolazione dei parametri della popolazione che si intende esaminare sulla base del campione statistico su cui si è effettuata l’analisiI risultati offriranno una “forchetta” entro cui, statisticamente parlando, risiede la “verità”

Page 16: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

6: Validazione dei datiLa seconda fase dell’analisi dei dati è la validazione ossia l’analisi della coerenza dei risultati ottenuti dai dati che sono stati raccolti ed elaboratiQuesta fase è alquanto difficile perché occorre ipotizzare quali sono i risultati attesi Solo con molta esperienza si può determinare se i risultati ottenuti dal campione siano realmente rappresentativi della popolazione di cui si vuole determinare i parametri

(ad esempio sondaggio del seggio particolarmente significativo sull’orientamento

degli elettori)

Page 17: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

7: Diffusione dei risultatiIn questa fase, dove possono essere necessari esperti in scienza della comunicazione, i risultati elaborati sono resi disponibili al pubblico,corredati degli opportuni commentiAd esempio se si calcola il Risk Ratio per il cancro al cervello da radiazioni non ionizzanti di telefoni cellulari sulla base delle pubblicazioni degli ultimi 20 anni si ottiene un valore di circa 1Ma considerando una ricerca dal 1990 al 2000 in Danimarca si ottiene 0.8

Il telefono cellulare fa dunque bene a chi lo utilizza??

Page 18: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Tasso di non rispostaImportante perché può invalidare lo studio:T 10% : livello ottimale perché si dovrebbero ottenere dati certi10 < T 25%: fornisce buoni risultati ma il ricercatore deve condurre dei controlli aggiuntivi sulla rappresentatività del campione rispondente25 < T 40%: i controlli supplementari devono essere fatti in modo vasto e accurato: se il piano di campionamento è corretto si procede con l’analisiT > 40%: l’indagine dovrebbe essere ripetuta

Purtroppo in molti casi T>40%!

Page 19: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Tipi di campionamentoVi sono vari tipi di campionamento, che si differenziano sostanzialmente in due categorie: Campionamenti probabilistici Si utilizza la statistica inferenziale (stimatori ed intervalli di confidenza) che forniscono informazioni sulla popolazione completa Campionamenti non probabilisticiLa scelta degli elementi della popolazione viene effettuata in base a criteri logici fissati a prioriIn questi casi è consentito esclusivamente descrivere il risultato campionario con gli opportuni strumenti della statistica descrittiva

Page 20: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Campionamento non probabilistico Campionamento per scelta ragionata: si identificano le zone dove si trova il maggior interesse per il fenomeno in studio (ricerca di un prodotto di moda) Campionamento per quote: si definisce la percentuale di interviste con persone aventi determinate caratteristiche (fumatori-sesso) Campionamento tramite testimoni privilegiati: si intervistano esclusivamente persone esperte del fenomeno in studio (doppio lavoro)Non si può utilizzare la statistica inferenziale per ricavare informazioni sulla popolazione!!!

Page 21: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

Campionamento probabilisticoIn questi tipi di campionamento le unità della popolazione hanno prefissate probabilità di essere incluse nel campione: casuale semplice con ripetizione (bernoulliano) casuale semplice senza ripetizione stratificato (proporzionale, uniforme, ottimale) a grappoli sistematico a più stadi ripetuti (panel e panel ruotati) areale a probabilità variabile

Page 22: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

I più utilizzati 1/2Campionamento casuale semplice (CCS)

estrazione (con o senza ripetizione) delle unità del campione con la stessa probabilità

Campionamento stratificatocostruzione di strati il più possibile omogenei al loro interno ed eterogenei tra loro, poi CCS

Campionamento a grappolisuddivisione in sottogruppi (grappoli), CCS tra essi e rilevazioni degli elementi del grappolo

Campionamento sistematicoscelta casuale della prima unità del campione, poi utilizzo di un passo costante k = N / n

Page 23: Sondages Corso di campionamento Sandro Squarcia Statistica Matematica e Trattamento Informatico dei Dati (SMID) IUT Nice – Côte dAzur Département STID

I più utilizzati 2/2Campionamento a due o più stadi

suddivisione della popolazione in sottoinsiemi (I stadio), CCS sui sottoinsiemi, CCS delle osservazioni (II stadio) dai sottoinsiemi

Campionamento panelcontatto di unità statistiche permanenti a successivi intervalli periodici di tempo per studiare le dinamiche del fenomeno

Campionamento panel ruotatocontatto continuativo con sostituzione a rotazione delle unità statistiche sotto esame per studiare i flussi e le transizioni (cambio di stato)