Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento

Parametri d’interesse

IUT Nice – Côte d’AzurDépartement STID

6 Janvier 2006

SondagesCorso di campionamento

Nomenclatura

Indicheremo con U una popolazione, con N la sua numerosità, con k la sua etichetta e con lettere maiuscole i valori di interesse (Yk)Se Y è un carattere quantitativo sono di interesse il totale, la media aritmetica e la varianza Se Y è qualitativo interessano le proporzioni degli elementi suddivise per ogni modalitàIndicheremo con c un campione, con n la sua numerosità, con i la sua etichetta, con Yi* la variabile aleatoria continua associata e con le lettere maiuscole le realizzazioni campionarie (yi)

Stimatori

La struttura di un generico stimatore lineare è una funzione delle variabile aleatoria continua

ci

iiYa*ˆ

dove ai rappresenta un coefficiente o un peso

Le proprietà più importanti di uno stimatore che permettono di valutarne la qualità sono: Correttezza: valore atteso di * è uguale a Consistenza: limite n p(n*) converge a Efficienza: l’errore quadratico medio di *, ossia E(* - )2, tende alla varianza di *

*

Disposizioni con ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni sono “ordinati”

Gli elementi dell’insieme sono:

(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)

è formato da 16 punti campione: Nⁿ = 2n = 16

Notare che (1,1), (2,2), (3,3), (4,4) derivano dall’aver “pescato” due volte lo stesso elemento

Disposizioni senza ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni sono sempre “ordinati”


(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)

è formato adesso da 12 punti campione, cioè (N)n = N (N-1) (N-2) ….. (N-n+1) = 4 · 3 = 12

Notare che l’elemento (i, j) è distinto da (j, i)

Combinazioni con ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni non tengono conto dell’ordine


(1,1) (1,2) (1,3) (1,4) (2,2) (2,3) (2,4) (3,3) (3,4) (4,4)

è formato da 10 punti campione:

102

20

)123()12(

12345

2

5

2

1241

n

nN

Combinazioni senza ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4

I campioni non tengono conto dell’ordine e non possono essere ripetuti


(1,2) (1,3) (1,4) (2,3) (2,4) (3,4)

è formato da 6 punti campione:

62

12

1212

1234

2

4

n

N

Esempio 1 Consideriamo una popolazione X={1, 2, 3, 4, 5} in cui ogni elemento ha probabilità 0.2

e una popolazione Y={1, 2, 3, 4, 5} con elementi aventi probabilità p(Y) = (0.4, 0.2, 0.2, 0.1, 0.1)

Valori della popolazione Media e varianza della popolazione X è:

E(X) = X = k=1…N xk p(xk) = 3

Var(X) = X2 = k=1…N (xk – E(X))2 / N = 2

Il problema è quello di stimare i parametri e della popolazione usando i dati del campione

Media e varianza della popolazione Y è:

E(Y) = Y = k=1…N xk p(yk) = 2.3

Var(Y) = Y2 = k=1…N (yk – E(Y))2 / N = 1.81

Campioni di numerosità 2

Alcuni casiCaso (2, 1)

p(X) = 0.2 · 0.2 = 0.04

p(Y) = 0.4 · 0.2 = 0.08

media stimata = (2 + 1) / 2 = 1.5

varianza stimata = [(2-1.5)2 + (1-1.5)2] / 2 = 0.25

Caso (4, 3)

p(X) = 0.2 · 0.2 = 0.04

p(Y) = 0.1 · 0.2 = 0.02

media stimata = (4 + 3) / 2 = 3.5

varianza stimata = [(4-3.5)2 + (3-3.5)2] / 2 = 0.25

Distribuzioni parametri

x 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

p(x) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04

y 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

p(y) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01

var(x) 0 0.25 1 2.25 4

p(var(x)) 0.20 0.32 0.24 0.16 0.08

var(y) 0 0.25 1 2.25 4

p(var(y)) 0.26 0.30 0.24 0.12 0.08

ConclusioniConsiderando le variabili aleatorie X e Y

E(var(X))= i=1,N var(xi) p(var(xi)) = 1

(0 · 0.20 + 0.25 · 0.32 + 1 · 0.24 + 2.25 · 0.16 + 4 · 0.08)

E(var(Y))= i=1,N var(yi) p(var(yi)) = 0.905

(0 · 0.26 + 0.25 · 0.30 + 1 · 0.24 + 2.25 · 0.12 + 4 · 0.08)

La varianza della distribuzione delle medie ha valore quello della varianza della popolazione divisa per la numerosità del campione

E(X ) = 3 = µX

E(Y ) = 2.3 = µY

Valore medio della mediaIn generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e var(X) = 2 sconosciuta

= n / n

Se x1, x2, …, xn è un campione estratto da X si considerano X1, X2, …, Xn variabili aleatorie con la stessa legge (uguale media e varianza) di XLa media del valore di X risulta

= ( + + …. + ) / n == [E(X1) + E(X2) + …. + E(Xn)] / n =

E(X) = E((X1 + X2 + …. + Xn) / n) =

=

Varianza della media

= n2 / n2

= (2 + 2 + …. + 2) / n2 =

= [var(X1) + var(X2) + …. + var(Xn)] / n2 =

var(X) = var((X1 + X2 + …. + Xn) / n) =

= / n

In conclusione la distribuzione delle medie ha la medesima media della distribuzione della popolazione ma dispersione minore (2/n)

Questa quantità è chiamata errore standard della media (mean standard error, MSE) e viene indicata con x = / n

StimaUno degli scopi della statistica inferenziale è quello di ottenere informazioni circa i parametri di una popolazione (considerati fissi) a partire da valori determinati in base al campione

I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono

Si cercano indicazioni il più possibile precise sui parametri ignoti di una popolazione (media e varianza) attraverso i valori campionari (processo di stima)

Stimatore

La stima dei parametri di una popolazione si effettua attraverso uno stimatore che fornisce un valore approssimato del parametro

lo stimatore è una funzione T(X1, X2, ...., Xn) del campione

la stima è il risultato dello studio: t(x1, x2, ...., xn)

Siano X1, X2, ...., Xn n variabili aleatorie indipendenti con la legge uguale a X

siano x1, x2, ...., xn i valori assunti dalle n variabili aleatorie nella realizzazione dello studio

Processo di stimaLo stimatore T è quindi una regola che si utilizza per determinare il possibile valore del parametro incognito (media, varianza)

Quando la regola è stata stabilita saranno i valori del campione a determinare la stima t del parametro.

Se una caratteristica X (variabile aleatoria) della popolazione ha legge f(x) significa che ciascun elemento del campione X1, X2, ...., Xn è a sua volta una variabile aleatoria di legge f(x) ed è quindi possibile determinare f(x1), f(x2), ...., f(xn)

Determinare la “norma”Risulta sempre nota la legge di X ma non sono noti (incognite) uno o più parametri della sua distribuzione

Ad esempio:

X ha legge Binomiale [X~B(n,p)]: p è sconosciuto

X ha legge di Poisson [X~P(k)]: k è sconosciuto

X ha legge di Gaussiana [X~N(µ,)]: µ e/o sono sconosciuti

Documents

Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento