Upload
macario-novelli
View
215
Download
1
Embed Size (px)
Citation preview
Parametri d’interesse
IUT Nice – Côte d’AzurDépartement STID
6 Janvier 2006
SondagesCorso di campionamento
Nomenclatura
Indicheremo con U una popolazione, con N la sua numerosità, con k la sua etichetta e con lettere maiuscole i valori di interesse (Yk)Se Y è un carattere quantitativo sono di interesse il totale, la media aritmetica e la varianza Se Y è qualitativo interessano le proporzioni degli elementi suddivise per ogni modalitàIndicheremo con c un campione, con n la sua numerosità, con i la sua etichetta, con Yi* la variabile aleatoria continua associata e con le lettere maiuscole le realizzazioni campionarie (yi)
Stimatori
La struttura di un generico stimatore lineare è una funzione delle variabile aleatoria continua
ci
iiYa*ˆ
dove ai rappresenta un coefficiente o un peso
Le proprietà più importanti di uno stimatore che permettono di valutarne la qualità sono: Correttezza: valore atteso di * è uguale a Consistenza: limite n p(n*) converge a Efficienza: l’errore quadratico medio di *, ossia E(* - )2, tende alla varianza di *
*
Disposizioni con ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni sono “ordinati”
Gli elementi dell’insieme sono:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)
è formato da 16 punti campione: Nⁿ = 2n = 16
Notare che (1,1), (2,2), (3,3), (4,4) derivano dall’aver “pescato” due volte lo stesso elemento
Disposizioni senza ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni sono sempre “ordinati”
Gli elementi dell’insieme sono:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)
è formato adesso da 12 punti campione, cioè (N)n = N (N-1) (N-2) ….. (N-n+1) = 4 · 3 = 12
Notare che l’elemento (i, j) è distinto da (j, i)
Combinazioni con ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni non tengono conto dell’ordine
Gli elementi dell’insieme sono:
(1,1) (1,2) (1,3) (1,4) (2,2) (2,3) (2,4) (3,3) (3,4) (4,4)
è formato da 10 punti campione:
102
20
)123()12(
12345
2
5
2
1241
n
nN
Combinazioni senza ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni non tengono conto dell’ordine e non possono essere ripetuti
Gli elementi dell’insieme sono:
(1,2) (1,3) (1,4) (2,3) (2,4) (3,4)
è formato da 6 punti campione:
62
12
1212
1234
2
4
n
N
Esempio 1 Consideriamo una popolazione X={1, 2, 3, 4, 5} in cui ogni elemento ha probabilità 0.2
e una popolazione Y={1, 2, 3, 4, 5} con elementi aventi probabilità p(Y) = (0.4, 0.2, 0.2, 0.1, 0.1)
Valori della popolazione Media e varianza della popolazione X è:
E(X) = X = k=1…N xk p(xk) = 3
Var(X) = X2 = k=1…N (xk – E(X))2 / N = 2
Il problema è quello di stimare i parametri e della popolazione usando i dati del campione
Media e varianza della popolazione Y è:
E(Y) = Y = k=1…N xk p(yk) = 2.3
Var(Y) = Y2 = k=1…N (yk – E(Y))2 / N = 1.81
Campioni di numerosità 2
Alcuni casiCaso (2, 1)
p(X) = 0.2 · 0.2 = 0.04
p(Y) = 0.4 · 0.2 = 0.08
media stimata = (2 + 1) / 2 = 1.5
varianza stimata = [(2-1.5)2 + (1-1.5)2] / 2 = 0.25
Caso (4, 3)
p(X) = 0.2 · 0.2 = 0.04
p(Y) = 0.1 · 0.2 = 0.02
media stimata = (4 + 3) / 2 = 3.5
varianza stimata = [(4-3.5)2 + (3-3.5)2] / 2 = 0.25
Distribuzioni parametri
x 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
p(x) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04
y 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
p(y) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01
var(x) 0 0.25 1 2.25 4
p(var(x)) 0.20 0.32 0.24 0.16 0.08
var(y) 0 0.25 1 2.25 4
p(var(y)) 0.26 0.30 0.24 0.12 0.08
ConclusioniConsiderando le variabili aleatorie X e Y
E(var(X))= i=1,N var(xi) p(var(xi)) = 1
(0 · 0.20 + 0.25 · 0.32 + 1 · 0.24 + 2.25 · 0.16 + 4 · 0.08)
E(var(Y))= i=1,N var(yi) p(var(yi)) = 0.905
(0 · 0.26 + 0.25 · 0.30 + 1 · 0.24 + 2.25 · 0.12 + 4 · 0.08)
La varianza della distribuzione delle medie ha valore quello della varianza della popolazione divisa per la numerosità del campione
E(X ) = 3 = µX
E(Y ) = 2.3 = µY
Valore medio della mediaIn generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e var(X) = 2 sconosciuta
= n / n
Se x1, x2, …, xn è un campione estratto da X si considerano X1, X2, …, Xn variabili aleatorie con la stessa legge (uguale media e varianza) di XLa media del valore di X risulta
= ( + + …. + ) / n == [E(X1) + E(X2) + …. + E(Xn)] / n =
E(X) = E((X1 + X2 + …. + Xn) / n) =
=
Varianza della media
= n2 / n2
= (2 + 2 + …. + 2) / n2 =
= [var(X1) + var(X2) + …. + var(Xn)] / n2 =
var(X) = var((X1 + X2 + …. + Xn) / n) =
= / n
In conclusione la distribuzione delle medie ha la medesima media della distribuzione della popolazione ma dispersione minore (2/n)
Questa quantità è chiamata errore standard della media (mean standard error, MSE) e viene indicata con x = / n
StimaUno degli scopi della statistica inferenziale è quello di ottenere informazioni circa i parametri di una popolazione (considerati fissi) a partire da valori determinati in base al campione
I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono
Si cercano indicazioni il più possibile precise sui parametri ignoti di una popolazione (media e varianza) attraverso i valori campionari (processo di stima)
Stimatore
La stima dei parametri di una popolazione si effettua attraverso uno stimatore che fornisce un valore approssimato del parametro
lo stimatore è una funzione T(X1, X2, ...., Xn) del campione
la stima è il risultato dello studio: t(x1, x2, ...., xn)
Siano X1, X2, ...., Xn n variabili aleatorie indipendenti con la legge uguale a X
siano x1, x2, ...., xn i valori assunti dalle n variabili aleatorie nella realizzazione dello studio
Processo di stimaLo stimatore T è quindi una regola che si utilizza per determinare il possibile valore del parametro incognito (media, varianza)
Quando la regola è stata stabilita saranno i valori del campione a determinare la stima t del parametro.
Se una caratteristica X (variabile aleatoria) della popolazione ha legge f(x) significa che ciascun elemento del campione X1, X2, ...., Xn è a sua volta una variabile aleatoria di legge f(x) ed è quindi possibile determinare f(x1), f(x2), ...., f(xn)
Determinare la “norma”Risulta sempre nota la legge di X ma non sono noti (incognite) uno o più parametri della sua distribuzione
Ad esempio:
X ha legge Binomiale [X~B(n,p)]: p è sconosciuto
X ha legge di Poisson [X~P(k)]: k è sconosciuto
X ha legge di Gaussiana [X~N(µ,)]: µ e/o sono sconosciuti