6

Click here to load reader

ProbabilitésElémentaires–Licence Chapitre 7 ... · Chapitre 7 : Echantillonnage et estimation ... On étudiera dans la suite du cours dans quelle mesure cette valeur 0;65 peutêtreconsidéréecommeuneapproximationdep

Embed Size (px)

Citation preview

Page 1: ProbabilitésElémentaires–Licence Chapitre 7 ... · Chapitre 7 : Echantillonnage et estimation ... On étudiera dans la suite du cours dans quelle mesure cette valeur 0;65 peutêtreconsidéréecommeuneapproximationdep

Probabilités Elémentaires – Licence

Chapitre 7 : Echantillonnage et estimationJusqu’à présent, nous travaillions avec des variables aléatoires dont les lois de probabilité, ainsique leurs paramètres, étaient connus ou supposés connus, ce qui nous permettait de calculer desprobabilités relatives à ces variables. La démarche statistique est inverse : les lois des variables,ou au moins leurs paramètres, sont inconnus et vont être "inférés" à travers l’observation d’unéchantillon.

1 Echantillonnage

1.1 Description des données statistiques sur un caractère

On considère ici une population, c’est-à-dire un ensemble d’individus, et on s’intéresse à un carac-tère particulier des individus de cette population, qu’on suppose, pour chaque individu, quantifiablepar un nombre réel. On a mesuré expérimentalement la valeur du caractère de n individus et on atrouvé les nombres x1, · · · , xn.

Exemples :

1. La population est l’ensemble des câbles fabriqués dans une usine donnée, le caractère est lacharge de rupture d’un câble. On a mesuré la charge de rupture de 12 de ces câbles et obtenula liste :1440 1410 1520 1470 1430 1490 1455 1445 1472 1455 1470 1430

2. La population est l’ensemble des jeux de pile ou face effectués avec une pièce de monnaiedonnée, le caractère est égal à 1 si on obtient face et 0 si on obtient pile. On a lancé la pièce10 fois et obtenu la liste :0 0 1 0 0 1 0 1 1 0

Nous rappelons maintenant les outils les plus courants de description des propriétés des listes derésultats x1, · · · , xn obtenues dans ce contexte expérimental.

1.1.1 Représentations graphiques

On peut représenter l’ensemble de ces nombres graphiquement par :– la fonction de répartition empirique : l’ordonnée du point d’abscisse a est égale à

1

n|j ∈ 1, · · · , n : xj ≤ a|.

– le diagramme en bâtons des effectifs : la hauteur du bâton d’abscisse a est égale à

|j ∈ 1, · · · , n : xj = a|.

Cette représentation n’a d’intérêt que s’il y a des répétitions dans la liste x1, · · · , xn.– un histogramme des fréquences : la surface du rectangle, dont la base est l’intervalle borné I, est

égale à

1

n|j ∈ 1, · · · , n : xj ∈ I|.

Un tel histogramme dépend de la façon dont on découpe en intervalles l’ensemble des valeurs ducaractère.

1.1.2 Mesures de tendance et de dispersion

On peut aussi en calculer des tendances centrales :– la moyenne empirique x = 1

n

∑ni=1 xi.

1

Page 2: ProbabilitésElémentaires–Licence Chapitre 7 ... · Chapitre 7 : Echantillonnage et estimation ... On étudiera dans la suite du cours dans quelle mesure cette valeur 0;65 peutêtreconsidéréecommeuneapproximationdep

– la médiane m : si les xj sont rénumérotés de telle sorte que x(1) ≤ · · · ≤ x(n),

m =

x(k) si n = 2k − 1,12(x(k) + x(k+1)) si n = 2k.

Les quartiles, les déciles, et plus généralement les s-quantiles sont définis de façon analogue enrépartissant les x(i) en 4, 10 ou s groupes, au lieu de 2 pour la médiane.

– le mode : la valeur a (ou l’une des valeurs) qui maximise |j ∈ 1, · · · , n : xj = a|.On peut en décrire la dispersion par :– l’étendue : différence entre la plus grande et la plus petite valeur des xi.– l’écart entre certains quantiles : par exemple, différence entre les troisième et premier quartiles.– l’écart moyen à la médiane : 1

n

∑ni=1 |xi −m|.

– la variance empirique :

s2 =1

n

n∑i=1

(xi − x)2.

Reprenons l’exemple 1. S’il ne veut pas faire faillite, le fabricant des câbles ne peut pas mesurerla charge de rupture de tous les câbles qu’il fabrique, puisque cette mesure les détruit. La valeurmoyenne de la charge de rupture qu’il a calculée en testant 12 câbles reflète-t-elle bien la valeurmoyenne de la charge de rupture de l’ensemble des câbles ? La fonction de répartition empiriqueobtenue est-elle une bonne approximation de celle qu’on obtiendrait après le test de tous les câblesou de 1200 de ces câbles ? L’objet de la théorie des statistiques est de répondre à des questions dece type, c’est-à-dire d’estimer la pertinence de la généralisation des caractéristiques de l’échantillonexpérimental à la population toute entière.La démarche choisie est celle de la modélisation probabiliste. On assimile le caractère numérique,dont x1, · · · , xn est un échantillon observé, à une variable aléatoire X dont la loi est inconnue, oudont le type est connu mais certains des paramètres sont inconnus. Par exemple, il se peut qu’onsache, pour des raisons théoriques ou en conséquence d’expériences antérieures, que la charge derupture d’un câble suit une loi normale N (µ, σ2) de paramètres µ et σ2 inconnus ; mais on peutaussi n’avoir aucune idée a priori sur le type de sa loi.On représente l’expérience de l’échantillonage par n variables aléatoires X1, · · · , Xn, indépendanteset de même loi que X, et on considère que la liste (x1, · · · , xn) est un résultat possible de cetteexpérience, c’est-à-dire une valeur particulière prise par le vecteur aléatoire (X1, · · · , Xn).Nous allons dans ce cours voir comment l’échantillon expérimental peut être utilisé pour estimer laloi de X ou certaines de ses caractéristiques, et donner des moyens de mesurer la validité de cesestimations.

1.2 Echantillons aléatoires et statistiques

Définition 1. Soit X une variable aléatoire associée à un univers Ω. Un échantillon aléatoirede X de taille n est un n-uplet (X1, · · · , Xn) de variables aléatoires indépendantes de même loique X. La loi de X sera appelée loi mère. Une réalisation de cet échantillon est un n-uplet de réels(x1, · · · , xn) où Xi(ω) = xi.

Définition 2. Soit (X1, · · · , Xn) un échantillon aléatoire. Une statistique est une variable aléatoirede la forme Φ(X1, · · · , Xn), où Φ est une fonction de Rn dans Rp.

Exemple : Un mois avant un référendum, on sonde 1000 personnes inscrites sur les listes électoralessur leur intention d’aller voter. Les 1000 personnes ont été tirées au hasard (avec remise) dans lapopulation des inscrits. On obtient 650 intentions favorables. Si on tire une personne au hasard etqu’on l’interroge, on peut représenter sa réponse par une variable aléatoire X qui vaut 1 si elle al’intention d’aller voter, et 0 sinon. La loi de X est une loi de Bernoulli de paramètre p, inconnu,égal à la proportion dans la population des inscrits des personnes ayant l’intention d’aller voter.On peut représenter l’expérience du sondage en introduisant 1000 variables aléatoires (X1, · · · , Xn)indépendantes car les 1000 personnes ont été tirées au hasard (avec remise), et qui suivent la loiB(1, p) : (X1, · · · , Xn) est donc un échantillon aléatoire de loi B(1, p).Le sondage a donné des valeurs expérimentales de cet échantillon, x1, · · · , x1000, telles que x1 +· · · + x1000 = 650. Une statistique usuelle est la moyenne empirique 1

n(X1 + · · · + Xn), dont la

2

Page 3: ProbabilitésElémentaires–Licence Chapitre 7 ... · Chapitre 7 : Echantillonnage et estimation ... On étudiera dans la suite du cours dans quelle mesure cette valeur 0;65 peutêtreconsidéréecommeuneapproximationdep

valeur expérimentale est ici 0, 65 : c’est la proportion parmi les inscrits sondés de personnes ayantl’intention d’aller voter. On étudiera dans la suite du cours dans quelle mesure cette valeur 0, 65peut être considérée comme une approximation de p.

2 Estimateurs

2.1 Définition et propriétés

Dans l’exemple précédent, la statistique 1n(X1 + · · · + Xn) est utilisée pour estimer le paramètre p

de la loi B(1, p) de l’échantillon X1, · · · , Xn On dira que c’est un estimateur de ce paramètre p.

Définition 3. Considérons un échantillon aléatoire X1, · · · , Xn dont la loi dépend d’un paramètre θréel (ou vectoriel) inconnu et qu’on veut estimer. Un estimateur du paramètre θ est tout simplementune statistique dont la valeur expérimentale est utilisée comme estimation de θ.

Un estimateur peut être de plus ou moins bonne qualité, suivant la fiabilité de l’estimation de θ qu’ilfournit. Les propriétés qu’on va définir maintenant permettent de cerner la qualité d’un estimateur.Considérons un estimateur T = Φ(X1, · · · , Xn) de θ.

Définition 4. On appelle biais de T pour θ la valeur

bθ(T ) = E(T )− θ.

L’estimateur T sera dit sans biais si E(T ) = θ.

Définition 5. Un estimateur T est dit convergent (ou asymptotiquement sans biais) si E(T ) tendvers θ lorsque n tend vers l’infini. Il sera dit consistant si T converge en probabilité vers θ lorsquen tend vers l’infini.

Proposition 1. Si T est convergent et de variance tendant vers 0 lorsque n tend vers l’infini, alorsT est consistant.

Définition 6. La qualité d’un estimateur se mesure également par l’erreur quadratique moyenne(ou risque quadratique) définie par

E[(T − θ)2].

Proposition 2. L’erreur quadratique moyenne s’exprime en fonction du biais et de la variance del’estimateur :

E[(T − θ)2] = [E(T )− θ]2 + V(T ).

Remarques :

1. Entre deux estimateurs, le "meilleur" sera celui dont l’erreur quadratique moyenne est la plusfaible (on dit qu’il est plus efficace).

2. Entre deux estimateurs sans biais, le "meilleur" sera celui dont la variance est minimale.

3. Le critère d’erreur quadratique moyenne n’est pas parfait mais il est préféré à d’autres critèresqui semblent plus naturels comme l’erreur absolue moyenne E(|T − θ|) car il est relativementfacile à manipuler analytiquement.

2.2 Quelques estimateurs classiques

Dans ce paragraphe, X1, · · · , Xn désigne un échantillon aléatoire de X, µ désigne l’espérance desXi et σ2 leur variance.

3

Page 4: ProbabilitésElémentaires–Licence Chapitre 7 ... · Chapitre 7 : Echantillonnage et estimation ... On étudiera dans la suite du cours dans quelle mesure cette valeur 0;65 peutêtreconsidéréecommeuneapproximationdep

2.2.1 Moyenne empirique

Pour estimer l’espérance µ, il est naturel d’utiliser la moyenne de l’échantillon

X =1

n

n∑i=1

Xi.

Proposition 3. On a :

E(X) = µ et V(X) =σ2

n.

La moyenne empirique X est donc un estimateur sans biais et consistant de µ. De plus, par lethéorème limite central, X converge en loi vers N (µ, σ

2

n ) lorsque n tend vers l’infini.

Proposition 4. Toute somme de variables aléatoires normales indépendantes est une variable aléa-toire normale. Ainsi, si X ∼ N (µ, σ2) alors pour toute valeur de n, X ∼ N (µ, σ

2

n ).

2.2.2 Variance empirique

Pour estimer la variance σ, il est naturel d’utiliser la variance de l’échantillon

S2 =1

n

n∑i=1

(Xi − X)2.

Proposition 5. Soit µ4 le moment centré d’ordre 4 de X. On a :

E(S2) =n− 1

nσ2 et V(S2) =

n− 1

n3[(n− 1)µ4 − (n− 3)σ4].

La variance empirique S2 est donc un estimateur asymptotiquement sans biais et consistant de σ2.

Pour avoir un estimateur sans biais de la variance, on peut utiliser la variance empirique "corrigée"

S∗2 =n

n− 1S2 =

1

n− 1

n∑i=1

(Xi − X)2.

2.3 Méthodes d’estimation classiques

Considérons une variable aléatoire X réelle, discrète ou continue, dont la loi de probabilité dépendd’un paramètre θ ∈ Rp inconnu que l’on cherche à estimer à partir d’un échantillon aléatoire.

2.3.1 Méthode des moments

Le principe de cette méthode est de faire coincider les moments théoriques E(Xk), dépendant duparamètre θ, et les moments empiriques 1

n

∑ni=1 x

ki issus de l’échantillon. En effet, la loi des grands

nombres nous assure que les moments empiriques convergent vers les moments théoriques lorsque ntend vers l’infini.

Exemples :

1. Avec une loi discrète.On souhaite estimer le paramètre p ∈ [0, 1] d’une loi géométrique à partir d’un n-échantillon.Ce paramètre étant unidimensionnel, il nous suffit d’utiliser les moments d’ordre 1. Il fautrésoudre l’équation

E(X) =1

n

n∑i=1

xi ⇔1

p=

1

n

n∑i=1

xi ⇔ p =n∑ni=1 xi

.

L’estimateur de p obtenu par la méthode des moments est donc

p =n∑ni=1Xi

=1

X.

4

Page 5: ProbabilitésElémentaires–Licence Chapitre 7 ... · Chapitre 7 : Echantillonnage et estimation ... On étudiera dans la suite du cours dans quelle mesure cette valeur 0;65 peutêtreconsidéréecommeuneapproximationdep

2. Avec une loi continue.On souhaite estimer le paramètre θ = (µ, σ2) d’une loi normale à partir d’un n-échantillon. Ceparamètre étant bidimensionnel, nous utilisons les moments d’ordre 1 et 2. Il faut résoudre lesystème d’équations

E(X) = 1n

∑ni=1 xi

E(X2) = 1n

∑ni=1 x

2i

µ = 1

n

∑ni=1 xi

µ2 + σ2 = 1n

∑ni=1 x

2i

µ = 1

n

∑ni=1 xi

σ2 = 1n

∑ni=1(xi − x)2

Les estimateurs de µ et σ2 obtenus par la méthode des moments sont donc la moyenne et lavariance empiriques.

2.3.2 Méthode du maximum de vraisemblance

Définissons d’abord la fonction f telle que

f(x; θ) =

fθ(x) si X est une v.a. continue de densité fθ,Pθ(X = x) sinon.

Définition 7. On appelle fonction de vraisemblance de θ pour une réalisation (x1, · · · , xn) d’unéchantillon, la fonction de θ :

L(x1, · · · , xn; θ) =n∏i=1

f(xi; θ).

Définition 8. La méthode consistant à estimer θ par la valeur qui maximise L s’appelle méthodedu maximum de vraisemblance :

θ = arg maxθ∈Rp

L(x1, · · · , xn; θ).

Exemples :

1. Avec une loi discrète.On souhaite estimer le paramètre λ > 0 d’une loi de Poisson à partir d’un n-échantillon. Ona f(x;λ) = e−λ λ

x

x! . La fonction de vraisemblance s’écrit donc

L(x1, · · · , xn;λ) =n∏i=1

f(xi;λ) = e−nλn∏i=1

λxi

xi!.

Cette vraisemblance étant strictement positive, il est plus simple de maximiser la log-vraisemblance :

lnL(x1, · · · , xn;λ) = −nλ+ ln(λ)n∑i=1

xi −n∑i=1

ln(xi!).

La dérivée première

∂ lnL(x1, · · · , xn;λ)

∂λ= −n+

∑ni=1 xiλ

s’annule pour λ = λ =∑n

i=1 xin . La dérivée seconde

∂2 lnL(x1, · · · , xn;λ)

∂λ2= −

∑ni=1 xiλ2

est toujours négative ou nulle donc nous avons bien un maximum au point λ = λ. L’estimateurdu maximum de vraisemblance de λ est donc la moyenne empirique

λ = X =1

n

n∑i=1

Xi.

5

Page 6: ProbabilitésElémentaires–Licence Chapitre 7 ... · Chapitre 7 : Echantillonnage et estimation ... On étudiera dans la suite du cours dans quelle mesure cette valeur 0;65 peutêtreconsidéréecommeuneapproximationdep

2. Avec une loi continue.On souhaite estimer les paramètres µ et σ2 > 0 d’une loi normale à partir d’un n-échantillon.On a f(x;µ, σ2) = 1√

2πσ2exp

(− (x−µ)2

2σ2

). La fonction de vraisemblance s’écrit donc

L(x1, · · · , xn;µ, σ2) =

n∏i=1

f(xi;µ, σ2) = (2πσ2)−n/2 exp

(−∑n

i=1(xi − µ)2

2σ2

).

Cette vraisemblance étant strictement positive, il est plus simple de maximiser la log-vraisemblance :

lnL(x1, · · · , xn;µ, σ2) = −n2

ln(2πσ2)−∑n

i=1(xi − µ)2

2σ2.

On considère d’abord

∂ lnL(x1, · · · , xn;µ, σ2)

∂µ=

∑ni=1(xi − µ)

σ2

qui s’annule lorsque µ = x. De son côté,

∂ lnL(x1, · · · , xn;µ, σ2)

∂(σ2)= − n

2σ2+

∑ni=1(xi − µ)2

2(σ2)2

s’annule lorsque σ2 = 1n

∑ni=1(xi − µ)2. Finalement, le gradient de L s’annule pour (µ, σ2) =

(µ, σ2) = (x, s2). Pour vérifier qu’il s’agit bien d’un maximum, il faut vérifier que la matricehessienne est définie négative. On a

∂2 lnL(x1,··· ,xn;µ,σ2)∂µ2

(µ, σ2) = − nσ2 < 0

∂2 lnL(x1,··· ,xn;µ,σ2)∂(σ2)2

(µ, σ2) = n2(σ2)2

−∑n

i=1(xi−µ)2(σ2)3

= n2(σ2)2

− nσ2

(σ2)3= − n

2(σ2)2< 0

∂2 lnL(x1,··· ,xn;µ,σ2)∂µ ∂(σ2)

(µ, σ2) = −∑n

i=1(xi−µ)(σ2)2

= 0

donc nous avons bien un maximum au point (µ, σ2) = (µ, σ2) = (x, s2). Les estimateurs dumaximum de vraisemblance de µ et σ2 sont donc la moyenne et la variance empiriques.

6