24
Universit´ e de Rennes 2 Statistiques des donn´ ees M1-GEO Ouvrages recommand´ es 1. Agn` es Hamon et Nicolas Jegou, ”Statistique descriptive. Cours et exercices corrig´ es.”, PUR, 2008 Les d´ efinitions, graphiques, indicateurs de base. Etude descriptive approfondie sur deux variables. Exemples d’utilisation de Rcmdr en annexe. 2. J´ erˆ ome Pag` es, “Statistiques g´ en´ erales pour utilisateurs. 1-M´ ethodologie”, PUR, 2005 Transcription du cours donn´ e` a Agrocampus Rennes. Estimation, analyse de variance et r´ egression puis introduction aux plans d’exp´ erience et ` a l’ACP. Introduction ` a la statistique pratique, tr` es p´ edagogique et tr` es bien ´ ecrit. 3. Fran¸ cois Husson et J´ erˆ ome Pag` es, “Statistiques g´ en´ erales pour utilisateurs. 2-Exercices et corrig´ es”, PUR, 2005 Exercices et corrig´ es en lien avec l’ouvrage pr´ ec´ edent. Quelques TP sur R propos´ es. 4. P.A.Cornillon et al., “Statistiques avec R.”, PUR, 2008 Pr´ esentation du logiciel : objets, graphiques, programmation. Quinze m´ ethodes statistiques classiques pr´ esent´ ees avec R. 5. Pierre-Andr´ e Cornillon et Eric Matzner-Løber, “R´ egression. Th´ eorie et applications.”, Springer, 2006 Illustrations pointues avec R en particulier sur des donn´ ees m´ et´ eo reprises en TD. 1 en´ eralit´ es 1.1 Vocabulaire Faire de la statistique suppose que l’on recueille des donn´ ees sur les ´ el´ ements constitutifs d’un ensemble. On appelle l’ensemble ´ etudi´ e la population et les ´ el´ ements qui le constituent les individus. Par exemple, on peut, on peut relever la marque, la cylindr´ ee, l’ann´ ee de mise en circulation de l’ensemble des voitures du parc automobile. Comme le caract` ere ´ etudi´ e (la marque de la voiture, ...) est susceptible de varier d’un individu ` a l’autre, on employera en g´ en´ eral plutˆ ot le terme de variable pour le d´ esigner. Sa valeur relev´ ee sur un individu sera appel´ ee mesure ou observation. On peut envisager deux mani` eres d’exploiter les donn´ ees : – la premi` ere consiste, ` a l’aide de tableaux, de graphiques et d’indicateurs num´ eriques,`a r´ esumer l’information qu’elles contiennent pour la rendre plus lisible. On parle dans ce cas de statistique descriptive ; – un autre point de vue consisterait, moyennant certaines hypoth` eses, ` a les utiliser pour obtenir des propri´ et´ es concernant une population plus vaste dont elles seraient issues. C’est le domaine de la statistique inf´ erentielle qui n´ ec´ essite le recours ` a l’outil probabiliste. Exemple On effectue des relev´ es de donn´ ees m´ et´ eo pour expliquer des pics de pollution ` a l’ozone. On mesure par exemple la temp´ erature, la direction et la force du vent, l’humidit´ e ... et la concentration d’ozone dans l’air. Avec ces donn´ ees, on pourra essayer de voir si les valeurs d’ozone varient sensiblement suivant la direction du vent par exemple. Dans un cadre descriptif, on cherchera ` a observer les diff´ erences graphiquement ou `a les quantifier au moyen d’indicateurs. Dans un contexte inf´ erentiel, ces donn´ ees pourront servir ` a construire des mod` eles entre les variables pour faire des pr´ evisions de pics d’ozone par exemple. On distingue deux familles de variables suivant que leurs r´ ealisations sont num´ eriques ou pas. Lorsque les ob- servations possibles sont des nombres, on dit que la variable est quantitative. Lorsqu’au contraire celles-ci se traduisent par un attribut, l’appartenance ` a une cat´ egorie ou ` a un genre, la variable est dite qualitative. On 1

Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

  • Upload
    vankien

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Universite de Rennes 2Statistiques des donneesM1-GEO

Ouvrages recommandes

1. Agnes Hamon et Nicolas Jegou, ”Statistique descriptive. Cours et exercices corriges.”, PUR, 2008Les definitions, graphiques, indicateurs de base. Etude descriptive approfondie sur deux variables. Exemplesd’utilisation de Rcmdr en annexe.

2. Jerome Pages, “Statistiques generales pour utilisateurs. 1-Methodologie”, PUR, 2005Transcription du cours donne a Agrocampus Rennes. Estimation, analyse de variance et regression puisintroduction aux plans d’experience et a l’ACP. Introduction a la statistique pratique, tres pedagogiqueet tres bien ecrit.

3. Francois Husson et Jerome Pages, “Statistiques generales pour utilisateurs. 2-Exercices et corriges”, PUR,2005Exercices et corriges en lien avec l’ouvrage precedent. Quelques TP sur R proposes.

4. P.A.Cornillon et al., “Statistiques avec R.”, PUR, 2008Presentation du logiciel : objets, graphiques, programmation. Quinze methodes statistiques classiquespresentees avec R.

5. Pierre-Andre Cornillon et Eric Matzner-Løber, “Regression. Theorie et applications.”, Springer, 2006Illustrations pointues avec R en particulier sur des donnees meteo reprises en TD.

1 Generalites

1.1 Vocabulaire

Faire de la statistique suppose que l’on recueille des donnees sur les elements constitutifs d’un ensemble. Onappelle l’ensemble etudie la population et les elements qui le constituent les individus. Par exemple, onpeut, on peut relever la marque, la cylindree, l’annee de mise en circulation de l’ensemble des voitures du parcautomobile. Comme le caractere etudie (la marque de la voiture, ...) est susceptible de varier d’un individu al’autre, on employera en general plutot le terme de variable pour le designer. Sa valeur relevee sur un individusera appelee mesure ou observation.On peut envisager deux manieres d’exploiter les donnees :– la premiere consiste, a l’aide de tableaux, de graphiques et d’indicateurs numeriques, a resumer l’information

qu’elles contiennent pour la rendre plus lisible. On parle dans ce cas de statistique descriptive ;– un autre point de vue consisterait, moyennant certaines hypotheses, a les utiliser pour obtenir des proprietes

concernant une population plus vaste dont elles seraient issues. C’est le domaine de la statistique inferentielle

qui necessite le recours a l’outil probabiliste.

Exemple

On effectue des releves de donnees meteo pour expliquer des pics de pollution a l’ozone. On mesure par exemplela temperature, la direction et la force du vent, l’humidite ... et la concentration d’ozone dans l’air. Avec cesdonnees, on pourra essayer de voir si les valeurs d’ozone varient sensiblement suivant la direction du vent parexemple. Dans un cadre descriptif, on cherchera a observer les differences graphiquement ou a les quantifier aumoyen d’indicateurs. Dans un contexte inferentiel, ces donnees pourront servir a construire des modeles entreles variables pour faire des previsions de pics d’ozone par exemple.

On distingue deux familles de variables suivant que leurs realisations sont numeriques ou pas. Lorsque les ob-servations possibles sont des nombres, on dit que la variable est quantitative. Lorsqu’au contraire celles-ci setraduisent par un attribut, l’appartenance a une categorie ou a un genre, la variable est dite qualitative. On

1

Page 2: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

parlera donc des valeurs possibles prises par une variable quantitative mais on preferera le terme de moda-

lites pour une variable qualitative.

Parmi les variables quantitatives, on distingue encore deux types de variables :– Les variables discretes sont celles dont l’ensemble possible des valeurs est fini (ou denombrable). C’est le cas

lorsque les valeurs sont des nombres entiers par exemple.– Lorsque les realisations possibles d’une variable quantitative s’organisent sur une echelle continue de valeurs

(comme les nombres decimaux ou des intervalles de R), la variable est dite continue.On separe aussi les variables qualitatives en deux categories :– Lorsque ses modalites possedent un ordre naturel, la variable est qualifiee d’ordinale.– Lorsqu’il n’y a pas d’ordonancement possible des modalites, on parle de variable nominale. La variable sexe

a deux modalites homme et femme est qualitative nominale.Nous resumons ces differents cas en ajoutant quelques exemples figure 1.

Quantitatives Qualitatives

ContinuesDiscrètes Nominales Ordinales

Nombre d’enfantsNombre de jours de congé

AgeTempératurePoids

SexeEtat matrimonialCouleur des yeux

Mention au bacNiveau d’étudesSeuil de gravité d’une maladie

Variables

Fig. 1 – Classification des variables.

1.2 Representations graphiques pour une variable

L’idee est de resumer visuellement l’information portee par les observations receuillies sur une variable. Lesrepresentations different suivant la nature des variables. On propose ici une representation par type de variable.

Variables qualitatives : diagramme en barres On regroupe naturellement les observations par modalitesde la variable. On represente ensuite autant de barres qu’il y a de modalites, la hauteur de chaque barre etantproportionnelle au nombre d’observations qui sont a l’interieur (exemple en figure 2).

46,9%

Mariés Célibataires Veufs Divorcés

2,8%5,1%

45,2%

Fig. 2 – Etat matrimonial en Australie au 30 Juin 1981

2

Page 3: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Variables discretes : diagramme en batons A nouveau il est naturel de regrouper les observations suivantles valeurs de la variables. On represente les valeurs possibles sur un axe horizontal et, pour chaque valeur, ontrace un trait de hauteur proportionnelle au nombre de fois ou elle est observee dans la serie (exemple en figure3).

0,1

0 1 2 3 4 5 Nombre d’enfants

Fréquence

0,5

0,4

0,3

0,2

Fig. 3 – Nombre d’enfants par famille en France en 1982.

Variables continues : l’histogramme La difficulte avec les variables continues est qu’une meme valeur n’estpas necessairement observee plusieurs fois. Si l’on reprend la demarche precedente, la representation obtenuen’est pas tres parlante (cf. figure 4).

oo o ooooo o ooooo o o oo o oo oooo oo o o oo o o oo ooooo oo oo o ooo o o o o o oo ooo ooooo o oo o o o oo ooo o o o o ooo ooooo ooo ooo oo oooo ooo o o o ooo oo ooo

60 80 100 120 140 16040

Fig. 4 – 112 valeurs de concentrations d’ozone.

On percoit que dans certaines zone la concentration des valeurs est plus importante que dans d’autres. Avecl’histogramme on cherche a rendre compte de cette concentration. L’idee naturelle est de partager l’axe desabscisses en intervalles contigus et compter les observations qui sont a l’interieur de chacun d’eux. On mesureensuite la concentration des observations dans l’intervalle en rapportant l’effectif (ou la frequence) observe(e)dans celui-ci a sa largeur. En reference a la theorie des probabilites sous jacente, la mesure de concentrationdans un intervalle porte le nom de densite. Un histogramme reprenant l’exemple precedent est represente enfigure 5.

1.3 Indicateurs

Pour les variables quantitatives, on peut proposer des indicateurs numeriques qui resument l’information. Ondistinguera les mesures de tendance centrale, qui renseignent sur le centre de la serie, des indicateurs de dispersionqui rendent compte de la dispersion des observations autour de ces tendances centrales. Nous introduisons lesnotations suivantes : nous disposons de n observations numeriques que l’on note x1, . . . , xn.

1.3.1 Mesures de tendance centrale

Le mode Par definition, le mode est la valeur la plus souvent observee. Comme une meme valeur n’est pasnecessairement observee plusieurs fois si la variable est continue, le mode n’a reellement d’interet que pour une

3

Page 4: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Histogramme de 112 valeurs d’ozone

data1

Den

sity

40 60 80 100 120 140 160

0.00

00.

005

0.01

00.

015

Fig. 5 – Distribution de 112 valeurs de concentrations d’ozone.

variable discrete. On parlera cependant de classe modale pour designer l’intervalle de plus forte densite pour lesobservations agregees d’une variable continue.

La mediane La mediane d’une serie d’observations numeriques est une valeur observable de la variable tellequ’au moins la moitie des observations sont inferieures ou egales a cette valeur et qu’au moins la moitie desobservations sont superieures ou egales a cette valeur. Ainsi par exemple, lorsqu’on dit que le salaire mensuelmedian dans un pays est 1 200 e, cela signifie que la moitie au moins des salaries gagne moins de 1 200 e parmois et que l’autre moitie au moins a un salaire superieur a cette valeur.

La moyenne La moyenne d’une serie de valeurs est la somme de ces valeurs rapportee au nombre de valeurs.Avec nos notations, la moyenne de la serie x1, . . . , xn, notee x, est donc :

x =x1 + · · · + xn

n=

1

n

n∑

i=1

xi.

1.3.2 Mesures de dispersion

L’ecart inter-quartiles Sur le meme principe de definition que la mediane, on definit les quartiles qui affinentle decoupage de la serie des valeurs en 4 sous groupes de memes effectifs. Ainsi, le premier (resp. le 3eme) quartile,note Q25 (resp. Q75), est une valeur observable de la variable telle que au moins 25% (resp. 75%) des observationslui sont inferieures ou egales et au moins 75% (resp. 25%) des valeurs lui sont superieures ou egales. Le secondquartile correspond a la mediane. Par consequent, au moins la moitie des observations sont dans l’intervalleinter-quartiles [Q25, Q75]. Ces notions donnent lieu a la representation des box-plots tres utiles pour comparervisuellement la distribution d’une variable quantitative dans les modalites d’une variable qualitative. Le principede construction du box-plot, est illustre figure 6.

La variance et l’ecart-type La variance, notee V, est une mesure de dispersion autour de la moyenne quitient compte de toutes les observations. Par definition, la variance d’une serie d’observations est la moyenne des

4

Page 5: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

0 1 2 3 4 10 145 1312119876 201918171615

Boite

Moustaches

Q25 Med Q75

Fig. 6 – Construction du box-plot sur une serie de 11 valeurs.

carres des ecarts a la moyenne. Avec les notations utilisees, elle s’ecrit donc :

V =1

n

n∑

i=1

(xi − x)2.

L’ecart-type, note σ, est par definition la racine carree de la variance soit :

σ =√

V =

1

n

n∑

i=1

(xi − x)2.

2 Statistique descriptive sur deux variables

On considere maintenant que l’on releve deux variables sur les individus d’une population. Il est toujoursinteressant de commencer par etudier la distribution des variables une a une. La question qui se pose ensuitenaturellement est de savoir s’il existe un lien entre les variables. Plus precisemment, on cherchera a savoir si ladistribution d’une variable differe selon les valeurs de l’autre. Nous allons envisager cette question de plusieursmanieres suivant la nature des variables que l’on croise.

2.1 Croisement d’une variable quantitative et d’une variable qualitative

Nous prenons comme exemple 112 mesures1 simultanees relevees a midi de temperature et de direction du vent.Les donnees se presentent comme suit :

"20010601" 18.5 "Nord"

"20010602" 18.4 "Nord"

"20010603" 17.6 "Est"

"20010604" 19.7 "Nord"

"20010605" 20.5 "Ouest"

"20010606" 19.8 "Ouest"

"20010607" 15.6 "Ouest"

"20010610" 17.5 "Nord"

"20010611" 19.6 "Nord"

"20010612" 21.9 "Ouest"

"20010613" 19.3 "Nord"

... ... ...

1Ces donnees sont fournies par Air-Breiz, association de surveillance de la qualite de l’air en Bretagne.

5

Page 6: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Etude univariee Commencons par representer separement les deux variables (cf. figures 7 et 8).

temperature$T12

Den

sity

15 20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Fig. 7 – Distribution des valeurs de temperature.

Est Nord Ouest Sud

vent

Fre

quen

cy

010

2030

4050

Fig. 8 – Distribution des observations de vent.

6

Page 7: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Nous pouvons aussi calculer les statistiques elementaires pour ces deux variables :

mean sd 0% 25% 50% 75% 100% n

21.52679 4.042321 14 18.6 20.55 23.55 33.5 112

T12 vent

Min. :14.00 Est :10

1st Qu.:18.60 Nord :31

Median :20.55 Ouest:50

Mean :21.53 Sud :21

3rd Qu.:23.55

Max. :33.50

On constate que le vent est d’ouest dans presque la moitie des cas.

Etude bivariee La variable vent est qualitative a quatre modalites. On se pose la question suivante : lesvaleurs de temperature sont elles differentes suivant la direction du vent ?On peut commencer par representer la distribution des valeurs de temperatures observees dans chacune desquatre modalites de la variable vent. Plutot que de representer quatre histogrammes, il est plus simple derepresenter les box-plots (cf. figure 9). Il semble que les temperatures sont en general plus elevees par vent de

Est Nord Ouest Sud

1520

2530

vent

T12

Fig. 9 – Distrubutions de temperature suivant la direction du vent.

sud et d’est. Par ailleurs, la dispersion des valeurs semble plus importante par vent d’est. On peut confronterces impressions aux calculs des resumes dans chacun des quatre groupes de vent. Les sorties logiciel sont lessuivantes :

7

Page 8: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

mean sd 0% 25% 50% 75% 100% n

Est 23.67000 5.778898 14.5 19.475 24.30 27.875 32.7 10

Nord 20.06452 3.468482 14.0 17.750 19.20 22.450 28.3 31

Ouest 21.08000 3.232488 15.6 18.725 20.75 22.625 30.5 50

Sud 23.72857 4.562362 17.7 20.300 23.50 26.900 33.5 21

Moyennes et medianes sont en effet plus grandes par vent de sud et d’est. Les ecarts-types egalement sont plusgrands dans ces deux modalites de la variable vent. Avec les elements dont nous disposons, l’interpretation nepeut guere aller plus loin. Nous allons cependant presenter un indice fonde sur la comparaison des moyennes dechaque groupe et qui resume les differences observees : le rapport de correlation. Sa determination se base surune decomposition de la variance totale.

Decomposition de la variance Commencons par introduire les notations generales utilisees dans les for-mules. Supposons que sur n individus, on mesure deux variables X et Y avec X qualitative et Y quantitative. Sinous supposons que X admet r modalites (notees par exemple x1, . . . , xr), les observations de Y se repartissentnaturellement dans ces r modalites et nous notons n1, . . . , nr les nombres d’observations relatifs a chacuned’elle. Nous avons donc n1 + · · · + nr = n.On peut calculer les moyennes conditionnelles, c’est-a-dire les moyennes de Y obtenues dans chacune des rmodalites de X . Ces quantites sont notees y1, . . . , yr. On peut aussi calculer la moyenne y des observations deY dans la population entiere. De meme, les variances obtenues dans les r modalites de X sont notees σ2

1 , . . . , σ2r

et la variance totale est notee σ2.L’equation de decomposition de la variance totale s’ecrit :

σ2 =1

n

r∑

i=1

niσ2i +

1

n

r∑

i=1

ni(yi − y)2.

Nous admettons ici cette egalite. Le premier terme de la somme est appele variance intra-groupes et noteVintra. Ainsi,

Vintra =1

n

r∑

i=1

niσ2i .

Le second terme de la somme est appele variance inter-groupes et note Vinter. Ainsi,

Vinter =1

n

r∑

i=1

ni(yi − y)2.

La variance totale se decompose donc comme somme de la variance intra-groupes et de la variance inter-groupes :

σ2 = Vintra + Vinter.

Le rapport de correlation Par definition, le rapport de correlation, note η2 (ou η2Y |X pour preciser que X

est la variable qualitative), est la quantite :

η2Y |X =

variance inter-groupes

variance totale=

1

n

∑r

i=1ni(yi − y)2

σ2.

Le rapport de correlation est un nombre sans unite puisque c’est le rapport de deux nombres ayant la memeunite. Il est clairement positif car numerateur et denominateur sont positifs et il est inferieur a 1 car la varianceinter-groupes est toujours inferieure (ou eventuellement egale) a la variance totale.Interpretons le rapport de correlation. Nous venons de dire que le rapport de correlation est un nombre comprisentre 0 et 1. Pour lui donner un sens, il est interessant d’envisager les deux cas extremes.– On a η2

Y |X = 0 quand le numerateur est nul donc quand la variance inter-groupes est nulle. Dans ce cas, pour

tout i ∈ {1 . . . r}, yi = y ce qui signifie que les moyennes de la variable quantitative Y sont les memes danstoutes les modalites de X . Autrement dit : en moyenne, les donnees ne different pas selon qu’elles se trouventdans telle ou telle modalite de X .

8

Page 9: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

– On a η2Y |X = 1 lorsque la variance inter-groupes est egale a la variance totale, autrement dit :

η2Y |X = 1 ⇔ σ2 =

1

n

r∑

i=1

ni(yi − y)2.

Cette egalite a lieu lorsque Vintra = 0 c’est-a-dire lorsque chacune des variances σ2i est nulle. Ce cas ne se

produit que si, lors du regroupement des valeurs suivant les modalites de X , on observe au sein de chaquegroupe des donnees toutes identiques. Plus precisement, les donnees different d’un groupe a l’autre mais al’interieur meme de chaque groupe il n’y a aucune variabilite. Il est clair qu’alors, les differences observeessont completement expliquees par l’appartenance a telle ou telle modalite de la variable qualitative.

Le rapport de correlation est donc un nombre compris entre 0 et 1 et on l’interprete souvent en termes depourcentage. Si sa valeur est proche de 1, c’est que la variable X explique une grande partie de la variabilitedes donnees alors que si sa valeur est proche de 0, elle n’en explique que tres peu.

Calculons le rapport de correlation dans notre exemple. Nous avons :

n = 112 n1 = 10 n2 = 31 n3 = 50 n4 = 21

y = 21, 53 y1 = 23, 67 y2 = 20, 06 y3 = 21, 08 y4 = 23, 73

On en deduit :

Vinter =1

112×

{

10(23, 67− 21, 53)2 + · · · + 21(23, 73− 21, 53)2}

≈ 2

Par ailleurs σ = 4, 04 donc :

η2 =2

4, 042= 0, 12

On interprete en disant que la variable vent explique 12% de la variabilite des valeurs de temperature. Cetteinterpretation est assez satisfaisante mais il reste des questions en suspend comme :– 12%, est-ce peu ou beaucoup ?– les differences de moyenne sont-elles significatives ou peuvent-elles etre imputees au hasard?Repondre a ces questions suppose une modelisation mathematique de la situation et le recours aux outilsprobabilistes. Nous approfondirons cela dans la section consacree a l’analyse de la variance.

2.2 Croisement de deux variables quantitatives

Vingt parcelles ont ete traıtees avec une certaine dose d’engrais (variable X). A l’issue de l’experience, on amesure le rendement de chaque parcelle (variable Y ). On dispose donc de n = 20 couples (xi, yi) ou xi et yi

designent respectivement la dose d’engrais apportee et le rendement observe sur la ieme parcelle. Les donnees2

se presentent ainsi :

"engrais" "rendement"

"1" 1 12.2

"2" 1 12.4

"3" 1 13.1

"4" 1 10.4

"5" 2 12.9

"6" 2 14.9

"7" 2 17.6

"8" 2 15.5

"9" 3 17.7

... ... ...

2Ces donnees sont simulees.

9

Page 10: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Les resumes univaries sont les suivants :

mean sd 0% 25% 50% 75% 100% n

engrais 3.40 1.902906 1.0 2.00 3.0 5.000 6.0 20

rendement 19.75 6.241415 10.4 14.45 19.6 24.025 32.3 20

Le nuage de point La question est de savoir si le rendement varie en fonction de la quantite d’engrais utilisee.Dans cette question, les deux variables n’ont pas un role symetrique. En effet, si l’on pose le probleme ainsi,c’est que l’on cherche a expliquer la variable rendement et qu’on se doute que la variable quantite d’engraispeut etre un facteur explicatif. Nous dirons donc le rendement est la variable a expliquer et que la quantited’engrais est la variable explicative. Nous representons ainsi naturellement les n = 20 couples de valeursnumeriques (xi, yi) dans un nuage de points avec les valeurs de quantite d’engrais associees a l’axe des abscisseset les valeurs de rendement a celui des ordonnees (cf. figure 10).

1 2 3 4 5 6

1015

2025

30

quantité d’engrais

rend

emen

t

Fig. 10 – Nuage des observations de quantite d’engrais et de rendement.

Le choix d’une fonction lineaire Nous cherchons a expliquer Y en fonction de X . Ce sont des variablesquantitatives prenant leurs valeurs dans R et nous disposons pour cela, des n couples d’observations (xi, yi).L’idee naturelle est de s’appuyer sur les fonctions en cherchant une fonction f : R → R telle que l’on aitf(xi) ≈ yi. Graphiquement, cela revient a chercher une fonction dont la courbe passe au plus pres des pointsdu nuage. Un premier probleme se pose : dans quelle famille de fonctions choisir f ? La famille la plus simpleest celle des fonctions affines, c’est-a-dire des fonctions de la forme f(x) = ax + b. Faire ce choix presenteplusieurs avantages : tout d’abord, les courbes representant les fonctions affines sont des droites et il ne paraıtpas deraisonnable de resumer l’allure generale du nuage par une droite. Par ailleurs, un tel ajustement nousdonnera une interpretation commode de la situation puisque cela reviendra a dire que, globalement,le rendementaugmente regulierement avec la quantite d’engrais utilisee.

10

Page 11: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Critere des moindres carres La question est ensuite de savoir quelle droite choisir pour notre ajustement.On peut envisager deux points de vue pour mesurer l’eloignement entre un point du nuage et une droite D (cf.figure 11).– Dans le premier cas, on mesure la distance entre le point Mi(xi, yi) et la droite D d’equation y = ax + b en

mesurant la longueur MiPi ou Pi est le projete orthogonal de Mi sur D.– Dans le second cas, on mesure la distance entre Mi(xi, yi) et le point mi(xi, axi + b) c’est-a-dire entre Mi

et le point de D ayant la meme abscisse que lui.

xx

yy

MiMi

Pi

mi

xixi

yiyi

yi = axi + b

x′

i

DD

Fig. 11 – Distances envisagees.

Le premier point de vue est celui adopte pour mesurer la distance d’un point a une droite. Dans notre cas,nous choisirons pourtant le second point de vue. En effet, le role des variables n’est pas symetrique et lorsqu’onconsidere un couple d’observations (xi, yi), la valeur xi est une valeur fixee a partir de laquelle on cherchea approcher yi. Lorsqu’on ajuste une droite d’equation y = f(x) = ax + b aux points du nuage, le modelesimplificateur ainsi obtenu associe a cette valeur xi la valeur ajustee yi = f(xi) = axi + b. Par consequent, pourla valeur xi, l’erreur que nous commettons en prenant yi a la place de la veritable observation yi correspond ala longueur Mimi et vaut donc :

|yi − yi| = |yi − (axi + b)|.Nous decidons de plus de prendre en compte toutes les observations dont nous disposons. En sommant ceslongueurs sur tous les points du nuage, on obtient naturellement la quantite suivante qui donne une mesureglobale de l’erreur faite en identifiant le nuage de points a la droite :

n∑

i=1

|yi − (axi + b)|.

Pour des raisons pratiques (commodite de calcul et unicite de la solution), au lieu de chercher a minimiser laquantite precedente, on prefere mesurer globalement les erreurs en sommant les longueurs Mim

2i et chercher a

minimiser la fonction :

S

{

R × R −→ R+

(a, b) 7−→ S(a, b) =∑n

i=1(yi − (axi + b))

2 .

Au sens de ce critere, il existe une droite et une seule qui soit plus proche des observations que toutes les autres.La pente et l’ordonnee a l’origine de cette droite sont donnees par cet unique couple solution que nous noterons(a, b). Il se deduit des observations (xi, yi) par les formules suivantes :

a =1

n

∑n

i=1(xi − x)(yi − y)

1

n

∑n

i=1(xi − x)2

b = y − ax

Les sorties logiciel sont les suivantes :

Call:

lm(formula = rendement ~ engrais, data = engrais)

11

Page 12: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Residuals:

Min 1Q Median 3Q Max

-3.2384 -1.3206 0.1237 0.7661 4.4439

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 9.1497 0.9299 9.839 1.15e-08 ***

engrais 3.1177 0.2401 12.985 1.40e-10 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 1.992 on 18 degrees of freedom

Multiple R-Squared: 0.9035,Adjusted R-squared: 0.8982

F-statistic: 168.6 on 1 and 18 DF, p-value: 1.404e-10

Nous obtenons beaucoup d’informations (que nous ne pouvons pas toutes interpreter pour le moment) dont

l’estimation a et b des parametres :a = 3, 1177 b = 9, 1497

Ainsi la droite de regression a pour equation :

y = 3, 1177x + 9, 1497.

Nous pouvons la tracer (cf. figure 12).

1 2 3 4 5 6

1015

2025

30

engrais

rend

emen

t

Fig. 12 – Ajustement des moindres carres au nuage de points.

12

Page 13: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Covariance La pente de la droite de regression est donnee par :

a =1

n

∑n

i=1(xi − x)(yi − y)

1

n

∑n

i=1(xi − x)2

Au denominateur on reconnait la variance de la variable explicative X . Le numerateur a une forme comparablemais prend egalement en compte les observations de la variable Y . Cette quantite fait l’objet d’une definition :la covariance entre les deux variables. Nous notons :

Cov(X, Y ) =1

n

n∑

i=1

(xi − x)(yi − y).

Le signe de cette quantite est interessant car il nous renseigne sur l’allure ascendante ou descendante du nuagedes points (pour plus de details, cf. Agnes Hamon et Nicolas Jegou, ”Statistique descriptive. Cours et exercices

corriges.”, PUR, 2008 ). Elle nous permet d’introduire une mesure de la qualite de l’ajustement : le R2.

Le coefficient de determination Par definition, le coefficient de determination note R2 est :

R2 =Cov(X, Y )2

VXVY

.

Cette quantite est comprise entre 0 et 1. Une valeur proche de 1 signifie que l’ajustement realise est satisfaisantalors qu’une valeur proche de 0 signifie qu’il est insuffisant (ou incomplet).Nous pouvons lire la valeur de R2 dans la sortie logiciel precedente :

Multiple R-Squared: 0.9035

Elle est proche de 1 donc on peut penser que l’ajustement obtenu est correct.

Conclusions Representer le nuage des points permet de“sentir”la nature de la liaison entre les deux variables.En particulier, on verra s’il n’est pas deraisonnable de resumer l’allure du nuage ce qui donne une interpretationcommode de la liaison. Mesurer la qualite du modele ainsi defini a partir de la simple valeur de R2 calculeeest par contre insuffisant. Il faudrait pouvoir juger de la significativite de cette valeur ainsi que de celles descoefficients a et b. C’est l’interpretation des autres sorties logiciel qui nous permettra de la faire.

2.3 Croisement de deux variables qualitatives

Considerons l’exemple (fictif) dont le debut des donnees est le suivant :

Individu Variable 1 Variable 2no X Y1 H 12 H 13 F 04 H 25 F 06 F 17 F 08 H 09 F 210 F 1... ... ...

13

Page 14: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Les variables considerees ici, et notees X et Y dans le tableau, sont respectivement le sexe de la personneinterrogee et la frequence de lecture d’un journal quotidien national. Plus precisemment, les modalites des deuxvariables sont les suivantes :– pour la variable X , les modalites Femme et Homme sont codees F et H,– pour la variable Y , les modalites sont Jamais, Moins d’une fois par jour et Une fois par jour et plus. Ces

modalites sont codees 0, 1 et 2.

Tableau de contingence L’ensemble des donnees precedentes peut etre resume dans un tableau de contin-

gence, c’est-a-dire un tableau a double entree croisant les deux variables et regroupant les effectifs observesmodalite par modalite . Soit pour l’exemple le tableau de contingence suivant :

Y Total0 1 2

XFemme 30 20 10 60Homme 10 20 10 40

Total 40 40 20 100

Les effectifs totaux de chaque ligne (derniere colonne) et de chaque colonne (derniere ligne) sont appeles effectifs

marginaux car ils sont ecrits en marge du tableau. Ils nous renseignent sur la distribution de chaque variableindependamment de l’autre. Les effectifs situes a “l’interieur” du tableau sont eux appeles effectifs conjoints

puisqu’on y observe la repartition conjointe des deux variables .Nous adopterons les notations suivantes pour les effectifs d’un tableau de contingence quelconque :

y1 y2 y3 · · · ys Total

x1 n11 n12 n13 · · · n1s n1•

x2 n21 n22 n23 · · · n2s n2•

x3 n31 n32 n33 · · · n3s n3•

· · · · · · · · · · · · · · · · · · · · ·xr nr1 nr2 nr3 · · · nrs nr•

Total n•1 n•2 n•3 · · · n•s n

Les significations des notations du tableau sont :– x1, · · · , xr sont les r modalites de la variable X– y1, · · · , ys sont les s modalites de la variable Y– nij est le nombre d’individus correspondant a la ieme modalite de X et a la jeme modalite de Y . L’indice i

est appele indice de ligne. Il varie de 1 a r. L’indice j est appele indice de colonne. Il varie de 1 a s.– ni• est le nombre total d’individus correspondant a la ieme modalite de X , sans considerer le caractere Y ;

c’est l’effectif marginal de la ieme modalite de X– n•j est le nombre d’individus correspondant a la jeme modalite de Y , sans considerer la variable X ; c’est

l’effectif marginal de la jeme modalite de Y– n est l’effectif total.Nous avons quelques relations immediates :– Pour tout i compris entre 1 et r

ni1 + ni2 + · · · + nis =

s∑

j=1

nij = ni•

– Pour tout j compris entre 1 et s

n1j + n2j + · · · + nrj =

r∑

i=1

nij = n•j

14

Page 15: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

– On retrouve l’effectif total en sommant les effectifs marginaux de l’une ou l’autre des variables, donc :

r∑

i=1

ni• =

s∑

j=1

n•j = n

Frequences conditionnelles Le but est de comprendre l’influence de l’une des variables sur la deuxieme.Pour notre exemple, on peut chercher a savoir si la repartition hommes/femmes est identique ou non selon quel’on considere les personnes ne lisant jamais, lisant moins d’une fois par jour ou lisant une fois par jour unquotidien national. Les donnees utiles s’obtiennent par une lecture “verticale” du tableau de contingence et ils’agit de comparer les repartitions hommes/femmes dans chacune des trois categories de la variable Y .On effectue une etude frequentielle de la distribution de X dans chacune des sous-populations definies par lesmodalites de Y : on calcule donc ce que l’on appelle les frequences conditionnelles de X conditionnees

par Y ; c’est-a-dire les frequences des differentes modalites de X successivement pour les trois modalites de Y :Jamais, Moins d’une fois par jour et Une fois par jour et plus. De telles frequences conditionnelles se calculenta partir du tableau de contingence, en convertissant les effectifs en frequences pour chaque colonne separement.La somme de chaque colonne donne alors 1. Avec les notations introduites, la frequence conditionnelle de lai-eme modalite de X , etant donnee la j-eme modalite de Y , est la quantite :

fX=i|Y =j =nij

n•j

La notation fX=i|Y =j se lit“f de X-egale-i-sachant-Y -egale-j”, elle est parfois abregee fi|j lorsqu’aucune confusionn’est possible sur la variable conditionnante.Ainsi pour l’exemple les frequences associees sont :

Y Total0 1 2

XFemme 0,75 0,5 0,5 0,6Homme 0,25 0,5 0,5 0,4

Total 1 1 1 1

La frequence de la modalite Femme conditionnellement a la modalite Jamais est egale a 0,75 (avec les notations,fX=1|Y =0 = 0, 75). Cela signifie que parmi les personnes qui ne lisent jamais un quotidien national il y a 75%de femmes. Si l’on compare les frequences conditionnelles entre elles, on voit que pour les modalites 1 et 2 lesrepartitions hommes/femmes sont les memes (50%/50%) alors que pour la modalite 0, il y a 75% de femmes.On dit alors que les profils des colonnes correspondant aux modalites 1 et 2 sont identiques et different decelui de la colonne correspondant a la modalite 0. Enfin on peut remarquer que parmi les personnes ne lisantjamais, il y a 75% de femmes alors que parmi l’ensemble des personnes interrogees il y en a 60%. Dans ce cason dit que le profil colonne de la modalite 0 est different des frequences marginales. On represente facilementles distributions conditionnelles de X comme en figure 13.

15

Page 16: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

donnees$LECTEUR

donn

ees$

SE

XE

0 1 2

FH

0.0

0.2

0.4

0.6

0.8

1.0

Fig. 13 – Distributions H/F selon le type de lecteurs.

De facon similaire, on peut aussi calculer les frequences conditionnelles de Y par rapport a X .

fY =j|X=i =nij

ni•

Pour l’exemple, le tableau obtenu est le suivant :

Y Total0 1 2

XFemme 0,50 0,33 0,17 1Homme 0,25 0,5 0,25 1

Total 0,4 0,4 0,2 1

Independance de deux variables - Ecarts a l’independance Nous allons dans cette section, apprendrea mesurer numeriquement le degre de dependance de deux variables. Cela suppose que l’on comprenne auprealable, ce que signifie l’independance de deux variables.On se doute que le sexe et la frequence de lecture d’un quotidien ne sont pas tout a fait independants puisque,par exemple, dans l’echantillon dont nous disposons, la moitie des femmes interrogees ne lit jamais un journalquotidien alors que seul un quart des hommes est dans ce cas. On comprend aussi que, si a l’interieur dechacune des modalites de Y , on retrouvait la meme repartition hommes/femmes que dans la population totale,on pourrait considerer que la frequence de lecture d’un quotidien est independante du sexe.Sous l’hypothese que les variables sont independantes, on aurait donc le tableau de frequence conditionnelle deX par rapport a Y suivant :

16

Page 17: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Y Total0 1 2

XFemme 0, 6 0,6 0,6 0,6Homme 0, 4 0,4 0,4 0,4

Total 1 1 1 1

Nous pouvons formaliser en disant que, sous l’hypothese d’independance, les distributions conditionnelles de Xdans chacune des modalites de Y sont egales a la distribution marginale de X ce qu’on traduit par :

fX=i|Y =j = fi•

ce qui est equivalent anij

n•j

=ni•

n

ou encore a

nij =ni• × n•j

n

On peut montrer qu’envisager l’independance des deux variables en conditionnant par la variable X conduit auxmeme egalites. Finalement, que l’on essaye de comprendre l’independance en raisonnant sur les profils lignes oucolonnes, les conclusions sont les memes et on peut resumer en disant :– Lorsque tous les profils lignes sont identiques entre eux (et donc aussi les profils colonnes) on parle d’independance.– Deux variables sont dites independantes si chaque effectif conjoint nij est egal a n∗

ij ou

n∗ij =

ni•n•j

n

On peut construire le tableau que l’on aurait si les deux variables etaient independantes :

Y Total0 10 20

XFemme 24 24 12 60Homme 16 16 8 40

Total 40 40 20 100

On se doute que l’independance parfaite des deux variables n’est en realite qu’ideale et tout le probleme main-tenant est de determiner dans quelle mesure la situation reelle est eloignee de la situation theorique d’inde-pendance : nous allons donc chercher a mesurer le degre de dependance des deux variables en mesurant l’ecarta l’independance. La quantification de la dependance entre deux variables est fondee sur les differences qu’ilpeut y avoir entre les effectifs conjoints observes et les effectifs conjoints theoriques. Afin de quantifier la depen-dance entre deux variables, calculons, pour chaque effectif coinjoint nij , son ecart quadratique relatif a l’effectiftheorique de l’independance n⋆

ij , soit la valeur suivante :

(nij − n⋆ij)

2

n⋆ij

– Cette quantite est nulle si son numerateur est nul, c’est a dire si nij = n∗ij , donc si l’effectif conjoint de xi ×yj

correspond a l’effectif conjoint qu’on observerait sous l’hypothese d’independance.– Plus sa valeur est grande et plus l’effectif conjoint de xi × yj est eloigne de celui qu’on observerait sous

l’hypothese d’independance.– Cette quantite mesure donc l’ecart a l’independance du croisement xi × yj .Pour mesurer de facon globale l’ecart a l’independance, on fait la somme de ces ecarts sur l’ensemble du tableaude contingence et on appelle cette somme le khi deux (note χ2) :

χ2 =

r∑

i=1

s∑

j=1

(nij − n⋆ij)

2

n⋆ij

=

r∑

i=1

s∑

j=1

(nij − n•jni•

n)2

n•jni•

n

17

Page 18: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Dans l’exemple, on obtient :χ2 = 6, 25

Conclusions Cette valeur est une mesure de l’ecart a l’independance mais l’interpreter suppose qu’on disposed’une echelle de comparaison. Elle vaut 0 en cas d’independance stricte des variables et elle est d’autant plusgrande que les variables sont dependantes. Une interpretation rigoureuse de cette valeur releve de la statistiqueinferentielle et necessite la theorie des test. Precisons quand meme l’existence d’indices fondes sur le χ2 et quiont la propriete d’etre toujours compris entre 0 et 1. Parmi eux, Le coefficient de contingence de Pearson,note C(X, Y )

C(X, Y ) =

χ2

n + χ2

Il vaut ici 0,24 mais la question de savoir si cela est peu ou beaucoup reste entiere.

2.4 En conclusion

Comprendre l’eventuel lien entre deux variables passe par une premiere etape descriptive. L’existence d’unlien suppose que la distribution de l’une des variables varie sensiblement suivant les valeurs ou modalites del’autre. On peut considerer que d’un point de vue strictement descriptif, seule l’analyse graphique est reellementpertinente. Les mesures d’intensite de la liaison (χ2, η2, R2), pour etre reellement interpretees, sont a comparera des valeurs probables qu’on pourrait observer en l’absence de toute liaison. C’est l’objet de la section suivante.

3 Analyse des sorties logiciel

3.1 Le principe du test statistique

Le principe d’un test statistique est base sur des theories probabilistes en particulier sur la theorie de l’echan-tillonnage. Nous proposons ici d’apprehender l’idee de test sans developper les aspects mathematiques sous-jacents. Cette presentation ne se veut pas parfaitement rigoureuse mais son objectif est de permettre uneinterpretation correcte des sorties logiciel que nous avons observees jusqu’ici. Pour illustrer la demarche, nousprenons l’exemple suivant :

Exemple Des biologistes suivent l’evolution d’une espece de truite dans un etang. Des etudes prealables ontmontre que, dans des conditions correctes de developpement, le poids des truites adultes pour cette espece etaitdistribue selon une loi normale de moyenne µ = 1kg et d’ecart-type σ = 0, 1kg. Si X est la variable aleatoirecorrespondant au poids d’une truite, on note :

X ∼ N (1, 0, 12).

En particulier, cela signifie que 65% des poids des truites appartiennent a l’intervalle [µ− σ; µ + σ] = [0, 9; 1, 1]ou encore que 95% sont dans [µ − 2σ; µ + 2σ] = [0, 8; 1, 2] (cf. figure 14).

Questions Les biologistes prelevent dans l’etang un echantillon de n = 10 truites. A partir de l’echantillonpreleve, ils souhaitent savoir le poids des truites de l’etang correspond a des conditions correctes de developpe-ment, plus precisement si le poids moyen des truites dans l’etang est µ = 1. A moins de pecher toutes les truitesde l’etang, il est impossible de repondre precisement a cette question. Ils obtiennent dans leur echantillon unpoids moyen x = 0, 9. La question est des lors la suivante : cette moyenne d’echantillon est-elle vraisemblablesi, dans la population mere, la moyenne est µ = 1? Si oui, il n’y a pas lieu de rejeter l’hypothese H0 : µ = 1.Si, au contraire, la moyenne x correspond a une valeur peu probable sous l’hypothese H0, on peut penser quel’hypothese H0 est a rejeter. Il faudra alors prendre des mesures adequates comme effectuer un nouveau prele-vement pour infirmer ou confirmer les conlusions precedentes ou chercher les causes d’un eventuel probleme de

18

Page 19: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

0.7 0.8 0.9 1.0 1.1 1.2 1.3

01

23

4Normal Distribution: µ = 1, σ = 0.1

Den

sity

0.7 0.8 0.9 1.0 1.1 1.2 1.3

01

23

4

Normal Distribution: µ = 1, σ = 0.1

Den

sity

µ − σ µ + σ µ − 2σ µ + 2σ

Fig. 14 – Proprietes de la loi normale.

developpement des truites (pollution, situation climatique particuliere,...).Nous posons :

H0 : µ = 1 Cette hypothese est appelee hypothese nulle

H1 : µ 6= 1 Hypothese alternative

Demarche Nous envisageons le probleme de la maniere suivante : si dans la population mere la moyenne estµ = 1 (autrement-dit, sous H0), a quelles valeurs de moyenne x devons-nous nous attendre pour des echantillonsde taille n = 10 ?Il y a une reponse probabiliste ; en effet,

si X ∼ N (µ, σ2), alors X ∼ N(

µ,σ2

n

)

.

Les moyennes d’echantillon sont distribuees selon une loi normale de moyenne µ et de variance σ2

n. Les valeurs

de moyennes d’echantillons attendues sous H0 sont representees en figure 15. Nous observons entre autre que,si dans l’etang le poids moyen est µ = 1, les moyennes d’echantillon seront centrees sur cette valeur. Le poidsmoyen calcule dans un echantillon particulier a bien sur peu de chances de correspondre precisement a cette

19

Page 20: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

valeur ; dans l’echantillon preleve par les biologistes, nous avons par exemple x = 0, 9. Cette difference observeeavec la valeur attendue est-elle imputable au hasard ou doit-on considerer qu’elle s’explique par le fait que dansla population mere, la moyenne n’est pas µ = 1?

0.7 0.8 0.9 1.0 1.1 1.2 1.3

01

23

4

Normal Distribution: µ = 1, σ = 0.1

x

Den

sity

0.7 0.8 0.9 1.0 1.1 1.2 1.3

02

46

810

Normal Distribution: µ = 1, σ = 0.1/sqrt(10)

x

Den

sity

Fig. 15 – Valeurs de moyennes d’echantillon attendues sous H0.

Conclusion Nous voyons que la valeur observee x = 0, 9 se situe dans la queue de la distribution. C’est unevaleur qui a tres peu de chances d’etre observee sous H0. Plus precisement, si µ = 1 dans l’etang, la probabilited’observer des moyennes d’echantillon au moins aussi petites que x = 0, 9 est 0.0007827011 ≈ 0, 07% :

> pnorm(0.9,mean=1,sd=0.1/sqrt(10))

[1] 0.0007827011

Observer une telle moyenne sur un echantillon est donc fort peu probable sous H0 : il y a donc lieu de s’interrogersur la vraisemblance de l’hypothese.

3.2 Test d’independance de deux variables qualitatives

Nous reprenons l’exemple vu en section 2.3. Nous considerons que nous disposons des mesures des deux variables“sexe” et “type de lecteur” sur un echantillon de n = 100 personnes. Au vu de ces donnees, pouvons-nousconsiderer que ces deux variables sont independantes ? Nous considerons donc notre echantillon comme issud’une population plus large et nous avons calcule une mesure de l’ecart des donnees a l’independance :

χ2 = 6, 25.

20

Page 21: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

Nous testons cette fois l’hypothese H0 : les variables “sexe” et “type de lecteur” sont independantes. Si la valeurde χ2 calculee est significativement differente de zero, nous rejeterons H0, sinon, nous ne rejeterons pas H0.Le traitement des donnees avec Rcmdr est le suivant :

> lecteur <- read.table("/home/jegou/GEO/MASTER/lecteurs.txt",

header=TRUE, sep="",na.strings="NA",

dec=".", strip.white=TRUE) # importation des donnees

> lecteur$lecteur <- factor(lecteur$lecteur, # convertion de la 2nde

labels=c(’0’,’1’,’2’)) # variable en facteur

> summary(lecteur) # verifiation des donnees

sexe lecteur

F:60 0:40

H:40 1:40

2:20

> .Table <- xtabs(~sexe+lecteur, data=lecteur) # creation du tableau de contingence

> .Table # affichage du tableau

lecteur

sexe 0 1 2

F 30 20 10

H 10 20 10

> .Test <- chisq.test(.Table, correct=FALSE) # realisation du test d’independance

> .Test

Pearson’s Chi-squared test

data: .Table

X-squared = 6.25, df = 2, p-value = 0.04394

Probabilite critique C’est la derniere sortie qui doit nous permettre de conclure. On retrouve tout d’abordla valeur de χ2 : X-squared = 6.25. Comme c’est a partir de cette valeur qu’est calculee la sortie suivante p-value = 0.04394, appelee probabilite critique, la valeur de χ2 utilisee s’appelle la statistique de test. Lasortie p-value = 0.04394 nous indique que sous l’hypothese d’independance des variables, seules 4,394%

des valeurs de χ2 sont au moins aussi grandes que celle que nous avons obtenue. Autrement-dit,sous l’hypothese d’independance, observer un echantillon presentant des ecarts a l’independance au moins aussiimportants n’arrivera que dans 4,394% des cas.Doit-on rejeter H0 ? Tout depend du seuil que l’on se fixe au depart. On peut par exemple decider de rejeterH0 des que la statistique de test correspond a une valeur ayant moins de 5% d’etre observee sous H0, auquelcas on rejetera H0 dans notre exemple. Dans la pratique, ce seuil, note α est d’ailleurs souvent fixe a 5%. Ilcorrespond au risque que l’on accepte de prendre en rejetant H0 a tort (pour plus de detail, cf. Jerome Pages,“Statistiques generales pour utilisateurs. 1-Methodologie”, PUR, 2005).

3.3 Principe de l’analyse de variance a un facteur

Nous reprenons l’exemple du croisemement des variables vent et T12 vues en section 2.1. Nous avions representela situation en figure 9 page 7 et calcule les resumes de la variable T12 dans les quatre groupes du facteur vent(la variable qualitative est souvent appelee facteur) :

21

Page 22: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

mean sd 0% 25% 50% 75% 100% n

Est 23.67000 5.778898 14.5 19.475 24.30 27.875 32.7 10

Nord 20.06452 3.468482 14.0 17.750 19.20 22.450 28.3 31

Ouest 21.08000 3.232488 15.6 18.725 20.75 22.625 30.5 50

Sud 23.72857 4.562362 17.7 20.300 23.50 26.900 33.5 21

Nous considerons que nous observons des realisations d’une variable aleatoire quantitative Y (ici la temperature)dans les quatre groupes d’un facteur qualitatif X (ici les quatre directions de la variable vent). Nous supposonsque nos 4 echantillons sont issus de populations plus larges : les ensembles de valeurs de temperatures pourchaque direction de vent. Nous ignorons les moyennes de temperatures dans ces quatre populations meres maisnous les notons : µ1, µ2, µ3, µ4.

Questions Nous nous posons la question suivante : au regard des echantillons dont nous disposons, pouvonsnous considerer que les moyennes µi sont egales au sein des populations meres ? Autrement-dit, les differencesde moyennes que nous observons dans les echantillons sont-elles significatives ou doivent-elles etre imputees auhasard? Ou encore, les differences de moyennes que nous observons dans les echantillons sont-elles suffisamentgrandes pour que l’hypothese d’egalite des µi puisse etre remise en cause ?Nous posons cette fois :

H0 : µ1 = µ2 = µ3 = µ4 contre H1 : au moins un des µi differe des autres.

Elements de reponse Les reponses a ces questions s’appuient sur les theories probabilistes ainsi que surl’equation de decomposition de la variance que nous rappelons :

σ2 =1

n

r∑

i=1

niσ2i +

1

n

r∑

i=1

ni(yi − y)2.

Cette equation fait apparaitre deux termes qui composent la variabilite totale σ2 constatee sur les valeurs detemperature.– Le terme 1

n

∑r

i=1ni(yi − y)2 que nous avons appele variance inter-groupes peut etre vu comme la part de

variabilite due au facteur. En effet, si l’on imagine que dans chaque groupe i, on a toujours la meme observationyi, alors la variabilite dans chaque groupe est nulle (les σ2

i sont tous nuls). On a alors l’egalite suivante

σ2 =1

n

r∑

i=1

ni(yi − y)2

qui illustre que la totalite de la variabilite s’explique par le regroupement des valeurs de Y dans les modalitesde X .

– Le terme 1

n

∑r

i=1niσ

2i que nous avons appele variance intra-groupe peut par consequent etre vu comme la

partie de la variabilite totale qui n’est pas due au facteur et que l’on peut imputer au hasard. On peutconsiderer qu’il s’agit de la part de variabilite “naturelle” entrant dans la variabilite totale.

Le test de l’hypothese H0 est fonde sur la comparaison de ces deux quantites. On envisage les choses ainsi : sila part due au facteur est comparable a celle due au hasard, il n’y a pas lieu de considerer que les differencesde moyennes yi observees sont imputables a autre chose que le hasard. Dans ce cas, on ne rejettera pas H0. Siau contraire, la part due au facteur est significativement superieure a celle due au hasard, il y a lieu de penserque les differences de moyennes sont significatives. Dans ce cas, on rejettera H0 en concluant qu’il y a un effetfacteur.

Lecture des sorties La statistique utilisee pour le test se deduit directement du rapport des deux quantitesevoquees a l’instant :

F =Vinter/(r − 1)

(σ2 − Vinter)/(n − r).

La presence des termes r − 1 et n − r assure (entre autres) que sous H0, le rapport ecrit vaut en moyenne 1.Les sorties logiciel sont les suivantes :

22

Page 23: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

# Importation des donnees

> donnees <- read.table("/home/jegou/GEO/MASTER/

tempvent.txt", header=TRUE, sep="",

na.strings="NA", dec=".", strip.white=TRUE)

# Estimation des parametres du modele d’analyse de variance

> .Anova <- lm(T12 ~ vent, data=donnees)

# Analyse de la variance

> anova(.Anova)

Analysis of Variance Table

Response: T12

Df Sum Sq Mean Sq F value Pr(>F)

vent 3 224.00 74.67 5.0725 0.002522 **

Residuals 108 1589.77 14.72

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Nous lisons la valeur de F : F value = 5.0725 ainsi que la probabilite critique associee a cette valeur : Pr(>F)= 0.002522. Celle-ci s’interprete de la maniere suivante : sous l’hypothese H0, 0,25% des valeurs de F seraientau moins aussi grandes que la valeur F value = 5.0725 que nous avons avec nos donnees. Si l’on fixe le seuil derejet de H0 a tord a 5%, on rejettera H0 et considerera qu’il y a un effet du facteur.

23

Page 24: Rcmdr - Pages personnelles Université Rennes 2 · Universit´e de Rennes 2 Statistiques des donn´ees M1-GEO ... qui rendent compte de la dispersion des observations autour de ces

3.4 Significativite du coefficient de pente en regression simple

Reprenons l’exemple du rendement Y a expliquer par la dose d’engrais X vu en section 2.2. Considerons que lesquelques observations qui nous ont servi a calculer les valeurs a et b sont issues d’une population plus large. Onse pose la question suivante : sur la base des observations que nous avons, peut-on considerer que l’augmentationd’une dose d’engrais se traduit par une augmentation significative du rendement ? Autrement-dit, si la relationentre les variables Y et X est du type Y ≈ aX + b, peut-on considerer a = 0 (augmenter la dose d’engrais n’apas d’effet sur le rendement) ou a 6= 0 (augmenter la dose d’engrais a un effet sur le rendement) ? On pose donc :

H0 : a = 0 H1 : a 6= 0.

Le critere des moindres carres nous donne, sur la base des observations dont nous disposons, une estimation ade a. En reprenant les schemas precedents, on envisage le probleme ainsi : si a est significativement different de0, on rejette H0 alors que si a n’est pas significativement different de 0, il n’y a aucune raison de rejeter H0.Pour trancher cette question, il faut comparer la valeur de a que nous avons a des valeurs qu’on obtiendraitsous le seul effet du hasard avec une absence de relation lineaire entre X et Y . Les sorties R rendent compte dece test. Nous les rappelons :

Call:

lm(formula = rendement ~ engrais, data = engrais)

Residuals:

Min 1Q Median 3Q Max

-3.2384 -1.3206 0.1237 0.7661 4.4439

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 9.1497 0.9299 9.839 1.15e-08 ***

engrais 3.1177 0.2401 12.985 1.40e-10 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 1.992 on 18 degrees of freedom

Multiple R-Squared: 0.9035,Adjusted R-squared: 0.8982

F-statistic: 168.6 on 1 and 18 DF, p-value: 1.404e-10

La sortie engrais : Pr(>|t|) = 1.40e-10 indique que sous l’hypothese H0 (absence de relation lineaire entre X etY ), la probabilite d’observer des coefficients de pente au moins aussi eloignes de 0 que celui que l’on a (Estimate= 3.1177) est inferieure a 1.40e-10 donc infime. Il y a toute raison de rejeter H0 donc de penser qu’augmenterla dose d’engrais produit une augmentation sensible du rendement.

24