Click here to load reader
Upload
dolien
View
212
Download
0
Embed Size (px)
Citation preview
Cours
1
Statistiques à 2 variables
On appelle série statistique à 2 variables une série statistique dans laquelle 2 caractères X et Y sont
étudiés simultanément.
Si les 2 caractères sont quantitatifs, de valeurs x1, x2, …, xn pour X et y1, y2,…, yn pour Y, alors la série
statistique à 2 variables correspondante est l’ensemble des couples (xi ; yi) avec i entier variant de 1 à
n.
Exemples de série statistique à 2 variables :
- Etude de la consommation d’électricité et de la température extérieure,
- Etude du prix de vente d’un objet et du nombre d’objets vendus,
Néanmoins, on peut également traiter comme des séries statistiques à 2 variables les séries
chronologiques qui concernent un seul caractère dont les valeurs sont relevées à des dates différentes
(valeurs du chiffre d’affaires, évolution du stock,…).
I. Organisation d’une série statistique à 2 variables
A. Nuage de points
Le problème qui se pose dans les séries statistiques à 2 variables est principalement celui du lien qui
existe ou non entre chacune des variables.
Lors de l’étude d’une série statistique à 2 variables, la première étape consiste à réaliser un graphique
qui traduise les deux séries statistiques.
Cf : Annexes statistiques à 2 variables
Dans un plan muni d’un repère orthogonal, on appelle nuage de points de la série l’ensemble des
points Mi de coordonnées (xi ; yi).
La représentation du nuage de points d’une série statistique peut permettre de mettre en évidence un
lien éventuel entre les valeurs x1, x2, …, xn et y1, y2,…, yn, notamment lorsque les points du nuage
présentent un certain alignement.
En revanche, si le nuage de points donne immédiatement des informations de nature qualitatives, pour
en tirer des informations plus quantitatives, il faut trouver une méthode pour résoudre le problème de
l’ajustement.
En effet, certains nuages de points sont dispersés de façon quelconque lorsqu’il n’existe aucun lien
entre xi et yi.
Cours
2
B. Point moyen
Soit une série statistique à 2 variables dont les valeurs sont des couples (xi ; yi).
On appelle point moyen de la série le point G de coordonnées :
xG = =
yG = =
Il est intéressant de déterminer le point moyen d’une série statistique à 2 variables si l’on pense
pouvoir réaliser un ajustement affine du nuage de points (ou si le nuage de points présente une
symétrie centrale).
Il est alors possible de tracer la droite et de placer le point dont l’abscisse est la moyenne des abscisses
xi et l’ordonnée la moyenne des ordonnées yi.
II. Ajustement
A. Méthode graphique
1. Ajustement à la règle
A partir des résultats obtenus lors du tracé du nuage de point, on peut tenter de faire des prévisions.
Un moyen d’y parvenir est de tracer approximativement une droite D passant le plus près possible des
points du nuage en s’efforçant de répartir de façon équilibrée les points de part et d’autre.
Une fois la droite tracée, il faudra en trouver l’équation du type y = ax + b.
2. Ajustement affine par la méthode de Mayer
La méthode de Mayer consiste à déterminer l’équation de la droite passant par deux points moyens du
nuage de point.
Pour cela on partage le nuage de points global en 2 nuages les plus équilibrés possibles.
Pour ces 2 nuages de points, on détermine les points moyens et on trace la droite par ces 2 points.
Les 2 points moyens obtenus permettront de déterminer aisément l’équation de la droite tracée.
Cours
3
B. La méthode des moindres carrés
1. La droite de régression
L’ajustement affine selon la méthode des moindres carrés
consiste à déterminer l’équation de la forme y = ax + b de la
droite D équidistante des points situés de part et d’autre
d’elle-même.
Pour réaliser ceci, on cherche à minimiser la somme des carrés
des distances des points à la droite.
La droite obtenue est appelée droite de régression de y en x
telle que :
Une fois l’équation de la droite de régression connue, on peut effectuer des prévisions de valeurs de y
pour des valeurs de x non connues dans la série d’origine.
Attention !!!
Il peut y avoir un bon ajustement affine alors qu’il n’y a pas de lien de cause à effet direct entre les
deux variables.
Cela peut résulter d’une troisième variable qui n’apparaît pas dans les séries étudiées.
2. Covariance d’une série statistique à 2 variables
L a covariance est un nombre permettant d'évaluer le sens de variation de deux variables aléatoires
et, ainsi, de qualifier la dépendance de ces variables.
Si deux variables aléatoires sont indépendantes alors leur covariance est nulle, mais la réciproque est
fausse.
On appelle covariance de la série statistique double de variables x et y le nombre réel :
cov (x,y) =
=
=
-
Rem : la dernière écriture est préférable à utiliser pour les calculs.
Cours
4
La covariance d’une série statistique permet de déterminer aisément l’équation de la droite de
régression qui lui est associée.
La droite de régression D a pour équation y = ax + b avec :
Avec cette méthode, la droite de régression D passe par le point moyen du nuage G ( , ).
Rem : La calculatrice et les tableurs permettent de déterminer l’équation réduite y = ax + b de la
droite d’ajustement de y en x en donnant directement a et b.
Donc évitez de perdre du temps dans des calculs infinis !!!
III. Coefficient de corrélation linéaire
Le coefficient de corrélation linéaire d’une série statistique de variables x et y est le nombre r défini
par :
r =
Plus le coefficient de régression linéaire est proche de 1 en valeur absolue, meilleur est l’ajustement
linéaire.
On dit alors qu’il existe une « bonne corrélation » entre les 2 caractères étudiés.
Le coefficient de corrélation linéaire vérifie toujours −1 < r < 1.
Lorsque r = ±1, la droite de régression passe par tous les points du nuage, qui sont donc alignés.
Attention !!!
Ne pas confondre une forte corrélation et une liaison de cause à effet !
Exemples :
- Résultats à un test de mathématiques et la pointure de pieds des élèves,
- Le réchauffement climatique et la disparition du nombre de pirates depuis le 17ème
siècle,
- Consommation de chocolat et consommation de drogues dures…