4

Click here to load reader

Statistiques à 2 variables · Cours 1 Statistiques à 2 variables On appelle série statistique à 2 variables une série statistique dans laquelle 2 caractères X et Y sont étudiés

  • Upload
    dolien

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistiques à 2 variables · Cours 1 Statistiques à 2 variables On appelle série statistique à 2 variables une série statistique dans laquelle 2 caractères X et Y sont étudiés

Cours

1

Statistiques à 2 variables

On appelle série statistique à 2 variables une série statistique dans laquelle 2 caractères X et Y sont

étudiés simultanément.

Si les 2 caractères sont quantitatifs, de valeurs x1, x2, …, xn pour X et y1, y2,…, yn pour Y, alors la série

statistique à 2 variables correspondante est l’ensemble des couples (xi ; yi) avec i entier variant de 1 à

n.

Exemples de série statistique à 2 variables :

- Etude de la consommation d’électricité et de la température extérieure,

- Etude du prix de vente d’un objet et du nombre d’objets vendus,

Néanmoins, on peut également traiter comme des séries statistiques à 2 variables les séries

chronologiques qui concernent un seul caractère dont les valeurs sont relevées à des dates différentes

(valeurs du chiffre d’affaires, évolution du stock,…).

I. Organisation d’une série statistique à 2 variables

A. Nuage de points

Le problème qui se pose dans les séries statistiques à 2 variables est principalement celui du lien qui

existe ou non entre chacune des variables.

Lors de l’étude d’une série statistique à 2 variables, la première étape consiste à réaliser un graphique

qui traduise les deux séries statistiques.

Cf : Annexes statistiques à 2 variables

Dans un plan muni d’un repère orthogonal, on appelle nuage de points de la série l’ensemble des

points Mi de coordonnées (xi ; yi).

La représentation du nuage de points d’une série statistique peut permettre de mettre en évidence un

lien éventuel entre les valeurs x1, x2, …, xn et y1, y2,…, yn, notamment lorsque les points du nuage

présentent un certain alignement.

En revanche, si le nuage de points donne immédiatement des informations de nature qualitatives, pour

en tirer des informations plus quantitatives, il faut trouver une méthode pour résoudre le problème de

l’ajustement.

En effet, certains nuages de points sont dispersés de façon quelconque lorsqu’il n’existe aucun lien

entre xi et yi.

Page 2: Statistiques à 2 variables · Cours 1 Statistiques à 2 variables On appelle série statistique à 2 variables une série statistique dans laquelle 2 caractères X et Y sont étudiés

Cours

2

B. Point moyen

Soit une série statistique à 2 variables dont les valeurs sont des couples (xi ; yi).

On appelle point moyen de la série le point G de coordonnées :

xG = =

yG = =

Il est intéressant de déterminer le point moyen d’une série statistique à 2 variables si l’on pense

pouvoir réaliser un ajustement affine du nuage de points (ou si le nuage de points présente une

symétrie centrale).

Il est alors possible de tracer la droite et de placer le point dont l’abscisse est la moyenne des abscisses

xi et l’ordonnée la moyenne des ordonnées yi.

II. Ajustement

A. Méthode graphique

1. Ajustement à la règle

A partir des résultats obtenus lors du tracé du nuage de point, on peut tenter de faire des prévisions.

Un moyen d’y parvenir est de tracer approximativement une droite D passant le plus près possible des

points du nuage en s’efforçant de répartir de façon équilibrée les points de part et d’autre.

Une fois la droite tracée, il faudra en trouver l’équation du type y = ax + b.

2. Ajustement affine par la méthode de Mayer

La méthode de Mayer consiste à déterminer l’équation de la droite passant par deux points moyens du

nuage de point.

Pour cela on partage le nuage de points global en 2 nuages les plus équilibrés possibles.

Pour ces 2 nuages de points, on détermine les points moyens et on trace la droite par ces 2 points.

Les 2 points moyens obtenus permettront de déterminer aisément l’équation de la droite tracée.

Page 3: Statistiques à 2 variables · Cours 1 Statistiques à 2 variables On appelle série statistique à 2 variables une série statistique dans laquelle 2 caractères X et Y sont étudiés

Cours

3

B. La méthode des moindres carrés

1. La droite de régression

L’ajustement affine selon la méthode des moindres carrés

consiste à déterminer l’équation de la forme y = ax + b de la

droite D équidistante des points situés de part et d’autre

d’elle-même.

Pour réaliser ceci, on cherche à minimiser la somme des carrés

des distances des points à la droite.

La droite obtenue est appelée droite de régression de y en x

telle que :

Une fois l’équation de la droite de régression connue, on peut effectuer des prévisions de valeurs de y

pour des valeurs de x non connues dans la série d’origine.

Attention !!!

Il peut y avoir un bon ajustement affine alors qu’il n’y a pas de lien de cause à effet direct entre les

deux variables.

Cela peut résulter d’une troisième variable qui n’apparaît pas dans les séries étudiées.

2. Covariance d’une série statistique à 2 variables

L a covariance est un nombre permettant d'évaluer le sens de variation de deux variables aléatoires

et, ainsi, de qualifier la dépendance de ces variables.

Si deux variables aléatoires sont indépendantes alors leur covariance est nulle, mais la réciproque est

fausse.

On appelle covariance de la série statistique double de variables x et y le nombre réel :

cov (x,y) =

=

=

-

Rem : la dernière écriture est préférable à utiliser pour les calculs.

Page 4: Statistiques à 2 variables · Cours 1 Statistiques à 2 variables On appelle série statistique à 2 variables une série statistique dans laquelle 2 caractères X et Y sont étudiés

Cours

4

La covariance d’une série statistique permet de déterminer aisément l’équation de la droite de

régression qui lui est associée.

La droite de régression D a pour équation y = ax + b avec :

Avec cette méthode, la droite de régression D passe par le point moyen du nuage G ( , ).

Rem : La calculatrice et les tableurs permettent de déterminer l’équation réduite y = ax + b de la

droite d’ajustement de y en x en donnant directement a et b.

Donc évitez de perdre du temps dans des calculs infinis !!!

III. Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire d’une série statistique de variables x et y est le nombre r défini

par :

r =

Plus le coefficient de régression linéaire est proche de 1 en valeur absolue, meilleur est l’ajustement

linéaire.

On dit alors qu’il existe une « bonne corrélation » entre les 2 caractères étudiés.

Le coefficient de corrélation linéaire vérifie toujours −1 < r < 1.

Lorsque r = ±1, la droite de régression passe par tous les points du nuage, qui sont donc alignés.

Attention !!!

Ne pas confondre une forte corrélation et une liaison de cause à effet !

Exemples :

- Résultats à un test de mathématiques et la pointure de pieds des élèves,

- Le réchauffement climatique et la disparition du nombre de pirates depuis le 17ème

siècle,

- Consommation de chocolat et consommation de drogues dures…