8

Click here to load reader

STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

  • Upload
    danganh

  • View
    216

  • Download
    4

Embed Size (px)

Citation preview

Page 1: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

L1 Psycho Statistiques descriptives

STATISTIQUES DESCRIPTIVESBIVARIÉES

Exercice 1. Un site internet reçoit 113 457 visiteurs durant un mois. On désigne par X lenavigateur internet utilisé et Y le système d’exploitation utilisé.

X \ Y Windows Mac LinuxChrome 14103 1186 427Firefox 30853 4392 3234Internet Explorer 47389 23 0Safari 668 6416 0Autres 2974 40 1752

(a) Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.

(b) Quelle est la proportion de visiteurs sous Windows ?

(c) Quelle proportion de visiteurs utilisent le navigateur Safari ?

(d) Parmi les utilisateurs de Mac, quelle proportion utilise Chrome ?

(e) Parmi les utilisateurs de Safari, quelle proportion est sous Windows ?

( f ) Représenter graphiquement la distribution des proportions par Navigateur pour chaquesystème d’exploitation. Les variables X et Y sont-elles indépendantes ?

Corrigé de l’exercice 1.(a) Population : visiteurs du site internet étudié.

Individu : un visiteur du site internet.Taille : 113 457.Variables étudiées : on étudie deux variables, à savoir X et Y . La variable X est le navi-gateur utilisé par le visiteur ; c’est une variable qualitative nominale. La variable Y est lesystème d’exploitation utilisé par le visiteur ; c’est une variable qualitatif nominale.

1

Page 2: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

(b) On recherche la proportion marginale P(Y = Windows). Pour cela, on détermine les effec-teurs marginaux dans le tableau de contingence :

X \ Y Windows Mac Linux TOTALChrome 14103 1186 427 15716Firefox 30853 4392 3234 38479Internet Explorer 47389 23 0 47412Safari 668 6416 0 7084Autres 2974 40 1752 4766TOTAL 95987 12057 5413 113457

L’effectif marginal de la modalité « Windows » pour Y est donc 95 987. On a donc :

P(Y = Windows) =95 987

113 457= 84,60 %.

(c) L’effectif marginal de la modalité Safari pour X est 7084 donc

P(X = Safari) =7084

113 457= 6,24 %.

(d) On est sous la condition Y = Mac donc on extrait du tableau de contingence la colonneMac et on calcule les proportions correspondantes :

X | Y = Mac Effectif Proportion (%)Chrome 1186 9,84Firefox 4392 36,43Internet Explorer 23 0,19Safari 6416 53,21Autres 40 0,33TOTAL 12057 100

On a donc :

P(X = Chrome | Y = Mac) = 9,84 %.

(e) On est sous la condition X = Safari, donc on extrait du tableau de contingence la lignecorrespondant à Safari :

Y | X = Safari Windows Mac Linux TOTALEffectif 668 6416 0 7084Proportion (%) 9,43 90,57 0 100

On a donc :

P(Y = Windows | X = Safari) = 9,43 %.

( f ) Puisque l’on demande la répartition des proportions, on met les proportions en ordonnée.Puisque l’on demande la répartition par Navigateur, on met la variable X en abscisse. Fina-lement, puisque l’on demande la répartition pour chaque système d’exploitation, on doit

2

Page 3: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

déterminer les proportions conditionnelles de X sachant les modalités de Y , c’est-à-direX | Y = Windows, X | Y = Mac et X | Y = Linux.À la question (d), on a déjà déterminer X | Y = Mac donc il nous reste X | Y = Windowset X | Y = Linux :

X | Y = Windows Effectif Proportion (%)Chrome 14103 14,69Firefox 30853 32,14Internet Explorer 47389 49,37Safari 668 0,7Autres 2974 3,1TOTAL 95987 100

X | Y = Linux Effectif Proportion (%)Chrome 427 7,89Firefox 3234 59,75Internet Explorer 0 0Safari 0 0Autres 1752 32,37TOTAL 5413 100,01

On est maintenant en mesure de tracer le diagramme en tuyaux d’orgues :

Chrome Firefox IE Safari Autres

10

20

30

40

50

60WindowsMacLinux

Navigateur

Proportion (%)

Pour chaque modalité de X, les tuyaux ne sont pas du tout de la même hauteur ; celasignifie que le système d’exploitation influe fortement sur le navigateur utilisé. Autrementdit, il n’y a pas indépendance entre système d’exploitation et navigateur utilisé.

Exercice 2. En 1885, Francis Galton publie un tableau de données comparant la taille Y desenfants avec la taille X de leurs parents (la taille des parents est égale à la moyenne de la taille

3

Page 4: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

du père et de la mère). Pour compenser les différences de tailles entre sexes, toutes les taillesdes personnes de sexe féminin ont été multiplié par 1,08. Les tailles sont exprimées en pouces(1 pouce = 2,54 cm).

X \ Y ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75]]62 ; 64] 1 2 5 4 2 0 0 0]64 ; 66] 2 14 17 32 16 7 1 0]66 ; 68] 0 14 36 108 93 34 4 0]68 ; 70] 1 8 47 100 135 84 22 5]70 ; 72] 1 1 2 11 38 35 18 5]72 ; 74] 0 0 0 0 3 3 13 4

Les bornes des classes extrêmes ont été fixées arbitrairement pour les besoins de l’exercice.

(a) Préciser la population, les individus, la taille de la population ainsi que les variablesétudiées.

(b) Quelle est la proportion d’enfants dont la taille est comprise entre 65,7 et 67,7 ?

(c) Parmi les enfants dont la taille est comprise entre 71,7 et 73,7, quelle proportion a desparents dont la taille est entre 70 et 72 ?

(d) Quelle est la taille moyenne des enfants dont les parents ont une taille comprise entre 68et 70 ? Convertir le résultat en centimètres.

(e) Même question pour la taille médiane.

( f ) Même question pour l’écart-type.

Corrigé de l’exercice 2.(a) Population : les enfants étudiés par Galton (en notant qu’à chaque enfant, on associe ses

deux parents).Individu : un enfant (et ses parents).Taille de la population : 938 (c’est la somme de tous les éléments du tableau).Variables étudiées : la variable X « taille de l’enfant » (quantitative continue) et la variableY « taille des parents » (quantitative continue).

(b) On cherche la proportion marginale P(65,7 ≤ X ≤ 67,7) :

P(65,7 ≤ X ≤ 67,7) =4 + 32 + 108 + 100 + 11

938=

255938

= 27,19 %.

(c) On cherche la proportion conditionnelle P(X ∈ ]70 ; 72] | Y ∈ ]71,7 ; 73,7]). Pour lacalculer, on extrait la colonne Y ∈ ]71,7 ; 73,7] du tableau et on calcule les proportions :

X | Y ∈ ]71,7 ; 73,7] Effectifs Proportions (%)]62 ; 64] 0 0]64 ; 66] 1 1,72]66 ; 68] 4 6,9]68 ; 70] 22 37,93]70 ; 72] 18 31,03]72 ; 74] 13 22,41TOTAL 58

4

Page 5: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

On a donc

P(X ∈ ]70 ; 72] | Y ∈ ]71,7 ; 73,7]) = 31,03 %.

(d) On regarde la distribution conditionnelle de Y sachant que X ∈ ]68 ; 70]. On extrait doncdu tableau la ligne correspondante (on met les proportions cumulées pour les questionssuivantes) :

Y | X ∈ ]68 ; 70] ]60 ; 61,7] ]61,7 ; 63,7] ]63,7 ; 65,7] ]65,7 ; 67,7] ]67,7 ; 69,7] ]69,7 ; 71,7] ]71,7 ; 73,7] ]73,7 ; 75] TOTALEffectifs 1 8 47 100 135 84 22 5 402Proportions (%) 0,25 1,99 11,69 24,88 33,58 20,9 5,47 1,24Prop. cumul. (%) 0,25 2,24 13,93 38,81 72,39 93,29 98,76 100Centre 60,85 62,7 64,7 66,7 68,7 70,7 72,7 74,35

La moyenne est donc :

µY |X∈]68;70] =

1 × 60,85 + 8 × 62,7 + 47 × 64,7 + 100 × 66,7 + 135 × 68,7+ 84 × 70,7 + 22 × 72,7 + 5 × 74,35402

=27 457,80

402= 68,30.

Pour convertir en centimètres, on utilise la formule 1 pouce = 2,54 cm :

µY |X∈]68;70] = 68,30 × 2,54 = 173,48.

(e) La médiane de Y | X ∈ ]68 ; 70] se calcule à partir des proportions cumulées données dansle tableau précédent. La classe correspondant à la proportion cumulée 50 % est ]a ; b] =

]67,7 ; 69,7] donc la médiane est donnée par la formule

médiane = a +

[(b − a) × 50 − P(X ≤ a)

P(X ≤ b) − P(X ≤ a)

]= 67,7 +

[(69,7 − 67,7) × 50 − 38,81

72,39 − 38,81

]= 67,7 +

[2 × 11,19

33,58

]= 67,7 + [2 × 0,3332]= 67,7 + 0,67= 68,37.

Pour convertir en centimètres, on utilise la formule 1 pouce = 2,54 cm :

médiane = 68,37 × 2,54 = 173,66.

5

Page 6: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

( f ) Calculons l’écart-type :

σY |X∈]68;70] =

√√√√√√ 1 × 60,852 + 8 × 62,72 + 47 × 64,72 + 100 × 66,72

+ 135 × 68,72 + 84 × 70,72 + 22 × 72,72 + 5 × 74,352

402− µ2

Y |X∈]68;70]

=

√1 877 735,57

402− 4664,89

=√

4670,98 − 4664,89

=√

6,09= 2,47.

Pour convertir en centimètres, on utilise la formule 1 pouce = 2,54 cm :

σY |X∈]68;70] = 2,47 × 2,54 = 6,27.

Exercice 3. Les mesure du nombre X de jours de pluie et de la hauteur Y (en mm) de pluie àParis tous les 5 ans entre 1960 et 1995 sont récapitulées dans le tableau suivant.

année 1960 1965 1970 1975 1980 1985 1990 1995X 198 196 199 164 170 163 149 162Y 739 880 631 658 690 501 501 670

(a) Représenter graphiquement le nuage de points.

(b) Calculer le coefficient de corrélation.

(c) Y a-t-il une relation de liaison entre les variables X et Y ?

Corrigé de l’exercice 3.(a) Pour tracer un nuage de points, on place chaque donnée individuelle sur un graphique avec

X en abscisse et Y en ordonnée :

X (jours de pluie)

Y (hauteur de pluie)

100 150 200400

500

600

700

800

900

6

Page 7: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

(b) Pour calculer le coefficient de corrélation, on doit calculer la covariance et les deux écart-types. Pour calculer la covariance, on a besoin des deux moyennes. Rappelons les diffé-rentes formules lorsqu’on dispose des données individuelles :

µX =

∑x(i)N

, σX =

√∑x(i)2

N− µX, Cov(X,Y) =

∑x(i)y(i)N

− µXµY

Moyenne de X. On a

µX =

∑x(i)N

=198 + 196 + 199 + 164 + 170 + 163 + 149 + 162

8=

14018

= 175,125.

Moyenne de Y. On a

µY =

∑y(i)N

=739 + 880 + 631 + 658 + 690 + 501 + 501 + 670

8=

52708

= 658,750.

Écart-type de X. On a

σX =

√∑x(i)2

N− µ2

X

=

√1982 + 1962 + 1992 + 1642 + 1702 + 1632 + 1492 + 1622

8− 175,1252

=

√248031

8− 30 668,766

=√

31 003,875 − 30 668,766

=√

335,109= 18,306.

Écart-type de Y. On a

σY =

√∑y(i)2

N− µ2

Y

=

√7392 + 8802 + 6312 + 6582 + 6902 + 5012 + 5012 + 6702

8− 658,7502

=

√3578648

8− 433 951,562

=√

447 331,000 − 433 951,562

=√

13 379,438= 115,670.

7

Page 8: STATISTIQUES DESCRIPTIVES BIVARIÉES - …pgoutet.free.fr/td/statsL1_bivaries.pdf · L1 Psycho Statistiques descriptives STATISTIQUES DESCRIPTIVES BIVARIÉES Exercice 1. Un site internet

Covariance de X et Y. On a

Cov(X,Y) =

∑x(i)y(i)N

− µXµY

=198 × 739 + 196 × 880 + · · · + 162 × 670

8− 175,125 × 658,750

=934435

8− 115 363,594

= 116 804,375 − 115 363,594= 1440,781.

Coefficient de corrélation de X et Y. On a

r(X,Y) =Cov(X,Y)σXσY

=1440,781

18,306 × 115,670

=1440,7812117,455

= 0,680.

(c) Le coefficient de corrélation est proche de 0,7 donc on peut considérer que les variablessont assez fortement liées. On peut représenter la droite de régression qui illustre cettedépendance :

X (jours de pluie)

Y (hauteur de pluie)

100 150 200400

500

600

700

800

900

Le fait que les points sont relativement proches de la droite illustre la corrélation relative-ment forte.

8