Upload
myan
View
213
Download
0
Embed Size (px)
Citation preview
7/24/2019 TP Regression Jouhaud Nguyen
1/2
Eliott Jouhaud ICM 2014
My-An Nguyen18/10/2015
TP n1 Rgression Linaire
Compte-rendu
Objectif :
Il sagit ici de raliser diffrents modles de rgression linaire, appliqus des
donnes concrtes les performances et les caractristiques de joueurs de baseball aux Etats-
Unis afin de dterminer une prdiction de leur salaire.
I Prtraitement des donnes
Les donnes sont relatives aux joueurs de baseball sont incluses dans le programme,
on les charge donc laide de la librairie Hitters . On remarque que certaines donnes sont
manquantes, on supprime don les individus correspondants, laide de la fonction na.omit().
On divise ensuite les donnes en deux sous-ensembles (2/3 et 1/3) : le premier nous
servira de set dapprentissage et sera celui sur lequel nous construirons le modle. Le second
constitueras un set de test, pour comparer nos modles
II Analyse statistique initiale des donnes
On observe que les observations ne sont pas toutes de type numrique. Pour les
variables qui le sont, nous appliquons les fonctions de base de R qui permettent dobtenir un
rsumsimple des caractristiques statistiques des donnes.
On observe que les variables sont trs diffrentes, en terme de moyennemais aussi en
plage de valeurs (variance). Nous pourrons donc nous poser la question de centrer et r duire
les donnes, et de linfluence que cela pourrait avoir sur le modle de rgression linaire.
III Construction des premiers modles linaires
Pour raliser une rgression linaire variables multiples, on utilise la commande lm()de R, en spcifiant les variables que lon souhaite intgrer au modle.
On a toujours un Radj = 0.511 assez petit.
On observe que les t-values sont les mmes pour le modle initial et le modle avec les
donnes standardises. C'est logique car le rduction-centrage n'a pas d'impact sur la loi et les
rsidus. En revanche les coefficients ont changde part la standardisation.
7/24/2019 TP Regression Jouhaud Nguyen
2/2
On utilise les mthodes du stepwise descendant, ascendant et combin,avec la fonction step.
Sur donnes d'apprentissage initiales :
Step ascendant : Il faut que le terme AI diminue, car il s'agit de ^sigmachapeau!" qui mesure l'cart entre les valeurs observes et lesvaleurs prdites.On trouve que le meilleur mod#le linaire est
Salar$ % At&at (its )al*s At&at (its (m+un ivision -utOuts Assists
AI :"""."Ad/usted +0squared: .12"
Step descendant : 33
Ascendant et escendant combin :lm4formula 5 Salar$ % At&at (its )al*s At&at (its
(m+un ivision -utOuts Assists, data 5 (itters6appr7comme Ascendant
Sur donnes d'apprentissage standardises:
lm4formula 5 Salar$ % At&at (its )al*s At&at (m+un (itsivision -utOuts Assists, data 5 (itters6appr77Ad/usted +0squared: .1829
both : idem
descendant : marche pas
uestion 9 :