TP Regression Jouhaud Nguyen

  • Upload
    myan

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

  • 7/24/2019 TP Regression Jouhaud Nguyen

    1/2

    Eliott Jouhaud ICM 2014

    My-An Nguyen18/10/2015

    TP n1 Rgression Linaire

    Compte-rendu

    Objectif :

    Il sagit ici de raliser diffrents modles de rgression linaire, appliqus des

    donnes concrtes les performances et les caractristiques de joueurs de baseball aux Etats-

    Unis afin de dterminer une prdiction de leur salaire.

    I Prtraitement des donnes

    Les donnes sont relatives aux joueurs de baseball sont incluses dans le programme,

    on les charge donc laide de la librairie Hitters . On remarque que certaines donnes sont

    manquantes, on supprime don les individus correspondants, laide de la fonction na.omit().

    On divise ensuite les donnes en deux sous-ensembles (2/3 et 1/3) : le premier nous

    servira de set dapprentissage et sera celui sur lequel nous construirons le modle. Le second

    constitueras un set de test, pour comparer nos modles

    II Analyse statistique initiale des donnes

    On observe que les observations ne sont pas toutes de type numrique. Pour les

    variables qui le sont, nous appliquons les fonctions de base de R qui permettent dobtenir un

    rsumsimple des caractristiques statistiques des donnes.

    On observe que les variables sont trs diffrentes, en terme de moyennemais aussi en

    plage de valeurs (variance). Nous pourrons donc nous poser la question de centrer et r duire

    les donnes, et de linfluence que cela pourrait avoir sur le modle de rgression linaire.

    III Construction des premiers modles linaires

    Pour raliser une rgression linaire variables multiples, on utilise la commande lm()de R, en spcifiant les variables que lon souhaite intgrer au modle.

    On a toujours un Radj = 0.511 assez petit.

    On observe que les t-values sont les mmes pour le modle initial et le modle avec les

    donnes standardises. C'est logique car le rduction-centrage n'a pas d'impact sur la loi et les

    rsidus. En revanche les coefficients ont changde part la standardisation.

  • 7/24/2019 TP Regression Jouhaud Nguyen

    2/2

    On utilise les mthodes du stepwise descendant, ascendant et combin,avec la fonction step.

    Sur donnes d'apprentissage initiales :

    Step ascendant : Il faut que le terme AI diminue, car il s'agit de ^sigmachapeau!" qui mesure l'cart entre les valeurs observes et lesvaleurs prdites.On trouve que le meilleur mod#le linaire est

    Salar$ % At&at (its )al*s At&at (its (m+un ivision -utOuts Assists

    AI :"""."Ad/usted +0squared: .12"

    Step descendant : 33

    Ascendant et escendant combin :lm4formula 5 Salar$ % At&at (its )al*s At&at (its

    (m+un ivision -utOuts Assists, data 5 (itters6appr7comme Ascendant

    Sur donnes d'apprentissage standardises:

    lm4formula 5 Salar$ % At&at (its )al*s At&at (m+un (itsivision -utOuts Assists, data 5 (itters6appr77Ad/usted +0squared: .1829

    both : idem

    descendant : marche pas

    uestion 9 :