Fabrice Rossi Tlcom ParisTech - ? Histogramme Boxplot et statistiques Variables nominales Analyses

  • Published on
    12-Sep-2018

  • View
    212

  • Download
    0

Transcript

Analyse exploratoire de donnesFabrice RossiTlcom ParisTechPlanIntroductionExplorationModlisationModle des donnesAnalyses univariesVariables numriquesHistogrammeBoxplot et statistiquesVariables nominalesAnalyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction2 / 41 F. RossiPlanIntroductionExplorationModlisationModle des donnesAnalyses univariesVariables numriquesHistogrammeBoxplot et statistiquesVariables nominalesAnalyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction3 / 41 F. Rossi IntroductionExploiter des donnesQue faire dun paquet de donnes ?Comment exploiter le contenu dun entrept de donnes ?recensement32561personnes15 attributspar personneVolume classique : milliers millions de lignes, dizaine centaines de colonnesExploration systmatique impossible (mme pour de petitspaquets de donnes)4 / 41 F. Rossi IntroductionExploiter des donnesQue faire dun paquet de donnes ?Comment exploiter le contenu dun entrept de donnes ?recensement32561personnes15 attributspar personneVolume classique : milliers millions de lignes, dizaine centaines de colonnesExploration systmatique impossible (mme pour de petitspaquets de donnes)4 / 41 F. Rossi IntroductionExploiter des donnesQue faire dun paquet de donnes ?Comment exploiter le contenu dun entrept de donnes ?recensement32561personnes15 attributspar personneVolume classique : milliers millions de lignes, dizaine centaines de colonnesExploration systmatique impossible (mme pour de petitspaquets de donnes)4 / 41 F. Rossi IntroductionOutils dexploitationSupport informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalysteDeux grandes classes doutils :1. exploration pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,etc.)2. modlisation ide prcise sur les donnes construction de modles prdictifsoutil utilis : R (http://R-project.org/)5 / 41 F. Rossi Introductionhttp://R-project.org/Outils dexploitationSupport informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalysteDeux grandes classes doutils :1. exploration pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,etc.)2. modlisation ide prcise sur les donnes construction de modles prdictifsoutil utilis : R (http://R-project.org/)5 / 41 F. Rossi Introductionhttp://R-project.org/Outils dexploitationSupport informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalysteDeux grandes classes doutils :1. exploration pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,etc.)2. modlisation ide prcise sur les donnes construction de modles prdictifsoutil utilis : R (http://R-project.org/)5 / 41 F. Rossi Introductionhttp://R-project.org/Outils dexploitationSupport informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalysteDeux grandes classes doutils :1. exploration pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,etc.)2. modlisation ide prcise sur les donnes construction de modles prdictifsoutil utilis : R (http://R-project.org/)5 / 41 F. Rossi Introductionhttp://R-project.org/Analyse exploratoireObjectifs : obtenir une vision globale dun jeu de donnes dcouvrir des formes de rgularitMoyens : reprsentations visuelles (et interactives) des donnes recherche automatique de rgularits : corrlation et dpendance entre variables groupes homognes (classification) schmas frquents020406080100Height6 4 2 0 2 420246PC1PC26 / 41 F. Rossi IntroductionAnalyse exploratoireObjectifs : obtenir une vision globale dun jeu de donnes dcouvrir des formes de rgularitMoyens : reprsentations visuelles (et interactives) des donnes recherche automatique de rgularits : corrlation et dpendance entre variables groupes homognes (classification) schmas frquents020406080100Height6 4 2 0 2 420246PC1PC26 / 41 F. Rossi IntroductionModlisationObjectifs : infrer des informations inconnues prdire lvolution des donnesMoyens : donnes dapprentissage : connatre lvolution dune grandeur dans le pass pourprdire son volution future (donnes historiques) connatre une proprit de certains objets (par exemple lesalaire de certains clients) pour infrer sa valeur pour lesautres objets mthodes dapprentissage : construire un modle partirdes donnes dapprentissageStratgie : analyse exploratoire formulation dhypothses construction de modles pour valider les hypothses7 / 41 F. Rossi IntroductionModlisationObjectifs : infrer des informations inconnues prdire lvolution des donnesMoyens : donnes dapprentissage : connatre lvolution dune grandeur dans le pass pourprdire son volution future (donnes historiques) connatre une proprit de certains objets (par exemple lesalaire de certains clients) pour infrer sa valeur pour lesautres objets mthodes dapprentissage : construire un modle partirdes donnes dapprentissageStratgie : analyse exploratoire formulation dhypothses construction de modles pour valider les hypothses7 / 41 F. Rossi IntroductionModle mathmatiqueOn a N observations, les zi ZModle statistique/probabiliste il existe une distribution PZ sur Z inconnue les zi sont des ralisations de variables alatoires aveccette distribution les variables alatoires sont indpendantes (en gnral)En gnral Z = Pp=1Zp : P variables pour dcrire chaque objet quand Zp R : variable numrique (ou ordonne) quand Zp = {a, b, . . .} : variable nominale (un nombre finide valeurs possibles non ordonnes)8 / 41 F. Rossi IntroductionModle mathmatiqueOn a N observations, les zi ZModle statistique/probabiliste il existe une distribution PZ sur Z inconnue les zi sont des ralisations de variables alatoires aveccette distribution les variables alatoires sont indpendantes (en gnral)En gnral Z = Pp=1Zp : P variables pour dcrire chaque objet quand Zp R : variable numrique (ou ordonne) quand Zp = {a, b, . . .} : variable nominale (un nombre finide valeurs possibles non ordonnes)8 / 41 F. Rossi IntroductionPlanIntroductionExplorationModlisationModle des donnesAnalyses univariesVariables numriquesHistogrammeBoxplot et statistiquesVariables nominalesAnalyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction9 / 41 F. Rossi Analyses univariesAnalyses lmentairesPremire tape dune analyse exploratoire travailler variable par variable numriquement et graphiquementVariable numrique valeurs dans R statistiques classiques : moyenne, variance, mdiane, etc. reprsentations associes : histogramme, boxplotVariable ge : numriqueHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.02010 / 41 F. Rossi Analyses univariesAnalyses lmentairesPremire tape dune analyse exploratoire travailler variable par variable numriquement et graphiquementVariable numrique valeurs dans R statistiques classiques : moyenne, variance, mdiane, etc. reprsentations associes : histogramme, boxplotVariable ge : numriqueHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.02010 / 41 F. Rossi Analyses univariesAnalyses lmentairesPremire tape dune analyse exploratoire travailler variable par variable numriquement et graphiquementVariable numrique valeurs dans R statistiques classiques : moyenne, variance, mdiane, etc. reprsentations associes : histogramme, boxplotVariable ge : numriqueHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.02010 / 41 F. Rossi Analyses univariesHistogrammeUn histogramme reprsente une estimation de ladistribution dune variablePrincipe de construction : division de lintervalle [min, max] en K sous-intervalles(diverses rgles pour K , par exemple log N) dnombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles reprsentation par des barres de surfaces proportionnellesaux dcomptesAttention aux intervalles de longueurs diffrentes11 / 41 F. Rossi Analyses univariesHistogrammeUn histogramme reprsente une estimation de ladistribution dune variablePrincipe de construction : division de lintervalle [min, max] en K sous-intervalles(diverses rgles pour K , par exemple log N) dnombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles reprsentation par des barres de surfaces proportionnellesaux dcomptesAttention aux intervalles de longueurs diffrentesHistogram of dummy.unifdummy.unifDensity0.0 0.2 0.4 0.6 0.8 1.00.00.40.8Histogram of dummy.unifdummy.unifFrequency0.0 0.2 0.4 0.6 0.8 1.005015011 / 41 F. Rossi Analyses univariesHistogrammeUn histogramme reprsente une estimation de ladistribution dune variablePrincipe de construction : division de lintervalle [min, max] en K sous-intervalles(diverses rgles pour K , par exemple log N) dnombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles reprsentation par des barres de surfaces proportionnellesaux dcomptesAttention aux intervalles de longueurs diffrentesHistogram of dummy.unifdummy.unifDensity0.0 0.2 0.4 0.6 0.8 1.00.00.40.8Histogram of dummy.unifdummy.unifFrequency0.0 0.2 0.4 0.6 0.8 1.0020060011 / 41 F. Rossi Analyses univariesIntrtsHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.020Histogramme des heures travailles par semaineHeuresFrequency0 20 40 60 80 100050001000015000ge Temps de travailHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000Ide gnrale de ladistributionirrgularitsdistribution compltementatypiquePlus values12 / 41 F. Rossi Analyses univariesIntrtsHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.020Histogramme des heures travailles par semaineHeuresFrequency0 20 40 60 80 100050001000015000ge Temps de travailHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000Ide gnrale de ladistributionirrgularitsdistribution compltementatypiquePlus values12 / 41 F. Rossi Analyses univariesIntrtsHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.020Histogramme des heures travailles par semaineHeuresFrequency0 20 40 60 80 100050001000015000ge Temps de travailHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000Ide gnrale de ladistributionirrgularitsdistribution compltementatypiquePlus values12 / 41 F. Rossi Analyses univariesIntrtsHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.020Histogramme des heures travailles par semaineHeuresFrequency0 20 40 60 80 100050001000015000ge Temps de travailHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000Ide gnrale de ladistributionirrgularitsdistribution compltementatypiquePlus values12 / 41 F. Rossi Analyses univariesLimitationsHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000presque aucune information : presque toutes les valeurs sont ngatives quelques valeurs trs grandescomparaisons difficiles (cf la suite)13 / 41 F. Rossi Analyses univariesLimitationsHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000presque aucune information : presque toutes les valeurs sont ngatives quelques valeurs trs grandescomparaisons difficiles (cf la suite)13 / 41 F. Rossi Analyses univariesBoxplota.k.a. bote moustaches ou bote pattesReprsentation compacte dunedistribution ligne centrale : mdiane ligne basse : premier quartile ligne haute : troisime quartile moustaches : le max du min et de la mdiane - 1.5lintervalle interquartile le min du max et de la mdiane + 1.5lintervalle interquartile points atypiques (outliers) : au deldes moustaches20406080ge14 / 41 F. Rossi Analyses univariesComparaisonHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.02020406080geplus dinformationinfrence moins prciseplus dpouillquelques informationstrs prcises15 / 41 F. Rossi Analyses univariesComparaisonHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.02020406080geplus dinformationinfrence moins prciseplus dpouillquelques informationstrs prcises15 / 41 F. Rossi Analyses univariesComparaisonHistogram of ageageDensity0 20 40 60 80 1000.0000.0100.02020406080geplus dinformationinfrence moins prciseplus dpouillquelques informationstrs prcises15 / 41 F. Rossi Analyses univariesStatistiquesIndicateurs classiques : tendance : moyenne et mdiane dispersion : cart-type, intervalle interquartileHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000Interprtation parfois dlicate : moyenne = 990 mdiane = 0 cart-type = 7410 intervalle interquartile = 0 meilleurs choix ici : 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % ngative puis statistiques sur les deux groupes (par ex., pertemdiane 1887)16 / 41 F. Rossi Analyses univariesStatistiquesIndicateurs classiques : tendance : moyenne et mdiane dispersion : cart-type, intervalle interquartileHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000Interprtation parfois dlicate : moyenne = 990 mdiane = 0 cart-type = 7410 intervalle interquartile = 0 meilleurs choix ici : 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % ngative puis statistiques sur les deux groupes (par ex., pertemdiane 1887)16 / 41 F. Rossi Analyses univariesStatistiquesIndicateurs classiques : tendance : moyenne et mdiane dispersion : cart-type, intervalle interquartileHistogramme des plus valuesPlus valuesFrequency0e+00 2e+04 4e+04 6e+04 8e+04 1e+05050001500025000Interprtation parfois dlicate : moyenne = 990 mdiane = 0 cart-type = 7410 intervalle interquartile = 0 meilleurs choix ici : 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % ngative puis statistiques sur les deux groupes (par ex., pertemdiane 1887)16 / 41 F. Rossi Analyses univariesSens des statistiquesLa pertinence de la statistiquedpend de la distributionExemple : blogs politiques graphe des liens entre lesblogs (blogroll) distribution des degrs desnoeudsDegree distributiondegreeFrequency0 100 200 300 4000200400600 = 27.36, = 38.42m = 13, = 33loi puissance : P(x) ' xsans chelle : la moyenneinforme peuici ' 1.2717 / 41 F. Rossi Analyses univariesSens des statistiquesLa pertinence de la statistiquedpend de la distributionExemple : blogs politiques graphe des liens entre lesblogs (blogroll) distribution des degrs desnoeuds0 50 100 150 200 250 300 3500.000.020.040.060.080.10degreeprobabilityDegree distributiondegreeFrequency0 100 200 300 4000200400600 = 27.36, = 38.42m = 13, = 33loi puissance : P(x) ' xsans chelle : la moyenneinforme peuici ' 1.2717 / 41 F. Rossi Analyses univariesSens des statistiquesLa pertinence de la statistiquedpend de la distributionExemple : blogs politiques graphe des liens entre lesblogs (blogroll) distribution des degrs desnoeuds1 2 5 10 20 50 100 2000.0010.0050.0200.050degreeprobabilityDegree distributiondegreeFrequency0 100 200 300 4000200400600 = 27.36, = 38.42m = 13, = 33loi puissance : P(x) ' xsans chelle : la moyenneinforme peuici ' 1.2717 / 41 F. Rossi Analyses univariesSens des statistiquesLa pertinence de la statistiquedpend de la distributionExemple : blogs politiques graphe des liens entre lesblogs (blogroll) distribution des degrs desnoeuds1 2 5 10 20 50 100 2000.0010.0050.0200.050degreeprobabilityDegree distributiondegreeFrequency0 100 200 300 4000200400600 = 27.36, = 38.42m = 13, = 33loi puissance : P(x) ' xsans chelle : la moyenneinforme peuici ' 1.2717 / 41 F. Rossi Analyses univariesSens des statistiquesLa pertinence de la statistiquedpend de la distributionExemple : blogs politiques graphe des liens entre lesblogs (blogroll) distribution des degrs desnoeuds1 2 5 10 20 50 100 2000.0010.0050.0200.050degreeprobabilityDegree distributiondegreeFrequency0 100 200 300 4000200400600 = 27.36, = 38.42m = 13, = 33loi puissance : P(x) ' xsans chelle : la moyenneinforme peuici ' 1.27Adapter les statistiquesaux donnes17 / 41 F. Rossi Analyses univariesTrois points de vueHistogramme des heures travailles par semaineHeuresFrequency0 20 40 60 80 100050001000015000Moyenne : 40.44, cart-type : 12.35Mdiane : 40, Interquartile : 5Complments : 47 % = 40 heures 29 % > 40 heures 24 % < 40 heures18 / 41 F. Rossi Analyses univariesTrois points de vueHistogramme des heures travailles par semaineHeuresFrequency0 20 40 60 80 100050001000015000Moyenne : 40.44, cart-type : 12.35Mdiane : 40, Interquartile : 5Complments : 47 % = 40 heures 29 % > 40 heures 24 % < 40 heures18 / 41 F. Rossi Analyses univariesVariables nominalesvariable nominale (ou qualitative) : variable valeurs dansun ensemble fini quelconque (les modalits)quand les modalits sont ordonnes : variable ordinalereprsentation par un diagramme btons : un bton par modalit hauteur proportionnelle la frquence de la modalit ordre arbitraire sauf dans la cas ordinalFemale Male050001000020000Divorced Marriedcivspouse Nevermarried Widowed04000800012000Genre Statut marital19 / 41 F. Rossi Analyses univariesVariables nominalesvariable nominale (ou qualitative) : variable valeurs dansun ensemble fini quelconque (les modalits)quand les modalits sont ordonnes : variable ordinalereprsentation par un diagramme btons : un bton par modalit hauteur proportionnelle la frquence de la modalit ordre arbitraire sauf dans la cas ordinalFemale Male050001000020000Divorced Marriedcivspouse Nevermarried Widowed04000800012000Genre Statut marital19 / 41 F. Rossi Analyses univariesVariables nominalesvariable nominale (ou qualitative) : variable valeurs dansun ensemble fini quelconque (les modalits)quand les modalits sont ordonnes : variable ordinalereprsentation par un diagramme btons : un bton par modalit hauteur proportionnelle la frquence de la modalit ordre arbitraire sauf dans la cas ordinalFemale Male050001000020000Divorced Marriedcivspouse Nevermarried Widowed04000800012000Genre Statut marital19 / 41 F. Rossi Analyses univariesLisibilitDsquilibre? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam050001500025000Grand nombre de modalits? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam010020030040050060020 / 41 F. Rossi Analyses univariesLisibilitDsquilibre? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam050001500025000Grand nombre de modalits? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam010020030040050060020 / 41 F. Rossi Analyses univariesCamembertArmedForcesPrivhouseservProtectiveservTechsupportFarmingfishingHandlerscleanersTransportmoving?MachineopinspctOtherserviceSalesAdmclerical ExecmanagerialCraftrepairProfspecialtyreprsentation trs classiqueversions cratives (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles01000200030004000ArmedForcesPrivhouseservProtectiveservTechsupportFarmingfishingHandlerscleanersTransportmoving ?MachineopinspctOtherserviceSalesAdmclericalExecmanagerialCraftrepairProfspecialty21 / 41 F. Rossi Analyses univariesCamembertArmedForcesPrivhouseservProtectiveservTechsupportFarmingfishingHandlerscleanersTransportmoving?MachineopinspctOtherserviceSalesAdmclerical ExecmanagerialCraftrepairProfspecialtyreprsentation trs classiqueversions cratives (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles01000200030004000ArmedForcesPrivhouseservProtectiveservTechsupportFarmingfishingHandlerscleanersTransportmoving ?MachineopinspctOtherserviceSalesAdmclericalExecmanagerialCraftrepairProfspecialty21 / 41 F. Rossi Analyses univariesPlanIntroductionExplorationModlisationModle des donnesAnalyses univariesVariables numriquesHistogrammeBoxplot et statistiquesVariables nominalesAnalyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction22 / 41 F. Rossi Analyses multivariesAnalyses conjointesRelativement peu dinformation dans chaque variableAnalyse croise ncessaireDifficults : vision humaine limite (2D ou 3D, formes et couleurs) beaucoup de combinaisons possibles variables incompatiblesSolutions : outils de la visualisation de linformation (interaction) outils de lapprentissage automatique (automatisation)23 / 41 F. Rossi Analyses multivariesDiagramme de dispersionDeux variables numriques : lune en fonction de lautrescatter plotSuperposition : alpha blending24 / 41 F. Rossi Analyses multivariesDcorationComplments du diagramme : couleur en fonction dune autre variable symbole en fonction dune autre variableAssez limit25 / 41 F. Rossi Analyses multivariesMatrice de diagrammesmatrice dediagrammes dedispersiontous les couples devariables numriqueslimits quelquesvariables (croissancequadratique)dcorations possiblesici : 7 types de verredcrits par 9 variables26 / 41 F. Rossi Analyses multivariesCorrlationsRecherche de corrlationsReprsentation graphique dela matrice de corrlation : rouge : forte corrlationpositive bleu : forte corrlationngativeIci : RI corrl avec Ca Mg anti-corrl avec Al RI anti-corrl avec Si Aucun lien entre Al et SiRI Na Mg Al Si K Ca Ba FeFeBaCaKSiAlMgNaRI27 / 41 F. Rossi Analyses multivariesCorrlationsRecherche de corrlationsReprsentation graphique dela matrice de corrlation : rouge : forte corrlationpositive bleu : forte corrlationngativeIci : RI corrl avec Ca Mg anti-corrl avec Al RI anti-corrl avec Si Aucun lien entre Al et SiRI Na Mg Al Si K Ca Ba FeFeBaCaKSiAlMgNaRI27 / 41 F. Rossi Analyses multivariesCorrlation RI et Ca1.515 1.520 1.525 1.5306810121416Corrlation = 0.811RICa28 / 41 F. Rossi Analyses multivariesCorrlation RI et Si1.515 1.520 1.525 1.530707172737475Corrlation = 0.539RISi29 / 41 F. Rossi Analyses multivariesCorrlation Al et Si0.5 1.0 1.5 2.0 2.5 3.0 3.5707172737475Corrlation = 0.0162AlSi30 / 41 F. Rossi Analyses multivariesCorrlation Mg et Al0 1 2 3 40.51.01.52.02.53.03.5Corrlation = 0.48MgAl31 / 41 F. Rossi Analyses multivariesMg et AlHistogramme de MgMgFrequency0 1 2 3 402040608032 / 41 F. Rossi Analyses multivariesMg et AlHistogramme de MgMgFrequency0 1 2 3 4020406080Histogramme de AlAlFrequency0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.502040608010032 / 41 F. Rossi Analyses multivariesMg et AlHistogramme de MgMgFrequency0 1 2 3 4020406080Histogramme de AlAlFrequency0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5020406080100Histogramme de AlAlFrequency0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.502040608010032 / 41 F. Rossi Analyses multivariesMg et AlHistogramme de MgMgFrequency0 1 2 3 40204060800 1 2 3 40.51.01.52.02.53.03.5Corrlation = 0.367MgAlHistogramme de AlAlFrequency0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5020406080100Histogramme de AlAlFrequency0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.502040608010032 / 41 F. Rossi Analyses multivariesMg et AlHistogramme de MgMgFrequency0 1 2 3 40204060800 1 2 3 40.51.01.52.02.53.03.5Corrlation = 0.48MgAlHistogramme de AlAlFrequency0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5020406080100Histogramme de AlAlFrequency0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.502040608010032 / 41 F. Rossi Analyses multivariesVision globale33 / 41 F. Rossi Analyses multivariesVision globaleRI Na Mg Al Si K Ca Ba FeFeBaCaKSiAlMgNaRI34 / 41 F. Rossi Analyses multivariesMosaic plotquivalent du scatter plot pour les variables qualitatives050001500025000AmerIndianEskimoAsianPacIslanderBlackOtherWhitedcoupage rcursifsurfaceproportionnelle lafrquencesignificativitplus de 2 variablesadultsgenderethnicityFemale MaleAmerIndianEskimoAsianPacIslanderBlackOtherWhiteFemale Male05000100002000035 / 41 F. Rossi Analyses multivariesMosaic plotquivalent du scatter plot pour les variables qualitatives050001500025000AmerIndianEskimoAsianPacIslanderBlackOtherWhitedcoupage rcursifsurfaceproportionnelle lafrquencesignificativitplus de 2 variablesStandardizedResiduals:4adultsgenderethnicityFemale MaleAmerIndianEskimoAsianPacIslanderBlackOtherWhiteFemale Male05000100002000035 / 41 F. Rossi Analyses multivariesMosaic plotquivalent du scatter plot pour les variables qualitatives050001500025000AmerIndianEskimoAsianPacIslanderBlackOtherWhitedcoupage rcursifsurfaceproportionnelle lafrquencesignificativitplus de 2 variablesadultsgenderethnicityFemale MaleAmerIndianEskimoAsianPacIslanderBlackOtherWhite50K 50KFemale Male05000100002000050K050001500035 / 41 F. Rossi Analyses multivariesMosaic plotquivalent du scatter plot pour les variables qualitatives050001500025000AmerIndianEskimoAsianPacIslanderBlackOtherWhitedcoupage rcursifsurfaceproportionnelle lafrquencesignificativitplus de 2 variablesStandardizedResiduals:4adultsgenderethnicityFemale MaleAmerIndianEskimoAsianPacIslanderBlackOtherWhite50K 50KFemale Male05000100002000050K050001500035 / 41 F. Rossi Analyses multivariesCoordonnes paralllesMthode propose en 1985 par A. Inselbergun axe vertical par variableun objet devient une ligne brise(x1, . . . , xp) est reprsent par la ligne brise passant par(1, x1), (2, x2), . . ., (p, xp)1 2 3 4 5 61xx 2x 3x 6x 5x 436 / 41 F. Rossi Analyses multivariesDonnes IrisSepal.Length2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.54.55.56.57.5 2.03.04.0 Sepal.Width Petal.Length1234567 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.00.51.52.5 1 2 3 4 5 6 7 Petal.WidthAnderson's/Fisher's Iris4+1 variables, 150 objets37 / 41 F. Rossi Analyses multivariesDonnes IrisAnderson's/Fisher's IrisSepal.Length Sepal.Width Petal.Length Petal.Width38 / 41 F. Rossi Analyses multivariesDonnes IrisAnderson's/Fisher's IrisSepal.Length Sepal.Width Petal.Length Petal.Width Species38 / 41 F. Rossi Analyses multivariesAttention lordreAnderson's/Fisher's IrisSepal.Length Sepal.Width Petal.Length Petal.WidthLes variables Petal sont elles corrles ?39 / 41 F. Rossi Analyses multivariesAttention lordreAnderson's/Fisher's IrisPetal.Length Sepal.Length Sepal.Width Petal.WidthLes variables Petal sont elles corrles ?39 / 41 F. Rossi Analyses multivariesInteractionproblmes : surcharge de lcran surcharge cognitivesolution par interaction : zoom vues multiples slection et lien : slection dune zone (brushing) affichage des rsultats sur toutes les vues (linking)en R iplots ggobi et rggobi40 / 41 F. Rossi Analyses multivariesiplots41 / 41 F. Rossi Analyses multivariesiplots41 / 41 F. Rossi Analyses multivariesiplots41 / 41 F. Rossi Analyses multivariesiplots41 / 41 F. Rossi Analyses multivariesIntroductionExplorationModlisationModle des donnesAnalyses univariesVariables numriquesVariables nominalesAnalyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction

Recommended

View more >