Seminaire datamining Ecole de Statistique et d'Economie Applique

  • Published on
    13-Nov-2014

  • View
    334

  • Download
    0

DESCRIPTION

Aujourdhui, les entreprises collectent des informations de plus en plus nombreuses et varies sur leurs clients. Sappuyant sur les dernires techniques statistiques et mathmatiques (analyse factorielle, rgression, arbres de dcision, textmining, webmining, rseaux neuronaux, moteur bayesiens,...), le Data Mining a pour objectif dexploiter ce rservoir de richesse ingale en transformant ces donnes en indicateurs marketing et commerciaux.

Transcript

1. SEMINAIRE Jean Roger MABLY DATAMINING ET APPLICATIONS K Zx ( b 8 5 $ a > [K S Lets come & see 9 2. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Customer Lifetime Management Analyst MTN-CI depuis Juillet 2011 Professeur vacataire de Marketing et Etudes de marchs lENSEA (ITS Option Entreprise) depuis 2013. Concpeteur et administrateur de la page facebook Intelligence Marketing: www.facebook/pages/Intelligence-Marketing CEO du Bureau dEtude Spcialis dans le traitement de lINFOrmation (BEST-INFO): Cabinet spcialis dans lE-commerce et Data-Analytics. PRESENTATION DE LINTERVENANT Jean Roger MABLY 3. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO PLAN DE PRESENTATION 1. Origine et Dfinition du Datamining 2. Apport du Datamining 3. Comparaison Datamining vs Statistiques et Datamining vs Big Data 4. Le Datamining dhier, daujourdhui et de demain PARTIE I: INTRODUCTION AU DATAMINING PARTIE II: PANORAMA DES TECHNIQUES DATAMINING 1. Les grands groupes de modles 2. Analyse factorielle 3. Classification/Prdiction 4. Segmentation 5. Associations 4. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO PLAN DE PRESENTATION (2) PARTIE III: DOMAINES DAPPLICATIONS 1. Utilit du Datamining dans le CRM 2. Utilit dans la banque 3. Datamining dans lassurance de risque 4. Datamining dans la tlphonie 5. Le datamining dans le commerce 6. Autres exemples PARTIE IV: CONSTRUIRE UN PROJET DATAMINING 1. SEMMA (SAS) 2. CRISP-DM (CLEMENTINE) PARTIE V: UTILISATION DOUTILS 1. CLEMENTINE 2. TANAGRA 5. INTRODUCTION AU DATAMINING Quest ce que le Datamining ? A quoi sert le datamining ? Ou va le Datamining ? [ I 6. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO La fouille des donnes Le DATAMINING est lensemble des: techniques et mthodes destines lexploration et lanalyse de (souvent) grandes bases de donnes informatiques en vue de dtecter dans ces donnes des rgles, des associations, des tendances inconnues (non fixes a priori), dans des structures particulires restituant de faon concise lessentiel de linformation utile. pour laide la dcision. On parle alors dextraction de linformation dans la donne Selon le MIT, cest lune des 10 technologies mergentes qui changerons le monde au XXIme sicle LONU dclar le 20 Octobre comme Journe mondiale de la Statistique 7. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Intrt du data mining On ne veut pas simplement confirmer des intuitions a priori par des requtes dans les bases de donnes mais dtecter sans a priori les combinaisons de critres les plus discriminantes Par exemple, dans le domaine commercial, on ne veut plus seulement savoir: Combien de clients ont achet tel produit pendant telle priode ? Mais: Quel est leur profil ? Quels autres produits les intresseront ? Quand seront-ils intresss ? Les profils de clientle dcouvrir sont en gnral des profils complexes : pas seulement des oppositions jeunes/seniors , citadins/ruraux que lon pourrait deviner en ttonnant par des statistiques descriptives Le data mining fait passer: danalyses confirmatoires des analyses exploratoires 8. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO quoi sert le data mining? Sondage effectu en 2009 sur: www,kdnudgets.com Mieux connaitre le client Mettre en vidence des facteurs de risques Test de mdicaments et de comestiques Dtection automatique de fraude Contle de qualit des produits Prvision daudience TV Astrophysique pour le classement des toiles ou galaxie Dtection automatique de spam Algorithm des moteur de recherche 9. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Prhistoire du data mining 1875 : rgression linaire de Francis Galton 1896 : formule du coefficient de corrlation de Karl Pearson 1900 : distribution du de Karl Pearson 1936 : analyse discriminante de Fisher et Mahalanobis 1941 : analyse factorielle des correspondances de Guttman 1943 : rseaux de neurones de Mc Culloch et Pitts 1944 : rgression logistique de Joseph Berkson 1958 : perceptron de Rosenblatt 1962 : analyse des correspondances de J.-P. Benzcri 1964 : arbre de dcision AID de J.P. Sonquist et J.-A. Morgan 1965 : mthode des centres mobiles de E. W. Forgy 1967 : mthode des k-means de Mac Queen 1972 : modle linaire gnralis de Nelder et Wedderburn 10. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Histoire du data mining 1975 : algorithmes gntiques de Holland 1975 : mthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de dcision CHAID de KASS 1983 : rgression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : rseaux de T. Kohonen (cartes auto-adaptatives) vers 1990 : apparition du concept de data mining 1991 : mthode MARS de Jerome H. Friedman 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : support vector machines de Vladimir Vapnik 2001 : forts alatoires de L. Breiman 2005 : mthode elastic net de Zhou et Hastie 11. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining aujourdhui Ces techniques ne sont pas toutes rcentes Ce qui est nouveau, ce sont aussi : les capacits de stockage et de calcul offertes par linformatique moderne la constitution de giga-bases de donnes pour les besoins de gestion des entreprises la recherche en thorie de lapprentissage les logiciels universels, puissants et conviviaux (Clementine, EG & Miner de SAS lintgration du data mining dans les processus de production Ces volutions permettent de traiter de grands volumes de donnes et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises 12. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining aujourdhui (2) Agrgation de modles rchantillonnage bootstrap, bagging, boosting Web mining: optimisation des sites meilleure connaissance des internautes croisement avec les bases de donnes de lentreprise Text mining statistique lexicale pour lanalyse des courriers, courriels, dpches, compte-rendu, brevets (langue naturelle): 3 onglets de Gmail et Yahoo Spam, Moteurs de recherches Google, Bing Image mining reconnaissance automatique dune forme ou dun visage (Google Glass, reconnaissance des sosie de la CIA) dtection dune chographie anormale, dune tumeur 13. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining de demain Autant de dveloppement possible que votre imagination ne peut vous le permettre 14. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO data mining vs statistique DATAMINING STATISTIQUE Le datamining: 1. Traite plus de donnes 2. Sapplique une population entire 3. Travaille sur des donnes existante 4. Orient pratique 5. Comprhensibilit des modles plutt que prcision 6. Modles localiss La statistique: 1. Traite moins de donnes 2. Sapplique un chantillon reprsentatif 3. Recueille des donnes avant le travail 4. Orient thorie 5. Prcision des modles plutt que Comprhensibilit 6. Modles gnraliss Le datamining utilise des techniques statistiques 15. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO data mining vs big data Le data mining est lensemble des techniques analytiques qui permettent dextraire de linformation dune masse de donnes La Big Data est lensemble des techniques informatiques qui permettent de recueillir le plus grand nombre de donnes de toutes formes BIG DATA = VELOCITY + VERACITY + VOLUME DATA MINING = STATISTIQUE + APPRENTISSAGE + INTELLIGENCE ARTIFICIELLE 16. PANORAMA DES TECHNIQUES DATAMINING Quelles sont les techniques de Datamining ? Quest ce que le scoring Ou va le Datamining ( II 17. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Les 2 types de techniques Le data mining Les techniques descriptives (recherche de patterns ): visent mettre en vidence des informations prsentes mais caches par le volume des donnes (cest le cas des segmentations de clientle et des recherches dassociations de produits sur les tickets de caisse) rduisent, rsument, synthtisent les donnes il ny a pas de variable expliquer Les techniques prdictives (modlisation) : visent extrapoler de nouvelles informations partir des informations prsentes (cest le cas du scoring) la constitution de giga-bases de donnes pour les besoins de gestion des entreprises expliquent les donnes il y a une variable expliquer 18. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Quest ce que la segmentation et factorisation ? (classificationenanglais) Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que : 2 objets dun mme groupe se ressemblent le + possible 2 objets de groupes distincts diffrent le + possible le nombre des groupes est parfois fix les groupes ne sont pas prdfinis mais dtermins au cours de lopration Mthode descriptive : pas de variable cible privilgie dcrire de faon simple une ralit complexe en la rsumant Utilisation en marketing, mdecine, sciences humaines segmentation de clientle marketing Les objets classer sont : des individus des variables les deux la fois (biclustering) 19. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Quest ce que la classification ou prdiction? (segmentationenanglais) Ce sont des mthodes prdictives Classement : la variable expliquer (ou cible , rponse , dpendante ) est qualitative on parle aussi de segmentation (en anglais) ou de discrimination Prdiction : la variable expliquer est quantitative on parle aussi de rgression ou dapprentissage supervis (rseaux de neurones, arbres de dcision) Scoring : classement appliqu une problmatique dentreprise (variable expliquer souvent binaire) chaque individu est affect une classe ( sain ou malade , par exemple) en fonction de ses caractristiques 20. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Quelque types de score Score dapptence prdire lachat dun produit ou service Score de (comportement) risque prdire les impays ou la fraude Score de pracceptation croisement des deux prcdents Score doctroi prdire en temps rel les impays Score dattrition prdire le dpart du client vers un concurrent Et aussi : En mdecine : diagnostic (bonne sant : oui / non) en fonction du dossier du patient et des analyses mdicales Courriels : spam (oui / non) en fonction des caractristiques du message (frquence des mots) 21. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Quest ce quune regle dassociations Ce sont des mthodes prdictives pour dtecter des liaisons entre des individus dun groupe ou den ensemble E.g. Panier de la mnagre : quelles sont les lments qui viennent ensemble ? si vous avez achet des fleurs et du th, vous allez probablement acheter du pain aussi Pour dcouvrir modles prdictifs cachs: Parfois les modles prdictifs intressant sont caches La dcouverte dassociation permet de trouver plusieurs petits lots de rgles et peut de dcouvrir les modles masqus Exploration Gnrale : Ne sais pas exactement quest ce que je cherche, mais juste dis moi qui va avec quoi 22. DOMAINES DAPPLICATIONS Quelles sont les applications du datamining ? Comment son application change notre quotidiens ? b III 23. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Utilit du datamining dans le CRM (gestion de la relation client) Mieux connatre le client pour mieux le servir pour augmenter sa satisfaction pour augmenter sa fidlit (+ coteux dacqurir un client que le conserver) La connaissance du client est encore plus utile dans le secteur tertiaire : les produits se ressemblent entre tablissements le prix nest pas toujours dterminant ce sont surtout le service et la relation avec le client qui font la diffrence 24. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Exemple de Credit scoring Objectifs de la banque : vendre plus en matrisant les risques en utilisant les bons canaux au bon moment Le crdit la consommation: un produit standard concurrence des socits spcialises sur le lieu de vente quand la banque a connaissance du projet du client, il est dj trop tard Conclusion : il faut tre pro-actif dtecter les besoins des clients et leur tendance emprunter Faire des propositions commerciales aux bons clients, avant quils nen fassent la demande 25. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans la Banque Naissance du score de risque en 1941 (David Durand) Multiples techniques appliques la banque de dtail et la banque dentreprise Surtout la banque de particuliers : montants unitaires modrs grand nombre de dossiers dossiers relativement standards Essor d : dveloppement des nouvelles technologies nouvelles attentes de qualit de service des clients concurrence des nouveaux entrants (assureurs, grande distribution) et des socits de crdit pression mondiale pour une plus grande rentabilit surtout : ratio de solvabilit Ble 2 26. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans lassurance de risque Des produits obligatoires (automobile, habitation) : soit prendre un client un concurrent soit faire monter en gamme un client que lon dtient dj Do les sujets dominants : Attrition ventes croises (cross-selling) montes en gamme (up-selling) Besoin de dcisionnel d : concurrence des nouveaux entrants (bancassurance) bases clients des assureurs traditionnels mal organises : compartimentes par agent gnral ou structures par contrat et non par client vendre plus en matrisant les risques 27. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans la telephonie Deux vnements : ouverture des monopoles nationaux dautres oprateurs tlcom arrive saturation du march de la tlphonie mobile Do les sujets dominants dans la tlphonie : score dattrition (churn = changement doprateur) optimisation des campagnes marketing text mining (pour analyser les lettres de rclamation) Problme du churn : cot dacquisition moyen en tlphonie mobile : 50,000 frs env plus dun million dutilisateurs changent chaque danne doprateur En France, la loi Chatel (juin 2008) facilite le changement doprateur en diminuant le cot pour ceux qui ont dpass 12 mois chez loprateur la portabilit du numro facilite le churn 28. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans le commerce Vente Par Correspondance utilise depuis longtemps des scores dapptence pour optimiser ses ciblages et en rduire les cots des centaines de millions de documents envoys par an e-commerce personnalisation des pages du site web de lentreprise, en fonction du profil de chaque internaute optimisation de la navigation sur un site web Grande distribution analyse du ticket de caisse dtermination des meilleures implantations (gomarketing) 29. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Autres exemples dutilisation du data mining De linfiniment petit (gnomique) linfiniment grand (astrophysique pour le classement en toile ou galaxie) Du plus quotidien (reconnaissance de lcriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aronautique) Du plus ouvert (e-commerce) au plus scuritaire (dtection de la fraude dans la tlphonie mobile ou les cartes bancaires) Du plus industriel (contrle qualit pour la recherche des facteurs expliquant les dfauts de la production) au plus thorique (sciences humaines, biologie) Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prvisions daudience TV) 30. CONSTRUIRE UN PROJET DATAMINING Quelles sont les etapes pour aboutir au bon modele Quelles sont les diiferents mthodes existantes ? Quelle difference entre SAS et SPSS? b IV 31. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Dmarche methodologique du data mining Comprendre lapplication ou le problme Connaissances a priori, objectifs, etc. Slectionner un chantillon des donnes Choisir une mthode dchantillonnage Nettoyage et transformation des donnes Supprimer les bruits : donnes superflues, marginales, donnes manquantes, etc. Appliquer les techniques de fouille des donnes Choisir le bon algorithme Visualiser, valuer et interprter les modles dcouverts Analyse de la connaissance (intrt) Vrifier sa validit ( sur le reste de la base de donnes) Ritrer le processus si ncessaire. Grer la connaissance dcouverte La mettre la disposition des dcideurs Lchange avec dautres applications (systme dexpert,) Etc. 32. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Les tapes du processus du data mining 1.Comprhension du domaine dapplication 2.Cration du fichier cible (target data set) 3.Traitement des donnes brutes (data cleaning & prepocessing) 4.Rduction des donnes (data reduction and projection) 5.Dfinition des taches de fouille des donnes 6.Choix des algorithmes appropris de fouilles de donnes 7.Fouille de donnes (data mining) 8.Interprtation des formes extraites (mined patterns) 9.Validation des connaissances extraites 10.Dploiement des algorithmes. 33. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO SEMMA (SAS) vs CRISP-DM (CLEMENTINE) Sampling = Echantillonner Tirer un chantillon significatif pour extraire des modles Exploration = Explorer Devenir famillier avec les donnes (patterns) Manipulation = Manipuler Ajouter des informations, coder, grouper des attributs Appmodelling = Modeliser Contruire des modles Assement = Valider Comprendre , Valider, expliquer et repondres aux questions Sampling = Echantillonner Tirer un chantillon significatif pour extraire des modles Exploration = Explorer Devenir famillier avec les donnes (patterns) Manipulation = Manipuler Ajouter des informations, coder, grouper des attributs Appmodelling = Modeliser Contruire des modles Assement = Valider Comprendre , Valider, expliquer et repondres aux questions 34. APPLICATIONS Apprendre manipuler Clmentine (Software) Apprendre manipuler Tanagra (Freeware) b IV 35. A bientt! MERCI Pour votre participation

Recommended

View more >