Cours systme d'intelligence marketing

  • Published on
    17-Nov-2014

  • View
    960

  • Download
    2

DESCRIPTION

L'Intelligence Marketing est un systme dvelopp afin de collecter, stocker, analyser et interprter l'information marketing disponible dans l'environnement dans lequel se situe l'entreprise. Il doit permettre de concevoir et dvelopper une stratgie marketing adapte, mais galement de planifier les conditions efficientes de sa mise en application.

Transcript

1. Ecole Nationale Suprieure de Statistique et dEconomie Applique Cours lintention des lves Ingnieurs des Travaux Statistiques (ITS) 2. Sommaire Definitions et Objectifs1 Struture et activits dun SIM2 Les tudes de march3 La planification, le suivi et lvaluation4 LIntelligence conomique5 La veille concurrentielle6 Les analyses statistiques et datamining7 3. Objectifs Comprendre et remplir aisement les missions dun SIM partant de la conception la prsentation des rsultats en passant par lanalyse. Conduire un diagnostique pertinent des services marketing et commercial bas sur des indicateurs cls de performance et proposer des solutions adquats. Connaitre et conduire les diffrentes tudes qualitatives et quantitatives adaptes loptimisation des variables du mix marketing dune entreprise. Connaitre les principales utilisations des outils statistiques et para- statistiques appliqus aux domaines marketing et commercial. Maitriser les outils et techniques de datamining afin de prdire des phnomnes. A la fin de ce cours chaque tudiant doit tre capable de: 4. Dfinitions Systme dIntelligence Marketing: Cest un ensemble de ressources (humaines et techniques) et de processus mis en place, dans une entreprise, pour obtenir des donnes internes et externes suivi dune transformation (des donnes) en connaissances afin den faire un outil efficace daide la dcision. MOTS CLES: SIM, Business Intelligence, donnes, Informations, Intelligence, tude de march, analyses de donnes, statistiques, datamining, indicateurs, chantillon, prdiction, modle conomtriques, veille stratgique & concurrentielle, planification, suivi et valuation, CRM, analyses dcisionnelles, apprentissage, matrice de confusion, courbe ROC, courbe LIFT, analyse SWOT, analyse PEST, rseaux de neurone, analyses discriminantes, sondage, erreur, marketing, IT/IS, scoring, arbre de dcision, chantillon test, chantillon de validation. Textmining, webmining ceux qui marchent que fort lentement peuvent avancer beaucoup davantage, sils suivent toujours le droit chemin, que ne font ceux qui courent, et sen loignent. (Descartes, Discours de la mthode) 5. Dfinitions (2) Donnes: nombres, mots, vnements existant en dehors dun cadre conceptuel de rfrence; en consquence, et en absence de contexte, les donnes prises individuellement nont pas une grande signification. Accumulation de donnes nest pas information. Informations : ensemble de donnes, valides et confrontes, qui commencent avoir un sens aprs tre mis dans un contexte. Accumulation dinformation nest pas connaissance. Connaissance : ensemble dinformations interprtes par lentreprise et lui permettant de prendre des dcisions. Accumulation de connaissances nest pas intelligence. Intelligence : elle apparait lorsque les principes fondamentaux qui ont fonds la connaissance sont compris et automatiss afin den former un systme. Accumulation de connaissance nest pas vrit. Le marketing: Ensemble des actions ayant pour objet lanalyse du march prsent ou potentiel dun bien ou dun service et de mettre en uvre les moyens permettant de satisfaire la demande ou, le cas chant, de la stimuler ou de la susciter.. 6. Pourquoi un Systme dIntelligence Marketing ? 1 SIM performant Entreprise comptitive SIM performant = Faire face aux 3x3 = 9 dfis du triangle SIM SIM Etudes de march Analyses statistiques & Data Mining Veille concurentielle Planification & suivi Intelligence Economique guidance + Domination + Pro-activit Techniques dtudes de march Outils statistiques et datamining Mthodes de planification et modlisation oCroissance du revenu oClients satisfaits oProduits adapts 2 dcrire analyser prdire Environnement des affaires Environnement des affaires Vision complte du client Vision complte du client Performance de lentreprise 3 7. Pourquoi un Systme dIntelligence Marketing ? (2) 2- O somme nous? 5- Comment tre optimal? 4- O allons Nous? 3- Pourquoi sommes nous l? 6- Maturit du SIM 1- Total aveuglement Analyses descriptives Analyses exploratoires Analyses prdictives Analyses dcisionnelles Les 6 tapes du cycle de dveloppement dun SIM 8. Comptences requises Composantes et comptences requises dun SIM SIM ManagementEconomie Statistique Informatique Marketing Finance P.S&E Etudes march Data Mining Veille concur. Marketing OO OOOO O OOO Statistique OO OO OOOO O finance OOO O O OO Management OO O O O Economie OO O O OOO Sociologie O OO O O Chef de division Business Intelligence P.S&E Etudes de March Veille Concurrentielle Data Mining Planification, rapports dvaluation et analyse financiers Coordinateur des tudes de march et gomarketing Veille concurrentielle et Intelligence conomique Analyse des donnes, tude de prix, analyse de fidlisation et de rtention. Composantes 9. Structure dun SIM Sources externes: Media classique Internet Publications vnement Analyses sectorielles DSI: Datawarehouse Fichiers log Finance: Declaration de revenu Prix/couts Dir. Com: Rapport dactivit Force de vente fournisseurs Dir. Mkg: Service client Base de donnes clients Acquisition dune multitude de donnes de diffrentes sources (collecte, valuation et premier stockage) Analyse de la concurrence et de lenvironnement des affaires. Analyses des tudes de march datamining Analyse des ventes et prvisions Rapport, diffusion et systme de scurisation de linformation. 1- identification des besoins 2- acquisition des donnes 3- traitement des donnes 4- diffusion et protection de linformation Sources internes Recherche dinformations Architecture dun Systme dIntelligence Marketing moderne 10. Les defis dun SIM Pour chacun des 3 facettes du march dune entreprise, un SIM doit dcrire(valuer), analyser(comprendre), et prevoire(anticiper). Voici le formidable dfi dun SIM. Environnement des affaires Vision 360 du client Performance De lentreprise 3 facettes du march X 3 facettes dtudes Les 3x3 = 9 defis dun SIM 11. Le pentagone dun SIM Etudes de march Analyses statistiques & Data Mining Veille concurentielle & stratgique Planification & suivi Intelligence Economique Les activits dun SIM: le BI pentagone 12. Panorama des rapports dun SIM rapports Importance Frquence Forme 1 Daily Flash Trs lev Journalier Mail ou Excel 2 Flash-Alert lev Flottant Mail 3 Competition Report Trs lev Hebdommadaire Excel et PowerPoint 4 Conjoncture Note Moyen Hebdommadaire Excel 5 Marketing Dashbord Trs lev Hebdommadaire Excel 6 Customer Intelligence Report Trs lev Hebdo/Mensuel Powerpoint 7 Commercial Channels Report lev Hebdo/Mensuel Powerpoint 8 Market Reports (1&2) lev Flottant/Trimestriel Powerpoint 9 Business Environment Report lev Trimestriel/Semestriel Powerpoint 10 Business Intelligence Report lev Mensuel PowerPoint 13. les tudes de march Les questions relatives au march global: tendances, opportunit ,,, Les questions relatives au march direct : profiles, besoins des clients Les questions relatives aux concurrents: Part de march, sant de la marque Les questions relatives aux variables du mix-marketing: les 4 P. Les activits des tudes de march aident repondre 4 types de Questions: Les activits des tudes de march aident repondre 4 types de Questions: Cest le processus de collecte et danalyse des donnes concernant le client et les canaux de vente afin davoir une bonne comprhension du march, danticiper son volution afin dagir. 14. les tudes de march: les tapes Analyse des donnes Collecte des donnes Conception de la mthode Dfinition du problme Apparition de la volont de rgler un problme de la part dun employ de lentreprise Redaction du rapport 1. Type dtude 2. Outils de collecte 3. Plan de sondage. Interview Quantitatif (face face, tel, internet,courrier) Interview Qualitatif (camera, dictaphone) Analyses Quantitatifs (univari, multivari) Analyses Qualitatifs (analyse de contenu, semiologie, text mining) PowerPoint, Word, Excel 15. les tudes de march: dfinition du problme o Les tudes de march naissent , quand dans lentreprise, quelquun un problme ou voit une opportunit de recueillir des informations. Par exemple: Comment nos clients partagent leur revenu Combien de clients voudront payer notre notre nouveau service Par quel support de communication notre campagne publicitaire aurait un impact significatif o Aprs avoir formuler ton problme, tu as besoin de formuler tes questions de recherche: quelles sont les questions auxquelles tu as besoin pour rpondre aux attentes de ton coolaborateur et quelles sont les sous-questions impliques. o Avec les problmes ou opportunits dfinis, la prochaine tapes est le choix de tes objectifs pour ton tude de march, o Les objectifs dtude, relat ou dtermin par la formulation du problme, sont lensemble de ce quoi vous devrai aboutir en fournissant les information ncessaire la rsolution du problme. 16. les tudes de march: la conception La conception fournie la colle qui maintient le projet dtude cohrent. Elle est utilise pour structurer ltude, pour montrer comment les diffrentes parties du projet seront agences pour rpondre la question de recherche. Type de recherche / dtude Outil de collecte de donnes Echantillonnage (comment selectionner les enquts ?) Mode de collecte (comment contacter ces personnes ?)Population dtude (quelles catgories de personnes interroger ?) Taille de lchantillon (combien de personnes contacter ?) Quantitatif (questionnaire) Qualitatif (guide dentretien) Observation (grille de notation) Plan dchantillonnage Donnes scondaires: tude prcedentes, publications officielles) Donnes primaires: quantitatives (sondages), qualitatives (focus groupe), observation (in situ) 3 17. les tudes de march: la taille de lchantillon Niveau de confiance Marge derreur 90% 95% 99% 1% 6.765 9.604 16.589 2% 1.691 2.401 4.147 3% 752 1.067 1.843 4% 423 600 1.037 5% 271 384 664 Table statistique pour la dtermination de la taille optimal dun chantillon Si n/N > 15%, la taille finale de notre chantillon est obtenu de la manire suivante: 1. n=(n*N)/(n+N) o n=taille de lchantillon et N=taille population totale 2. La correction de Kish: si lchantillonnage nest pas alatoire la marge derreur doit tre multipli par 1,4 3. En rgle gnrale il faut interroger 100 personnes pour chaque groupe significatif de notre population et 30 personnes par sous groupe 4. Afin de faire face aux divers imprvus (non-reponses, questionnaires incomplets) il faut ajouter 2% 10% de la taille initiale de notre chantillon. 18. les tudes de march: la taille de lchantillon (exemple 1) valuation de nouveau service Niveau de confiance: 99% comme nous avons besoin dune grande prcision Marge derreur accept: 2,5%. depuis que nous avons la liste des clients post- pays (7000) cela nous permet deffectuer un chantillonnage probabilistique. Nous estimons 70% la proportion des clients post-pays qui utiliserons ce service, nous navons donc pas besoin de la correction de Kish. La marge pour les divers problmes est fixe 5% La taille de lchantillon est n= [(2,576^2)x0,7x0,3/(0,0025^2)] = 2.230 Mais comme le ratio n/N = 31,86% > 15%, nous avons donc besoin de calculer une taille finale Finalement, n=[(2.230x7.000)/ (2.230x7.000) = 1691 19. les tudes de march: la taille de lchantillon (exempes) Exemples2: Retail audit Niveau de confiance: 95% Marge derreur accept: 2%, alors pour considrer la correction de Kish notre erreur sera 1,43 Marge pour divers problmes: 3% Un recensement rvl que le pays un total de 56.630 point de vente de 4 types et rpartis sur 4 villes: Abidjan, Daloa, San-Pedro et Yamoussoukro La taille dchantillon est: n=[(1,96^2)x0,5x0,5/ (0,0143^2)]x1.03=4.847 Poids dans le recensement Distribution de lchantillon Abidjan Daloa San-Pedro Yakro Total Abidjan Daloa San-Pedro Yakro Total Convenance 13,0% 11,0% 9,4% 7,0% 40% 630 533 456 339 1958 piceries 11,0% 9,5% 5,0% 4,0% 30% 533 460 242 194 1430 Centre Commerciaux 5,3% 5,0% 4,9% 0,3% 16% 257 242 238 15 751 Loisirs 7,0% 6,0% 0,4% 1,2% 15% 339 291 19 58 708 Total 36,3% 31.5% 19,7% 12,5% 100% 1760 1527 955 606 4847 20. tude de march : typologie et processus de lchantillonnage Avons nous une facilit daccs notre cible? La population est-elle assez tendue ?Sondage par quotas Avons nous une base de donnes dtailles sur lensemble de notre population? Notre population est-elle segment ? Avons nous plusieurs niveaux de regroupements? Sondage alatoire Un chantillonnage allatoire serait-il coteux ? Avons nous une base avec des informations de regroupement ? Est-il coteux de sonder par groupe ? Sondage stratifi Sondage par grappe Sondage plusieurs dgr Connaissons nous la structure de notre population? Sondage sur site Boule de neige, par convenance Sondage trotoire ProbabilistiquesNonprobabilistique non oui 21. les tudes de march: panorama Principaux tude de march: Test de produit/concept Tracking study tude dusage de produits/marque tude de pntration publicitaire valuation dimage de marque tude de segmentation tude dvaluation mdia tude de part/taille de march tudes de prix tude de positionnement tude de satisfaction client tude de faisabilit du march Retail audit Outlet census 22. la plannification, le suivi et lvaluation Quelle est le contexte du march et comment pouvons nous tablir les objectifs de lentreprise ? Comment excuter les activits de lentreprise afin datteindre ces indicateurs de performance? Quelles activits de lentreprise peuvent valoriser limage de lentreprise sur le march? Quelles sont les facteurs internes et externes qui peuvent expliquer le gap entre Les ralisations et les prvisions? La plannification et le suivi aident a proposer des solutions telles que: La plannification et le suivi aident a proposer des solutions telles que: Cest un ensemble dactivits ralis dans lintention de planifier, prvoire et aussi suivre lvolution des performances de lentreprise et de son march. 23. la plannification, le suivi et lvaluation: les mthodes Larbre des mthodologies pour la planification selon Amstrong Sources de connaissance Par jugements Par statistiques Des autres propres univaries multivaries oSondage dopinions oTest de march oOpinions dexperts oOpinion des commerciaux Analyse de sries temporelles oRegressions linaires oAutres models conometriques 24. la plannification, le suivi et lvaluation: les mthodes Il est possible de conduire une enqute dintention dachat sur un chantillon de clients potentiels cibls. Cette approche suppose quavec les intentions dachats actuel, sur lchantillon, nous pourrons estimer le niveau dachat future. Totalement impossible 0% Trs faible probabilit 10% Faible probabilit 20% Peu probable 30% Probabilit moyenne 40% Un peu bonne probabilit 50% Bonne probabilit 60% Probablement 70% Fortement probable 80% Quasiment sure 90% Totalement sure 100% Avantages : Fournie des informations dtailles Fournis une prcision sur la pens des clients Peu tre utilis pour de nouveaux produits/SAV Inconvnients : Les intentions peuvent ne pas tre actuelles Couteuse en terme de finance et de temps Utilis uniquement lorsquon a une bonne dfinition des clients potentiels Intention dachat 25. la plannification, le suivi et lvaluation: les mthodes Opinions dexperts March test Opinion des commerciaux Dans cette mthode, connu sous le nom de Delphi, un questionnaire est envoy des experts en dehors de lentreprise. Les rsultats de leurs rponses sont synthtiss et renvoyes avec les mmes questions. On rpte cela jusqu ce quils trouvent un consensus. Cela implique le lancement du produit sur une petite partie du march et de supposer que le produit se comportera de la mme manire sur lensemble du march. Lchantillon peut tre gographique ou socio- dmographique. Lestimation peut aussi venir de la force de vente qui peut estimer les ventes sur leur territoire respectif. Ils sont, aprs tout, les membres de lentreprise qui sont les plus proches des clients donc peuvent bien estimer la demande probable. Avantages : Estimateurs moins enclin aux pressions de groupe Besoin davis de personnes extrieurs Inconvnients : Souvent difficile de trouver un expert de nouveau prod. Couteuse en terme de finance et de temps Avantages : Permet une valuation des effets du plan marketing Fournis des information ralistes Avantages : Les vendeurs connaissent bien les clients, les produits et les concurrents Inconvnients : Alerte les concurrents sur les plans de lentreprises Couteuse en terme de finance et de temps Inconvnients : Les vendeurs sont investit dintrt donc peuvent faire des estimations biaiss Risque de mauvaise apprciation du march 26. Lintelligence conomique Quelles sont les facteurs externes qui peuvent impacter lactivit de lentreprise? Quelles sont les potentielles menaces et opportunits du march ? Comment nos activits peuvent impacter lvolution technologique ou comportementale de la population ? Quelles sont les ralits de notre activit dans dautres pays ? Afin de repondre 4 types problemes: Afin de repondre 4 types problemes: Cest la collecte, lanalyse et le partage de toute linformation sur lenvironnement macro-conomique afin danticiper les menaces et dexploiter les opportunits. Deux types dactivits Suivre levolution structurelle du macro-environnement Anticiper les menaces et opportunits 27. Lintelligence conomique: les raisons Les raisons pour la recherche dinformation La lgislation et la rglementation: nationales et internationales Les orientations en matire sociale: aspects sociologique de lenvironnement Le contexte politique national et international Les tendances conomiques: PIB, RN, IPC, IPI, Taux de croissance conomique La concurrence: partenariat, communication, sources davantage comptitif La proprit intellectuelle et les brevets Les clients : exigences, souhaits, habitudes, profil Les dveloppements technologiques Le march mondial: volution technologique 28. Lintelligence conomique: les outils Les outils dintelligence conomique Les moteurs de recherche/texte libres: www.altavista.com www.google.com... Les mta moteurs de recherche: www.ixquick.com , http://vivismo.com/ Les mta sites/portails: www.eevl.ac.uk , www.analysis.com/default.asp?mode=article&ileftAr tic=288 Les news group/ listes de diffusion de-mail: www.liszt.com, www.freepint.com Les alertes: http://standard.nothernlight.com/cgi- bin/cl_cliplist.pl www.kartoo.com www.googlealerte.com... Les agents intelligents: www.strategicfinder.com Les web invisibles: www.invisibleweb.com www.thebighub.com Les web smantique: outils en construction capable de comprendre les langues humaines Les robots: robot tropes 29. La veille concurrentielle & stratgique Quelle est le profile des concurrents: positionnement Quelles enseignement tirer des activits des concurrents Comment tablir une analyse SWOT pour chaque concurrents Que veut et que peut faire chaque concurrent sur le march Cest la collecte et lanalyse des donnes des concurrents afin dapprhender leur position, leurs performances, leurs capacits et leurs intentions. Deux types dactivits Pister les activits et les performances des concurrents Anticiper les actions des concurrents Afin de repondre types 4 de problemes: Afin de repondre types 4 de problemes: 30. La veille concurrentielle & stratgique Les 10 commandements de lintelligence conomique et de la veille stratgique 31. La veille concurrentielle & stratgique: le fonctionnement Les sources dinformations Internes & Externes Formelles & Informelles Structur & Non structure La nature de linformation Donnes et informations Linformation open source ( blanche) Ce sont les informations disponibles au public: mdia traditionnels, internet, publications industrielles et dentreprise. Linformation humaine (informelle) Ce sont les informations fournies directement via la relation humaine (partenaires, clients). Linformation traque ( grise) Ce sont les informations disponibles par nos propres observations et lespionnage propre : foire commerciales, analyses des donnes en circulation) Les donnes, internes ou externes, que nous recueillons sont la fois structures/non structures et formelles/informelles Les donnes externes selon leur mode de recueillement sont classes en trois groupes: linformation open sources (blanche), linformation humaine et linformation traque (grise) 32. La veille concurrentielle & stratgique: les sources dinformations Les informations open source ( blanches) ofaits, opinions et analyses du macro environnement oCaractristiques du march et des concurrents oTaille et croissance du march oPart de march de nos concurrents oInnovation en produits et services chez nos concurrents Confrences sur les activits marketing et les projets de recherche (approche & outils) organises dans le secteur. oRsultats financiers: revenu, EBIT oStructure et membre des compagnies oRsultat techniques et perspectives Certaines informations sur vos concurrents circulent toujours sur internet Les journaux et les magazines Publications industrielles et des entreprises: Confrences et sminaires: Rapports annuels des concurrents: Sites internet, blog et rseaux sociaux 33. La veille concurrentielle & stratgique: sources dinformations (2) Les informations traques (grises) vnements Produits/Services Il est important pour lquipe dintelligence Marketing de possder ou dutiliser les produits des concurrents afin den tirer le maximum dinformations pour llaboration des stratgies concurentielles. Dautres Les concurrents ont plusieurs points de vulnrabilits que nous pouvons exploiter: Lors des voyages, dans les htels et restaurants: lutilisation des ordinateurs portables et des conversations Les anciens disque dur: quand ils ne sont pas dtruit peuvent souvent contenir des informations confidentielles Les stagiaires, les agents de scurit et de netoyage Par la participation aux vnements tels que les foires commerciaux et les salons, en visitant les stands des concurrents nous pouvons avoir des informations sur eux et leurs nouveaux produits/services. N.B: pendant ces vnements les concurrents ont gnralement deux points de faiblesses: les jeunes ou nouveaux travailleurs qui ne font pas attention certaines confidentialits et le staff technique qui souvent dtail trop lexplication des produits et services. 34. La veille concurrentielle & stratgique: les sources dinformations (3) Les informations humaines (informelles) Les employs de lentreprise qui sont spcialistes en quelques questions Le staff du service SIM La force de vente Le staff du commercial marketing Le staff du sce de communication interne Le staff supply chain Les autres staff Les observateurs internes: Les personnes en dehors de la compagnie qui ont des informations sur la concurrence. Les distributeurs Les clients Les fournisseurs Les mdias Les concurrents Les personnes en dehors de lentreprise qui sont spcialistes de certains points Les agences de recherches Les consultants Les membres dacadmies Les observateurs externes: Dautres observateurs: 1 2 3 35. Les analyses Statistiques et Datamining 1-Comment modeliser les differentes couches de notre clientele, 2- Comment prdire les actions de notre clientle. 3- Comment optimiser la valeur de nos produits proposs sur le march. 1-Comment modeliser les differentes couches de notre clientele, 2- Comment prdire les actions de notre clientle. 3- Comment optimiser la valeur de nos produits proposs sur le march. Cest un ensemble dactivits utilisant les techniques et les Outils statistiques afin de detecter linformation critique dans les base de donnes clients via un processus analytique. Analyse du revenu Profiling et classification des clients Analyse de lattrition et de la fidelit Analyse de la valeur du client 36. Le datamining : Dfinitions Lexploration et lanalyse, par des moyens automatiques ou semi-automatiques, dun large volume de donnes afin de dcouvrir des tendances ou des rgles Michael J. & A. Berry cest : torturer linformation disponible jusqu ce quelle avoue Dimitris Chorafas Data mining = fouille des donnes = forage des donnes DATAMINING STATISTIQUE Le datamining: 1. Traite plus de donnes 2. Sapplique une population entire 3. Travaille sur des donnes existante 4. Orient pratique 5. Comprhensibilit des modles plutt que prcision 6. Modles localiss La statistique: 1. Traite moins de donnes 2. Sapplique un chantillon reprsentatif 3. Recueille des donnes avant le travail 4. Orient thorie 5. Prcision des modles plutt que Comprhensibilit 6. Modles gnraliss techniques statistiques Le datamining utilise des techniques statistiques 37. Positionnement des statistiques par rapport au datamining Donnes analyses modle Dquations Associations Ensembles flous discriminante logistique rtropopagation Analyse logique Techniques De projection Analyses factorielles Analyses De typologie Arbres De dcisions Techniques De regression Rseaux De neurones Nues dynamiques Classification hirarchique Moteur baysien Arbres de dcision Algorithme gntique Cartes de Kohonen Rgles Techniques Statistiques Techniques Datamining 38. Le processus de datamining 1 Dfinition du problme 2 Extraction des donnes 3 Analyse prliminaire des donnes 4 Partition de lchantillon 5 Construction du modle 6 Comparaison des modles 7 Choix et dploiement du modle LE PROCESSUS DUN PROJET DE DATAMINING 39. Le processus de datamining 1 Definition du probleme 2 Extraction des donnes 3 Analyse prliminaire des donnes classification, prdiction, rgle dinduction Lobjectif est de clairement comprendre les problmes, rsoudre, de lentreprise et convertir cela en un problme de datamining: classification, prdiction, rgle dinduction techniques de sondage. Extraction des donnes partir des base de donnes internes (datawarehouse, datamart, etc)avec ou sans chantillonnage avec les techniques de sondage. Cette phase 2 objectifs: Dtecter les outliers et les valeurs atypiques Dterminer et slectionner les variables significatives Pour cela, selon les types de variables (continus, discrtes), nous utilisons les techniques de statistiques descriptives et infrentielles: 1. Graph: histogrammes, boite moustache, log(odd ratio) 2. Statistiques descriptives: tendance centrale, dispersion, position 3. Tests statistiques: T-test, F-test, Chi2, Kruskal-Wallis, etc 40. Le processus de datamining: partition de lchantillon 70% 30% 1.Analyses exploratoire 2.Construction du modle 3.Comparaison des modles 41. Le processus de datamining: construction du modle Les techniques utilises dans le datamining afin dexcuter diffrentes activits sont variables et peuvent tre partages en deux catgories: Les variables de notre tude sont subdivises en 2 groupes: les variables explicatives et une (ou plusieurs) variable(s) dpendante(s). Le but est de spcifier la relation existante entre les variables explicatives et la(les) variable(s) dpendante(s). Techniques: Arbres de dcision Analyses discriminantes linaires Rgression logistique Rseaux de neurones Support Vector Machine Toutes les variables sont traites de la mme manire, il n y a pas de distinction entre les variables explicatives et les variables dpendantes, Le but peut-tre aussi gnral comme la rduction des donnes ou spcifique comme la classification. Techniques: Analyse de segmentation Kohonen-SOM Analyses factorielles Rgles dassociation Mthodes supervises Mthodes non-supervises 42. Le processus de datamining: choix du modle Les modles optimaux sont choisis en comparant les erreurs de prvision des diffrents modles sur lchantillon test. Les modles de Datamining sont trs difrent en termes dinput comme doutput, ils ne peuvent donc tre compar via des outils tel que le coefficient de correlation, Plusieurs techniques sont utilises afin destimer les erreurs: Test de donnes, cross-validation ( avec plusieurs variantes K-fold, leave-one-out), Boostrap, etc. mais la fin de cette tape, nous devons toujours remplir une matrice de confusion. La seconde tape consiste lvaluation de lefficacit de nos modles via des techniques de scoring: courbe ROC, courbe LIFT, etc. Cross-validation: Dtermine comment les rsultats dun modle peuvent tre gnralis sur toute la base. Pour cela on applique plusieurs fois le modle sur des sous-chantillons et on retient la moyenne des paramtre obtenus aprs chaque round. Boostrap: Utilis quand la base de donnes est assez petite pour tre subdivis. On utilise des remplacements dindividus dans la mme base pour en former de nouvelles auxquelles on applique les modles. On compare donc les moyennes des paramtres. 43. datamining:choix du modle (la matrice de confusion) Classification prdictive classerelle Sensitivit= A/(A+B) Spcificit=D/(C+D) POSITIF NGATIF Total POSITIF vrai positif (A) faux ngatif (B) A+B NGATIF faux positif (C) vrai ngatif (D) C+D Total A+C B+D N=A+B+C+D VPP=A/(A+C) VPN=D/(B+D) TAUX DE SUCCES=(A+D)/N= TAUX DERREUR=1- La sensitivit est la capacit du modle dtecter correctement un positif La spcificit est la capacit du modle dtecter correctement un ngatif La valeur prdictive positif (VPP) est la proportion des vrais positifs parmi les positifs du modle La valeur prdictive ngatif (VPN) est la proportion des vrais ngatifs parmi les ngatifs du modle 1 23 44. datamining: choix du modle (courbe ROC) La courbe ROC (receiver operating Characteristic = rcepteur des caractristiques opratoires) est un graph qui reprsente: La probabilit de classifier correctement les individus positifs (vrais positifs) La probabilit de classifier les incorrectement les positifs (faux positifs) Le meilleur modle est celui qui nous permet de concilier le maximum de vrais positifs et le minimum de faux positifs. Lindicateur gnr par la courbe ROC est lAUC (Area under ROC = aire sous la courbe). Plus lAUC est grand et plus le modle est meilleur. (Lim AUC=1) 45. Le processus de datamining: choix du modle (Courbe LIFT) bas sur un chantillon randomis. La courbe LIFT (ascenseur) est une mesure de lefficacit dun modle prdictif calcul comme ratio entre les rsultats obtenus avec ou sans le modle prdictif. LIFT mesure le degr auquel la prdiction du model est meilleur quune prdiction bas sur un chantillon randomis. Lindicateur gnr par la courbe LIFT est lAUL (Area under LIFT = aire sous la courbe): AUL montre de manire graduelle comment le modle distingue les vrais positifs dans la population totale. Une relation t tablis entre AUC et AUL donne par la formule suivante: AUL=p/2+(1-p)AUC Avec p la proportion de lvnement ( ex: churn) dans la population totale. 46. Les logiciels de datamining Domaine statistique Data mining Libre R Sipina Excel / OpenStat Tanagra Microsiris Weka commercial SAS Clementine (SPSS) SPAD Enterprise Miner (SAS) SPSS KXEN S-PLUS Intelligent Miner (IBM) XLSTAT SPAD Louvrier qui veut bien faire sont travail doit commencer par aiguiser ses instruments (Confucius, Entretiens) Critres de slection dun logiciel de Data mining: o Varit des algorithmes et models o Types et volume des donnes traitables o Prix (niveau et composantes) o Facilit de comprhension et simplicit. 47. Quand vous voyez un joueur accelerer cest quil accuser un rtard Johann Cruijff, Entraineur de lquipe de football dHollande