Transcript

Ecole Nationale Supérieure de Statistique et d’Economie Appliquée

Cours à l’intention des élèves Ingénieurs des Travaux Statistiques (ITS)

Sommaire

Definitions et Objectifs 1

Struture et activités d’un SIM2

Les études de marché3

La planification, le suivi et l’évaluation4

L’Intelligence économique5

La veille concurrentielle6

Les analyses statistiques et datamining7

Objectifs

Comprendre et remplir aisement les missions d’un SIM partant de la conception à la présentation des résultats en passant par l’analyse.

Conduire un diagnostique pertinent des services marketing et commercial basé sur des indicateurs clés de performance et proposer des solutions adéquats.

Connaitre et conduire les différentes études qualitatives et quantitatives adaptées à l’optimisation des variables du mix marketing d’une entreprise.

Connaitre les principales utilisations des outils statistiques et para-statistiques appliqués aux domaines marketing et commercial.

Maitriser les outils et techniques de datamining afin de prédire des phénomènes.

A la fin de ce cours chaque étudiant doit être capable de:

Définitions

Système d’Intelligence Marketing:C’est un ensemble de ressources (humaines et techniques) et deprocessus mis en place, dans une entreprise, pour obtenir des donnéesinternes et externes suivi d’une transformation (des données) enconnaissances afin d’en faire un outil efficace d’aide à la décision.

MOTS CLES:SIM, Business Intelligence, données, Informations, Intelligence, étude de marché,analyses de données, statistiques, datamining, indicateurs, échantillon, prédiction,modèle économétriques, veille stratégique & concurrentielle, planification, suivi etévaluation, CRM, analyses décisionnelles, apprentissage, matrice de confusion,courbe ROC, courbe LIFT, analyse SWOT, analyse PEST, réseaux de neurone,analyses discriminantes, sondage, erreur, marketing, IT/IS, scoring, arbre dedécision, échantillon test, échantillon de validation. Textmining, webmining

« ceux qui marchent que fort lentement peuvent avancer

beaucoup d’avantage, s’ils suivent toujours le droit chemin, que

ne font ceux qui courent, et s’en éloignent. »

(Descartes, Discours de la méthode)

Définitions (2)

Données: nombres, mots, évènements existant en dehors d’un cadre conceptuel deréférence; en conséquence, et en absence de contexte, les données prisesindividuellement n’ont pas une grande signification.Accumulation de données n’est pas information.

Informations : ensemble de données, validées et confrontées, qui commencent àavoir un sens après être mis dans un contexte.Accumulation d’information n’est pas connaissance.

Connaissance : ensemble d’informations interprétées par l’entreprise et luipermettant de prendre des décisions.Accumulation de connaissances n’est pas intelligence.

Intelligence : elle apparait lorsque les principes fondamentaux qui ont fondés la connaissance sont compris et automatisés afin d’en former un systême. Accumulation

de connaissance n’est pas vérité.

Le marketing: Ensemble des actions ayant pour objet l’analyse du marché présentou potentiel d’un bien ou d’un service et de mettre en œuvre les moyens permettantde satisfaire la demande ou, le cas échéant, de la stimuler ou de la susciter..

Pourquoi un Systême d’IntelligenceMarketing ?

1

SIM performant Entreprise compétitive

SIM performant=

Faire face aux 3x3 = 9 défis du triangle SIM

SIM

Etudes de marché

Analyses statistiques &Data Mining

Veille concurentielle

Planification &suivi

Intelligence Economique

guidance +Domination +Pro-activité

�Techniques d’études de marché�Outils statistiques et datamining�Méthodes de planification et

modélisation

oCroissance du revenuoClients satisfaitsoProduits adaptés…

2

décrire analyser prédire

Environnement des affaires

Environnement des affaires

Vision complète du

client

Vision complète du

client

Performance de l’entreprise

3

Pourquoi un Systême d’IntelligenceMarketing ? (2)

2-Où somme

nous?

5-Comment

êtreoptimal?

4-Où allonsNous?

3-Pourquoi sommes nous là?

6-Maturité du

SIM

1-Total

aveuglement

Analyses descriptives

Analyses exploratoires

Analyses prédictives

Analyses décisionnelles

Les 6 étapes du cycle de développement d’un SIM

Compétences requises

Composantes et compétences requises d’un SIM

SIM

ManagementEconomie

Statistique

Informatique

Marketing

Finance

P.S&EEtudes marché

Data Mining

Veilleconcur.

Marketing OO OOOO O OOO

Statistique OO OO OOOO O

finance OOO O O OO

Management OO O O O

Economie OO O O OOO

Sociologie O OO O O

Chef de division Business Intelligence

P.S&E

Etudes de Marché

Veille Concurrentielle

Data Mining

Planification, rapports d’évaluation et analyse financiers

Coordinateur des études de marché et géomarketing

Veille concurrentielle et Intelligence économique

Analyse des données, étude de prix, analyse de fidélisation et de rétention.

Composantes

Structure d’un SIM

Sources externes:•Media classique

•Internet•Publications•Événement

•Analyses sectorielles

DSI:•Datawarehouse

•Fichiers log

Finance:•Declaration de

revenu•Prix/couts

Dir. Com:•Rapport d’activité

•Force de vente•fournisseurs

Dir. Mkg:•Service client

•Base de données clients

Acquisition d’une multitude de données de différentes sources(collecte, évaluation et premier stockage)

Analyse de la concurrence et de l’environnement des

affaires.

Analyses des études de marché

dataminingAnalyse des ventes

et prévisions …

Rapport, diffusion et système de sécurisation de l’information.

1- identification des besoins

2- acquisition des données

3- traitement des données

4- diffusion et protection de l’information

Sources internes

Recherche d’informations

Architecture d’un Systême d’Intelligence Marketing moderne

Les defis d’unSIM

Pour chacun des 3 “facettes du marché” d’une entreprise, un SIM doitdécrire(évaluer), analyser(comprendre), et prevoire(anticiper).

Voici le formidable défi d’un SIM.

Environnement desaffaires

Vision 360°du client

Performance De l’entreprise

3 facettes du marché

X 3 facettes d’études

Les 3x3 = 9 defis d’un SIM

Le pentagoned’un SIM

Etudes de marché

Analyses statistiques &Data Mining

Veille concurentielle & stratégique

Planification &suivi

Intelligence Economique

Les activités d’un SIM:le BI pentagone

Panorama des rapports d’un SIM

rapports Importance

����

Fréquence

����

Forme

1 Daily Flash Très élevé Journalier Mail ou Excel

2 Flash-Alert élevé Flottant Mail

3 Competition Report Très élevé HebdommadaireExcel et

PowerPoint

4 Conjoncture Note Moyen Hebdommadaire Excel

5 Marketing Dashbord Très élevé Hebdommadaire Excel

6Customer Intelligence

ReportTrès élevé Hebdo/Mensuel Powerpoint

7Commercial Channels

Reportélevé Hebdo/Mensuel Powerpoint

8 Market Reports (1&2) élevé Flottant/Trimestriel Powerpoint

9Business Environment

Reportélevé Trimestriel/Semestriel Powerpoint

10Business Intelligence

Reportélevé Mensuel PowerPoint

les études de marché

Les questions relatives au marchéglobal: tendances, opportunité ,,,

Les questions relatives au marché direct : profiles, besoins… des clients

Les questions relatives aux concurrents:Part de marché, santé de la marque…

Les questions relatives aux variables du mix-marketing: les 4 P.

Les activitésdes études

de marché aidentà repondre à

4 types de Questions:

Les activitésdes études

de marché aidentà repondre à

4 types de Questions:

C’est le processus de collecte et d’analyse des donnéesconcernant le client et les canaux de vente afin d’avoir une bonnecompréhension du marché, d’anticiper son évolution afin d’agir.

les études de marché: les étapes

Analyse des données

Collecte des données

Conception de la méthode

Définition du problême

Apparition de la volonté de régler unproblême de la part d’un employé de

l’entreprise

Redaction du rapport

1. Type d’étude2. Outils de collecte3. Plan de sondage.

Interview Quantitatif (face à face, tel, internet,courrier…)

Interview Qualitatif (camera, dictaphone…)

Analyses Quantitatifs (univarié, multivarié)Analyses Qualitatifs (analyse de contenu,

semiologie, text mining)

PowerPoint, Word, Excel …

les études de marché: définition du problême

o Les études de marché naissent , quand dans l’entreprise, quelqu’un à un problème ouvoit une opportunité de recueillir des informations.

Par exemple:� Comment nos clients partagent leur revenu� Combien de clients voudront payer notre notre nouveau service � Par quel support de communication notre campagne publicitaire aurait un

impact significatif …

o Après avoir formuler ton problème, tu as besoin de formuler tes questions derecherche: quelles sont les questions auxquelles tu as besoin pour répondre auxattentes de ton coolaborateur et quelles sont les sous-questions impliquées.

o Avec les problèmes ou opportunités définis, la prochaine étapes est le choix de tesobjectifs pour ton étude de marché,

o Les objectifs d’étude, relaté ou déterminé par la formulation du problème, sontl’ensemble de ce à quoi vous devrai aboutir en fournissant les information nécessaire àla résolution du problème.

les études de marché: la conception

La conception fournie la colle qui maintient le projet d’étude cohérent. Elle est utilisée pour structurer l’étude, pour montrer comment les différentes parties

du projet seront agencées pour répondre à la question de recherche.

Type de recherche / d’étude Outil de collecte de données

Echantillonnage(comment selectionner les

enquêtés ?)

Mode de collecte(comment contacter ces

personnes ?)Population d’étude(quelles catégories de

personnes interroger ?)

Taille de l’échantillon(combien de personnes

contacter ?)

Quantitatif (questionnaire) Qualitatif (guide d’entretien) Observation (grille de notation)

Plan d’échantillonnage

Données sécondaires: étude précedentes, publications officielles…)

Données primaires: quantitatives (sondages), qualitatives (focus groupe), observation (in situ)

3

les études de marché:la taille de l’échantillon

Niveau de confianceMarge d’erreur 90% 95% 99%

1% 6.765 9.604 16.589

2% 1.691 2.401 4.147

3% 752 1.067 1.843

4% 423 600 1.037

5% 271 384 664

Table statistique pour la détermination de la taille optimal d’un échantillon

Si n/N > 15%, la taille finale de notre échantillon est obtenu de la manière suivante:1. n’=(n*N)/(n+N) où n=taille de l’échantillon et N=taille population totale2. La correction de Kish: si l’échantillonnage n’est pas aléatoire la marge d’erreur doit être multiplié par

1,43. En règle générale il faut interroger 100 personnes pour chaque groupe significatif de notre

population et 30 personnes par sous groupe4. Afin de faire face aux divers imprévus (non-reponses, questionnaires incomplets…) il faut ajouter 2% à

10% de la taille initiale de notre échantillon.

les études de marché: la taillede l’échantillon (exemple 1)

évaluation de nouveau service

�Niveau de confiance: 99% comme nous avons besoin d’une grande précision

�Marge d’erreur accepté: 2,5%. depuis que nous avons la liste des clients post-

payés (7000) cela nous permet d’effectuer un échantillonnage probabilistique.

�Nous estimons à 70% la proportion des clients post-payés qui utiliserons ce

service, nous n’avons donc pas besoin de la correction de Kish.

�La marge pour les divers problèmes est fixée à 5%

�La taille de l’échantillon est n= [(2,576^2)x0,7x0,3/(0,0025^2)] = 2.230

�Mais comme le ratio n/N = 31,86% > 15%, nous avons donc besoin de calculer

une taille finale

�Finalement, n’=[(2.230x7.000)/ (2.230x7.000) = 1691

les études de marché:la taille de l’échantillon (exempes)

Exemples2: Retail audit

�Niveau de confiance: 95%

�Marge d’erreur accepté: 2%, alors pour considérer la correction de Kish notre

erreur sera 1,43

�Marge pour divers problèmes: 3%

�Un recensement à révélé que le pays à un total de 56.630 point de vente de 4 types

et répartis sur 4 villes: Abidjan, Daloa, San-Pedro et Yamoussoukro

�La taille d’échantillon est: n=[(1,96^2)x0,5x0,5/ (0,0143^2)]x1.03=4.847

Poids dans le recensement Distribution de l’échantillon

Abidjan Daloa San-Pedro Yakro Total Abidjan Daloa San-Pedro Yakro Total

Convenance 13,0% 11,0% 9,4% 7,0% 40% 630 533 456 339 1958

épiceries 11,0% 9,5% 5,0% 4,0% 30% 533 460 242 194 1430

Centre Commerciaux 5,3% 5,0% 4,9% 0,3% 16% 257 242 238 15 751

Loisirs 7,0% 6,0% 0,4% 1,2% 15% 339 291 19 58 708

Total 36,3% 31.5% 19,7% 12,5% 100% 1760 1527 955 606 4847

Étude de marché : typologie et processus de l’échantillonnage

Avons nous une facilitéd’accès à notre cible?

La population est-elle assezétendue ?Sondage par quotas

Avons nous une base de données détailléessur l’ensemble de notre population?

Notre population est-ellesegmenté ?

Avons nous plusieursniveaux de regroupements?

Sondage aléatoire

Un échantillonnage alléatoireserait-il coûteux ?

Avons nous une base avec des informations de regroupement ?

Est-il coûteux de sonder par groupe ?

Sondage stratifié Sondage par grappe Sondage à plusieurs dégré

Connaissons nous la structure de notrepopulation?

Sondage sur site

Boule de neige, par convenance

Sondage trotoire

Pro

babi

listiq

ues

Non

pro

babi

listiq

ue

non

oui

les études de marché:panorama

Principaux étude de marché:� Test de produit/concept� Tracking study� Étude d’usage de produits/marque� Étude de pénétration publicitaire� Évaluation d’image de marque� Étude de segmentation� Étude d’évaluation média� Étude de part/taille de marché� Études de prix� Étude de positionnement� Étude de satisfaction client� Étude de faisabilité du marché� Retail audit� Outlet census…

la plannification, le suivi et l’évaluation

Quelle est le contexte du marché et commentpouvons nous établir les objectifs de l’entreprise ?

Comment exécuter les activités de l’entrepriseafin d’atteindre ces indicateurs de performance?

Quelles activités de l’entreprise peuventvaloriser l’image de l’entreprise sur le marché?

Quelles sont les facteurs internes et externesqui peuvent expliquer le gap entre Les réalisations et les prévisions?

La plannificationet le suivi aidenta proposer des

solutions telles que:

La plannificationet le suivi aidenta proposer des

solutions telles que:

C’est un ensemble d’activités réalisé dans l’intentionde planifier, prévoire et aussi suivre l’évolution des performances

de l’entreprise et de son marché.

la plannification, le suivi et l’évaluation: les méthodes

L’arbre des méthodologies pour la planification selon Amstrong

Sources de connaissance

Par jugements Par statistiques

Des autres propres univariées multivariées

oSondage d’opinionsoTest de marché

oOpinions d’expertsoOpinion des commerciaux

Analyse de séries temporelles

oRegressions linéaires oAutres models économetriques

la plannification, le suivi et l’évaluation: les méthodes

Il est possible de conduire une « enquête d’intention

d’achat » sur un échantillon de clients potentiels ciblés.

Cette approche suppose qu’avec les intentions d’achats

actuel, sur l’échantillon, nous pourrons estimer le

niveau d’achat future.

Totalement impossible 0%

Très faible probabilité 10%

Faible probabilité 20%

Peu probable 30%

Probabilité moyenne 40%

Un peu bonne probabilité 50%

Bonne probabilité 60%

Probablement 70%

Fortement probable 80%

Quasiment sure 90%

Totalement sure 100%

Avantages :

� Fournie des informations détaillées

� Fournis une précision sur la pensé des clients

� Peu être utilisé pour de nouveaux produits/SAV

Inconvénients :

� Les intentions peuvent ne pas être actuelles

� Couteuse en terme de finance et de temps

� Utilisé uniquement lorsqu’on a une bonne

définition des clients potentiels

Intention d’achat

la plannification, le suivi et l’évaluation: les méthodes

Opinions d’experts Marché test Opinion des commerciaux

Dans cette méthode, connu sous

le nom de Delphi, un

questionnaire est envoyé à des

experts en dehors de

l’entreprise. Les résultats de

leurs réponses sont synthétisés

et renvoyées avec les mêmes

questions. On répète cela

jusqu’à ce qu’ils trouvent un

consensus.

Cela implique le lancement du

produit sur une petite partie

du marché et de supposer que

le produit se comportera de la

même manière sur l’ensemble

du marché.

L’échantillon peut être

géographique ou socio-

démographique.

L’estimation peut aussi venir de

la force de vente qui peut

estimer les ventes sur leur

territoire respectif. Ils sont,

après tout, les membres de

l’entreprise qui sont les plus

proches des clients donc

peuvent bien estimer la

demande probable.

Avantages :

� Estimateurs moins enclin

aux pressions de groupe

� Besoin d’avis de personnes

extérieurs

Inconvénients :

� Souvent difficile de trouver

un expert de nouveau prod.

� Couteuse en terme de

finance et de temps

Avantages :

� Permet une évaluation des

effets du plan marketing

� Fournis des information

réalistes

Avantages :

� Les vendeurs connaissent

bien les clients, les produits

et les concurrents

Inconvénients :

� Alerte les concurrents sur

les plans de l’entreprises

� Couteuse en terme de

finance et de temps

Inconvénients :

� Les vendeurs sont investit

d’intérêt donc peuvent faire

des estimations biaisés

� Risque de mauvaise

appréciation du marché

L’intelligence économique

Quelles sont les facteurs externes qui peuventimpacter l’activité de l’entreprise?

Quelles sont les potentiellesmenaces et opportunités du marché ?

Comment nos activités peuvent impacter l’évolutiontechnologique ou comportementale de la population ?

Quelles sont les réalités de notre activitédans d’autres pays ?

Afin de repondreà 4 types problemes:

Afin de repondreà 4 types problemes:

C’est la collecte, l’analyse et le partage de toute l’informationsur l’environnement macro-économique afin d’anticiper

les menaces et d’exploiter les opportunités.

Deux types

d’activités

Suivre l’evolutionstructurelle du macro-environnement

Anticiper les menaces et opportunités

L’intelligence économique: les raisons

Les raisons pour la recherche d’information

�La législation et la réglementation: nationales et internationales

�Les orientations en matière sociale: aspects sociologique de l’environnement

�Le contexte politique national et international

�Les tendances économiques: PIB, RN, IPC, IPI, Taux de croissance

économique…

�La concurrence: partenariat, communication, sources d’avantage compétitif…

�La propriété intellectuelle et les brevets

�Les clients : exigences, souhaits, habitudes, profil …

�Les développements technologiques

�Le marché mondial: évolution technologique…

L’intelligence économique: les outils

Les outils d’intelligence économique

Les moteurs de recherche/texte libres:www.altavista.com www.google.com...

Les méta moteurs de recherche:

www.ixquick.com ,http://vivismo.com/

Les méta sites/portails:

www.eevl.ac.uk ,www.analysis.com/default.asp?mode=article&ileftAr

tic=288

Les news group/ listes de diffusion d’e-mail:

www.liszt.com, www.freepint.com

Les alertes:

http://standard.nothernlight.com/cgi-bin/cl_cliplist.pl

www.kartoo.comwww.googlealerte.com...

Les agents intelligents:

www.strategicfinder.com

Les web invisibles:

www.invisibleweb.comwww.thebighub.com

Les web sémantique: outils en construction capable de comprendre les langues humaines

Les robots:

robot tropes…

La veille concurrentielle & stratégique

Quelle est le profile des concurrents: positionnement…

Quelles enseignement tirer des activités des concurrents

Comment établir une analyseSWOT pour chaque concurrents

Que veut et que peut faire chaqueconcurrent sur le marché

C’est la collecte et l’analyse des données des concurrents afind’appréhender leur position, leurs performances, leurs capacités

et leurs intentions.

Deux types d’activités

Pister les activités et les performances des concurrents

Anticiper les actions des concurrents

Afin de repondreà types 4 de problemes:

Afin de repondreà types 4 de problemes:

La veille concurrentielle & stratégique

Les 10 commandements de l’intelligence économique et de la veille stratégique

La veille concurrentielle & stratégique: le fonctionnement

Les sources d’informations

Internes& Externes

Formelles & Informelles

Structuré &Non structurée

La nature de l’information

Données etinformations

L’information open source ( blanche)Ce sont les informations disponibles au public: média

traditionnels, internet, publications industrielles et d’entreprise.

L’information humaine (informelle)Ce sont les informations fournies directement via la relation humaine (partenaires, clients…).

L’information traquée ( grise)Ce sont les informations disponibles par nos propres observations et l’espionnage « propre »: foire commerciales, analyses des données en circulation…)

Les données, internes ou externes, que nous recueillons sont à la fois structurées/non structurées et formelles/informelles

Les données externes selon leur mode de recueillement sont classées en trois groupes: l’information open sources (blanche), l’information humaine et l’information traquée (grise)

La veille concurrentielle & stratégique:les sources d’informations

Les informations open source ( blanches)

ofaits, opinions et analyses du macro environnementoCaractéristiques du marché et des concurrents

oTaille et croissance du marchéoPart de marché de nos concurrentsoInnovation en produits et services chez nos concurrents

Conférences sur les activités marketing et les projets de recherche (approche & outils) organisées dans le secteur.

oRésultats financiers: revenu, EBIToStructure et membre des compagniesoRésultat techniques et perspectives

Certaines informations sur vos concurrents circulent toujours sur internet

Les journaux et les magazines

Publications industrielles et des entreprises:

Conférences et séminaires:

Rapports annuels des concurrents:

Sites internet, blog et réseaux sociaux

La veille concurrentielle & stratégique: sources d’informations (2)

Les informations traquées (grises)

Évènements

Produits/ServicesIl est important pour l’équipe d’intelligence Marketing de posséder ou d’utiliser les produits des concurrents afin d’en tirer le maximum d’informations pour l’élaboration des stratégies concurentielles.

D’autres

Les concurrents ont plusieurs points de vulnérabilités que nous pouvons exploiter:�Lors des voyages, dans les hôtels et restaurants: l’utilisation des ordinateurs portables et des conversations …�Les anciens disque dur: quand ils ne sont pas détruit peuvent souvent contenir des informations confidentielles…�Les stagiaires, les agents de sécurité et de netoyage…

Par la participation aux évènements tels que les foires commerciaux et les salons, en visitant les stands des concurrents nous pouvons avoir des informations sur eux et leurs nouveaux produits/services.N.B: pendant ces évènements les concurrents ont généralement deux points de faiblesses: les jeunes ou nouveaux travailleurs qui ne font pas attention à certaines confidentialités et le staff technique qui souvent détail trop l’explication des produits et services.

La veille concurrentielle & stratégique: les sources d’informations (3)

Les informations humaines (informelles)

Les employés de l’entreprise qui sontspécialistes en quelques questions

�Le staff du service SIM�La force de vente�Le staff du commercial marketing�Le staff du sce de communication interne�Le staff supply chain�Les autres staff

Les observateurs internes:

Les personnes en dehors de la compagnie qui ont des

informations sur la concurrence.� Les distributeurs� Les clients� Les fournisseurs� Les médias� Les concurrents

Les personnes en dehors de l’entreprise qui sont spécialistes

de certains points�Les agences de recherches

�Les consultants�Les membres d’académies

Les observateursexternes:

D’autres observateurs:

1

2

3

Les analyses Statistiques et Datamining

1-Comment modeliser les differentes couches de notreclientele,

2- Comment prédire les actionsde notre clientèle.

3- Comment optimiser la valeur de nos produits proposés sur le marché.

1-Comment modeliser les differentes couches de notreclientele,

2- Comment prédire les actionsde notre clientèle.

3- Comment optimiser la valeur de nos produits proposés sur le marché.

C’est un ensemble d’activités utilisant les techniques et les Outils statistiques afin de detecter l’information critique dans

les base de données clients via un processus analytique.

�Analyse du revenu�Profiling et classification des clients�Analyse de l’attrition et de la fidelité�Analyse de la valeur du client

Le datamining : Définitions

« L’exploration et l’analyse, par des moyens automatiques ou semi-automatiques, d’un

large volume de données afin de découvrir des tendances ou des règles »

Michael J. & A. Berryc’est : « torturer l’information disponible jusqu’à ce qu’elle avoue »

Dimitris Chorafas

Data mining = fouille des données = forage des données

DATAMINING

STATISTIQUE

Le datamining:1. Traite plus de données2. S’applique à une

population entière3. Travaille sur des

données existante4. Orienté pratique5. Compréhensibilité des

modèles plutôt que précision

6. Modèles localisés

La statistique:1. Traite moins de

données2. S’applique à un

échantillon représentatif3. Recueille des données

avant le travail 4. Orienté théorie5. Précision des modèles

plutôt que Compréhensibilité

6. Modèles généralisés

techniques statistiquesLe datamining utilise des techniques statistiques

Positionnement des statistiques par rapport au datamining

Donnéesanalysées

modèleD’équations

Associations

Ensembles flous

discriminante

logistique

rétropopagation

Analyselogique

TechniquesDe projection

Analyses factorielles

Analyses De typologie

ArbresDe décisions

TechniquesDe regression

RéseauxDe neurones

Nuées dynamiques

Classification hiérarchique

Moteur bayésien

Arbres de décision

Algorithme génétique

Cartes de Kohonen

Règles

Techniques Statistiques

Techniques Datamining

Le processus de datamining

1Définition du

problème

2Extraction

des données

3Analyse

préliminaire des données

4Partition de l’échantillon

5Construction du modèle

6Comparaison des modèles

7Choix et

déploiement du modèle

LE PROCESSUS D’UN PROJET DE DATAMINING

Le processus de datamining

1Definition du

probleme

2Extraction des

données

3Analyse

préliminaire des données

classification, prédiction, règle d’induction…

L’objectif est de clairement comprendre les problèmes, à résoudre, de l’entreprise et à convertir cela en un problème de datamining:

classification, prédiction, règle d’induction…

techniques de sondage.

Extraction des données à partir des base de données internes (datawarehouse, datamart, etc)avec ou sans échantillonnage avec les

techniques de sondage.

Cette phase à 2 objectifs: � Détecter les outliers et les valeurs atypiques

� Déterminer et sélectionner les variables significatives

Pour cela, selon les types de variables (continus, discrètes), nous utilisons les techniques de statistiques descriptives et inférentielles:

1. Graph: histogrammes, boite à moustache, log(odd ratio)2. Statistiques descriptives: tendance centrale, dispersion, position…

3. Tests statistiques: T-test, F-test, Chi2, Kruskal-Wallis, etc

Le processus de datamining: partition de l’échantillon

70%

30%

1.Analyses exploratoire

2.Construction du modèle

3.Comparaison des modèles

Le processus de datamining: construction du modèle

Les techniques utilisées dans le datamining afin d’exécuter différentes activités sont variables et peuvent être partagées en deux catégories:

Les variables de notre étude sontsubdivisées en 2 groupes: les variablesexplicatives et une (ou plusieurs)variable(s) dépendante(s).Le but est de spécifier la relationexistante entre les variables explicativeset la(les) variable(s) dépendante(s).

Techniques:• Arbres de décision• Analyses discriminantes linéaires• Régression logistique• Réseaux de neurones• Support Vector Machine…

Toutes les variables sont traitées de lamême manière, il n y a pas dedistinction entre les variablesexplicatives et les variablesdépendantes,Le but peut-être aussi général commela réduction des données ou spécifiquecomme la classification.

Techniques:• Analyse de segmentation• Kohonen-SOM• Analyses factorielles• Règles d’association…

Méthodes supervisées Méthodes non-supervisées

Le processus de datamining: choix du modèle

Les modèles optimaux sont choisis en comparant les erreurs de prévision des différents modèles sur l’échantillon test.

Les modèles de Datamining sont très diférent en termes d’input comme d’output, ils ne peuvent donc être comparé via des outils tel que le coefficient de correlation,

Plusieurs techniques sont utilisées afin d’estimer les erreurs: Test de données, cross-validation ( avec plusieurs variantes K-fold, leave-one-out…), Boostrap, etc.

mais à la fin de cette étape, nous devons toujours remplir une matrice de confusion.

La seconde étape consiste à l’évaluation de l’efficacité de nos modèles via des techniques de scoring: courbe ROC, courbe LIFT, etc.

Cross-validation:Détermine comment les résultats d’unmodèle peuvent être généralisé sur toutela base. Pour cela on applique plusieursfois le modèle sur des sous-échantillonset on retient la moyenne des paramètreobtenus après chaque round.

Boostrap:

Utilisé quand la base de données estassez petite pour être subdivisé. Onutilise des remplacements d’individusdans la même base pour en former denouvelles auxquelles on applique lesmodèles. On compare donc lesmoyennes des paramètres.

datamining:choix du modèle (la matrice de confusion)

Classification prédictive

clas

se r

éelle

Sensitivité= A/(A+B)Spécificité=D/(C+D)

POSITIF NÉGATIF Total

POSITIF vrai positif (A) faux négatif (B) A+B

NÉGATIF faux positif (C) vrai négatif (D) C+D

Total A+C B+D N=A+B+C+D

VPP=A/(A+C)VPN=D/(B+D)

TAUX DE SUCCES=(A+D)/N=ℰℰℰℰTAUX D’ERREUR=1- ℰℰℰℰ

La sensitivité est la capacité du

modèle à détecter correctement un

positif

La spécificité est la capacité du

modèle à détecter correctement un

négatif

La valeur prédictive positif (VPP) est la

proportion des vrais positifs parmi les

positifs du modèle

La valeur prédictive négatif (VPN) est la proportion des vrais négatifs parmi les

négatifs du modèle 1

23

datamining: choix du modèle (courbe ROC)

La courbe ROC (receiver operating Characteristic = récepteur des caractéristiques

opératoires) est un graph qui représente:

� La probabilité de classifier correctement les individus positifs (vrais positifs)

� La probabilité de classifier les incorrectement les positifs (faux positifs)

Le meilleur modèle est celui qui

nous permet de concilier le

maximum de vrais positifs et le

minimum de faux positifs.

L’indicateur généré par la courbe

ROC est l’AUC (Area under ROC =

aire sous la courbe). Plus l’AUC est

grand et plus le modèle est

meilleur. (Lim AUC=1)

Le processus de datamining: choix du modèle (Courbe LIFT)

basé sur un échantillon randomisé.

La courbe LIFT (ascenseur) est une mesure de l’efficacité d’un modèle prédictif

calculé comme ratio entre les résultats obtenus avec ou sans le modèle prédictif.

LIFT mesure le degré auquel la prédiction du model est meilleur qu’une prédiction

basé sur un échantillon randomisé.

L’indicateur généré par la

courbe LIFT est l’AUL (Area

under LIFT = aire sous la

courbe): AUL montre de

manière graduelle comment le

modèle distingue les vrais

positifs dans la population

totale.

Une relation à été établis entre AUC et AUL donnée par la formule suivante:

AUL=p/2+(1-p)AUC

Avec p la proportion de l’évènement ( ex: churn) dans la population totale.

Les logiciels de datamining

Domaine statistique Data mining

Libre

R Sipina

Excel / OpenStat Tanagra

Microsiris Weka

commercial

SAS Clementine (SPSS)

SPAD Enterprise Miner (SAS)

SPSS KXEN

S-PLUS Intelligent Miner (IBM)

XLSTAT SPAD

« L’ouvrier qui veut bien faire sont travail doit commencer

par aiguiser ses instruments »

(Confucius, Entretiens)

Critères de sélection d’un logiciel

de Data mining:

o Variété des algorithmes et

models

o Types et volume des données

traitables

o Prix (niveau et composantes)

o Facilité de compréhension et

simplicité.

“Quand vous voyez un joueur accelerer c’est qu’il à accuser un rétard”

Johann Cruijff, Entraineur de l’équipe de football d’Hollande


Recommended