Big Data, Big Business. Vraiment ?

Remerciements

En préambule à ce mémoire, nous tenons à remercier Monsieur Patrice Guillon, notre

Directeur de mémoire, qui s’est toujours montré à l’écoute et disponible.

Nous adressons également nos plus sincères remerciements aux personnes qui nous

ont apporté leur aide et qui ont contribué à l’élaboration de ce travail de recherche, à

savoir :

- Philippe KUHN, Business Développeur Veille & Innovation chez Digimind,

- Henri ISAAC, Professeur associé à l’université Paris-Dauphine,

- Luc BYHET - Chargé de l’innovation & stratégie marketing chez Commerce Guys,

- Julien MORESCHETTI - Ingénieur avant vente & Architecte solution chez IBM

- Bruno DA COSTA OLIVEIRA - Chargé de l’innovation produit chez MYTF1 VOD

- Thomas Chiron - Directeur de production chez Napoléon production

- Yoan Cabidoche - Data Analyst chez Carat (Groupe AEGIS Media)

Table des matières

introduction ..................................................................................................................... 1

I. Le marché de la donnée ........................................................................................... 5 A. Les différents types de données .............................................................................. 5

1. Les données internes et externes ..................................................................................... 5 2. Les données structurées et non structurées ................................................................... 11

B. L’enjeu de l’analyse des données internes ........................................................... 13 1. Les pratiques actuelles ................................................................................................... 13 2. Les moyens de demain ................................................................................................... 16

II. Big Data .................................................................................................................. 20 A. Caractéristiques et fondements du Big Data ......................................................... 20

1. Le Volume ....................................................................................................................... 20 2. La Variété ....................................................................................................................... 25 3. La Vélocité ...................................................................................................................... 29 4. La Véracité ...................................................................................................................... 33

B. Facteurs clés de succès .......................................................................................... 35 1. Une méthodologie éprouvée ........................................................................................... 36 2. La stratégie de recrutement ............................................................................................ 41

III. Big Data, Big business ? ...................................................................................... 43 A. Maîtriser son marché et sa marque ........................................................................ 43

1. Connaître son marché .................................................................................................... 43 2. Connaître sa marque ...................................................................................................... 44 3. Anticiper des évènements .............................................................................................. 45

B. Connaître sa clientèle .............................................................................................. 46 1. Une granularisation poussée du profil client ................................................................... 46 2. Le Community Management et la méthode de l’embasement ....................................... 48

C. L’avènement du “Marketing on Demand” .............................................................. 50 1. Les outils de recommandation ........................................................................................ 50 2. Vers une “boutique on demand” ..................................................................................... 54 3. Un marketing prédictif ..................................................................................................... 55 4. Le Big Data et la recherche de la Qualité ....................................................................... 58

IV. Difficultés et dérives du Big Data ....................................................................... 59 A. Un principe de prédiction remis en cause ............................................................. 59

1. Les techniques prédictives encore peu rentables ........................................................... 59 2. Une durée d’intégration plus longue que prévue ............................................................ 61 3. Une veille améliorée par l’arrivée du Big Data ................................................................ 62

B. La difficile conduite du changement au sein de l’entreprise ............................... 64 1. Les entreprises ne sont pas prêtes ................................................................................. 64 2. Les organisations internes ne sont pas prêtes ............................................................... 66

3. Le problème majeur que représente la qualité de la donnée ......................................... 67 C. Le Big Data, c’est pour quand ? ............................................................................. 68 D. Cadre juridique et réveil de l’internaute ................................................................. 70

1. Le rôle fondamental de l’internaute ................................................................................ 71 2. Les gouvernements à la croisée des chemins ................................................................ 73

Conclusion .................................................................................................................... 76

1

introduction

L’avènement du numérique, accompagné des nouvelles technologies mobiles a

considérablement augmenté la quantité et la nature des données qui circulent au sein

de l’écosystème numérique. A titre d’exemple, 90% des données dans le monde ont été

créées au cours des deux dernières années. Les données sont partout, des capteurs

utilisés pour collecter les informations climatiques, des messages sur les sites de

médias sociaux, des images numériques, des signaux GPS de téléphones mobiles...

Elles sont aujourd’hui la représentation mathématique ou statistique d’une activité

opérée par un internaute, un détenteur de Smartphone, d’une TV connectée ou tout

autre appareil relié à internet. Elles sont le reflet de sa personnalité, de ses usages, de

ses préférences d’achats, de ses goûts et de ses envies.

Cependant, le terme est vaste et la définition que l’on a des data est souvent floue.

Mais alors, de quoi parle-t-on exactement ? Quelles sont les données à disposition des

entreprises et quelle est leur maturité par rapport au marché de la data ? De grands

acteurs du numérique comme IBM ont, par le passé, apporté bon nombre de solutions

technologiques qui permettent aujourd’hui aux entreprises d’exploiter des données.

Nous pensons notamment aux outils d’informatique décisionnelle, tels que la Business

Intelligence1 qui, depuis le début des années 2000, permet aux entreprises de connaître

et de comprendre les ressorts de leurs activités (logistique, commerciale, management

de la qualité, etc.).

L’arrivée prochaine de “l’internet des objets” (Google Glass, montre numérique, etc.) et

la démocratisation massive des plateformes sociales (Facebook, Twitter) va pourtant

constituer une étape supplémentaire dans l’exploitation des données. Il s’agira cette

fois-ci de récolter, de traiter et d’exploiter des données créées par l’internaute sur des

territoires étrangers aux marques. Et, alors que des outils comme la Business 1 Désigne les moyens, méthodes et outils qui permettent de récolter, traiter et modéliser les données de l’entreprise en vue d'offrir une aide à la décision et de permettre à un décideur d’avoir une vue d’ensemble de son activité.

2

Intelligence montrent actuellement leurs limites quant à l’exploitation de ces nouvelles

données (commentaires, avis sur les forums, etc.), comment les entreprises vont-elles

opérer cette transition qui s’annonce de toute évidence complexe ? Ces changements

imposent aux entreprises de trouver de nouvelles solutions pour faire face à cette

prolifération des donnés. Lesquelles ?

Une des solutions évoquées depuis quelques mois porte le nom de “Big Data”2.

Véritable Buzzword de l’année 2013 - Indice 1003 selon Google Trends - le Big Data est

attendu par les acteurs du numérique comme un véritable messie. Il est, à ce titre,

supposé répondre à l’intégralité des enjeux du marché de la donnée, à savoir, la

volumétrie, le temps réel, la variété ou encore la véracité des données. Alors, quelles

sont véritablement les solutions apportées par le Big Data et quelles sont les principales

différences avec les systèmes actuels ? Comment les entreprises vont-elles pouvoir

mettre en place des architectures capables de supporter des téraoctets de données

sans sombrer dans un marasme géant ? De nombreux intervenants nous ont aidé à

répondre à ces questions, qui sont pour la plupart des explications techniques que nous

avons tenté de vulgariser au maximum. De la même manière, nous avons souhaité

pointer les principaux facteurs clés de succès du Big Data, car, il est clair que, s’il

permet de répondre aux défis du numérique, la transition s’annonce ardue. Elle semble

pourtant nécessaire.

En effet, tout l’intérêt du sujet repose sur les perspectives et les opportunités induites

par le Big Data, qui promettent d’ailleurs d’être colossales. Le marché mondial du Big

Data est évalué à 24 milliards de dollars à l’horizon 20164. On parle également d’une

croissance annuelle de l’ordre de 31,7%. La principale raison de ce succès réside dans

la diversité des usages rendus possibles par le Big Data. En exploitant au mieux les

données, les entreprises s’offrent de nouveaux leviers de croissance, mais également

2 Le Big Data peut être défini par sa capacité à traiter l’intégralité des données du web et de l’entreprise. Il apporte également des solutions pour résoudre les problématiques de volumétrie et de vélocité. On entend par vélocité la capacité des entreprises à collecter, analyser et exploiter les données en temps réel. 3 le nombre 100 correspond au volume de recherche maximal 4 http://www.zdnet.fr/actualites/big-data-un-marche-de-24-milliards-de-dollars-en-2016-39786119.htm

3

de rentabilité ou de qualité. Des secteurs porteurs comme la criminologie ou la

médecine ont déjà adopté le Big Data. Alors, comment la donnée a-t-elle redéfini les

usages de secteurs aussi complexes ? Une partie de notre travail de recherche a

consisté à comprendre en quoi le Big Data représente une véritable rupture dans les

métiers du marketing. En effet, la granularisation5 du client a d’ores et déjà redéfini et

rendu obsolète les principes de la moyenne ou du modèle Pareto6. De ce fait, quels

sont les stratégies et les usages marketing qui pourront être mis en place grâce à ce

travail sur la donnée ? S’agit-il vraiment d’une révolution, et, existe-t-il des points

d’ombre au Big Data ?

En effet, bien que les experts soient unanimes sur sa capacité à modifier notre vision du

client ainsi que l’ensemble de nos méthodes d’analyse, nous avons souhaité en

apprendre davantage sur les difficultés réellement rencontrées par les entreprises.

Quelles sont, en ce sens, les raisons qui pourraient nous pousser à considérer

davantage le Big Data comme un paradigme et non plus comme la révolution

attendue ? Derrière ce travail d’évangélisation, il existe effectivement de vraies zones

d’ombre, que ce soit en termes technologiques, organisationnelles, et bien sûr

juridiques. Remettent-elles pour autant en cause l’existence du Big Data ou vont-elles

simplement retarder son application ? A partir des éléments que nous avons recueillis, il

est probable que cette deuxième hypothèse soit la plus probable.

Pour répondre à cette problématique, des ouvrages comme «Big Data Now» et «Big

Data : A revolution that will transform how we live, work and think», ainsi que de

nombreuses études numériques (livres blancs, études de marché) et enfin un grand

nombre d’articles de la presse généraliste et spécialisée nous ont permis d’appréhender

les grands lignes du sujet. Nous avons ensuite assisté, lors de la deuxième étape de

recherche, à deux conférences, EBC et Athènes. Elles nous ont apporté des

connaissances ainsi qu’une vision plus stratégique et opérationnelle des enjeux du Big

Data associés aux métiers du marketing.

5 pratique qui consiste à segmenter au maximum un contenu ou un échantillon 6 Modèle qui soutient que 20% des causes produit 80% des effets.

4

C’est pourtant notre troisième phase de recherche qui fut la plus fondatrice, à savoir les

entretiens avec Luc Byhet, Henry Isaac, Philippe Kuhn, et Julien Moreschetti, tous en

contact direct ou indirect avec les vraies problématiques métiers qu’impliquent le Big

Data. D’autres intervenants, comme Bruno Da Costa Oliveira, Thomas Chiron ainsi que

Yoan Cabidoche, nous ont permis à travers leurs métiers respectifs, d’affiner notre

problématique et de partager leurs visions du Data Management.

5

I. Le marché de la donnée

A. Les différents types de données

Les sources s’accordent toutes sur un même point, une « donnée » peut être définie, au

sens propre du terme, comme un élément d’information qui sert de point de départ à un

raisonnement. Les révolutions technologiques successives ont, depuis, mis en avant

une autre définition. Une donnée est principalement définie comme la représentation

d’une information en vue d’un traitement automatique.

Aujourd’hui, les données représentent la brique de base des sociétés de l’information.

Alors que la loi de Moore7, qui prédisait un dédoublement de la capacité de calcul des

ordinateurs tous les 18 mois, touche à sa fin, il est temps de reconsidérer l’intégralité

des enjeux que représentent les « données » pour les entreprises.

Dans cette partie, nous tenterons d’effectuer un audit des données que les entreprises,

dans leurs globalités, possèdent pour faire fructifier leurs business.

1. Les données internes et externes

a. Les données internes

i. Définition et usages

Les données internes portent sur l’activité de l’entreprise. Elles relèvent de son propre

écosystème et englobe l’intégralité de la chaîne de production, de la supply-chain à la

production, en passant par les ventes. Elles peuvent être qualitatives ou quantitatives.

En mettant en place des outils de “collecte”, une entreprise peut connaître l’état de son

business, ses facteurs clés de succès, ses sources d’améliorations et les leviers

d’actions à sa disposition. Une première approche consiste à mieux connaître ses 7 http://www.generation-nt.com/fin-loi-moore-actualite-1717372.html

6

clients, ses concurrents, son marché, ses résultats et sa chaîne d’opération. Cette

connaissance se caractérise, par exemple, par la mise en place de KPI (Key

Performance Indicator) qui renseigne sur l’atteinte des objectifs et la bonne santé de

l’activité. Chez ShowRoomPrivé.com par exemple, l’utilisation du NPS (Net Promoter

Score) représente la clé de voute de l’activité. Ce KPI permet de diagnostiquer la fidélité

et le taux de recommandation client. L’entreprise peut ainsi identifier les promoteurs ou

ambassadeurs sur lesquels la marque peut s’appuyer pour lancer une opération de

communication, augmenter sa viralité, et bien d’autres usages.

Philippe KUHN, Business développeur veille & innovation chez Digimind, nous en dit

plus sur les usages actuels associés au traitement des données.

“Une entreprise est aujourd’hui capable de récolter suffisamment de données pour

établir un Dashboard de ses ventes (géolocalisé, par produit, etc.), de ses retours clients

(répartition des retours et statistiques associées), de sa chaîne logistique, etc. Elle est

ensuite en mesure de proposer des solutions pour augmenter la qualité de son produit

ou de son service.” 8

Pour répondre à ce besoin, de nombreux outils de CRM (Customer Relationship

Management) proposent des solutions modulables et adaptées à chaque secteur

d’activité. Au cours de ces dernières années, l’accès à ce type de solutions est

d’ailleurs devenu suffisamment simple et abordable pour que le marché français

atteigne les 5 milliards d’euros en 20139. Une société comme Sales Force propose

l’accès à ses services sur la base d’un abonnement mensuel et en mode SaaS10.

Thomas Chiron, Directeur de production chez Napoléon (Architecture de l’information et

optimisation UX), nous explique quels sont les apports de la data dans le domaine de la

conception et de l’expérience utilisateur.

8 Entretien Philippe KUHN - Business Développeur, veille & innovation chez Digimind - 20 mai 2013 9 http://www.xerfi.fr/etudes/1sae18.pdf 10 L’appellation SaaS (Software as a Service) caractérise une solution logicielle installée sur un ordinateur distant dont l’utilisateur peut bénéficier depuis n’importe quel appareil, et depuis n’importe où.

7

“Les statistiques de navigation de l’internaute (parcours client, taux de rebond...) sont

structurantes sur ce qu’il faut améliorer sur une plateforme Web ou mobile. Le temps où

les plateformes se créaient uniquement sur la base de l’intuition est révolu. Aujourd’hui,

les statistiques aident à définir les grandes lignes de ce que sera ou ne sera pas une

plateforme. Cela peut passer par la valorisation d’une catégorie au fort taux de

transformation mais qui génère pourtant peu de trafic à cause de son manque de

visibilité... Beaucoup d’usages sont possibles”. 11

L’amélioration des sites Web ou applications à partir des données de parcours clients

(les plus visitées, durées, parcours détaillées menant à l’achat, taux de rebond) est une

des solutions qui permettent de réduire au maximum la prise de risque.

Ce constat est également partagé par Philipe Kuhn.

“La conception d’une bonne application nécessite de bien connaître ses clients. La

navigation au sein d’une plateforme et l’usage proposé aux consommateurs doit être en

accord avec leurs niveaux d’expertise sur les nouvelles technologies. Une application

comme MYTF1 VOD doit respecter l’identité de ses clients pour adapter l’interface

produit. Cette connaissance passe aujourd’hui par la récolte de données”. 12

Le marché est suffisamment mature pour proposer des solutions techniques adaptées à

chaque secteur d’activité. Parmi eux, on trouve Google Analytics qui propose des

moyens simples permettant à toutes entreprises disposant d’une plateforme Web de

connaître les statistiques liées à son activité.

Une autre approche porte sur les opportunités d’anticipation et de prévision qu’offrent

les données. En effet, sur la base d’une analyse historique des données (baisse des

ventes, modification du comportement utilisateur), une entreprise peut faire le choix de

privilégier un scénario plutôt qu’un autre, et ainsi occuper un nouveau territoire de

marque et/ou faire évoluer son offre. Une entreprise qui constate une baisse régulière 11 Entretien Thomas Chiron - Directeur de production - Napoléon production - 17 mai 2013 12 Entretien Phillipe Kuhn - Responsable Veille - Digimind - 22 mai 2013

8

en valeur d’un de ses segments de vente sera en mesure d’adapter son positionnement

et son offre par la même occasion.

Au niveau marketing, Philipe Kuhn, confirme l’utilité de cet usage.

“L’efficacité des campagnes marketing passe par une analyse segmentée de ses

consommateurs et de leurs habitudes d’achat sur la base des données récoltées. Un

service marchand récolte ainsi un nombre de renseignements suffisant sur ses

utilisateurs pour mieux connaître sa communauté et ainsi développer une stratégie

marketing cohérente”.

Sur le marché de l’analyse de la donnée interne, les contraintes de budget ou

d’accessibilité se sont considérablement réduites avec le temps. Preuve en est, ¾ des

CMS13 disposent de Back-office qui offrent des Dashboard complets regroupant toute

l’activité de la plateforme, qu’elle soit commerçante ou non. C’est là qu’intervient la

Business Intelligence.

ii. La Business Intelligence, l’analyse des données internes

Le traitement des données n’est pas une discipline nouvelle, des acteurs tels qu’IBM,

Microsoft, SAP ou Oracle se bousculent pour proposer des solutions informatiques sur

le marché de l’informatique décisionnelle, en constante évolution depuis les années

2000. L’objectif de la Business Intelligence est de regrouper et agréger de multiples

sources internes de l’entreprise telles que des données financières et comptables, des

données clients issus d’un CRM, des données émanant de la production, des données

RH, etc.

Elle restitue par la suite les résultats sous forme d’un Dashboard regroupant les

chiffres-clés. La BI permet de faire des regroupements à différents niveaux

13 Un CMS (Content Management Systems) ou système de gestion de contenu est destiné à la conception et à la mise à jour dynamique de site web ou d'application multimédia.

9

géographiques d’une usine local, en passant par la gestion d’une région, pour aller

jusqu’au management de filiales à l'international.

Les résultats peuvent se générer en temps réel. Ils sont comparables à des objectifs

fixés par le Top Management et permettent de suivre l’évolution d’un indicateur dans le

temps. La BI peut gérer toutes les fonctions internes au sein d'une entreprise. Des

clients, au marketing, en passant par les ventes, les produits, les services, la

communication, ou les promotions, il offre une vision opérationnelle.

Philippe Minier, Directeur des Systèmes d’Information de l’entreprise Kaufman&Broad,

spécialiste en promotion immobilière, explique les raisons qui l’ont poussé à adopter

des outils de BI :

“Les salariés passaient beaucoup de temps à faire des regroupements de tableaux

Excel divers pour prendre des décisions. J’ai donc souhaité réduire le temps

d'élaboration des Reporting afin de pouvoir gérer des volumes importants de données

tout en conservant de bonnes performances.“14

Une fois ces données internes maitrisées, il convient à l’entreprise de s’ouvrir à des

données qui ne résultent pas de son activité. C’est pour cela qu’elle se tournera vers

des données externes.

b. Les données externes

Les données externes sont toutes les données qui circulent autour de l’entreprise et qui

ne sont pas générées dans le cadre de l’activité de l'entreprise. Elles sont récoltées à

travers le Web, par tous types de média ou bien via des fournisseurs de données

(études de marché, base de données clients, instituts statistiques).

14 Kaufman&Broad Customer Success Story, Qlikview, 2011, p.2

10

Ces données permettent à une entreprise d’obtenir une vision globale de son

écosystème, de sa position sur le marché, de sa cible et de son activité, son

comportement ou ses habitudes d’achats.

Yoan Cabidoche, lors d’un entretien, nous a expliqué de quelle manière les annonceurs

média récupèrent et exploitent les informations sur les media TV, presse et radio,

fournies par Médiamétrie :

“Nous disposons d’un outil, MMW, qui nous fournit des indices de performance

prévisionnelles à partir de données historiques. A chaque fois qu’un annonceur souhaite

mettre en place une campagne media, il nous communique sa cible (âge, CSP,

localisation...). En retour, nous lui fournissons le media adapté ainsi que les indices de

performance associés. Les résultats permettront de prendre une décision quant à la

chaîne la plus adaptée, le programme, les plages horaires, ainsi qu’un taux de

couverture (nombre de personnes ayant vu l’annonce) et un GRP (Gross Rating Point)

qui détermine le taux de répétition du message sur le coeur de cible. Les informations

fournies par Médiamétrie se basent sur les 10 dernières années. Pour analyser le ROI

d’une campagne, les données nous sont automatiquement communiquées à J+10.” 15

Les données externes sont, de fait, toutes les informations créées et échangées sur des

plateformes externes à l’entreprise. Cependant, nous aborderons ci-dessous une

nouvelle classification et segmentation des données, celle des données structurées,

semi-structurées, et non structurées.

15 Entretien Yoan Cabidoche - Chargé des stratégies média - Carat (Groupe AEGIS Media) - 6 juin 2013

11

2. Les données structurées et non structurées

a. Les données structurées

Une donnée structurée est une donnée qui peut être automatiquement intégrée et

traitée par une base de données16.

Par exemple, un champ de saisie dans un formulaire d’inscription d’une plateforme Web

renseigne des informations structurées (nom, prénom, âge) et certaines non structurées

mais dont on reconnaît leurs natures aux champs de saisie associés (lieu de naissance).

Toute donnée est potentiellement structurée à partir du moment où la base de données

censée traiter l’information dispose des prérequis et des références nécessaires.

Les données structurées reflètent principalement l’organisation d’une société

(ressources humaines, géographique, fonctionnel), son activité commerciale (produits,

ventes, clients) ou marketing (campagnes et données opérationnelles, indicateurs de

performance).

Les données structurées représentent environ 20% des données présentes sur le

Web 17 . Elles proviennent en générale directement du système d’information de

l’entreprise. Elles sont de ce fait facilement interrogeables et exploitables puisqu’elles

sont abritées dans des bases de données relationnelles18.

b. Les données semi-structurées

Les données semi-structurées sont les fichiers logs19 de sites Web et les données

émanant de capteurs intelligents, par exemple les coordonnées GPS d’appareils

mobiles. Elles tendent à devenir de plus en plus présentes dans la perspective où les 16 Une base de données est un ensemble d'informations, connexes de manière directe ou indirecte, enregistrées dans un dispositif informatique. 17 http://www.silicon.fr/hans-joseph-jeanrond-sinequa-80-des-donnees-dune-entreprise-sont-non-structurees-84984.html 18 Une base de données relationnelle est un stock d'informations décomposées et organisées dans des matrices appelées relations ou tables. 19 Un fichier log désigne le fichier contenant les enregistrements d’une application, d’une plateformes ou d’un appreil.

12

objets connectés composeront le quotidien de millions de personnes dans les

prochaines années (exemples : Google Glass, Google Car, Google Watch, etc.).

c. Les données non structurées

Les données non structurées sont des données qui nécessitent d’être traitées pour être

intégrées à une base de données. Elles exigent un traitement avant intégration dans la

mesure où elles ne peuvent pas être interprétées automatiquement par le système de

collecte. Leur stockage, néanmoins, ne pose pas de problèmes majeurs.

Les données non structurées sont majoritairement des informations textuelles

provenant de différents canaux :

● réseaux sociaux (Facebook, Twitter, etc.)

● blogs et forums

● réponse à des enquêtes clients

● email ou SMS

● fichiers multimédia (son, image, vidéo)

Les données non structurées représentent aujourd’hui 75% des données présentent sur

internet20. Elles sont le fruit de l’activité de l’internaute sur le Web. On considère donc à

juste titre que ce sont des données externes à l’entreprise.

Elles ne sont généralement peu voire pas exploitées du fait de la haute complexité de

leurs traitements et de leurs difficultés d’intégration à un système d’informations

standard. On estime à moins de 10% le taux d’exploitation des données non structurées

au sein de l’entreprise21.

20 http://www.silicon.fr/hans-joseph-jeanrond-sinequa-80-des-donnees-dune-entreprise-sont-non-structurees-84984.html 21 http://blog.antidot.net/2012/10/17/les-donnees-non-structurees-sont-totalement-sous-exploitees-par-les-entreprises-et-c-est-un-veritable-gachis/

13

B. L’enjeu de l’analyse des données internes

1. Les pratiques actuelles

Dans une étude menée en mai 2010, des chercheurs ont montré que les cinquante

sites Web américains les plus visités collectent en moyenne 10 informations par

utilisateur et par page. En 2012, lors de la même enquête, il est apparu que la moyenne

est passée à 60 informations collectées par utilisateur et par page. Certains sites

récoltent même jusqu’à 200 informations par page22.

Ces chiffres soulignent clairement la tendance grandissante des entreprises à connaître

et analyser l’activité de leurs clients. Nous pouvons également parler de “besoin”

puisque comme nous l’avons décrit dans la partie précédente, les données permettent

aujourd’hui à une entreprise d’affiner sa stratégie en réduisant ses risques et donc de

valoriser ses investissements.

Pour collecter cette manne de données, plusieurs moyens sont utilisés. Parmi eux, les

cookies (ou “beacon”, “robot”) sont sans doute la plus ancienne et la plus efficace des

techniques. Les cookies peuvent être définis comme des mouchards chargés de veiller

sur l’activité de l’internaute lorsqu’il navigue sur un environnement numérique. Il s’agit

en fait d’un protocole de communication entre un Serveur HTTP23 et un Client HTTP24.

Le cookie permet de stocker des informations spécifiques sur l’utilisateur. On en

distingue actuellement trois types :

§ les cookies d’origine : ils servent à mémoriser les articles ajoutés à un

panier d’achat ou un service de facturation

22 Big Data Now : 2012 edition, O’Reilly Media Inc, p.47 23 logiciel permettant d’exécuter des requêtes 24 logiciel conçu pour se connecter à un serveur HTTP

14

§ les cookies de suivi : ils portent sur le parcours utilisateur (pages

fréquentées, durée, etc.) et sur l’activité de l’utilisateur (provenance,

articles achetés, etc.)

§ les cookies de fonctionnalité : ils sont utilisés pour mémoriser les

préférences et/ou modifications communiquées par l’utilisateur (langue

sélectionnée par l’utilisateur, magasins le plus proche, consultations des

produits, widgets25, etc.) sur une plateforme donnée.

L’exploitation des données effectuée par les Cookies fait parfois débat. Certains d’entre

eux fonctionnent en effet de manière assez opaque, comme le “MC”, qui fait partie de la

famille des “cookies tiers”. Le cookie “MC” se charge de transférer les données de

l’internaute vers un partenaire commercial afin qu’il puisse améliorer la pertinence des

annonces publicitaires à l’intention des visiteurs. L’outil le plus utilisé du marché n’est

autre que Google Display, qui capte plus de 50% des recettes publicitaire sur le web.26

Il permet d’afficher une publicité sur un site tiers à partir d’un site déjà visité par

l’internaute. Par exemple, l’internaute se rend sur Sarenza.com et consulte plusieurs

modèles de chaussures, il va par la suite quitter le site et se rendre sur Youtube, où il

retrouvera dans l’espace publicitaire, les chaussures qu’il a regardé. Google, lors de

votre passage sur Youtube, va analyser les cookies tiers présents dans votre historique,

et faire ressortir les produits que vous avez visités sur Sarenza.com.

Évidemment, les cookies ne sont qu’un moyen parmi d’autres de récupérer des

données. Aujourd’hui, de nouvelles technologies permettent de disposer de nombreux

points de contacts avec le consommateur. En effet, on couple ces techniques avec

d’autres plus récentes et en cours de démocratisation comme la technologie RFID27

(Radio Frequency Identification) qui stocke sur un serveur dédié toute information

25 Outil qui permet d'obtenir et visionner des informations. 26 http://www.journaldunet.com/ebusiness/publicite/marche-e-pub-mondial-1211.shtml 27 Cette technologie permet d’identifier un objet, d’en suivre le cheminement et d’en connaître les caractéristiques à distance grâce à une étiquette émettant des ondes radio, attachée ou incorporée à l’objet.

15

(consommation, partage) créée à partir d’un capteur distant. La technologie RFID offre

la possibilité aux constructeurs de disposer d’un véritable réseau de traçabilité des

objets, quels qu’ils soient. Jean Christophe Lecosse en dit davantage sur les

hypothétiques usages liés à la RFID28.

“On est seulement aux prémisses de telles applications, mais on pourrait imaginer un

vêtement muni d’une puce permettant de le localiser rapidement dans son dressing

grâce à son smartphone, ou qui indique à quand remonte son dernier passage à la

blanchisserie”

L’avènement de la mobilité et l’adoption des Smartphones ou tablettes ont également

permis aux technologies de géolocalisation de devenir incontournables au point d’être

systématiquement utilisées à travers les applications actuelles et surtout au niveau

hardware29.

Des sociétés comme Facebook, Twitter et autres réseaux sociaux ont pris un autre

virage en proposant des plateformes qui s’approvisionnent directement des données

créées par ses utilisateurs. Au vu de l’usage de ces plateformes et de leurs taux

d’utilisation, on peut présumer que, structurellement, la création et le partage

d’informations passeront au cours des prochaines années essentiellement par le biais

de réseaux sociaux.

28 http://www.lenouveleconomiste.fr/lesdossiers/puces-rfid-a-lusage-des-pme-16985/ 29 http://www.rtbf.be/info/chroniques/detail_mediatic-la-geolocalisation-de-plus-en-plus-populaire-alain-gerlache?id=7754068

16

2. Les moyens de demain

a. L’internet des objets

De nouvelles tendances vont prochainement être appliquées sur des marchés de

masse et permettront aux entreprises d’en savoir encore plus sur leurs cibles. Parmi

celles-ci, on retrouve les objets connectés. Ils reposent sur un service de stockage en

Cloud qui héberge des données d’usages et de consommations portant sur l’utilisation

de l’objet par le client.

Ces produits, qui multiplient les points de contact avec l’utilisateur, permettent de

densifier et d’approfondir cette relation à travers une connexion quasi sans coupure qui

prend en compte les usages des consommations encore peu ou pas analysés. Dans

son dernier rapport30, la société Hadoop indique d’ailleurs que le nombre d’objets

connectés a d’ores et déjà dépassé le nombre d’ordinateurs. De son côté, Ericsson, le

géant des équipements de réseaux mobiles, prédit qu'il y aura 50 milliards d'objets

connectés31 (voitures, frigos, capteurs intelligents, etc.) dans le monde d'ici à 2020,

contre une douzaine de milliards aujourd'hui.

Actuellement, les TV connectés sont la première concrétisation de cette tendance. De

nombreux constructeurs comme LG ou Samsung disposent déjà de gammes de

produits commercialisés. Deux autres secteurs sont sur le point d’être intrinsèquement

modifiés par ces nouveaux usages, l’habitat et l’automobile. Lors du dernier CES

(Consumer Electronic Show), de nombreuses innovations ont été présentées dans le

domaine de l’habitat. Nous avons assisté à des annonces de nouvelles fonctions telles

que le contrôle à distance de la température, de la luminosité, des appareils

électroménagers et d’autres informations comme le nombre de personnes présentes

dans un habitat et leurs occupations. La maison deviendra bientôt un lieu entièrement

connecté où les habitudes de vie seront collectées et analysées en flux continu.

30 Hype Cycle for Big Data, 2012, Gartner, 2012, 100p. 31 http://www.ericsson.com/res/docs/whitepapers/wp-50-billions.pdf

17

Les perspectives sont peu ou prou les mêmes dans le domaine de l’automobile. Lors de

ce même CES, le P-DG d’Audi, Rupert Stadler déclarait que :

“Le futur de la voiture n’est pas un système où toutes les informations sont gérées en

local, mais plutôt via une connexion permanente. Recherche, navigation, applications

utilisées dans le véhicule seraient donc communiquées à un serveur Web dédié. On

parle d’une voiture connectée susceptible de répondre aux besoins de son conducteur

mais également de renvoyer tous types d’informations comme la gestion de la vitesse,

de la lumière, les points d’arrêt ...” 32

La tendance est déjà en marche avec les récentes annonces de Google concernant ses

Google Glass. La généralisation de capteurs en tous genres pour suivre nos faits,

gestes et états, qu’Olivier Ezzrati, spécialiste des TIC, a caractérisé « d’API humaine

»33, est en pleine explosion.

Le marché ne peut que valider ce constat puisque la majorité des constructeurs

spécialistes de l’innovation ont déjà pris le chemin de la numérisation complète de leurs

offres. Il existe ainsi une forte probabilité pour que le monde de demain soit régi

majoritairement par la création et la transmission de données, que l’on peut d’ores et

déjà nommé, “d’or gris”34.

b. Les limites actuelles

Comme nous l’avons vu, la plupart des entreprises disposent des infrastructures

nécessaires pour collecter et codifier chaque action en donnée, afin de la transformer

en information. Une fois synthétisée, cette information sera exploitée dans un objectif

32

http://www.egmcartech.com/2011/01/06/audi-ceo-rupert-stadler-delivers-2011-ces-keynote-speech/ 33

http://www.oezratty.net/wordpress/2012/leweb-2012-services-connectes-aux-objets/ 34 Le big data est souvent appelé « Or gris » en référence aux perspectives de business qu’il est susceptible de générer, au même titre que l’or noir.

18

d’amélioration des processus internes. L’arrivée de l’informatique décisionnelle telle que

la Business Intelligence a permis ces évolutions.

Cependant, alors que les données non structurées représentent environ 80% de la

masse de données totale présente sur le Web, leur exploitation est actuellement trop

complexe.

Philippe KUHN explique que :

“Les données non structurées représentent un vrai challenge pour 99 % des entreprises.

Leur valeur est immense mais techniquement, leur exploitation est si complexe qu’il est

impossible de les faire « parler ». Leurs variétés, leurs multiplicités, leurs sources et

leurs volumes rendent leurs traitements trop complexes”.35

Le marché est donc en attente de perspectives et d’évolutions techniques capables

d’apporter des possibilités de traitement plus efficaces et plus adaptées. Ces besoins

se traduisent aujourd’hui par une forte volumétrie de données, ainsi qu’une nécessité

accrue de traitement rapide et plus précis. Les sites e-commerce, par exemple, ont un

vrai besoin de réactivité puisque c’est cette même réactivité qui leur permet d’apporter

des solutions et des réponses aux besoins clients, qui sont aujourd’hui de plus en plus

volatiles et complexes.

Dans l’évolution du marketing, on observe deux phases assez distinctes. La première a

obéi à la règle du “One to many”. On parle ici des premiers pas du marketing et des

périodes de média de masse. Un même message était alors utilisé pour l’ensemble des

clients, sans aucune distinction.

La deuxième phase obéit à une logique de “One to One”. Cette phase se traduit par la

recherche d’un message adapté à chaque client. La logique de segment arrive ainsi à

son terme. Le but des entreprises est de proposer un produit adapté à chaque client (on

pense notamment aux différents outils de recommandation déjà mis en place). Cette

35 Entretien Philippe KUHN - Business Développeur, veille & innovation chez Digimind - 20 mai 2013

19

logique, implique justement d’en connaître beaucoup sur son client (volume des

données). Il convient ensuite d’intégrer les nouvelles données le concernant le plus

rapidement possible, de manière à disposer de propositions à jour (rapidité de

traitement des données) et également d’intégrer dans ces données des sources

diverses qui viennent étayer et valider ces recommandations (variété des données et

des sources).

Dans cette recherche de granularité36 du client, les entreprises sont donc confrontées à

des limites techniques fortes. Quelles sont, alors, les solutions qui pourront permettre

de répondre à ces différents besoins ? Parmi les solutions évoquées depuis quelque

temps, le “Big Data” est un concept qui fait son chemin. Mais de quoi parlons-nous

exactement ?

36 La notion de granularité définit la taille du plus petit élément, de la plus grande finesse d'un système. Quand on arrive au niveau de granularité d'un système, on ne peut plus découper l'information.

20

II. Big Data

A. Caractéristiques et fondements du Big Data

On peut littéralement qualifier le Big Data comme une solution permettant de traiter un

grand volume de données variées, véraces et avec une forte vélocité.

Ainsi, le Big Data se définit généralement par la règle des 4V, à savoir :

● le Volume,

● la Vélocité,

● la Variété,

● la Vélocité.

1. Le Volume

a. Le Big Data répond à une volumétrie nouvelle

La croissance des données est comparable à la fonction exponentielle. A titre

d’exemple, on comptait plus de 2,7 milliards d’internautes dans le monde début 2013,

alors qu’ils n’étaient que 147 millions en 199837. La courbe de volume des données a

évidemment suivi cette évolution. L’année 2005 a été marquée par l’apparition du Web

2.0 grâce aux nouveaux réseaux et l’émergence du Web social. Depuis cette date, le

web est devenu une plateforme géante, en mouvement constant, qui accumule des

milliards de messages sous toutes leurs formes, émis par une multitude d’acteurs et

d’objets connectés.

La capacité de stockage mise à disposition des internautes et des consommateurs

témoignent d’une manière marquante cette évolution du marché (augmentation des

espaces de stockage des boites e-mail, augmentation croissante des capacités de

stockage des disques durs, démocratisation du Cloud grand public et professionnel). 37

http://www.archimag.com/article/27-milliards-dinternautes-dans-le-monde

21

C’est au tour des entreprises de s’adapter à l’état du marché. D’après Henry Isaac,

chercheur et professeur associé à l’université Paris-Dauphine,

“Le Big Data est apparu à un moment où les data sont devenues si volumineuses qu’il

était indispensable de repenser les bases de données existantes. Auparavant, il était

très compliqué de collecter plusieurs centaines de téraoctets et de les analyser. Pourtant,

les données étaient bel et bien là. Le Big Data offre certaines perspectives grâce à des

moyens techniques plus puissants”. 38

Pour reprendre les termes de Bruno Walther, CEO de Captain Dash, une agence

spécialisée dans le Big Data, “On peut considérer le Big Data comme un énorme «

fichier à plat » qui permet de traiter plusieurs milliers de données” 39 (l’équivalent d’un

tableau Excel de plusieurs dizaines de milliers de lignes et de colonnes).

Cette évolution du “fichier Excel” collecte des données depuis de nombreuses sources

internes et externes. Ainsi, les données du Web, comme celles récupérées depuis les

objets connectés, sont littéralement “aspirées”, qu’importe le volume et le nombre, pour

être stockées. Grâce à des solutions techniques que nous détaillerons plus bas, le Big

Data permet de briser ce qui représente un des principaux freins des entreprises :

l’analyse d’un grand nombre de données, qui, par ailleurs est également l’un des plus

grands enjeux de demain.

Henry Isaac nous explique en quoi le Big Data permet de faire face à cette contrainte.

“Nous sommes aujourd’hui en mesure d’exécuter un nombre de requêtes encore jamais

vu. On assiste à une remise en cause de la modélisation. En effet, plutôt que d'exécuter

les modèles de calcul un par un, on va pouvoir envoyer plus de 100 000 modèles en une

fraction de seconde afin d’arriver au même résultat. Autrefois, les développeurs étaient

effectivement dans l’obligation (du fait des contraintes techniques) de trouver le modèle

de calcul permettant de résoudre un problème X, c’est à dire la mise en place d’une

38 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 39

https://www.youtube.com/watch?v=u3uH6MYrAmI

22

réponse générique à un problème donné, il leur est aujourd’hui possible d’effectuer un

nombre suffisamment grand de requêtes pour trouver cette même réponse en un laps

de temps réduit.40”

C’est par exemple grâce à la technique du Bootstrapping41 qui consiste à faire de

l’inférence statistique sur de nouveaux échantillons à partir d’un échantillon initial, que

Google a pu lors de l’année 2011 détecter l’apparition et mesurer la contamination de la

grippe au niveau mondial. C’est également grâce à cette technique que “le prodige du

Big Data”, Nate Silver, a “prédit” l'élection de Barack Obama lors de sa dernière

campagne présidentielle.

Beaucoup de spécialistes considèrent à ce titre que l’application de ce type de pratique

est aujourd’hui rendue possible grâce aux outils Big Data. La démarche intellectuelle

n’est pas très éloignée de ce que l’on peut trouver dans le domaine de la statistique ou

des sondages, car, dans ce cas de figure, seule la capacité de calcul varie. Ici, et plus

particulièrement dans le domaine de Google et de la campagne d’Obama, il s’agit

essentiellement de valider une hypothèse observée dans un échantillon réduit au sein

d’un échantillon, qui, pour le coup, peut s’avérer être aussi vaste que l’écosystème

numérique.

En mentionnant la firme Google, nous abordons un sujet plus complexe au sujet du Big

Data : son accessibilité. D’après une étude menée au près de 1000 entreprises42, par le

cabinet ESG au cours de l’année 2012, il a été démontré que le principal défi pour les

entreprises portait sur la gestion et le stockage des données. Même si elles

conviennent que le Big Data apporte des solutions dans le traitement de leurs données,

il les confronte également à de nombreux challenges techniques. Dans la même étude,

on apprend également que les deux besoins dont elles sont les plus demandeurs

40 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 41

http://www.entrepreneur.com/encyclopedia/bootstrapping 42

http://www.esg-global.com/blogs/ingest-to-insight-big-data-vendor-of-the-year-2012-and-2013-outlook-finalists-cloudera-ibm-opera-solutions/

23

portent sur une meilleure réactivité (55%) ainsi que sur des analyses prédictives plus

rapides (44%).

b. Des solutions Open source qui s’adaptent au marché

Pour répondre à ces difficultés, des sociétés ont mis en place des logiciels Open

Source43 spécifiquement conçus pour le Big Data. Parmi eux, nous pouvons citer le plus

célèbre, Hadoop, qui fait partie de la solution Big Data proposée par IBM. Cette

plateforme associe technologies classiques bien adaptées aux tâches structurées et

répétitives ainsi qu’aux nouvelles technologies, idéales pour l'exploration, la

reconnaissance de données et l'analyse de données non structurées.

Hadoop est souvent considéré, à tord, comme une base de données. En réalité, il s’agit

d’un système de fichiers organisant les données, capable d’uploader et de trier des

volumes de données très importants (de l’ordre de plusieurs dizaines de téraoctets en

quelques secondes). De la même manière, Hadoop est un “écosystème d’analyse” et

non pas une solution uniforme et standard. Hadoop répond à deux besoins essentiels :

le stockage et le traitement des données.

Charles Zedleweski, Vice-Président Produit chez Cloudera cite 3 besoins auxquels

répond Hadoop :

“Le premier est évidemment le traitement massif des données. Le deuxième répond à

un besoin plus spécifique qui porte sur la transformation des données vers un format

structuré. Enfin, troisième besoin, celui de “l’analytique avancée”, c’est à dire

l’élaboration de modèles prédictifs (lutte contre la fraude, type de publicité à proposer en

ligne...) dans des environnements divers”.44

La solution de « Stockage des données » s’appuie sur un système de fichiers distribués

(HDFS pour Hadoop Distributed File System). Ces systèmes sont déjà développés sous

43

http://www.gnu.org/philosophy/free-software-for-freedom.fr.html 44

http://www.youtube.com/watch?v=H43HbMD8kLk

24

d’autres formes, cependant, ils proposent une particularité bien spécifique. Il répartit en

effet le traitement des données sur un grand nombre de nœuds serveur45, offrant ainsi

une certaine robustesse aux systèmes en place. Hadoop repose sur un paradigme

appelé « MapReduce ».

MapReduce répartit les données entre un serveur central et un réseau de serveur

moins puissants. Les requêtes peuvent, de ce fait, être traitées et réparties en fonction

de leurs natures (volume, complexité). Les serveurs secondaires (esclaves) traitent les

données et envoient leurs réponses aux serveurs principaux (ou maîtres), qui génèrent

ces réponses via une « sortie principale ». Le fait que plusieurs nœuds fonctionnent en

simultanés permet aux données d’être traitées et chargées très rapidement. Cette

solution est aujourd’hui utilisée par Amazon, AOL, Apple, Facebook, Microsoft, Twitter

ou Yahoo!.

c. Le Cloud Computing

Jusqu’à l’apparition du Cloud, les données étaient uniquement traitées de façon locale

dans des Data Warehouse. Le Cloud permet aujourd’hui d’effectuer ces activités

d’analyse, de production, et de stockage dans un serveur externe, loué à une société

tierce. De nombreux acteurs présentent aujourd’hui leurs solutions Cloud pour les

entreprises. IBM a, pour sa part, une nette avance sur le marché français et américain,

et plus généralement sur le marché mondial.

Au delà du fait qu’il présente de réels avantages pour les petites entreprises, il va

permettre de faciliter la mise en place de systèmes informatiques complexes en les

externalisant, mais également en réduisant considérablement les investissements

financiers et humains. Le Cloud permet en effet de réduire les coûts de structure et

d’avoir accès à un espace de stockage modulable en fonction de la charge de données 45 un nœud serveur repose sur un ou plusieurs serveurs liés à un ou plusieurs ordinateurs qui permettent une gestion globale de

l’information dans le but d’augmenter la disponibilité, faciliter la montée en charge et permettre une répartition de la charge.

25

à traiter. Pour pouvoir exploiter cette manne d'informations et ces gigantesques flux de

données, d'importantes capacités de calcul sont nécessaires, le Cloud Computing

permet donc de "louer" une puissance de calcul et un espace de stockage adapté pour

un traitement Big Data. En effet, seuls peu d'acteurs sont en mesures d'effecteur ce

traitement avec leurs propres infrastructures, au vu des équipements informatiques

nécessaires.

On peut bien sûr parfaitement faire du Big Data sans Cloud, mais le volume de données

à disposition des entreprises et la difficulté de mise en place d’infrastructures ainsi que

le coût associé rend évidemment la solution extrêmement avantageuse. La

démocratisation du Cloud est donc en passe de se concrétiser, et il permet au Big Data

de trouver un nouveau levier de développement, notamment des raisons d’engagement

de durée, de tarification à l’utilisation, stockage et volume évolutif en fonction des

besoins. Évidemment, la liste de ces facteurs est non exhaustive. Il est clair, pourtant,

que ces évolutions tendent à favoriser l’usage du Big Data.

Ce traitement volumineux de données peut être considéré comme la principale

caractéristique du Big Data, pourtant, il reste encore trois critères essentiels.

2. La Variété

a. La variété des données, un enjeu considérable

Nous l’avons vu dans la partie précédente, les données sont variées (structurées, semi-

structurées, non structurées). Parmi elles, les données non structurées ont toujours

représenté un véritable enjeu pour les entreprises. Ce sont, en effet, celles qui

possèdent le plus de “valeur” mais dont le traitement apparaît comme quasiment

impossible dans la mesure où leur nature est incompatible avec “l’intelligence

informatique.”

26

Le Big Data repose aussi sur l’Open Data, synonyme de “mine d’or” pour cette nouvelle

tendance de la libération des données publiques, dont les Etats-Unis sont leader en la

matière. Ce mouvement a précédé l’arrivée du Big Data et procurent aux entreprises

des données fraîches encore inexploitées par le secteur privé. On retrouve parmi elles

des indicateurs démographiques, sociologiques et médicaux qui concernent la

population, mais aussi des informations sur les transports publics, l’urbanisme. En

structurant ces données, de nombreuses start-up sont nées et proposent des services

innovants, utiles aux citoyens, et prennent en quelque sorte le relai des services publics.

Il va s’en dire que ces données représentent une manne très qualitative.

Une base de données dispose de tables46, qui correspondent à des valeurs (nom,

prénom, numéro de téléphone, liste déroulante). Elle ne peut intégrer que des données

structurées. Les données non structurées comme avis consommateurs ou les

commentaires de forums sont de facto plus complexes à collecter et stocker.

A titre d’exemple, si une entreprise décidait de récupérer 100 avis et qu’elle les intégrait

dans l’une de ses tables. Que donnerait l’extraction de ces données ? Pas grand chose

car elles ne seraient pas analysables et reconnaissables par des systèmes classiques

d’exploration de données, on ne pourrait donc en tirer aucune statistique ni aucune

information précise.

Sur quel levier s’appuie le Big Data pour aller au-delà de cette contrainte ?

b. Une analyse intelligente de l’information

L’objectif est ici de se servir des points de redondance sémantique. Une phrase est

dotée d’un sens qui trouve sa racine autour de l’articulation d’une suite de mots. C’est

justement cette articulation qui apporte son sens à une phrase. Il existe plusieurs

dizaines voire centaines d’articulations et de formules possibles. Pourtant, le sens

46

http://cerig.efpg.inpg.fr/tutoriel/bases-de-donnees/chap02.htm

27

restera inchangé, c’est sur ce constat que les solutions Big Data ont développé des

outils qui permettent une analyse poussée des données non-structurées.

Par exemple : “cette entreprise escroque ses clients depuis 10 ans” et “cette société

vole la clientèle depuis des années” sont deux phrases qui possèdent un sens proche,

pourtant, les mots utilisés sont différents. On remarque cependant une typologie

commune autour des mots qui composent cette phrase : escroquerie, clients, société.

C’est comme ça que fonctionne le Big Data, autour de typologie de mots.

En transformant des données non structurées en “typologies structurantes”, le Big Data

apporte une réponse à l’analyse des données externes. Cette possibilité est aujourd’hui

explorée et mise en place par de nombreux outils. Parmi eux, on retrouve Hadoop,

comme nous le disions auparavant, il offre la possibilité de traiter une multitude de

données simultanément. Cependant, sa force réside également dans sa capacité à

traiter plusieurs types de données, structurées, semi-structurées et non structurées.

Hadoop est de ce fait une plateforme pour données multi-structurées.

Julien Moreschetti, Ingénieur avant-vente et Architecte de solutions techniques chez

IBM nous explique que :

“Chaque phrase dispose d’une particularité, dans sa tournure, et avec une opinion

négative ou positive qui peut être distinguée. A partir de ces éléments, le Big Data va

procéder à un classement. Il n’est pas question ici de classer des données dans des

tables aussi précises que celles qui gèrent les données structurées. Cependant, les

outils Big Data permettent de trouver des redondances dans les données afin de les

classer, les segmenter. Cette segmentation va permettre de les faire “parler”, de les

interpréter. Sans pour autant rentrer dans une analyse poussée, en les regroupant par

thèmes, nous sommes aujourd’hui capable de donner un sens à tous types de données.

Les outils mis en place, par exemple par IBM, permettent d’observer ce qui se passent

sur la toile, les réseaux sociaux, les forums. Ces techniques fonctionnent évidemment

sur la base d’un grand nombre de données. C’est ce volume qui va permettre de faire

ressortir une logique, une tendance”.

28

Le Big Data permet donc de scruter les données non structurées Web dans le but d’en

savoir plus sur un marché donné :

“Dans l’exemple du secteur bancaire, je suis par exemple capable de connaître ce qui

se dit sur chacun des acteurs grâce un Dashboard47 défini par des indicateurs. Ces

données sont récupérées depuis le logiciel SMA48 (Social Media Aggregator) et traitées

grâce à un logiciel de type Hadoop”.49

Parmi ces indicateurs évoqués par Julien Moreschetti, nous trouvons :

“Share of Voice overview” : de qui parle-t-on le plus ?

Exemple : Bank Of America : 23%.

Ici, 23% des données actuellement partagées sur le marché bancaire concernent la

société Bank of America.

“Share of Voice sentiment distribution” : comment parle-t-on de la marque ?

Exemple : 67% d’opinion positive

Ici, 67% des données actuellement partagées autour du sujet de la société Bank of

America sont des avis positifs.

“Share of Voice trend” : évolution sur une période donnée

Ici, un graphique permet de connaître l’évolution de la masse de données partagée sur

un thème au cours d’une période de temps donnée.

“Share of Voice by sources” : depuis quelles sources ?

Exemple : Facebook 23%

SMA permet de savoir depuis quelles plateformes les données sont échangées.

Cette technique ne peut être mise en place qu’après une sélection au préalable des

plateformes. 47 Résumé des données associées à des indicateurs sous la forme d’images, graphiques, etc. 48 https://www-304.ibm.com/social/aggregator/ 49 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013

29

“Share of Voice by geography” : depuis quelles zones géographiques ?

Exemple : New York : 13%

Ici, 13% des échanges proviennent de l’état de New York.

L’analyse de ces différentes variables va permettre d’identifier des signaux faibles.

C’est à dire l’analyse des opportunités ou menaces du marché de manière prédictive

par la mise en place d’une veille.

3. La Vélocité

a. Garantir la performance

Julien Moreschetti nous explique le problème.

“Généralement, on récupère les fichiers, on les agrège, puis les stockent dans un Data

Warehouse50. C’est le fonctionnement basique. La variété des données implique que

l’on va chercher plus d'informations qu’auparavant, et donc qu’on dispose d’un volume

de données beaucoup plus important. Sans modifier le fonctionnement du traitement de

données, on risque deux choses. Premièrement, une dégradation conséquente des

performances, ou, deuxièmement, une explosion du système”.51

La question est donc la suivante : comment traiter un grand volume de données

provenant de sources variées si la capacité d’affichage et de traitement n’est pas au

rendez-vous ? Au delà du “comment”, nous pourrions également nous poser la question

du “pourquoi”. La mise en place de solutions Big Data sans une notion de vélocité ne

seraient être entièrement remis en question. Néanmoins, ses usages et sa pertinence

s’en trouveraient, alors, fortement réduits. Le Big Data implique nécessairement un

besoin de performance. C’est cette même performance qui va offrir une synergie entre

la variété et le volume. 50 Serveur informatique dans lequel est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise 51 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013

30

L’efficacité, la rapidité et la pertinence sont permises grâce à plusieurs évolutions

majeures qui accompagnent l’évolution et l'émergence de ce phénomène.

“Hadoop répond en partie au problème grâce à sa capacité à repartir les requêtes en

fonction de leurs priorités et leurs natures (volume, complexité). Cependant, un outil

comme Streams, développé par IBM permet de répondre plus efficacement à cette

problématique. Il réduit considérablement le coût et la complexité des environnements

actuels d’intégration de données. Streams va donc transférer toutes les transformations

vers un moteur ETL (Extract-Transform-Load) qui va stocker les informations en cache52.

Vous réduisez ainsi les opérations de staging des données 53 et/ou l’envoi des

transformations dans la base de données”.54

Comme son nom l’indique, l’ETL 2.0 comme l’appelle Steven HADDAD, ingénieur chez

Syncsort, le moteur ETL va d’abord traiter et filtrer les données. Pendant ce temps, ces

dernières sont stockées en cache. Une fois le filtrage effectué, les données seront

ensuite stockées dans le Data Warehouse. L’ETL 2.0 redéfinit l’intégration de données

dans les entreprises, exploite la problématique du Big Data pour la transformer en

avantage compétitif. Évidemment, Streams n’est qu’un exemple parmi d’autres.

52 Une mémoire cache enregistre temporairement des copies de données provenant d'une autre source de donnée, afin de diminuer le temps d'accès d'un matériel informatique à ces données. La mémoire cache est plus rapide et plus proche du matériel informatique qui demande la donnée, mais plus petite que la mémoire pour laquelle elle sert d'intermédiaire. 53 Espace de stockage temporaire 54 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013

31

D’autres évolutions technologiques permettent cette vélocité. Parmi elles, l'émergence

des bases de données NoSQL.

b. L'émergence du NoSQL

Pour aborder les bases de données NoSQL, il convient de rappeler ce que sont les

bases de données SQL. Les données utilisées et collectées par une entreprise sont

stockées et partagées dans des systèmes de gestion de bases de données (SGBD).

Ces SGBD permettent, de stocker et partager, mais également de retrouver, trier,

modifier et ainsi d’effectuer des reportings depuis ces mêmes données.

Un SGBD regroupe donc un ensemble d'informations, classé et regroupé grâce à des

tables. Ces données sont reliées logiquement entre elles. On dit qu’elles sont

relationnelles. MySQL est donc un système de base de données relationnelles. Les

SGBD sont depuis toujours largement répandus dans les structures d’entreprises. Elles

sont généralement dimensionnées en fonction de l’entreprise et correspondent à des

besoins précis en terme d’utilisateurs, de taille, et de type de données.

Face à cette nouvelle volumétrie, le MySQL montrent cependant des limites en terme

de temps de réponses et de répartition des charges. A titre d’exemple, un site Web

disposant de plusieurs millions de visiteurs par jour et traitant un nombre de requêtes

importantes exigerait alors la mise en place d’une architecture coûteuse et des

compétences en optimisation de serveurs importantes. Cette nouvelle volumétrie

implique également 3 notions stratégiques pour une entreprise, la conservation de la

vélocité des tâches de production nécessaires au bon fonctionnement de l’entreprise

(production), l’utilisation des données pour granulariser au maximum les recherches

(analyse), et enfin la conservation de sa fonction de stockage et de sauvegarde

(stockage).

L’enjeu se résume pour l’entreprise à cette simple question : comment conserver une

forte performance sur ces trois activités (production, analyse, stockage) alors que le

32

volume de données à traiter tend à se démultiplier ? Dans cette perspective, selon

laquelle le taux d’utilisation des interfaces numériques tend à augmenter

considérablement, il convient de repenser l’architecture des bases de données et leurs

fonctionnements. Ce rôle est aujourd’hui rempli par les bases de données NoSQL,

conçues spécifiquement pour des usages volumineux, véloces et variés. La technologie

NoSQL va ainsi dissocier les activités de production, d’analyse et de stockage en

répondant en même temps aux besoins de scalabilité55, c’est à dire de montée en

charge. Cette montée en charge s’effectue de manière qualitative en ajoutant une

valeur (on touche ici davantage à des logiciels comme Hadoop) et quantitativement

(hausse du trafic d’une plateforme Web).

Le système est simple, on utilise la donnée que l’on souhaite et on la croise avec une

autre, sans pour autant qu’il soit nécessaire que ces deux tables aient été paramétrées

ensemble. Ces bases de données sont non relationnelles et permettent de mettre à plat

l’ensemble des tables. Cette solution a vu le jour sous l’impulsion de firmes comme

Twitter, Facebook, Amazon ou Google qui génèrent plusieurs téraoctets de données

par jour et qui par conséquent avaient de vrais besoins asynchrones 56 dans la gestion

des requêtes. Cette même solution va permettre de donner un sens aux données sans

remettre en cause les performances des plateformes Web.

55 Capacité que possède l’architecture pour évoluer en cas de montée en charge 56 Du point de vue du développeur, une méthode est asynchrone si elle est lancée en parallèle de l'exécution du programme. Le programme continue donc à s'exécuter en attendant la réponse de la méthode asynchrone.

33

4. La Véracité

L’objectif du Big Data est, comme nous l’avons dit précédemment, de profiter de

l’incroyable richesse que représentent les échanges conversationnels sur les réseaux

sociaux (Facebook, Twitter, Foursquare, etc.) et autres média pour pouvoir collecter,

analyser, croiser ces données avec les données internes de l’entreprise.

Depuis l’avènement du numérique et des plateformes sociales, ce sont bel et bien les

internautes qui “ont le micro” selon la célèbre expression de Tara Hunt, experte en e-

communication. Ce sont de ce fait, les internautes qui génèrent les contenus et les

informations. Et c’est justement parce qu’elles sont émises par le client qu’elles

nécessitent un travail de qualité et de vérification. Les données en effet, peuvent

s’avérer être erronées ou fausses.

En effet, comme le montre le rapport “The Real-World Use of Big Data” 57 par IBM et la

Saïd Business School de l’université d’Oxford, la majorité des entreprises ont des

doutes sur la fiabilité des données récupérées sur le Web grâce au Big Data. C’est un

fait, le Big Data, comme tous les autres outils existants, ne permet pas de différencier

une information vraie d’une information fausse ou erronée. Même en effectuant un tri en

amont du traitement, comme nous avons pu le voir grâce aux outils d’ETL notamment,

la “vérité” est une notion trop subjective pour être aborder au sens stricte du terme.

Ainsi, il est clair qu’une part d'incertitude sera toujours présente lorsqu’il s’agira de

traiter les données non structurées de l’écosystème numérique et plus particulièrement

des réseaux sociaux. Le Big Data implique d’accepter cette incertitude. Néanmoins,

pour appréhender au mieux cette part de “faux”, il est nécessaire de mettre en place

une “contextualisation des données”. Julien Moreschetti nous explique que :

“C’est l’évolution des données qui va essentiellement renseigner une entreprise sur la

véracité des données. Aujourd’hui, le meilleur moyen d’exploiter des données en tenant

compte de cette incertitude est d’accepter une marge d’erreur, comme dans toute

57

http://www-935.ibm.com/services/us/gbs/thoughtleadership/ibv-big-data-at-work.html

34

pratique statistique. Sur 10 000 commentaires recueillis depuis Facebook, je sais

environ que 15% d’entre eux seront soit erronés, soit faux. Pour pallier cette incertitude,

les entreprises doivent cibler les données dans un but précis. Par exemple le bruit

généré autour d’un produit ou d’une marque. C’est l’évolution des différents segments

de données (positif, négatif, géographique) qui va permettre de faire parler les

données”.58

Ce sont donc les critères de tendance et d’évolution des données qui vont permettre de

les qualifier comme théoriquement viables et potentiellement exploitables. Ici, c’est

davantage le volume qui va permettre de minimiser au maximum cette contrainte de

véracité. En effet, c’est en analysant une communauté dans sa globalité que l’analyse

des tendances permettra de ne pas tenir compte des quelques pourcentage qui

disposent d’une faible fiabilité. Dans d’autres domaines, cette même approche peut

aussi être utilisée. Vestas, numéro 1 mondial des éoliennes, constitue un exemple en la

matière. Au même titre que les avis ou les commentaires sur les forums ou réseaux

sociaux, la météo proposent également des données compliquées à intégrer du fait de

sa viabilité.

Confronté au problème constant d'optimiser l’emplacement des éoliennes pour capter

les vents les plus forts, Vestas a décidé de mettre en place une solution ambitieuse qui

lui permet d’analyser 16 pétaoctets de données pour chaque éolienne ainsi que des

données météo comprenant plus de 170 variables. Grâce à cela, Vestas a pu réduire la

durée de prévision de la vitesse des vents de trois semaines à moins d’une heure. On

comprend ici que les données recueillies par l’entreprise mélange à la fois de “vraies

informations”, celles qui vont confirmer une hypothèse, et les autres, qui vont invalider

une hypothèse. C’est finalement le mélange de ces deux types d’informations qui va

former ces données homogènes et exploitables pour l’entreprise. Le Big Data implique

donc de traiter des informations qui vont invalider une hypothèse à cause de leurs

caractères erronées voire faux dans certains contextes. Cette incertitude doit être

58 Entretien Julien Moreschetti, Ingénieur avant vente & Architecte solution, 5 juin 2013

35

appréhendée de manière intelligente, en créant un contexte autour des données. C’est

ce contexte qui permettra aux entreprises de transformer ces données en “informations”.

B. Facteurs clés de succès

Selon le Big Data Survey Europe conduit par BARC en 2012 auprès de 274 entreprises

en Allemagne, Autriche, France, Suisse et Royaume-Uni, les points clés qui poussent

les entreprises à intégrer un système Big Data sont :

● de meilleures possibilités de traitement des données (75%),

● un traitement de grands volumes de données (72%),

● des entrées multiples de données dans l’entreprise (66%),

● une vision globale des données internes et externes sous forme d’un tableau de

bord (43%).

Les réponses de l’étude ont déterminé que les fonctions de l’entreprise les plus

concernées par le Big Data sont les équipes de Business Intelligence (47%), viennent

ensuite les équipes informatiques (23%) et les équipes commerciales (16%).

L’attribution du sujet à ces différentes fonctions dépend intrinsèquement des besoins de

l’entreprise et de son activité.

Les fonctions marketing souhaitent intégrer le BD pour résoudre des problématiques

d'intégration des données des médias sociaux et le perfectionnement des sites e-

36

commerce. Pour la fonction vente, le facteur clé d’acquisition s’explique dans

l’approfondissement du comportement des clients et la création d’offres personnalisées.

Quels sont, alors, les facteurs clés de succès pour la réussite d’un projet Big Data ?

1. Une méthodologie éprouvée

Dans tous projets, la méthodologie est la pierre angulaire et l'élément indispensable de

toute réussite. Les méthodologies sont autant d’atouts qu’elles permettent d’avoir une

vision claire sur les rôles de chacun, les étapes à valider ainsi que sur la démarche

qualité. Selon le cabinet McKinsey, la méthodologie représente 80% de la réussite d’un

projet, quel qu’il soit. Tout ce processus est évidemment applicable pour la mise en

place d’un système Big Data.

Pour Tim McGuire, Directeur du cabinet McKinsey,

« Le Big Data va devenir un enjeu extrêmement important au cours des prochaines

années, et cela pour une raison très simple, il va redéfinir la frontière entre les perdants

et les gagnants. A ce titre, la réussite du Big Data passe par une méthodologie centrée

sur l’entreprise et non sur la donnée. Les bonnes questions doivent être posées dans le

bon ordre. »

Ainsi, quatre étapes semblent essentielles à ses yeux.

a. Réfléchir sur l’identité de l’entreprise.

Il est primordial de s'interroger sur le véritable core-business de l’entreprise, de

connaître et de comprendre les axes de création de valeur susceptibles d’être activés

grâce à de nouvelles données.

“Les réflexions sur les objectifs, les besoins et les capacités de l’entreprise sont une

étape majeure pour éviter le fiasco que beaucoup d’entreprises ont connu ces dernières

37

années. Quel est l’objectif que je veux atteindre grâce à la mise en place d’un système

Big Data ?”

Le chemin du Big Data est long et coûteux. Selon le cabinet, un projet Big Data dure en

moyenne un an et son coût est évidemment impactant, que ce soit en terme de

ressources humaines que d’investissement financier.

Pour traverser les différentes difficultés il est primordial de connaître et de partager les

intentions de l’entreprise, à la fois en interne (en communicant avec l’intégralité des

collaborateurs concernés), et en externe, (porter l’innovation et l’avancée de l’entreprise

auprès de la clientèle, des média et des investisseurs).

L’entreprise doit connaître et comprendre les objectifs permis grâce au Big Data. C’est

cet objectif qui permettra à l’entreprise d’appréhender le challenge de la meilleure des

manières.

b. Connaître ses besoins en terme de données

Choisir, c’est renoncer. Accumuler les données ne sert pas à grand chose et,

d’expériences, McKinsey a vu énormément de sociétés échouer dans leurs objectifs

parce qu’elles n’ont pas été assez pragmatiques dans l’approche de leurs besoins. Une

fois l’objectif clairement défini, il est donc essentiel de réfléchir aux données dont

l’entreprise a besoin pour atteindre cet objectif.

Trois questions sont essentielles pour réussir cette étape :

● Que veut-on faire des données ?

● Quel est le sens que l’on veut leur donner ?

● Quel est le bénéfice que l’on souhaite en retirer ?

38

De la même manière, il est primordial de se poser la question des données externes,

car ce sont elles qui vont permettre aux entreprises de créer de la valeur ajoutée.

A ce titre, une vraie étude de marché est nécessaire pour cibler les sources qui

correspondent le plus à votre secteur d’activité et à votre besoin. Sur quels réseaux

sociaux, sur quelle plateformes vais-je pouvoir trouver mes données ?

L’exemple de Ford permet de bien illustrer cette approche. John Ginder, Responsable

de l’Analytics explique sa démarche :

« nous pensons qu’il y a un fort intérêt à collecter les données issues de capteurs

intelligents (siège, pédales, signalétique, gestuelle) pour mieux comprendre comment la

voiture opère et comment le consommateur utilise les véhicules dans le but d’alimenter

notre processus de conception et d’optimiser l’expérience de conduite dans le futur.”59

Le professeur Shigeomi Koshimizu, du Japan's Advanced Institute of Industrial

Technology, arrive à déterminer grâce à des capteurs intégrés au siège d’un véhicule si

le conducteur qui s’assied dans le véhicule est bien celui qui le conduit d’habitude. La

simple action de s’asseoir dans son véhicule est mesurée par 360 capteurs différents,

capables d’estimer à 98% si c’est la bonne personne qui conduit le véhicule. Basé sur

cette technologie, des constructeurs automobiles y voient déjà un apport non

négligeable en terme de sécurité avec la mise en place d’un système antivol, mais

aussi pour déterminer l’endormissement du conducteur et le réveiller grâce à un effet

sonore dans le but de diminuer les accidents de la route dus à la somnolence.

c. « Find the nugget of gold »60 «C’est sans doute l‘étape la plus complexe puisqu’elle consiste à trouver et définir les

modélisations types qui vont permettre un traitement et une exploitation optimale des

données. Enfin, il faut également trouver la solution qui va permettre d’intégrer ces

données aux outils en place et à l’architecture existante. Pour cela, il faut aller dans ces

59 http://www.youtube.com/watch?v=PsxAe77axMc 60 traduction « trouver la pépite d’or », expression de McKinsey

39

données, les comprendre, les transformer pour qu’elles vous permettent de modifier les

processus de votre entreprise.»61 explique Tim McGuire.

Matthias Roggendorf, consultant expert au sein du cabinet McKinsey, explique que :

« La phase de mise en place d’un système d’informations en adéquation avec les

attentes, que l’on appelle la phase « transforming data », peut de ce fait, durer entre 6 et

9 mois ».

Pour valoriser cet investissement, il est important de profiter des résultats pour modifier

l’organisation de la société. La finalité d’un projet Big Data n’existe en effet que dans un

seul et unique objectif, améliorer les processus. Si aucun changement n’est effectué

dans l’entreprise, alors la valeur créée restera marginale par rapport aux

investissements effectués. A quoi bon avoir mobiliser du temps, de l’argent, si la

structure d’exploitation du business et vos processus décisionnels ne sont pas modifiés

voire améliorée ?

A ce titre, Tim McGuire avertit sur un danger assez fréquent : le manque ou l’absence

d’hypothèses.

« Il est primordial de débuter le travail avec des hypothèses. Nous avons, dans le passé,

rencontré beaucoup d’entreprises qui attendaient que les résultats et les données

parlent d’eux mêmes. Il est au contraire important voire essentiel de définir une liste

d’hypothèses que les données vont valider ou invalider ».

Matt Ariker, Chief Operation Officer chez McKinsey est clair :

“ le Big Data n’est pas de la magie. Il est primordial de démarrer avec des hypothèses et

de définir de manière très précise là où l’on veut emmener l’entreprise. Il ne faut pas se

lancer dans le projet et attendre que les conclusions viennent d’elles mêmes.” 61 Big Data: The next frontier for innovation, competition, and productivity ; McKinsey, p.156

40

Tim Mc Guire résume sa méthodologie par une phrase simple mais qui en dit long sur

ce type de projet : « The right company, the right data, the right modeling capabality and

the right transformation methods ».

Henry Isaac rajoute lui une dernière étape à cette méthodologie, à savoir “la

gouvernance des données”. Comme il le fait remarquer :

« Il y a en parallèle de ce travail une vraie réflexion à mener sur la gouvernance des

données. Qui est responsable des données ? Une fois qu’elles ont été traitées, il est

essentiel de connaître la procédure à suivre entre les différents pôle marketing ou

DSI»62

d. Une structure et une visibilité forte

Tim Mc Guire explique que l’entreprise doit “avoir les reins solides” pour supporter cette

transition. En effet, la bonne gestion du budget alloué au développement et à

l’intégration des outils Big Data doit être bien comprise, bien évaluée et doit

accompagner et pérenniser le projet.

Le Big Data permet certes de créer de la valeur. Cependant, cette valeur ne doit pas se

créer au détriment du core-business de l’entreprise et il est important d’aborder ce type

de projets en parallèle de ce qui fait et fera la réussite de l’entreprise.

La bonne santé financière de l’entreprise à court et moyen terme, est, en cela, une

prérogative majeure. Un projet Big Data implique de nombreuses ressources humaines

et une enveloppe financière conséquente qu’il est important de conserver tout au long

de la phase de développement. Ces phases permettront de montrer des résultats

régulièrement et d’entretenir la motivation des équipes. C’est ce fonctionnement itératif

et méthodique qui permettra aux entreprises d’aller au bout du projet.

62 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013

41

A titre d’exemple, et pour attester de l’investissement nécessaire à la mise en place de

solutions Big Data, la Caisse des Dépôts avec ICANIC (Intellectual Capital Analytics),

aura investi environ 2 millions d’euros dans l’élaboration de sa plateforme consacré à la

mesure de la valeur des brevets.

2. La stratégie de recrutement

Les nouvelles technologies de traitement de données et les nouveaux outils mis à

disposition des entreprises ont en effet créé un véritable besoin en terme de

compétences.

Aujourd’hui, comme le fait remarquer Jean-François Marcotorchino, VP, Scientific

Director chez Thales Division DSC, les entreprises sont à la recherche de salariés

hybrides, à la fois experts en informatique et en statistiques. Ces deux métiers,

autrefois différents, tendent aujourd’hui à se rapprocher.

«Il est nécessaire aujourd’hui pour les entreprise de disposer d’une ressource qui

disposent une connaissance et une compréhension de l’intégralité de la chaîne de

valeur des données»63.

Pourtant, le marché de la formation n’est pas encore prêt. Actuellement, les formations

adaptées à ces nouveaux besoins sont peu nombreuses, bien qu’elles tendent à

émerger sous le poids des entreprises. Les écoles sont en pleine mutation et mettent

un accent particulier sur le développement de parcours spécialisés, telles que Telecom-

ParisTech qui débutera dès septembre son mastère spécialisé Big Data. Il existera à

court et moyen-terme une demande estimée à plus de 20 000 professionnels. Au

niveau marketing, il est également indispensable de former les élèves sur la valeur que

représente la donnée dans la stratégie produit ou service d’une entreprise. Cette

difficulté est d’autant plus complexe à gérer que les métiers du marketing sortent tout

63

http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value/avis-experts.html

42

juste d’une phase de transition liée aux métiers du numérique. En effet, c’est seulement

au cours des dernières années que les formations ont adapté et intégré la notion de

NTIC à leurs programmes.

Il faut donc compter environ 10 ans avant que le marché ne soit fourni de

professionnels. Avant cela, il incombe aux entreprises de raisonner intelligemment. Il

faut par conséquent qu’elles disposent d’une véritable stratégie à moyen terme et

qu’elles sachent en amont ce qu’elles souhaitent faire au niveau de la donnée. Cette

stratégie va aider à mettre en place une tactique, qui consistera soit à former ses

troupes sur les prérequis en terme d’exploitation de la donnée, ou bien, à définir un plan

de recrutement au sein duquel les profils hybrides seront privilégiés.

En effet, on voit bien que de plus en plus de secteurs sont en cours d’automatisation, et

ce, pour des raisons de productivité. Le principe de “destruction créatrice”64 défini par

Schumpeter impose à tous les métiers de se réinventer. Les métiers du marketing, par

exemple, doivent d’ores et déjà se poser la question de savoir quels rôles ils joueront

dans la chaîne de valeur de l’entreprise numérique. Si cette évolution se confirme, les

marketeurs devront, en plus de leurs compétences de bases, être rompus aux usages

statistiques et mathématiques.

Évidemment, de nombreux autres facteurs clés de succès sont indispensables dans la

réussite d’un projet Big Data. On pense notamment à la stabilité technique de

l’entreprise qui souhaite s’attaquer au sujet, mais aussi aux fonctions marketing qu’il

convient de repenser totalement, car les usages sont voués à évoluer

considérablement.

64 Désigne le processus continuellement à l'œuvre dans les économies et qui voit se produire de façon simultanée la disparition de secteurs d'activité économique conjointement à la création de nouvelles activités économiques.

43

III. Big Data, Big business ?

Les outils Big Data permettent, comme nous l’avons expliqué ci-dessus, d’exploiter les

données externes et non structurées. Évidemment, cette capacité nouvelle des

technologies à intégrer ces nouveaux types de données est, en soit, une révolution.

Cependant, quels usages peuvent découler de ces nouvelles caractéristiques

apportées parmi le Big Data ? Quelles sont les opportunités à saisir ? Cette partie

s’articulera autour de Business Cases déjà implémentés par des entreprises.

A. Maîtriser son marché et sa marque

1. Connaître son marché

L’avènement du web 2.0 a considérablement redéfini le rapport de force entre les

clients et la marque. Aujourd’hui, les clients ou prospects disposent de l’espace et des

plateformes nécessaires pour parler d’une marque, en bien ou en mal. Leur influence

est grandissante et susceptible de modifier la stratégie des marques. Seulement, pour

qu’une marque puisse utiliser les informations qui gravitent autour d’elle, encore faut-il

qu’elle puisse identifier clairement les messages et les zones de partage. C’est

justement ce qu’apportent les outils Big Data.

Cet usage permet effectivement de mieux connaître son marché, et ce, en temps réel. Il

offre un “overview” complet sur ce qui se dit d’un marché à l’instant T. Quel est l’état du

marché ? Où est-il principalement localisé ? Quel est l’état de satisfaction générale de

sa clientèle ou ses prospects ? Quels sont les freins identifiés ?

De ce premier usage découle de nombreuses opportunités, notamment celles qui

consistent à se démarquer de la concurrence en adoptant un positionnement plus

approprié. Par exemple, sur un marché relativement atone (où les prix du marché sont

estimés trop élevés par une grande majorité des clients) une entreprise décide

44

d’envoyer à tous ses clients ainsi qu’à ses prospects une réduction de 5 euros sur

l’achat d’un de ses produits. On imagine alors qu’elle aura profité de ces informations

pour affiner sa stratégie, et par conséquent, augmenter son CA.

La comparaison entre différents acteurs d’un même segment permet également de

connaître son positionnement par rapport à la concurrence et d’obtenir ainsi un premier

KPI sur ses investissements. On va pouvoir observer que la société avec laquelle nous

sommes en concurrence est beaucoup plus citée et qu’elle génère beaucoup plus de

bruit sur la toile. L’enjeu est ensuite de deviner les raisons de cet écart. En analysant

par exemple la stratégie de communication de cette marque concurrente, l’entreprise

sera en mesure de savoir qu’elle est visiblement la bonne stratégie à adopter. Cette

connaissance générale de son marché et de son positionnement, apporte donc de

nouvelles instructions sur ses forces et faiblesses.

2. Connaître sa marque

La redistribution des cartes entre la marque et l’internaute induite par le web 2.0 a

considérablement réduit la maîtrise de son identité numérique. Alors qu’auparavant,

une marque revendiquait son identité grâce à des opérations de communication en

mass-market, aujourd’hui, c’est davantage l’internaute qui va structurer l’identité de la

marque à travers sa prise de parole. On observe à ce moment là un véritable gap entre

l’identité revendiquée par la marque et sa véritable identité perçue sur le web.

L’exemple de “La vache qui rit” du groupe Bel illustre bien ce changement. En menant

une étude aux USA, IBM s’est aperçu que les produits de la marque étaient

principalement perçus comme diététiques. Or ce n’est clairement pas le positionnement

initial de la marque. Fort de ce constat, la marque a ajusté son positionnement,

notamment dans les points de vente où le transfert des produits dans les rayons

diététiques a augmenté les ventes de 40%.

45

Autre exemple, celui d’Henkel, qui après avoir observé les échanges portant sur sa

marque, s’est aperçu qu’un grand nombre de commentaires négatifs portait sur l’odeur

de sa gamme de lessive. Ce problème, jamais remonté auparavant lors des échanges

directs avec la clientèle, a poussé la marque à modifier sa formule. Peu de temps après

cette modification, les échanges observés sur le web ont fait état d’une baisse de 20%

des avis négatifs.

Le Big Data offre aux entreprises une opportunité unique, celle de connaître l’intégralité

des leviers d’actions qui lui permettent d’augmenter son chiffre d’affaires ou d’affirmer

son positionnement. En recueillant les feedback clients en temps réel, l’entreprise

dispose d’une vision claire et limpide sur ce qu’elle doit améliorer, ce qu’elle doit

communiquer et la manière dont elle doit le faire.

3. Anticiper des évènements

Un des principaux enjeux auxquels les marques sont confrontées porte sur la gestion

des Bad-buzz. Une marque comme Groupon connaît aujourd’hui beaucoup de

difficultés à maîtriser ce qui se dit sur elle. On peut d’ores et déjà affirmer qu’un bad-

buzz est techniquement inévitable. S’il doit avoir lieu, l’entreprise pourra au mieux,

réduire son importance. L’unique levier d’action réside dans la capacité de l’entreprise à

identifier les causes et y remédier efficacement.

C’est ce besoin auquel le Big Data est en mesure de répondre. Pour une entreprise

comme Groupon qui propose une cinquantaine de Daily Deal en France et par pays

(Allemagne, UK, USA, etc.), le Big Data permet d’identifier en temps réel les retours

clients et de les traiter rapidement. Une série de mesures est ensuite envisageable pour

maîtriser au mieux ce qui va se partager sur la toile. Par exemple, on peut imaginer

qu’une opération d’emailing visant à avertir la totalité des clients sur un défaut de

fabrication produit permettrait à l’entreprise de couper court à toutes mauvaises

publicités et à tout déchaînement numérique.

46

Cet usage est d’autant plus parlant lorsqu’il porte sur des métiers où le risque associé à

un défaut de fabrication est susceptible de remettre en cause l’existence même d’une

société au sein d’un marché. L’exemple du marché automobile est assez parlant.

Nombreux sont les exemples de marques ayant eu du mal à se relever d’un défaut de

fabrication (pédale de freins...) que ce soit en termes financiers ou en terme d’image de

marque. Une entreprise susceptible d’identifier rapidement un défaut de fabrication et

qui contactera alors la totalité des utilisateurs du produit pour les avertir du problème

aura de ce fait gagner sur deux tableaux. Le premier, nous venons de le dire, permettra

à l’entreprise d’éviter un drame ainsi que les conséquences financières et d’image que

cela engendre. Le second permettra dans bien des cas, de rassurer la clientèle sur la

capacité de la marque à anticiper les problèmes. Deux enjeux sont liés à cette seconde

opportunité, la fidélisation et le rapport de confiance entre la marque et le client. Deux

objectifs recherchés par toutes entreprises et qui sont aujourd’hui permis par le Big

Data.

B. Connaître sa clientèle

1. Une granularisation poussée du profil client

A ce sujet, Marc Atallah, directeur chez Deloitte France explique, nous en dit plus sur ce

sujet.

«On exploite désormais toutes les données dont on dispose sur un client, en les mettant

toutes au même niveau, sans les hiérarchiser : leur âge, leur profession, les boutiques

autour de chez eux… Cela nous permet d’établir des profils de clients totalement

nouveaux »65.

Aujourd’hui, la granularisation du client est devenue une évidence. Mais qu’est ce que

cela implique pour les métiers du marketing ?

65

http://mobile.lemonde.fr/technologies/article/2012/12/26/vertigineux-big-data_1810213_651865.html

47

Pour Bruno Walther, une des clés du Big Data est de ne plus raisonner en terme de

moyenne.

« Quand on y réfléchit, toute la pensée marketing est basée sur la moyenne et les

segments. Certes, c’est rassurant et relativement efficace bien sûr. Mais ça ne

fonctionne plus. Raisonner sur la moyenne quand on fait du marketing, c’est aussi

absurde qu’un vendeur de jeans qui dirait qu’il ne propose que des tailles 42 dans sa

boutique parce que c’est la taille la plus vendue. »66

Autre exemple avancé par Bruno Walther, celui des clients qui appartiennent à

plusieurs types de segments et pour lesquels il est difficile voire impossible d’avoir une

vision claire de leurs besoins à un instant T. Un client qui, le midi, ira s’acheter un

sandwich et qui dégustera le soir une bouteille de Dom Pérignon appartient à deux

segments bien distincts. Le problème, dans ce cas de figure, c’est que c’est bel et bien

la moyenne qui sera analysée. Le Big Data permet au marketing de sortir des dogmes

encrés dans les usages depuis l’avènement du commerce.

La situation est similaire lorsque l’on observe les campagnes de publicité sur internet.

En se servant de la granularité de la donnée, on s’aperçoit qu’une campagne peut vite

passer d’un taux de clic de 5% à 0% selon l’heure à laquelle elle est diffusée. Par

exemple, on s’aperçoit qu’au moment où elle est diffusée à la télévision, elle va générer

un taux de clic sur internet 5 à 6 fois supérieur au taux de clic moyen. La raison réside

dans le fait que 72% des possesseurs de tablettes regardent la TV en même temps67.

Encore une fois, l’application de la moyenne induit un gommage de la donnée.

L’approche permise par la granularisation du client apparaît indispensable dans la

compréhension des comportements et dans la mise en place de recommandations

pertinentes.

66

https://www.youtube.com/watch?v=u3uH6MYrAmI 67

http://www.inmobi.com/press-releases/2012/05/10/inmobi-and-mobext-reveal-tablet-users-shop-more-on-their-device-than-pc-and-smartphone-users/

48

Le Big Data permet donc d’identifier les clients et les prospects d’une entreprise non

plus selon les critères comportementaux usuels, mais en construisant une

segmentation nouvelle que l’on qualifiera d’attitudinale, dans la mesure où ils émanent

des avis, commentaires, opinions, souhaits, jugements, valeurs, goûts, préférences,

aversions, critiques, demandes, attentes, réclamations, désirs…

2. Le Community Management et la méthode de l’embasement

Parmi les usages offerts par la granularisation du client, on retrouve l’embasement,

c’est à dire la capacité d’une entreprise à faire correspondre le profil d’un client volatile

avec un profil de sa base clientèle, accessible via CRM. C’est donc sa capacité à

retrouver un client et à l’identifier au delà de ses frontières.

Pour comprendre l’utilité de cette technique, il convient d’effectuer un rapide retour sur

la situation actuelle. En effet, l’efficacité de l’emailing se ternit peu à peu face à

l’émergence de nouveaux moyens de communication bien plus efficaces. On observe

que les taux d’ouverture ainsi que les taux de clics des campagnes sont en chute libre.

Le canal e-mail va perdurer mais on constate une sur-sollicitation progressive des

internautes. C’est pourquoi les marques s’ouvrent aux réseaux sociaux. La tendance

est à l'interaction et la communication directe avec les clients. Cependant, les marques

ont besoin d’aller encore plus loin dans cette interaction grâce à des outils Big Data.

Prenons l’exemple d’un client fidèle, depuis 15 ans, à la marque Sony. Ce client a

acheté un grand nombre de produits (TV, téléphone, baladeur...). Énervé et déçu pour

une raison donnée, ce client décide de poster un message sur la page Facebook de

Sony France. Le community manager de l’entreprise va lui répondre, et le convier à se

rendre dans le magasin le plus proche pour résoudre son problème.

Il est d’ailleurs intéressant de souligner une tendance qui consiste à considérer les

réseaux sociaux comme un espace de “défoulement”. En effet, ces derniers sont

souvent utilisés par les clients pour remonter des retours négatifs (retours d’expérience,

49

produits défectueux). Alors que cette utilisation était jusque là considérée comme une

menace pour les marques, elle peut dorénavant être considérée comme une

opportunité du fait de la capacité de réaction permise par le Big Data.

En appliquant l’embasement, c’est à dire l’exploitation de données externes telles qu’un

profil Facebook et la base de données interne de l’entreprise (qui regroupe tous les

historiques d’achats), l’entreprise va pouvoir corréler les deux informations pour agir

juste. La marque va adopter un ton différent, faire naître une connivence entre elle et le

client. Grâce à cela, la marque valide l’engagement et le degré d’attachement de son

client. En effectuant un audit de l’historique d’achat du client et en le croisant aux

données issues de son profil Facebook, une marque est également en mesure de

proposer des offres commerciales pertinentes et personnalisées. Cette corrélation

permet de reconnaître les ambassadeurs de marque via les réseaux sociaux et d’affiner

leur Net Promoter Score (NPS)68.

Le Big Data, grâce à sa capacité de granularisation permet de proposer aux clients des

services et des recommandations sur mesure, deux moyens qui impactent énormément

la satisfaction client.

68 Le NPS est la part de client prête à recommander une entreprise. C’est généralement ceux qui accordent une note comprise entre 9 et 10 lorsqu’il s’agit d’évaluer les services d’une marque.

50

C. L’avènement du “Marketing on Demand”

1. Les outils de recommandation

Cette granularisation permet de proposer le bon produit au bon client. Cet usage, qu’on

peut rattacher aux outils de recommandation va très vite se retrouver profondément

amélioré par la mise en place d’outils Big Data.

Une entreprise comme Amazon propose un des moteurs de recommandation les plus

efficaces du marché. Cependant, ce dernier montre toute de même certaines limites,

notamment en terme de variété de données. Il puise actuellement sa force sur sa

capacité à gérer la forte volumétrie induite par les données d’achats client. De manière

assez simpliste, l’outil de recommandation d’Amazon s’appuie sur deux types de valeur,

le nom du client et les achats qu’il a effectués.

Exemple :

- Le client A a acheté les livres 1 – 4 – 7 – 9 – 10 au sein d’une gamme produit

- Le client B a acheté les livres 2 – 3 – 5 – 6 – 8 au sein de la même gamme de produit

- Le client A se verra recommander les produits achetés par le client B et vice versa.

En intégrant des données externes, non structurées issues du profil utilisateur, de

nombreuses opportunités marketing sont possibles.

Premièrement, on évite de proposer des contenus que le client est susceptible de

connaître. Comme le souligne Jeremy Howard, professeur à l’université de San

Francisco dans l’ouvrage Big Data Now : Edition 2012,

“Les outils de recommandation actuels n’offrent que peu de nouveautés et de surprises

aux consommateurs. La plupart du temps, les produits recommandés sont basés sur

l’auteur ou le thème. Le Big Data, à travers des outils de recommandation pointus, offre

la possibilité de proposer des contenus qui ne sont pas en tête des ventes et qui ne sont

51

pas du même auteur ni forcement du même thème mais qui peuvent néanmoins

correspondre aux goûts et aux attentes du consommateur.” 69

Jeremy Howard explique :

“Qu’en se basant sur l’intégralité des données utilisateurs, à savoir son profil, ses lieux

de consommation, ses types d’achat, les heures et dates d’achat, ses commentaires et

ses appartenances communautaires, bientôt toute entreprise sera capable de proposer

bien qu’un plus qu’un film du même réalisateur ou un livre du même auteur.” 70

Ainsi, les entreprises seraient en mesure d’offrir un vrai rôle de conseil qu’on peut

retrouver dans les librairies où le client se laisse l’orienter vers ce qu’il est susceptible

d’aimer mais surtout vers un produit qu’il n’aurait sans doute pas acheter sans avoir été

recommandé.

Un autre avantage découle de l’utilisation d’un tel outil de recommandation, la

valorisation du catalogue. Un catalogue est en effet composé de produits qui comporte

de fortes inégalités, où la règle des 20/80 règne depuis des d’années. La

granularisation du client permettrait aux marketeurs de sortir de ce qu’Elie Pariser, CEO

de la société Upworthy, spécialisée dans la mise en place d’outils de recommandation,

appelle « le Bubble Filter », un terme qui décrit la tendance selon laquelle l’affichage de

produits recommandés ne se base que sur des critères de ventes et de popularité. Le

Big Data offre donc la possibilité de sortir de la logique de meilleures ventes ou de

réseaux d’acheteurs (bien qu’efficace) et de disposer d’un Marketing On Demand ou

chaque utilisateur disposerait de son propre algorithme.

Dans le cadre des catalogues de vidéo à la demande, ce type de données permettrait

aux équipes marketing de varier les sources de CA et de doper leurs ventes sur des

contenus à faible valeur ajoutée. Bruno Da Costa Oliveira, Chef de projet au sein de

MYTF1 VOD confirme cette hypothèse. 69 Big Data Now : 2012 Edition, O’Reilly Media Inc., p.30 70 Big Data Now : 2012 Edition, O’Reilly Media Inc., p.32

52

“Les outils de recommandation basés sur un algorithme personnalisé, permettraient en

effet aux services VOD de mettre en avant des contenus souvent peu accessibles au

sein des boutiques. En terme d’image, les outils de recommandation permettent

également de valoriser un positionnement qui se veut proche du consommateur.

Néanmoins, la mise en place de ce type d’outils est basée sur deux principes. Soit il est

uniquement basé sur le parcours du client, auquel cas on tourne vite en rond et c’est le

problème des outils de recommandation actuels. Ce n’est pas parce que l’on clique sur

un contenu qu’on a envie de l’acheter. Or un outil de recommandation se basera sur ce

parcours pour proposer d’autres contenus du même genre. Le problème peut très vite

devenir contraignant car on se voit proposer des contenus sur la base d’une navigation

où l’erreur est fréquente. Deuxième solution, l’outil de recommandation est basé sur un

écosystème interne où l’on fait parler au maximum le consommateur à travers des

commentaires, des Likes et autres outils qui permettent de cerner au mieux son profil”. 71

C’est justement cet écosystème qu’essaye de mettre en place Amazon à travers ses

fonctionnalités de Like et de commentaires (sur un produit ou entre clients).

Dans le livre Big Data Now : Edition 2012, Jeremy Howard, comme Bruno Da Costa

auparavant, aborde également le thème de l’allongement de la durée de vie des

produits ou du « lifetime value». Sur des secteurs comme la VOD, ce sont les produits

les plus “chauds” qui réalisent 80% des ventes, voire plus. En remontant des contenus

à faible valeur mais qui correspondent pourtant aux goûts de l’utilisateur (Les Dents de

la Mer, Apocalypse Now), on tend à faire baisser le ratio 20/80 et à équilibrer le CA

réalisé sur l’ensemble de la boutique. Bruno Da Costa nous cite plusieurs exemples qui

pourraient permettre d’atteindre cette finalité.

“Offrir des réductions sur des produits que le consommateur n’était pas prêt à acheter

ou aurait acheter ailleurs, offrir aux consommateurs des réductions sur des produits qu’il

n’aurait sans doute jamais acheté mais qu’il est susceptible d’aimer, offrir les premières

71Entretien Bruno Da Costa - Chargé de l’innovation produit - MYTF1 VOD - 15 mai 2013

53

minutes ou les premières pages d’un livre ou d’une vidéo fréquemment visité mais

jamais converties.”

Ici, nous sommes cependant dans un cas de figure où le prix d’achat reste peu élevé.

Les taux de transformation sont différents lorsqu’il s’agit par exemple d’acheter un jean.

Le prix ainsi que l’incertitude liée à la qualité du produit et à sa taille sont autant

d'éléments qui peuvent freiner considérablement l’achat.

Pour répondre à ce défi, certaines entreprises mettent en place des approches

créatives pour récolter et traiter des données qui permettent de booster les ventes

vestimentaires. Zafu, une agence spécialisée dans la mise en place d’outil de

recommandation, débute par une série de questions à propos du corps de l’internaute

(ses dimensions, son gabarit, ses spécificités…), comment l’internaute porte les jeans

qu’ils possèdent, quelles sont ses préférences en terme de style, et bien d’autres

questions. Il propose par la suite une série de produits triés par gamme, et demande à

l’utilisateur de donner son avis sur ce qu’il voit (“not for me” ou “I love it”).

Une fois ces étapes de renseignement et de collecte de donnée effectuées, la

plateforme met au point l’algorithme personnalisé qui permettra de proposer les bons

produits au bon client. On peut clairement identifier les avantages opérationnels que

cette solution apporte à l’entreprise.

Premièrement, boosté par la pertinence des produits proposés, le taux de conversion

sur la plateforme tend à augmenter de façon significative. En toute logique, le résultat

communiqué par Zafu fait état d’une augmentation du taux de conversion de 154% sur

les plateformes qui utilisent cet outil.

Deuxièmement, en réduisant les freins à l’achat, l’algorithme personnel permet

d’augmenter le panier moyen. Le résultat communiqué par Zafu fait état d’une

augmentation du panier moyen de 11%. A titre d’exemple, le panier moyen sur une

plateforme comme Placedestendances.com représente environ 55€. En mettant en

54

place un outil similaire, la plateforme augmenterait son panier moyen de 6€ et le ferait

passer à 61€. Sur une base clientèle de 200 000 clients/an, le chiffre d’affaires pourrait

grimper à 12 200 000 € au lieu de 11 000 000 € actuellement.

Autre avantage qu’offre la solution de Zafu porte sur le management de la qualité. Le

chiffre avancé par la société montre une baisse des retours clients de 9%. Le Big Data

et plus précisément l’adoption d’algorithme personnalisé permettent, en proposant les

produits adaptés aux besoins du client, de réduire les insatisfactions.

Enfin, cela permet également de créer un dialogue avec l’utilisateur et d’éviter

d’hypothétiques dérives du Big Data, comme l’absence totale de lien avec l’internaute.

C’est effectivement une des craintes prononcées par Daniel Kaplan, directeur général

de la fondation internet nouvelle génération, qui explique que :

« Desfois, si on veut savoir ce que quelqu’un aime, est ce qu’on ne ferait pas mieux de

lui demander ? Cela permet d’éviter une situation au sein de laquelle l’entreprise n’aurait

plus aucun intérêt à communiquer à ses clients. » 72

L’outil de recommandation fait donc parti des applications du Big Data. Néanmoins, il

est possible d’aller plus loin dans la personnalisation du point de vente.

2. Vers une “boutique on demand”

Si une entreprise est capable de connaître les produits qui vont générer le plus fort taux

de transformation chez un client, pourquoi s’arrêter au simple outil de

recommandation ? En effet, chaque client dispose de ses propres critères de sélection

et de navigation. En fonction des segments, certains clients sélectionneront

automatiquement des tris par prix, d’autres par nouveautés. Certains clients

sélectionneront automatiquement des filtres par genres, que ce soit pour des vêtements,

72

http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value/avis-experts.html

55

des livres, des films, voire des meubles. Chaque client dispose d’un tropisme73 qui lui

est propre dans sa manière de naviguer sur le web.

C’est à partir de ce constat que la société Adku a conçu un algorithme personnalisé afin

de proposer une boutique sur mesure pour chacun des clients. Cette société, rachetée

par Groupon au bout de seulement 6 mois d’existence, a évidemment mis le doigt sur

un enjeu majeur pour les prochaines années. Le rôle de la plateforme s’en trouve

radicalement changé puisqu’il ne s’agit plus alors que d’une structure fixe (cadre

inchangé, emplacement des catégories similaire) au sein de laquelle les catégories de

produits s'adapteront en fonction de l’utilisateur.

On comprend bien l'intérêt d’une société comme Groupon à proposer ce type

d’avantage à ses clients. Le principe de Daily Deal et la diversité des offres sont autant

d’arguments pour proposer rapidement aux clients ce qu’il ont l’habitude d’acheter ou

de consommer. Cette personnalisation est un bon levier de fidélisation.

De la même manière, on réduit considérablement la réduction du temps de parcours

utilisateur et par conséquent le nombre de clic nécessaire au client pour trouver ce qu’il

souhaite. A ce titre, comment répondre au mieux à ce prérequis autrement qu’en

proposant une Plateforme On Demand qui prend en compte l’historique de navigation

de l’utilisateur pour lui proposer ce qu’il aime ? En allant plus loin, nous pourrions même

mettre en place une boutique qui proposerait à l’utilisateur ce qu’il va ou compte acheter.

Alors, possible ?

3. Un marketing prédictif

Gilles Babinet, investisseur dans de nombreuses start-up dont Captain Dash, l’assure.

“Ce qu’on est capable de faire avec la météorologie et la prévision à quinze jours est

possible dans tous les domaines. Par exemple, en analysant les recherches et les

73 Tendance naturelle et/ou intrinsèque à tendre vers quelque chose ou quelqu'un

56

habitudes de navigation des internautes pour tenter de deviner quels seront leurs

prochains achats. Et leur proposer de façon proactive des publicités ou des produits

correspondants. Jusqu’ici, lorsqu’un internaute effectuait une recherche sur un produit

(un vol, un appareil photo, une machine à laver, etc.), les spécialistes du « retargeting »

étaient capables de proposer une bannière liée à ce produit. Il est d’ailleurs devenu

fréquent de voir apparaître des publicités ciblées après une recherche (cf. cookie

tiers).”74

Il devient possible de prédire si une personne pourra être intéressée par des produits

proches, comme une réservation d’hôtel, une location de voiture ou une caméra vidéo.

Gille Babinet va plus loin dans l’analyse.

“C’est là tout l’enjeu du Big Data : faire des propositions sur la base de l’historique client

mais qui disposent tout de même d’une forte valeur prédictive. La barrière est assez

abstraite, pourtant il s’agit bien de prédire les actes de consommation d’un client sur la

base de ses recherches récentes. Dans le cadre d’un parcours GPS, on pourra très bien

mettre en avant certains itinéraires plutôt que d’autres en fonction des recherches. C’est

finalement bon pour le business mais également bon pour le client, qui dispose d’un outil

qui lui met l’intégralité des solutions à disposition. Il y a énormément de cas d’usages”. 75

Parmi ces usages, on retrouve l’exemple d’une plateforme américaine qui permet de

connaître le pourcentage de chance que deux personnes ont de tomber amoureux.

Un autre exemple en dehors de la sphère marketing, illustre lui aussi le potentiel

prédictif du Big Data. En effet, plusieurs grandes villes américaines se sont équipées du

logiciel PredPol (pour Predictive Policing), qui permet de prédire où et quand un crime

va se produire. Grâce à une base de données recensant les infractions passées,

l’algorithme, tenu secret mais disponible à la vente, permet d’aiguiller très précisément

les forces de l’ordre. Alors qu’aucune infraction n’a encore été commise, une patrouille

est envoyée à un lieu donné directement par PredPol. Le système, accessible depuis

un ordinateur, une tablette, ou même un Smartphone, s’actualise en temps réel et

74

http://www.laposte.fr/lehub/Peut-on-imaginer-de-predire-le 75

http://www.laposte.fr/lehub/Peut-on-imaginer-de-predire-le

57

détermine les zones à risques, celles où la probabilité d’infraction est la plus importante.

À Los Angeles, entre novembre 2011 et mai 2012, ce dispositif a contribué à faire

chuter de 33 % les agressions et de 21 % les crimes violents. À Santa Cruz, le nombre

de cambriolages a diminué de 19 % sur les six premiers mois de l’année.

Enfin, dans le domaine de la santé, les acteurs du Big Data tels qu’IBM se sont déjà mis

en route. Certainement parce que le volume d'informations de ce marché a doublé en

cinq ans et sans doute parce que les médecins ont de plus en plus de patients.

Pour cela, IBM a créé Watson76, une machine qui possède une capacité de traitement

inégalée et, qui est capable d'analyser 20 millions de pages de données en moins de

trois secondes. IBM a par ailleurs ajouté un programme d’intelligence artificielle conçu

dans le but de communiquer avec les professionnels de la médecine, et ce, dans le

langage humain. Enfin, il inclue une plateforme Big Data permettant l’agrégation de

multiples sources de données. Cette merveille technologique peut être programmée

pour intégrer toutes les publications médicales, les dossiers des patients et les

encyclopédies de médecine. Les capacités d’analyse de Watson lui permettent de

traiter toutes les données rassemblées autour d’un patient, à savoir ses symptômes, les

remarques faites par le médecin, les entrevues avec le patient et ses antécédents

familiaux.

Wellpoint, une entreprise américaine d’assurance maladie, a signé un partenariat

commercial avec IBM pour équiper des hôpitaux. Quatre, à ce jour, l’utilisent déjà dans

le but d’améliorer les soins de santé pour des millions d’américains. Des dizaines de

milliards de dollars pourraient être économisés si les soins étaient dispensés de

manière plus pertinente, en tenant compte et en exploitant de manière plus efficiente

tout ce que l'on sait déjà.

76

http://www-05.ibm.com/fr/watson/

58

4. Le Big Data et la recherche de la Qualité

La majorité des entreprises mettent en action le management de la qualité qui a pour

objectif l’amélioration des performances à la fois en interne (collaborateurs) mais aussi

en externe (clients, partenaires, actionnaires). Ce perfectionnement peut être apportée

par l’usage du Big Data, comme nous le démontre l’exemple de l’entreprise UPS

spécialisée dans le transport et la livraison de colis.

Lorsqu’une organisation aussi importante qu’UPS constate le moindre problème sur sa

flotte de véhicules, une partie de la promesse “vous amener plus loin” peut prendre fin.

La réduction des coûts de non qualité apparaît comme essentielle. UPS, par la mise en

place de nouvelles technologies sur sa flotte géante en implémentant le Big Data va

pouvoir économiser des millions de dollars par an et ainsi exceller dans un domaine

clés.

Tous ces bénéfices vont être apportés par la collecte et l’analyse de données recueillies

par des capteurs placés sur les camions que ça soit au niveau du moteur, des

suspensions, des freins ou des pneus. Par conséquent, ils peuvent observer en temps

réel la charge d’utilisation des camions sur toute sa structure. Ils n’ont donc plus besoin

de changer des pièces de manière régulière alors qu’elles pourraient fonctionner

correctement encore quelques années.

En mettant en pratique le Big Data, l’entreprise a réalisé des économies, améliorer les

conditions de travail des conducteurs et a réduit considérablement son empreinte

carbone, mais pas seulement car les autres entreprises du secteur n’ont pas encore

adopté cette pratique, ce qui représente pour UPS un avantage concurrentiel non

négligeable par rapport à FedEx ou DHL.

59

IV. Difficultés et dérives du Big Data

A. Un principe de prédiction remis en cause

1. Les techniques prédictives encore peu rentables

Ne nous trompons pas sur l’origine du terme “prédiction”. Il s’agit bien de la mise en

place d’hypothèses qui tendent à se réaliser dans le futur et qui sont issues d’une

analyse passée et historique.

Comme nous l’ont montré les business cases, les projets Big Data se sont toujours

basés sur de l’analyse historique (parcours navigateurs, actes ou intentions d’achat).

C’est le passif et “les empruntes numériques” des internautes qui permettent aux outils

Big Data d’effectuer des recommandations et de pousser certaines offres ou services.

Seulement, quelle est la véracité de ces modèles dans le moyen et long terme ?

Michael Wu, Chief Scientist de l’entreprise Lithium Technologies prend pour exemple

les prévisions météorologiques. Selon lui, si l’on recueille toutes les données météo du

jour et qu’on les utilise pour une prédiction, les résultats ne seront uniquement valables

à court terme. Si l’on applique cette prévision sur un mois, la pertinence sera forcement

moindre. 77

Appliquée aux domaines du marketing, de la communication et de la publicité, cette

inexactitude parait compliquée à appréhender au-delà d’un laps de temps supérieur à

quelques jours voire quelques heures. En effet, quelle sera la véracité d’un avis client

au delà d’une semaine ? Les modifications comportementales qu’ont entraîné le

numérique sont complexes à mesurer. Cependant, la navigation et les achats sur

internet se font de plus en plus impulsif. La montée en puissance de plateformes de

Daily Deal (VentePrivées.com), d’achats groupés (Groupon) ou d’enchères (Clic’n’take)

77

https://lithosphere.lithium.com/t5/science-of-social-blog/Big-Data-Big-Prediction-Looking-through-the-Predictive-Window/ba-p/41068

60

souligne une tendance nouvelle : les actes d’achats sont basés sur l’offre tarifaire et de

moins en moins sur de véritables besoins à moyen terme. C’est clairement le prix qui

conditionne l’achat et non plus le besoin consommateur. Nous sommes davantage dans

un schéma où l’utilisateur va chercher l’hypothétique besoin qu’il est susceptible de

combler au prix le plus avantageux. Les entreprises sont donc face à un défi complexe

bien résumé par Tarah Hunt dans son livre “The Whuffie Factor” :

“Comment trouver une logique dans le comportement d’achat d’un internaute alors que

les marques tentent, depuis 10 ans, de remplacer toute notion de logique par une notion

d’instantanéité et d’impulsion ? L’internaute navigue de manière totalement aléatoire sur

le web et les applications. Tenter d’y trouver, par la publicité, une source de revenu

exponentiel me parait trop complexe et illusoire, que ce soit aujourd’hui ou demain”. 78

En partant de ce constat, peu d’entreprises sont aujourd’hui en mesure d’investir des

budgets communication à partir d’indicateurs de véracité aussi faibles. Dans le domaine

de la publicité, le Big Data n’a pas encore fait ses preuves. Selon Criteo, le leader de la

publicité ciblée en ligne, les taux de clic issus des recommandations prédictives sont

inférieurs aux produits classiques de « retargeting » (deux fois environ), mais au moins

trois fois supérieurs aux bannières classiques. Les méthodes de retargeting sont donc

deux fois plus efficaces que les méthodes de recommandation prédictives.

Techniquement, les méthodes de retargeting disposent effectivement d’un ratio

risque/gain plus faible. Cela permet aux annonceurs d’investir des sommes publicitaires

avec un retour sur investissement plus fiable.

Ce retard à l’allumage s’explique aussi de manière conjoncturelle. En France par

exemple, le marché de la publicité numérique n’est pas suffisamment mature pour

adopter des techniques aussi pointues même dans un avenir proche. Les annonceurs

comme les agences ne sont pas vraiment engagées dans un cercle vertueux

d'innovation et de prise de risque. Les uns comme les autres se replient sur des

techniques de communication traditionnelles et n'hésitent pas à couper des budgets

78 HUNT, Tarah, The Whuffie Factor, 2009, 320 p.

61

initialement alloués aux nouveaux médias. Toujours selon la même étude le digital

devrait passer en France de 20,9 % aujourd'hui à 24,6 % des investissements

publicitaires en 2015, contre 41 % au Royaume-Uni. Le retard de l'Hexagone, déjà

perceptible en 2012, devrait s'accentuer. Le constat est sensiblement le même sur les

objets connectés de type Smartphones ou tablettes. Tandis que le marché pèse environ

526 millions de livres, il ne représente en France que 48 million d’euros.79

Toutefois, Olivier Mazeron, président de GroupM Interaction (WPP) tempère ce constat.

“Bien que le marché soit, d’une manière générale atone et plutôt frileux, En terme

d'innovation, la France est plutôt en avance sur la data et la publicité ciblée.”

2. Une durée d’intégration plus longue que prévue

Alors que dans les faits, les méthodes de retargeting existent depuis plusieurs années

grâce à l’utilisation des cookies tiers, elles ne sont mises en place par les entreprises

que depuis 1 ou 2 ans. Facebook par exemple, a lancé son propre système de publicité

ciblée et de retargeting début 2013. Ce dernier prend en compte les requêtes et

navigations effectuées en dehors de la plateforme et “retarget” l’utilisateur une fois que

ce dernier est sur son fil d’actualité. La mise en place de ce système par Facebook à ce

stade d’usage en dit long sur le laps de temps nécessaire entre l’implémentation d’une

technologie et son adoption par les entreprises.

Autre exemple, toujours sur Facebook, les publicités ciblées. La firme américaine

propose depuis peu un service publicitaire destiné aux marques ou associations qui

vise à granulariser au maximum la cible recherchée. Cet outil permet, par exemple, de

toucher la cible Londonienne, fan de Rock’n’roll, entre 18 et 25 ans, et fan des Rolling

Stones. Dans ce cas précis, il s’agit bien d’un exemple d’utilisation massive de données

variées et externes, et donc de Big Data. Ces usages sont suffisamment nouveaux pour

les entreprises. Leurs adoptions vont prendre 2 voire 3 années avant d’être totalement 79 http://www.lefigaro.fr/medias/2013/05/05/20004-20130505ARTFIG00114-la-france-en-retard-dans-la-publicite-numerique.php

62

démocratisés, adoubés et compris par toute la chaîne de production de l’entreprise.

Autant de temps qui retarde l’hypothétique mise en place de publicités prédictives.

Le chemin semble donc encore long pour que le marché intègre les techniques de Big

Data et son caractère prédictif, cependant, dans le secteur de la veille, les enjeux et les

difficultés sont différents.

3. Une veille améliorée par l’arrivée du Big Data

Comme vu précédemment, la vérité consiste à considérer le Big Data comme capable

de proposer des hypothèses comportementales à très court terme. Cette donnée

implique une gestion des données en temps réel comme l’explique Julien Moreschetti.

“Il faut savoir où chercher. Sans piste et sans historique, tenter de prédire une tendance

ou des changements comportementaux relève de l’impossible. Dans le cadre de la

campagne d’Obama et des algorithmes mis au point par Nate Silver, ils savaient

exactement où chercher. Les périodes d'élection sont cycliques et les points d’échanges

sont clairement identifiés. Néanmoins, dans le cas d’une marque, qui souhaite en

partant de rien, prédire les comportements de ses clients, ça relève du domaine de

l’impossible. Une marque a besoin de points de repère. Internet est trop grand pour

tenter ce genre d’approche. C’est lorsqu’un phénomène s’est déjà produit et que la

source du bruit a bien été repérée qu’une entreprise sera capable de tracker et

d’anticiper un évènement. C’est cet effet d’expérience qui va permettre aux entreprises

de disposer de données prédictives”.

Philippe Kuhn nous parle également de la situation et du travail qui attend les

entreprises au cours des prochains mois et années :

“Aujourd’hui, les solutions Big Data ne permettent pas de solutionner tous les problèmes

ni de répondre à toutes les questions des entreprises dans le domaine du marketing et

plus particulièrement de la veille. Dans quelques années, lorsque les marques auront

appris à analyser chacun des phénomènes impactant pour elles, c’est à dire sa

63

localisation, sa manifestation, les leaders d’opinion associés, les sources et plateformes

de relais... les nouveaux usages de veille seront démocratisés et permettront aux

marques de devenir plus intelligentes.” 80

C’est donc une veille constante de son marché qui permettra aux marques d’utiliser et

d'appréhender le caractère prédictif des outils Big Data. Sans cette étape qui s’avère

essentielle, le Big Data ne permet pas de cadrer le périmètre d’action et d’influence de

sa marque sur la totalité du web. Ce challenge relève en effet de l’impossible, que ce

soit en terme technique ou fonctionnel. Techniquement, la quantité de données serait

évidemment trop grande et les recherches trop vastes. Fonctionnellement, l’analyse par

les équipes de Data Scientist ou Marketing serait toute sauf productive et difficilement

pertinente. Julien Moreschetti confirme :

“Il est fondamental de choisir les bons mots-clés, les bonnes sphères de recherche afin

d’avoir des résultats facilement exploitables et suffisamment pertinents pour qu’ils

puissent être exploitables par les pôles décisionnels. C’est un travail complexe à la fois

au niveau de l’entreprise que de notre côté chez IBM. Nous devons paramétrés les

outils pour qu’ils correspondent aux objectifs de recherches de l’entreprise. Du côté de

l’entreprise cliente, elle devra opérer ses propres recherches en amont et connaître son

marché”.81

Encore une fois, le Big Data implique de ne pas tomber dans un manichéisme primaire.

Les résultats diffèrent en fonction des usages et des contextes. Nous sommes

cependant sûrs que le Big Data apporte des réponses supplémentaires dans le ciblage

clients et dans la connaissance de ses besoins à court terme.

80 Entretien Philippe Kuhn - Chargé Veille & Innovation - Digimind - 20 mai 2013 81 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013

64

B. La difficile conduite du changement au sein de l’entreprise

Nous l’avons vu plus haut, le Big Data implique des prérequis, qui nécessitent des

investissements, qu’ils soient financiers, humains, ou organisationnels. Cependant, au-

delà de ces investissements, les entreprises doivent pour la plupart faire face à de

nombreuses difficultés.

1. Les entreprises ne sont pas prêtes

Parmi ces prérequis, on peut placer en premier la stabilité et la robustesse de

l’infrastructure technique, qui est aujourd’hui indispensable pour effectuer une montée

en charge au niveau de la masse de données ou pour ajouter une brique à cette

architecture dans le but d’améliorer et d’approfondir les traitements. Or, s’il s’agit d’une

évidence, Henry Isaac explique que la réalité est bien différente.

“Pour des raisons pratiques, on constate que dans les faits, la tendance est au contraire

à la réduction de la quantité et de la nature des données. On est plutôt dans une logique

de “Small data” avec pour question principale “De quelles données ai-je vraiment

besoin ?”. Cette tendance s’explique par le fait que dans beaucoup d’entreprises

rencontrent des difficultés énormes pour mettre en place des architectures techniques

capables de traiter une quantité de données importante.” 82

Alors que l’on serait tenté de penser que ces contraintes sont réservées aux TPE et aux

PME, on s’aperçoit que de nombreux groupes Français rencontrent eux aussi de

sérieux problèmes lorsqu’il s’agit de mettre en place des architectures viables et

pérennes. C’est ce que nous confirme une nouvelle fois Henry Isaac.

«Certains groupes Télécom sont confrontés depuis 15 ans à des problématiques de

volumétrie. Ils travaillent sur des sets de données, des technologies de requêtage et de

vectorisation. Là où ils pourraient travailler sur 25 variables, ils n’en retiennent que 2. La 82 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013

65

raison est toujours financière. Cela nécessite des serveurs, du temps, des ressources,

et quel est le bénéfice pour l’entreprise ? Quasiment nul. Aujourd’hui, le coût de la

donnée est trop cher et le bénéfice n’est pas suffisamment visible. Par conséquent,

beaucoup d’entreprises décident de réduire leurs niveaux de connaissance.”

Pour le moment la complexité, le coût, et le temps nécessaire à la mise en place

d’architectures Big Data impliquent des investissements trop importants pour les

entreprises. Prochainement, les choses peuvent changer. Une évolution du marché du

Cloud permettra de simplifier les problématiques de stockage et de faciliter l’accès aux

entreprises qui bloquent sur les coûts d’installation parfois démesurés qui leurs sont

demandés. C’est ce qu’avance Luc Byhet.

“L’évolution du Cloud représente une véritable porte d’entrée pour le Big Data. Aux USA,

le Cloud a permis une véritable démocratisation du stockage et du traitement de la

donnée. En France, le retard est assez grand et le marché présente trop de barrières

d’adoption. Cela fait effectivement parti des évolutions qui vont permettre la mise en

place d’outils Big Data. Le Cloud est trop petit pour le moment83, surtout dans des gros

volumes de données. pour espérer une adoption massive des entreprises.” 84

Le Big Data fait donc figure de paradigme. Les idées et les concepts évoluent 20 fois

plus vite que les sociétés qui composent l’économie réelle. Le gap entre ce que l’on

souhaite et ce qui existent réellement est immense et ne risque pas, selon nous, d’être

résorbé avant de nombreuses années.

83 http://www.journaldunet.com/solutions/cloud-computing/marche-du-cloud.shtml 84Luc BYHET - Chargé de l’innovation & stratégie marketing - Commerce Guys - 30 mai 2013

66

2. Les organisations internes ne sont pas prêtes

La restructuration d’une architecture d’entreprise est une mission extrêmement

complexe, qui demande du temps, de la patience et des compétences organisées

autour d’un même objectif. Mais ce n’est pas tout, les difficultés sont également d’ordre

organisationnel.

“Dans 90% des cas, les entreprises arrêtent le projet au début, parce que le principal

problème d’une entreprise, c’est l’étape de l’ETL, qui représente 80% d’un projet de

structuration de la donnée. Les entreprises passent un temps fou à trier les données.

Pour éviter cela, les DSI mettent en place un contrôle de qualité de la donnée qui

entraîne une restriction d’usages. Si demain on décide de supprimer les restrictions

imposées pour la saisie des factures, il y a de fortes chances pour que les personnes

qui s’occupent de l’analyse des réponses se retrouvent dans votre bureau dans les 10

minutes qui suivent. Les données seront impossibles à analyser car elles n’auront plus

de structure. Si l’opérationnel est perturbé, c’est toute l’entreprise qui s’arrête. 85

Le problème posé par Henry Isaac porte sur ce qu’on appelle le “Master Data

Management” ou “la gouvernance de la donnée”. Qui est responsable de la donnée, de

sa définition, de son périmètre, de sa mise à jour ? Qui assure sa fiabilité et sa

véracité ? Au delà des difficultés techniques évoquées ci-dessus, la gouvernance de la

donnée est également l’un des prérequis indispensables.

“Vous avez des données mais vous ne pouvez rien en faire. C’est la réalité quotidienne

du Business Intelligence. Pourtant, nous sommes sûrs de la donnée structurée, interne,

dont le périmètre est maîtrisé par l’entreprise. Quels seraient les résultats avec des

données non structurées issues des réseaux sociaux ? Maintenant, ça ne veut pas dire

que c’est impossible, mais simplement que la réalité est toujours plus besogneuse que

ce qu’on imagine. La qualité de la donnée est un enjeu fondamental. D’où vient la

donnée ? Qui l’a produit ? Qui peut valider sa véracité ? Le Big Data implique les

mêmes niveaux de complexité bien supérieurs au niveau de compétences actuel des

entreprises.” 85 Entretien Henry ISAAC - Professeur Associé Paris-Dauphine - 28 mai 2013

67

On comprend donc qu’au delà des prérequis techniques et organisationnels, la qualité

de la donnée est un véritable problème pour les entreprises.

3. Le problème majeur que représente la qualité de la donnée

Le Big Data implique une pondération de la véracité des données. En partant de

constat, les entreprises sont prévenues, il est impératif qu’elles fassent preuve de

méfiance à l’égard des données générées par le web. Cependant, cela rend-il les

données inexploitables ? La réponse est oui en grande partie.

En effet, à l’heure où un pourcentage non négligeable des avis publiés sur les

plateformes sociales ne peut pas être considérées comme valables, comment mettre au

point des recommandations jugées pertinentes au niveau marketing ? En allant plus loin

dans le processus décisionnel de l’entreprise, comment justifier un investissement

marketing en tenant compte de cette part (petite ou grande) d’incertitude ?

Le récent exemple86 de Peter Hook, qui, au cours des deux dernières années et sous le

pseudonyme “Tavare” n’a publié pas moins de 105 avis visant à discréditer ses

concurrents montre bien cette difficulté. Cette politique de faux avis, qu’on

appelle “astroturfing” aux USA, est un véritable fléau pour les sites de

recommandations. Selon une étude publiée en avril 2013 et réalisée par le

cabinet Edelman Berland auprès de 35.042 participants dans 26 pays (15.595

voyageurs et 19.447 entreprises), 44% des internautes ont choisi leur dernier

hébergement en se basant uniquement sur les avis en ligne87.

Au niveau de l’entreprise, c’est donc l’intégralité des données créées qui deviennent

inexploitables. Peu importe le traitement que l’on en fait et le travail effectué en interne.

Comme nous l’a expliqué Julien Moreschetti lors de notre entretien “garbage in,

garbage out”. Une donnée biaisée à la base ne pourra donner suite qu’à un résultat

86http://www.latribune.fr/entreprises-finance/services/tourisme-loisirs/20130527trib000766783/accor-victime-de-la-malveillance-de-

l-un-de-ses-employes-en-australie.html 87 http://www.leparisien.fr/high-tech/les-avis-en-ligne-influencent-9-voyageurs-sur-10-selon-tripadivsor-04-04-2013-2696899.php

68

caduque donc impossible à interpréter. La donnée doit être considérée comme un

produit ou plutôt comme une matière première. La démarche d’assurance qualité est

indispensable, elle va permettre d’assurer le bon fonctionnement des prochaines étapes

de la chaîne de production.

Par extension, il s’agit bien de traiter la problématique de la cyber sécurité. Si une

société décide de mettre en difficulté une société concurrente, il suffit pour cela de

hacker ses sources d’informations pour mettre à mal son algorithme et donc la

pertinence même de ses résultats. Nous mettons en garde ici sur un véritable point

faible qui vaut pour l’intégralité des acteurs du web et qui serait susceptible d’être

hautement préjudiciable pour n’importe quelles entreprises.

C. Le Big Data, c’est pour quand ?

Des investissements techniques colossaux, des réflexions organisationnelles

complexes et profondément engageantes, des résultats plus besogneux à obtenir qu’il

n’y parait, des incertitudes sur la qualité de la donnée, des questions sur l’évolution des

technologies.... L'énumération des doutes et des contraintes concernant la mise en

place et l’application des solutions Big Data ne manquent pas. Quel est alors l’état du

marché et sa maturité par rapport à l’arrivée du Big Data ? Henry Isaac nous a fourni

des éléments de réponses.

“À l’heure où je vous parle, 99% des entreprises ne sont pas en mesure de mettre en

place ce type de solutions. Mon expérience montre qu’elles n’ont pas encore assez de

maturité pour implémenter des systèmes cohérents et fonctionnels. La majorité des

sociétés, en dehors des firmes internationales comme Facebook et quelques exemples

américains, qui prétendent maîtriser les 4V du Big Data sont évidemment conscientes

de l’apport en terme d’image que cela peut représenter. A ce titre, on peut très bien

considérer le Big Data comme un coup marketing, et ça l’est en partie. Le Big Data fait

vendre. Les entreprises cherchent à se démarquer et à trouver de nouvelles sources de

revenus grâce aux évolutions technologiques. Des entreprises comme IBM qui se sont

69

positionnées sur le marché du Big Data depuis plusieurs années disposent aujourd’hui

d’une position importante sur le marché. Les raisons s’expliquent par une très bonne

communication sur leur activité, leurs dépenses en R&D, et leurs offres de service. Or

aujourd’hui, nous sommes davantage au stade d’une Business Intelligence améliorée,

nous tendons vers le Big Data, mais il reste de belles années au marché pour qu’il soit

maîtrisé et adopté.” 88

Ce constat assez unique pour être souligné est également partagé par Luc Byhet :

“On l’a bien vu avec les précédentes arrivées technologiques qu’ont représenté la

Business Intelligence, le marché met énormément de temps à appréhender les

nouveaux usages. A ce titre, j’évaluerais l’arrivée du Big Data entre 2015 et 2020. D’ici

là, certaines entreprises mettront en place de très bons systèmes, mais elles resteront

extrêmement marginales. Il faut aussi être clairvoyant sur ce qu’il se passe

véritablement. Des sociétés comme IBM ou Cap Gemini font plus de bruits qu’autres

choses. IBM n’innove pas constamment mais rachète des sociétés qui travaillent sur le

sujet. Le Big Data est une affaire d’acquisitions bien sentie. Les acteurs font du

“vaporware”, des effets d’annonces qui ont pour but de se positionner en tant que leader

d’une technologie qui n’est pourtant pas ou très rarement mis en pratique. Pour le

moment, ce sont avant tout des budgets marketing colossaux et des stratégies

d’évangélisation. De plus, les technologies à base des fondements du Big Data comme

le NoSQL s’avèrent très instables. L’effet d’annonce passé, beaucoup d’acteurs se

rendent compte que le NoSQL n’apporte, pour l’instant, pas les réponses tant espérées.”

Tandis que le Big Data est présenté comme “la prochaine étape pour les entreprises”,

nos études montrent en effet que beaucoup d’étapes intermédiaires sont

indispensables pour atteindre et relever ses challenges, aussi bien techniques

qu’organisationnels.

On est encore dans la promesse du début du marché. Actuellement, les compétences

ne sont pas encore là et il reste sans doute de nombreuses années avant que ce

88Henri ISAAC - Professeur associé Paris-Dauphine - 28 mai 2013

70

phénomène puisse efficacement produire tous les bénéfices qu’il prétend apporter. Un

autre point assez important pour être souligné porte sur le cadre juridique censé

entourer le traitement de la donnée à grande échelle.

D. Cadre juridique et réveil de l’internaute

Quelles sont les évolutions possibles du marché en ce qui concerne la protection de

l’utilisateur ? En effet, il est clair que le Big Data repose sur une manne d’informations

utilisateurs libre de droit et d’exploitation. Cependant, que se passerait-il si toutes ces

informations, sous la pression des gouvernements et de la méfiance des internautes,

venaient à se tarir ?

Il y a un an, une étude réalisée par le cabinet Domo89, montrait qu’à chaque minute,

plus de 100 000 messages étaient postés sur Twitter, 684 000 messages (liens, statuts,

photos, etc.) partagés sur Facebook, 48 heures de vidéos envoyées sur Youtube, et

3600 photos postées sur Instagram. Nous l’avons affirmé tout au long de ce mémoire,

le grand défi de la prochaine décennie consiste à exploiter ces données. Facebook a

d’ores et déjà révolutionné le marché publicitaire grâce aux informations récoltées

depuis sa plateforme sociale. Une démocratisation des outils d’analyse sémantique

permettra d’ici peu d’en faire de même avec des plateformes comme Instagram ou

Pinterest. La stabilité de leurs systèmes repose donc sur un seul et unique :

l’exploitation et la vente de ces données, qui s’effectue jusqu’à présent sans réel

problème ni contestation extérieure.

Deux éléments sont pourtant susceptibles de remettre en cause cette tendance. Pour

l’instant, rien ne laisse présager une insurrection de la part des internautes ni un

encadrement sévère de la part des gouvernements. Pourtant, il semblerait que les

choses soient en mesure de changer, tout du moins, le débat est ouvert.

89 http://www.journaldunet.com/ebusiness/le-net/barometre-confiance-numerique.shtml

71

1. Le rôle fondamental de l’internaute 55% des français ont conscience de l’utilisation de leurs données à des fins publicitaires

et 30% craignent que leurs données soient utilisées à des fins publicitaires. Au cours

des prochaines années, il est inéluctable que ce pourcentage augmente pour atteindre

finalement les 80 ou 90% avant 2020.

a. Les réseaux sociaux

En 2011, environ 35% des internautes témoignaient une relative confiance dans les

réseaux sociaux, en 2013, ils sont 32%. Cette baisse de 3 points est importante. 2

français sur 3 ne font pas confiance dans les réseaux sociaux. Combien seront-ils en

2020 et quelles sont les raisons de cette méfiance ? Les principales raisons évoquées

portent directement sur l’utilisation de leurs données.

En effet, 82% des personnes interrogées sont gênées par l’utilisation de leurs données

à des fins publicitaires. Pour éviter de recevoir des publicités, 47% d’entre eux

communiquent même de fausses informations. Alors, quels sont les leviers qui

pourraient pallier cette méfiance ? Pour 41% d’entre eux, aucune action ne pourra leur

donner confiance en les réseaux sociaux et 20% pense qu’une meilleure politique de

confidentialité pourrait les y aider.

b. Dans le e-commerce

En 2009, environ 51% des internautes témoignaient une relative confiance dans le e-

commerce, en 2011 ils étaient aux alentours de 56%, avant de descendre à 53% en

2013. On note que la courbe s’est inversée depuis 2012. Combien seront-ils en 2020 et

quelles sont les sources de leurs méfiances ?

48% craignent que leurs données soient utilisées à des fins abusives, 32% craignent

que les données soient conservées sans limites de temps et 38% à des fins

72

publicitaires. A ce titre, 98% des internautes jugent essentiels qu’une limite de temps

soit fixée dans le cadre de l’utilisation de leurs données.

c. Dans ces conditions, quel avenir pour la data ?

Dans le domaine du e-commerce, 90% des français disent avoir déjà achetés sur

internet, alors qu’ils étaient 85% en 2009. Dans le domaine des réseaux sociaux, le

taux d’utilisation est aujourd’hui de 77% contre 75% en 2011. En somme, bien que les

usages se renforcent, l’internaute se veut beaucoup plus méfiant et plus “éveillé” en ce

qui concerne l’utilisation faite de ses données. Cette tendance remet évidemment en

question le Big Data.

Comme nous avons pu le voir, le Big Data se nourrit des données utilisateurs. Le Web

des objets connectés se base d’ailleurs sur un principe de total transparence en ce qui

concerne l’activité de l’internaute. Or quels seraient les usages, si 75% des détenteurs

de Smartphones refusaient par défaut d’activer la fonctionnalité de géolocalisation ? La

réponse est complexe, autant que les sujets qu’elle soulève, il est cependant clair que

les tendances du futur se basent sur des prédictions fragiles. Leurs réactions seront-

elles exacerbées par cette prolifération d’appareils et d’usages ? On pense notamment

aux Google Glass de Google, qui semblent proposer des services intéressants mais

extrêmement intrusifs et à priori bancale d’un point de vue législatif. A la vue de ce type

d’évolution et de la situation actuelle, ce scénario est probable.

i. Le rapport coût / avantage pour l’internaute L’un des principaux facteurs qui va influencer l’avenir repose évidemment sur la nature

des services proposés par les entreprises. On parle ici du rapport coût / avantage,

indicateur économique qui permet de juger la valeur d’un investissement. On nommera

investissement le fait, consciemment, de partager ses données sur le web et de les

communiquer à des plateformes tiers. Ainsi, si les avantages qui en résultent s'avèrent

73

suffisants pour supporter le coût de cet investissement, nous pouvons partir du principe

qu’une grande part des internautes décidera de jouer le jeu. A l’inverse, si les

investissements s’avèrent insuffisants, la tendance actuelle sera sans doute confirmée.

Cette théorie est actuellement validée par le scandale “Prism” qui a eu lieu au cours du

mois de Juin 2013 et qui porte sur la récolte et l’analyse des données des citoyens

américains par les services de renseignements du pays. Une étude menée par le

Washington Post montre que 62% des personnes interrogées jugent importants que

leurs données soient récoltées et exploitées pour prévenir un hypothétique acte

terroriste même si cela se fait au détriment d’une protection de la vie privée. Toutes

proportions gardées, nous pensons justement que si les entreprises utilisent de manière

intelligente ces données et qu’elles permettent aux utilisateurs de faciliter, d’approfondir

et d’améliorer la qualité de leurs activités, tout en respectant leurs vies privées, un

accord tacite devrait être trouvé. La base de cet accord repose sur la philosophie

adoptée par les entreprises et leurs capacités à considérer l’internaute comme un client

et non comme un produit.

Le deuxième élément susceptible d’influencer les tendances futures repose sur la

capacité et la volonté des gouvernements à encadrer le marché de la donnée.

2. Les gouvernements à la croisée des chemins

Le Big Data pose nécessairement une question juridique sur le droit des entreprises à

utiliser des données qui pourraient émaner d’internautes non avertis. L’exemple des

Google Glass est sans doute l’un des plus marquants. Comment réguler un appareil qui

enregistrera des heures et des heures d’enregistrement vidéo sans aucune

considération de la notion propriété intellectuelle et de la protection de la vie privée ?

Plusieurs instances françaises et européennes encadrent le marché de la donnée sur

internet. En première ligne, nous retrouvons la CNIL90 qui a pour principal objectif de

protéger les données personnelles, d’accompagner l’innovation, et de préserver les 90 Commission Nationale de l’Information et des Libertés

74

libertés individuelles. Pour cette raison, les CNIL européennes et nationales tentent

actuellement de gérer la problématique du Big Data. Cependant, Henry Isaac nous

explique deux choses, premièrement qu’il est sans doute déjà trop tard, et

deuxièmement que les rapports de force entre les institutions et les entreprises sont

aujourd’hui en passe de s’inverser.

“Aujourd’hui, les gouvernements sont incapables d’appréhender la problématique de

l’exploitation des données personnelles. C’est de toute façon un sujet qui aurait dû être

traité et considéré comme majeur au cours de la dernière décennie. J’ai l’impression que

les états se rendent compte seulement aujourd’hui de l’importance du sujet. D’ailleurs je

pense très sincèrement qu’il est déjà trop tard. Google centralise d’ores et déjà, via ses

services des milliards de données chaque jour. Pour l’instant ils n’ont pas décidé de les

commercialiser, mais quand ils le souhaiteront, qui pourra les en empêcher ? A titre

d’exemple, Facebook le fait déjà. Il y a également un vrai enjeu d’éducation, combien de

personnes sont réellement au courant de l’utilisation faites de leurs données ? La vérité

qui se cache derrière cela est que chaque action effectuée sur internet remplie de

manière continue notre “casier numérique”. 91

La Commission européenne, qui souhaite évidemment suivre l’évolution technologique,

a publié un projet de nouvelle réglementation destinée à remplacer le cadre juridique

actuel. Il introduit de nouveaux droits, comme le droit à l'oubli, le droit à la portabilité des

données 92 , la vie privée par la conception et la confidentialité par défaut. De

nombreuses discussions ont également lieu dans les hautes sphères politiques pour

encadrer l’utilisation des cookies tiers, en compagnie d’acteurs comme Facebook ou

Google. Ils sont âpres et font l’objet de lobbying puissant de la part des firmes

Américaines. Cependant, sous la pression de l’Allemagne, beaucoup plus concernée

par la question de la propriété de la donnée, l’Europe est donc en passe de réussir à

mettre en place un projet juridique viable.

91 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 92 Désigne la possibilité de gérer soi-même ses données personnelles, de les porter d'un système à un autre, de les partager entre plusieurs systèmes.

75

Nous l’avons vu précédemment, le marché de la data représente plusieurs milliards de

dollars. Si de nouvelles barrières à l’entrée faisaient leur apparition au niveau européen,

quelles seraient les conséquences pour les entreprises françaises ? Henry Isaac

souligne que :

“Pour les internautes, il s’agirait effectivement d’une très bonne nouvelle. Le droit à

l’oubli permettrait de sortir d’un système où les entreprises disposent de tous les droits,

la restriction de la collecte des données permettrait d’éviter tous types d’abus et de

sensibiliser les internautes. La vraie question repose maintenant sur les conséquences

que ces réglementations vont engendrées en terme de business. Clairement, il existe

une vraie dualité entre l’internaute et l’entreprise. Favoriser l’un revient à défavoriser

l’autre. Le problème ici est concurrentiel, puisque les USA ne sont pas dans une optique

de protection de l’utilisateur. Si l’Europe décide de réglementer le marché de la data,

cela se fera au détriment d’une compétitivité sur le marché de la data, de la publicité

ciblée etc.”93

Il faut donc choisir entre la protection de l’internaute et la compétitivité des entreprises

européennes sur le marché de la data. Sans être aussi manichéen, il existe bien sûr

des scénarios intermédiaires, qui comme nous l’avons vu consisterait par exemple à

considérer à sa juste valeur l’internaute. Quoi qu’il en soit, les vides juridiques sont

nombreux à l’approche de cette nouvelle ère numérique. Il est impératif et fondamental

pour les futures générations de rétablir un équilibre entre les entreprises et le

consommateur et de redéfinir le cadre de la vie privée numérique.

93 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013

76

Conclusion

Le Big Data est donc amené à soulever des problématiques bien plus importantes que

ses seules avancées technologiques. Nous l’avons vu, bien que ces dernières soient

innovantes, leur application va demander du temps, beaucoup de temps avant qu’elles

ne puissent être maîtrisées et intégrées aux processus décisionnels des entreprises.

Ces mêmes entreprises sont actuellement trop fragiles et trop jeunes pour appréhender

de telles architectures car les contraintes sont nombreuses. Elles sont premièrement

d’ordre financier, car la mise en place implique de lourds investissements qui sont

supportables pour des sociétés comme Facebook ou Google mais qui restent

inabordables pour 99% d’entre elles. La complexité induite par la mise en place de ces

architectures représente elle aussi un frein important, d’autant que, comme nous

l’avons vu les ressources et les compétences requises par le Big Data ne sont pas

encore disponibles sur le marché. Plusieurs scénarios vont potentiellement permettre

au Big Data d’éclore et de connaître l’évolution que bon nombre d’experts lui prêtent.

Dans un premier temps, il est fort probable que les instances de formation prennent en

compte ce phénomène pour adapter leurs parcours et ainsi permettre aux entreprises

de recruter les Data Scientist nécessaires. De la même manière, cette évolution globale

du marché va sans doute impliquer de repenser en grande partie la nature même des

métiers du marketing, car, il parait évident à la vue des éléments fournis précédemment

que la data va modifier l’intégralité des secteurs d’activité.

Deuxièmement, l’évolution du Cloud va, au cours des prochaines années, représenter

un autre facteur essentiel à la démocratisation du traitement de la data. Lui seul peut

permettre de faire baisser le prix de la donnée en augmentant la capacité de stockage

et en facilitant le travail d’analyse et de traitement. C’est ce scénario qui s’est déroulé

aux USA et c’est principalement grâce à cela que les entreprises américaines disposent

aujourd’hui d’une avance considérable dans la maîtrise et l’exploitation de la donnée.

Le marché français risque donc d’assister à une transition longue et besogneuse qui

passera sans doute par la disparition des Data Warehouse au profit d’espaces de

77

stockage exclusivement externes. Ce phénomène est en soit un énorme défi pour les

entreprises françaises et en dit long sur le chemin nécessaire avant que les sociétés

puissent mettre en place des processus techniques et organisationnels propices au Big

Data.

Car il est clair qu’au-delà des challenges techniques qu’impliquent le Big Data, il est

indispensable pour les entreprises d’adopter une vraie politique de la donnée. A ce titre,

cette politique doit être centrée sur les besoins et les objectifs de la marque et doit

permettre à tous les salariés de considérer la data comme une véritable matière

première, susceptible à elle seule d’améliorer la qualité de production ou de service. Un

des principaux enjeux du Big Data est donc de valoriser la data, de lui donner du sens

tout en travaillant sur sa véracité et sa fiabilité, pour qu’elle devienne vecteur de

performance au sein des structures. C’est ce travail de fond qui permettra aux

entreprises de bien négocier ce tournant, car nous l’avons vu, la difficulté que rencontre

les entreprises porte sur le nettoyage des données. Pour éviter cette contrainte,

plusieurs moyens sont à la portée des entreprises.

Nous l’avons vu à travers d’exemples comme Zafu ou Zap Travel qui ont décidé de

privilégier la qualité à la quantité. C’est d’ailleurs ce type de solutions qui risquent de se

développer dans un premier temps. Leurs mises en place nécessitent effectivement

moins de temps, d’argent, et il n’est pas rare de retrouver des résultats aussi pertinents

et instructifs sur l’utilisateur qu’avec des données externes. Il est donc essentiel d’avoir

en tête que le Big Data n’implique pas obligatoirement de traiter un volume colossal de

données et qu’il est tout à fait possible de récréer un écosystème interne de partage et

d’expression utilisateur qui permette d’affiner la segmentation client sans grosse

volumétrie.

Concernant le traitement des données non structurées disponibles sur le web, les

enjeux sont bien plus complexes et le niveau de difficulté bien supérieur. Actuellement,

très peu d’entreprises peuvent revendiquer un traitement de données non structurées

comme peuvent l’être les commentaires, les Likes ou les posts sur Twitter. Les outils

78

disponibles ont certes permis d’appréhender plus précisément ce challenge, cependant,

leurs intégrations et leurs interprétations ne sont aujourd’hui qu’à un stade exploratoire.

Pourtant, au niveau micro, certains usages sont d’ores et déjà permis, nous pensons

notamment aux outils de veille autour desquels nous assistons à une véritable

révolution sous l’impulsion des SMA94. Pour les marques, il s’agit véritablement de

connaître les fluctuations de son marché, des acteurs qui le compose et surtout,

d’anticiper d’éventuels évènements susceptibles de modifier la structure du marché à

court, moyen ou long terme. Dans ce domaine, Google ne cesse de proposer et

d’inventer de nouveaux usages. On pense à Google Trends, qui est actuellement le

seul outil capable d’obtenir un temps de réponse aussi court par rapport à la quantité de

données récupérées, au point de pouvoir prédire les comportements des internautes

qui effectuent des requêtes sur le célèbre moteur de recherche.

C’est ce fameux caractère prédictif qui agite tant les débats et qu’il est possible de

retrouver dans certains cas, mais, qui a pourtant du mal à faire ses preuves dans

d’autres secteurs. Car si la prédiction est aujourd’hui permise à travers des usages

microéconomiques, elle l’est beaucoup moins dans des situations où la segmentation et

la granularisation sont élevées. En effet, la mise en place de recommandations

prédictives centrées sur l’utilisateur est encore bien trop opaque et complexe pour qu’on

puisse la considérer comme acquise. Les résultats sur le marché de la publicité le

prouvent. Pourtant, cette granularisation de la clientèle offrent aux métiers du marketing

d’énormes opportunités d’augmenter le taux de transformation, le panier moyen, la

fidélisation et également les cycles de vie du produit. Nous l’avons vu à travers les

outils de recommandation qui s’annoncent déjà comme un des principaux défis des

entreprises et sans doute l’une des premières applications du Big Data. Ce MOD -

Marketing On Demand - représente une véritable aubaine dans la quête de

personnalisation des services. Il permettra lorsqu’il sera mis en place de réduire les

freins à l’achat et de proposer des expériences de navigation nouvelles et novatrices.

94 Social Media Aggregator

79

Avant cela, les entreprises devront apprendre à améliorer leurs connaissances du client

à travers des données plus simples car structurées mais qui permettront tout de même

de trouver de nouvelles sources de segmentation. Car l’internet des objets représente

le premier défi auquel les entreprises vont être confrontées. Il offrira une vision précise

des usages utilisateurs et permettra de connaître chaque client d’une manière bien plus

poussée. Encore faut-il que ces usages soient acceptés par l’utilisateur qui montre des

signaux réfractaires quant au “flicage” massif qu’il s’apprête à subir. L’évolution des

mentalités est en ce sens un facteur déterminant dans l’évolution du Big Data, au même

titre que les stratégies politiques européennes, dont les débats et les actes de lobbying

s’annoncent d’ores et déjà nombreux. A ce titre, il nous semble indispensable de

réguler les rapports entre le consommateur et l’entreprise au sein de l’écosystème

numérique. Le droit à l’oubli, la propriété intellectuelle sont autant de sujets fondateurs

et pour lesquels les sociétés du monde entier accusent un retard considérable.

Attention, il convient toutefois de pondérer la rapidité des transitions technologiques et

philosophie induites par le Big Data. En effet, alors que des acteurs comme IBM ou Cap

Gemini promettent, grâce à son arrivée, des systèmes entièrement automatisés ou

prédictifs, le passé nous a montré que la réalité était souvent bien différente. Déjà, à

l’époque, l’arrivée de la Business Intelligence avait laissé entrevoir ce même genre

d’avancées. Or, la réalité actuelle est tout autre. L’automatisation par exemple, ne

semble toujours pas praticable. Plusieurs raisons expliquent cet engouement, souvent

démesuré. Premièrement il est profondément normal que le marché attende

énormément des Évolutions technologiques apportées par le Big Data. L’imaginaire est

sans cesse nourri par les visions futuristes qui composent le paysage

cinématographique et littéraire. De plus, notre passé proche nous pousse à envisager

les Révolutions technologiques de manière beaucoup plus rapide qu’auparavant. Il y a

10 ans, internet se démocratisait à peine, alors finalement, pourquoi pas ? Rappelons

nous de cette phrase prononcée par Henry Isaac et qui résume bien cette idée : “la

réalité est toujours plus besogneuse que ce que l’on croit”. Deuxièmement, les enjeux

commerciaux pour des acteurs comme IBM sont énormes. Leur stratégie

d’évangélisation n’est autre qu’une vaste opération de prospection où le Big Data fait

80

figure d'appât. De plus, dans un monde où l’innovation est devenue le principal facteur

clé de réussite, cette image de pionnier est en soit une vraie victoire pour la firme, qui

s’est d’ores et déjà positionné comme leader sur le marché. En somme, bien que le Big

Data apporte des réponses bien plus poussées que la Business Intelligence, iI convient

de pondérer les différentes promesses qui ont émanées de toute part. A ce titre, il nous

semble que la doctrine “let the data speak” n’est pas encore d’actualité, et ce, pour de

nombreuses années encore.

Il n’empêche, le Big Data permet d’aborder des thèmes qui s’avèrent fondamentaux

pour l’avenir de nos sociétés : quelle sera la place de la technologie dans le futur ? Quel

rôle souhaite-t-on donner à la donnée et dans quelle mesure souhaitons-nous impliquer

la machine dans les processus décisionnels ? La société américaine a d’ores et déjà

décidé de modifier son ADN en intégrant le Big Data dans des secteurs comme la

criminologie ou la médecine. Dénuée de sa capacité de décision et donc de ses

responsabilités, quelle sera alors la place de l’homme ?

Documents

Big Data, Big Business. Vraiment ?