128
le Mardi 14 février 2012 Matinée 01 BIG DATA

Matinée 01 Big Data

Embed Size (px)

Citation preview

Page 1: Matinée 01 Big Data

le Mardi 14 février 2012

Matinée 01

BIG DATA

Page 2: Matinée 01 Big Data

9h00 – 09h15 - OUVERTURE

Qu’entend-on réellement par Big Data ? Par Olivier Rafal, directeur de recherche chez Pierre Audoin Consultants

Page 3: Matinée 01 Big Data

Big Data

Concept et perspectives :

la réalité derrière le ‘buzz’

Page 4: Matinée 01 Big Data

Sommaire

I. Perspectives marchéDéfinition du Big Data

Exemple concret

II. Perspectives technologiquesPourquoi le NoSQL et Hadoop

L’après Big Data

©PAC2012 – Tous droits de reproduction interdits Page 4

Page 5: Matinée 01 Big Data

PAC en bref:l’analyse du marché informatique depuis 35 ans !

De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance des acteurs des TIC

De la stratégie à l’exécution, PAC offre des réponses objectives aux défis de croissance des acteurs des TIC

PAC est une société de conseil et d’études de marché spécialisée dans le domaine du logiciel et des services informatiques

Plus de 35 ans d’expérience

PAC aide:

- Les fournisseurs de services informatiques à optimiser leurs stratégies en offrant des analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique.

- Nous conseillons les DSI et les investisseurs dans l’évaluation des fournisseurs TIC et leurs projets d’investissements.

- Les organisations et les institutions publiques se réfèrent également à nos études ciblées pour développer et mettre en place leurs politiques informatiques.

Plus de 30 pays couverts6 bureaux PAC

Dernières actualités PAC sur notre blog : http://blog.pac-online.com/

©PAC2012 – Tous droits de reproduction interdits Page 5

Page 6: Matinée 01 Big Data

PAC en bref:suivi particulier de la Business Intelligence

©PAC2012 – Tous droits de reproduction interdits Page 6

Page 7: Matinée 01 Big Data

PERSPECTIVES MARCHÉ

Page 8: Matinée 01 Big Data

Le Big Data, c’est au choix…

« Une évolution naturelle »

« Seulement utile aux quelques grands acteurs du 

Web »

« On verra quand on aura des Pétaoctets de données à gérer »

« L’avenir de la BI, la réponse à tous les 

problèmes »

« Uniquement lié à la technologie Hadoop »

« Réservé aux grands comptes »

« Un buzz orchestré par les fournisseurs de technologies, les

analystes et les médias »

Page 9: Matinée 01 Big Data

Big Data : une évolution naturelle

©PAC2012 – Tous droits de reproduction interdits Page 9

Big Data : intégrer ces évolutions et contraintes pour

transformer les données en information exploitable dans le

cadre de son business

Explosion du ‘UGC’

Nouvelles sources de données (M2M, Open Data, Science…)

Importance des conversations

Accélération des cycles de

décision

Métriques applicatives

orientées business

Patrimoine informationnel non structuréDémocratisation de la

BI / Découverte

Page 10: Matinée 01 Big Data

Big Data : les problématiques de M. Jourdain

©PAC2012 – Tous droits de reproduction interdits Page 10

Volumétrie : gestion de stocks, gestion de commandes, transport/logistique/RFID, transactions financières, services grand public…

Variété : CRM / Marketing / SAV, communication financière…

Vélocité : Mode, Jeu, Electronique grand public, gestion des stocks, gestion des commandes…

Þ Mieux connaître son clientÞ Améliorer son offreÞ Agir avant la compétition

Page 11: Matinée 01 Big Data

Exemple concret de Big Data

©PAC2012 – Tous droits de reproduction interdits Page 11

Kobojo, PME française

Jeux pour les réseaux sociaux Evolutions quotidiennes Indicateurs techniques : 300 à 400

millions de données par jour et par jeu

Au-delà ? Facebook, Twitter…

Page 12: Matinée 01 Big Data

PERSPECTIVES TECHNOLOGIQUES

Page 13: Matinée 01 Big Data

Le point de départ

©PAC2012 – Tous droits de reproduction interdits Page 13

Base OLTP

Datawarehouse

Datamart

Contenu non

structuré

?

Page 14: Matinée 01 Big Data

Big Data : perspectives technologiques

©PAC2012 – Tous droits de reproduction interdits Page 14

Des systèmes traditionnels au NoSQL

Problématique apparue il y a une dizaine d’années chez les gros « producteurs » de données : Finance, Retail, Services online…

Besoin de solutions plus performantes que les SGBDR standards pour ce besoin particulier de volumétrie

 Not Only SQL

Consensus sur Hadoop / MapReduce

data

Hadoop / Map

ReduceBase d’analyse

Applications analytiquesdata

data

data

data

Page 15: Matinée 01 Big Data

Big Data : perspectives technologiques

©PAC2012 – Tous droits de reproduction interdits Page 15

Du NoSQL au futur SQL ?

Maturité du marché Hadoop IBM : InfoSphere BigInsights Oracle : Big Data Appliance (avec Cloudera) Microsoft : exit Dryad, bonjour Hadoop Informatica : Data Integration Platform for Hadoop …

Besoins non couverts par Hadoop transactions ACID SQL comme langage d’interaction Mécanismes de verrouillage non bloquants …

Page 16: Matinée 01 Big Data

Big Data : perspectives technologiques

©PAC2012 – Tous droits de reproduction interdits Page 16

Quand le Big Data deviendra la norme…

Emergence de nouvelles solutions In-Memory SSD CEP (CloudScale…) Moteurs de stockage (Xeround, GenieDB…) SQL nouvelle génération (VoltDB, Clustrix…) …

Qui préfigure une assimilation progressive !

Page 17: Matinée 01 Big Data

L’évolution possible

©PAC2012 – Tous droits de reproduction interdits Page 17

Datawarehouse

ETL/ Data

Quality

Contenu

?

Data flux

NoSQL / NewSQL

Applications analytiques

Data flux

Data flux

DB

Contenu Web

Data as a

service

CEP

Moteur de recherches / BI visuelle / text

analytics

Page 18: Matinée 01 Big Data

MERCI !

Olivier RafalDirecteur de recherches,

Marchés logicielsInformation Management

[email protected]@olivierrafal

Page 19: Matinée 01 Big Data

Big Data : juste un concept ou une réponse à de réels besoins ?

Attentes et Usages Pour quels types d’entreprise et de besoins ? Remplaçant du datawarehouse traditionnel ? Quid du temps réel et du transactionnel ?

Avec Jacques Milman, expert avant-vente Big Data et analytique chez IBM Dominique Girardot, directeur d’Anteo, Groupe SodifranceFrançois Guérin, directeur technique chez Sybase

09h15 – 09h50 - TABLE RONDE

Page 20: Matinée 01 Big Data

09h50 – 10h10 - Avis d’expert

Pourquoi et comment intégrer les volumineuses données du Web (réseaux sociaux, e-commerce…) dans son système d‘information décisionnel ? Quels services de l’entreprise sont concernés ? Le triptyque “Big Transaction Data- Big Interaction Data- Big

Data Processing (Hadoop)” Le MDM, pierre angulaire d’un SI destiné aux utilisateurs métier

Avec Bruno Labidoire, directeur technique Europe du Sud chez Informatica

Page 21: Matinée 01 Big Data

212121

#BigData, au-delà du concept marketing

Bruno LabidoireDirecteur Technique, Europe du Sud

Page 22: Matinée 01 Big Data

2222

Big DataUne convergence de 3 domaines

OnlineTransactionProcessing

(OLTP)

Online AnalyticalProcessing(OLAP) &

DW Appliances

Données desmédia sociaux

Données scientifiques

Capteurs

BIG TRANSACTION DATA BIG INTERACTION DATA

BIG DATA PROCESSING

Tickets d’appels,Click stream, etc

Page 23: Matinée 01 Big Data

2323

OnlineTransactionProcessing

(OLTP)

Online AnalyticalProcessing(OLAP) &

DW Appliances

OracleDB2Britton-LeeIngresInformixSybaseSQLServer

EMC GreenplumTeradataRedbrickEssBaseSybase IQNetezzaDataAllegroAsterdataVerticaParaccelHana

BIG TRANSACTION DATA

Big Transaction DataBases relationnelles et analytiques

Page 24: Matinée 01 Big Data

2424

Le décisionnel proactif

• On peut par exemple définir de nouvelles campagnes potentielles associées à ces média sociaux !

American Express a aidé les PME à augmenter leurs revenus d‘années en années de 28% pendant le week-end suivant Thanksgiving avec “Small Business Saturday” une campagne impliquant 1,5 million de fans Facebook

Page 25: Matinée 01 Big Data

2525

Source: An IDC White Paper - sponsored by EMC. As the Economy Contracts, the Digital Universe Expands. May 2009. .

Les challenges Les données issues des média sociaux peuvent être colossales!

Transactions

Interactions

Page 26: Matinée 01 Big Data

2626

Réseaux sociauxUn potentiel en pleine croissance

2004 2005 2006 2007 2008 2009 2010 20110

100

200

300

400

500

600

700

800

900

1,000

Facebook LinkedIn Twitter

Consommateur Entreprise

Consommateurs utilisant les principaux Réseaux Sociaux 2004-2011

Page 27: Matinée 01 Big Data

2727

Réseaux sociauxDes formes multiples

Page 28: Matinée 01 Big Data

2828

Réseaux sociauxComment profiter de ces grands volumes d’informations ?

CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocier

Page 29: Matinée 01 Big Data

2929

Réseaux sociauxComment profiter de ces grands volumes d’informations ?

CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocier

T_Young Tony Y. iDroidBerry 9800 challenged meeting our enterprise security requirements and battery life is also area of concern.

Page 30: Matinée 01 Big Data

3030

Réseaux sociauxComment profiter de ces grands volumes d’informations ?

CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocier

Entity Extraction & Identity ResolutionT_Young = Tony Young

Relationship ResolutionTony Young works @ Informatica

Relationship AnalysisTony’s Sphere of Influence, CIO @ INFA

Sentiment ScoringEnterprise Security -3.5, Battery Life -3.2

Page 31: Matinée 01 Big Data

3131

Réseaux sociauxComment profiter de ces grands volumes d’informations ?

CurriculumExtraire CurriculumAnalyser CurriculumGérer CurriculumAssocierData

Warehouses

OperationalApplications

Databases

ApplicationsExternal Data

Providers

Informatica MDM

Client Produit …

Page 33: Matinée 01 Big Data

3333

Cloud Computing Enterprise Partner Trading Network(B2B)

Big Transaction DataComment profiter des données transactionnelles ?

CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser

Page 34: Matinée 01 Big Data

3434

Cloud Computing Enterprise Partner Trading Network(B2B)

Big Transaction DataComment profiter des données transactionnelles ?

CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser

COMPLETENESS CONFORMITY CONSISTENCY

DUPLICATION INTEGRITY ACCURACY

Page 35: Matinée 01 Big Data

3535

Cloud Computing Enterprise Partner Trading Network(B2B)

Big Transaction DataComment profiter des données transactionnelles ?

CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser

Page 36: Matinée 01 Big Data

3636

Cloud Computing Enterprise Partner Trading Network(B2B)

Big Transaction DataComment profiter des données transactionnelles?

CurriculumExtraire CurriculumDécouvrir CurriculumNettoyer CurriculumIntégrer CurriculumAnalyser

Page 37: Matinée 01 Big Data

3737

Big Data ProcessingQu’apporte Hadoop ?

• Une montée en puissance économique• Fonctionne sur des fermes de serveurs banalisés

• Supporte tous les types de données• Structuré, Semi-structuré et non structuré

• Extensible• Interfaces (APIs) ouvertes permettant d’implémenter une logique

spécifique

Page 38: Matinée 01 Big Data

3838

Weblogs, Mobile Data, Sensor Data Enterprise

Applications

Semi-structuredUnstructured

Big Data ProcessingConnectivité Hadoop par Informatica

Cloud Applications,Social Data

Databases, Data Warehouses

Analyse de Sentiment

Détection des fraudes

Analyses Predictives

Analyses des risques

Smart Devices

Hadoop Cluster

Connectivité Hadoop (HDFS)

• Load data to Hadoop from any source

• Extract data from Hadoop to any target

Page 39: Matinée 01 Big Data

393939

Un exemple de mise en œuvre dans le décisionnel

Page 40: Matinée 01 Big Data

4040

Le décisionnel « classique »

• La qualité des données est globalement égale à celle des systèmes opérationnels

• Les indicateurs sont disponibles à J+1

• Les données clients/prospects peuvent être périmées et induire des tendances incorrectes dans les indicateurs

Il peine à répondre aux demandes métiers de fraîcheur de l’information, rapidité de décision, et gestion proactivedes clients !

Page 41: Matinée 01 Big Data

4141

Le décisionnel avancé

• Une solution de qualité des données a été mise en œuvre pour détecter (et corriger quand cela est possible) les erreurs dans les données. Ces erreurs sont notifiées aux systèmes opérationnels amonts pour correction.

• Une partie des indicateurs est mise à jour au fil de l’eau (intervalle d’une minute à une heure en fonction du besoin fonctionnel). Les solutions de CDC (Changed Data Capture), bus messages et WebServices supportent cette mise en œuvre.

• Des solutions de vérification d’adresses postales et de croisement avec des bases externes entreprises (D&B) permettent d’améliorer les données clients/prospects.

Le métier accorde une plus grande confiance aux informations du décisionnel et peut réagir plus rapidement, mais il supporte mal une approche proactive !

Page 42: Matinée 01 Big Data

4242

Le décisionnel proactif• Des « DB Appliances » sont mises en places pour supporter les

volumes de données croissants (WebLog, etc)

• Des solutions de connectivité aux médias sociaux sont mises en place pour enrichir la connaissance du client

• Les clients peuvent être évalués non seulement sur les produits qu’ils ont acquis mais aussi sur leur capacité d’influence (nombre de leurs contacts dans les réseaux sociaux) et sur leur comportement (weblog)

• Les marques concurrentes citées par ces clients peuvent être analysées pour compléter l’analyse concurrentielle

• Etc…

Le métier découvre de nouvelles informations lui permettant une approche proactive et une anticipation des besoins/tendances du marché !

Page 43: Matinée 01 Big Data

434343

La plate-forme Informatica

Page 44: Matinée 01 Big Data

4444

Informatica 9.1: Plate-forme de services de données

Applications Partner Data

SWIFT NACHA HIPAA …

UnstructuredDatabases SocialWarehouses NoSQLCloud Computing

SOA/Composite Apps

Data QualityMaster Data Management

Data Integration B2BTest Data Management & Archiving

BusinessIntelligence

GESTION DE TOUTES REGLES

ACCES A TOUTESLES DONNEES

InteractionsTransactions

Web Services

ODBC/ JDBC

SQL BatchSUPPORT TOUS PROJETS

Big DataWarehousing

Data Services

Big Data Archiving

Social Master Data

Management

Cloud Data

Integration

Big Data Collection &

Exchange

DataConsolidation

ComplexEvent

Processing

UltraMessaging

Data Integration Projects

Qualité ConfidentialitéRetention FraicheurAccès

Produit FactureClient SupportRéclamationCommande

Page 45: Matinée 01 Big Data

4545

Page 46: Matinée 01 Big Data

10h10 – 10h30 - Avis d’expert

Intégrer les solutions Big Data à l’existant.

Apporter une réelle valeur ajoutée, en lien avec un existant multiforme, décisionnel comme transactionnel

Par

Isabelle Claverie-Berge, expert technique Database Big Data chez IBM

Page 47: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation

Intégrer les solutions Big Data à l'existant

Isabelle Claverie-Bergé, IBM Software, Information Management Architecte

[email protected]

Page 48: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation

Big Data : Une opportunité

48

Explorer/Gerer Analyser/Optimiser

Un Structured Data

Structured Data

TransactionalData

HistoricalData

ReferentialData Sets

CustomerExperience

CustomerInsight

ProfitabilityOptimization

Streaming Data

Acquerir/Observer

NetworkAnalytics

AudienceManagement

AssetOptimization

Mais comment Intégrer les solutions Big Data à l'existant ?

Page 49: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation

Approche TraditionelleStructuré, analytique, logique

Nouvelle ApprocheCreative, Vue holistic , intuition

StructuredRepeatable

LinearMonthly sales reports

Profitability analysisCustomer surveys

Internal App Data

Data

Warehouse

Sources

traditionnelles

StructuréRepetableLineaire

Transaction Data

ERP data

Mainframe Data

OLTP System Data

UnstructuredExploratoryIterativeBrand sentimentProduct strategyMaximum asset utilization

HadoopStreams

Nouvelles Sources

ExploratoireIterative

Web Logs

Social Data

Text Data: emails

Sensor data: images

RFID

Enterprise Integration

Big Data: Un complément à l’approche traditionnelle

Page 50: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation

INT

EG

RA

TIO

N

Marketing

Warehouse Appliances

Database

Content Analytics

Business Analytics

Master Data Mgmt

IBM & non-IBM

InfoSphere MDM

DB2 & non-IBM

Cognos & SPSS

Unica

ECM

Data Growth ManagementInfoSphere Optim

Rules / BPM

iLog & Lombardi

Data WarehouseInfoSphere Warehouse

IBM Big Data Solutions Client and Partner Solutions

Info

rmat

ion

Ser

ver

Connectors Applications Blue Prints

Applications

Data

Processes

Manageability

Big Data Enterprise EnginesBig Data Enterprise Engines

Big Data AnalyticsBig Data Analytics

Text

Image/Video

AcousticFinancial

Times Series

Statistics

Mining

Geospatial

Mathematical

InfoSphere BigInsightsInfoSphere Streams

Productivity Tools & Optimization Productivity Tools & Optimization Workload Management & Optimization

WorkflowJob

SchedulingJob

TrackingProvisioning Data

Ingestion

Management Configuration Manager

Identity & Access Mgmt

ActivityMonitor

Data Protection

Admin Tools

Big Data : Les points d’intégration

Page 51: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation

Cognos

Master Data Management

Applications and Operational AnalyticsEnterprise Data  Warehouse

DB2

Data Models

Pre-builtbehavioralattributes

Out-of-the-box analytics

Customer Integration Appliance

Customer Intelligence Appliance

InfoSphere Quality Stage

IBM Retail Data Model

InfoSphere MDM

Customer Identification

UnicaCore Metrics

IBM Global Business Services 

Data Privacy

Privacy

Optim for Test Data, Redaction, +++

Managing Growth

Online Archive

Optim Data Archive

Guardium

Built-in Integration into Big Data

OLTP and Big Data Integration

DB2 SAP  DB2 solidDBInformix

       Data 

Quality

Inform

ation

 Server

Exemple: Vision client 360°

Page 52: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation52

Exemple: exploration et surveillance pétrolièreVolumes of raw structured

and unstructured data

InfoSphere BigInsights

Event detection and capture of real-time data

InfoSphereStreams

Real-time dashboards

and analytics

Real-time streamingdata (structured and unstructured)

Traditional data sources(ERP, CRM, databases)

Operational BI and Statistical Applications

Netezza

DW

Reservoir and Process Modeling and Simulation ApplicationsStaging Platform

Cleansing and Transformation of many types of data with different formats

Cognos and SPSS

Subject-areasource systems

ODS

Page 53: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation53

THINK

https://www.ibm.com/services/forms/signup.do?source=sw-infomgt&S_PKG=bdebook1

Page 54: Matinée 01 Big Data

Information Management – Big Data

© 2012 IBM Corporation

Page 55: Matinée 01 Big Data

10h30 – 10h50 - Avis d’expert

Pourquoi et comment préparer le SI à l’avènement du BIG DATA ?

Quel est l’enjeu métier de cette approche ? Pourquoi l’urbanisation, le management des données et la

création de référentiel sont incontournables dans un tel contexte ?

Pourquoi la qualité des données est-elle au centre du débat ?

Par Stéphane Lextreyt, Sodifrance

Page 56: Matinée 01 Big Data

Comment préparer le SI à l’avènement du BIG DATA ?

Maîtrisez votre capital Données

Page 57: Matinée 01 Big Data

BIG DATA : POURQUOI S’Y PRÉPARER ?

Cloud

Déluge informationnel … Où sont les données « métiers » ?

Exploiter les tendances qui se dégagent de l’écosystème environnant

OUI MAIS …Quel crédit accorder à ces données ?

Comment en faire un élément de décision ?

Alors les données doivent être :

FiablesCohérentesCentraliséesPartagées….

Source d’agilitédu SI

Page 58: Matinée 01 Big Data

UNE APPROCHE GLOBALE ET STRUCTURÉE

Maitriser les données internes au SI

Transformer les données en informations fiables

Partager des informations à forte valeur ajoutée

Capitaliser sur les données Métiers

Maintenir un niveau de qualité élevé

Diminuer significativement le coût de gestion des données

Accroître l’efficacité du SI…

Page 59: Matinée 01 Big Data

SODIFRANCE, SSII innovante

25 ans d’expérience

Un CA de 68,2 M€ en 2011 (+8,2%)

930 collaborateurs sur 12 implantations en France

Une approche projet : 53 % du CA en engagement de résultats

Un Centre R&D dédié au développement de nos solutions outillées

DATA MANAGEMENT, UNE FORTE EXPÉRIENCE

Une clientèle de grands comptes fidèles ALCARA CREDIT MUTUEL MALAKOFF-MEDERIC

CREDIT AGRICOLE STE GENERALE CNP-ASSURANCES

GMF BPCE YVES ROCHER

MAAF ADP-GSI DIAC

MMA RSI AXA

BNP-PARIBAS AIR France MERIAL

EUROPCAR STACI AREAS

170 projets en Data Management

Page 60: Matinée 01 Big Data

DATA MANAGEMENT : DÉFINIR SA TRAJECTOIRE

Définir la stratégie et la gouvernance

Concevoir l’architecture cible et la trajectoire

Recommander les choix technologiques

Cadrer le projet et la démarche

Sécuriser l’atteinte des objectifs

Conduire le changement

Page 61: Matinée 01 Big Data

LE CYCLE DE VIE DE A à Z …

Industrialiser la maîtrise et l’évolution du SI

Accélérer l’adaptation de l’entreprise

Ouvrir le SI aux nouvelles applications

Réduire les coûts de maintenance

Page 62: Matinée 01 Big Data

COMPRENDRE ET MAITRISER L’EXISTANT

Cartographie applicative outillée

Analyse exhaustiveRéférences croiséesFlot de donnéesAlgorithmes

Définition de référentiel MétierUtilisation des données de référencePropagation des données MétiersImpacts applicatifs

Un référentiel vivantRafraichissement permanentSystème de requêtage utilisateur

Large couverture technologiqueMainframeClient/serveurClient léger/Client riche

Références

• AXA• CNP-Assurances• CIMUT• CRÉDIT MUTUEL• EDF• ING• I-BP• MAAF• RSI, …

CIMUT

«  Nous avons choisi Mia-Insight pour la pertinence

des analyses fines et précises, irréalisables sans

outillage »Utiliser les données Métiers, Analyser les impacts au niveau applicatif

Page 63: Matinée 01 Big Data

Références

• ARKEA• APICIL / UPESE• CAISSES D’EPARGNE

• CREDIT AGRICOLE• GROUPAMA• NOVALIS-TAITBOUT• MERIAL, …

MALAKOFF-MÉDÉRIC

« Grâce à ses outils d'analyse

performants, SODIFRANCE nous garantissait un audit

et des recommandations

factuelles et rapides »

LA QUALITÉ AU CENTRE DES PRÉOCCUPATIONS

Automatiser la qualité des données

Faire un état des lieuxListes de valeursVolume de données erronéesTaux de doublonsEtablir la Liste des actions à engagerValoriser l’effort de réhabilitation

Impliquer tous les acteursMOAGestionMOE Projets

Pérenniser la démarchePlanifier les actions dans le tempsAuditer de façon récurrenteMesurer les résultatsEngager de nouvelles actions

Toujours être vigilant et proactif

Page 64: Matinée 01 Big Data

SI2M

« Les résultats de l’audit et le conseil de SODIFRANCE

nous ont permis de faire avancer notre

vision sur l'urbanisation de

notre SI »

Références

• CDC• CNP-Assurances• CIMUT• ENERGY POOL• MALAKOFF-MÉDÉRIC

• SI2M• MMA,…

ORGANISER LE SI AUTOUR DES DONNÉES MÉTIER

Du référentiel métier à l’agilité du SI

Création de référentiels de données partagées

Référentiels « Maitre » / « Esclaves »Fiabilité et cohérence des donnéesAccessibilité des données par toutes les applications

Démarche d’urbanisationApproche par les processus MétiersIdentification du meilleur découpage applicatifCollaboration MOA et MOE

Recherche de la modularité optimale

Transformation des applications en service MétierOuverture multicanal

Bénéfices Métier attendusEfficacité opérationnelleRester Time To Market

Faites de votre référentiel un Référentiel

Page 65: Matinée 01 Big Data

Références

• AGF• AIR FRANCE• BNP-PARIBAS• CHU DE NICE• GROUPAMA• MALAKOFF-MÉDÉRIC

• MORNAY• VILLE DE LYON• RATP, …

LES DONNÉES DANS TOUS LEURS ÉTATS

Démarche = Méthodologie et Solutions

Capitaliser sur les données Métiers de référence

FiabiliserDédoublonnerNormaliser

Industrialiser les migrations

Solutions AdaptablesAteliers Web collaboratifSuivi temps réelJustifications « Métiers »Usine de migration réutilisable post projet

Maitriser les risquesEngagements sur la qualitéSécurisation du ProjetGouvernance améliorée

MALAKOFF-MÉDÉRIC

« Grâce à l’usine de migration TRANSMIG,

les données du Référentiel Personne

sont fiables et cohérentes.

Aujourd’hui, les coûts d’exploitation sont

réduits et les actes de gestion bien plus

rapides »Augmentez votre capital données

Page 66: Matinée 01 Big Data

Références

• DCNS• MALAKOFF-MEDERIC

• MERIAL• AEROPORT NANTES • CH LE MANS,….

• …

MERIAL

«  La fonction d’archivage Web de TRANSMIG a permis

de restituer une vision des données

historiques que nous n’avions plus

suite à l’arrêt du Mainframe et à la

disparition de l’application

métier »

GARDER LA MÉMOIRE… À PORTÉE DE WEB

Diminuer les coûts de possession

Réponse au Stockage de masseVirtualisation applicative

Mise en place d’unité de stockage

Mise en place de PRA – PCA

Pourquoi Archiver ?Obligations légales

« Photo » du jour de la migration

Justifications CAC

Une solution pour conserver les données historiques

Fonction d’archivage Transmig

Passage des modèles Hiérarchiques

vers relationnels

Quitter les environnements coûteux

(Mainframe…)

Interface Web

Pas de déploiement / pas de licence

ROI important et immédiatRéduire les coûts et améliorer le service

Page 67: Matinée 01 Big Data

Diagnostic

APPROCHE GLOBALE DU CYCLE DE VIE DES DONNÉES

DiagnosticDiagnostic Audit Cartographie

Audit Cartographie

CibleCible Cible et stratégie Recueil des besoins Alignement MOA /MOE

Cible et stratégie Recueil des besoins Alignement MOA /MOE

TrajectoireTrajectoire Référentiel maitre / esclaves Méthodologie projet éprouvée Solutions outillées

Référentiel maitre / esclaves Méthodologie projet éprouvée Solutions outillées

Cible Trajectoire

Indicateurs

Qualitécouts

Maintenir

MaintenirMaintenir Accompagnement Formation

Accompagnement Formation

Efficacité et rigueur

Page 68: Matinée 01 Big Data

RETOUR D’EXPÉRIENCE

Formation – Conduite du changement

Solutions outillées

ExpertiseExperts en urbanisation et Data Management

Conseil & Urbanisation

Conseil

Temps

Périmètre

2009 2012

AuditCartographie

DédoublonnerCharger Projet

MigrerFiabiliser

SynchroniserArchiver

Audit régulier

Audit régulier

Création du Référentiel Personne

Page 69: Matinée 01 Big Data

Stéphane LEXTREYTConsultant Data [email protected]+33 6 86 89 23 20

Page 70: Matinée 01 Big Data

10h50 – 11h20 - PAUSE

Pause / Networking

Page 71: Matinée 01 Big Data

11h20 – 12h00 - Table Ronde

Cloud et Stockage, supports incontournables du Big Data

Les acteurs du cloud et les éditeurs/constructeurs se positionnent déjà

Actuellement, y a-t-il un intérêt à installer sa propre solution Big Data ?

En quoi le cloud incarne-t-il un moyen intéressant ?

Avec Jean-Pascal Ancelin, directeur général, MicroStrategy France& Said Boukhizou, responsable technique chez Datacore

Page 72: Matinée 01 Big Data

12h00 – 12h10 - Avis d’expert

Témoignage utilisateur : Malakoff-MedericRé-urbaniser le SI autour des données métiers, un enjeu concurrentiel

Les enjeux de la mise en œuvre de référentiel de données Métiers, vecteur d’agilité de l’entreprise

Comment alimenter un référentiel de données tout en synchronisant les applications périphériques contributrices ?

Par Romaric Hatit de Malakoff-Mederic

Page 73: Matinée 01 Big Data

12h10 – 12h30 - Avis d’expert

Le stockage : innovation et nouvelles réponses Part 1

Par

Said Boukhizou, responsable technique chez Datacore

Page 74: Matinée 01 Big Data

How Big Data InfluencesStorage Innovations Impact on policies, scale, clouds anddata management

74

Page 75: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Fast

Real-time► Event-driven

Shared

Not Just Big

75

Page 76: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Motivation

76

Greater Situational Awareness

Better Decision Making

Competitive Advantage

Page 77: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.77

WebApps

EnterpriseAppsOffice

Apps

Where does Big Data come from?

Machine Data

Social Media Data

Device explosion

Page 78: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Applications that are driving Storage Growth

SCM

Social Platfom

ERP

Digital Imaging

eCommerce

Data warehousing/BI

Convert analog - digital records

Regulatory mandates

Content Mgt

File sharing

CRM

Email

Data Protection/DR

Archiving

0% 10% 20% 30% 40% 50%

DEWE

78

Source: IDC’s European Storage Survey 2011 – N=509

Page 79: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Never at rest► In-demand► Less relevant► Outdated

Multiple, linked sources► Intelligent devices► Outside of IT’s control► Housed separately ► No time to pre-stage

Different formats

All shapes & sizes

Challenging Storage Characteristics

79

Page 80: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Modernize

Align

Architect

Adapt

Renovation Opportunity

80

Not that difficult

Page 81: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.81

Page 82: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Technology Innovations on Your Side

Storage hypervisor layer► Insulates data management from hardware variables► Comprehensive set of advanced functions► Device-dependent

Broad span► Infrastructure-wide► From on-premises to the Cloud► Virtual & physical domains

Accelerates data access

82

Page 83: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Pool resources

Direct traffic automatically

Cache near apps

Manage centrally

Virtualize Storage for Sharing & Speed

83

Page 84: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Combine overall capacity

Make disks shareable

Recover inaccessible or isolated disk space► No longer isolated

Hide equipment incompatibilities► Standard server / app connections bridged to

device-specific interfaces

Pooling

84

Page 85: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.85

Adaptive Layer

Caching Caching

Variable sources / destinations

SharedVirtual Disks

ServerCluster

Storage Hypervisor

Page 86: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

3-Dimensional Virtualization Strategy

86

DESKTOP HYPERVISOR

USERS

SERVER HYPERVISOR

APPS

STORAGE HYPERVISOR

DISKS

Page 87: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Allocate space just-in-time► Thin provision small groups of

disk blocks► No waste

Dynamically direct workloads to most appropriate resource

► Auto-tiering ► Determined by access frequency &

business rules (high priority override)

Automation

87

Page 88: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Auto-Tiering

Hottest Data Gets Most Attention

88

Tier 2 Tier 3Tier 1

Chuns

Tier n

Hot ColdWarm Stale

Page 89: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Dynamic Optimization of Assets

89

Mail Database Web AppsFile

35%5%

Speed Price / TB

Storage Hypervisor

Price/ Capacity

On-Premises Public Cloud

60%

Private Cloud

Page 90: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Rapid retrieval Fast updates Memory-access speeds

► Read (anticipate)► Write (coalesce)► Bypass disk latencies

Turbo-charge native disk array performance

Self-tuning

Caching

90

Page 91: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Users and apps can’t tell► Storage hypervisor makes it transparent

Same principles merely extended► Pooling► Automation► Central management

Off-premises storage appears to be local

91

Page 92: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Common menus & commands► Across diverse equipment

Single console► Status dashboard► Performance view► Consolidated notifications & alerts

External integration point► Virtualization

Central Management

92

Page 93: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

One interpretation► Buy more of the same hardware► Always buy it from me and my club

Really about interchangeability► Stick to established interfaces ► Add or swap out equipment as needed► Shop for best value among hardware suppliers► Treat storage as interchangeable chunks

of disk space

Lots of Standardization Talk

93

Page 94: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Leverage nearby branch or colocation facility

Rent capacity from public cloud

Stage 2 – Beyond Your Walls

94

Page 95: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Continue operations despite facility problems► Equipment upgrades / maintenance► Air conditioning / ventilation► Construction► Water leaks► Etc.,

Mirror or replicate critical volumes to a secondary site► Auto-failover within metropolitan area► Take advantage of different storage devices

Under a Different Roof

95

Page 96: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Higher levels of service► Rapidly provision space► Remove storage-related disruptions► Speed up app response

Optimal use of available resources► Take full advantage of existing capacity ► Defer acquisition of more disks

Expected Outcomes

96

Page 97: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

Get ready,Big Data is

almost here!

97

Page 98: Matinée 01 Big Data

QUESTIONS

98

www.datacore.com

Page 99: Matinée 01 Big Data

Copyright © 2012 DataCore Software Corp. – All Rights Reserved.

www.datacore.com

Page 100: Matinée 01 Big Data

12h30 – 12h50 - Avis d’expert

Le stockage : innovation et nouvelles réponses Part 2

Par

Jean-François Ruppé, Solution Architect EMEA chez Quantum

Page 101: Matinée 01 Big Data

Les solutions Big Data

Jean-François RUPPÉArchitecte Solution

Page 102: Matinée 01 Big Data

Caractéristiques de nos clients

© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

102

Non-structurée

Sources multiples

Volumétrie

DB

30%-60%

Protection

Performance

Page 103: Matinée 01 Big Data

Principaux Secteurs d’Activité

103

Média• Post production (effet spéciaux, correction des couleurs, …)• Passage à la HD, 3D

Pétrole et gaz• Exploration sismique• Modélisation 3D

Recherche scientifique• Calculs• Séquençage de génome (décryptage d’informations)

Sécurité / Imaging / Défense• Vidéosurveillance • Capture & traitement des données satellites

Page 104: Matinée 01 Big Data

Les défis

Gérer efficacement la croissance des données– +100 Millions de fichiers, >100 To de données par environnement– Transfert des données entre différentes chaînes de traitement– Protéger & Archiver à long terme

Adapter les performances aux besoins– De 100 Mo/s à > 600 Mo/s

Séquenceur/calcul sismique : 2 To par « run »/millions de fichiers

Traitement d’images satellite : – 600 Mo/s (FC 4Gb = 512 Mo/s)– 37 millions de fichiers, 1 Po de données avec gestion de Tiers (5% rapide,

63% lent, 32% bandes)

Gourvernement : 4 milliards de fichiers + PRA

© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

104

EN OPTIMISANT LES COUTS !

Page 105: Matinée 01 Big Data

1. Créer un espace de stockage partagé haute performance– SAN ou LAN en fonction des besoins en performance– Hétérogène Linux, Unix, Windows, MAC

2. Optimiser les ressource stockage– Gestion de différents Tiers : SSD, SAS, SATA, Bandes– Déplacement automatique des données (HSM)

3. Protection des données– Sauvegarde– Externalisation– Réplication

© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

105

SOLUTION LOGICIELLE

Page 106: Matinée 01 Big Data

© 2011 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

106

Page 107: Matinée 01 Big Data

Accélération des processus

WORKFLOW TRADITIONNEL

© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

Stockage local ou disparate Mouvement des données fastidieux Besoin d’une grande quantité de stockage

Page 108: Matinée 01 Big Data

Evolution des processus

WORKFLOW PARTAGÉ

© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

Stockage partagé Accès concurrents Depuis plusieurs types de client

Page 109: Matinée 01 Big Data

Différents type d’accès

© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

CIFS / NFS

LAN

WIN LAN Clients

GatewayServers

LINUX LAN Clients

Storage Area Network(SAN)

WORKFLOW PARTAGÉ

Storage Area Network(SAN)

Haute performances Milliers de clients Load Balancing

CIFS/NFS support

Page 110: Matinée 01 Big Data

Storage Area Network(SAN)

ESPACE PARTAGE HAUTE PERFORMANCE

Storage Area Network(SAN)

Gestion des données

VAULT

© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

REPLICATION

POLITIQUE DE STOCKAGE

TIERS 2

DEDUPLICATION

LOCAL DISTANT

SAUVEGARDE

Page 111: Matinée 01 Big Data

Architecture StorNext

StorNext File SystemStockage partagé

Gestion des données

Solution “End-to-End”

© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

StorNextSAN Clients

CIFS/NFS

GigE TCP/IPInfiniband IP

Stor

Next

DLC

GatewayServers

PRIMARY TIER

TAPE LIBRARY ARCHIVE VAULT

HA MetadataControllers

StorNext Replication

SECONDARY TIERStorNext Storage Manager

Version « Logicielle »

Page 112: Matinée 01 Big Data

Appliances StorNext

StorNext File SystemStockage partagé

Gestion des données

Solution “End-to-End”

© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

StorNextSAN Clients

CIFS/NFS

GigE TCP/IPInfiniband IP

Stor

Next

DLC

GatewayG300

PRIMARY TIER

VAULT

StorNext Replication

SECONDARY TIERStorNext Storage Manager

M330Metadata

Controllers

Q-Series

Q-Series

Scalar

Page 113: Matinée 01 Big Data

• Chaque serveur de séquencement lance des analyses (ADN). Chaque expérimentation génère 1 To de données

• Les résultats sont copiés ou déplacés vers l’archive (rétention à long terme + externalisation)• Temps de traitement global réduit par 3

Cas client : Recherche ADN

GigE TCP/IP

FC

PRIMARY TIER

TAPE LIBRARY ARCHIVE

StorNextPolicyEngine

DIS

TRIB

UTE

D L

AN

CLI

ENTS

MetadataController

80-100TB FC Disk

HA MDC

PB of Tape

FC/iSCSI

DDMServer

FC

StorNext DLCGateway Servers

Séquencement

Page 114: Matinée 01 Big Data

Questions/Réponses

© 2010 Quantum Corporation. Company Confidential. Forward-looking information is based upon multiple assumptions and uncertainties, does not necessarily represent the company’s outlook and is for planning purposes only.

Page 115: Matinée 01 Big Data

12h50 – 13h00 - Conclusion

Une révolution informatique en douceur

Distribution et parallélisation des traitements, autre forme de virtualisation du stockage, système de gestion de fichiers plus universel…

Le phénomène Big Data n’annonce-t-il pas une évolution majeure ?

Par José Diz, Journaliste, Evénements 01

Page 116: Matinée 01 Big Data

BIG DATA

détour par la ‘SILICON Valley’

José DIZ

Page 117: Matinée 01 Big Data

Hadoop : kesako?

Google et fortes contributions Yahoo!

Framework open source Java

HDFS : système de gestion de fichiers distribué avec stockage en cluster de serveurs

MapReduce : distribue de façon parallèle les traitements sur chaque nœud au plus près des données.

Page 118: Matinée 01 Big Data

Hadoop : kesako?

tout type de données structurées non structurées Web, et autres

Croissance linéaire sur du matériel standard (commodité)

Appliquer rapidement des algorithmes simples à de très gros volumes de données

Batch ? Ou plus ?

Page 119: Matinée 01 Big Data

Des pionniers : Cloudera (CDH)

langage de type SQL

SGDB distribué non relationnel orienté colonnes gestion de configuration pour systèmes distribués

l’interface graphique pour accès via un navigateurworkflo

w

Intégrer Hadoop et SGBD

Service distribué de collecte et d’agrégation pour stockage HDFS

langage de haut niveau

Page 120: Matinée 01 Big Data

Cloudera : un écosystème

Page 121: Matinée 01 Big Data

Hortonworks Data Platform (HDP)

Z

ooke

eper

(Coord

inati

on)

Core Apache Hadoop Related Hadoop Projects

HDFS (Hadoop Distributed File System)

MapReduce(Distributed Programing Framework)

Hive(SQL)

Pig(Data Flow)

HCatalog(Table & Schema Management)

Am

bari

(Manaem

en

t)

HB

ase

(Colu

mn

ar

NoS

QL

Sto

re)

Open APIs for:• Data Integration• Data Movement• App Job Management• System Management

Page 122: Matinée 01 Big Data

Hortonworks – la cohabitation

EDWData Mart

s

BI / Analytic

s

Traditional Data Warehouses, BI & Analytics

Serving Applications

NoSQL RDMS …

Apache Hadoop

EsTsL (s = Store)

Call Cente

r

Social Media

Sensor

Data

Server Logs

Traditional ETL

Trad

itiona

l ETL

80-90% of data produced today is unstructured

Gartner predicts 800% data growth over next 5 years

Page 123: Matinée 01 Big Data

MapR : affinage, spécifique ?

RDBMS NAS

HDFS

Sequential File Processing

OLAP OLTP

Web Services

Map/Reduce

Hbase

Pig Hive

Next Generation Distribution

RDBMS NAS

Sequential File Processing

OLAP OLTP

Web Services

Map/Reduce

Hbase

Pig Hive

HDFS

Big data s’avère lourd et coûteux à déplacer.

Page 124: Matinée 01 Big Data

MapR : affinage, spécifique ?

MapR  Distribution for Apache Hadoop

Hive Pig Oozie Sqoop PlumeHBase

Mahout CascadingNagios

IntegrationGanglia

IntegrationFlume Vaidya

Integration

MapReduce

MapR’s Lockless Storage Services ™

DistributedNameNode HA™ JobTracker HA

Haute disponibilité et continuité :- snapshots, - mirroring, - namecode de stockage distribué- …

Page 125: Matinée 01 Big Data

Big Data : batch pour BI, et après ?

Complément au-delà du batch Streaming « Temps réel »

Stockage primaire ? Environnement de production principal ? Deux écoles :

Pas pour Cloudera et Hortonworks Certainement pour MapR

Page 126: Matinée 01 Big Data

Un fourmillement de projets

Page 127: Matinée 01 Big Data

13h00 – 13h05 - JEU

TIRAGE AU SORT iPad

Et le gagnant est……?

Page 128: Matinée 01 Big Data

13h05– 14h00 - COCKTAIL DEJEUNATOIRE

Cocktail / Networking

MERCI DE VOTRE PARTICIPATION BON APPETIT!!