27
#Hadoop Stories avec Infotel & Ericsson #Hadoop Summit overview Twitter : #hugfr Follow @hugfrance

Hugfr infotel-11 juin2014

Embed Size (px)

DESCRIPTION

Hubert Stefani de la société Infotel nous parlera de clusterisation dans le domaine de la propriété intellectuelle. Partant d’un existant sous MongoDB, Infotel a mis en place un mécanisme de classification au travers d’un MapReduce très spécifique exploitant les méta-informations des documents, un google-like de la littérature scientifique en quelques sorte. Hubert présentera également des initiatives autour de Hadoop et ElasticSearch.

Citation preview

Page 1: Hugfr infotel-11 juin2014

#Hadoop Stories avec Infotel & Ericsson#Hadoop Summit overview

Twitter : #hugfrFollow @hugfrance

Page 2: Hugfr infotel-11 juin2014

Som

mai

re

Historique Infotel en 2mn

Classification dans le monde du brevet

Hadoop + MongoDB + ElasticSearch pour un portail survitaminé

Q?/R

11 Juin 2014

Page 3: Hugfr infotel-11 juin2014

PART 1 : CLASSIFICATION SUPERVISEE

8 Octobre 2013

Page 4: Hugfr infotel-11 juin2014

Comment Hadoop s’est imposé à Infotel ?

Au départ, en 1979, était le MainFrame

11 Juin 2014

Automobile & Industrie

Banque & Finance

Transport

Services

Page 5: Hugfr infotel-11 juin2014

Comment Hadoop s’est imposé à Infotel ?

Une expertise sur la gestion de grands volumes de données non démentie dans le temps

11 Juin 2014

Page 6: Hugfr infotel-11 juin2014

Comment Hadoop s’est imposé à Infotel ?

En 2014, le MainFrame est toujours là!

11 Juin 2014

Banque & Finance

Aéronautique & Services

Mobile / Web

Assurance, retraite

Propriété IntellectuelleConstruction automobile

BI

Page 7: Hugfr infotel-11 juin2014

Office de brevet: les grandes lignes métier

Qualifier les demandes de brevets émises auprès de l’office.

Confronter les requêtes auprès de l’historique interne

Valider la pertinence au regard des autres offices

Offrir des outils de mise à disposition de l’information:Aux entreprises et au grand public pour qu’il puisse faire des recherches d’antécédents ainsi qu’un suivi de leur demandes,

Aux offices nationaux et internationaux

11 Juin 2014

Page 8: Hugfr infotel-11 juin2014

Les familles d’applications d’un office de brevet

811 Juin 2014

Page 9: Hugfr infotel-11 juin2014

Notre projet : Classification de la ‘Non-Patent Litterature’

11 Juin 2014

130 Millions de documents

Acquis par divers flux:Web (crawling, plugin FF) / ‘Bibliothèques’ / OCR

Labelliser, Identifier & Classer

La classification sert à : Améliorer le patrimoine documentaire

o Meilleure organisation,o Nettoyage (doublons)

Créer des opportunités de parcours et de recherche

Page 10: Hugfr infotel-11 juin2014

Aperçu de l’algorithme

Première étape : générer la carte d’identité ou l’ADN pour chaque document

11 Juin 2014

1,4 Milliard de clés composites générées pour marquer chaque document

Une volumétrie en entrée modeste, mais une volumétrie temporaire et une puissance de calcul importantes.

Q DocId Key[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO[85] 000025829793 [85]0015-6264-FOCOTO-1-65[80] 000025829793 [80]0015-6264-6-FOCOTO-65[75] 000025829793 [75]0015-6264-6-1-FOCOTO[68] 000025829793 [68]0015-6264-6-1-65[65] 000025829793 [65]0015-6264-0-1-65[60] 000025829793 [60]0015-6264-6-0-65[55] 000025829793 [55]0015-6264-6-1-0[50] 000025829793 [50]0015-6264-0FOCOTO-65[45] 000025829793 [45]0015-6264-FOCOTO-0-65[45] 000025829793 [45]0015-6264-0-1-FOCOTO[40] 000025829793 [40]0015-6264-6-0-FOCOTO[40] 000025829793 [40]0015-6264-FOCOTO-1-0[35] 000025829793 [35]0015-6264-6-FOCOTO-0[01] 000025829793 [01]000025829793

Qualité(pondération)

Valeur

Page 11: Hugfr infotel-11 juin2014

Aperçu de l’algorithme

Deuxième étape : appliquer une stratégie de ‘Community detection algorithm’

11 Juin 2014

Ex : Classification de cellules

Principes simplifié

Notre classification documentaire:- Trouver les liens forts,- Casser les liens faibles,- Limiter les faux-positifs,

Page 12: Hugfr infotel-11 juin2014

Aperçu de l’algorithme

Concordance et Non-concordance de clés

11 Juin 2014

Calculer la proximité de documents dans le Corpus

Le document qui postule est trop éloigné de la clé d’identité du groupe

Page 13: Hugfr infotel-11 juin2014

Transposition en MAP / Reduce

17 Itérations

11 juin 2014

Q DocId Key[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO[85] 000025829793 [85]0015-6264-FOCOTO-1-65[80] 000025829793 [80]0015-6264-6-FOCOTO-65[75] 000025829793 [75]0015-6264-6-1-FOCOTO[68] 000025829793 [68]0015-6264-6-1-65[65] 000025829793 [65]0015-6264-0-1-65[60] 000025829793 [60]0015-6264-6-0-65[55] 000025829793 [55]0015-6264-6-1-0[50] 000025829793 [50]0015-6264-0FOCOTO-65[45] 000025829793 [45]0015-6264-FOCOTO-0-65[45] 000025829793 [45]0015-6264-0-1-FOCOTO[40] 000025829793 [40]0015-6264-6-0-FOCOTO[40] 000025829793 [40]0015-6264-FOCOTO-1-0[35] 000025829793 [35]0015-6264-6-FOCOTO-0[01] 000025829793 [01]000025829793

Co

ns

truc

tion

de

l’arb

re

Page 14: Hugfr infotel-11 juin2014

Mainframe vs Hadoop : le match

11 juin 2014

MainFrame Hadoop

Coûts de développementUtilisation du générateur d e

clés Java

Coûts de mise en productionHW + Soft

Commodity Hardware

Disques (300Go temp) + MSU

Ouverture à de nouveaux usagesIntégration avec la

classification temps réel

Complexité de mise en œuvre Connecteurs MF 2 Hadoop

Données sous MF

Avantage à Hadoop (léger)

Hors jeu de par son MapReduce non Robuste, MongoDB est utile sur la

chaine de traitement

Page 15: Hugfr infotel-11 juin2014

Architecture technique globale

11 juin 2014

DB2

Dump

XML + EBCDIC

Clés générées sur MongoDB

En Java

ETL

MongoDB

2 collections: biblio + clé

++ schemaless

Hadoop

BSON

BSON

150GbPar MongoDB

Connector 200 Gb

Vérification & stats

EBCDIC

Run >= 12h

Page 16: Hugfr infotel-11 juin2014

Focus cluster

Hadoop:Un cluster modeste de 7 nœuds

32Go RAM / 4 cœur

Facteur de réplication : 3

11 juin 2014

Page 17: Hugfr infotel-11 juin2014

Résultat

La classification

…et les restitutions graphiques de la phase de validation

Page 18: Hugfr infotel-11 juin2014

Performance Tips

Enchainement de 33 jobsPassage de 1h à 25mn pour le plus coûteux

Optimisation des paramètres pour exploiter toutes les ressources du cluster

Nombre de Reducer,

Ajustement de l’allocation mémoire,

Equilibrage entre les deux disques présents sur chaque nœud

Répartition des opérations de lecture /écriture

11 juin 2014

Optimisation du map et du reduce

mapreduce.task.io.sort.mbmapreduce.task.io.sort.factor

etc…

dfs.datanode.data.dir et yarn.nodemanager.local-dirs

Page 19: Hugfr infotel-11 juin2014

Performance Tips 2/2

CompressionGain important lors du shuffle avec la compression

Taille des blocks HDFS

JVM et mémoireUne batterie de paramètres finement ajustés

Taille occupée par la tâche en RAM, taille de la JVM, taille des mémoires tampons, etc ...

A suivre ….11 juin 2014

mapreduce.output.fileoutputformat.compressmapreduce.output.fileoutputformat.compress.codec

mapreduce.map.memory.mbmapreduce.reduce.memory.mb

Page 20: Hugfr infotel-11 juin2014

Points divers

L’équipe 1 CP

4 Développeurs Hadoop / Java / MongoDB

1 Développeur MainFrame

La suite : Industrialisation des flux,

Spark !: transposition de l’algorithme pour accélérer drastiquement les traitements

Utilisation en mode ‘Temps Réel / Incrémental’

11 juin 2014

Page 21: Hugfr infotel-11 juin2014

PART 2UN PORTAIL SURVITAMINE

11 juin 2014

Page 22: Hugfr infotel-11 juin2014

DataMining & BigDataBaobab : Explorer une galaxie documentaire

Objectif n° 1:

Acquérir / Stocker / indexer

Objectif n° 2:…..

Objectif n° 3:…..

photos vidéosDonnées & méta

données 10 To

synchroMongoDB ElasticSearch

mainframe

Page 23: Hugfr infotel-11 juin2014

DataMining & BigDataBaobab : Explorer une galaxie documentaire

Objectif n° 1:

Acquérir / Stocker / indexer

Objectif n° 2:

Rechercher intelligemment et Visualiser

Objectif n° 3:…..

Visualisation

Répartition dans le temps

Répartition géographique

Recherche ‘plein texte’ en qqs ms

Recherche par critères

Parcours par proximité

Lecture ergonomique

Page 24: Hugfr infotel-11 juin2014

DataMining & BigDataBaobab : Explorer une galaxie documentaire

Objectif n° 1:

Acquérir / Stocker / indexer

Objectif n° 2:

Rechercher intelligemment et Visualiser

Objectif n° 3:

Comprendre et suggérer

Exploration statistique supervisée et non supervisée pour ‘comprendre’

Hadoop

TF - IDF

Dictionnaire / langue

Règles métier

Extraction des mots pertinents

Nettoyage d’informations

parasites et affinage

Alignement sur les spécificités du domaine

BOOST de SCORE

Page 25: Hugfr infotel-11 juin2014

DataMining & BigDataBaobab : Explorer une galaxie documentaire

Objectif n° 1:

Acquérir / Stocker / indexer

Objectif n° 2:

Rechercher intelligemment et Visualiser

Objectif n° 3:

Comprendre et suggérer

Nuages de mots

hexafluoride

uraniumfluorine

Recommandations

Tendances Classification supervisée / non supervisée

VIDEO

Page 26: Hugfr infotel-11 juin2014

Prochainement

11 juin 2014

Machine Learning avec Spark – Classification hiérarchique de documents texte

Page 27: Hugfr infotel-11 juin2014

11 juin 2014

A suivre…

Notre livre blanchttp://infotel.com/services/big-data-360/formulaire-livreblanc/

@hstef

[email protected]