23
BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74 mercredi 5 décembre 12

Big Data et SEO, par Vincent Heuschling

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Big Data et SEO, par Vincent Heuschling

BIGDATA ET DONNÉES SEO

Vincent Heuschling@vhe74

mercredi 5 décembre 12

Page 2: Big Data et SEO, par Vincent Heuschling

AGENDA AFFINI-TECH

SEO ?

TRAITER et ANALYSER

MESURER

OUTILS

EVOLUTION DES MOYENS

mercredi 5 décembre 12

Page 3: Big Data et SEO, par Vincent Heuschling

© 2012 Affini-Tech - Diffusion restreinte

3 PILIERS

3

Une démarche intégrée de bout en boutIntégration, Mise en Oeuvre, Conseil et Formation

Business&

Analyses

Technos SciencesBigDataHadoopNoSQL

Cloud

Méthodes projetsOutils de reporting& Data-visualisation

ModélisationStatistiques (R)Machine Learning

mercredi 5 décembre 12

Page 4: Big Data et SEO, par Vincent Heuschling

© 2012 Affini-Tech - Diffusion restreinte 4

BigData Data-Science Décisionnel

CollecterStocker Traiter

AnalyserValoriser

PrésenterOrganiser

Votre infrastructure Notre Cloud

mercredi 5 décembre 12

Page 5: Big Data et SEO, par Vincent Heuschling

SEO ?

Optimiser le trafic d'un site web issu des moteurs de recherche.

Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches

Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrence

mercredi 5 décembre 12

Page 6: Big Data et SEO, par Vincent Heuschling

CONTEXTE 100 millions de visites par mois

Patrimoine informationnel très riche

Business model basé sur la pub

Marché ultra concurrentiel

Plus de 15 Go de log par jour (sous-traités)

Appliance Teradata de 12 To compressés + SAS

mercredi 5 décembre 12

Page 7: Big Data et SEO, par Vincent Heuschling

COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source

mercredi 5 décembre 12

Page 8: Big Data et SEO, par Vincent Heuschling

DÉMARCHE SEO

Collecter

AnalyserProduire

Mesurer

mercredi 5 décembre 12

Page 9: Big Data et SEO, par Vincent Heuschling

Similarités et Classifications

Recommandation & intelligence collective

OpenData

TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ?

mercredi 5 décembre 12

Page 10: Big Data et SEO, par Vincent Heuschling

OUTILS

Collecter

Pig

Traiter Analyser

mercredi 5 décembre 12

Page 11: Big Data et SEO, par Vincent Heuschling

TYPES DE REQUETES

Analyse par zones de géographique

Données socio-économiques

Recherches de similarités

Analyse au niveau Url (granularité fine)

Impact du Crawl sur les visites

mercredi 5 décembre 12

Page 12: Big Data et SEO, par Vincent Heuschling

PIPELINE

Logs Visitesseo

Data géo-écoInsee

Crawlseo

Similarit. Urls.

mercredi 5 décembre 12

Page 13: Big Data et SEO, par Vincent Heuschling

IMPACT DU CRAWL

Projection et croisement de 2 sources Visites Crawl

Pig COGROUP

Patterns sur TS

mercredi 5 décembre 12

Page 14: Big Data et SEO, par Vincent Heuschling

LONG TAIL

Très grosses concentrations d’activités sur certaines localités.

1: 30032: 39910: 24350: 100100: 54500: 4

Map/Reduce !!

PIG Skewed joins

mercredi 5 décembre 12

Page 15: Big Data et SEO, par Vincent Heuschling

HEATMAPS

Activités (10500)

Départements(96)

Volume de visites

mercredi 5 décembre 12

Page 16: Big Data et SEO, par Vincent Heuschling

MESURER : RANKINGS

Collecte des réponses Google (30x par recherche = dizaines de millions par mois)

Forte croissance de la volumétrie

Classifier et Segmenter par produit, par thématiques.

mercredi 5 décembre 12

Page 17: Big Data et SEO, par Vincent Heuschling

mercredi 5 décembre 12

Page 18: Big Data et SEO, par Vincent Heuschling

OUTILS

Collecter

Pig

Traiter

D3.js

VisualiserStocker

Analyser

mercredi 5 décembre 12

Page 19: Big Data et SEO, par Vincent Heuschling

MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails

{ univers : ‘‘restaurants’’,métrique : 250,regions : [‘‘idf ’’, ‘‘paca’’],sousMétriques : [

{petitesVilles : 80},{moyennesVilles : 70},{grandesVilles : 100},]

}

Univers Catégories

n n

Métriques

Localités

n

n

mercredi 5 décembre 12

Page 20: Big Data et SEO, par Vincent Heuschling

RÉSULTATS

mercredi 5 décembre 12

Page 21: Big Data et SEO, par Vincent Heuschling

EVOLUTIONS ?

Plus de temps réel : Impala, Spark/Shark ?

Bases de données colonnes pour les données pure SQL ?

Utilisation d’Elasticsearch pour indexer les données raffinées ?

mercredi 5 décembre 12

Page 22: Big Data et SEO, par Vincent Heuschling

GENERALISATION Scalabilité des outils de traitement de logs Variation des besoins Migration mySQL vers Hadoop/Hive : SQL Plateforme managée : "Simple as a Query" Avoir une boite à outils de Data-Analyse Dans un cloud mais local (FR)

mercredi 5 décembre 12

Page 23: Big Data et SEO, par Vincent Heuschling

© 2012 Affini-Tech - Diffusion restreinte

MERCI !

Vincent Heuschling

Gsm : 06 61 88 76 71

Email : [email protected]

Web : http://www.affini-tech.com

Twitter : @affinitech & @vhe74

24

mercredi 5 décembre 12