41
#OnCrawlBreakfast Budget de crawl et SEO, tout ce que vous devez savoir pour l’optimiser #seocampus SEOCAMP’us Erlé Alberton

Budget de crawl et SEO - Tout ce que vous devez savoir

  • Upload
    oncrawl

  • View
    2.398

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Budget de crawl et SEO - Tout ce que vous devez savoir

#OnCrawlBreakfast

Budget de crawl et SEO, tout ce que vous devez savoir pour l’optimiser

#seocampus

SEOCAMP’usErlé Alberton

Page 2: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

J’adore voir Google dépenser un max de budget sur vos sites…

ERLE

ALBERTONCUSTOMER

SUcCESS manager10 ans de dev / 5 ans de SEO dont 2

ans en tant que responsable SEO des

boutiques en ligne Orange et Sosh

spécialiste schema.org

seo monk

ONCRAWL

TRAinER

customer climax

GOOD IDEAS

Page 3: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

www.oncrawl.comwww.oncrawl.com

We help Ecommerce & Online media take

better SEO decisions and grow their revenues

By providing access to the Most Advanced SEO Software

Semantic

SEO Crawler

Comprehensive

Log Analyser

API & Platform

to combined all

website’s data

Page 4: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

+300 Happy Customers

Page 5: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

+300 Happy Customers

Page 6: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Budget de Crawl Google

C’est le crédit que Google alloue à ses robots pour parcourir

l’ensemble des ressources d’un site web

Même si ce budget plutôt dédié aux gros sites, les sites de moyenne ou

petite taille doivent tout de même optimiser les temps de Crawl

Google pour montrer leur qualité

Chez OnCrawl on constate que, plus Google alloue de crédit à un

site plus le site reçoit de visites SEO

Source : Qu'entend donc Google quand il parle de "Crawl Budget" (budget d'exploration) ?

Page 7: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Ce que dit Google sur le « Crawl Budget »

Si vous observez que les nouvelles pages sont généralement explorées le jour même

de leur publication, alors vous n'avez pas vraiment à vous préoccuper du budget

d'exploration

[…] si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement

la plupart du temps

[…] nous ne disposons pas d'un terme unique pour décrire tout ce que ce terme semble

signifier en externe

Page 8: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Ce que dit Google sur le « Crawl Budget »

Page 9: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

• 100% des sites déclarés dans GSC ont des

données d’exploration

• Suivre son « Crawl Behavior » grâce à l’analyse

de ses logs permet de détecter rapidement une

anomalie dans le comportement du bot

• Un mauvais maillage interne - pagination, facette,

pages orphelines, spider trap - peut empêcher

Google d’explorer les bonnes pages

Le budget de Crawl est en relation avec le

ranking

Tous les sites doivent s’intéresser à leur budget de crawl

Page 10: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les brevets liés a la notion de Crawl

• US 8666964 B1 : Managing items in crawl schedule

• US 8707312 B1 : Document reuse in a search engine crawler

• US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from

websites

• US 7305610 B1 : Distributed crawling of hyperlinked documents

• US 8407204 B2 : Minimizing visibility of stale content in web

searching including revisine web crawl intervals of documents

• US 8386459 B1 : Scheduling a recrawl

• US 8042112 B1 : Scheduler for search engine crawler

A priori, la planification du crawl ca compte beaucoup !

Page 11: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Pourquoi ? Comment ?

Il faut prioriser pour économiser les ressources

NB : crawler du JS ca coute très chèr

oubliez Angular sans prerender

Page 12: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Page 13: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Données issues du Google Search Appliance Documentation

https://www.google.com/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/admin_crawl/introduction.html

Schématisation du crawl

Page 14: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Crawl budget = host load + URL scheduling

Both of these still matter in migrations !

Host Load : Que Google visite par IP/host – basé sur les capacités du server

URL scheduling : Quelles pages Google a envie de visiter et à quelle fréquence ?

http://searchengineland.com/crawl-budget-url-scheduling-might-impact-rankings-website-migrations-255624

Page 15: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les composants importants pour Google

Page Importance

Change managment & Freshness

Page 16: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Page Importance

La notion de « Page Importance » n’est pas le Page Rank

• Localisation de la page dans le site – a profondeur sur le taux de crawl

• Page Rank : TF/CF de la page - Majestic

• Le Page Rank interne – InRank OnCrawl

• Type de document : PDF, HTML, TXT

• L’inclusion dans le sitemap.xml

• Le nb de liens internes

• La qualité/l’importance des ancres

• Contenu de qualité : nombre de mots, peu de near duplicate

• L’importance de la page mère

L’analyse croisée du crawl OnCrawl avec vos logs permet de

suivre ces données en continu

Page 17: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les 3 types de crawl de Google

Si vous étiez à l’EXCELLENTE conférence de Vincent Terrasi et Remi

Bacha au SEOCamp’us Paris vous connaissez le sujet BEA

• Google hit continuellement la Home Page et les pages avec la

meilleure « Page Importance »

• Google hit des groupes de pages de manière compulsive

• Google hit toutes les ressources pour les comprendre (js,css,ajax)

Chez OnCrawl on sait que Google hit des pages avec des problèmes

pour vérifier s’ils sont résolus

Page 18: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les erreurs à ne pas commettre

• robots.txt en 404 !!

• sitemap.xml & sitemap.html out of date

• erreurs 50x / 40x / soft 404

• avoir chaines de redirections

• canonicals errors

• contenu dupliqué (footer) / near duplicate / HTTP vs HTTPS

• temps de réponse trop long

• poids des pages trop important

• erreurs AMP

• mauvais maillage interne + Rel=nofollow

• utiliser AngularJS

https://support.google.com/webmasters/answer/35120?hl=fr

https://www.google.com/killer-robots.txt

Page 19: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les solutions

• Avoir un robots.txt qui autorise le crawl des parties importantes

• Mettre à jour son sitemap.xml dynamiquement avec les pages ROI à faible

fréquence de crawl

• Monitorer ses logs pour détecter les pages en erreur - checker GSC

• Créez des redirections courtes et claires

• Tester ses canonicals – adapter les src en fonction du near duplicate

• Utiliser des serveurs performants – nginx – des serveurs de cache – varnish

• Minimiser le poids des ressources – img, css, html, fonts, js – lazy loadinghttps://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/image-optimization

• Vérifier son code AMP avec GSC

• Créer des plans de sites HTML intelligents

https://support.google.com/webmasters/answer/35120?hl=fr

Page 20: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

TIPS bien tricky pour améliorer le temps de chargement

62% du trafic Web Internet (hors vidéo) provient des images

51% des pages chargent plus de 40 images

• WebP est le nouveau format poussé par Google pour réduire le

poids des images

45% de réduction de poids vs JPG

64% de réduction du poids des Gifs animés

Page 21: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Passer en HTTPS sans passer en HTTP2

c’est USELESS !!

Page 22: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Quand optimiser son budget de crawl ?

Lors des refontes…

Les Cas Manageo avec Philippe Laine

Expert SEO

13 ans d’expérience en webmarketing

En agence et en interne

Page 23: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Page 24: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Manageo le bon élève

• 1 Million de visites/mois

• 15 Millions de pages indexables par Google

• Chaque entreprise de France a sa page

Le trafic naturel sur les milliers de landing pages

dépend essentiellement de dizaines de milliers de

requêtes très « long tail »

D’où l’importance de surveiller et de bien utiliser notre

budget de crawl pour avoir la meilleure indexation possible

Page 25: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Refonte = inquiétude + occasion d’optimiser

• Les metrics à suivre

• Budget de crawl avant vs après

• Suivi des « New crawled Pages pour s’assurer de

la prise en compte de la nouvelle architecture

• Suivi et qualification des « status code » de

redirection

• Amélioration de la qualité – tps de chargement,

réduction du duplicate, …

Page 26: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Manageo le bon élève

• Est-ce que Google aime mon site ?

• Est-ce qu’il m’aime toujours depuis que j’ai changé

de coiffure – migration HTTPS + refonte

• Il y a une corrélation entre la fréquence de crawl

d’une page et sa visibilité dans les SERPs

Surveiller le budget de crawl est complémentaire au suivi du ranking !

Cela permet d’avoir l’information des changements de ranking plusieurs

jours à l’avance

Page 27: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les tableaux de bord de Manageo sont issus des données GSC

Le temps de chargement impacte le budget de crawl

Page 28: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Une réalité plus complexe

Seule l’analyse de logs permet vraiment de savoir ce qu’il se passe

Page 29: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les pages uniques crawlées la granularité ultime du SEO

Page 30: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Les prochaines étapes

• Optimiser les temps de chargement serveur

• Utiliser une architecture basée sur le Cache

serveur + navigateur

• Retravailler la profondeur des pages importantes

• Maitriser l’InRank en optimisant le linking interne

Utiliser l’API d’oncrawl pour construire des dashboard de reporting pour

le top managnment

Page 31: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Avec OnCrawl adoptez

les reflexes “360° SEO

VIEW”

Page 32: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Comment suivre son budget… gratuitement !

Avec l’Analyseur de Logs SEO Open Source d’OnCrawl,

découvrez comment Google et les robots se comportent

sur votre site

• OnCrawl ELK (ElasticSearch, LogStash, Kibana) est disponible

pour tous sur GitHub https://github.com/cogniteev/oncrawl-elk

• Surveillez toute l’activité des robots et les performances de pages

au quotidien

• Contrôlez le taux de crawl de chaque robot pour n’importe quel

groupe de pages

• Notre stack est agnostique en termes de formats de logs mais

certains d’entre eux nécessiteront peut être une configuration

supplémentaire

Page 33: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Ce que la solution gratuite ne fera pas ?

Croiser les données !

Page 34: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

• Impact des KPI SEO sur les visites

• Pages crawlées vs pages visitées vs pages indexées

• Pages actives vs pages non actives par clusters

• Taux de crawl par groupes de pages

• Fréquence de crawl par profondeur

• Fréquence de crawl par popularité

• Fréquence de crawl par nombre de mots

• Taux de crawl par temps de chargement

• Taux de crawl par volume de texte

Les bonnes données à croiser

Toutes ces données doivent être suivies dans le temps

La création d’un dashboard de pilotage est un plus

Page 35: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Savoir être constant s’appelle être

éclairé…

Lao TseuVIe s. av. J.-C.

Page 36: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Vos questions

Page 37: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Quels sont les 2 facteurs essentiels du

Crawl Google ?

Les questions

Page 38: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Citez un des sites pour lequel Philippe

Laine à travaillé

Les questions

Page 39: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

A quoi correspond le status code 418 ?

Les questions

Page 40: Budget de crawl et SEO - Tout ce que vous devez savoir

#seocampus

Comment s’appelle notre programme de

formation à OnCrawl ?

Les questions

Page 41: Budget de crawl et SEO - Tout ce que vous devez savoir

MERCI !

[email protected]

Follow us : @Oncrawl