Pourquoi l’optimisation de son budget de crawl est importante ?

Pourquoi l’optimisation de son budget de crawl est importante ?

Pourquoi cet article ?

Suite Ă  l’article de Google sur son blog pour webmasters, j’ai souhaitĂ© Ă  mon tour publier, car j’ai vu passer plusieurs articles sur le sujet du budget de crawl qui me semblent incomplets voire pas tout Ă  fait en accord comparé à ce que j’observe cĂŽtĂ© logs Google. Je souhaite dans cet article expliquer le budget de crawl diffĂ©remment, mais surtout illustrer par des comportements de Google la raison pour laquelle il est important d’y prĂȘter attention.

Comment fonctionne Google ?

Tout d’abord, il est important de rappeler (schematiquement) la maniĂšre dont fonctionne Google :

  1. Google Bot crawle le web : Google parcourt toutes les pages qu’il trouve sur le web, navigue de liens en liens et crawle le contenu des pages.
  2. Google insĂšre les pages dans son index : en fonction des critĂšres de l’algorithme de Google ou de directives donnĂ©es, celui-ci choisit ou non d’indexer les pages.
  3. Google affiche les rĂ©sultats : Google prĂ©sente les rĂ©sultats qui lui semblent le plus pertinent sur une requĂȘte donnĂ©e. Le classement de ces rĂ©sultats dĂ©pend de l’algorithme de Google qui prend en compte plusieurs facteurs en compte comme le contenu de la page, la structure, la popularitĂ©…

A partir de lĂ , on peut se dire que le « job » est terminĂ© : mon site est indexĂ©, et il remontera mieux ou moins bien dans le futur grĂące aux optimisations que je fais, on-site ou off-site, et que Google prendra en compte lors de ses prochains passages. C’est sur ce point que je souhaite revenir, car le crawl doit se monitorer et se maintenir tout au long de la vie d’un site. En effet, une page indexĂ©e n’est pas un indicateur fiable de bonne santĂ© d’un site : Google possĂšde beaucoup de pages de mauvaises qualitĂ©s dans son index, et ne remonteront pas dans les rĂ©sultats (on retrouve mĂȘme des pages bloquĂ©es dans le robots.txt).

Qu’est-ce que le budget de crawl ?

Google possĂšde une puissance de crawl folle, puisqu’il arrive Ă  explorer des milliards de contenus, en un temps record. Cette puissance a un coĂ»t et prend du temps : c’est la raison pour laquelle Google ne crawle pas un site dans sa globalitĂ© en un jour (mĂȘme des sites Ă  faible volume de pages) : il va mettre des jours, des semaines, des mois voire… des annĂ©es !

L’objectif SEO est de faire en sorte que non seulement Google crawle l’ensemble des pages en un minimum de temps, mais qu’il se focalise sur les pages importantes du site : qui possĂšdent du contenu, qui gĂ©nĂšrent du business…

Quels sont les critĂšres pour qu’une page gĂ©nĂšre de la visite ?

C’est la question, souvent absente des articles liĂ©s au sujet, et c’est pourtant la principale raison pour laquelle le budget de crawl est important : pour qu’une page gĂ©nĂšre de la visite, elle n’a pas simplement besoin d’ĂȘtre indexĂ©e, elle a Ă©galement besoin d’ĂȘtre crawlĂ©e !

L’indexation et le crawl sont deux prĂ©requis pour le positionnement d’une page.

Deux choses Ă  savoir :

PremiĂšrement, une page qui n’est pas crawlĂ©e ne gĂ©nĂšre pas de visite. Plus prĂ©cisĂ©ment, une page qui n’a pas Ă©tĂ© crawlĂ©e depuis un laps de temps important a peu voire aucune chance de gĂ©nĂ©rer du trafic. Ce laps de temps n’est pas la mĂȘme en fonction des sites (et de leur volumĂ©trie) et des typologies de pages : cela peut aller d’un mois Ă  plus.

DeuxiĂšmement, une page crawlĂ©e ne rapportera pas forcĂ©ment du trafic : c’est lĂ  que l’algorithme de Google va intervenir pour classer les rĂ©sultats. Par contre, une page de qualitĂ© trĂšs crawlĂ©e a plus de chances de bien se positionner.

Lors d’une analyse de logs, on regardera en premier lieu (en plus des erreurs rencontrĂ©es) :

  • Les pages qui ne sont pas crawlĂ©es : sont-elles des pages qui ont une change de gĂ©nĂ©rer du trafic et faut-il leur ramener du crawl ?
  • Les pages crawlĂ©es gĂ©nĂšrent-elles du trafic ? Google dĂ©pense t-il inutilement de l’Ă©nergie sur des pages qui ne sont pas destinĂ©es Ă  se positionner ou s’agit-il de facteurs on-site / off-site ?

J’ai dĂ©jĂ  observé 50% Ă  90% de crawl inutile sur certains sites ou templates de sites.

Une fois l’Ă©tape du crawl utile / inutile, on va se concentrer sur le crawl des pages qui gĂ©nĂšrent du trafic. C’est lĂ  que ça devient intĂ©ressant, car c’est trĂšs liĂ© Ă  la typologie de site et de ses templates.

Exemple d’un site Ă  contenus « froids/tiĂšdes » :

Dans cet exemple, on peut dire que :

  • Chaque jour, 50% qui gĂ©nĂšrent du trafic ont Ă©tĂ© crawlĂ©es dans les 15 jours.
  • Chaque jour, 30% des pages qui gĂ©nĂšrent du trafic on Ă©tĂ© crawlĂ©es le jour ou la veille.

 

fenetre-crawl-froid

Exemple d’un site Ă  contenus « chauds » :

Dans cet exemple, on peut dire que :

  • Chaque jour, +95% des pages qui gĂ©nĂšrent du trafic ont Ă©tĂ© crawlĂ©es le jour mĂȘme.

Il s’agit ici de la typologie de crawl des pages qui gĂ©nĂšrent du trafic d’un site Ă  contenus « chauds » : ce sont des pages dont le contenu est souvent mis Ă  jour, oĂč qui viennent d’ĂȘtre mis en ligne.C’est le genre de comportement des pages actives des articles d’un site de news (ici, cas de la rubrique news « sport » d’un site TV.

fenetre-crawl-chaud

Je ne mets que deux graphes ici, mais on pourrait aller plus loin dans l’analyse de logs :

  • Est-ce que ce sont toujours les mĂȘmes pages qui gĂ©nĂšrent du trafic ou des nouvelles ?
  • En combien de temps Google crawle t-il mes pages qui gĂ©nĂšrent du trafic ?
  • etc

Sur les sites à forte volumétrie ou contenus « froids » :

Sur un gros site (centaines de milliers, millions de pages), on observera souvent qu’une page peut gĂ©nĂ©rer de la visite mĂȘme si elle a Ă©tĂ© crawlĂ©e il y a plus d’un mois :

  • Ce trafic correspond gĂ©nĂ©ralement Ă  de la long tail : la page peut se positionner au sein d’une faible concurrence, et Google n’a pas besoin de la crawler rĂ©guliĂšrement.

Les requĂȘtes « top tail :

  • Tout comme pour les contenus « chauds », les pages qui gĂ©nĂšrent du trafic sur des mots clĂ©s « top tail » (page d’accueil, pages de nav), on besoin d’un crawl plus Ă©levĂ© que les autres pour ĂȘtre lĂ©gitimes aux yeux de Google. Etant mises en avant dans l’arborescence, le crawl est naturellement plus important que sur les pages internes.

Au final, comment l’optimise t-on ?

Je ne vais pas m’Ă©tendre sur le sujet qui a largement Ă©tĂ© abordĂ© et repris, et vais simplement lister les principaux facteurs :

  • AmĂ©liorer le temps de rĂ©ponse de son serveur / chargement des pages
  • Augmenter la popularitĂ© du site (netlinking)
  • Limiter les pages de faible qualitĂ© (pages soft 404, pages piratĂ©es, pages dupliquĂ©es, spider traps, navigation Ă  facettes non optimisĂ©es
)
  • Mise en cache
  • Mise en place de la 304
  • Optimisation du robots.txt
  • Optimisation de la navigation (profondeur, maillage
)

Un focus tout de mĂȘme sur le maillage interne : maintenant que l’on connaĂźt l’importance du crawl, il faut non seulement imaginer une stratĂ©gie sĂ©mantique mais Ă©galement plus aboutie en terme de structure. En effet, il ne s’agit pas seulement de rĂ©duire les niveaux de profondeur, mais de favoriser ou dĂ©favoriser les pages en fonction de leur taux de crawl et de leur efficacitĂ©. Quelques cas concrets :

  • Mailler des pages qui ne gĂ©nĂšrent pas de trafic mais qui ne sont pas crawlĂ©es afin de leur donnes « une chance » de positionnement ?
  • Mettre en avant les pages qui ne gĂ©nĂšrent pas de trafic malgrĂ© leur bon positionnement ?
  • Mailler des marronniers avant les Ă©vĂ©nements pour amener une certaine dynamique de crawl avant le futur positionnement de ces pages

Laisser un commentaire

You May Have Missed