Etude Google News : publication, indexation et crawl Google

Etude Google News : publication, indexation et crawl Google

Contexte de l’étude

Cette étude a été réalisée sur deux gros sites de news généralistes Français. Pour les deux sites, le sitemap a été crawlé plusieurs fois par jour dans le but de récupérer l’ensemble des articles publiés, sur une période de 6 mois. En parallèle, les pages de Google Actualités ont été crawlées toutes les minutes afin de monitorer les articles qui bénéficiaient d’une bonne indexation. Enfin, pour le site de mon client, ses logs sur 6 mois, filtrés sur les articles, ont été analysés.

Le site de news généraliste n°1 a publié 55 000 articles en 6 mois.

Le site de news généraliste n°2 a publié 48 000 articles en 6 mois.

Objectifs de l’étude

Indexation

  • mesurer l’indexation des articles sur Google News vs les articles publiés par le journal
  • mesurer l’indexation des articles sur une semaine
  • mesurer l’indexation des articles heure par heure
  • savoir si les articles sont publiés aux bons moments de la journée, par rapport au moment où ils vont être indexés

Type de publication

  • savoir quel est le type d’article qui s’indexe le mieux (AFP ? article pické ? original ?)
  • savoir si la ligne éditoriale correspond aux articles sur lesquels le site apparaît

Analyse de logs

  • savoir au bout de combien de temps Google crawle un article publié
  • savoir au bout de combien de temps un article est indexé après avoir été crawlé
  • et finalement, de savoir au bout de combien de temps un article est indexé après avoir été publié

Indexation des articles

Sur l’ensemble des articles publiés par les deux sites (respectivement 55 000 et 48 000), seuls les 3/4 apparaissent sur Google News, sur la page d’accueil et dans les têtes de rubriques.

indexation-globale

Par contre, si on répartit les données de manière hebdo, on s’aperçoit que :

  • Site de news n°1 : malgré l’augmentation moyenne de publication d’articles mercredi/jeudi/vendredi, la valeur absolue de l’indexation des articles reste stable.
  • Site de news n°2 : l’augmentation moyenne de publication d’articles mardi/mercredi/jeudi amène à une indexation supérieure.

indexation-hebdo

Sur une moyenne de publication des articles / indexation heure par heure et en croisant les statistiques de trafic de mon client (site n°1) qui s’étalent entre 9h et 11h, puis à 16 heures, on s’aperçoit que cela ne correspond pas aux heures où il met ses efforts de publication.

indexation-horaire-site1indexation-horaire-site2

Type de publication

L’objectif était de savoir ou plutôt de prouver (car on s’en doute), du type d’article qui se fait mieux indexer que les autres : articles de fond ? news originales ? publication des dépêches AFP sans retouche ?

Sans surprise, ce sont les articles originaux qui se font mieux indexer.

indexation-type-articles

Ici l’objectif est de comparer les catégories d’articles les plus publiées versus celles qui se font le plus indexer.

Comme il y avait une cohérence sur le site n°1, j’ai préféré montrer les résultats du site n°2.

Ce site mets le paquet sur des articles aux sujets suivants : monde, sport, économie.

Et il s’indexe plutôt sur des articles aux sujets suivants : faits divers, monde, international.

indexation-categorie-articles

Analyse de logs

Ayant eu accès aux logs de mon client, j’ai pu aller un peu plus loin dans l’analyse. La période étudiée est de 7 jours, pour 2000 articles. 650 article ont été indexés.

1ère minute = 00:00 – 00:59

La plupart des articles sont crawlés dans les 3 minutes qui suivent leur publication.

Tous les articles publiés sont crawlés dans les 6 minutes qui suivent leur publication.

1er-crawl-apres-publication

Une fois un article crawlé, on s’aperçoit que les premiers articles peuvent être indexés au bout de quelques secondes.

On voit deux pics d’indexation sur les 2 premières heures :

  • rapide (6ème / 7ème minute)
  • tardive (16ème / 60ème minute)

Hypothèse : les articles originaux seraient plus vite publiés que des articles déjà repris.

1ere-indexation-apres-crawl

Enfin, on voit ici qu’entre la publication d’un article et son indexation, le temps minimum est de 5 minutes.

Les pics d’indexation suite à une publication étant de 7-9 minutes et 16-60 minutes, il faudrait pour aller plus loin :

  • Déterminer quel type d’article est indexé à ces heures là (originaux ? repickés?)
  • Savoir s’il y a une corrélation entre la catégorie d’article et le temps qu’il met à être indexé, si cela dépend également du jour, de l’heure

Objectif : adapter les publications dans la journée, en fonction du thème, tu type d’article, afin de publier au meilleur moment et maximiser ses chances d’indexation.

1ere-indexation-apres-publication

Pour aller plus loin :

  • Combien de temps les articles restent en home des rubriques Google News ?
  • Est-ce que les articles originaux restent visibles plus longtemps ?
  • Faire un découpage horaire par catégorie d’articles (politique, économique) et ainsi établir des heures favorables à la publication

Edit :

Cette étude est un extrait d’un audit plus important, avec recommandations etc.

Je rajoute ici un autre point de l’étude qui me parait intéressant : bon nombre d’articles du site de mon client (n°1) n’avaient pas d’images. Voici les résultats d’indexation des articles avec / sans images. On s’aperçoit que les articles non illustrés sont moins indexés.

indexation-avec-images indexation-sans-images

8 comments

comments user
Tom

Un truc que je me suis toujours demandé, c’est comment être le numéro 1 sur un sujet traité par de nombreux sites dans Google News ?

Primeur de l’info ? Originalité du traitement de l’info ? Authorité du domaine ? Un mix de tout ça j’imagine.

J’oublie qqc ?

comments user
marseo

Bonjour,
oui 🙂 un mix de plein de choses.
Par exemple, dans cette étude, je me suis aperçue que le site n°1 et n°2 publiaient des dépêches AFP telles quelles, et que le site n°2 ressortait bien mieux que le site n°1. Donc à part la réactivité et l’authorité, je ne vois pas quoi d’autre à ce sujet.
Aussi, chaque site sera plus ou moins reconnu en fonction de la thématique. C’est ce que j’ai voulu montrer sur les catégories publiées VS indexées.
En fait, il faut publier à la fois vite et original. On se rend compte que le max de la réactivité va se faire en publiant un article AFP tel quel, on peut le reprendre rapidement et perdre un peu en réactivité, ou le réécrire complètement et perdre de longues minutes / heures. Les trois articles n’ont pas le même objectif, et en allant plus loin on pourrait voir ce sur quoi il vaut plus le coup d’investir.
En plus des éléments que tu as cités, il ne faut pas oublier les « basics » GGnews, la taille de ton article, microformats, la présence d’une image… (tiens, je vais rajouter cette info dans l’article 🙂 )

comments user
largeron

Bonjour et merci pour cet article. Google actualités est un vieil algo qui aime l’actualité fraîche et d’autorité mais pas seulement, c’est ce qui le rend surprenant parfois d’ailleurs, indexant par exemple des blogs thématiques bien spécialisés. Bonne Journée !

    comments user
    marseo

    Merci ! Bonne journée également

comments user
Clement

Très intéressant, la taille des articles a t’elle été prise en compte ? il est clair que des articles courts et sans image on peu de chance d’être indexé. Il en va de même pour les dépêches AFP surtout si la publication est tardive par rapport à la date de publication sur le serveur de l’AFP.

Après les problèmes d’indexation sur GGnews c’est très souvent un problème d’architecture un bon vieux plan du site avec un lien en home résout 80% des problèmes et les articles de moins de 300 mots sans image, si le trust du site est moyen ou faible verra des problème d’indexation ou de lenteur dans l’indexation.

Mais j’aime bien bien cette étude, c’est rare de trouver cela sur le web

    comments user
    marseo

    Bonjour Clément,

    Merci 🙂
    Oui, comme pour les images, la taille de l’article a été prise en compte. Cependant, les articles de moins de 1200 caractères étaient rares : 10% seulement. Du coup, les résultats n’étaient pas très parlant.

comments user
largow

Il y a quand même un biais dans cette étude : c’est aujourd’hui le même spider dans les logs pour Google News et Google classique. Par conséquent tes résultats agrègent les deux. Un article de moins de 24h peut être visible sur google news et pas en seo classique… ou l’inverse.
Une question : pour la visibilité Google news, tu prends en compte Google News plateforme ou les New Box ou les deux ?
En tout cas merci pour le partage.

    comments user
    marseo

    J’ai pris en compte Google News uniquement (les différentes HP de GG News).
    Les résultats agrègent en effet les deux, mais finalement au vu de la vitesse d’indexation de certains articles dans GG News corrèlent la vitesse d’exploration des articles.

Laisser un commentaire

You May Have Missed