Etude Google News : publication, indexation et crawl Google
Contexte de l’étude
Cette étude a été réalisée sur deux gros sites de news généralistes Français. Pour les deux sites, le sitemap a été crawlé plusieurs fois par jour dans le but de récupérer l’ensemble des articles publiés, sur une période de 6 mois. En parallèle, les pages de Google Actualités ont été crawlées toutes les minutes afin de monitorer les articles qui bénéficiaient d’une bonne indexation. Enfin, pour le site de mon client, ses logs sur 6 mois, filtrés sur les articles, ont été analysés.
Le site de news généraliste n°1 a publié 55 000 articles en 6 mois.
Le site de news généraliste n°2 a publié 48 000 articles en 6 mois.
Objectifs de l’étude
Indexation
- mesurer l’indexation des articles sur Google News vs les articles publiés par le journal
- mesurer l’indexation des articles sur une semaine
- mesurer l’indexation des articles heure par heure
- savoir si les articles sont publiés aux bons moments de la journée, par rapport au moment où ils vont être indexés
Type de publication
- savoir quel est le type d’article qui s’indexe le mieux (AFP ? article pické ? original ?)
- savoir si la ligne éditoriale correspond aux articles sur lesquels le site apparaît
Analyse de logs
- savoir au bout de combien de temps Google crawle un article publié
- savoir au bout de combien de temps un article est indexé après avoir été crawlé
- et finalement, de savoir au bout de combien de temps un article est indexé après avoir été publié
Indexation des articles
Sur l’ensemble des articles publiés par les deux sites (respectivement 55 000 et 48 000), seuls les 3/4 apparaissent sur Google News, sur la page d’accueil et dans les têtes de rubriques.
Par contre, si on répartit les données de manière hebdo, on s’aperçoit que :
- Site de news n°1 : malgré l’augmentation moyenne de publication d’articles mercredi/jeudi/vendredi, la valeur absolue de l’indexation des articles reste stable.
- Site de news n°2 : l’augmentation moyenne de publication d’articles mardi/mercredi/jeudi amène à une indexation supérieure.
Sur une moyenne de publication des articles / indexation heure par heure et en croisant les statistiques de trafic de mon client (site n°1) qui s’étalent entre 9h et 11h, puis à 16 heures, on s’aperçoit que cela ne correspond pas aux heures où il met ses efforts de publication.
Type de publication
L’objectif était de savoir ou plutôt de prouver (car on s’en doute), du type d’article qui se fait mieux indexer que les autres : articles de fond ? news originales ? publication des dépêches AFP sans retouche ?
Sans surprise, ce sont les articles originaux qui se font mieux indexer.
Ici l’objectif est de comparer les catégories d’articles les plus publiées versus celles qui se font le plus indexer.
Comme il y avait une cohérence sur le site n°1, j’ai préféré montrer les résultats du site n°2.
Ce site mets le paquet sur des articles aux sujets suivants : monde, sport, économie.
Et il s’indexe plutôt sur des articles aux sujets suivants : faits divers, monde, international.
Analyse de logs
Ayant eu accès aux logs de mon client, j’ai pu aller un peu plus loin dans l’analyse. La période étudiée est de 7 jours, pour 2000 articles. 650 article ont été indexés.
1ère minute = 00:00 – 00:59
La plupart des articles sont crawlés dans les 3 minutes qui suivent leur publication.
Tous les articles publiés sont crawlés dans les 6 minutes qui suivent leur publication.
Une fois un article crawlé, on s’aperçoit que les premiers articles peuvent être indexés au bout de quelques secondes.
On voit deux pics d’indexation sur les 2 premières heures :
- rapide (6ème / 7ème minute)
- tardive (16ème / 60ème minute)
Hypothèse : les articles originaux seraient plus vite publiés que des articles déjà repris.
Enfin, on voit ici qu’entre la publication d’un article et son indexation, le temps minimum est de 5 minutes.
Les pics d’indexation suite à une publication étant de 7-9 minutes et 16-60 minutes, il faudrait pour aller plus loin :
- Déterminer quel type d’article est indexé à ces heures là (originaux ? repickés?)
- Savoir s’il y a une corrélation entre la catégorie d’article et le temps qu’il met à être indexé, si cela dépend également du jour, de l’heure
Objectif : adapter les publications dans la journée, en fonction du thème, tu type d’article, afin de publier au meilleur moment et maximiser ses chances d’indexation.
Pour aller plus loin :
- Combien de temps les articles restent en home des rubriques Google News ?
- Est-ce que les articles originaux restent visibles plus longtemps ?
- Faire un découpage horaire par catégorie d’articles (politique, économique) et ainsi établir des heures favorables à la publication
Edit :
Cette étude est un extrait d’un audit plus important, avec recommandations etc.
Je rajoute ici un autre point de l’étude qui me parait intéressant : bon nombre d’articles du site de mon client (n°1) n’avaient pas d’images. Voici les résultats d’indexation des articles avec / sans images. On s’aperçoit que les articles non illustrés sont moins indexés.
8 comments