0

Filtrer ses logs à coups de cut (étape 2)

Maintenant que nous avons vu comment extraire des logs, nous allons voir comment conserver uniquement les champs qui nous intéressent. En effet, si nous souhaitons uniquement récupérer les URLs en 404 crawlées par Google, inutile de conserver le champ du user-agent, l’ip…

Dans cet article, nous verrons comment récupérer les URLs en 404 qui ont été crawlées par Google.

Extraire les lignes de crawl de Google

Si vos lignes de logs commencent par l’IP (c’est souvent le cas car c’est la configuration par défaut), tapez tout simplement grep -P "^66.249." votre_fichier_log > fichier_sortie.txt

Votre fichier de sortie ressemblera alors à cela, il contiendra toutes les lignes de logs de Google :
logs-google

Avant de « greper » sur les 404, nous allons simplement extraire les deux colonnes qui nous intéressent : la colonne GET et la colonne REPONSE HTTP.

Extraire les deux colonnes avec cut

Cut va nous aider à extraire des colonnes. Pour cela, l’option -d nous permet de renseigner un délimiteur, l’option -f nous permet de sélectionner les champs.

Si nous comptons, les champs que nous souhaitons extraire sont les champs après le GET et après le HTTP/1.1″. Les deux champs que nous souhaitons extraire sont situés après un espace : c’est notre délimiteur. Aussi, le numéro de champ renseigné correspond au champ situé avant le délimiteur.

Nous allons donc taper : cut -d" " -f7,9 vos_logs_google.txt > fichier_sortie.txt

Nous voilà donc avec un fichier de sortie contenant deux colonnes : URL et REPONSE HTTP, séparées par un espace.

Extraire les URLs en 404

Pour cela, nous réalisons simplement un grep  » 404″ (avec un espace) :

grep " 404" votre_fichier_deux_colonnes.txt > fichier_sortie.txt

A ce stade, notre fichier contient des doublons : eh oui, Google crawle plusieurs fois ressources et URLs. Pour dédoublonner notre fichier, nous le trions, puis nous supprimons les doublons :

sort fichier_avec_doublons.txt > fichier_avec_doublons_trie.txt
uniq fichier_avec_doublons_tries.txt > fichier_sansa_doublons.txt

 

marseo

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *