0

Les précautions à prendre lors du crawl d’un site

La vitesse

Il est important de communiquer avec l’administrateur du serveur que vous allez solliciter, afin de lui demander une fourchette de vitesse de crawl. On crawlera en moyenne 10 p/s, une vitesse de 20 p/s sera déjà considérée comme rapide. Ensuite, tout dépend de la volumétrie que vous souhaitez crawler. S’il s’agit d’un petit site, inutile de prendre des risques : réduisez votre vitesse et patientez quelques minutes / heures. S’il s’agit d’un gros site (plusieurs centaines de milliers de pages), crawlez à au moins 15 p/s sinon le temps vous semblera long.

L’heure

Il est important de bien configurer les heures de crawl de votre outil. S’il n’est pas possible de paramétrer les heures de crawl, alors démarrez / arrêtez le crawl manuellement. Le choix d’une plage horaire sollicitera le serveur pendant une période creuse. Le crawl se déroule généralement la nuit. Attention cependant, certaintes mises jour serveur sont programmées la nuit, et cela implique un redémarrage du serveur. Vous aurez alors des connexions perdues dans votre crawl. Renseignez-vous bien auprès du responsable serveur qu’il restera bien allumé toute la nuit.
(redémarrage serveur)

Le whitelistage

Afin de ne pas vous faire blacklister, demande à ce que votre ip et ou user-agent soit whitelisté sur le serveur. Sur de nombreux outil, le user-agent est personnalisable : profitez-en pour lui donner un nom que vous reconnaîtrez dans les logs.

Le crawl d’un concurrent 🙂

Le crawl d’un site concurrent n’est pas un secret : nous le faisons souvent. D’ailleurs, tous les sites se font plus ou moins « attaquer » pour de nombreuses raisons. Prenez tout de même quelques précautions avant de crawler un site qui ne vous appartient pas :
Crawlez avec un user-agent connu (qui simule une visite ou un passage Google). Ici, votre adresse IP vous trahira certainement.
Ne crawlez pas depuis votre IP afin que vous ne soyez pas blacklisté
Passez par des Proxys : cela vous protègera un peu du blacklistage et ne sollicitera pas votre adresse IP
Crawlez doucement, très doucement
Crawlez la nuit, si un blacklistage se fait manuellement après une alerte, vous aurez un peu plus de temps de crawl.
Malgré ces précautions, certains serveur sont très sécurisés et vous détecterons quand même. C’est le jeu 🙂

marseo

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.