Crawlers

On connait tous les robots Googlebot et Bingbot, utilisés par leur moteur de recherche respectif pour explorer des milliards de sites web chaque jour. Mais il existe également des outils qui simulent ces robots et vous donnent de nombreuses indications sur l'indexabilité de votre site web. Des systèmes qui sont devenus indispensables au fil du temps dans le cadre d'un audit SEO. Après la découverte des différents outils disponibles ainsi que leur utilisation "classique" le mois dernier, nous nous attaquons à des usages plus avancés dans cette seconde partie...

Début de l'article :

Le mois dernier, nous avons passé en revue les utilisations « classiques » des crawlers. Mais ces outils peuvent être utilisés pour des analyses plus avancées, qui s'avèrent particulièrement utiles pour le SEO.

L'analyse des problèmes de performance

La fréquence et l'intensité des crawls de Google peuvent être fortement influencées par les performances de votre site web. Nous ne parlons pas ici du « temps de rendition », celui qui est expérimenté par l'utilisateur dans son navigateur, qui dépend de multiples facteurs, mais uniquement du délai nécessaire entre une requête "http://" et la réception de l'intégralité du code d'une page ou fichier.

On observe couramment qu'au-delà d'une seconde de temps de téléchargement, les bots de Google commence à ignorer les pages d'un site, et a minima, les crawlent moins souvent.

Un exemple typique des phénomènes constatés : ici le temps de téléchargement moyen indiqué dans les Webmaster Tools explose d'un seul coup, pour atteindre les 4 sec. Immédiatement, le nombre de pages crawlées tombe de 51000 pages par jour à 350.

Dans la pratique, trouver les causes de ces mauvaises performances se révèle souvent problématique. En effet, les outils de mesure de performance peuvent ne pas détecter ces anomalies, car ils se basent souvent sur des scénarios d'utilisation du site qui correspondent à des comportements d'utilisateurs et non de robots d'exploration. Or ces derniers ont une fâcheuse tendance à :
- Appeler des pages qui ne sont pas en cache (tout simplement parce qu'ils sont les premiers à appeler ces pages depuis le moment où la page en cache est devenue obsolète).
- A déclencher massivement des requêtes lourdes à calculer (comme celles correspondant à des pages de pagination).
- A appeler des pages dans un ordre qui n'est pas forcément celui « imaginé » par le développeur.
- Etc.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).