Lors de sa phase de crawl, le robot Googlebot doit prendre en compte de nombreuses données et informations : redirections (301, 302, 307), robots.txt, code d’erreur 404 ou 410, balise « canonical », balise meta-robot ou directive X-Robots-Tag « noindex », etc. Mais certaines doivent-elles être préférées à d’autres pour otimiser le « budget crawl » du moteur de recherche et obtenir une meilleure exploration ? Une étude nous éclaire ici sur les priorités à mettre en place…
Déroulement d’une analyse de logs classique
Traditionnellement, lorsqu’on fait de l’analyse de logs pour le SEO, on procède à un travail de longue haleine en deux grandes étapes. Dans un premier temps, on exporte les logs de Googlebot pour comprendre comment est crawlé et interprété le site, afin d’identifier des facteurs bloquants tels que :
- Des codes réponses ne répondant pas en 200 ;
- Des pages SEO orphelines (absentes du maillage interne) ;
- Des hits (visites de Googlebot) en nombre sur des pages sans intérêt pour le référencement naturel.
Tout ceci a pour but d’analyser la répartition des dépenses du budget de crawl. Suite à cette première étape, s’ensuit la seconde qui consiste à corriger ces facteurs bloquants. Ceci permet d’attribuer le budget de crawl aux pages travaillées pour le SEO, afin de maximiser leur indexation et donc leur référencement.
En effet, chaque site, en fonction de sa taille, de son ancienneté, de son optimisation SEO et de sa thématique, etc. va avoir un certain budget de crawl qui va lui être alloué. Le budget de crawl d’un site peut augmenter ou diminuer au cours de la vie du site.
But de notre analyse : comprendre comment est alloué le budget de crawl en fonction des manières de l’influencer
Le but de cet article est, au-delà de l’analyse de logs et de ce qui fonctionne pour augmenter le budget de crawl, de savoir comment Googlebot interprète les différentes actions mises en place par la personne en charge du référencement naturel. En finalité, nous allons voir ensemble ce qui consomme plus ou moins de budget de crawl et quelles techniques utiliser pour économiser ce budget sur les pages non pertinentes pour le SEO, afin d’en reporter la part la plus importante possible sur les pages travaillées en SEO.
Mise en place de l’expérience
Pour mener à bien cette expérience, nous avons relevé les logs de 12 sites durant 6 mois de manière à obtenir un panel représentatif de ce qui se passe sur des sites de petite et moyenne taille. En effet, on parle souvent d’analyse de logs sur des gros sites, nous voulions savoir ce qu’il en était pour le site de « monsieur tout le monde ». Nous avons donc mixé les logs de 12 sites de différentes typologies : des blogs, des sites vitrine, des sites institutionnels et des sites e-commerce. En termes de taille, cela représente en tout un panel de 202 404 URL pour 7 063 530 hits de Googlebot exclusivement, versions mobile et desktop.
Outils utilisés
- Oncrawl : Crawler SEO et analyseur de logs, payant : à partir de 199€/mois. Un outil assez développé et accessible, mais avec beaucoup de data et un coût relativement élevé. Plutôt pour les annonceurs désirant faire de l’analyse de logs de manière assez développée.
- SEOlyzer : Crawler SEO et analyse de logs, gratuit. Un outil accessible et très rapide et facile à mettre en place. Parfait pour les débutants qui souhaitent tester l’analyse de logs sans avoir besoin d’investir dans un outil coûteux.
- Screaming Frog et Log File Analyzer : Crawler SEO le plus connu et analyseur de logs appartenant à la même solution. Solution payante : £149.00/an pour le premier et £99/an pour le second. Une solution assez rudimentaire qui nécessite d’exporter les logs manuellement avant analyse. Pas d’analyse croisée.
- Excel et SEO Tools : Pour gérer toute la data exportée et récupérer directement dans un classeur Excel les données SEO des différents sites analysés. Solution payante : à partir de 99€ pour un ordinateur. INDISPENSABLE !
Quelles méthodes pour influencer le crawl d’un site ?
Julie Chodorge
Consultante SEO chez Korleon’Biz, https://www.korleon-biz.com/.
5
4.5