Les crawlers, des outils indispensables pour le SEO (2ème partie)

Crawlers

On connait tous les robots Googlebot et Bingbot, utilisés par leur moteur de recherche respectif pour explorer des milliards de sites web chaque jour. Mais il existe également des outils qui simulent ces robots et vous donnent de nombreuses indications sur l’indexabilité de votre site web. Des systèmes qui sont devenus indispensables au fil du temps dans le cadre d’un audit SEO. Après la découverte des différents outils disponibles ainsi que leur utilisation « classique » le mois dernier, nous nous attaquons à des usages plus avancés dans cette seconde partie…

Début de l’article :

Le mois dernier, nous avons passé en revue les utilisations « classiques » des crawlers. Mais ces outils peuvent être utilisés pour des analyses plus avancées, qui s’avèrent particulièrement utiles pour le SEO.

L’analyse des problèmes de performance

La fréquence et l’intensité des crawls de Google peuvent être fortement influencées par les performances de votre site web. Nous ne parlons pas ici du « temps de rendition », celui qui est expérimenté par l’utilisateur dans son navigateur, qui dépend de multiples facteurs, mais uniquement du délai nécessaire entre une requête « http:// » et la réception de l’intégralité du code d’une page ou fichier.

On observe couramment qu’au-delà d’une seconde de temps de téléchargement, les bots de Google commence à ignorer les pages d’un site, et a minima, les crawlent moins souvent.

Un exemple typique des phénomènes constatés : ici le temps de téléchargement moyen indiqué dans les Webmaster Tools explose d’un seul coup, pour atteindre les 4 sec. Immédiatement, le nombre de pages crawlées tombe de 51000 pages par jour à 350.

Dans la pratique, trouver les causes de ces mauvaises performances se révèle souvent problématique. En effet, les outils de mesure de performance peuvent ne pas détecter ces anomalies, car ils se basent souvent sur des scénarios d’utilisation du site qui correspondent à des comportements d’utilisateurs et non de robots d’exploration. Or ces derniers ont une fâcheuse tendance à :
– Appeler des pages qui ne sont pas en cache (tout simplement parce qu’ils sont les premiers à appeler ces pages depuis le moment où la page en cache est devenue obsolète).
– A déclencher massivement des requêtes lourdes à calculer (comme celles correspondant à des pages de pagination).
– A appeler des pages dans un ordre qui n’est pas forcément celui « imaginé » par le développeur.
– Etc.

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter
Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua
Ajouter un commentaire Ajouter un commentaire

Article précédent

Digimind Social, un outil de social media monitoring qui entre dans la cour des grands

Article suivant

Vitesse de chargement d'un site web et SEO (1ère partie)