Les crawlers, des outils indispensables pour le SEO (1ère partie)

On connait tous les robots Googlebot et Bingbot, utilisés leur moteur de recherche respectif pour explorer des milliards de sites web chaque jour. Mais il existe également des outils qui simulent ces robots et vous donnent de nombreuses indications sur l’indexabilité de votre site web. Des systèmes qui sont devenus indispensables au fil du temps dans le cadre d’un audit SEO. Cet article en deux parties vous fera découvrir ces différents outils ce mois-ci ainsi que leur utilisation « classique », avant de s’attarder à des usages plus avancés le mois prochain…

Cet article fait partie de la Lettre Réacteur #157 du mois de mars 2014

Début de l’article :

Les crawlers font partie de ces « briques » logicielles indispensables pour créer un moteur de recherche. La raison d’être de ces programmes est de permettre la découverte des pages et des documents publiés sur le web, et de les télécharger à fins d’indexation ou d’analyse. Au fil du temps, on les a affublés d’autres jolis noms anglais tout aussi imagés : harvesters (moissonneuses), spiders (araignées), bots (robots)…

Dans cette série de deux articles, nous allons passer en revue les raisons pour lesquelles les outils de type « crawler » sont indispensables dans la boîte à outils du référenceur. Le premier article sera consacré aux utilisations classiques des outils de crawl, et le second à des utilisations plus avancées…

Les moteurs de recherche explorent le web à l’aide de crawlers

Même si on peut trouver des exemples de moteurs de recherche qui, dans les premiers temps du web, ont référencé ou indexé des pages découvertes par « soumission » des webmasters, la règle pour les moteurs grand public consiste plutôt à utiliser un crawler pour découvrir les pages publiées sur le World Wide Web.

Le principe d’un crawler ou d’un spider qui fonctionne en mode exploration est le suivant :
1. On fournit une première URL au crawler.
2. Le crawler lance une requête http:// et télécharge le contenu de la page.
3. Le crawler analyse le contenu de la page, en extrait les informations utiles, et les stocke dans un entrepôt de données (data repository). Ces données sont ensuite retraitées pour créer le fameux « index » du moteur.
4. Parmi les données trouvées dans la page, figurent la mention d’autres URL dans le code HTML de la page (ou sous forme de liens hypertextes dans des PDF, des .doc Word…).
5. Ces liens sont placés dans une file d’attente.
6. Chaque lien fait à son tour l’objet d’une requête http://, le contenu de la page est téléchargé, analysé, de nouveaux liens sont découverts et ainsi (presque) à l’infini.

…

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Les crawlers, des outils indispensables pour le SEO (1ère partie)

Cliquez ici pour annuler la réponse.

Réseaux sociaux professionnels et SEO

Les plugin WordPress autour des rich snippets et de l'authorship

Les articles du moment

Les étapes essentielles pour une refonte d’arborescence réussie [Le Point]

Gestion des sites volumineux : défis et solutions

Etude : Stack technique des sites e-commerce Français en 2025

Les pièges SEO à éviter pour les sites d’actualités

IA et Automatisation : la journée de 4 heures devient possible

Pourquoi des pages ne sont pas indexées : Comment résoudre ces notifications de la Search Console ?

Comment utiliser l’IA et la data pour augmenter vos études sémantiques ? [Partie 2]