On connait tous les robots Googlebot et Bingbot, utilisés leur moteur de recherche respectif pour explorer des milliards de sites web chaque jour. Mais il existe également des outils qui simulent ces robots et vous donnent de nombreuses indications sur l'indexabilité de votre site web. Des systèmes qui sont devenus indispensables au fil du temps dans le cadre d'un audit SEO. Cet article en deux parties vous fera découvrir ces différents outils ce mois-ci ainsi que leur utilisation "classique", avant de s'attarder à des usages plus avancés le mois prochain...
Cet article fait partie de la Lettre Réacteur #157 du mois de mars 2014
Début de l'article :
Les crawlers font partie de ces "briques" logicielles indispensables pour créer un moteur de recherche. La raison d'être de ces programmes est de permettre la découverte des pages et des documents publiés sur le web, et de les télécharger à fins d'indexation ou d'analyse. Au fil du temps, on les a affublés d'autres jolis noms anglais tout aussi imagés : harvesters (moissonneuses), spiders (araignées), bots (robots)…
Dans cette série de deux articles, nous allons passer en revue les raisons pour lesquelles les outils de type "crawler" sont indispensables dans la boîte à outils du référenceur. Le premier article sera consacré aux utilisations classiques des outils de crawl, et le second à des utilisations plus avancées…
Les moteurs de recherche explorent le web à l'aide de crawlers
Même si on peut trouver des exemples de moteurs de recherche qui, dans les premiers temps du web, ont référencé ou indexé des pages découvertes par "soumission" des webmasters, la règle pour les moteurs grand public consiste plutôt à utiliser un crawler pour découvrir les pages publiées sur le World Wide Web.
Le principe d'un crawler ou d'un spider qui fonctionne en mode exploration est le suivant :
1. On fournit une première URL au crawler.
2. Le crawler lance une requête http:// et télécharge le contenu de la page.
3. Le crawler analyse le contenu de la page, en extrait les informations utiles, et les stocke dans un entrepôt de données (data repository). Ces données sont ensuite retraitées pour créer le fameux "index" du moteur.
4. Parmi les données trouvées dans la page, figurent la mention d'autres URL dans le code HTML de la page (ou sous forme de liens hypertextes dans des PDF, des .doc Word…).
5. Ces liens sont placés dans une file d'attente.
6. Chaque lien fait à son tour l'objet d'une requête http://, le contenu de la page est téléchargé, analysé, de nouveaux liens sont découverts et ainsi (presque) à l'infini.
...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).