Le fichier robots.txt est un grand classique du Web et du SEO. Pourtant, êtes-vous sûr de l'utiliser à bon escient et de bien comprendre son fonctionnement ? En effet, une utilisation erronée de ce fichier peut amener des soucis d'indexation, voire provoquer des pertes de référencement. Voici donc, dans cet article en deux parties, un état de l'art de la meilleure façon d'utiliser le fichier robots.txt pour mieux contrôler la vision de votre site qu'auront les moteurs de recherche. Vous risquez d'être surpris....
Cet article fait partie de la Lettre Réacteur #142 du mois de novembre 2012
Début de l'article :
Revue d'URL en français...
Le fichier robots.txt est l'un des plus anciens outils mis à la disposition des webmasters pour contrôler le comportement des robots d'exploration du web sur leurs sites. On pourrait donc imaginer que le rôle du robots.txt est connu, que la syntaxe de ses directives est maîtrisée, et que l'impact de leur utilisation est évalué correctement. Il n'en est rien...
Dans la pratique, le référenceur rencontre très souvent des robots.txt utilisés à mauvais escient, et même certains cas dans lesquels il peut jouer un rôle très néfaste pour un bon référencement. Et la plupart des erreurs commises à propos du robots.txt tirent leur origine d'une mauvaise interprétation du rôle de ce fichier...
Ne pas confondre "crawl" et "indexation"
L'une des erreurs les plus répandues parmi les webmasters (et, hélas, parmi les "pros" du référencement, les questions posées lors de l'examen CESEO à propos du robots.txt font souvent des dégâts chez les candidats), c'est de confondre "téléchargement d'un contenu" et "indexation".
Les directives d'un fichier robots.txt ont pour objectif unique d'indiquer aux moteurs (en tout cas à ceux qui respectent le protocole robots.txt) que le webmaster ne souhaite pas que certaines URL soient téléchargées. Mais qu'en est-il de leur indexation ? ...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).