Le fichier Robots.txt permet d'indiquer aux moteurs les zones d'un site web à indexer ou pas. Un article complet lui est consacré dans la zone gratuite du site Abondance (http://docs.abondance.com/robots.html). Nous ne reviendrons pas sur son utilisation et sa syntaxe générale, mais nous avons posé, à son sujet, trois questions aux moteurs de recherche majeurs sur le Web à l'heure actuelle (Altavista, Exalead, Fast, Google, Inktomi et Voila) :
- Un fichier robots.txt est-il indispensable ou recommandé sur un site web par rapport à son indexation par votre moteur ? Que se passe-t-il si ce fichier est absent ?
- Si on désire indiquer à TOUS les robots de ne pas indexer un répertoire (exemple "cgi-bin"), la syntaxe sera :
User-agent: *
Disallow: /cgi-bin/
Mais quelle syntaxe utiliser pour indiquer spécifiquement à votre robot de ne pas indexer, par exemple, le répertoire "clients" :
User-agent: ????
Disallow: /clients/
Y a -t-il plusieurs orthographes possibles (plusieurs noms de robots) ?
- Les balises Meta "Robots" sont-elles prises en compte par votre moteur à l'heure actuelle ?
Voici les réponses des différents moteurs :
Réponses d'Altavista :
- La présence de ce fichier est recommandée pour contrôler l'indexation du site, mais elle n'est pas indispensable. Si le fichier est absent, nous faisons le crawl. Cependant si le fichier est present, mais nous ne pouvons pas le lire ou l'acceder (par exemple erreur 403 "Access Forbidden"), nous ne faisons pas le crawl du site.
- Le nom du robot est "scooter", par exemple:
User-agent: scooter
Disallow: /clients/
- Oui, par exemple:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Réponses d'Exalead :
- Le fichiers robots.txt n'est pas indispensable, et s'il est absent ou invalide le moteur considère que tout le site est autorisé. Le fait de savoir s'il est recommandé dépendra du contenu du site : une meilleure indexation du site sera obtenue si le fichier robots.txt bloque l'accès aux pages dont le contenu n'est pas pertinent pour le moteur (pages contenant des logs, pages générées à la volée sans contenu documentaire utile par exemple). En gros le fichier robots.txt est souvent inutile pour les sites simples, et d'autant plus utile que le site est sophistiqué ou généré par des outils sophistiqués.
- 2. Le robot Exalead répond aujourd'hui au doux nom de "NG" (il s'annonce par "User-Agent: NG/1.0"). Il honore donc les directives préfixées par "User-agent: NG" ou "User-agent: NG/*". Dans la prochaine version ça sera "Exabot".
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).