Le référencement d'un site web est avant tout tributaire de la façon dont le site en question a été conçu. Dans ce cadre, une stratégie gagnante prendra en compte divers aspects de cette conception, dans le cadre d'un concept global intitulé "Régle des 3C". Ce mois-ci, nous examinons le premier des "C", soit la Conception : comment, dès le départ, dès la rédaction du cahier des charges, rendre son site "spider friendly" ? Réponse sous la forme d'un "mémo" et d'un "pense-bête" qui vous permettra de ne pas rater une étape importante lors de vos réflexions...
Pour optimiser au mieux le référencement d'un site, il est devenu important, voire primordial, de le penser dès le départ pour être compatible avec les différents moteurs de recherche qui vont venir le visiter, grâce à leurs spiders, robots qui viennent "aspirer" les pages web et suivre les liens qu'elles contiennent.
Pour qu'un site soit parfaitement "compris" et "analysé" par les moteurs de recherche, il faut donc qu'il ait été pensé pour être compatible avec les critères d'exploration et de pertinence de ces outils. Nous allons, dans cette série de trois articles, expliciter une règle qui nous est chère , et que nous avons pu expérimenter sur de nombreux sites, celles des "3C".
Ce mois-ci, le premier "C" exploré sera celui de la Conception initiale du site. En d'autres termes, comment imaginer pour son site une structure qui soit totalement compatible avec son exploration par les spiders ? Comment mettre en place un réseau d'informations aidant ces robots à obtenir une meilleure compréhension du maillage de votre source d'information ? Comment faire pour éviter tout obstacle technologique freinant ou bloquant pour les moteurs ? Etc.
Bref, nous allons lister, sous la forme d'un "mémo", dans cette première partie, une suite de "bonnes pratiques" qui va vous mener à mettre en ligne un site qui sera 100% "spider friendly" dès son lancement... Sachant qu'une fois que ce travail sera fait, il restera 2 "C" à compulser les mois prochains... Le travail ne sera donc pas terminé pour autant mais vous pourrez partir sur de bonnes bases, ce qui est loin d'être négligeable... 🙂
Conception > Structure du site
Le premier des points à inspecter est la structure du site : les robots peuvent-ils aller partout de façon efficace et découvrir toutes vos pages ? Voici quelques points à vérifier :
Conception > Structure du site > Fichier Robots.txt
- Votre site contient-il un fichier robots.txt ?
- Son nom est-il bien orthographié ("r" minuscule, "robots" au pluriel) ?
- Est-il disponible à la racine de votre site (www.votresite.com/robots.txt) ?
- En cas d'utilisation de sous-domaine (motclé.votresite.com), chaque sous-domaine dispose-t-il de son propre fichier robots.txt (actu.votresite.com/robots.txt, produits.votresite.com/robots.txt) ?
- Les zones "interdites au robots", si elles existent, sont-elles bien listées dans le(s) fichier(s) robots.txt ?
- Certains spiders moins importants sont-ils pris en compte ou interdits si nécessaire ou si vous avez remarqué dans vos statistiques que leur venue gène votre serveur (trop de bande passante occupée lors du crawl par exemple) ?
- Votre fichier robots.txt indique-t-il l'url de votre fichier "sitemap" (voir plus loin) ? Rappelons la syntaxe (très simple) pour ce faire avec un fichier "robots.txt" basique (ici celui du site http://www.boutique-abondance.com/robots.txt) :
User-agent: *
Disallow:
Sitemap: http://www.boutique-abondance.com/sitemap.xml
Avec la ligne "User-agent: *" on indique qu'on s'adresse à tous les spiders.
Avec "Disallow:", on n'interdit rien.
L'option "Sitemap:" indique enfin à Google, Yahoo!, Exalead, Live Search et Ask.com l'url de votre fichier Sitemap (voir http://www.abondance.com/actu/2007-15/sitemaps.php).
- Avez-vous vérifié la syntaxe de votre fichier robots.txt grâce à un outil disponible en ligne ? Google en propose un dans sa zone "Webmaster Tools" mais il en existe d'autres :
http://tool.motoricerca.info/robots-checker.phtml
http://www.sxw.org.uk/computing/robots/check.html
http://www.searchenginepromotionhelp.com/m/robots-text-tester/robots-checker.php
Etc.
Enfin, pour en savoir plus sur la syntaxe du fichier "robots.txt", consulter :
http://www.abondance.com/docs/robots.html
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).