Dans cette lettre, nous parlons souvent de référencement de sites (sur les annuaires) et de pages (sur les moteurs) web. Mais il peut arriver qu'on ait besoin de déréférencer une source d'information ou d'indiquer une modification d'un site ou d'une page aux outils de recherche. Les raisons pour celà peuvent être multiples. En voici quelques unes :
- Le site a changé d'url ou de nom de domaine.
- Une page a disparu du site, elle a été éliminée car, par exemple, son contenu était devenu obsolète.
- Le site a cessé son activité (celà arrive, hélas...).
- Le site d'un ancien concurrent (qui a cessé son activité) ressort devant vous lors de la saisie d'un mot clé (sur un annuaire ou un moteur) et vous voudriez bien voir disparaître ce site obsolète pour gagner une place 😉 - Etc.
Il existe deux grandes familles d'actions à mener pour prendre en compte le déréférencement ou la signalisation d'une modification sur votre site auprès des annuaires et moteurs majeurs : une première famille de points à prendre en compte sur votre site même pour que les outils de recherche prennent bien en compte les modifications demandées, ainsi qu'une deuxième famille d'actions à mener, de façon active, auprès des outils de recherche eux-mêmes.
Actions à mener sur votre site ~~~~~~~~~~~~~~~~~~~~~~
Si vous désirez que votre site ou certaines de vos pages ne soient plus pris en compte par les moteurs, la première règle à adopter est, bien entendu, d'y insérer un fichier "robots.txt" adéquat ainsi que des balises Meta "Robots" qui indiqueront aux spiders des moteurs ce qu'ils doivent faire : indexer les fichiers ou non, suivre les liens ou non.
Vous trouverez toutes les infos sur ces fichiers et balises ici :
Comment écrire un fichier "robots.txt" : http://docs.abondance.com/robots.html
Explications des balises Meta "Robots" : http://docs.abondance.com/meta_4.html
En mettant en ligne ces indications sur votre site, vous indiquerez clairement au spider, lors de son prochain passage, ce qu'il doit faire ou ne pas faire. Dans ce cas, il supprimera (s'il est bien programmé ;-)) de son index les pages que vous lui demandez de ne plus indexer. Tous les moteurs majeurs prennent en compte le fichier robots.txt et la majeure partie comprennent les balises Meta "Robots" (certains, comme Google, proposent même une version spécifique de cette balise, voir plus loin). Utilisez-les donc à bon escient et, en quelques semaines (le délai pris par le robot pour revenir visiter vos pages), la situation devrait revenir à la normale.
Autre point qui peut être intéressant : si vous supprimez une page web de votre site, essayez de ne pas la supprimer complètement (en mettant le document HTML en question à la corbeille) et laissez le fichier sur le disque sous son nom originel (par exemple http://www.votresite.com/dossiers/sous-dossier/exemple.html) en indiquant dans le code HTML une redirection (à l'aide d'une balise Meta "Redirect" ou d'un code Javascript idoine, voir ci-dessous) vers une autre page de votre site : une page de contenu, le plan du site ou la page d'accueil. Ainsi, en attendant que le spider vienne rafraîchir son index et prenne en compte votre fichier robots.txt et/ou la balise Meta "Robots" de votre page (ce qui parfois prendre quelques mois, comme sur Altavista ces derniers temps), l'internaute qui trouvera le lien en question (avant qu'il ne soit effacé de l'index par le moteur) sera redirigé vers une page de votre site et ne sera pas confronté à une erreur 404. C'est toujours plus propre...
Rappelons un code Javascript simple pour effectuer une redirection (il en existe beaucoup, que l'on peut trouver sur un bon site de scripts comme http://www.allhtml.com/) :
<Script language="javascript"> document.location.href="pagecible.html" </script>
Et, puisqu'on en parle, n'oubliez pas de créer une page d'erreur 404 spécifique de votre site, comportant le plan du site, ce sera toujours ça que le spider du moteur pourra se mettre "sous la dent" (si tant est que les spiders aient des dents...) s'il tombe dessus lors de l'indexation de votre site. Il pourra ainsi, éventuellement, suivre les liens vers les zones les plus importantes de votre source d'information. Tant qu'à faire...
Les actions que nous venons de lister concernent plutôt les spiders des moteurs. En ce qui concerne les annuaires, les pages internes de votre site ne les concernent pas, puisque, en majorité, les annuaires ne vont prendre en compte que l'url de votre page d'accueil. Si celle-ci a changé, n'oubliez donc pas de mettre une redirection automatique de l'ancienne vers la nouvelle version, comme indiqué ci-dessus. Puis, avertissez l'annuaire comme indiqué ci-dessous.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).