La notion de "cloaking" divise en ce moment bon nombre de webmasters et de moteurs de recherche sur le Web. C'est un sujet qui passionne notamment les utilisateurs des forums de discussion. Est-ce du spam ou non ? Les moteurs de recherche n'utilisent-ils pas, eux-mêmes, des techniques qui s'en rapprochent ? N'est-ce pas une possibilité technique qui permet, justement, de pallier les insuffisances techniques de certains moteurs ? Les avis sont partagés...

Avant d'aller plus loin, rappelons, si besoin est, ce qu'est le cloaking (et ce qu'il n'est pas...). Il s'agit d'une technique qui permet à un site web de fournir des pages différentes à un internaute et au "spider" (agent, robot) d'un moteur. Prenons un exemple d'une procédure de cloaking :

Etape 1 : Un script (il en existe de nombreux, dans plusieurs langages informatiques, aisément trouvables sur le Web) est installé sur le serveur d'un site web. Ce script est prévu pour se déclencher dès qu'une nouvelle visite survient sur le site web en question.

Etape 2 : lorsqu'une nouvelle visite est détectée, le script tente de détecter s'il s'agit d'un internaute "lambda" ou du "spider" d'un moteur de recherche. Pour cela, il dispose d'une table des "user agents" (les "noms" des spiders : "Scooter" pour AltaVista, "Slurp" pour Inktomi, "Googlebot" pour Google, etc.) ou des adresses IP (dans ce cas, on parle d'"IP Cloaking" ou d'"IP Delivery") des différents robots des moteurs majeurs. Ces informations, là aussi, se trouvent sans trop de difficultés sur le Web. Exemple pour Google : http://www.searchengineworld.com/spiders/ip_addresses/google.htm

La difficulté essentielle consiste surtout à utiliser des données à jour, celles-ci variant parfois fortement avec le temps... Mais la simple analyse des logs d'un site fournit déjà beaucoup d'informations...

Etape 3 : Si la visite vient d'un visiteur "lambda", la page "normale", "classique", est affichée. Pas de problème dans ce cas.

Etape 4 : Si c'est un robot qui est détecté, le script lui fournit alors une page sépcifiquement écrite pour lui. Selon la façon dont le webmaster a programmé le script, ce dernier fournira toujours la même page, quel que soit le robot, mais il pourra également envoyer une page spécifique pour AltaVista si c'est Scooter qui est détecté, une page pour Inktomi si c'est Slurp, etc.

A noter que certaines personnes font la différence entre "IP Cloaking" et IP Delivery" : l'"IP Cloaking" définira alors une technique permettant de fournir des contenus différents aux humains d'un côté et aux robots des moteurs de l'autre. L'"IP Delivery" sera une technique permettant de fournir des contenus différents en fonction des adresses IP, sans tenir compte des moteurs : par exemple la géolocalisation des internautes (voir plus loin dans cet article).

Le cloaking est donc une technique permettant de fournir des pages web différentes selon que ce soit un internaute ou un moteur qui accède au site web.

Des besoins très variés

Mais quel type de page est alors fourni aux différents moteurs ? A quoi ça sert ? C'est ce point qui divise actuellement webmasters et outils de recherche. En effet, les techniques de cloaking sont utilisées pour de nombreux besoins :

- Référencement d'un site contenant des contraintes techniques à un bon référencement, notamment du Flash ou des pages dynamiques. Si votre site est entièrement créé en Flash, il ne sera que peu visible sur bon nombre de moteurs (voir http://www.flash-moteurs.com/). Il en est de même pour un site dynamique, proposant des adresses (urls) contenant notament des signes "?" (caractères dits "exotiques"). Une solution serait donc de fournir les pages dynamiques ou Flash aux utilisateurs et une version statique et HTML aux moteurs. Ainsi, chacun reçoit une version qu'il peut lire et interpréter à sa guise.

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).