De plus en plus de sites web sont réalisés en utilisant des technologies comme Javascript ou l'Ajax. Pour les explorer, les moteurs de recherche doivent s'adapter quotidiennement à cette nouvelle donne. Mais arrivent-ils réellement à crawler et analyser aujourd'hui tous les sites, parfois complexes, qu'ils explorent ? Cet article en deux parties a pour objectif de faire un point impartial sur la réalité actuelle et les limites, obligatoires, que l'on trouve actuellement dans les possibilités des robots d'aujourd'hui. Ce mois-ci, c'est l'Ajax qui est décrit, avant de parler d'autres technologies comme Angular JS, Backbone JS ou Ember JS le mois prochain.

Début de l'article :

Depuis des mois, Google communique régulièrement sur ses progrès dans la prise en compte du code Javascript dans les pages web qu’il explore et indexe. Officiellement, Googlebot peut exécuter du Javascript. Google peut aussi générer une rendition complète de la page et donc savoir quelle apparence a réellement votre page dans un navigateur “normal”, une fois les css et le Javascript chargés et exécutés. Et Google a même expliqué qu’ils avaient fait des progrès importants dans la compréhension des contenus générés en Ajax.

Cette évolution est logique, car les développeurs de sites web utilisent de plus en plus le Javascript pour générer le contenu (et le code HTML) des pages web. Certains sites sont même faits entièrement en Ajax, ou presque entièrement avec du code HTML généré en Javascript. Mais est-ce bien raisonnable ? Les progrès de Google dans le traitement des contenus générés en Javascript sont-ils suffisants aujourd’hui pour que l’on puisse réellement fabriquer des sites entièrement générés ainsi, sans impact sur le référencement ?

Google est forcé de s’adapter à ces changements rapides. Le 14 octobre dernier, Kazuchi Nagayama, Search Quality Analyst chez Google annonçait solennellement sur le blog pour les webmasters de Google que la firme de Mountain View considérait comme obsolète la méthode des “hashbangs” pour rendre les contenus affichés en Ajax crawlables.

Pourquoi un tel revirement, après avoir recommandé cette solution pendant six longues années ? Qu’est-ce qui a changé ? Peut-on toujours rendre l’Ajax crawlable ? Les contenus en Ajax sont ils bien indexés ? C’est ce que nous allons nous efforcer d’apprendre dans la première partie de cet article.

Dans la seconde partie, qui sera publiée dans le prochain numéro, nous nous intéresserons aux problèmes posés par l’emploi sur certains sites de technologies comme Angular JS, Backbone JS pour fabriquer des sites web. Nous verrons que l’on peut rendre ce type de page parfaitement crawlable, mais nous verrons aussi à quel point il est risqué pour le référencement d’utiliser ces technologies… Google et Googlebot ont leurs limites, qu’il faut connaître, et flirter avec ces limites a un prix. Mais commençons par faire le point sur l’Ajax et sa crawlabilité...
...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).