googlebot

Depuis 16 ans, le moteur de recherche Google a grandement amélioré sa perception du contenu d'une page web telle que la voit l'internaute : interprétation du Javascript, de l'Ajax, détection du cloaking, prise en compte des différentes parties d'une page web, responsive design, ainsi que le contenu "potentiellement visible" (onglets, contenu en accordéon, etc.). L'objectif du robot du moteur est donc bien de "voir" une page web, telle que l'internaute l'a sous les yeux, et de l'analyser sous cette forme. Qu'en est-il aujourd'hui et jusqu'où va le moteur dans cette perspective ?...

Début de l'article :

Le 24 novembre 2014, John Mueller, l’un des porte-parole de Google, lâchait lors de l’un ses fameux « hangouts », une confirmation qui a surpris de nombreux observateurs : placer des contenus importants dans des zones non visibles par défaut par un utilisateur (dans une zone caché activée par un onglet par exemple) peut s’avérer être une mauvaise idée si on veut être bien classé sur un mot clé figurant dans ce contenu.

Beaucoup ont cru que cette déclaration signifiait que Google n’indexait plus le contenu non visible par défaut par un utilisateur… En réalité il n’en est rien. Et Google est aujourd’hui capable de crawler et d’indexer bien plus de choses que vous ne le pensez peut être. Nous sommes entrés depuis plusieurs années déjà dans une phase où Googlebot connait très bien l’apparence de vos pages aux yeux de vos utilisateurs, et a commencé depuis quelque temps déjà à en tenir compte pour définir l’importance des contenus dans une page.

La « révélation » de John Mueller est donc l’occasion de rappeler à quel point les capacités du spider de Google, Googlebot, ont progressé depuis le lancement du moteur de recherche…

L’époque où Google avait un oeil de… Lynx

Lors des débuts de Google en 1998, le crawler Googlebot se comportait de manière extrêmement basique : il téléchargeait le code HTML, sans se préoccuper de ressources externes comme les feuilles de style et les fichiers de code javascript. Les images étaient récupérées par un crawler spécialisé, et faisaient l’objet d’un processus séparé.

Le contenu des pages HTML était ensuite « parsé » (analysé) pour séparer le contenu textuel du code HTML définissant sa présentation dans un navigateur. Seules quelques balises HTML étaient prises en compte dans la phase d’indexation, soit pour constituer les snippets (comme la balise title, ou la meta description), soit pour donner un poids plus important aux termes entourés par des balises indiquant un contenu important ou mis en avant (comme les balises Hn, les balises B ou strong, par exemple).

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).