Le site Google Webmaster Tools, créé initialement autour du standard Sitemaps, propose aujourd'hui de nombreuses informations qui peuvent être très utiles pour le référencement d'un site web, d'autant plus que ces données émanent du moteur de recherche leader lui-même... Voici comment faire pour les utiliser au mieux !

Sorti en juin 2005 afin de permettre aux webmasters de soumettre leurs fichiers Sitemaps, Google Webmaster Tools s'est étoffé au fil du temps de différents rapports et de différentes statistiques sur la façon dont le moteur de recherche « voit » un site. Chacun de ces rapports peut être une source potentielle d'information sur les optimisations à opérer afin de positionner vos pages au mieux. Il suffit, la plupart du temps, de savoir comme interpréter correctement les données disponibles. Voici quelques pistes de travail...

Google Webmaster Tools est en effet aujourd'hui un outil unique dans le monde du référencement. C'est actuellement la seule plateforme permettant d'obtenir des informations sur l'indexation d'un site Web directement à la source, d'après les données internes d'un moteur de recherche. En attendant une mise à jour plus complète de Yahoo! Site Explorer avec des fonctionnalités similaires et le développement d'un portail Webmaster chez MSN/Live.com, cette vue de l'intérieur permet de comprendre au mieux les réactions du moteur face à un site Web et à ses mises à jour.

Le site est-il crawlé régulièrement ?

Si certaines données de Webmaster Tools sont trouvables avec d'autres outils d'analyse, celles concernant la fréquence de visites du moteur sur un site ne peuvent s'obtenir sans peine que par l'intermédiaire de Webmaster Tools. L'onglet "Diagnostic" contient la majorité de ces données. La page de résumé de cet onglet permet de savoir de quand date la dernière visite de Google Bot sur la page d'accueil de votre site :

Si cette date correspond bien à la dernière visite du robot d'indexation de Google, elle ne veut pas dire que la page d'accueil du site audité a été mise à jour dans l'index à cette même date. Les visites de Google Bot et les mises à jour de l'index de Google sont deux choses distinctes. On sait toutefois que plus les visites de Google Bot sont fréquentes, plus les chances de voir le contenu de vos pages mis à jour dans le moteur de recherche sont grandes.

Pour favoriser les visites fréquentes de Google Bot, mettez à jour le contenu de votre page d'accueil de manière régulière. Google apprécie les nouveaux contenus, et la présence de nouveaux textes et liens l'incitera à revenir régulièrement voir si de nouveaux éléments à indexer ne sont pas présents sur votre page d'accueil. C'est bien pour cela que Google indexe aussi rapidement le contenu des grands sites d'actualité et des blogs.

Mais les visites à la page d'accueil d'un site ne font pas tout, il est important que la totalité des pages de votre site, ou du moins une grande partie d'entre-elles, soit visitée régulièrement. Pour s'en assurer, une visite dans la section "Crawl rate" de l'onglet Diagnostic s'impose. Cette page propose une série de graphiques détaillant les visites de Google Bot, la bande passante utilisée par celui-ci et son temps d'accès aux pages au cours de trois dernier mois.

Ces données sont à mettre en corrélation avec l'activité même de votre site. La règle énoncée plus haut, plus une page est mise à jour, plus elle a de chance d'être visitée par Google Bot, s'applique à la totalité des pages d'un site. Les pics de visites dans le graphique Number of pages crawled per day sont donc à rapprocher de l'activité réelle de votre site Web. Ceux-ci doivent correspondre, à quelques jours près, aux importantes mises à jour de votre site et donc aux moments où Google a identifié de nouveaux contenus sur celui-ci. De plus, ce graphique est l'une des rares données chiffrées fournie par Google. Profitez-en pour comparer le nombre de pages parcourues au maximum et en moyenne à l'inventaire réel de votre site, et au nombre de page réellement indexées par Google à l'aide de la commande "site:". Si ces données ne concordent pas, c'est peut-être que certaines sections de votre site Web ne sont pas accessibles au moteur de recherche.


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).