Google, Caffeine et l'évolution des robots d'exploration

Qu’on les appelle « robots », « spiders », « bots » ou « crawlers », les logiciels capables d’explorer les sites web pour mettre à jour leurs index ont toujours été utilisés par les moteurs de recherche. Mais les techniques ont changé depui sbientôt 20 ans. Entre les « traitements par lots » du début et le système mis en place par Google pour sa dernière mise à jour d’indexation Caffeine, il y a un monde que cet article se propose de vous faire découvrir. De quoi apporter quelques solutions aux webmasters qui ont connu quelques soucis d’indexation de leurs pages dans Gogle ces derniers mois…

Cet article fait partie de la Lettre Réacteur #118 du mois de septembre 2010

Début de l’article :

Les robots d’exploration des moteurs de recherche, que l’on appelle plus volontiers « crawlers », « spiders » ou « bots » sont l’un des composants-clé des moteurs de recherche. Malgré leur simplicité conceptuelle, la mise en œuvre des robots d’exploration de haute performance représente un défi d’ingénierie d’envergure en raison de la taille gigantesque du Web, et de l’évolution toujours plus rapide des pages.

Afin d’explorer une fraction substantielle du Web dans un laps de temps raisonnable, les robots d’exploration doivent télécharger des milliers de pages par seconde, et sont généralement répartis sur des dizaines ou des centaines d’ordinateurs. Leurs deux principales structures de données – la « frontière » (liste d’URL non encore explorées) et l’ensemble des URL déjà découverts – sont trop importantes pour entrer dans la mémoire principale, quels que soient les astuces trouvées pour « compresser » les URL et les données. La volonté de donner la priorité de l’exploration vers des pages de haute qualité et de préserver la fraîcheur de l’index impose des défis d’ingénierie supplémentaires.

Enfin, à ces défis techniques s’ajoute une contrainte : celle de rester « poli » envers les serveurs web, c’est à dire d’éviter de perturber et/ou de surcharger ceux-ci.

Dans le même temps, la course à la fraîcheur et à la rapidité est lancée dans le petit monde des moteurs de recherche : après la recherche « temps réel », on parle maintenant de recherche « instantanée ».

Dans cet article, nous allons nous intéresser à la manière dont Google semble intégrer cette contrainte de « politesse » dans sa manière de crawler nos sites webs, et nous demander quelles évolutions Caffeine a réellement apporté dans les méthodes de crawl de Google ?

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Google, Caffeine et l’évolution des robots d’exploration

Cliquez ici pour annuler la réponse.

RecordedFuture, la boule de cristal du Web ?

La puissance des "Web analytics" au service du SEO (1ère partie)

Les articles du moment

5 erreurs qui vous privent de visibilité sur Google Discover

Etude : Stack technique des sites e-commerce Français en 2025

Statistiques SEO 2024 : les meilleures pratiques sont-elles toujours les mêmes ? (NON)

Copyright Trolling en France : comprendre et contrôler les abus d’une pratique controversée [Partie 2]

Copyright Trolling en France : comprendre et contrôler les abus d’une pratique controversée [Partie 1]

Google Discover : une (r)évolution pour Google et le SEO?

Les coulisses de la création de Position 0, le podcast SEO