Pourquoi crawler le Web est-il devenu si complexe aujourd'hui ?

Depuis plusieurs années maintenant, Google semble avoir beaucoup plus de mal à crawler le Web : bugs récurrents, délais d’indexation très longs, difficulté même à explorer certains sites, etc. Comment expliquer ces problèmes à répétition ? Peut-être est-il bon, pour mieux comprendre ce phénomène, de revenir sur l’historique de la création des crawlers web, pour mieux en appréhender l’évolution et comprendre leur avenir.

En 1989, Tim Berners-Lee inventait le Web, et c’est à partir de 1993 que sa croissance va devenir folle. Peu de gens le savent, mais c’est le navigateur Mosaic (voir la reférence [1]), développé par Joseph Hardin, Marc Andreessen et Eric Bina, qui va mettre le feu aux poudres du web. À partir de ce moment-là, de nombreux sites web vont apparaître, et l’un des premiers sera www.mit.edu, mis en ligne par Matthew Gray en juin 1993.

Vous n’avez sans doute jamais entendu parler de lui, mais Matthew Gray (voir la référence [2]) est aussi l’un des développeurs de Apache, et maintenant un ingénieur du “noyau” de Google, aujourd’hui ce sera surtout pour nous le développeur du premier crawler web jamais écrit : le World Wide Web Wanderer (là aussi autour de juin 1993).

L’histoire raconte que Wanderer a créé beaucoup de problèmes à l’époque car il crawlait trop brutalement et provoquait une dégradation substantielle des performances réseaux du Web, et bien entendu des serveurs qui hébergeaient les sites.

A l’époque existait aussi un premier moteur (Archie, par Alan Emtage, voir la référence [3]), mais sans crawler associé.

Depuis, tout à changé, et le crawler est la première brique d’un moteur de recherche.

Quelques définitions

Commençons par les définitions les plus simples. Un crawler, ou spider web ou encore robot d’indexation, c’est un programme qui parcourt inlassablement le web pour collecter le contenu des pages des sites web. L’idée de son fonctionnement est très simple : il parcourt l’un après l’autre les liens hypertextes qu’il va trouver lors de son parcours, en partant d’un certain nombre de pages sources.

Dès 1998 (voir les références [4] et [5]), c’est du côté de l’équipe de Hector Garcia-Molina, dont nous avons déjà parlé dans de précédents articles, que la théorie sur le crawling web va être mise au point. Vous remarquerez que Larry Page est auteur de l’un des articles scientifiques en question (le [4]).

En premier va émerger la notion de crawler incrémental. Les premiers crawlers étaient périodiques : ils parcouraient un nombre connu de pages, les mettaient dans un index, puis de temps en temps recommençaient « from scratch » (c’est-à-dire refaisaient un index en repartant totalement de zéro). Inutile de dire qu’à l’échelle du Web et de l’index d’un moteur de recherche, cette approche est totalement illusoire aujourd’hui. L’index d’un moteur de recherche comme Google se mesure en centaines de milliers de milliards de pages web, et même des acteurs comme notre outil Babbar ont des index énormes (quasiment 800 milliards de pages pour nous au moment où nous écrivons ces lignes).

Un crawler incrémental va constituer un index, puis ensuite le mettre à jour en continu : il remet à jour les pages “importantes”, enlève de l’index les pages qui n’ont pas d’intérêt et ajoute celles – nouvelles – qui peuvent en avoir.

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Pourquoi crawler le Web est-il devenu si complexe aujourd’hui ?

Quelques définitions

Cliquez ici pour annuler la réponse.

Revue d'Outils Moteurs et SEO (Octobre 2021)

Comment créer un méga-menu asynchrone sur un site web ?

Les articles du moment

Les étapes essentielles pour une refonte d’arborescence réussie [Le Point]

Gestion des sites volumineux : défis et solutions

Etude : Stack technique des sites e-commerce Français en 2025

Les pièges SEO à éviter pour les sites d’actualités

IA et Automatisation : la journée de 4 heures devient possible

Pourquoi des pages ne sont pas indexées : Comment résoudre ces notifications de la Search Console ?

Comment utiliser l’IA et la data pour augmenter vos études sémantiques ? [Partie 2]