Pourquoi crawler le Web est-il devenu si complexe aujourd’hui ?

Depuis plusieurs années maintenant, Google semble avoir beaucoup plus de mal à crawler le Web : bugs récurrents, délais d’indexation très longs, difficulté même à explorer certains sites, etc. Comment expliquer ces problèmes à répétition ? Peut-être est-il bon, pour mieux comprendre ce phénomène, de revenir sur l’historique de la création des crawlers web, pour mieux en appréhender l’évolution et comprendre leur avenir.

 

En 1989, Tim Berners-Lee inventait le Web, et c’est à partir de 1993 que sa croissance va devenir folle. Peu de gens le savent, mais c’est le navigateur Mosaic (voir la reférence [1]), développé par Joseph Hardin, Marc Andreessen et Eric Bina, qui va mettre le feu aux poudres du web. À partir de ce moment-là, de nombreux sites web vont apparaître, et l’un des premiers sera www.mit.edu, mis en ligne par Matthew Gray en juin 1993.

Vous n’avez sans doute jamais entendu parler de lui, mais Matthew Gray (voir la référence [2]) est aussi l’un des développeurs de Apache, et maintenant un ingénieur du “noyau” de Google,  aujourd’hui ce sera surtout pour nous le développeur du premier crawler web jamais écrit : le World Wide Web Wanderer (là aussi autour de juin 1993).

L’histoire raconte que Wanderer a créé beaucoup de problèmes à l’époque car il crawlait trop brutalement et provoquait une dégradation substantielle des performances réseaux du Web, et bien entendu des serveurs qui hébergeaient les sites.

A l’époque existait aussi un premier moteur (Archie, par Alan Emtage, voir la référence [3]), mais sans crawler associé.

Depuis, tout à changé, et le crawler est la première brique d’un moteur de recherche.

 

Quelques définitions

Commençons par les définitions les plus simples. Un crawler, ou spider web ou encore robot d’indexation, c’est un programme qui parcourt inlassablement le web pour collecter le contenu des pages des sites web. L’idée de son fonctionnement est très simple : il parcourt l’un après l’autre les liens hypertextes qu’il va trouver lors de son parcours, en partant d’un certain nombre de pages sources.

Dès 1998 (voir les références [4] et [5]), c’est du côté de l’équipe de Hector Garcia-Molina, dont nous avons déjà parlé dans de précédents articles, que la théorie sur le crawling web va être mise au point. Vous remarquerez que Larry Page est auteur de l’un des articles scientifiques en question (le [4]).

En premier va émerger la notion de crawler incrémental. Les premiers crawlers étaient périodiques : ils parcouraient un nombre connu de pages, les mettaient dans un index, puis de temps en temps recommençaient « from scratch » (c’est-à-dire refaisaient un index en repartant totalement de zéro). Inutile de dire qu’à l’échelle du Web et de l’index d’un moteur de recherche, cette approche est totalement illusoire aujourd’hui. L’index d’un moteur de recherche comme Google se mesure en centaines de milliers de milliards de pages web, et même des acteurs comme notre outil Babbar ont des index énormes (quasiment 800 milliards de pages pour nous au moment où nous écrivons ces lignes).

Un crawler incrémental va constituer un index, puis ensuite le mettre à jour en continu : il remet à jour les pages “importantes”, enlève de l’index les pages qui n’ont pas d’intérêt et ajoute celles – nouvelles – qui peuvent en avoir.

Envie de lire la suite ?

Les articles Reacteur en intégralité à partir de 14,90 €/mois.

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua

Sylvain Peyronnet, concepteur de l’outil d’analyse de backlinks Babbar.

 

 

Voir les commentaires (2) Voir les commentaires (2)

Article précédent

Revue d'Outils Moteurs et SEO (Octobre 2021)

Article suivant

Comment créer un méga-menu asynchrone sur un site web ?