Résumé de l'article :
La dimension temporelle est devenu un critère incontournable de pertinence pour les moteurs de recherche. La fraîcheur de l'index est également un point très important pour la qualité des résultats renvoyés. De quelle manière les moteurs prennent-ils en compte cette notion de temporalité ? Donnent-ils plus d'importance aux pages anciennes ou aux pages récentes ? Comment déterminent-ils les pics d'actualité ? Quels critères sont pris en compte pour calculer l'"âge" d'une page ? Cet article tente de répondre à toutes ces questions...
Début de l'article :
Voila déjà dix ans, plusieurs chercheurs (en particulier Kumar (1999), Cho et Garcia-Molina (2000) et Kleinberg (2000), mais la réflexion est plus ancienne car on retrouve des articles de bibliométrie parlant de ce thème dès 1955 (Garfield)) spécialistes du domaine de l' « information retrieval » (extraction d'information, la « science des moteurs de recherche ») avaient remarqué que la prise en compte de la dimension temporelle était indispensable pour construire un algorithme performant pour un moteur de recherche.
Pourtant un moteur comme Google a très longtemps négligé la collecte d'information sur l'évolution de ce qu'ils appellent les signaux, c'est-à-dire les critères utilisés dans l'algorithme. Tout en accordant dès l'origine une grande attention à d'autres critères liés au temps comme la fraîcheur de l'index et l'âge des pages.
L'un des premiers indices spectaculaires de l'existence d'une prise en compte de critères d'évolution temporelle dans l'algorithme de Google est malgré tout assez ancien : au cours du printemps 2004 des observateurs ont noté un phénomène étrange affectant de nouveaux sites et les empêchant d'apparaître en tête des résultats (ce phénomène a semble-t'il été observé dès début 2004 mais « théorisé » un peu plus tard). Il fut baptisé « effet sandbox » par Barry Schwartz de Seroundtable. Depuis, les référenceurs ont tendance à appeler « sandbox » tout et n'importe quoi, mais la plupart des phénomènes assimilés à la sandbox présentent tous des analogies troublantes avec ce que l'on peut produire par la technique d'analyse temporelle des liens (TLA) dont nous parlerons plus tard.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).