Un moteur de recherche comme Google ou Bing est loin d’être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l’addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l’internaute qui l’utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d’articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d’un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Après le fonctionnement et les technologies de crawl le mois dernier, nous abordons ici le système d’index inversé du moteur et les différentes façons d’évaluer le contenu dupliqué sur le Web…
Ce mois-ci, nous poursuivons notre cycle sur le fonctionnement des moteurs de recherche par un article qui introduit la notion d’index, et qui déborde sur le concept de duplication de contenu.
Le mois dernier nous avions vu ce qu’était un crawler, et nous avons également analysé le schéma global du fonctionnement d’un moteur de recherche. Vous savez donc déjà que l’objectif du crawl est de rassembler les données contenues dans les pages web, en distinguant le contenu à proprement parler de la structure du web impulsée par les liens hypertextes entre les pages.
Cet index est littéralement le nerf de la guerre pour les moteurs puisque tous les résultats proposés sont issus des contenus indexés, avec un classement qui est modulé principalement grâce à l’index des liens (via un calcul de type PageRank).
L’index contient donc deux types d’information : une information structurelle qui décrit les liens entre les pages web (le graphe du web, limité aux pages de l’index), et une information de contenu des pages.
Comment est stocké le contenu textuel ?
La façon dont le moteur de recherche stocke le contenu textuel est bien entendu lié à des choix techniques spécifiques. Parfois, un champ de base de données sera défini comme binaire, afin qu’il soit plus rapide à traiter qu’un champ de type textuel pur. Mais sans entrer dans de telles considérations pratiques, qui sont bien sûr essentielles mais conceptuellement peu déterminantes, on peut saisir l’essence, et surtout l’enjeu du stockage des contenus textuels.
Lorsque le crawler découvre une page, le contenu de cette dernière est récupéré et stocké dans une base de données. Le moteur sait ainsi qu’il a dans son index une page “page 1” qui contient un texte égal au contenu présent sur la page lorsque le crawler l’a récupérée (les mises à jour régulières sont un autre enjeu).
Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).