Comment fonctionne un moteur de recherche ? (2ème partie : index inversé et duplicate content)

Un moteur de recherche comme Google ou Bing est loin d’être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l’addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l’internaute qui l’utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d’articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d’un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Après le fonctionnement et les technologies de crawl le mois dernier, nous abordons ici le système d’index inversé du moteur et les différentes façons d’évaluer le contenu dupliqué sur le Web…

Par Guillaume Peyronnet, Sylvain Peyronnet et Thomas Largillier

Ce mois-ci, nous poursuivons notre cycle sur le fonctionnement des moteurs de recherche par un article qui introduit la notion d’index, et qui déborde sur le concept de duplication de contenu.

Le mois dernier nous avions vu ce qu’était un crawler, et nous avons également analysé le schéma global du fonctionnement d’un moteur de recherche. Vous savez donc déjà que l’objectif du crawl est de rassembler les données contenues dans les pages web, en distinguant le contenu à proprement parler de la structure du web impulsée par les liens hypertextes entre les pages.

Cet index est littéralement le nerf de la guerre pour les moteurs puisque tous les résultats proposés sont issus des contenus indexés, avec un classement qui est modulé principalement grâce à l’index des liens (via un calcul de type PageRank).

L’index contient donc deux types d’information : une information structurelle qui décrit les liens entre les pages web (le graphe du web, limité aux pages de l’index), et une information de contenu des pages.

Comment est stocké le contenu textuel ?

La façon dont le moteur de recherche stocke le contenu textuel est bien entendu lié à des choix techniques spécifiques. Parfois, un champ de base de données sera défini comme binaire, afin qu’il soit plus rapide à traiter qu’un champ de type textuel pur. Mais sans entrer dans de telles considérations pratiques, qui sont bien sûr essentielles mais conceptuellement peu déterminantes, on peut saisir l’essence, et surtout l’enjeu du stockage des contenus textuels.

Lorsque le crawler découvre une page, le contenu de cette dernière est récupéré et stocké dans une base de données. Le moteur sait ainsi qu’il a dans son index une page “page 1” qui contient un texte égal au contenu présent sur la page lorsque le crawler l’a récupérée (les mises à jour régulières sont un autre enjeu).

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

Comment fonctionne un moteur de recherche ? (2ème partie : index inversé et duplicate content)

Comment est stocké le contenu textuel ?

Cliquez ici pour annuler la réponse.

Linkody, la mémoire des liens

PWA (Progressive Web App) et SEO

Les articles du moment

5 erreurs qui vous privent de visibilité sur Google Discover

Etude : Stack technique des sites e-commerce Français en 2025

Statistiques SEO 2024 : les meilleures pratiques sont-elles toujours les mêmes ? (NON)

Copyright Trolling en France : comprendre et contrôler les abus d’une pratique controversée [Partie 2]

Copyright Trolling en France : comprendre et contrôler les abus d’une pratique controversée [Partie 1]

Google Discover : une (r)évolution pour Google et le SEO?

Les coulisses de la création de Position 0, le podcast SEO