Petit lexique des Acronymes et Expressions du monde des moteurs de recherche

Le monde des moteurs de recherche et de leur fonctionnement interne regorge d’expressions et d’acronymes parfois complexes à comprendre, ce qui génère souvent des malentendus. Voici un petit lexique qui vous en dira plus, de façon claire et concise, sur de nombreux termes utilisés très souvent dans ce domaine.

Ce mois-ci, nous avons proposé à Sylvain Peyronnet un petit exercice pas si facile : nous lui avons envoyé une liste de mots, d’expressions et d’acronymes qu’on lit ou entend très souvent dans le domaine qu’il connait le mieux : l’algorithmie des moteurs de recherche. Le but ? Répondre de la façon la plus concise et la plus pertinente possible, afin d’obtenir des définitions et des repères fiables dans notre compréhension de ce domaine et d’éviter de nombreux malentendus, souvent dus à une mauvaise compréhension par certains des termes du métier. C’est parti (classement par ordre alphabétique) :

Authorship et AuthorRank

Il s’agit ici d’identifier l’auteur d’un contenu web (via une donnée structurée, par exemple au format JSON-LD). L’idée étant ensuite que Google pourrait utiliser cette information pour qualifier des auteurs, et mettre en avant (ou pas) leurs contenus.
Les diverses expériences de Google sur le sujet de l’authorship sont plutôt malheureuses (grosse vague de spam au début des années 2010 en raison de ce mécanisme), et il y a fort à parier que l’authorship des années 2020 n’a pas grande utilité pour le SEO (mais pour le reste ? mystère…).

BERT

BERT est un terme sur lequel Google entretient une certaine confusion. C’est en effet le nom donné à un update algorithmique, et c’est aussi le nom de l’objet algorithmique en question.
BERT signifie Bidirectional Encoder Representations from Transformers, c’est un modèle de la langue dont la théorie a été développée par Jacob Devlin et ses collègues chez Google.
Ce modèle utilise des transformers (un type de réseau de neurones spécifiques, que l’on retrouve aussi dans GPT-3 par exemple) pour comprendre les relations entre les mots d’un même contexte.
Avec BERT on peut faire un vecteur de contexte pour chaque mot d’un texte, là où les approches des années 2000-2010 se contentaient de faire un vecteur par document. Cette finesse dans l’approche permet de mieux comprendre le sens des mots, entre autres. Pour Google, BERT est un outil qui réalise beaucoup de tâches, mais à l’origine, son premier objectif était de mieux comprendre l’intention des requêtes peu tapées par les internautes (celles sur lesquelles le moteur a donc peu d’information de satisfaction utilisateur).

BM25

Okapi BM25 est une mesure de l’importance des termes d’un texte basée sur le modèle probabiliste de pertinence. Il s’agit de la 25ème version du best matching (BM) du système Okapi (et oui, les chercheurs ont du génie pour trouver des noms !).
C’est techniquement une évolution des mesures de type TF-IDF, avec une meilleure prise en compte d’éléments liés à la requête. On notera qu’il existe une version encore plus spécifique, BM25F, qui prend en compte la structure du document analysé ainsi que les textes d’ancres des liens vers la page. Pendant des années, BM25 et les mesures similaires ont été l’état de l’art des mesures d’importance des termes utilisées par les moteurs de recherche.

Caffeine

Caffeine est le nom d’une refonte complète de Google ayant eu lieu en 2010. Il s’agit d’une modification profonde, qui a impacté l’infrastructure et l’algorithmique associé.
Comme toujours, il est très difficile de savoir de manière sûre ce qui a été modifié, mais cela a été l’occasion pour Google de passer à un traitement en continu des pages, et aussi d’industrialiser une forme de PageRank thématique et la personnalisation des résultats.
Il faut vraiment noter que cela a été l’occasion d’une modification des infrastructures de calcul, avec Caffeine on est sur un renouvellement de ce qu’est Google, pas juste des modifications à la marge.

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter

Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Petit lexique des Acronymes et Expressions du monde des moteurs de recherche

Authorship et AuthorRank

BERT

BM25

Caffeine

Cliquez ici pour annuler la réponse.

Créer un plugin SEO WordPress : l'exemple de SEOKey

Pagination SEO : types, exemples, bonnes pratiques et erreurs courantes

Les articles du moment

5 erreurs qui vous privent de visibilité sur Google Discover

Etude : Stack technique des sites e-commerce Français en 2025

Statistiques SEO 2024 : les meilleures pratiques sont-elles toujours les mêmes ? (NON)

Copyright Trolling en France : comprendre et contrôler les abus d’une pratique controversée [Partie 2]

Copyright Trolling en France : comprendre et contrôler les abus d’une pratique controversée [Partie 1]

Google Discover : une (r)évolution pour Google et le SEO?

Les coulisses de la création de Position 0, le podcast SEO