Comment fonctionne un moteur de recherche ? (1ère partie)

Un moteur de recherche comme Google ou Bing est loin d’être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l’addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l’internaute qui l’utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d’articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d’un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Ce mois-ci, nous détaillerons les différentes étapes de fonctionnement et les technologies de crawl…

Par Guillaume Peyronnet, Sylvain Peyronnet et Thomas Largillier


Même si les moteurs de recherche sont relativement récents (on peut raisonnablement dire qu’ils remontent au début des années 90), les concepts qui les sous-tendent sont bien plus anciens (l’après-guerre pour les idées de structuration de l’information, les années 30 pour les outils de théorie des graphes, les années 60-70 pour la recherche d’information, etc.). Ces concepts ont beau être assez anciens, ils sont finalement assez peu connus des référenceurs de métier. Le but de la série d’articles qui commence avec celui que vous êtes en train de lire aujourd’hui est de vous présenter de A à Z ce qu’est un moteur de recherche et les concepts algorithmiques qui se cachent derrière les interfaces épurées que l’on a l’habitude de manipuler.

Ce mois-ci, nous allons commencer du début, par les choses les plus basiques, depuis la définition même de ce qu’est un moteur de recherche jusqu’à la toute première brique technique, qui a pour but essentiellement de récolter l’information. Nous n’aborderons jamais les détails les plus techniques, car ils ne sont pas utiles à la compréhension générale, et nous renvoyons ainsi les lecteurs intéressés par ces derniers vers le livre An introduction to information retrieval [1], référence du domaine, ou Recherche d’information : applications, modèles et algorithmes [2], qui est en Français.

Qu’est ce qu’un moteur de recherche ?

Avant de définir ce qu’est un moteur de recherche, il est pertinent de définir ce qu’est l’objet analysé par ces derniers : le Web. Le Web, pour dire les choses littéralement, est un système de navigation permettant de se mouvoir dans l’information, construit au dessus d’Internet. L’information est contenue dans des pages web (regroupées au sein de sites web) et on peut naviguer d’une page à une autre en suivant un lien hypertexte (traditionnellement un texte de couleur bleue, souligné). Pour les yeux de l’algorithmicien, le Web est donc un graphe orienté dont les nœux sont les pages web, et les arcs sont les liens qui permettent de naviguer d’une page à une autre. Cette structure du Web sous forme d’un graphe est très importante, puisqu’elle est à la base du calcul d’importance des pages qui a rendu Google si populaire : le PageRank (que nous aborderons en détails dans un prochain article).

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter
Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua

Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

 

Voir les commentaires (2) Voir les commentaires (2)

Article précédent

Comment choisir son rédacteur web ?

Article suivant

Noms de domaine expirés : comment les prendre en compte en SEO et est-ce une bonne stratégie ?