Comment fonctionne un moteur de recherche ? (3ème partie : Popularité et PageRank)

Un moteur de recherche comme Google ou Bing est loin d’être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l’addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l’internaute qui l’utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d’articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d’un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Après nos précédents articles sur les technologies de crawl, l’index inversé et le duplicate content, nous abordons ce mois-ci un sujet souvent mal connu : la popularité, le PageRank mais également le PageRank thématique qui représente une forte évolution de ce concept…

Par Guillaume Peyronnet, Sylvain Peyronnet et Thomas Largillier


Nous poursuivons notre cycle sur le fonctionnement des moteurs de recherche par cet article qui aborde ce mois-ci la notion d’importance des pages. Nous avons déjà vu que les moteurs de recherche stockent de manière différenciée l’information structurelle (les liens) et l’information de contenu (les textes des pages). Vous savez également que l’information structurelle va être utilisée principalement pour analyser l’importance des pages. En effet, lors de la construction des SERP pour une requête donnée, le moteur va prendre les pages les plus importantes parmi les plus pertinentes pour la requête et les renvoyer à l’utilisateur.

L’analyse de l’importance des pages peut se faire de différentes manières, mais l’algorithme le plus connu pour calculer le classement des pages en fonction de leur popularité supposée indépendamment de leur contenu, vous le connaissez puisqu’il s’agit du fameux PageRank. Cet algorithme qui fit la réussite de Google est décrit dans l’article The PageRank citation ranking: bringing order to the web.

Le PageRank, une vision de ce qu’est la popularité

Chez les référenceurs web, tout le monde est persuadé de savoir ce qu’est le PageRank, principalement parce que tout le monde a vu la formule “magique” qui relie valeur du PageRank et liens sortants des pages web. Mais la formule n’est rien de plus que le « moteur » technique, et elle ne dit pas grand chose de ce que c’est réellement.

Pour mieux comprendre, voyons ce qui se dit sur le PageRank… « C’est une mesure d’autorité » : cette affirmation n’est pas exacte, car le PageRank est plutôt une valeur de popularité. On fait ensuite un abus de langage en disant que si une page est populaire c’est parce qu’elle a une grande autorité. C’est souvent vrai, mais pas toujours.

Rejoignez la communauté Réacteur

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua

Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

 

Ajouter un commentaire Ajouter un commentaire