La notion de PageRank est aussi ancienne que la naissance de Google (il doit d'ailleurs son nom à l'un des deux cofondateurs du moteur). Mais , au fil des ans et de rachat de start-ups (notamment Kaltix en 2003), une nouvelle notion de PageRank thématique est venue compléter la vision initiale de la popularité d'une page dans l'algorithme de Google. Comment définir ce PageRank thématique et comment est-il calculé et intégré par les moteurs, pour arriver aujourd'hui à la notion de cocon sémantique, notion chère à Laurent Bourelly ? Voici quelques explications.
Début de l'article :
Dans cet article nous allons aborder la notion souvent évoquée mais rarement expliquée de PageRank thématique. Tout le monde a déjà entendu parler du PageRank de Google, mais il est rare de trouver des personnes qui savent réellement ce que c’est. Le PageRank thématique est une évolution naturelle du PageRank, ceci est évident dès que l’on sait ce qu’est le PageRank standard.
Après avoir rapidement évoqué le PageRank usuel, nous verrons le principe de sa version thématique, ainsi que ses implications, avec notamment la notion de cocon sémantique, très populaire aujourd'hui chez les référenceurs.
Le PageRank, qu’est-ce que c’est ?
Il n’est pas rare de découvrir, au détour des sites web spécialisés, une belle formule pour définir ce qu’est le PageRank, couplée à des phrases du type « le PageRank considère qu’un lien vers un site est un vote pour ce site » ou encore « le PageRank est une mesure de l’autorité du site ». Nous allons maintenant voir qu’il existe une manière beaucoup plus simple et intuitive d'expliquer ce qu'est le PageRank.
Pour mieux comprendre, remontons le temps en 1998, date de la création de Google par Sergey Brin et Larry Page (voir [1]). L’objectif est alors de présenter aux utilisateurs du moteur de recherche des pages pertinentes pour ses requêtes. Le problème principal du moteur est qu’il existe beaucoup de pages qui sont pertinentes pour une requête donnée. Comment arbitrer entre plusieurs pages quand on ne peut en présenter que quelques unes ? L’idée de Larry Page (d’où le nom - assorti d'un jeu de mots - de PageRank) est de quantifier la popularité des pages : plus une page pertinente est populaire, plus on la présentera avant les autres.
...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).