Le googler Gary Illyes a indiqué il y a quelques semaines dans une interview que Google ‘labellisait’ les liens qu’il identifiait sur le Web, en fonction de leur emplacement, de leur caractère éventuellement spammy, etc. Ceci n’est pas une surprise totale, même si cette mention était pour la première fois faite de façon ofifcielle. Comment et pourquoi Google donne-t-il des labels aux liens ainsi découverts et à quoi cela peut-il lui servir ? Et qu’est-ce que cela change dans nos habitudes de SEO ?…
Lors d’une interview menée par Barry Schwartz, diffusée le 14 octobre dernier sur Marketing Land, le googler Gary Illyes a révélé plusieurs informations à propos de Penguin. Il a notamment révélé que les informations de ce filtre Penguin (qui est maintenant intégré dans le coeur de l’algorithme) font partie d’un ensemble d’étiquettes associées aux liens.
Cela fait quelques années que l’on soupçonne Google d' »annoter » les backlinks. Ces soupçons proviennent de rares informations qui ont « fuité » de la part de certains employés de Google concernant leur interface de travail. Mais aussi parce que de nombreux brevets déposés par Google portaient sur des systèmes d’étiquetages de liens à des fins diverses : lutte contre le spam, mesure de la topicalité, qualité ou popularité.
Mais que sait-on exactement sur ce système d’étiquettes ? A quoi sert-il ? Et qu’est-ce que cela peut changer aux techniques d’optimisation et de netlinking ?
Fig. 1. Gary Illyes est Webmaster Trends Analyst chez Google,
et l’un des principaux porte-parole de la firme de Mountain View vers les éditeurs de site.
A l’origine, Google exploitait une information basique sur les liens
Dans l’article d’origine (daté de 1998) décrivant le moteur de recherche Google, Page et Brin ont décrit le système de stockage des informations sur les liens hypertextes. Les deux seules informations conservées étaient :
- Les « couples (DocId1,DocId2) » : c’est-à-dire l’information sur l’existence d’un lien hypertexte depuis la page 1 vers la page 2. Comme les liens hypertextes constituent ce qu’on appelle un « graphe orienté », cette notion correspond à la notion d’arc, c’est-à-dire une arête dotée d’une orientation (de Doc1 vers Doc2 ou de Doc2 vers Doc1).
- Les « textes d’ancres » : indexés avec le contenu des pages de destination.
L’information sur le graphe des liens était ensuite utilisée pour calculer le Pagerank d’une URL.
Link label : un « faux ami »
Remarquons au passage que les anglo-saxons utilisent souvent le terme « link label » (étiquette de liens) pour désigner un « texte d’ancre », ce qui peut créer de la confusion quand on lit des articles sur le traitement des liens hypertextes.
Dans la suite de cet article, lorsque nous parlerons de « label » ou d’étiquette, il ne s’agira pas des textes d’ancre, mais bien d’une logique d’association entre un lien et un attribut.
Le Pagerank, et le surfeur aléatoire
Comme tous les moteurs de recherche généralistes, Google fait une utilisation intensive de l’information extraite des liens hypertexte dans son algorithme de classement. C’est notamment le cas de la note de popularité tirée de l’analyse du graphe des liens qui a fait son succès initial : le Pagerank.
Phlippe Yonnet
Directeur Général de l’agence Search-Foresight, groupe My Media (http://www.search-foresight.com)