Si le PageRank mesure la popularité d'une source d'information depuis des années, les moteurs de recherche sont encore aujourd'hui à la recherche d'une formule gagnante pour mesurer l'autorité d'un site web, ce qui représente une notion différente amais absolument essentielle, notamment pour lutter contre les "fake news". Depuis l'antique algorithme HITS jusqu'à l'AuthorRank en passant par le TrustRank de Yahoo!, les tentatives ont été nombreuses dans ce sens. Mais où en est-on à l'heure actuelle ? Décryptage...
Dans le discours des experts en SEO, le terme « autorité » revient régulièrement. Or il s'agit d'un terme ambigu, et dont le sens a évolué dans le temps. En 2017, le développement du phénomène des « fake news » (voir notre article du mois dernier) a remis au centre du jeu cette notion, car il devient de plus en plus crucial pour les moteurs de recherche de distinguer les sources qui font autorité des autres…
Mais comment les moteurs de recherche mesurent-ils l'autorité d'un site ou d'une page ? Et quelle est l'importance de ce signal dans l'algorithme aujourd'hui ? C'est ce que nous allons développer dans l'article de ce mois.
Fig. 1. Crédit DigitalBank.co.uk : la plupart des agences et des experts en SEO parlent d' « Autorité »,
mais la définition est floue et fluctuante d'une personne à l'autre.
Ici on sépare la notion des critères off page du « Trust », ce qui n'a guère de sens.
Le concept d'autorité : de quoi est-ce le nom ?
Mais avant d'aller plus loin, il convient de faire quelques remarques d'ordre sémantique sur ce que le monde des SEO et de l'Information Retrieval (la Recherche d'Information) appelle « autorité ». Cette notion correspond au terme « authority » en anglais, qui a deux sens dans ce contexte précis :
- « an authority » est une institution ou une administration (« health authority » : service de santé) ;
- « authority » dénomme aussi quelque chose ou une personne qui fait « autorité », un expert du domaine.
Ce double sens existe moins en français, mais il subsiste par contre dans la notion d'autorité employée par les chercheurs en « Information Retrieval ». « An authoritative website », dans la littérature signifie donc à la fois : site institutionnel, ou d'une administration, et site dont le contenu fait autorité.
Popularité/Autorité vs Pertinence : le dilemme de la fin des années 1990
Dans les moteurs de recherche des années 1990, et notamment chez Altavista, l'algorithme cherchait avant tout à trouver les pages les plus pertinentes sur une requête donnée. Les signaux les plus importants dans l'algorithme étaient donc des signaux dépendants de la requête (« query related »).
Ces signaux étaient essentiellement des critères mesurant la similarité entre la requête et les pages web (notamment le fameux « Cosinus de Salton » encore employé aujourd'hui dans de nombreux Outils de Recherche).
Néanmoins, la pertinence des résultats renvoyés par ces algorithmes restait médiocre. Or les chercheurs en Information Retrieval se sont vite aperçu que les utilisateurs jugeaient beaucoup plus pertinents les résultats lorsqu'ils étaient reclassés pour faire apparaître les sites ou les pages faisant autorité dans les premières positions. Mais comment identifier ces sites ? Comment quantifier cette notion pour une page ?
A partir du milieu des années 90, les recherches pour trouver un moyen simple de calculer une note d'autorité se sont multipliées. Parmi les pistes explorées, exploiter l'information contenue dans l'arborescence des liens hypertextes est vite apparue comme la solution la plus prometteuse.
Hubs & Authorities : l'algorithme HITS
Parmi les méthodes inventées à l'époque, figure le premier algorithme exploitant l'information issue de la matrice des liens hypertexte : HITS.
HITS est un algorithme mis au point par l'équipe de Jon Kleinberg chez IBM, et qui a fait l'objet de plusieurs publications scientifiques en 1996 et 1997. HITS est souvent nommé « Hubs and Authorities », car il permet de calculer deux notes pour chaque page du web :
- Une note d'autorité ;
- Et une note de « Hub ».
Fig. 2. Les « Hubs » & « Authorities » dans l'algorithme HITS :
l'analyse des liens hypertextes permet d'attribuer des notes aux pages web en fonction
de leur caractère de Hub ou d'Authority.
Dans HITS, une page reçoit une forte note d'autorité si beaucoup de pages du Web pointent vers cette page, alors que cette page fait peu de liens vers d'autres pages. (exemple : elle reçoit 1 500 liens et n'en propose que 20 sortants).
Pour la note de Hub : la note est élevée si la page fait beaucoup de liens vers d'autres pages, tout en restant populaire (elle reçoit 200 liens entrants et fait 150 liens vers d'autres pages par exemple).
HITS constitue donc une première approche historique de la mesure de l'autorité.
Cet algorithme a été employé dans plusieurs moteurs populaires au début des années 2000, avant d'être abandonné, à cause de l'essor de Google et d'un défaut majeur de l'algorithme : HITS était trop facile à spammer.
Le Pagerank : popularité vs autorité
Les fondateurs de Google, Larry Page et Sergey Brin, ont eux aussi créé un algorithme calculant une note à partir de l'information tirée des liens hypertextes : le PageRank. Mais cet indicateur mesure la « popularité » d'un site, et non son autorité. La nuance est importante, et mérite d'être détaillée.
Dans la notion de popularité, il n'y a aucune tentative de mesurer :
- La qualité du site, ou de son contenu ;
- Le fait que le site émane oui ou non d'une institution ou d'une administration ou qu'il s'agit d'un site officiel ;
- Le fait que le contenu fasse autorité, ou soit rédigé par un auteur qui fait autorité dans son domaine.
On mesure en fait l'importance du site sur le Web, et l'indicateur produit est « neutre » : on ne sait pas si la page est importante parce que tout le monde y fait référence, ou parce que de nombreux webmasters citent une page pour en dénoncer le contenu ou s'en moquer.
Mais une page dont le PageRank est élevé à toutes les chances de correspondre à une page « qui fait autorité ».
Le problème est que ce n'est pas vrai dans tous les cas. Et la recherche d'une solution pour calculer une note « d'autorité » a continué.
Fig. 3. Credit Agilience : une analyse de l'autorité des sources sur le changement climatique par rapport à leur audience.
Même si les sources qui font autorité font plutôt des bonnes audiences, les sources les plus populaires
(Léonardo di Caprio) ne sont pas réellement des « autorités » sur le domaine,
soit par manque de crédibilité scientifique, soit parce que ce ne sont pas des institutions reconnues
dans ce domaine (comme la Banque Mondiale). N'analyser que la popularité crée donc un biais,
qui n'exploite pas tout ce qui constitue le sentiment de pertinence des utilisateurs
face aux résultats d'un moteur de recherche.
« Authority » et « Trust »
La raison pour laquelle les utilisateurs des moteurs de recherche préfèrent les pages « authoritative » dans les résultats des moteurs de recherche est parce qu'ils font plus confiance à leurs contenus qu'à d'autres pages provenant de sites inconnus ou qui font moins autorité.
La relation entre « autorité » et « pertinence » vient donc de ce sentiment de confiance dans la fiabilité ou la qualité du contenu.
Fort logiquement, plusieurs tentatives ont été faites pour essayer d'obtenir une note indiquant si une page était « digne de confiance ».
La solution la plus pratique, et qui a été exploitée chez Yahoo !, Bing (MSN à l'époque) et probablement aussi par Google est le « Trustrank » (rappelons que le nom a été inventé par des chercheurs de Yahoo!).
L'algorithme du Trustrank repose sur un mécanisme de calcul similaire à celui du Pagerank, mais c'est un Pagerank « biaisé ». Le biais vient du fait que pour calculer la note de « confiance », on identifie des sites et des pages « dignes de confiance » à qui on attribue un Trustrank maximal. Ensuite, on calcule un Pagerank de manière classique.
La note ainsi obtenue est élevée pour des pages qui reçoivent des liens d'un ou plusieurs pages « de confiance ». Elle est faible ou nulle si aucun lien émanant de sites de confiance n'existe et si aucun chemin ne relie un site de confiance à cette page.
Fig. 4. Une illustration du mécanisme du calcul du Trustrank
défini par des chercheurs de Yahoo! en action.
Si la note de Trustrank est un progrès dans la mesure de l'autorité d'une page, cette note est là aussi un signal « neutre » : une note de Trustrank élevée n'est pas réellement prédictive de la qualité ou de la fiabilité d'une page. Il est simplement peu probable qu'une page ayant un fort Trustrank ne soit pas « authoritative ».
Authority et Topicality
D'autres pistes ont été explorées en parallèle pour « identifier » les sites faisant autorité. Depuis les travaux de Jon Kleinberg (le père de l'algorithme HITS), on sait qu'en étudiant les liens hypertexte entre les pages web, on peut identifier assez facilement certaines catégories de sites et de pages faisant autorité dans une communauté donnée ou un domaine particulier (les fameux « authorities » de l'algorithme HITS).
A partir de ces sites, on peut calculer là aussi des PageRanks biaisés, qui donnent des notes de « topicalité » : c'est-à-dire la proximité entre le contenu d'une page et une thématique donnée. Une page ayant une forte note de topicalité a plus de chance de faire autorité sur le sujet. Mais il existe de nombreuses exceptions, et on ne peut donc pas utiliser ces notes de topicalité isolément pour mesurer l'autorité d'une page. C'est un signal que l'on peut néanmoins utiliser, conjointement avec d'autres, dans une mesure de l'autorité.
Fig. 5. L'outil Majestic fournit des indicateurs de « topical trust flow » : il indique quelle note de « Trust »
est transmise par des pages qui sont sur la même thématique que le domaine ou la page cible.
Cet indicateur part de l'intuition que l'autorité ou le trust sont des notions propres
à un contexte thématique donné. Par contre on ne sait pas bien comment Google mesure la « topicalité ».
Authority et AuthorRank
Dans "la vraie vie", les contenus auxquels les gens font confiance sont reconnus essentiellement par ce que la source qui a produit ce contenu est jugée « digne de confiance ». La notion de source englobe ici la notion d'auteurs (les personnes qui ont produit le contenu) et la notion d'éditeur (l'institution, l'entreprise, la personne morale ou l'administration qui a produit le contenu).
Compte tenu de cela, mesurer l'autorité revient donc à collecter des indicateurs qui permettent de mesurer quel est le degré de confiance que l'on peut accorder à une source.
Depuis plusieurs années, on parle ainsi de tentatives de création d'un « authorRank », une note mesurant l'autorité d'un auteur, à partir de signaux classiques (PageRank), mais également d'indicateurs issus des outils et réseaux sociaux. La difficulté sur laquelle butent les chercheurs en Information Retrieval est que l'information sur l'autorité d'une source que nous exploitons dans la vie courante n'a pas toujours son pendant sur Internet, en tout cas sous une forme exploitable.
Fig. 6. L'AuthorRank est un nom générique donné aux algorithmes cherchant à remplacer le PageRank
par une note prenant en compte d'autres signaux liés à l'Autorité d'une page ou d'un domaine.
Ci-dessus, une illustration des signaux mentionnés dans un brevet déposé par Google pour un « AgentRank »
(qui est un avatar du concept d'AuthorRank). Notons que la note de PageRank est réutilisée.
Bref, progresser dans le calcul d'un AuthorRank est sans doute indispensable pour identifier clairement les contenus qui font vraiment autorité, mais tout n'est pas encore résolu à l'heure actuelle. Or le phénomène des « fake news » crée une urgence pour Google : pour les éradiquer, la solution est de savoir identifier les pages dont le contenu est peu fiable ou de faible qualité, et dont la source est également peu digne de confiance…
Que signifie « authoritative » chez Google en 2017
La lutte contre les « fake news » a produit une évolution sensible dans la définition des pages qui font autorité chez Google. La notion de « qualité » et de « fiabilité » est devenue beaucoup plus centrale. Et la définition de l'autorité a glissé pour devenir quelque chose de plus « contextuel ».
Voici une définition rédigée par un ingénieur/chercheur de Google, trouvée dans un brevet décrivant une méthode de discrimination entre contenus faisant autorité et contenus manquant de fiabilité : « En général, un site qui fait autorité est un site dont l'outil de recherche a pu déterminer qu'il présentait un contenu particulièrement fiable, précis, et digne de confiance. L'outil de recherche peut distinguer les sites faisant autorité des sites de faible qualité qui présentent des ressources dont le contenu est superficiel, ou qui contiennent fréquemment des publicités intrusives ou abusives. Le fait que l'outil de recherche identifie un site comme faisant autorité sera typiquement dépendant de la requête. Par exemple, l'outil de recherche considérera le site des Centres pour le Contrôle des Maladies, « cdc.gov », comme faisant autorité pour la requête « cdc prévention piqûres moustique », mais pas pour la requête « avis sur les restaurants ».
(Source : brevet Obtening authoritative search results).
Avec le temps, on a donc glissé d'une note « indépendante de la requête » (sur le modèle du PageRank, ou de l'Authorank), à quelque chose de dépendant de la requête, permettant d'identifier un « authoritative result » : un résultat qui fait autorité. Les deux approches sont complémentaires, la seconde étant fort utile dans le contexte de la lutte contre les fake news.
Fig. 7. Identifier automatiquement les résultats de pages qui font autorité sur un sujet
est un problème redoutable, que Google est loin de savoir résoudre complètement aujourd'hui.
C'est pourquoi le moteur a ajouté des formulaires de feedback pour que les utilisateurs
puissent signaler les résultats de mauvaise qualité ou qui donnent des informations
non pertinentes ou erronées. Notamment, comme ici, en position zéro.
Le DA et le PA de Moz
Notons que beaucoup d'experts SEO manipulent au quotidien des notes de « Domain Authority » et de « Page Authority ». Ces termes correspondent à des indicateurs calculés par les outils de Moz. Leur dénomination ne doit pas vous induire en erreur. Ces notes d'autorité constituent l'agrégation d'indicateurs de popularité à la PageRank, ou similaires au TrustRank, et d'autres indicateurs sur lesquels Moz ne communique pas. Ces notes de DA et PA sont une tentative de calculer un critère similaire aux notes « off page » (correspondant aux signaux indépendants de la requête utilisés dans l'algorithme).
Il ne s'agit donc pas exactement d'une mesure de l'autorité, mais d'une bonne tentative de se rapprocher d'une telle mesure. La définition se trouve ici :
https://moz.com/learn/seo/page-authority
Fig. 8. Les notes de « Page Authority » et de « Domain Authority »
sont également disponibles dans la « Moz Bar » pour Chrome et Firefox.
« Faire autorité » est devenu nécessaire pour se positionner
en tête des résultats sur les requêtes concurrentielles
La qualité de l'expérience de recherche vécue par les utilisateurs de moteurs est de plus en plus dépendante de la présence de sites ou de pages faisant autorité en tête des résultats. On le voit dans les études de corrélation entre classements et signaux.
Fig. 9. Un exemple d'étude de corrélation entre « score d'autorité » et « classements obtenus »
par une agence anglaise (StickyEyes).
Il est clair que la note de popularité (PageRank) n'est plus le seul signal que les moteurs de recherche cherchent à prendre en compte pour améliorer la pertinence des résultats. Le fait que la source :
- Soit digne de confiance (« Trust »),
- Fasse autorité, soit reconnue comme fiable ou soit une institution,
fait partie des éléments que Google et les autres moteurs cherchent à exploiter dans leur algorithme.
Mais en plus, ce signal « d'autorité » devient en plus dépendant de la thématique de la requête, et même de chaque recherche d'information.
Google dispose-t-il d'une solution simple pour calculer une note « d'autorité » ? Certainement pas. La littérature scientifique sur le sujet montre que le problème est loin d'être résolu : l'AuthorRank en particulier est un projet intéressant, mais un moteur de recherche en 2017 n'a pas accès à toutes les informations (notamment des données disponibles uniquement IRL - In Real Life -, pas sur le Web) qui lui permettraient de calculer autre chose qu'une approximation grossière d'une telle note d'autorité.
Mais les signaux liés à l'autorité sont certainement exploités dans l'algorithme. Cela signifie qu'en 2017, travailler son référencement sur le long terme passe forcément par une stratégie consistant à transformer son site en une « Autorité » sur un sujet ou une requête donnée.
Ce qui changera quelque peu les priorités d'un référenceur dans un avenir plus ou moins lointant, et qui condamne à terme les pratiques « spammy ». Mais en attendant, les premières positions sont loin d'être aussi souvent occupées par des sites qui font autorité qu'elles le devraient…
Phlippe Yonnet
Directeur Général de l'agence Search-Foresight, groupe My Media (http://www.search-foresight.com)