Depuis sa naissance, le métier du SEO est indissociablement lié à toutes sortes d’investigations, de tests et de recherches. On peut même dire que la remise en question, la volonté de tester, d'étudier, de casser les légendes urbaines font partie de l’ADN de toute personne qui fait du SEO. Encore faut-il le faire intelligemment et dans les règles de l'art, comme certains exemple malheureux nous l'ont montré par le passé...

 

Cette série de deux articles est une version textuelle de la conférence de l'auteur au SEOCamp’us Paris tenue le 24 septembre 2021. Dans ce premier article, on abordera de différents aspects de recherches SEO notamment les types d’investigations, la mise en place correcte des études, méthodologies, ainsi que divers biais qui peuvent facilement ruiner tout le travail et quelques aspects éthiques.

Dans la seconde partie, nous verrons comment les choses se mettent en place en pratique sur une sélection de 5 tests et études réels et concrets.

Il était une fois en 2016...

Pour commencer, revenons 5 ans en arrière...

Nous étions en 2016, une année riche en événements : Coupe d’Europe de football en France, Donald Trump élu président des Etats-Unis ... Mais une des actualités qui a probablement le plus marqué le monde du digital était le lancement de Google Assistant par le géant de Mountain View.

L’engouement vers ces nouvelles technologies vocales était d’une ampleur impressionnante : on apprenait à interagir avec les nouveaux outils et terminaux en leur envoyant des commandes et les bombardant de questions (évidemment intelligentes).

Et naturellement, on se posait des questions sur l’avenir de ces nouveaux appareils et sur leur influence future au niveau de nos comportements digitaux. Mais ni Google, ni Amazon ne se dépêchaient de partager leurs chiffres et projections.

Et voici que le 25 avril 2016 le magazine britannique Campaignlive.co.uk publie l’article « Just say it: The future of search is voice and personal digital assistants » citant les résultats de l’étude d’une entreprise américaine qui postulait que « vers 2020 50% de toutes les recherches seront vocales ».

Extrait de l'article "Just say it: The future of search is voice and personal digital assistants"  avec la fameuse prédiction.
Source : https://www.campaignlive.co.uk/article/just-say-it-future-search-voice-personal-digital-assistants/1392459

Cet article a eu un énorme succès. Il a été relayé par Forbes, Inc., Entrepreneur, Deloitte, Search Engine Journal et bien d’autres. Selon les données de MajesticSEO, la page de l’article reçoit des liens depuis plus de 2 000 sites tiers, et ce ne sont pas n’importe quels sites !

Ces chiffres « 50% en 2020 » sont devenus une partie intégrante de toutes les conférences, appels d’offre, audits SEO, là où on décelait la moindre mention de la recherche vocale.

En voilà qu'on arrivait en 2020 et qu'on commençait à se poser une question bien plus que logique : « Et concernant cette projection, on en est où aujourd'hui ? ».


Faute de mouvements quelconques sur ce terrain, un consultant SEO australien Brody Clark a adressé la question directement à Comscore et la réponse l’a plus qu’étonné. L’entreprise a répondu que cette étude ne venait pas d’eux, mais il s’agissait probablement d’une interview donnée en 2014 par Andrew Ng, à l’époque le Chief Data Scientist chez Baidu.

La réponse de comScore reçue par Brodie Clark dans laquelle l'entreprise niait la publication de l'étude en question.
Source :
https://brodieclark.com/stop-using-comscores-2020-voice-search-stat/

Mis à part le fait qu’aucune étude n’existait, en lisant l’interview en question, on découvre que la projection « 50% vers 2020 » se faisait pour le moteur de Baidu et non pas le monde entier, et couvrait non seulement les recherches vocales mais aussi la recherche d’images. En bref, des projections sur tous les fronts.

Mais comment a-t-il pu arriver que le monde entier y ait cru ?

Pour nous, il y a quelques raisons importantes :

  1. Tout d’abord il s’agissait d’un sujet très tendance sur lequel on cherchait à en savoir plus.
  2. Ensuite une pénurie extrême de statistiques d’usage de la recherche vocale (qui tout simplement n’existaient pas à ce moment-là).
  3. En finalement, une vague de partages sur des sources d’autorité (difficile de résister de ne pas partager quand tous les acteurs digitaux majeurs le font).

Mais il y a aussi une raison plus profonde qui consiste au fait que par défaut, on a tendance à croire les études.

On aime le terme « étude », on aime quand les données sont factuelles, basées sur la data et les chiffres, même sans prêter attention à la méthodologie utilisée. Notre attention sera attirée bien plus par un titre de type « 50% des recherches seront mobiles vers 2020 » que « La plupart des recherches seront bientôt mobiles ».

 

Pourquoi a-t-on besoin d’effectuer des recherches dans le SEO ?

Les recherches et les études font partie intégrante de tout secteur d’activité et le SEO n’en est pas une exception.

Voire, parmi tous les métiers du digital, c’est le métier qui est probablement le plus confronté à toutes sortes d’incertitudes, manques d’informations, légendes urbaines dûs notamment à :

  1. La boîte noire de l’algorithme de Google : si on veut travailler efficacement dans le SEO, on doit comprendre comment fonctionne l’algorithme de Google gardé précieusement secret.
  2. L’algorithme qui se complexifie chaque année : même si on est arrivé à appréhender certaines facettes de l’algorithme de classement, celui-ci peut et va certainement changer d’un jour à l’autre.
  3. La documentation concise et qui suit les intérêts de Google : même si beaucoup d’éléments sont décrits par les équipes de Google dans la documentation, celle-ci ne peut être considérée comme impartiale car déterminée par ce que le moteur souhaite dire.
  4. La communication de Google pas toujours parfaite : l’exemple le plus parlant est l’histoire autour des attributs "rel=prev" et "rel=next" qui lors d’une séance de Q/A avec les porte-paroles de Google ont été mentionnés comme techniques qui ne marchent plus depuis longtemps déjà, ce qui n'était pas le cas.
  5. L’instabilité et volatilité des résultats : les positions, les liens, les pages indexées, l’intention des mots-clés, les tendances de recherches sont en mouvement constant vers le haut comme vers le bas.

 

Typologie d’études SEO

En parcourant les études SEO réalisées depuis quelques dernières années, certaines tendances se dessinent en termes de types de recherches les plus courants.

Typologie d’études courantes dans le SEO.

  1. Sondages

Un sondage est un type d’étude assez répandu dans le monde du SEO qui se base sur le vieux principe « la foule sait mieux » ou avec une formulation plus politiquement correcte « la majorité ne se trompe pas ».

C’est un type d’étude particulier, car 100% subjectif et non représentatif. Pour contrer ce problème, les concepteurs d’études tentent de sélectionner scrupuleusement une palette d’experts à interroger, mais dans tous les cas il s’agit toujours de leur avis, ressenti, intuition, vécu.

Quelques exemples de sondages SEO :

 

  1. Observations

Les observations est le type d’investigation le plus simple et en même temps le moins fiable.

Par exemple, en ajoutant une vidéo sur la page, on observe que celle-ci progresse en termes de positions sur les mots-clés cibles. Est-ce que cela veut dire que Google valorise davantage les pages avec des vidéos ? C’est possible. Mais pour confirmer cette observation nous avons besoin de la constater à nouveau sur d’autres exemples avec la même méthodologie et le même environnement.

Les observations sont souvent des sources d’hypothèses et sont à l’origine des études plus approfondies.

  1. Tests et expériences

Les tests et expériences sont des recherches empiriques visant à confirmer/infirmer/investiguer un phénomène précis.

Le plus souvent, on peut résumer leur principe par « action – réaction », c’est-à-dire nous créons quelque chose, appliquons un changement et attendons et mesurons l’évolution du critère choisi.

Les tests peuvent se faire dans des environnements fermés (pages, répertoires, sites connus uniquement par la personne effectuant le test) comme ouverts (tests sur des pages publiques). Nous détaillerons ces points un tout petit peu plus bas.

  1. Analyse statistique

L’analyse statistique consiste à prendre une hypothèse ou une observation et à collecter suffisamment de données pour la valider ou non.

  • Par exemple, si on cherche à confirmer l’impact positif de l’ajout d’une vidéo sur la page, nous allons répéter le test sur un échantillon de 10-20 autres pages (en respectant les mêmes conditions).
  • Ou encore, si on souhaite vérifier l’influence du texte sur la page sur la visibilité SEO des images sur cette même page, nous allons récupérer le Top 100 de résultats de recherche de Google Images sur 500-1000 mots-clés, mesurer la taille du texte sur chacune des pages et agréger les données reçues sur un graphique :

Exemple d’une analyse statistique : Nombre de mots sur les pages proposant une image et la position de l’image dans les résultats de Google Source : Reacteur.

 

  1. Analyses prédictives

Depuis quelques dernières années les études autour des prédictions SEO ont repris un second souffle. Si auparavant, elles se limitaient à prédire l’évolution de l’audience, aujourd’hui elles s’intéressent de plus en plus aux facteurs de classement.

Pour cette tâche de prédiction, de multiples méthodes et approches de la data science sont à notre disposition. On y trouve notamment la régression et les corrélations pour des tendances linéaires, les modèles de machine learning basés sur les arbres décisionnels pour des tendances non-linéaires, plus complexes.

Exemples d’études de prédictions :

 

  1. Monitoring

Le dernier type de recherches est le monitoring. Il consiste à identifier en amont des critères de mesure et suivre leur évolution au fil du temps.

Cela peut être le suivi du taux d’apparition de certains encarts dans les résultats de Google (local pack, featured snippets etc.), le suivi des pages lentes vs rapides, des pages avec du contenu correct mais bourrées de mots-clés (keyword stuffing) etc.

Le monitoring permet d’ajouter un peu de clarté sur des changements chez Google.

Ci-dessous, un exemple de monitoring de la longueur des titres dans les résultats de Google par l’outil Rank Ranger. C’est l'un des outils qui a été parmi les premiers à détecter la mise à jour liée à la réécriture des titres par Google :

Évolution de la longueur du titre affiché dans les résultats de Google. Source : Rank Ranger.

 

Quelles données utiliser pour les études ?

Pour tous les types d’études - sauf sondages - nous avons besoin de données, car l'une des choses pour lesquelles on apprécie les études c’est leur caractère factuel, objectif et data-driven.

En règle générale aujourd’hui, nous n’avons pas de difficultés pour trouver des données : des outils de plus en plus nombreux nous en comblent abondamment et sans cesse. Cependant, toutes les données n’ont pas le même niveau de précision ni de fiabilité.

Premièrement, ce qui va nous intéresser est leur provenance. Proviennent-elles directement de Google ou sont-elles fournies par des outils tiers ? La data provenant de Google est très précieuse, car c'est la plus précise et proche du moteur sur lequel on cherche à se positionner.

Mais Google ne nous fournit qu’une partie très limitée de données et nous sommes obligés de passer par d’autres outils spécialisés. Cela ne veut aucunement dire qu’elles sont mauvaises, il faut juste garder en tête en les analysant que Google n’a rien à voir avec.

Deuxièmement, il faut comprendre s’il s’agit des données brutes ou traitées.

Les données brutes nous sont servies dans leur état initial, nécessitant de les retravailler pour les faire parler (exemple : logs serveurs, exports de backlinks, données de crawl, SERPs de Google etc.).

Les données traitées sont passées par la moulinette des outils qui les ont prémâchées, filtrées, vulgarisées, agrégées etc. Elles sont faciles à manipuler et comparer, mais en quête de simplification, on peut perdre de la précision.

Types de données à utiliser, avec des exemples.

 

Environnements de tests

En fonction de l’objet d’investigation, les études et les tests peuvent s’effectuer dans des environnements lab ou terrain.

Environnements de tests : lab et terrain.


Un environnement lab
consiste d’habitude en la création de pages, de répertoires, de sites dont seul l’organisateur du test est au courant. Cachées au public, ces sections ne reçoivent pas de trafic et d’autres personnes ne peuvent pas perturber volontairement ou involontairement les résultats.

Nous allons monter un environnement lab quand il nous faut garantir une propreté de test maximum, sans influence indésirable de facteurs externes.

Pour tester des facteurs de classement, on essaye de positionner ces pages sur des mots-clés réels ou inventés (sans concurrence).

Finalement, l’avantage principal des environnements lab est leur caractère 100% maîtrisable.

Voici un exemple de test dans un environnement fermé : imaginons qu’on souhaite vérifier si Googlebot suit les liens nofollow. Nous allons créer une page avec un lien nofollow vers une autre page accessible uniquement via ce lien. Ensuite, nous allons vérifier régulièrement dans les logs serveur si notre page de destination est explorée par Google. Dans ce genre de test, nous avons absolument besoin d’être sûr que la page secrète ne soit accessible que par notre lien nofollow, ainsi un environnement caché est nécessaire.

Certains tests ne peuvent pas être efficacement menés dans l’environnement lab et nous aurons besoin d’un environnement de terrain. Il s’agit de la mise en place de tests sur des pages réelles qui sont positionnées et reçoivent du trafic.

Pour un exemple de test de terrain, souvenons-nous d’un ancien test de Rand Fishkin : en 2014, Rand Fishkin, fondateur de Moz, a mené une étude de cas avec ses abonnées Twitter :

Tweet de Rand Fishkin dans lequel il a proposé à tous de participer à un test SEO public.
Source : https://twitter.com/randfish/status/461673158588649472

À 18h03, son site Web se positionnait 7ème sur une requête cible. Il a publié un tweet sur son compte Twitter, demandant à ses abonnés de rechercher le mot-clé spécifique et de cliquer sur son site Web. À 21h01, son site Web se classait en première position.

Ce test n’aurait pas pu s’effectuer dans un environnement fermé, car il avait besoin d’actions de la part de l’audience.

 

Protocole de test / d’étude

Une des principales qualités des recherches pour lesquelles ont les apprécie surtout est leur méthodologie et la rigueur dans le suivi de celle-ci. On espère qu’avec ces deux facteurs, on obtient à la sortie des résultats objectifs, factuels et impartiaux.

Pour s’assurer qu’une étude soit correctement mise en place, un protocole d’étude doit être élaboré.

Par le protocole, on entend une description rigoureuse du processus d’étude : de l’objectif à la mesure des résultats. Dans sa variante la plus simple il comprend :

  1. Objectif de l’étude : une hypothèse formulée que l’on souhaite confirmer, infirmer ou investiguer.
  2. Méthodologie : description étape par étape de la façon dont l’étude sera mise en place.
  3. Environnement de l’étude : l’étude, nécessite-t-elle d’être menée dans un environnement lab ou terrain ?
  4. Critère et outil(s) de mesure : quel est l’indicateur le plus pertinent à mesurer et avec quels outils ?
  5. Réserves : un ensemble de clauses liées aux données utilisées, outils, environnement etc. dont on admet les défauts qui peuvent influencer les résultats. Par exemple, en analysant les taux de clics, on part du principe que les données fournies par la Search Console sont correctes et précises.

Une description pareille d’une étude est non seulement un signe de respect pour l’audience avec qui on va la partager, mais c’est également un moyen efficace de trouver des lacunes et incohérences dans nos raisonnements.

 

La méthodologie est aussi importante que les résultats

Au cœur de toute étude se trouve sa méthodologie qu’on ignore souvent en se focalisant entièrement sur les résultats. Mais la méthodologie est aussi importante que les résultats.

Voyons cela sur deux exemples.

Quand nous avons travaillé en 2018 sur notre étude sur les taux de clics, nous avons découvert qu’il existait au moins 3 méthodes de calcul du taux de clics et chacune avait sa raison d'être :

  1. Pour chaque position arrondie, on peut diviser la somme de clics par la somme d’impressions de tous les mots-clés et multiplier par 100%.
  2. Pour chaque position, prendre la moyenne des valeurs de CTR fournies par la Search Console.
  3. Pour chaque position, prendre la mediane des valeurs de CTR fournies par la Search Console.

Comparaison de résultats obtenus par 3 méthodologies de calcul du taux de clics SEO.

 

La première méthode sera la plus réaliste, mais elle est fortement biaisée par les mots-clés à très forte popularité, et les petits mots-clés seront étouffés (mais ils peuvent avoir leurs particularités de clics).

La deuxième et la troisième méthode donnent à tous les mots-clés des droits égaux et valorisent leur diversité. La seule différence est que dans le 2ème cas, la moyenne sera plus sensible aux valeurs aberrantes que certaines requêtes peuvent avoir.

Pour les enjeux de l’étude globale de taux de clics, nous sommes partis sur la 3ème méthode – médiane des CTR – qui est à la fois compatible à tous les groupes de requêtes et est assez stable aux aberrations.

Les choix méthodologiques sont la raison la plus fréquente pour lesquelles les études arrivent à des résultats parfois très différents, tout en restant corrects.

Un autre exemple, au sujet de la récente mise à jour de Google liée à la réécriture des titres. Dans notre étude, nous avons eu le ratio de Title réécrits environ de 40% tandis que les collègues de Semrush ont constaté un ratio aux alentours de 77%.

Est-ce que cela veut dire qu’une des études n’est pas correcte ?

Non, si on regarde les méthodologies utilisées. Semrush compare les titres avec ceux de la balise correspondante sur le site et compte la moindre modification. De notre côté, nous avons enlevé en amont les cas où Google tronquait les Title longs (ce qui existait déjà), et nous avons laissé un peu de marge dans la prise en compte de modifications (par exemple la réécriture d’un tiret court par un tiret long n’était pas prise en compte).

Nos choix de méthodes font aussi face aux multiples biais appelés méthodologiques – des erreurs dans la méthode scientifique, le non-respect des règles de protocole qui engendrent des résultats erronés : biais de survivant, biais de sélection, biais de mesure, biais de confusion etc.

Exemples de biais méthodologiques.

 

Pour conclure

Les études, quel que soit leur type, nécessitent une rigueur dans l’élaboration de méthodologie appropriée et le suivi de tout le processus. Mais quelques soient les avancées dans nos compétences scientifiques, ce qui est probablement encore plus important sont nos qualités humaines, psychologiques : être impartial, ouvert à tout résultat, ne se laisser influencer ni par la première impression, ni par les vérités émises par les autres.

Il existe une multitude de biais cognitifs auxquels nous sont obligés de faire face :

Exemples de biais cognitifs.

 

Et dernier point, une fois une étude réalisée, le fait de la publier est aussi une question d’éthique et de responsabilité. Comme on l’a vu au début de l’article, les gens vont certainement croire à vos résultats. Ceux-ci pourront influencer leurs manières de travailler, prises de décisions, choix business etc.

Dans le cas de l'étude inexistante sur la recherche vocale, Brodie Clark a posé une belle question à l’entreprise américaine : « Qu’est-ce que Comscore a entrepris pour arranger cette situation ? » Et il a eu la réponse : « Nous expliquons chaque fois que quelqu'un demande ». Et lorsqu'il a été demandé les actions mises en place de façon proactive, un silence s'est installé...

comScore: « Nous expliquons [que l'étude n'existait pas] chaque fois que quelqu'un demande ».

Dans notre article du mois prochain, nous passerons en revue différents exemples réels d’investigations SEO avec tout le procédé requis : de l’hypothèse, par le protocole de test, la méthodologie, vers la mesure des résultats et la formulation de conclusions. À très bientôt !


Alexis Rylko, directeur technique SEO chez iProspect (https://www.iprospect.com/https://alekseo.com/)