On entend souvent parler du CTR (Clic-Through Rate ou Taux de Clic) comme d'un éventuel critère de pertinence de Google. Mais qu'en est-il vraiment ? Quelle est la validité des différentes études parues sur le sujet ? Voici quelques pistes de réflexion sur un sujet qui divise le landerneau du SEO depuis bien des années...

Par Guillaume et Sylvain Peyronnet


Dans cet article, nous allons aborder l’un des marroniers de la communauté SEO : le lien entre le CTR (Click Through Rate, c’est-à-dire la proportion de personnes exposées à un lien qui vont cliquer dessus) sur le moteur de recherche et le positionnement au sein de ce même moteur.

CTR et positionnement sont deux concepts qui sont très clairement liés au sein d’un moteur de recherche : plus une page est présentée en « haut » des résultats de recherche, plus son CTR est grand. Un grand nombre d’études ont été publiées sur le sujet (voir à ce sujet l’article [1] du journal du net), et toutes montrent que sur Google, le CTR de la première position est globalement entre 30% et 40%, puis qu’il diminue ensuite pour être sous la barre des 10% dès qu’on passe la cinquième position).

Un gros CTR étant généralement le signe d’une page cible de qualité, il n’en a pas fallu plus pour que de nombreux SEOs fassent l’hypothèse que le CTR est un facteur de positionnement, et que donc la relation CTR – positionnement serait d’une certaine manière réciproque. Dans ce contexte, une bonne position donnerait un bon CTR, et un CTR meilleur que prévu à une position donnée permettrait d’améliorer son positionnement.

Est-ce que cette hypothèse est farfelue ? est-ce que le CTR est un levier actionnable ? C’est donc le sujet de cet article.
 

[Pour le moteur] utiliser le CTR organique ? pourquoi faire ?

Derrière l’idée que le CTR organique aurait un impact sur le positionnement se cache l’idée que le moteur aurait un intérêt à utiliser ce critère.
C’est un sujet que nous avons déjà abordé dans la lettre d’Abondance. Prendre en compte le comportement des utilisateurs pour modifier les résultats de classement permet d’améliorer la qualité perçue par les utilisateurs (voir par exemple les articles [2], [3] et [4]).

Sans refaire la même histoire une fois de plus, des études réalisées par les équipes de recherche des principaux moteurs montrent des améliorations de qualité perçue allant jusqu’à 15% grâce à l’utilisation de signaux implicites liés au comportement des internautes.

Est-ce que ces comportements sont monitorés par le CTR uniquement ? Non, il existe plusieurs types de métriques, mais la déviation au CTR moyen (nous en reparlerons plus tard dans cet article) est l’une d’entre elles.
 

Déterminer si il y a un lien ? Pourquoi faire ?

L’idée est de savoir définitivement si le CTR est utilisé par Google pour créer et/ou modifier son classement. Il faut noter qu’on retrouve généralement le terme anglais de « ranking factor », qui est particulièrement réducteur puisque le CTR peut être également correctif : il ne crée pas le classement, mais il permet de le modifier a posteriori. C’est d’ailleurs la seule hypothèse raisonnable, pour la bonne raison que, sans classement déjà existant, on ne peut pas calculer de CTR, et donc le CTR ne peut pas être une variable de création des classement. C’est une situation bien différente de celle des liens ou des contenus des pages web, qui existent indépendamment des moteurs de recherche (ce n’est pas le cas du CTR).

Si le CTR n’est pas utilisé par les moteurs, il n’y a rien de plus à dire et faire. Mais si il l’est, alors l’impact est potentiellement important.
Tout d’abord, on peut utiliser cette information de manière positive : en amplifiant le CTR de son site web, le webmaster malin pourra espérer une amélioration de son classement.

Mais on peut également imaginer des applications plus perverses : en jouant avec les résultats du classement, on peut faire baisser artificiellement le CTR (et monter le click-skip, c’est-à-dire le clic sur le résultat précédent et suivant une page web donnée) d’une page, ce qui aura pour effet de faire baisser son classement.

On voit donc que si le CTR est utilisé par Google, l’impact est potentiellement important. Tout ceci étant très théorique, car simuler des visites pour manipuler le CTR est techniquement difficile à faire, Google étant très au point dans la détection des clics frauduleux (n’oublions pas que le premier métier de Google est la vente de clics sur des publicités).
 

Alors ? Est-ce qu’il y a un lien ?

Plusieurs référenceurs, principalement en dehors de France, ont fait des tests plus ou moins réussis pour décider de la causalité entre le CTR et le classement (attendu qu’il y a clairement une corrélation puisqu’au moins une causalité entre le classement et le CTR).

La première étude qui a mentionné le sujet est due à Rand Fishkin de Moz (voir [5]). Son article explique longuement ce qu’il a fait pour le test, mais basiquement il a écrit un billet de blog, positionné en 7eme position pour une requête spécifique (« imec lab ») et il a demandé sur Twitter à ses abonnés de faire la recherche en question et de cliquer sur le lien vers son blog. En procédant ainsi, il a pu voir monter son billet de blog jusqu’à la première place du classement pour cette requête.
Est-ce que son test est révélateur ? Non, car la requête est très spécifique : il s’agit d’une entité nommée, pour laquelle il n’y a visiblement pas de compétitivité (la plupart des résultats sont dans des thématiques qui ne sont pas celles de la page écrit par Rand. Par ailleurs Rand a fait un appel à ses followers publiquement, ce qui augmente le nombre de mentions de l’URL dans les réseaux sociaux, et qui a peut-être poussé des gens à commenter sur leurs propres sites l’opération, et donc à créer des liens supplémentaires. Il n’a donc pas créé une expérimentation réellement contrôlée qui aurait permis de séparer les potentielles causes de l’effet. Enfin, un seul mot clé et une seule page, ce n’est bien évidemment pas suffisant pour conclure quoi que ce soit.

Une étude a été réalisée quelques mois plus tard par Bartosz Góralewicz, un référenceur Polonais. L’étude réalisée procède de la manière suivante : il a tout d’abord choisi quelques mots-clés et un nom de domaine dont il voulait améliorer le classement. Il a pris son propre domaine et 7 mots-clés liés au référencement et à son nom (« Goralewicz », « SEO consultant », « Negative SEO », « International SEO consultant » et quelques variantes de ses mots-clés).
Il a ensuite utilisé une armée de bots avec des proxies pour simuler du trafic naturel (« visible dans Google Analytics» étant son étalon pour cela). Chaque bot simulait une recherche sur Google, avec un clic sur le domaine étudié, avec ensuite la simulation d’une visite de quelques pages du site associé. Après avoir simulé presque 30 000 clics, il a conclu que le CTR n’avait pas d’impact sur le classement.

Là encore, il faut se poser la question de la méthode expérimentale. Est-ce que cette étude a de la valeur ? Il semblerait qu’elle en a plus que celle de Rand Fishkin puisqu’il y a plus de mots-clés, plus de clics, moins de parasites dûs à une annonce sur Twitter. Mais en pratique, cette étude n’est ni mieux ni moins bien car il y a des hypothèses très forte qui sont faites. La principale étant que les clics et le trafic générés étaient « naturels » car visibles dans différentes interfaces de Google.
C’est en fait très peu probable. S'il existe un hypothètique algorithme de prise en compte du CTR, il doit embarquer un algorithme antifraude sur les clics, comme ceux utilisés par la partie publicité de Google. Les résultats de cet algorithme n’auraient aucune raison d’être visible (en creux) dans une interface de Google, sinon on pourrait se servir de cela pour essayer de comprendre comment il fonctionne.

Tester avec des bots et des proxies simulant du comportement naturel, cela ne permet que de conclure qu’on ne peut pas profiter d’une éventuelle causalité en utilisant des bots et des proxies de cette manière, c’est tout. L’expérience de Rand était au final plus proche de la réalité que celle-ci !

Une troisième étude a été réalisé par Larry Kim. Son avantage est qu’elle porte sur un portefeuille de 1 000 mots-clés, ce qui commence a être intéressant d’un point de vue statistique. L’autre bon point est que Larry Kim s’intéresse non pas au CTR, mais à la déviation du CTR réel au CTR attendu. En effet, pour chaque position et mot-clé, il existe un historique de CTR moyen, et ce qui va faire une différence est le changement par rapport à ce CTR moyen, pas le CTR réalisé. Pour le dire autrement, une page qui réalise un CTR de 6% là où le CTR attendu (historique) était de 1% est bien plus performante qu’une page qui réalise 80% là où on attendait 79%. L’observation principale de cette étude est que si vous « battez » le CTR moyen attendu avec une page pertinente, vous serez dans les top positions (les cinq premières dans le vocabulaire de Larry Kim), et que dans le cas contraire vous serez dans les positions 6 à 10.

Vous noterez qu’ici il n’est question que des positions de la première page. Ce n’est pas du tout étonnant. Monitorer le comportement des utilisateurs coûte cher, et il est normal pour un moteur de procéder en deux étapes : une première étape utilise les métriques classiques (pagerank, pertinence, etc.) pour trouver les top pages (les 10 premières par exemple), et ensuite le classement entre ces dix pages est raffiné en utilisant des métriques comportementales en plus des autres (pas à la place, mais bien en complément).

Larry Kim va assez loin dans sa conclusion, en annonçant qu’avec 20% de mieux que le CTR moyen vous serez en position 1, 12% en position 3, 5% en position 4, mais aussi qu’en étant battu de 6% par le CTR moyen vous serez en position 10.

Pour finir, il existe plusieurs outils qui permettent de se faire sa propre idée sur la question. Vous pouvez utiliser des bots pour faire comme Bartosz Góralewicz, mais n’espérez pas voir quelque chose arriver à votre site. Vous pouvez aussi utiliser des outils maisons qui tourneraient sur des IPs résidentiels (c’est-à-dire chez des « vraies » personnes avec des « vraies » connexions). C’est l’idée d’outils comme Pandabot (logiciel) ou la CTRbox (matériel), voir leurs sites web [6] et [7].
 

Au final, que dois-je faire ?

Si il ne fait aucun doute que les moteurs utilisent des métriques comportementales pour affiner les classements, il est difficile de savoir au cas par cas quelles sont celles qui sont réellement utilisées car cela va dépendre du moteur, du contexte de la requête, de sa thématiques, etc.

Il est également difficile de savoir comment manipuler la métrique de manière transparente au moteur. Savoir que le CTR est un critère revient à savoir que le revenu publicitaire d’un éditeur web est le clic sur une publicité. On sait tous que le clic sur une publicité rapporte, mais qui sait faire des faux clics de manière suffisante pour escroquer les moteurs ? Très peu de monde, et toutes les tentatives réussies ont utilisé des botnets de PCs familiaux « zombis ».

Comme le dit Laurent Bourrelly : « la vérité est à l’écran », et il ne faut pas hésiter à tester pour voir si vous êtes dans un domaine pour lequel la manipulation serait faisable et efficace, mais créer une stratégie SEO efficace basée sur la manipulation du CTR est un fantasme, d’autant plus qu’avant de passer de la place 10 à la place 1, il faut déjà entrer dans la première page !
 

Références

[1] http://www.journaldunet.com/solutions /seo-referencement/ seo-les-taux-de-clics-ou-ctr.shtml

[2] Joachims, Thorsten. ”Optimizing search engines using clickthrough data.” Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2002.
http://www.cs.cornell.edu/People/tj/ publications/joachims_02c.pdf

[3] Agichtein, Eugene, Eric Brill, and Susan Dumais. ”Improving web search ranking by incor- porating user behavior information.” Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2006.
http://www.msr-waypoint.com/ en-us/um/ people/sdumais/ SIGIR2006-fp345-Ranking-agichtein.pdf

[4] Joachims, T., Radlinski, F. (2007). « Search engines that learn from implicit feedback ». IEEE Computer, 40(8), 34-40.
https://www.researchgate.net/profile/ Filip_Radlinski/publication/ 2961924_Search_Engines_that_Learn_from_Implicit_Feedback/ links/00b49529619653cbf1000000.pdf

[5] https://moz.com/rand/ queries-clicks-influence-googles-results/

[6] http://www.pandabot.net/

[7] http://www.seobox.club/ctrbox


Guillaume Peyronnet est gérant de Nalrem Médias.
Sylvain Peyronnet
est co-fondateur et responsable des ix-labs, un laboratoire de recherche privé.
Ensemble, ils font des formations, pour en savoir plus : http://www.peyronnet.eu/blog/