Bien sûr, le but et l'objectif d'un moteur de recherche est de proposer les résultats les plus pertinents répondant à une requête donnée. Pourtant, si ces liens ne sont pas cliqués, le moteur a échoué dans sa (re)quête. Il est donc important de tester comment une SERP (page de résultats) est analysée par l'internaute et de prendre en compte deux notions importantes : la pertinence et l'attractivité du résultat renvoyé. Cet article décrit des travaux de recherche dans ce domaine, travaux qui ont certainement un impact sur la façon dont nous proposons nos pages à des outils comme Google.
Début de l'article :
L’article de ce mois présente un résultat scientifique qui a été présenté à la conférence WSDM 2016 (Web Search and Data Mining) qui a eu lieu à San Francisco en février 2016. La précision est importante, car WSDM est, avec la très prestigieuse conférence WWW, l’une des deux rencontres les plus importantes des acteurs du search. Cette année, Jeff Dean (le spécialiste du deep learning chez Google), Yoelle Maarek (VP recherche de Yahoo !) ou encore Lars Backstrom (responsable du fil d’actualités chez Facebook) faisaient partie des orateurs invités.
C’est donc l’endroit pour découvrir les techniques que les moteurs mettront probablement en place dans les prochains mois, et dans cet article, nous allons vous présenter un travail qui a pour objectif de re-ranker, c’est-à-dire de reclasser les SERP en utilisant les caractéristiques des snippets pour prédire ce qui a toutes les chances d’être cliqué par les utilisateurs d’un moteur de recherche. Ce travail est dû à Jiepu Jiang et James Allan, et est décrit dans l’article [1].
Prédire la probabilité d’être cliqué, pour quoi faire ?
On pourrait oublier facilement l’objectif d‘un moteur de recherche et penser qu’il ne sert qu’à classer quelques pages web (10 par exemple) dans l’ordre de décroissance de pertinence supposée par rapport à une requête. Hors, il n’en est rien : le but d’un moteur de recherche est de faire en sorte qu’un résultat pertinent soit vu par l’utilisateur. De ce point de vue, si le moteur met en avant une page très pertinente, mais que le lien vers cette page n’est pas cliqué, alors l’objectif n’est pas rempli, c’est un échec pour le moteur.
A contrario, mettre en avant une page non pertinente via un lien qui sera cliqué est tout autant un échec pour le moteur.
Pour résoudre ce problème de correspondance entre les liens présentés, la pertinence des pages associées et le clic sur ces liens pour accéder à ces pages, plusieurs angles d’attaque peuvent être considérés. On peut par exemple travailler sur l’amélioration de la qualité des snippets, permettant aux utilisateurs de prendre une décision plus informée avant de cliquer ou non. Cette approche est cependant très peu efficace : Yilmaz et ses coauteurs (voir l’article [2]) ont en effet montré que la probabilité de cliquer sur un mauvais résultat restait de 49% dans ce contexte. On peut également éviter le problème en répondant directement à la requête (si il n’y a plus de nécessité de cliquer sur un résultat, on élimine le problème des clics malheureux). Bien sûr, cette astuce ne fonctionne que pour des requêtes directement informationnelles comme par exemple « quelle est la date de l’épreuve de philosophie du bac 2016 ? ».
L’idée des travaux de Jiang et Allan est finalement assez simple : quand deux pages sont de pertinences raisonnablement similaires, on déclassera la page qui a un plus haut taux d’erreur de clics ou de skips (nous verrons un peu plus loin ce que sont ces taux). L’idée est simple, mais la réalisation l’est moins : pour implémenter cette idée, il faut en effet analyser de nombreuses caractéristiques des snippets présentés par un moteur de recherche, et faire une analyse de corrélation entre ces caractéristiques et la satisfaction des utilisateurs.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).