Comment mesurer la qualité d’un système de classement de résultats ?

Comment mesurer la qualité d'un système de classement de résultats ?

Tout moteur de recherche a besoin de classer ses résultats. Cette notion de mesure de la pertinence par rapport à une requête donnée a fait l’objet de nombreux travaux scientifiques depuis des années. Voici quelques pistes suivies par les chercheurs et quelques modèles utilisés, et quels sont les moyens utilisés pour évaluer ces méthodes ayant pour objectif d’atteindre le Graal du search : la meilleure pertinence possible…

Début de l’article :

Pour commencer cet article, nous allons revenir à la base la plus évidente : l’objectif d’un moteur de recherche est de déterminer parmi un très grand ensemble de documents (textuels d’abord, mais aussi plus évolués comme par exemple des images ou des vidéos) ceux qui sont pertinents par rapport à un besoin informationnel. La notion même de besoin informationnel, ainsi que celle de pertinence, sont très difficile à capturer puisqu’elle est dépendante de chaque personne. Par ailleurs, le canal de communication entre le moteur et l’utilisateur est imparfait et parcimonieux (les requêtes sont courtes, et l’utilisateur peut se tromper).

En conséquence, les moteurs doivent « apprendre » ce qui est pertinent et ce qui ne l’est pas. Dans cet article nous ne parlerons pas de comment se fait cet apprentissage, mais de la façon dont le moteur va savoir si il est dans l’erreur ou dans le vrai, c’est-à-dire l’évaluation de la qualité de l’algorithme qui détermine la pertinence. Nous avons déjà évoqué le problème de l’évaluation dans notre article du mois dernier, mais plutôt et principalement sous l’angle de l’approche dynamique : on extrapole la satisfaction des utilisateurs à l’aide d’un monitoring de son comportement. Ici, on verra plutôt quelles sont les mesures chiffrées que l’on peut utiliser pour noter les classements (et implicitement les algorithmes de classement) de manière objective, dans l’idée de nourrir des algorithmes d’apprentissage qui produiront de meilleurs classements.

Envie de lire la suite ?

Les articles Reacteur en intégralité à partir de 14,90 €/mois.

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua
Ajouter un commentaire Ajouter un commentaire

Article précédent

Les blocages de sites web par les FAI et moteurs de recherche sur décision administrative ou de justice

Article suivant

App Indexing (Bing et Google) : comment ça marche ?