La gestion des requêtes utilisateur par les moteurs de recherche

On le sait, les moteurs de recherche stockent pendant une certaine durée les requêtes saisies par les internautes sur leurs outils, en plus de certaines informations comme l’adresse IP, etc. L’un des prétextes donnés par ces moteurs pour stocker ce type de données est que cela les aide à bâtir de meilleurs moteurs et algorithmes de pertinence. Mais à quoi peuvent bien servir ces informations ? Comment sont-elles traitées par les moteurs et en quoi cela les aide-t-il à être meilleurs au quotidien ? A la réflexion, on peut trouver de très nombreuses voies d’amélioration des outils de recherche basées sur ces données. Démonstration…

Début de l’article :

Lorsqu’on s’appelle Google, Yahoo ou Bing, et que l’on reçoit chaque jour un nombre faramineux de visites d’utilisateurs tapant un nombre encore plus grand de requêtes, on dispose en pratique d’une source de données formidable pour comprendre le comportement de recherche de ses utilisateurs. Les moteurs de recherche enregistrent en effet dans un fichier ad hoc (un fichier de « log ») l’historique des requêtes tapées afin de l’utiliser pour effectuer ensuite des analyses. Google, en particulier, exploite visiblement de manière intensive ces données…

Nous allons voir que les données issues des logs de requêtes peuvent être utilisés pour des usages divers, et parfois inattendus.

A quoi ressemblent les données stockés ?

Les logs de requête gérées par les moteurs stockent généralement l’IP de l’utilisateur, les mots clés tapés, et un timestamp (l’horodatage de la requête). Dans le même fichier de log, on ajoute aussi parfois le tracking des clics de l’internaute sur la page de résultat, comme dans cet exemple issus des logs du moteur Excite (l’adresse IP a été enlevée pour préserver l’anonymat de l’utilisateur)…

Envie de lire la suite ?

Les articles Reacteur en intégralité à partir de 14,90 €/mois.

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua
Ajouter un commentaire Ajouter un commentaire

Article précédent

Les 10 outils et extensions Firefox indispensables pour le référencement

Article suivant

EntityCube, un moteur sur les entités nommées, "made by Microsoft"