Guillaume et Sylvain Peyronnet font partie de l'équipe qui travaille sur les projets de recherche et développement du moteur de recherche Qwant. Dans cet article, ils nous dévoilent quelques-uns de leurs travaux pour faire en sorte qu'un moteur ayant comme ligne de conduite de ne pas utiliser les données privées de ses utilisateurs soit aussi pertinent qu'un Google qui puise abondamment dans ce type de data. Pertinence, lutte contre le spam, réseaux sociaux et filtre familial sont au rendez-vous. Entre autres sujets de R&D mélant algorithmique et machine learning...
Début de l'article :
L’article que nous écrivons ce mois-ci est un peu particulier. En effet, nous allons vous évoquer une partie des problématiques de recherche qui sont abordées chez Qwant, le moteur de recherche européen. Il s’agira donc d’un article tourné en mode « première personne » puisque nous sommes largement impliqués dans les opérations de recherche et développement du moteur. Cette implication concerne de notre coté plusieurs personnes, dont principalement Guillaume et Sylvain Peyronnet et Thomas Largillier. Il y a ensuite plusieurs ingénieurs de R&D dans les équipes de développement du moteur (la quasi totalité de ces équipes se trouvent dans les bureaux Niçois de Qwant). Par ailleurs, quelques personnes basées sur Paris contribuent à la recherche en machine learning pour l’amélioration des résultats. Enfin, l’un d’entre nous (Sylvain) est « chief scientist » du moteur.
La R&D pour un moteur de recherche, qu’est ce que c’est ?
Au delà des domaines en eux-mêmes (sécurité, machine learning, UX, infrastructure, bases de données, etc.), la recherche au sein d’un moteur (de recherche) a quelques caractéristiques génériques. Tout, d’abord, cette recherche est appliquée. Même si il est tout à fait possible d’aborder des sujets complexes et sur un terme assez long, la plupart des sujets étudiés correspondent à des problèmes réels, et l’objectif est donc de trouver des solutions pratiques dans un délai assez court. Cela peut sembler être une porte ouverte largement enfoncée, mais cela a en fait une incidence très forte sur les aspects théoriques : la plupart des algorithmes mis au point font partie d'une vision approchée et on-line (on-line signifie ici qu’on a le droit de lire une seule fois les données pour prendre une décision). ...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).