Le moteur de recherche français Qwant a été dernièrement au centre de plusieurs remous suite à la signature d'un accord avec Microsoft, alors qu'il critique ouvertement Google, autre membre du Gafam. Plusieurs controverses autour de son index, de la propriété de ses algorithmes secouent également la société depuis sa naissance et de sa dépendance à Bing. Il nous a donc semblé important et intéressant de poser un certain nombre de questions à Eric Léandri, afin de faire le point sur tous ces sujets et d'évoquer l'avenir de ce moteur. Voici ses réponses...
Réacteur : Qwant a signé dernièrement un accord avec Microsoft. Pouvez-vous nous décrire de façon précise en quoi il consiste (le communiqué de presse officiel étant très vague à ce sujet) ?
Eric Léandri : L’accord de Qwant avec Microsoft comprend plusieurs volets. Tout d’abord un volet commercial autour de Microsoft Ads, qui nous permet de diffuser des publicités du réseau Microsoft qui correspondent aux mots clés saisis par les utilisateurs, sans transmission de données personnelles lors de l’affichage des publicités. Nous avons travaillé avec Microsoft sur des solutions technologiques inédites qui assurent cette anonymisation, ce qui permet de respecter les engagements de Qwant et d’être pleinement conforme RGPD.
On trouve ensuite un volet technique. Outre l’API Bing que nous utilisons pour assurer une meilleure couverture des résultats, nous allons utiliser les capacités du cloud Azure de Microsoft pour y déployer nos outils d’indexation et de ranking des résultats, qui pourront aller beaucoup plus vite et gagner en profondeur, et des outils de machine learning qui nécessitent de la capacité GPU voire du FPGA. Ca va nous permettre d’offrir des services qui auraient été beaucoup plus coûteux à déployer avec notre seule infrastructure en propre, que nous conservons mais qui sera renforcée par le cloud Azure. Nous avons donc d’un côté l’infra de Qwant, sur laquelle se connectent les utilisateurs, et de l’autre une infra Microsoft que nous utilisons pour héberger certaines de nos solutions et accélérer des calculs.
Comprenez-vous les craintes des gens qui disent que Qwant diabolise Google tout en se jetant dans les griffres d’un autre géant (et GAFAM) américain et critiquent donc ce qu’ils pensent être un manque de cohérence ?
Bien sûr que nous le comprenons, et c’est à nous de rassurer sur ce point en expliquant clairement ce qu’on fait. Il se trouve qu’aujourd’hui, pour nos besoins qui sont très spécifiques, nos tests sur des solutions européennes n’ont pas été concluants. Nous avons simplement choisi un partenaire technologique avec lequel il est possible de faire ce qu’on a besoin de faire, immédiatement, et qui partage avec nous des objectifs. Mais nous avons bien veillé à ce que le cloud Azure soit utilisé uniquement sur des données non personnelles, et des choses qui sont déjà publiques. Il s’agit de nous permettre d’accélérer le projet de Qwant, pas d’y renoncer !
La question de l'index de Qwant et de sa dépendance à Bing a alimenté bien des rumeurs depuis des années. Qu'en était-il au début de Qwant pour les résultats "Web" (hors images, actu, etc.) ? Et maintenant ?
Beaucoup de gens ont eu du mal à comprendre notre stratégie, ou pour certains ne voulaient pas la comprendre. Elle est pourtant très simple. Vous ne pouvez pas aujourd’hui lancer un moteur de recherche grand public en partant de zéro, comme on le faisait dans les années 1990, en ayant des résultats satisfaisants dès le premier jour. C’est impossible. Si vous essayez de faire ça, les utilisateurs testent, se rendent compte que les résultats sont mauvais, et ne reviennent plus jamais. Tous ceux qui ont essayé avant, parfois en bénéficiant de très importantes levées de fonds, ont échoué. Vous devez avoir des utilisateurs pour apprendre ce que les gens recherchent, où aller indexer, quels résultats les intéressent, pour améliorer vos résultats… or pour avoir des utilisateurs, vous devez avoir des résultats corrects. C’est pour ça que Qwant, dès le début, a proposé des résultats qui étaient enrichis avec les services de Bing. Mais ceux qui en concluent que nous n’avons pas notre propre index et notre propre capacité à délivrer des résultats se trompent lourdement.
En d’autres termes, quel est aujourd’hui le pourcentage de dépendance de Qwant par rapport à Bing, au niveau : de l’index, de l’algorithme, du classement des résultats, des publicités ? De façon très claire ?
Sur la publicité, l’intégralité des publicités que vous voyez au cœur des résultats de Qwant proviennent actuellement de Microsoft. Pour le reste, c’est impossible à chiffrer. Si nous débranchions complètement Bing aujourd’hui, nous pourrions répondre à une part importante des requêtes sans perdre en pertinence dans les premiers résultats affichés, mais nous aurions plus de difficultés dans la profondeur des résultats et pour les requêtes atypiques. Il faut qu’on monte en capacité sur cette longue traîne. C’est tout l’objet du changement de technologie d’indexation amorcé en 2017 et que nous allons progressivement déployer sur Azure. Il nous faut continuer notre apprentissage, accroître nos capacités d’indexation et de calcul. Nous sommes sur une vision de long terme.
Vous verrez un effet sensible d’ici octobre, y compris sur les images qui sont pour le moment 100% issues de Bing pour des raisons de capacité de stockage et de traitement. Nous lancerons en octobre-novembre un concours SEO qui vous permettra de comprendre comment fonctionnent nos algorithmes en voyant les effets des techniques SEO sur le ranking dans Qwant, et cela nous permettra de voir si nos techniques antispam fonctionnent correctement et où elles peuvent encore être améliorées.
Certaines personnes accusent, constats à l’appui, Qwant d’avoir pendant très longtemps utilisé l’index de Bing bloqué à l’année 2017 pour de sombres raisons de contrat non respecté. Qu’en est-il exactement ? La situation a-t-elle évolué depuis cette date ?
C’est franchement idiot et je ne comprends pas le crédit que l’on porte à de telles accusations qui sont dénuées de toute logique mais qui sont toutes portées par des gens qui ont un intérêt très personnel à attaquer Qwant. Ce qu’il s’est passé en 2017, c’est qu’on a fait un gros changement de technologie d’indexation. Nous avions à ce moment-là sur nos serveurs deux index en parallèle, l’un arrêté en 2017 basé sur une technologie obsolète, l’autre qui était constamment mis à jour, basé sur nos nouveaux crawlers, qui nous ont permis de décupler nos capacités d’indexation à coût constant. Tout s’est très bien passé, jusqu’au jour où nous avons fait une erreur d’adressage qui n’aurait jamais dû se produire, qui faisait qu’un script chargé d’interroger l’index à jour interrogeait en fait une vieille base de données obsolète. C’est bête, très bête même, mais c’est le genre d’erreur humaine qui peut se produire dans une petite boîte comme la nôtre, et nous ne nous en sommes pas rendu compte assez vite, parce que globalement ce que les gens cherchent en 2019 n’est pas très différent de ce qu’ils cherchaient en 2017, sauf pour des actualités où là nous avons un index spécifique à la presse qui venait de toute façon combler les vides. Donc dans nos indicateurs, tout semblait nominal. Quand on a découvert l’erreur, on a d’abord cru l’avoir corrigée partout, et puis un peu comme dans la loi de Murphy, nous avons eu un mauvais rollback qui l’a faite revenir. Aujourd’hui c’est totalement derrière nous.
C’est fou parce que j’ai tout entendu à ce propos : pas d’index du tout, puis index mais uniquement jusqu’en 2017, puis maintenant qu’ils voient qu’on a notre index ils se disent qu’en fait on avait rompu un contrat avec Microsoft avec qui on signe un partenariat d’envergure en 2019… Rien de tout ça ne tient pas debout, mais c’est pas grave, ça ne les empêchera pas de trouver une nouvelle explication demain. Toutes, sauf la bonne, qui est une bête erreur humaine. Les explications les plus simples sont parfois les plus vraies.
En dehors des études Médiamétrie qui sont, comment dire, intéressantes mais quelque peu critiquables dans leur méthodologie :), si on en croit les chiffres de StatCounter, les parts de trafic de Qwant sont de 0,65% en France et proches de zéro en Europe. Les chiffres de StatCounter sont certes également critiquables, mais ils rejoignent en général ceux de nombreux sites que je suis via Analytics / Piwik/Matomo / Xiti, etc. N'est-ce pas problématique après 6 ans d'existence d'avoir finalement si peu de parts de trafic après tout ce laps de temps et les efforts continus de communication et de lobbying de votre part ?
Je veux bien qu’on me parle toujours de Statcounter qui affiche quasiment le même niveau de parts de marché depuis deux ans…. Vous avez suivi comme moi les annonces successives de basculements vers Qwant par défaut dans de très grandes entreprises, les administrations, etc., vous voyez bien comme moi que les gens qui disent utiliser Qwant sont de plus en plus nombreux… et malgré tout ça, ça ne vous étonne pas que l’indicateur Statcounter reste plat, quand dans le même temps SimilarWeb nous place aujourd’hui 33e site français et voit une explosion de notre trafic ? Il faut un peu de sérieux. Je ne sais pas bien pourquoi Statcounter reste à ce point aveugle à notre trafic, je pense que c’est beaucoup dû au fait que leurs mesures dépendent de trackers qui sont beaucoup bloqués par nos utilisateurs, et qu’ils sont beaucoup moins présents en Europe et en France sur les sites.
Quant à Médiamétrie, ils nous ont mis à 8% de parts d’audience (ce qui est différent des parts de marché), nous on a rien demandé. On estime que notre part de marché est entre 4 et 6% en France, ce qui est déjà très bien et nous laisse une bonne marge de progression.
NDLR : notons que les statistiques d'audience (Analytics, Pwik-Matomo-XIti) confirment bien, sur les sites que nous suivons, les chiffres de StatCounter : parts de trafic "search" de Qwant inférieure à 1% et très faible progression ces dernières années.En revanche, aucune source officielle n'est fournie dans l'interview pour le chiffre de 4 à 6% de parts de marché ?
Quel est le chiffre d'affaires de Qwant sur ces dernières années ? Et son bénéfice (ou pertes) ?
Qwant pourrait largement être bénéficiaire si nous arrêtions toute la R&D et vivions uniquement sur le marketing pour faire vivoter un moteur de recherche quelques années. Mais ça n’est pas notre ambition. Nous réinvestissons tout notre chiffre d’affaires dans le développement de Qwant et c’est une trajectoire normale pour beaucoup de startups, même si c’est moins dans la tradition en France où il y a une certaine frilosité du marché face au B2C, justement parce qu’on accepte moins de perdre de l’argent, voire beaucoup d’argent les premières années. Il faut accepter de perdre à court terme pour gagner à long terme.
Peut-on se battre contre Google encore aujourd’hui ? Et la lutte pour préserver les données personnelles de ses utilisateurs est-elle une motivation suffisante pour un internaute pour utiliser Qwant plutôt qu’un autre moteur ?
On peut se battre contre Google, mais pas tout seul. Qwant fait sa part sur le moteur de recherche, et nous sommes les premiers à véritablement prendre des parts de marché en Europe. Mais Google, ce n’est pas uniquement un moteur de recherche, c’est une véritable pieuvre, donc tant mieux si le succès de Qwant donne du courage à d’autres de s’y attaquer, sur les moteurs de recherche ou sur d’autres activités. Et c’est ensemble que nous allons réussir. Déjà un succès de Qwant, c’est que beaucoup de gens aujourd’hui savent que des alternatives sont possibles, et ne se disent plus qu’Internet c’est Google et Facebook. Ca n’était pas gagné il y a quelques années.
Bien sûr, la protection des données et plus largement le respect des valeurs européennes est une motivation forte pour les internautes qui ont choisi Qwant. Mais ça ne suffit pas à les faire rester. Ils restent d’abord parce qu’ils voient bien qu’ils ont des résultats de qualité et que les besoins d’aller sur Google sont finalement beaucoup plus rares qu’ils le craignaient avant de tester. Et l’expérience utilisateur globale leur plait. C’est un ensemble.
Pour les sites régionaux de Qwant (Bretagne, Corse, etc.), il semblerait que ce soit juste une version dont la charte graphique est traduite dans la langue locale de l'interface, mais que les résultats Web (hors images, actuaités, etc.) sont les mêmes que pour la version nationale, et ne sont donc pas régionalisés. Est-ce exact ?
Nous avons une régionalisation des actualités mais peu visible, c’est un système de pondération selon les médias locaux qui sont les plus cliqués dans les régions concernées. Nous aurons probablement à revoir ce système qui ne donne pas le résultat escompté, mais ça n’est pas dans nos priorités de développement.
Qu'en est-il de Qwant Images, qui devrait prochainement sortir, et Qwant Maps ? Queles sont leurs spécificités et originalités par rapport à leur principaux concurrents ?
Nous avons mis au point un moteur de recherche d’images basé sur une intelligence artificielle qui analyse le contenu des images pour en produire des descripteurs, que nous pouvons alors exploiter dans toutes les langues comme mots clés de recherche. C’est la première fois au monde qu’un moteur fonctionne ainsi quelle que soit la langue utilisée. Nos équipes ont écrit un article scientifique sur le sujet (https://arxiv.org/pdf/1903.11299.pdf) et nous avons réalisé un démonstrateur qui fait de la recherche d’images dans un index d’un peu plus de 100 millions d’images à ce jour. A noter : pour indexer les images, un GPU moderne peut processer 800 images en 7 à 8 secondes, les ressources que va nous fournir Microsoft en termes de puissance de calcul GPU sont cruciales. Il faudrait en effet plus de 3 ans sur un seul GPU pour créer un index de 10 milliards d’images, avoir la disponibilité d’un très grand nombre de GPUs pendant un temps assez court est donc primordial.
Concernant Qwant Maps, nous avons toute une cartographie qui met en forme les données mises en commun dans OpenStreetMap et que nous rendons exploitables avec un geocoder en langage naturel, des informations sur des lieux d’intérêts que nous venons ajouter, la possibilité de calculer des itinéraires, etc., toujours sans collecter les données des utilisateurs.
Enfin, quels sont les objectifs de Qwant pour les années qui viennent ?
Vous demandez à Qwant de se prononcer sur sa croissance sur son chiffre d'affaire et sur des capacités à rentrer sur le marché de la publicité chez les annonceurs. La seule chose qui est dans nos objectifs est l'obtention de 5 à 10% du marché européen. Nous avons évidemment un business plan qui annonce 10 millions cette année et plus de 20 l'année prochaine et le retour donc à l'équilibre et aux bénéfices en 2020. Il faut cependant se rendre compte de la difficulté et des incroyables retournements de ce marché. La condamnation des abus de position dominante de Google par la Commission européenne devrait en principe enfin ouvrir des possibilités sur les mobiles, qui sont évidemment très importants pour nous, mais on voit que ça traîne à se concrétiser depuis un an. Et la guerre commerciale entre la Chine et les USA fait que le marché est très hésitant en ce moment, tout peut s’ouvrir comme tout peut se refermer du jour au lendemain. Mais si l’on prend de la hauteur, notre accélération actuelle, le choix qu’ont fait beaucoup de grandes entreprises d’utiliser Qwant ces derniers mois, les choix de l’administration, de grands journaux européens comme Welt ou Corriere Della Serra, la demande forte des annonceurs et des agences publicitaires pour annoncer sur Qwant… tout ça nous amène à confirmer nos objectifs.
Merci Eric, pour vos réponses.
Interview réalisée par Olivier Andrieu
Rédacteur en chef de Réacteur et fondateur du site Abondance.