De nouvelles façons de rechercher de l'information sur Internet émergent chaque jour un peu plus. La recherche vocale est l'une d'elle et est promise à un bel avenir à court terme. Mais la recherche visuelle, où la requête n'est plus une suite de mots clés ou une phrase vocalisée, mais une image ou une photo, est également un secteur d'avenir qu'il faut certainement prendre en compte dès aujourd'hui car elle pourrait arriver dans notre quotidien très rapidement...

Par Philippe Yonnet


Cela fait déjà presque dix ans que la recherche visuelle n’est plus de la science-fiction. En 2008, le premier moteur de recherche exploitant la recherche par images (TinEye) est apparu. En 2010, avec l’application Google Goggles, il est devenu possible de chercher de l’information à partir d’images prises par l’appareil photo de son smartphone.

Mais les progrès récents, grâce en particulier aux applications de l’intelligence artificielle, font entrer la recherche visuelle dans une nouvelle dimension. Parce que des acteurs comme Pinterest et Bing commencent à miser sur les technologies de recherche visuelle de façon spectaculaire, mais aussi parce que l’on voit apparaître de nouveaux concepts de moteurs de recherche basés sur la recherche visuelle. Enfin, parce que les applications pour smartphone de « shopping visuel » se multiplient, créant un nouvel usage lié à un modèle économique performant.

Bref, c’est un nouveau domaine de l’information retrieval qui est en train de se développer rapidement sous nos yeux. Et nous vous proposons dans un premier temps de vous donner un aperçu de « l’état de l’art » en matière de recherche visuelle. Pour évoquer ensuite les applications du futur, qui sont en cours de développement dans les labos de recherche.

Un rapide historique de la recherche visuelle

Mais d’abord, de quoi parle-t-on ? La recherche visuelle est une technique de recherche d’information qui utilise comme entrée une image en lieu et place d’une requête textuelle.

On qualifie parfois de recherche visuelle les interfaces visuelles des moteurs de recherche : par exemple les interfaces de Grokker, Quintura ou Kartoo, ou l’interface visuelle de Bing, lancée en 2009 et abandonné dès 2011.


Ces moteurs ont eu peu de succès, car leur interface était souvent déroutante et nécessitait un apprentissage. Néanmoins, le concept réapparait régulièrement, par exemple avec Oskope (http://www.oskope.com).


Fig. 1. Oskope : ici le concept de recherche visuelle fait allusion
à l’interface du moteur, qui fait appel uniquement à des éléments visuels.

La technologie exploitée par les outils de recherche visuelle est en fait ancienne : elle est l’une des applications de différents domaines de recherche, notamment la reconnaissance de formes.

On cite souvent TinEye, lancé en 2008, comme le premier outil de recherche visuelle « grand public ». D’autres outils existaient depuis les années 2003/2004 (Google Images date de 2001, pour donner un repère temporel), mais sont restés confidentiels et réservé à des applications spécialisées.


Fig. 2. Une page de résultats de TinEye obtenue à partir d’une recherche sur une photo d’Olivier Andrieu.

TinEye est le premier moteur de recherche d’images « inversé », c’est-à-dire le premier à autoriser une recherche d’images à partir d’une autre image, et sans utiliser les informations habituelles collectées par les moteurs d’images, à savoir :

  • Les mots clés ;
  • Les métadonnées ;
  • Ou les « watermarks ».

Google a lancé en 2010 sa propre version de la technologie de recherche visuelle inversée.


Fig. 3. La recherche par images, fonctionnalité introduite en juin 2011 sur Google images.

A cette époque, la technologie utilisée s’appuyait essentiellement sur le calcul de « signatures » pour les images, ce qui permet en particulier :

  • de trouver facilement d’autres versions de la même image ;
  • et d’identifier des images proches, en termes de texture, de couleur et même de formes.

Google Goggles, lancé en 2010, permet de reconnaître via la caméra d’un smartphone des pancartes ou des  monuments, mais aussi des codes-barre ou des produits, en permettant de chercher des produits similaires.


Fig. 4. Google Goggles.

Google Goggles a peu évolué depuis son lancement, et d’autres applications similaires plus perfectionnées sont apparues, notamment Camfind, lancée en 2013. Camfind utilise le « deep learning », une technique d’intelligence artificielle dont les applications dans le domaine de la reconnaissance de formes ou l’identification d’images ne cessent de se multiplier.


Fig. 5. Une illustration promotionnelle pour l’application Camfind.

La technologie derrière Camfind était embarquée dans les regrettées Google Glass : la commande « Ok Glass, what do you see » activait une recherche visuelle en mode « réalité augmentée ». Cette application représente sans doute l’une des premières tentatives d’emploi de cette technologie, dans un contexte qui représente l’une des évolutions attendues de cette technologie dans le futur.


Fig. 6. La technologie d’Image Searcher, la société à l’origine de l’application Camfind,
était embarquée dans les Google Glass.

La recherche visuelle chez Pinterest

Pinterest fait partie des acteurs très actifs dans le domaine de la recherche visuelle. Le concept de « Pinboard » a évolué petit à petit pour offrir des recommandations basées sur la similarité.

En 2014, Pinterest a fait l’acquisition de VisualGraph, une société dont l’un des cofondateurs est un ancien ingénieur de Google, spécialisée dans les logiciels de vision artificielle. La technologie de VisualGraph permet de sélectionner une zone d’une image, et de proposer des images similaires. Comme dans l’exemple de la figure 7, si dans une photo montrant la décoration d’une maison, vous trouvez une lampe qui vous intéresse, le logiciel peut vous proposer toutes les images similaires.


Fig. 7. Technologie VisualGraph.

 

L’application Bing et la recherche visuelle

On retrouve la fonctionnalité proposée par Pinterest dans l’application Bing pour smartphone disponible aux USA. Bing fait partie des acteurs à la pointe de l’innovation en matière de recherche visuelle, et ceci depuis plusieurs années maintenant.



Fig. 8 et 9. La fonctionnalité de recherche inversée par image existe aussi sur Bing US,
sous le nom « Image Match » : elle est juste un peu moins visible que sur Google.


Fig. 10. L’application Bing US propose une fonctionnalité à la Camfind ou Google Goggles.

Les projets de Google

Chez Google, il ne se passait plus grand-chose depuis le lancement de Google Goggles. Le produit a relativement peu changé depuis 2010, et Camfind dépasse clairement l’outil de Google en précision et en couverture.

Peut-être est-ce pour rattraper ce retard que Google a acquis en juillet dernier la startup française Moodstocks, spécialisée en reconnaissance d’images sur smartphone. La technologie de Moodstocks repose sur les dernières avancées en apprentissage automatique.


Fig. 11. Illustration issue du site de Moodstocks, avant son achat par Google.

Et Google est encore capable d’innover : un système avancé de reconnaissance d’images est caché au cœur de la nouvelle messagerie de Google : Allo. En effet, pour faciliter et accélérer la rédaction de messages, Google propose des suggestions de réponse. Lorsque votre interlocuteur vous envoie une photo par la messagerie, le contenu de celle-ci est analysé, et Google Allo vous propose les réponses les plus plausibles.


Fig. 12. Le système de reconnaissance d’images de Google Allo en action :
si un ami vous envoie la photo de son chien, les réponses pré-rédigées « cute dog » etc.
proviennent des outils de reconnaissance d’images intégrés !
Il reconnait même la race « le bouvier bernois ».

Les applications « classiques » : reconnaissance de formes, OCR et reconnaissance faciale

Les progrès en matière de recherche visuelle sont liés aux avancées dans 3 domaines d’utilisation anciens, mais qui connaissent depuis quelques années des avancées spectaculaires grâce à l’intelligence artificielle.

La reconnaissance de caractères (OCR)

L’OCR est devenu d’une précision redoutable, et les ordinateurs arrivent à lire ce qui est écrit dans les pires conditions : lettres déformées, mauvais éclairage, mauvais angle de vue, visibilité partielle etc… Cela signifie que les applications de reconnaissance d’image sont capables de lire des panneaux routiers, les numéros sur les maisons ou les étiquettes sur les produits  sur des photos, ou grâce à l’APN de votre smartphone.

Dernièrement, la lecture automatique des captchas a fait de tels progrès que cette technique n’est plus un obstacle pour un hacker déterminé.


Fig. 13. La lecture des captchas n’est plus un obstacle pour les logiciels d’OCR : il est possible de les « cracker » automatiquement en quelques secondes. Cette méthode est donc vouée à disparaître.

La reconnaissance de formes

Reconnaître des formes et des objets pour les étiqueter ou les classifier fait partie des applications les plus anciennes de la vision informatisée. Cette branche de la recherche a été révolutionnée par l’intelligence articielle, notamment le « deep learning ». Le taux de reconnaissance a fait des bonds, et ces avancées se retrouvent dorénavant embarquées dans les applications de recherche visuelle.


Fig. 14. La reconnaissance des formes et des objets s’appuyait autrefois sur des algorithmes calculant
la probabilité pour qu’un objet appartienne à une classe :
ici un algorithme bayesien capable de reconnaître une orange d’un citron.

La reconnaissance faciale

Parmi les technologies de reconnaissance d’image, la reconnaissance faciale a évolué presque comme un domaine à part. Aujourd’hui, elle peut être embarquée dans une application de smartphone, ou utilisée au sein de Facebook pour reconnaître automatiquement vos amis.

La reconnaissance faciale a évidemment de nombreuses applications possibles en recherche visuelle et fait partie des fonctionnalités utiles en réalité augmentée.


Fig. 15. La reconnaissance faciale a fait d’énormes progrès, et elle fonctionne maintenant correctement
dans des conditions d’angle ou d’éclairage jugés jadis rédhibitoires.
Ici une illustration d’une application dédiée à la sécurité des entreprises.

La recherche visuelle et l’e-commerce : des alliés naturels

Peut-être avez-vous eu envie de demander à votre voisin ou votre voisine dans le métro où il avait trouvé cette paire de chaussures ou cette magnifique veste ? Et bien dorénavant, il est inutile de leur demander : il suffit de télécharger une application de shopping visuel, et de prendre en photo l’objet de vos rêves, et l’application vous proposera :

  • soit de l’acheter directement auprès d’un ou plusieurs ecommerçants ;
  • soit de vous indiquer où acheter des produits similaires ;
  • soit de vous aider à trouver des produits correspondant au même style (fonction recommandation).


Fig. 16. La recherche visuelle de produits en action : cette paire de chaussures vous intéresse ?
Il vous suffit de les prendre en photo…


Fig. 17. … et l’application vous permettra de les acheter en ligne immédiatement.
Redoutable pour favoriser les achats d’impulsion.
Ici un exemple avec l’application Snapget, développée par une startup israélienne

Le géant de l’ecommerce, Amazon, n’est pas resté l’arme au pied. Il a développé sa propre application de Shopping visuel, Firefly, pour son téléphone, le Fire, lancé en 2014. Le smartphone d’Amazon a été un flop, mais l’application est toujours disponible sur les marketplaces Android et Apple.


Fig. 18. Firefly d’Amazon est une application de shopping visuel très simple,
permettant de reconnaître un produit via l’APN et de l’acheter sur Amazon.

Le shopping visuel inspirationnel

Les progrès de la recherche visuelle permettent également de développer de nouvelles expériences, plus « inspirationnelles ». C’est l’un des points forts des fonctionnalités « shopping » proposées par le moteur de recherche de Pinterest. De plus en plus d’applications proposent de vous aider à trouver des objets à acheter qui partagent un motif, un style, une ressemblance, par rapport à l’image de base que vous avez choisie comme point de départ à vos recherches.


Fig. 19. Un exemple d’application de shopping visuel inspirationnel : Snapfashion.

Le shopping visuel chez tous les marchands ?

La dernière tendance est de voir des sociétés spécialisées proposer des applications de recherche visuelle en marque blanche, via des APIs, aux marchands et e-commerçants. Chacun peut donc avoir son bouton « acheter ce produit avec mon smartphone ».


Fig. 20. Les applications des e-commerçants intègrent de plus en plus souvent des fonctionnalités de shopping visuel : ici, un site marchand produit par l’intégrateur Photon, exploitant la technologie de la startup Slyce, l’une des sociétés les plus en pointe dans la fourniture de technologies de reconnaissance d’images.

Le futur de la recherche visuelle

Aujourd’hui, la plupart des utilisateurs ne savent même pas que les applications de recherche visuelle ou de shopping visuel existent. Il faudra sans doute des années pour que le taux d’adoption de ces technologies par les industries liées au Web et par les utilisateurs progresse significativement.

Il faudra aussi attendre que le taux de reconnaissance s’améliore, car certaines applications aujourd’hui ont un taux d’erreur assez déceptif. Mais dans ce domaine, les progrès très rapides du « deep learning » apportent des avancées considérables.

Il ne faut donc pas s’attendre à ce que la recherche visuelle remplace rapidement d’autres usages : la recherche vocale est un meilleur candidat pour cela. Mais de nouvelles applications ludiques ou pratiques (comme Blippar par exemple) peuvent également apparaître et favoriser l’adoption. La recherche visuelle progresse aujourd’hui parce que les smartphones sont dotés de caméra haute définition. De nouveaux dispositifs dotés de caméras (comme les Google Glass) peuvent contribuer à faire naître ces nouvelles applications.


Fig. 21. Un exemple d’application ludique popularisant de nouveaux usages
des APN de nos smartphones : Pokemon Go.

Mais le plus grand domaine d’application est évidemment la réalité augmentée : fournir en temps réel les informations associées à ce qui se trouve dans le champ de vision de l’utilisateur.


Fig. 22. Un exemple d’application future de réalité augmentée utilisant la recherche visuelle dans le domaine de l’immobilier : afficher les informations sur le quartier et les avis de ses habitants.

Pour cela, il faudra attendre que Google relance ses « Google Glasses » ou que des concurrents sérieux lancent des produits similaires…

Gageons que cela sera fait dans un avenir assez proche, tant les technologies nécessaires sont presque toutes mûres…
 


Phlippe Yonnet
Directeur Général de l'agence Search-Foresight, groupe My Media (http://www.search-foresight.com)