L’arrivée en France de Google Lens est encore méconnue pour de nombreuses personnes. Pourtant, son apparition date de 2018. Mise en place depuis le 04 octobre 2017 aux États-Unis, cette nouvelle application se révèle être une véritable révolution dans notre manière d’utiliser le moteur de recherche. Suite aux annonces faites au Search On du 29 septembre 2022, les images reviennent en force avec Google Lens et la recherche multimodale. Scanner le monde, poser des questions comme nous le voulons et où nous le souhaitons, deviendra probablement notre nouvelle manière d’effectuer des recherches. Comment fonctionne Google Lens ? Comment le moteur de recherche a-t-il appris à « voir » les images ? Et quel est l’impact de cette application dans notre quotidien ? Explications.

Qu’est-ce que Google Lens ?

Google Lens est une application, à l’origine créée pour les smartphones et les tablettes. En prenant une simple photographie d’un objet, d’un lieu, d’un animal ou d’une plante, le moteur de recherche vous donne accès à une palette de connaissances issue de ses nombreuses applications verticales : Google Maps, Google Image, Knowledge Graph, Google Translate et Google Shopping principalement.

Il n’existe pas un Google, mais des Google !

Le moteur de recherche californien n'est en effet pas uniquement un moteur de recherche de pages web, c'est aussi un moteur de recherche d'images, d'actualités, d'articles scientifiques, etc. La liste n'est pas exhaustive, mais il est important de noter que chaque moteur vertical nécessite l’intervention de différents algorithmes en arrière-plan. Google est donc un ensemble de services, parfois similaires, et souvent très différents. C’est pour cette raison qu’il n’existe pas un Google, mais plusieurs Google… dont Google Lens.

Des résultats bien différents des dix liens bleus

À partir d’une simple image, Google Lens vous fournit des informations issues des différentes composantes du moteur de recherche : Google Images, Google Maps, Google Shopping, Google Books, mais pas seulement. Mécanisme basé sur plusieurs algorithmes utilisés ensemble, Lens effectue des opérations basées sur un apprentissage spécifique, celui de « voir » les images comme des humains. Et ce pour vous donner les meilleurs résultats possibles.

L’apprentissage, la classification et les résultats affichés par Google Lens sont issus de méthodes dotées de puissantes fonctionnalités d'apprentissage automatique. Parmi elles, le machine learning (ML) et le Deep Learning (DL), une technique transversale à des domaines de l'IA (Intelligence Artificielle).
La recherche image existe depuis longtemps. Autrefois délaissée, elle revient sur le devant de la scène aujourd'hui avec le multi search. En plus d’une industrialisation massive de l’apprentissage d’images, la société Alphabet couple la reconnaissance visuelle, avec du texte, de la recherche vocale et locale.

Avec la recherche multimodale, les résultats de Google Lens sont actuellement bien différents de la traditionnelle SERP aux 10 liens bleus. En effet, le géant californien se veut déjà dans le futur : avec Google Lens, le mobile first laisse place à l’AI first, avec la volonté de « rendre la recherche plus naturelle et plus intuitive », dixit Sundar Pichaï (source : Search On 2022).

Google Lens : « La recherche, mais autrement »

Originellement créée pour les téléphones et les tablettes Android, l’utilisation de Google Lens s’étend désormais à n’importe quel appareil (PC/Mac et iPhone, notamment). Ainsi, en utilisant l'appareil photo de votre smartphone, Lens détecte non seulement un objet (image, texte ou chose), un animal ou une plante devant l'objectif de l'appareil photo, mais tente de le comprendre, comme le ferait un être humain.

En fonction de ses interprétations, Google Lens affiche des résultats et vous offre la possibilité d’aller plus loin en utilisant la numérisation, la traduction, la recherche locale ou encore le fait de faire des achats (via Google Shopping notamment).

Ainsi, quand Lens fonctionne, celui-ci vous donne actuellement la possibilité de :

  • Traduire du texte trouvé dans l’image ;
  • Écouter le texte, dans toutes les langues disponibles de Google Translate ;
  • Rechercher des informations via Google Search ;
  • Faire des calculs mathématiques et résolution d’équations ;
  • Acheter l’objet pris en photo ;
  • Découvrir des lieux (avec bientôt un affichage immersif et en réalité augmentée avec "Search with Live View") ;
  • Lire et analyser un menu en vous donnant des images des plats sur la carte du restaurant.

À noter : toutes ces applications sont actuellement disponibles sur mobile sauf l’affichage immersif et la RA (réalité augmentée) sur Google Maps. En version Desktop et en France, Lens propose seulement : « Rechercher », « Texte » et « Traduction » sur Google Chrome. Les nouvelles manières d’explorer devraient arriver en France sous peu. Aucune date officielle n’ayant été donnée suite aux annonces du 29 septembre 2022, excepté sur « Search with Live View ». Une programmation dans six villes au cours des « prochains mois » est prévue : Los Angeles, San Francisco, New York, Londres, Tokyo et Paris.

L’image, nouvelle typologie de requête pour le futur ?

Lens est une application basée sur l’utilisation de nombreux algorithmes. Ils fonctionnent ensemble pour que Google s’actionne. C'est ainsi que l'IA et le Deep Learning alimentent les produits de Google.

L'objectif de l’application Lens est de vous donner des informations ou de vous aider à mieux définir un contexte sur votre environnement et sur tous les objets de cet environnement photographié. Actuellement, Google Lens reste un moyen d'aider davantage de personnes à mieux comprendre le monde qui les entoure. La recherche d’informations ne se limite plus aux mots-clés dans la barre de recherche. Elle se réalise désormais aussi grâce à l’image.

Google Lens, l’avenir d’une recherche sans mot-clé

Avec Google Lens, notre manière d’effectuer des recherches change. Nul besoin de formuler une requête textuelle pour obtenir des résultats. Si vous ne savez pas comment exprimer ce que vous voyez, si vous êtes illettré, non voyant ou dyslexique, Lens peut vraiment vous aider dans votre quotidien.

En faisant des recherches pour la rédaction de cet article, une vidéo explicative sur le fonctionnement et l’utilisation de Google Lens nous interpelle. Celle d’une mère de famille indienne, ne sachant ni lire ni écrire, mais qui, grâce à l’application installée sur son téléphone portable, comprend mieux le monde environnant.

Source : YouTube

C’est là que Google Lens prend, à notre avis, tout son sens. Permettre à chacun d’accéder à l’art, à l’histoire ou tout simplement de mieux connaître l’environnement quotidien qui nous entoure. Utiliser Google Lens couplé à Google Search ou Google Maps, c’est donner à chacun la possibilité d’accéder à de nouvelles connaissances.

Rechercher instantanément ce que vous voyez

Certaines requêtes s’avèrent difficiles à décrire, à être exprimées et donc à être trouvées. Voir, c’est aussi comprendre, c’est pourquoi la recherche Google se réinvente avec l’application Google Lens : la possibilité de rechercher instantanément ce que vous voyez, sans avoir à le formuler ni à l’écrire. Le texte utilisé habituellement pour formuler une requête se voit ainsi détrôné par la recherche visuelle.

Source : Google Search On 2022

Multisearch, Near me et Scene exploration, les recherches du futur

Utilisé plus de 8 milliards de fois par mois, soit presque déjà le triple de l’année 2021 (source : conférence de Google I/O du 11 mai 2022), Google Lens fonctionne désormais avec le multisearch (recherche multiple) aux USA. Google multisearch vous offre la possibilité d'utiliser votre téléphone pour effectuer une recherche par image, alimentée par Google Lens, puis d'ajouter une requête textuelle (ou vocale) supplémentaire.

L’ajout de multisearch near me (« recherche multiple proche de moi ») étant prévu pour 2022 (aux États-Unis). Elle permettra d’obtenir des informations locales à partir d’une photo directement depuis l’application.

Avec cette nouvelle fonctionnalité, en plus d’identifier un plat servi dans un restaurant, Google Lens vous indiquera le restaurant le plus proche de votre position géographique. C’est dire l’importance du référencement local, déjà en cours et à venir.

Bien que tout cela semble simple, cette future fonctionnalité repose sur la recherche multimodale. Voici comment les algorithmes procèdent pour trouver un plat à proximité de chez vous :

  • Google identifie les spécificités et les subtilités visuelles contenues dans l’image.
  • Votre recherche visuelle est associée à votre intention (celle de manger le plat dans un restaurant local.
  • Des millions d’images et d’avis publiés sur les pages web (contribution des « Google local guides » notamment) sont ensuite analysés.
  • Google Lens répond à votre intention et vous donne des résultats sur des restaurants à proximité.

Search with live view. Source  : Google Search On 2022

Multi search near me. Source  : Blog Google

 

Autre fonctionnalité à venir sur Google Lens : Scene Exploration. Une autre forme de recherche multimodale vous permettant de trouver toutes les informations, non plus sur un objet en photo, mais sur une scène en entier. Vous aurez ainsi la possibilité de poser des questions (intention de recherche) et d’obtenir des réponses sur un ou plusieurs objets dans un cadre plus large… Nous sommes déjà bien loin des mots-clés et des dix liens bleus. Google Lens s’annonce déjà comme une sorte de “super Ctrl + F” du futur.

Comment Google Lens utilise-t-il les images pour vous répondre ?

Comment Google Lens arrive-t-il, à partir d’une simple image ou capture d’écran, à vous fournir toutes ces informations ? Google Lens, pour la reconnaissance d’images, s’appuie sur le Deep Learning (DL) ou apprentissage profond en français. Sous-catégorie du Machine Learning (ML) et transversale de l’intelligence artificielle (IA), le DL se réfère à un ensemble de techniques et de technologies d’apprentissage automatique basées sur des réseaux de neurones artificiels. On parle précisément de neurones convolutifs (CNN). Les techniques d’apprentissage d’images ayant été expliquées par Sylvain Peyronnet dans 3 trois articles précédents (mai, juin et juillet 2021). Tout comme les différentes technologies utilisées dans la recherche d’images (source mars et avril 2020).

Lens propose actuellement d’identifier des plantes, animaux et autres objets à partir d'une simple photo. Avec l’intelligence artificielle (IA), les informations obtenues depuis des images, vidéos, audio ou texte deviendront capables de créer des connexions entre des sujets et des concepts pour toujours apporter plus de pertinence à la qualité des résultats.

Réseaux de neurones, mémorisation et extraction de caractéristiques

Comme pour un cerveau humain, le réseau de neurones reconnaît un concept à force de lui montrer de nombreux exemples variés. Cet apprentissage se réalise grâce à l’acquisition et la mémorisation de données, l’extraction et l’ajustement de caractéristiques. Des exemples seront expliqués en deuxième partie de l’article le mois prochain.

Architecture et réseaux de neurones (CNN). Source : Google

 

Une nouvelle forme d’encodage d’image

Bien que les ordinateurs aient appris à étiqueter les images, à les classer et à les comprendre comme les humains grâce aux réseaux de neurones convolutifs, les algorithmes utilisés pour faire fonctionner Google Lens vont encore plus loin.

Basées sur l’embedding, une forme d’encodage et d’apprentissage d’image, les méthodes utilisées deviennent de plus en plus poussées : apprentissage à la fois de l’invariance et utilisation de la similarité. Le problème n'étant pas de coder les algorithmes, mais bien d'entraîner les réseaux de neurones. Ces méthodes seront, elles aussi, expliquées en deuxième partie. Elles donnent de meilleurs résultats que les approches traditionnelles. Pour finir, elles offrent la possibilité de réduire la tâche d’apprentissage, de toujours mieux exercer les réseaux de neurones et de mieux “reproduire” les comportements humains à grande échelle.

En combinant l'image et le texte, les systèmes de Google deviennent capables de comprendre que des sujets sont liés. Lens extrapole et vous plonge dans une autre forme de recherche majoritairement alimentée par l'IA.

Le plus grand défi réside dans la capacité de différencier les représentations visuelles pour un ordinateur, ce qui n'est pas une tâche facile. Comme le mentionne Sundar Pichai (PDG de Google) dans la conférence de Google I/O du 11 mai 2022 : « la technologie a le pouvoir d’améliorer la vie de chacun. Il suffit de la créer ». Google Lens en fait désormais partie.

Conclusion

Google Lens est le résultat d’une volonté clairement exprimée par Prabhakar Raghavan, vice-président chez Google et responsable des produits Google Search, Assistant, Geo, Ads, Commerce et Payments : « rendre la recherche plus naturelle et plus utile que jamais » (source conférence de Google I/O du 11 mai 2022). Google Lens tente de répondre à cette volonté, celle de redonner du sens et un nouvel élan à nos manières d’utiliser Google.

Que ce soit pour les utilisateurs lambda ou les professionnels du marketing digital, ce nouvel affichage ouvre une brèche dans l’écosystème du référencement traditionnel. Le mobile first devient progressivement l’AI first. Il laisse aussi la place aux SEO qui souhaitent travailler d’une façon plus poussée et plus subtile leur référencement, que ce soit sur Google Images, Google Maps, Google Shopping ou encore Google Lens. Ils devront désormais s’adapter aux nouvelles données imposées par la société Alphabet, celle de rendre la recherche à la fois interactive et immersive.

Le mois prochain, vous comprendrez comment Lens, à partir d’une simple photo, vous amène dans de nombreux univers différents. Extrapolation, entraînement des algorithmes et résultats obtenus. La recherche d’informations est promise à de nouveaux horizons basés sur l’utilisation de l’image à grande échelle. L'appareil photo de votre smartphone est peut-être en phase de devenir votre prochain clavier...

Stéphanie Barge, créatrice du site Passion Référencement.