La façon d’utiliser nos téléphones change. Comme en témoigne l’application Google Lens, nous sommes en phase de basculer dans l’ère du visuel et de la recherche multiple. Comment, à partir d’une simple photo, Google Lens trouve-t-il une réponse à votre requête imagée ? Comment vous emmène-t-il dans de nombreux univers différents ? Quelles sont les limites de l’extrapolation et de la pertinence des résultats obtenus ? Et pourquoi, malgré une avancée importante des technologies comme l’intelligence artificielle, le SEO dispose probablement de beaux jours devant lui ? Explications.
Dans la première partie de cet article le mois dernier, nous avons expliqué comment notre manière de rechercher l’information tendait à se modifier avec l’arrivée d’une application comme Google Lens. Cette deuxième partie explique plus en profondeur son fonctionnement ainsi que les nouvelles technologies dont elle est issue.
Google Lens offre de nouvelles opportunités de recherche
La manière dont nous utilisons les objectifs de nos smartphones n'est pas la seule chose qui change : la technologie derrière nos appareils évolue également. À mesure que le matériel, les logiciels et l'intelligence artificielle continuent de progresser, force est de constater que Google Lens va bien au-delà de la simple prise de photos : nouvelles manières d’effectuer nos recherches d’informations, copie et traduction de textes, recherche d’images par similarité, exploration de scènes ou transformation des images en texte. Le but étant de toujours « rendre la recherche plus naturelle et intuitive », dixit Sundar Pichaï (source : Search On 2022).
Google Lens : le « Shazam » des images et du texte
Google Lens est né de la volonté d’aider à rechercher ce que vous voyez et d’explorer différemment le monde qui vous entoure. Quoi de plus sympathique que de trouver le nom d’une plante inconnue dans votre jardin ou le nom d’une race de chien grâce à l’objectif de votre caméra ? Quoi de plus aguichant que de retrouver une information à partir d’une capture d’écran, de parcourir Google Maps grâce à un logo ou de scanner une étiquette de vêtement ?
Ce sont ces petits plus que Google Lens vous apporte déjà, mais pas seulement. Comme mentionné dans la première partie de cet article, le but de l’application Google Lens reste d’effectuer une recherche sans mot-clé, basée sur l’image. Mieux encore. Cette application ouvre de nouvelles possibilités : rendre la recherche interactive et immersive. Lens, couplé à la recherche multiple, vous donne l’opportunité d'ajouter une requête textuelle (ou vocale) supplémentaire à votre recherche image (disponible aux USA actuellement). L’application vous permet aussi de copier et coller du texte, d'agir avec les mots que vous voyez, et ce, dans toutes les langues (présentes sur Google Translate).
Comment Lens transforme les images en texte ?
L'application Lens peut discerner le texte et le copier pour une recherche ou le traduire dans de nombreuses langues, sans avoir à l’écrire. Pour les personnes en situation de handicap visuel, Lens peut lire le texte à haute voix à l'aide de Google Text-to-Speech (TTS). C'est assez impressionnant :
Donner à Lens de nouvelles capacités de lecture. Source : Google Research
Vous pouvez également prendre en photo une carte de visite, copier le texte, l'ajouter à vos contacts ou ouvrir directement Google Maps. Cette fonctionnalité est disponible en France.
OCR : Reconnaissance optique de caractères
Pour que Google Lens apprenne à lire, la société Alphabet a développé un moteur de reconnaissance optique de caractères (OCR) et l'a combiné avec notre compréhension du langage, aidé du Knowledge Graph. Toutes ces fonctionnalités demeurent possibles grâce à l’entraînement des algorithmes sur des modèles d'apprentissage automatique (réseaux de neurones artificiels notamment). Ces derniers apprennent à distinguer les structures de texte de la même manière qu'un humain le ferait : analyse des phrases et paragraphes, blocs et colonnes.
Google Lens peut copier et traduire le texte. Source Google Cloud : Détecter le texte dans les images
Pour corriger les erreurs de lecture et améliorer la compréhension des mots, Lens utilise le contexte des mots environnants. Cependant, comme pour un œil humain, il reste difficile pour une machine de faire la distinction entre des caractères similaires comme la lettre « o » et le zéro. Lens emploie des systèmes (ou des modèles d’apprentissage automatique) lui permettant de discerner les caractères et la structure des images. Pour finir, Lens utilise également le Knowledge Graph. Celui-ci fournit des indices contextuels et identifie, par exemple, les noms propres.
Algorithmes de traduction neuronale
Lens emploie les algorithmes de traduction automatique neuronale (NMT) de Google Translate pour interpréter des phrases entières et donner des résultats les plus pertinents possible. Quant aux erreurs de résultats, elles peuvent être dues aux distorsions de textes, à la qualité des photos et aux angles de prise de vue. N’oubliez pas que Google Lens reste le résultat de nombreux algorithmes. Les technologies employées offrent déjà des améliorations considérables.
Comment Google Lens trouve une réponse à votre requête imagée ?
Alors, comment Lens transforme-t-il les pixels de votre appareil photo pour répondre en image à l’objet que vous voyez, par exemple un Shiba Inu ? La réponse, comme vous l'avez peut-être deviné, est l'apprentissage automatique, le Knowledge graph et la vision par ordinateur.
Une attention particulière portée aux détails
Si vous utilisez Lens, vous pouvez apercevoir des petits points blancs qui scintillent. Lorsqu’il effectue une recherche, il porte une attention particulière aux détails. Il remarque les formes, analyse les contours, les ombres et les couleurs dans les images.
Analyse des détails. Source Blog Google : L'ère de l'appareil photo
Plus simplement, Lens compare les objets dans votre photo en repérant les similitudes et les pertinences des objets en question. Mais au lieu de comparer deux images ensemble, Lens compare votre photo avec des millions d’objets dans ses bases de données. Après avoir analysé votre image, Lens génère souvent plusieurs résultats possibles. Il les classe selon leur degré de pertinence.
Si une image ne figure pas dans sa base de données, Lens va devoir utiliser d’autres méthodes. Par exemple, trouver une image qui ressemble à une autre image, catégorisée et étiquetée, ou trouver d'autres images grâce à l’extraction de caractéristiques aidée de la vision par ordinateur.
Des avancées considérables grâce à l’IA
Pour que la recherche avec Google Lens fonctionne en commettant le moins d’erreurs possibles, les ordinateurs doivent apprendre une grande quantité d'exemples, et ce, de très nombreuses fois. Pour apporter de moins en moins de modifications et minorer les puissances de calcul, de nouvelles avancées matérielles et logicielles sont utilisées, dont l’intelligence artificielle :
- Label/Entity Detection distingue l’élément dominant d’une image.
- Optical Character Recognition associe le texte à une photo ainsi que la langue utilisée.
- Safe Search Detection identifie des contenus inappropriés.
- Facial Detection pour repérer les visages.
- Logo Detection analyse les logos de marques et des produits dans les images.
- Landmark Detection associe un endroit (paysages et espaces à travers le monde) et les structures façonnées par l’homme.
Lens utilise votre position (avec votre consentement) pour générer des résultats plus précis. Cela lui permet d’identifier des lieux et des points de repère plus facilement. Si vous êtes à Moscou, l'application comprendra qu'il est plus probable que vous effectuiez une recherche d’informations sur la Cathédrale Saint-Basile plutôt qu'une autre structure, à l'aspect similaire ailleurs dans le monde.
Google Lens utilise ici Landmark Detection. Source Google Cloud : Détecter les points de repère
Rendre la machine “insensible”
La complexité pour les algorithmes de Google Lens reste de reconnaître les petites modifications insignifiantes pour vous, mais déroutantes pour un ordinateur. Ainsi, un chapeau de cowboy sur un chien peut fausser les résultats et créer des erreurs de correspondances visuelles. Comme le dit la chercheuse et Googleuse Maya Gupta : « rendre la machine insensible aux modifications significatives reste un équilibre que nous essayons encore de trouver » (source : Google Machine Learning Q&A).
Exemple d’erreur de correspondance visuelle. Source Blog Google : Apprentissage automatique
Google Lens et erreurs de correspondances visuelles
En fonction de la qualité de la photo, de l’éclairage et de la présence d’ombres, la pertinence des résultats affichée par Lens peut être compromise. En effet, certains paramètres peuvent affecter les formes, les couleurs et les contours qui à leur tour affectent les données avec lesquelles Lens doit travailler.
Même si nous aimons penser que nos ordinateurs « réfléchissent » et « comprennent » comme nous, en réalité, ce n'est pas ainsi qu'ils fonctionnent. Ils sont simplement exceptionnellement doués pour se souvenir des choses qu’ils ont apprises et faire des calculs très, très rapidement.
Pour comprendre ces « erreurs » de correspondances visuelles, il semble nécessaire de comprendre que, pour un ordinateur, apprendre une image, la reconnaître à l’endroit, à l’envers, le jour ou encore la nuit dans un décor inhabituel, n’est possible que grâce à des apprentissages spécifiques.
Apprentissage image et augmentation des données. Source : Medium
En effet, les ordinateurs ont plus de mal à saisir l’information comme nous le faisons. Là où nous voyons des formes et des objets, la machine « voit » une suite de nombres. Les algorithmes et les technologies permettent désormais aux moteurs de recherche de travailler à la fois sur les images, leurs contenus descriptifs et sur les textes. On parle de cross-modalité (source Sylvain Peyronnet, les technologies utilisées dans la recherche d’image).
Comment un ordinateur voit une image. Source : DeeplyLearning
Gagner en pertinence avec l’intégration d’images
L’intégration d’images (ou image embeddings) donne la possibilité aux ordinateurs d’extraire les informations importantes d'une image et de facilement comparer les données qu'elle contient. Elle intégre des données dans un format compréhensible pour les algorithmes d'apprentissage automatique.
Celles-ci occupent peu de place en mémoire, peuvent être redimensionnées, et ce, sans perte d’informations. Pour analyser les images, les ordinateurs doivent les transformer en une représentation plus appropriée. L'insertion d'images est une représentation vectorielle d'une image, ce qui permet à des images similaires ayant un profil vectoriel semblable d'être utilisées.
Apprentissage image et construction de réseau neuronal profond. Source : Github
Cette technique d’extraction s’utilise pour de nombreuses tâches telles que la classification. En récupérant les informations, il devient possible de :
- Récupérer une image à partir de ses caractéristiques (rechercher un chat à partir de photos de ses oreilles, sa taille ou la couleur de ses poils) ;
Extraction de caractéristiques d'une image. Source : Inside Machine Learning
- Effectuer une recherche d’image par similarité.
- Former des groupes d’objets semblables et regrouper des informations sémantiquement similaires, et ce, en plusieurs langues (source : Image search using multilingual text : a cross-modal learning approach between image and text).
Cette technologie joue un rôle central dans de nombreuses applications dont Google Lens. Elle est également utilisée en recommandation de produits, en identification faciale ou dans le domaine médical.
C'est l'une des raisons pour lesquelles les intégrations d’images sont utilisées en vision par ordinateur. Elles sont très faciles à être réutilisées une fois générées.
Reconnaissance d’images à grande échelle
Le but de la société Alphabet est d’aller plus loin et plus vite pour construire un seul modèle universel d'intégration d'images capable de représenter des objets dans plusieurs domaines.
La reconnaissance et l’apprentissage des objets dans des environnements réalistes présentent une variabilité considérable pour Google Lens.
Source : Google AI Blog Transformateurs pour la reconnaissance d'images à grande échelle
Pour apprendre à toujours mieux reconnaître les images que vous lui soumettez, il est nécessaire d'utiliser des ensembles d'apprentissage beaucoup plus grands, plus rapides, nécessitant moins de temps d’apprentissage. En utilisant ces approches, il est désormais possible d'entraîner un réseau de neurones de manière presque autonome, lui permettant de déduire les particularités d'une image spécifique sans avoir à construire un grand ensemble de données ou à lui fournir des étiquettes précisément attribuées.
Et le SEO dans tout ça ?
Comment la recherche multiple de Google Lens affecterait-elle le référencement ? Les algorithmes de Google évoluent constamment, ce n’est pas une révélation. En revanche, l'application Google Lens et le multisearch modifie notre façon de rechercher une information : utiliser le texte et les images en même temps. Google Lens n’en est qu’à ses débuts, mais cette application est promise à de nombreuses améliorations avec la recherche multi modale et l’IA.
On peut penser que Google intégrera de plus en plus la recherche visuelle avec ses autres produits, comme Google Maps et Google Shopping. Seule une inconnue subsiste : le comportement des internautes et des mobinautes. Seront-ils conquis par la recherche visuelle ? Ou bien resteront-ils sur leurs habitudes et les dix liens bleus affichés sur Google Search et la recherche visuelle connaîtra-t-elle le même échec que la recherche vocale, par manque d'intérêt de ses utilisateurs ?
Actuellement, il semble difficile d’optimiser un site pour l’IA ou pour la recherche multimodale… Les résultats de Google Lens proviennent, pour le moment, d'autres produits de la société Alphabet comme la recherche Google, Google Maps ou Google Shopping. Il semble légitime de penser que les résultats affichés dépendent des algorithmes de classement de ces produits. C’est pourquoi, continuer d’indexer et d’optimiser les images s’avère plus que nécessaire. Insérer des images, créer des contenus pertinents et accessibles à tous, reste une pratique sensée, voire avant-gardiste.
Conclusion
Tous les référenceurs francophones ou américains le disent : priorisez les piliers du référencement, technique, contenu et liens. Le référencement des images, l’accessibilité numérique, l’optimisation mobile, les balises classiques (balise Title et Hn), sans oublier la stratégie de contenus, prennent une part grandissante dans les stratégies SEO. Google ne cesse de le répéter : créez un contenu utile, pertinent et de haute qualité. Comme en témoigne la mise à jour de Google Helpful Content update d’août 2022, les recommandations de la société Alphabet sont claires : privilégiez les contenus axés sur l’humain et évitez d’écrire pour les moteurs de recherche.
À l’avenir, la recherche multiple peut nécessiter de nouvelles actions en référencement. Google Lens fera, sans doute, partie de nos futurs usages. Il reste nécessaire de demeurer prudent, et de remettre l’humain sur le devant de la scène, malgré une utilisation prépondérante de l’IA, qu’on le veuille ou non. Si vous écrivez et optimisez du contenu de qualité, que les humains comprennent la pertinence de vos informations, les algorithmes et les moteurs de recherche basés sur l’IA le comprendront également.
Stéphanie Barge, créatrice du site Passion Référencement.