La notion de « contenu généré automatiquement par l'Intelligence Artificielle » commence à envahir nos écrans. Mais est-ce un fantasme total ou une réalité plus ou moins effrayante ? Et comment Google pourra-t-il faire face à une déferlante quasi infinie de tels contenus à l'avenir ? Pour en savoir plus, nous avons posé quelques questions à Sylvain Peyronnet, grand spécialiste du domaine, que nos lecteurs connaissent bien...

 

Sylvain, les lecteurs d'Abondance et de Réacteur te connaissent bien, on va donc passer les préliminaires de présentation... L'objectif de cet interview est de se poser la question suivante : « Comment Google se prépare-t-il à l'invasion de contenus générés automatiquement via des algorithmes de type GPT-3 dans les années qui viennent ? » D'où, dans un premier temps, cette question : peux-tu nous expliquer en quelques phrases où en sont ces technologies début 2022 ? Quel est l'état de l'art de la création automatique de contenus ?

Je vais commencer par remonter un peu le temps. Cela fait maintenant quelques années que les gros « opérateurs » de l’IA ont entamé un cycle de recherches sur le sujet de l’apprentissage de modèles de la langue de manière un peu générique (en pratique faire de l’apprentissage non supervisé pour apprendre un modèle générique, qui peut être ensuite rendu spécifique en faisant un apprentissage supplémentaire supervisé). C’est l’article scientifique Attention is all you need (https://arxiv.org/abs/1706.03762) qui va débuter ce cycle, avec la définition d’une architecture de réseau de neurones basées sur le mécanisme d’attention : le transformer.

Assez rapidement est alors sorti GPT-1, un premier modèle basé sur cette idée. Le modèle s’est montré plutôt pertinent, et capable de faire des tâches en zero-shot : résoudre des problèmes sans avoir vu d’exemples spécifiques du problème et de ses solutions.

Avec GPT-2 openAI, on a augmenté la taille du modèle et on a pu alors voir des premiers bons résultats émerger (au sens de bon pour l’humain). Le modèle restait cependant assez faible en termes de résumé automatique par exemple. Simultanément, d’autres modèles similaires sont sortis, notamment Megatron (NVidia) et Turing NLG (Microsoft).

Mais ce qui a totalement changé la donne, c’est GPT-3, qui en passant à une certaine taille critique, et avec plusieurs améliorations, montre actuellement des résultats assez impressionnants pour plusieurs tâches du NLP, dont la génération de textes.

GPT-3, c’est le modèle qui est caché derrière la plupart des outils de génération comme jarvis.ai et bien d’autres.

OpenAI prépare déjà le futur avec un modèle GPT-4 500 fois plus gros, et évoque même déjà GPT-5… Bien entendu, les autres opérateurs ne sont pas en reste, avec par exemple un modèle commun Megatron-Turing NLG environ 3 fois plus gros que GPT-3, ou encore le modèle de AI21 Labs : jurassic-1 Jumbo (qui est un poil plus gros que GPT-3, environ 2% plus gros).

Même les plus petits sont de la partie : nous avons par exemple en partenariat avec la startup lighton des modèles propriétaires qui tournent dans yourtext.guru, avec dans les prochaines semaines la mise en place de nouveaux modèles de grande taille en anglais et français.

Voilà par exemple ce que peuvent générer de tels modèles (la question est ce que l’humain a saisi) sur deux exemples (naked mole rat est le nom anglais du rat-taupe nu) :

Sam Altman (le CEO de openAI) semble penser (https://analyticsindiamag.com/gpt-4-sam-altman-confirms-the-rumours/) que GPT-5 serait capable de passer le test de Turing, mais cela reste à voir, et c’est pour dans quelques années au mieux, faute de capacité de calcul suffisante. Car c’est le dernier point, le patron de Cerebra (https://cerebras.net/) a expliqué récemment que l’entrainement d’un modèle comme GPT-4 n’était pas encore à l’ordre du jour, en raison du coût calculatoire. Il y a donc eu un effet d’annonce, mais la maturité technique n’est visiblement pas encore suffisante.

 

Google, aujourd'hui (et demain), a-t-il les moyens de reconnaitre un contenu généré automatiquement d'un contenu réellement écrit par un être humain ? Et si oui, comment cela ?

Il y a en fait deux questions disjointes : est-ce qu’on peut le faire, et est-ce qu’on peut le faire de manière industrielle ?

Je réponds d’abord à la première question, et la réponse est oui. Il y a déjà une littérature scientifique sur le sujet et qui est sans ambiguïté. Je ne vais pas expliquer chacun des articles en détail (https://par.nsf.gov/servlets/purl/10212709, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8049133/, etc.), mais tous utilisent des caractéristiques textuelles comme la diversité du vocabulaire, le niveau de répétition, la prédictibilité des mots et bien d’autres choses encore pour créer des classifieurs qui décident sur le contenu pour détecter s'il est humain ou fait par une machine.

La figure ci-dessus est  tirée de la première référence, on voit clairement que l’humain (tout à gauche en vert) n’est pas (trop souvent) « recouvert » par les résultats des algorithmes, cela veut dire qu’on peut repérer l’humain face à la machine. La plupart des recherches utilisent encore des classifieurs un peu naïfs et pourtant on est déjà à plus de 80% de détection, même face aux meilleurs modèles (ça montre à 92% pour les modèles plus anciens). On peut donc dire que détecter du contenu écrit par une IA, c’est faisable.

Maintenant, la deuxième question est celle de la faisabilité industrielle. Et là c’est une toute autre histoire… Je pense personnellement que Google peut le faire si cela rentre dans la stratégie du moteur. Mon intuition sur ce sujet est guidée par l’histoire de l’algorithme Panda. Panda c’est la mise en place à très grande échelle de classifieurs sur la totalité de l’index du moteur, en 2011. Ce qui a rendu Panda possible à l’époque, on l’a oublié mais c’est une découverte par Navneet Panda (qui donna son nom au projet) d’une méthode pour faire en parallèle massivement et efficacement de la classification (https://www.wired.com/2011/03/the-panda-that-hates-farms/). Industrialiser un process de détection à l’échelle de l’index est donc sans doute faisable sans souci chez Google, car on parle du même type d’algorithme, finalement.

On notera d’ailleurs que si vous demandez l’insertion d’un site dans Google Ads alors qu’il contient du contenu généré uniquement, vous vous ferez sûrement refuser (j’ai fait le test), ce qui signifie que Google sait a priori faire la dinstinction si nécessaire.


Est-ce le cas des autres moteurs comme Bing, Brave et autres ?

De fait ce n’est qu’une question de coût. Bing peut donc évidemment le faire, pour les autres opérateurs je ne saurais le dire.


Les récentes difficultés pour indexer certains contenus sur Google ne sont-elles pas un signe que le moteur de recherche commence déjà à filtrer en entrée certaines pages, certains types de contenus considérés comme de trop faible qualité (contenus de PBN, articles de plateformes de ventes de liens et donc contenus générés automatiquement) pour se « rôder » et se préparer à un prochain raz-de-marée ?

A mon sens, sur l’indexation il y a probablement plusieurs phénomènes. Un retard à l’indexation qui une fois réglé aboutit à une page qui reste indexée n’est pas du tout la même chose qu’une page qui ne s’indexe jamais, ou qui, si on force cette indexation va être désindexée à nouveau.

Les nouveaux modèles (BERT, SMITH, GPT3, etc.) ont un coût opérationnel assez lourd, et donc un retard à l’indexation pourrait permettre de s’expliquer par cette raison. Mais effectivement si une page n’est jamais indexée ou repart aussi vite qu’elle est venue c’est sans doute parce qu’elle n’est clairement pas qualitative au niveau de la réponse qu’elle apporte aux internautes. Est-ce que le moteur utilise une méthode de filtrage via le NLP, ou via le monitoring utilisateur ? C’est à l’heure actuelle impossible à dire sans faire des tests dédiés.

Ceci étant, Google finira par déployer un correctif pour endiguer le tsunami des contenus et liens abusifs. Pourquoi ? parce que ça fonctionne pour faire ranker des contenus moins bons, et que donc à un moment, ce sera un réel problème pour les utilisateurs et donc par ricochet pour le moteur.

Souvenez-vous de Caffeine, de Panda, de Penguin, etc. La foudre finit toujours par tomber.


Selon toi, ces technologies de création automatique de contenu sont-elles une bonne chose ? Et, quelque part, le SEO n'a-t-il pas plus à craindre d'elles qu'autre chose ?

En premier lieu, il faut voir que toutes ces technologies ne sont que marginalement intéressées au SEO. Leur utilité est largement ailleurs : résumé automatique, enrichissement, compréhension des textes, traduction de très bonne tenue sont des cas d’usage qui ont un impact très fort et qui à eux seuls justifient pleinement la légitimité de ces méthodes.

Concernant la génération, là aussi c’est plutôt une bonne chose : écrire automatiquement du contenu sur de la donnée au kilomètre c’est le premier pas vers des restitutions vocales par exemple, vers les chatbots, etc. La génération de contenu de moyenne qualité e au kilomètre est un risque, mais qui est finalement assez marginal et qui changera peut-être la manière dont les moteurs de recherche gèrent leur index.

Concernant le SEO, je ne crois pas que cela soit un vrai problème dans le fond. Aujourd’hui on est au prémices, et on voit que le contenu qui est généré ne trompe pas vraiment l’humain. Il n’est utile que par sa présence dans l’index (pour meubler des pages dont la seule raison d’exister est le SEO) et ce n’est finalement que le bout d’un chemin vers des contenus de faible qualité. À un moment, soit le contenu généré sera devenu légitime, et donc d’un point de vue qualité il n'y aura plus aucun problème, seuls les rédacteurs web auront matière à se plaindre, soit on ne bougera pas en qualité et les moteurs finiront par frapper fort pour éliminer le problème.

Et pour terminer : est-il aujourd'hui possible de créer des contenus « de qualité » (avec toute la subjectivité que ce terme comporte) grâce à l'intelligence artificielle ?

Oui c’est possible. En premier, c’est possible sur les contenus présentés sous forme de template, de modèle, comme par exemple des résultats d’élections ou des comptes-rendus sportifs. Mais surtout, c’est possible dans le contexte d’une approche hybride entre l’humain et l’algorithme.

En réalité, c’est déjà ce qui se passe lorsqu’un rédacteur utilise un bon outil d’aide à la rédaction : la qualité du résultat humain+machine est supérieur à celle de l’un ou de l’autre pris indépendamment.

A l’heure actuelle, je vois ces outils comme un accélérateur de rédaction pour l’humain : les phrases « bateau » sont écrites de manière autonome, et des informations nouvelles peuvent être apportées par le modèle.

Tu soulignes un point intéressant : qualité, qu’est-ce que cela veut dire ? les études sur le spam de contenu montrent que, indépendamment de la pertinence des informations présentes dans un texte, ce qui donne l’impression de qualité à un être humain, c’est le suivi de critères statistiques qui correspondent aux textes moyens écrits par des humains. Or, les modèles de la langue ne sont conçus que dans un but : correspondre à ces critères statistiques.

Hors pertinence des informations, les modèles convergeront donc tous vers des textes qualitatifs. In fine, ils se différencieront les uns des autres par la qualité (et quantité) de la donnée d’apprentissage, qui permettra une meilleure pertinence (mais nous n’y sommes pas encore).

 

Et d'ailleurs, quelle est ta définition de l'intelligence artificielle ?

 

Je montre dans la figure ci-dessus la proposition de sujet pour le fameux séminaire de Dartmouth durant lequel le mot a été inventé. Il s’agissait alors de trouver comment des machines pouvaient résoudre des problèmes (d’apprentissage ou reliés à l’intelligence) ordinairement réservés à des humains, et comment elles pouvaient s’améliorer elles-mêmes.

On voit que c’est très large, et effectivement, techniquement, l’intelligence artificielle c’est une discipline scientifique qui brasse très large, depuis l’apprentissage jusqu'à la vision par ordinateur ou le planning (ce qu’on peut simplifier par « faire des emplois du temps ^^ »). Personnellement je n’utilise jamais le terme d’IA, sauf pour communiquer avec le grand public (comme ici).

Je ne vais pas rentrer dans une grande discussion philosophique, mais il faut disjoindre la capacité à résoudre des problèmes, la capacité à simuler l’humain pour cette résolution, la capacité à transférer ses connaissances (ce que l’on appelle le transfer learning : si je sais utiliser une masse, je sais sans doute assez facilement apprendre à utiliser un marteau) et la conscience qu’on a de soi-même et de ses capacités de résolution.

Aujourd’hui on voit qu’on avance très vite vers des outils mathématiques et techniques qui nous permettent de résoudre bien mieux que des humains un grand nombre de tâches. On trouve cela fascinant et dangereux parce qu’il s’agit « d’intelligence » et que comme on ne sait pas bien définir ce concept, on craint d’être dépassé par la machine qui deviendra plus intelligente que nous. C’est ça que le grand public appelle intelligence artificielle, et pour l’instant ce n’est guère qu’un (très ancien) mythe.

 

Merci Sylvain pour tes réponses.

 

Interview menée par Olivier Andrieu Rédacteur en chef de la lettre "Réacteur".  Sylvain Peyronnet est concepteur de l'outil SEO Babbar.