Les Fake News, ou articles colportant de fausses informations pour de nombrueses raisons dont la désinformation, ont défrayé la chronique depuis quelques mois et notamment les dernières élections américaines. Les grands moteurs (Google) et réseaux sociaux (Facebook) peinent aujourd'hui encore à trouver des solutions algorithmiques contre ce fléau. L'humain restera-t-il le seul rempart pour lutter contre ces tentatives, et ce pour quelques années encore ?

Par Philippe Yonnet


Google et Facebook sont depuis des mois sur la sellette, accusés d’avoir contribué de manière massive à la diffusion d’informations erronées, les fameuses « fake news ». La diffusion de fausses nouvelles n’est pas une pratique récente, loin s’en faut. L’histoire est remplie de tentatives de manipulation des opinions par la diffusion d’informations trompeuses ou de propagande. Si le néologisme  « fake news » a été inventé et si le phénomène a autant d’écho aujourd’hui, c’est parce que la diffusion de fausses nouvelles a été facilitée par Internet, les moteurs de recherche et par l’explosion des réseaux sociaux, et parce que certains groupes se sont engouffrés dans les failles de ce nouveau contexte et les exploitent à présent de façon industrielle.

Le problème, nous allons le voir, est que Facebook ou Google vont cette fois-ci avoir du mal à répondre à ce nouveau défi en inventant de nouveaux algorithmes. Pour une fois, c’est un problème posé à tout l’écosystème qui produit, filtre et diffuse l’information. Google, dont la devise initiale était de « mettre de l’ordre dans l’information » a cette fois-ci besoin qu’on l’aide à le faire efficacement.

Les différents types de « fake news »

Sous le vocable « fake news », on regroupe des contenus parfois très différents. La motivation de leurs auteurs en particulier peut être variée.

Le contenu fabriqué « ad hoc »

C’est évidemment le type de « fake news » le plus critiqué. Il s’agit de contenus conçus pour tromper le lecteur, avec un objectif clair de manipulation. Les auteurs de ces contenus savent pertinemment que les informations diffusées sont fausses.

Le contenu détourné

Plus subtil, il reprend des informations authentiques, mais l’auteur glisse quelque chose de manipulé au sein d’un texte ou d’une image par ailleurs véridique.  Ce type de fake news est insidieux, car la tromperie n’est pas toujours détectée par les observateurs, même bien informés.


Fig. 1. L’affaire de l’oreillette d’Emmanuel Macron est un bon exemple de contenu détourné : la photo originale a été légèrement retouchée pour laisser penser que le candidat portait une oreillette. A basse résolution, impossible de distinguer les photos authentiques des fausses. Mais en zoomant sur les photos originales, la vérité apparait : aucune oreillette n’est visible dans le pavillon du candidat

Les contenus signés par des imposteurs

Pour qu’une « fake news » soit considérée comme une information authentique, une tactique efficace, notamment sur les réseaux sociaux, consiste à se faire passer pour un journaliste reconnu, un média reconnu, ou la personne elle-même ou le groupe auquel on cherche à faire du tort.

Le plus simple est de créer un faux compte, mais certains vont jusqu’à hacker les comptes Facebook ou Twitter de leurs victimes, ou d’un média, pour diffuser leurs fausses nouvelles. Les dommages pour la réputation de leurs victimes peuvent être importants et irréversibles.


Fig. 2. En 2013, deux comptes de l’Associated Press ont été hackés, permettant aux perpétrateurs de diffuser des « fake news » à propos de soi-disant attentats à la Maison Blanche.

Les contenus satiriques ou parodiques

Il n’est pas rare de voir que des contenus créés à des fins satiriques ou parodiques soient repris par des sources dites « sérieuses » (en clair, des medias TV, radio, ou magazines). Dans ce cas, les auteurs ne cherchent pas à tromper leurs lecteurs habituels. C’est le manque de vérification de la part de journalistes ou de rédacteurs web qui entraine la diffusion d’une fausse nouvelle, et qui se retrouve habillée des attributs d’une information authentique.


Fig. 3. Un article du gorafi repris comme une information authentique par le journal « El Hayat », diffusé dans de nombreux pays arabes. Non, Marine Le Pen n’a jamais déclaré vouloir construire un mur entre l’Algérie et la France, la source était un article parodique du Gorafi prêtant à Marine Le Pen la volonté d’imiter Donald Trump.

Le détournement de contexte

Pour créer une information trompeuse, il n’est pas toujours nécessaire de « fabriquer » une information nouvelle. Recycler une information ancienne en en changeant le contexte (date, lieu, acteurs etc…) suffit à fabriquer une fausse information qui a toutes les apparences d’une vraie. C’est d’autant plus vrai lorsque l’on reprend une photo et une vidéo, en annonçant qu’elles décrivent un évènement, alors qu’en réalité, elles ont été prises dans un tout autre contexte.


Fig. 4. Cet article de Sputnik News utilise une photo qui n’a pas été prise en février 2017, date supposée des évènements décrits dans l’article. Sputnik (le nouveau nom de l’agence russe RIA Novosti) est souvent accusée de relayer des fake news.


Fig. 5. Un autre exemple avec le site Breitbart (ouvertement pro Trump) qui ressort une image de foule prise à l’occasion d’un évènement de la NBA à Jacksonville pour illustrer la « foule » présente à l’occasion d’un meeting de Trump dans cette ville.

La pratique des  « liens factices » (false connections) et des clickbaits

Certains auteurs ne veulent pas créer des contenus pour des motifs politiques, idéologiques, religieux … mais simplement pour gagner plus d’argent. Ils créent alors des articles qualifiés de « clickbaits » (des « appâts à clics ») dont le titre, ou les illustrations sont trompeuses pour amener les internautes à cliquer pour afficher le contenu.

Ces « clickbaits » constituent une forme de spam (et ils polluent aussi les résultats des moteurs de recherche qui cherchent depuis peu à détecter ces pratiques), mais peuvent être également considérés comme des contenus trompeurs quand ils induisent les lecteurs en erreur.


Fig. 6. Un exemple de titre de type « clickbait ». Non, cette jeune fille n’avait pas un « Alien » dans son ventre. Elle était juste…  enceinte, et ses parents l’ignoraient.

Le « moteur de réponses » et le problème de la véracité des faits

Alors que la production de « fake news » est en expansion,  un moteur comme Google a « muté » en parallèle en « moteur de réponses ». L’algorithme de Google n’était pas plus capable il y a dix ans de trier entre informations authentiques et « fake news ». Mais les contenus produits étaient plus fiables, la proportion de propagande sur le net était plus réduite. Qui plus est, si une information trompeuse se glissait parmi les dix liens bleus, il y’avait souvent 9 autres pages qui contenaient la « vraie » information.

Mais aujourd’hui, avec le fonctionnement en moteur de réponses, poussé au paroxysme par les interfaces vocales ou Google Assistant, mais aussi avec la grande visibilité donnée à la position zéro, Google pousse le plus souvent une réponse unique, un « fait » unique.

Si le fait renvoyé lors d’une requête d’un internaute ne s’avère pas authentique, c’est la catastrophe. Or cela arrive souvent, et plusieurs cas ont défrayé la chronique ces derniers mois.


Fig. 7. En novembre 2016, le bloc « in the news » a fait apparaître en position zéro sur Google US une fausse information : non, Trump n’a pas remporté le vote populaire (il est arrivé second en nombre de voix derrière Hillary Clinton).


Fig. 8. L’absence de mise en contexte et le choix d’une réponse unique crée de nombreux « fails » sur des outils comme Google Home. Quand on demande à l’outil de domotique de Google si Obama est en train de planifier un coup d’état, Google Home répond par une « fake news » : oui Obama prépare un coup d’état communiste !

Les « fake news » sont devenus un moyen de manipulation politique

Depuis des années, les algorithmes des moteurs de recherche comme Google, mais aussi ceux des outils sociaux comme Facebook reposent avant tout sur une notion de « popularité » pour choisir les contenus à mettre en avant. Sauf que ce n’est pas parce qu’un contenu est populaire qu’il contient des informations vérifiées, non manipulées, authentiques.
Et pour des groupes motivés, il est facile de « duper » les algorithmes en faisant croire que des « fake news » sont populaires.

Sur les outils sociaux, la création de faux comptes permet de faire monter artificiellement les notes des comptes qui diffusent ou relaient les fake news. L’utilisation de bots, et le recours à des entreprises proposant des « faux clics » est également devenu fréquent.


Fig. 9. Le profil de « likes » de la page Facebook de Trump est suspect : des pics de Like proviennent d’Inde, de Malaisie, ou des Philippines. La page a-t-elle été dopée par des bots, ou des achats massifs de « Likes » ?

Sur Google, la création de PBN, de réseaux de liens, ou de galaxies de sites produisent les mêmes effets. Mais sans faire appel à des techniques sophistiquées, l’effet de « clique » produit les mêmes résultats. « Clique » dans ce contexte fait allusion à un groupe qui se ligue pour atteindre un résultat. Si un groupe de personnes important se mobilise pour « booster » un contenu à l’aide de liens créés par le groupe (ou de « likes » ou de retweets ) , il aura toutes les chances de donner une grande visibilité à ces contenus sur Internet. Ce mécanisme est connu depuis longtemps, il est derrière les Google Bombings que l’on connait depuis 15 ans.

Les groupes d’activistes politiques se sont rendus compte du potentiel de ces techniques, et commencent à les utiliser de manière industrielle. Certains ont également accusé des services étrangers de vouloir manipuler les élections américaines en 2016, et plus récemment, les élections en Europe, en utilisant ces méthodes.

Les solutions pour détecter les fake news

Le phénomène des « fake news » fait l’objet de recherches universitaires, notamment à Harvard et à Stanford. Un congrès rassemblant les chercheurs spécialisés dans ce domaine a notamment eu lieu en février à Harvard.

Le consensus dégagé lors de ce congrès est qu’en l’état actuel des connaissances, seule quatre pistes existent pour enrayer ce phénomène :

  1. Identifier aux yeux des utilisateurs les contenus comme étant des « fake news potentielles » (notons qu’à ce jour, les GAFA ne le font pas dans leur grande majorité…).
  2. Fournir des confirmations provenant de bords politiques compatibles avec ceux des lecteurs que les informations sont erronées (aux USA, les « fake news » sont très majoritairement le fait d’activistes ultraconservateurs. Les démentis de sources démocrates ou de la part de républicains modérés ne sont pas crus).
  3. Détecter les informations diffusées ou relayées par des comptes qui sont en fait des bots ou des « cyborgs ».
  4. Identifier les sources habituelles de « fake news »

Google réagit en encourageant les « fact checkers »

Google a ressenti très tôt le besoin de pouvoir compter sur des ressources fiables de « fact checking », pour travailler sur les points 1 et 2. La firme de Mountain View a donc favorisé début 2017 la création d’une initiative commune entre Google News Lab et First Draft (un réseau de fact checking réunissant de nombreux medias) : le site Crosscheck.

Il suffit que 2 médias sur les 37 participants (parmi lesquels Le Monde, l’AFP ou les Echos) étiquettent une information comme une « fake news » pour que l’info apparaisse sur le site Crosscheck.


Fig. 10. Le site Crosscheck : https://crosscheck.firstdraftnews.com/france-fr/.


Fig. 11. Les « fake news » nuisent aussi à la réputation des outils sociaux.
Facebook a réagi en achetant des pages entières de magazine pour montrer qu’il lutte contre le phénomène.

La solution peut-elle être algorithmique ?

Les critiques se sont abattues en cascade sur Google pendant toute l’année 2016, et la firme de Mountain View a déclaré travailler activement à des améliorations de son algorithme pour identifier et traiter le problème des fake news.

Déjà, on peut noter que les fake news sont mieux traités par des outils « éditorialisés », c’est-à-dire supervisés par des rédacteurs humains comme Google News, que par des systèmes entièrement automatisés. Cela explique pourquoi le bloc « In the News » est plus souvent à l’origine de la diffusion de « fake news » que les flux Google News apparaissant dans la recherche universelle. Face aux critiques, ce bloc a été suspendu sur Google US.


Fig. 12. Les « featured snippets » font aussi remonter des informations inappropriées ou trompeuses.

Ensuite, il est possible d’identifier les groupes de sites ou de comptes appartenant à une « clique », diffusant ou relayant des « fake news ». Les technologies permettant de le faire ont été imaginées voilà déjà une quinzaine d’années, pour lutter contre le linkspam. Mais ces outils génèrent beaucoup de faux positifs : elles peuvent étiqueter une source comme « peu fiable », alors que la source est digne de confiance. Le recours à des techniques comme l’apprentissage automatique peut permettre de limiter le nombre de ces faux positifs, mais l’exercice à ses limites.

Dans des cas récents qui ont défrayé la chronique, quand Google a « traité » le problème, certaines URL incriminées ont bel et bien disparu des résultats, mais pour être vite remplacée par d’autres, diffusant la même information erronée.


Fig. 13. Fin 2016, une polémique lancée par The Guardian a poussé Google à modifier son algorithme pour empêcher le site révisionniste Stormfront d’apparaître en tête des résultats sur les pages anglophone. Si Stormfront a bel et bien reculé dans les classements, des « fake news » continuent de fleurir sur de nombreuses requêtes de Google.

Il est clair que Google jusqu’à une époque récente, ne disposait pas d’un outil fiable permettant de traiter ce problème. En novembre 2016, un porte-parole de la firme de Mountain View déclarait que Google « travaillait activement sur le problème, mais que cela allait prendre du temps ».

Concrètement, Google manque de données d’entrainement pour améliorer ses algorithmes à l’aide de machine learning.
Google a donc récemment mis à jour son Guide du Quality Rater, destiné aux intérimaires chargés d’alimenter Google en retours d’information sur le spam et les problèmes de qualité sur certaines requêtes, en introduisant la notion de contenu trompeur. Et a déclaré avoir donné une nouvelle mission à ses 10 000 « évaluateurs de la qualité de recherche » : faire la chasse aux pages diffusant des fake news.


Fig. 14. Dans les exemples cités dans le Guide du Quality Rater,
la page de Stormfront citée plus haut apparaît en bonne place.

Toujours pour récupérer plus de données l’aidant à identifier les sources manquant de fiabilité, et pour l’aider à identifier les « fake news », Google a ajouté ou amélioré des formulaires de feedbacks sur la plupart des fonctionnalités de type moteur de réponse.


Fig. 15. Le nouveau formulaire de feedback sur les « featured snippets ».

L’ensemble s’inscrit dans un programme de lutte contre les Fake News que Google a appelé « Project Owl », annoncé dans un post de son blog officiel le 25 avril dernier (https://blog.google/products/search/our-latest-quality-improvements-search/).

Mais tous ces efforts portent uniquement sur la détection des sources « à problèmes ». Google bute depuis des années sur une difficulté : évaluer la véracité des faits collectés sur Internet. C’est un obstacle majeur, car Google après avoir utilisé des sources de données comme Freebase ou d’autres bases de données open source, cherche maintenant à étendre sa base de connaissances en « scrapant » les sites web.

Trouver des méthodes permettant de vérifier l’authenticité des faits récoltés fait l’objet de recherches extrêmement actives chez Google. Mais jusqu’ici, les pistes explorées semblent donner des résultats décevants. Cet article du journal anglais the Independant résume bien la problématique. Il semble donc que le « fact checking » doive rester pour un certain temps encore, l’apanage d’humains.

La crise de la hiérarchie des sources sera durable…

En attendant d’avoir des solutions automatisées fiables, le recours à la supervision ou à la contribution humaine apparait aujourd’hui comme le meilleur rempart pour assurer la diffusion d’informations dont la véracité est vérifiée.

Mais quand bien même parviendrait-on à identifier une forte proportion des fake news, qu’il resterait toujours un problème : la méfiance croissante des internautes face aux medias traditionnels. En effet, il existe un aspect psychologique dans la diffusion des fake news : tant que les théories du complot fleurissent, certains croiront toujours plus volontiers l’information colportée par ses « amis » ou ses « pairs » sur les réseaux sociaux, que l’information officielle.

Nous assistons depuis quelques années à une véritable crise de la hiérarchie traditionnelle des sources. Internet et les réseaux sociaux ont complètement éclaté les sources d’informations, et les media traditionnels, qui filtraient et vérifiaient l’information au passage, ne sont plus les principales sources d’information pour de nombreux internautes. Il va falloir éduquer les nouvelles générations d’internautes pour leur apprendre à « sourcer » l’information, à identifier les sources fiables, et à faire confiance à de nouvelles sources. Dans l’intervalle, les « fake news » vont probablement s’installer dans le paysage médiatique pour de longues années, hélas...


Phlippe Yonnet
Directeur Général de l'agence Search-Foresight, groupe My Media (http://www.search-foresight.com)