Thomas Cubel propose dans cet article une réflexion sur la notion d'entité, à l'ère de l'intelligence artificielle et surtout de l'apprentissage automatique, domaines dans lesquels vivent de plus en plus des moteurs de recherche comme Google. Comment ce moteur apprend-il de nos contenus, par approches successives, une entité en dévoilant une autre ? Bienvenue dans le monde merveilleux du graphe de connaissances...

En tant qu’acteur s’intéressant au référencement, vous avez sans doute entendu parler du Knowledge Graph (Graphe de connaissance), de Google RankBrain, ou encore des entités nommées. Aussi, vous le savez peut-être, le fait de comprendre la mécanique générale autour de la création, modification et validation des entités est extrêmement important pour pouvoir créer votre site web, imaginer votre graphe de la connaissance et/ou vérifier que ce que vous apportez est correct et complet.

Nous vous proposons dans cet article de prendre du recul sur la notion d’entité, mais aussi de comprendre l’état d’esprit derrière l’une des inventions les plus révolutionnaires qui soient : le graphe de connaissance.

Avertissement : le sujet étant complexe et particulièrement difficile à traiter dans les moindres détails, cet article peut comporter certains raccourcis permettant aux lecteurs de capturer l’essentiel du message. Que les experts du domaine veuillent bien nous en excuser...

Définition et prise de recul sur la notion d’entité

Autour de nous, nous sommes constamment en présence d’objets, de concepts, d’entités. « Une place pour chaque chose et chaque chose à sa place. » disait (d’après Google) un certain Samuel Smiles. Pour étudier le Web, nous devons également prendre conscience de cela : chaque site, chaque page, chaque mot sont des connaissances que l’on peut plus ou moins définir exhaustivement.

Par exemple, c’est par la citation de nombreux pâtissiers célèbres, de recettes de délicieux gâteaux et de trucs et astuces « de pro », qu’un site de cuisine peut montrer (outre mesure) son expertise dans un domaine spécifique comme la pâtisserie (voir Fig.1).


Fig. 1. Affichage type Knowledge Graph sur Google pour la requête « Lenotre ».


En effet, les concepts, idées et connaissances, à travers l’étude de termes, de pages, de sites, nous permettent de savoir de quoi traite chaque portion du Web. Derrière cette vue micro/macro, cela signifie également qu’une entité renfermant des connaissances, peut être définie par un ensemble d’autres entités renfermant elles-mêmes d’autres concepts et connaissances. Vous l’aurez compris, il existe beaucoup de dépendances.

En SEO, pouvoir spatialiser et imaginer un graphe des connaissances autour d’un sujet, d’une requête et ainsi mettre en œuvre, par exemple, des actions éditoriales, est extrêmement important. Ce sera l’objet des points suivants.

Carte d’identité et papiers du site, s’il vous plait !

Lorsqu’on prend conscience qu’à chaque mot que l’on rajoute sur une page, nous ajoutons de la connaissance, de la nouvelle « matière » exploitable, il est évident que l’on peut aussi faire l’inverse et étudier, décrire, modéliser chaque entité/objet/concept.

Par exemple, si on fait la fiche d’identité du site web Abondance, cela donnerait :

  • Nom de domaine : Abondance.com ;
  • Nom : Abondance, Abondance.com ;
  • Créateur : Olivier Andrieu ;
  • Date de publication : 15 février 1998 ;
  • Hébergeur : OVH.

Et plus encore...

Cela peut paraitre simple, mais imaginez que nous rajoutions à cette entité « Abondance » une relation à une autre entité appelée « La lettre Recherche et Référencement du site web Abondance ». Grâce aux connaissances autour du site web Abondance et de la lettre Réacteur, nous pouvons étudier les effets autour de ces deux entités et pouvons également générer une ou plusieurs autres entités supplémentaires pour déduire et/ou renfermer d’autres connaissances.


Fig. 2. Où la connaissance peut-elle se trouver ? Exemple : dans les livres.
Source de l'image : Patrick Tomasso.

En clair, devant une multitude de pages et de textes, nous pouvons réaliser des milliers de relations entre les mots, les phrases, les paragraphes, ce qui peut nous permettre d’analyser la volumétrie et la qualité des informations pour n’importe quelle portion du Web.

C’est ici qu’à la manière de certains jeux télévisés qui ont déjà été cité dans la communauté (comme le jeu Pyramide), si nous voulons correctement parler d’un sujet, nous savons aujourd’hui qu’il faut utiliser les bons termes / notions importantes pour le décrire le plus possible.

Cependant, nous pouvons finalement conclure qu’étudier les termes (fréquence, présence exclusive par rapport à une requête, etc.) n’est que le début de la réponse. C’est en effet l’ensemble des éléments qui gravitent autour de votre sujet qu’il faut étudier pour trouver la combinaison gagnante.

Ce qui pourrait donc être extraordinaire pour nous référenceurs, c’est d’avoir un outil, une bibliothèque intelligente, un graphe, où nous pourrions extraire très rapidement le contenu des entités, avec les connaissances qui y sont liées et pour un sujet précis. Un tel projet ne s’appelle pas Wikipédia... Même si on pourrait penser que Wikipédia fonctionne de la même manière parce qu’on l’utilise pour les projets de « Web sémantique » par exemple, cette énorme encyclopédie n'est encore une fois que le début de la réponse.

Le Web et les connaissances sont dynamiques, les informations deviennent obsolètes et/ou sont mises à jour… Les entités bougent et le temps passe. Le point suivant traitera donc du dynamisme de ces entités.


Fig. 3. Une vague est dynamique et il faut s’adapter à elle. Idem pour le Web.
Source de l'image : Jeremy Bishop.

Le Web et les connaissances sont dynamiques, votre site doit donc l’être aussi.

Comme nous venons de le voir, une entité peut être composée de quelques informations, comme de plusieurs milliers. Nous ne parlons même pas des relations entre les entités qui peuvent générer des dépendances et donc aucunement la fin du sujet, mais le début d’un autre.

Pour imager rapidement ce fait, prenons l’exemple d’un stylo à bille. Pour présenter correctement ce sujet, nous pourrions nous dire que nous devons parler de la qualité d’écriture de ce stylo, de la taille de sa mine, de sa marque, de la couleur de l’encre, des différentes gammes de prix, etc.

Cependant, malgré l’article extrêmement complet que nous pourrions écrire (et qui pourrait d’ailleurs être très bien positionné par un moteur de recherche), les entités incluses dans le document peuvent nous faire dériver sur un autre sujet. En effet, ne plus rien avoir à dire sur un stylo « en surface » ne signifie pas que l’on doit ou que l’on ne peut pas écrire ou compléter le sujet pour mieux le définir encore.

Nous pouvons dire que nous avons utilisé énormément de concepts, d’idées et de connaissances pour décrire ce sujet convenablement, mais ce n’est qu’un périmètre que nous avons défini. Nous avons toujours le choix de poursuivre la discussion en étendant ce périmètre et en allant sur d’autres sujets dépendant du stylo.

Gardez bien cela à l’esprit : là où se termine un sujet débute un nouveau !


Fig. 4. Si vous deviez écrire sur ce stylo, allez-vous parler de sa fabrication ?
Source de l'image : Helloquence.

Dans la spatialisation d’un graphe de la connaissance pour une entité donnée, il y aura toujours des informations indispensables, importantes et plus secondaires, plus « éloignées ». Cela dépend tout simplement du périmètre défini autour d’un sujet.

En SEO, on peut donc dire que nous sommes autour du concept de glissement sémantique à travers cette notion. Parler d’un sujet progressivement avec un bon glissement sémantique s’approche assez généralement de cette notion de périmètre/frontière à parcourir progressivement.

A contrario, passer d’un sujet à un autre trop brutalement court-circuite certaines entités et les liens ne sont plus vraiment logiques et proches du graphe original. Il manque des informations, nous n’empruntons pas les chemins les plus importants de la connaissance et les périmètres sont mal définis.

Google et la connaissance

Un moteur comme Google possède de nombreux systèmes et algorithmes et il est bien entendu impossible de savoir comment cela fonctionne réellement. Cependant, avec du bon sens, un esprit logique et surtout les connaissances que nous avons sur le moteur de recherche, il apparait qu’il y a de grandes chances qu’au fur et à mesure du crawl, le moteur emmagasine des informations qu’il connait déjà ET des nouvelles informations.

Pour les informations déjà présentes et validées dans « son graphe de connaissance », cela lui permet de savoir si un document est viable ou non. Ce sont des données de référence. En ce qui concerne l’ajout de nouvelles connaissances, c’est un peu plus complexe à gérer pour lui, puisqu’à l’opposé d’un site comme Wikipédia où la majorité des informations sont vérifiées, les sites web peuvent ajouter des informations réellement de qualité ou complètement biaisées.

Dans tous les cas, Google doit probablement procéder à tout un tas de vérification par l’étude des textes, images, vidéos qu’il rencontre, mais aussi en vérifiant les comportements, la répétition des informations et autres indicateurs d’autorités.
Un exemple sera beaucoup plus simple que des milliers de mots.


Fig. 5. Alors, la prochaine Twingo, c’est bien cela Google ?
Source de l'image : Goh Rhy Yan.

Admettons que nous soyons en présence de deux documents traitant de la prochaine Renault Twingo et de ses nouveautés. Comment savoir si les caractéristiques énoncées sont réelles ou non ? Les deux documents sont tout d’abord mis en ligne, Google crawle les deux URL. Il va repérer différents termes et va donc essayer de repérer des entités. Il fait de même avec tout ce qu’il trouve sur chaque page (images, vidéos, liens, documents divers, etc.).

Les entités déjà connues sont étudiées et Google monte plus ou moins la note en ce qui concerne la qualité et l’exhaustivité des informations en fonction de ce qu’il trouve dans chaque page. Les nouvelles entités, quant à elle, si elles n’ont pas l’habitude d’être trouvées dans un tel document ou si elles sont nouvelles, doivent être validées.

Google va donc vérifier si les informations sont disponibles à différents endroits, vérifier la popularité, vérifier si les relations peuvent être correctes, et plus encore. Cela ne lui coute pas grand-chose de créer une nouvelle entité de nos jours, mais beaucoup plus d’avoir des informations fausses. C’est là où on comprend pourquoi Google investit dans le Machine Learning et pourquoi beaucoup de tests sont effectués sur différents niveaux.

En effet, si on revient sur le cas de la future Twingo et que l’on marque qu’elle pourra faire le café en 2019, que seul un document traite de ce sujet et qu’en plus de cela, il ne devient pas populaire ou confirmé par le constructeur… Il y a peu de chance qu’il conserve l’information dans la case « pertinent ».

Les informations peuvent donc tout à fait être en ballotage pendant un moment avant qu’elles soient complètement intégrées à une ou plusieurs entités. Bien sûr, il faut voir tous ces processus de vérification comme une seule petite brique du moteur (dans le cas où il fonctionnerait comme cela encore une fois) et il est tout à fait possible, voire probable, qu’il y ait des vérifications manuelles, des systèmes antispam pour nettoyer les données.

Conclusion

N’oublions pas qu’énormément de connaissances sont ajoutées chaque seconde à travers le Web et qu’un graphe de la connaissance ne peut être que dynamique.

Ce que vous voyez sur le Web aujourd’hui est simplement une photographie à un instant T de tout un tas d’entités renfermant des centaines de millions d’informations. Nos sites doivent donc eux aussi être dynamiques et s’adapter au fur et à mesure du temps aux changements, que ce soit sur l’axe technique, sur vos pages de contenu et dans leurs environnements.

Essayer d’imaginer les interconnexions entre tous les objets de la vie quotidienne en fonction de leurs caractéristiques, actions, dépendances vous permettra d’avoir une vue globale et une vue plus centrée sur un sujet. S’exercer chaque jour à cela permettra même de comprendre d’autres mécaniques intéressantes comme le Pagerank par exemple.


Thomas Cubel, consultant SEO (https://www.thomascubel.com/).