L'annonce par Google de l'intégration dans son algorithme de classement de "Rankbrain", une brique logicielle qui selon ses créateurs embarque de l'intelligence artificielle, a fait couler beaucoup d'encre dans le petit monde du SEO. Beaucoup de commentateurs ont spéculé sur ce que pouvait entrainer l'emploi de l'intelligence artificielle dans un algorithme de moteur de recherche. Mais en réalité, la véritable révolution apportée par Rankbrain, c'est l'exploitation d'une méthode nouvelle et très prometteuse en linguistique informatique : le "word embedding". Et dans ces méthodes, le rôle de l'intelligence artificielle est assez mineur : les outils d'IA sont simplement utilisés pour "percevoir" des valeurs concernant des termes, des phrases ou des documents. Mais cela nous fait parfaitement comprendre la façon dont Google fonctionne aujourd'hui et surtout la direction qu'il prendra à l'avenir. Et donc les méthdes SEO à mettre en œuvre pour prendre en compte cette nouvelle vision. Décryptage...

Début de l'article :

Pour comprendre ce qu'est le "Word Embedding", et pourquoi ce concept est révolutionnaire, nous vous proposons de revenir aux concepts fondateurs qui ont été employés depuis des dizaines d'années par les moteurs de recherche. Et nous verrons ensuite en quoi cette nouvelle approche représente un "bond" technologique" majeur qui annonce une adoption rapide, et des applications dans de nombreux domaines nouveaux.

Un peu d'histoire sur les méthodes utilisées en linguistique informatique

L’analyse en sac de mots (bag of words)

Les méthodes utilisées encore aujourd’hui par les principaux moteurs de recherche trouvent leur origine dans des travaux menés dans les années 50. Ce paradigme aura donc tenu plus d’un demi-siècle sans être réellement bousculé dans ses fondements, essentiellement parce que ses applications étaient les seules qui pendant toute cette période permettaient des applications viables.

Sur le plan théorique, l’approche s’appuie sur les travaux du linguiste Noam Chomsky. Zelig Harris, un autre linguiste, a posé les principes de la méthode en 1954. En pratique, l’idée consiste à faire une analyse statistique de la fréquence d’apparition (la fréquence d’occurrence) des termes au sein des textes.

Pour faire ce travail, les occurrences d’un même terme sont comptées sans tenir compte de l’ordre d’apparition des termes dans le texte, ni de la phrase qui le contient : l’information n’est pas conservée. C’est pour cela que les pionniers de cette méthode l’ont appelé « bag of words » : le « sac de mots ».

Fig.1. Principe de l’analyse en sac de mots : les termes sont comptés, puis les statistiques d’occurrences analysées. ...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).