On entend souvent parler de moteurs de recherche sémantique, sans savoir souvent ce que l'on met sous cette appellation. Qu'est-ce qu'un moteur de recherche sémantique ? Existe-t-il des moteurs sémantiques qui ne le soient pas vraiment ? Qu'entend-on par "moteur conceptuel" et comment se fait-il qu'aucun moteur réellement sémantique n'ait réussi à percer jusqu'à aujourd'hui sur le Web ? Pourtant, Google a réussi à intégrer dans ses algorithmes des "morceaux" de tels outils, notamment avec les technologies d'Applied Semantics et d'Orion. Alors, un moteur sémantique et conceptuel peut-il émerger dans un proche avenir ? Voici quelques éléments de réponse...

Cet article fait partie de la Lettre Réacteur #122 du mois de janvier 2011

Début de l'article :

Historiquement, les personnes qui ont développé des moteurs de recherche ont exploré deux voies différentes : les moteurs de recherche syntaxiques et les moteurs de recherche sémantiques.

Les moteurs de recherche syntaxiques considèrent les textes comme des suites de caractères sans signification. Les documents retournés par ces moteurs sont classés en utilisant principalement des calculs de similarité entre chaînes de caractères. Google est un illustre représentant de cette classe de moteurs, ainsi que Bing, Yahoo ou Ask...

Dans les moteurs de recherche sémantiques, le contenu est considéré comme une suite de termes associés à des concepts, et le classement des documents prend en compte les relations sémantiques entre ces concepts.

En théorie, les moteurs de recherche sémantiques ont une supériorité certaine sur les moteurs de recherche syntaxiques. Les résultats renvoyés par ces moteurs contiennent moins de bruit : les résultats non-pertinents sont peu nombreux. Leur précision est meilleure : c'est-à-dire le rapport du nombre de documents pertinents trouvés au nombre total de documents renvoyés. Mais ceci est vrai en théorie seulement, car en pratique, la supériorité des moteurs syntaxiques est écrasante, et aucun moteur de recherche sémantique n'a réussi à sortir du lot.

Dans la suite de cet article, nous allons essayer de mieux comprendre ce qu'est réellement un moteur sémantique (après avoir fait le tour de tout ce que l'on appelle, parfois à tort, les moteurs sémantiques). Nous essaierons également de comprendre pourquoi les moteurs sémantiques purs ne parviennent pas à concurrencer les moteurs syntaxiques. Enfin, nous nous intéresserons aux fonctionnalités sémantiques que des moteurs comme Google ont introduites récemment.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).