La notion de sémantique est aujourd'hui sur toutes les lèvres lorsqu'on parle de moteur de recherche. Google a fait plusieurs annonces à ce sujet (voir nos articles par ailleurs dans cette lettre à ce sujet). Mais l'équipe qui conçoit le moteur de recherche d'Orange travaille également depuis de nombreux mois sur cette thématique, notamment en se basant sur les données issues de Wikipedia. Ces équipes nous décrivent ici les algorithmes conçus pour analyser et "comprendre" les questions posées par les internautes en langage naturel et les mécanismes mis en place pour fournir une réponse qui soit la plus pertinente possible...
Cet article fait partie de la Lettre Réacteur #137 du mois de mai 2012
Début de l'article :
On parle de plus en plus de sémantique lorsqu'est abordé le sujet des moteurs de recherche sur le Web. C'est peut-être oublier que celle-ci est présente depuis longtemps dans les algorithmes utilisés en ligne pour mesurer la pertinence d'une requête.
Ainsi, dès Février 2010, le site d'Orange "Le Moteur" (http://www.lemoteur.fr/) a introduit en tête de sa page de résultats une réponse sémantique lorsque la requête de l'internaute est posée sous la forme d'une question. Cette première version de réponse sémantique dans le moteur Orange est décrite dans l'article du 12 Février 2010 disponible à l'adresse http://www.abondance.com/actualites/20100212-10243-le-moteur-dorange-integre-la-semantique-aux-recherches-geographiques.html.
L'objectif avec cet outil, que nous appellerons par la suite "moteur de question/réponse", était d'introduire une rupture d'usage à la classique réponse sous la forme d'une liste de documents, en apportant directement à l'internaute une réponse à sa question. Aujourd'hui, la rupture d'usage entrevue il y a deux ans trouve naturellement sa place car depuis début 2010 deux faits majeurs sont venus conforter cet usage :
...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).