Résumé de l'article :
Nous continuons avec cet article notre exploration, du Web Sémantique. Après la découverte du concept et de ses définitions, puis de ses fomats dans les articles précedents, nous allons essayer de comprendre à quoi servent concrètement aujourd'hui ces notions. Une attention toute particulière a en effet été portée ces dernières années sur les outils sémantiques de recherche, due essentiellement au développement des outils issus du web sémantique. Le "search" est considéré comme une technologie fonctionnelle, limitée à une approche syntaxique. Il manquait cependant encore aux moteurs de recherche l'interprétation sémantique des requêtes ou du contenu. Des technologies comme Search Monkey ou Powerset ont ainsi mis à profit, depuis quelques temps, les technologies du "Natural Language Processing" ou du "Semantic Web". Les résultats sont certes concluants mais restent encore limités à une partie infime du Web...
Début de l'article :
Le Web sémantique, de plus en plus appelé "Web of data" (Web de données) est passé de l'utopie à la réalité en étant inséré dans des outils de recherche d'informations tels que les moteurs web. Ces derniers semblent miser sur la recherche de l'information sous toutes ses formes. Quelles sont les raisons de ce quasi engouement, y-a-t-il une réelle demande de l'internaute pour une telle technologie ? Nous allons tenter de faire dans cet article un état des lieux des outils incorporant des aspects du Web sémantique.
Le web sémantique dans les moteurs de recherche: pour quoi faire ?
La sémantique est techniquement un véritable défi. Satya Nadella, vice-président de la recherche chez Microsoft, résume la situation (http://blogs.msdn.com/livesearch/archive/2008/07/01/powerset-joins-live-search.aspx) : "Les moteurs de recherche sont incapables aujourd'hui de comprendre que les mots "arbuste" et "arbre" renvoient à un même concept. On ne comprend pas pourquoi la requête sur le mot "cancer" renvoie tantôt à l'horoscope, tantôt à la maladie, et comment une recherche ou une page web font référence à l'un ou à l'autre". Selon Satya Nadella toujours, "un tiers des recherches n'obtiennent pas de réponse adéquate lors de la première recherche et au premier clic". Une part très importante qu'il faut donc faire baisser...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).