La reconnaissance des entités nommées par les moteurs de recherche

Résumé de l’article :

De nombreux moteurs de recherche majeurs basent aujourd’hui une partie de leurs algorithmes sur la détection des entités nommés : nom de personne, d’entreprise, de lieu, etc. Mais peut-on facilement définir ce qu’est une entité nommée et comment les moteurs les reconnaissent-ils dans les documents qu’ils indexent ? Où en sont les chercheurs dans ce domaine ? Les travaux actuels sont-ils fiables ? Qu’en est-il dans le cadre d’une approche multilingue ? Cet article aborde tous ces sujets et tente de faire le point sur un pan important du Web sémantique, exploré aujourd’hui par Google et ses concurrents…

Début de l’article :

Pour construire un moteur de recherche capable de renvoyer des résultats pertinents, savoir reconnaître qu’un terme représente un nom de personne, une raison sociale d’entreprise ou un nom de lieu représente un atout certain. Ce problème est pris en charge par les techniques de « reconnaissance d’entités nommées » (« Named entities recognition » (NER) en anglais). Certains spécialistes en extraction de l’information ont annoncé voila plusieurs années que leurs méthodes étaient à présent « mûres », annonçant savoir reconnaître plus de 85%, voire plus de 90% des « entités nommées » dans un texte.

En réalité, nous verrons que certains problèmes sont loin d’être résolus, même si les progrès faits dans ce domaine sont rapides, spectaculaires, et leurs applications multiples. Et les principales avancées dans ce domaine pour les moteurs de recherche sont accélérées par la compétition entre les chercheurs de Yahoo, Microsoft et Google. Mais nous verrons que ce sont les équipes de Google qui se sont avérées depuis quelques mois extrêmement prolifiques en brevets et en publications scientifiques, et nous commençons à voir apparaître dans le fonctionnement de Google de nombreuses applications de leurs recherches sur les entités nommées.

Envie de lire la suite ?

Les articles Reacteur en intégralité à partir de 14,90 €/mois.

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua
Ajouter un commentaire Ajouter un commentaire

Article précédent

Mieux gérer ses favoris et améliorer ses recherches web avec XMarks

Article suivant

10 outils de surveillance de sites web